Filogenia molecular

Preview:

Citation preview

Alinhamentos e árvores filogenéticas: Estudo evolucionário dos genomas

Classificação e nomenclatura biológica

Se baseia na idéia de que organismos vivos são divididos em espécies – grupos de organismos similares com um reservatório genético comum

Linnaeus – naturalista sueco – classificação em hierarquia:

Reino, Filo, Classe, Ordem, Familia, Gênero e Espécie

Identificação de espécie – binômio Gênero e Espécie ex. Homo sapiens

Linha Evolutiva do HomemLI NHA EVOLUTI VA DO HOMEM

Pongídeos(orangotangos)

Panídeos(Gorilas, chimpanzés)

Hominídeos(homens)

ANTROPOI DES

HOMINOI DES

CATARRI NOS

Hilobatídeos(Gibões)

PRI MATASORDEM

SUB-ORDEM

SUPERFAMÍ LI A

FAMÍLI A

GRUPO

PRÓ-SÍ MI OS

PLATI RRINOS

LI NHA EVOLUTI VA DO HOMEM

Pongídeos(orangotangos)

Panídeos(Gorilas, chimpanzés)

Hominídeos(homens)

ANTROPOI DES

HOMINOI DES

CATARRI NOS

Hilobatídeos(Gibões)

PRI MATASORDEM

SUB-ORDEM

SUPERFAMÍ LI A

FAMÍLI A

GRUPO

PRÓ-SÍ MI OS

PLATI RRINOS

Evolução FísicaPostura ereta

Liberação dos

Membros superiores

Manipulação de

objetos

Alterações físicas

Evolução cerebral

Mudanças

comportamentais

Desenvolvimento

Social (saber do fazer)

Evolução Cultural

(saber erudito)

Postura ereta

Liberação dos

Membros superiores

Manipulação de

objetos

Alterações físicas

Evolução cerebral

Mudanças

comportamentais

Desenvolvimento

Social (saber do fazer)

Evolução Cultural

(saber erudito)

Forças evolutivas

MUDANÇAS CLIMÁTICAS

FORTE PRESSÃO SELETIVA

ASSIM:

POSTURA ERETA E BIPEDALISMO

FORAM SELECIONADOS FAVORAVELMENTE

Mecanismos de evolução

Principal força de evolução

Duplicação dos genes

Susumu Ohno, 1970, Evolution by gene duplication. Berlin, SpringerVerlag

Hipótese de Ohno

“Gene duplication emerged as the major force of evolution. Only when a redundant gene locus is created by duplication is it permitted to accumulate forbidden mutations and emerge as a new gene locus with unknown function”

Duplicação gênicaDuplicação gênica

• Duplicação em tandem

• Translocação

• Transposição

• Não disjunção meiótica

• Poliploidia

Mutações não silenciosas

Mutações específicas levam a novas funções gênicas:

Sítio ativo de enzimas ou de ligantes de proteínas;

Elementos reguladores determinam expressão espaço-temporal dos genes duplicados.

Evolução do tamanho e Composição de genomas

Variedade em tamanho e organização do genoma:Bactéria marinha Brevundimonas diminuta –

1,6 MbEucariotos: Neoceratodus forsteri – mais de

50Gb [1 gigabase (Gb) = 109 pb] Variação na composição nucleotidea:

Bacteria = GC – de 20 a 70%

Complexidade organísmica e o paradoxo do valor C

Amoeba dubia – 670 Gb200 x maior que o genoma humanoMenos complexa que o ser humano

• evolução, desenvolvimento ou comportamento

Se refere ao paradoxo do valor Cquantidade característica de DNA por célula de um

organismo Eucariotos com genomas grandes não tem mais

genes do que os que tem genomas pequenos.

Consistência genômica

DNA extraSequencias repetitivasElementos transponíveisIntrons mais longos e sequencias não

codificadoras intercalam os genes Aumento do tamanho do genomas resultou do

numero efetivo da população, diminuia efeciencia da seleção para eliminar as duplicações gênicas e as inserções de elementos transponiveis

Modelo do paradoxo C

´O aumento do tamanho do genoma, não foi em si próprio adaptativo, mas o DNA extra propiciou muitas oportunidades novas para a origem de inovações genéticas mediante especialização da função de genes duplicados, evolução de sequencias reguladoras em grandes íntrons, e assim por diante´

Composição de bases do DNA genômico

Ampla variação do conteudo G+C entre organismos éa viés mutacional (Suoeka, 1988)

Significa mudança preferencial de GC para AT, ou vice-versa

Viés mutacional

Viés mutacional pró-GC empurrará gradualmente o genoma em direção a um conteudo de G+C mais alto

Viés mutacional pró-AT levará a um conteÚdo G+C mais baixo. Em regiões codificadoras, a extensão dessas mudanças é

restringida pela natureza do código genético, pois alguns aminoácidos necessitam de códons ricos em A+T, e outros ricos em G+C.

A terceira posição de muitos códons é mais flexível e as diferentes composições de bases entre organismos estão em geral refletidas em diferenças no conteúdo G+C da terceira posição do códon, o que é simbolizado por GC3

Conversão gênica enviesada

Sequencias semelhantes de DNA interagem no processo de recombinação

Fitas de DNA de uma pequena região da dupla-hélice se separam e formam pares de base com uma das fitas de outra dupla hélice no mesmo núcleo.

Pareamento se faz com parte correspondente da molécula de DNA que constitui o gene homólogo

Nessa região pareadas, as vezes há mau pareamento, são corrigidos pelo reparo de mau pareamento, o nucleotídeo malpareado é removido e substituído por um nucleotídeo correto (aleatório)

Na conversão gênica enviesada há preferência pelo par G-C ou A-T

DIFERENÇAS ENTRE ESPÉCIES

Divergência sinônima e não-sinônima Duas sequencias coficadoras alinhadas, por

exemplo, sequencias de diferentes espécies, é considerar sítio por sítio, levando em conta todas as substituições nucleotídeas possíveis em cada sitio seriam sinônimas e não sinônimas

Esses sítios não são fixos, mudam ao longo do tempo oportunidades mutacionais

Fungos mutualistas x patogênicosFungos mutualistas x patogênicos

Genômica estrutural

Contribuição para o entendimento das relações fungo-planta do ponto de vista evolutivo, o fato de que um microrganismo endofítico pode se tornar patogênico.

O que faz um fungo ser patogênico?

A capacidade de causar doenças se origina de multiplas vezes durante a evolução.

Analise genômica comparativa: evolução da fitopagenecidade

Comparações genômicas permitem

Apontar novas famílias de genes que podem ter função de virulência, permitindo sua seleção para estudos funcionais

Identificar mecanismos patogenicos conservados e inovações e adaptações patogênicas de linhagens especificas

Revelar onde eventos de transferência gênica horizontal contribuíram para aquisição de novas funções associadas a virulência

Evolução MolecularO estudo da história dos organismos através das macromoléculas...

Evolução

Alteração das freqüências gênicas

Inferências filogenéticas podem ser feitas através de:

• Caracteres Morfológicos

• Aspectos comportamentais

• Fisiologia

• Moléculas

Os organismos possuem padrões

Alinhamento múltiplo de proteínas ribossomais L36

E as moléculas também

Uso da filogenia

Historia da biogeografiaEstudar onde os organismos vivem

em seus nichosEstudar a similaridade entre os

organismos

Árvore filogenéticaÁrvore filogenética

• Diagrama constituído de nós e ramos, na qual um ramo conecta dois nós adjacentes, representando relações de ancestralidade.

•Representa a história evolutiva de um grupo de espécies ou populações (árvore de espécie).

•Árvore construída apenas com um gene par cada espécie – não representa a história evolutiva da espécie, mas sim do gene (árvore gênica)

Nó representa um unidade taxonômica (OTU), que pode ser uma espécie atual ou ancestralRamo representa a relação entre táxons em termos de descendência e ancestralidadeComprimento do ramo representa o número de mudanças que ocorreram ao longo do ramo desde sua separação do ancestral comum mais recente ea raiz, ancestral comum a todos os taxons.

raiz

Tempo evolucionário

Alouatta

Ateles

Lagothrix

Brachyteles

Grupos monofiléticos

Ancestral de Lagothrix e Brachyteles

raiz

Tempo evolucionário

Alouatta

Ateles

Lagothrix

Brachyteles

Grupos monofiléticos

Ancestral de Lagothrix e Brachyteles

Filogenia com Filogenia com características características morfológicasmorfológicas

Source: Cardini, A. 2003. The geometry of the Marmot (Rodentia: Sciuridae) mandible: phylogeny and patterns of morphological evolution. Systematic Biology, 52(2): 186-205.

Filogenia geográfica

Source: Ribas, C.C. and Miyaki, C.Y. 2004. Molecular systematics in Aratinga parakeets: species limits and historical biogeography in the ‘solstitialis’ group, and the systematic position of Nandayus nenday. Molecular Phylogenetics and Evolution, 30: 663-675.

Até ~1990, as filogenias eram baseadas na morfologia da especie

Agora temos muitas sequencias de DNA e dados genomicos disponiveis que podemos ter filogenia baseada na molecular e morfologica.

Como é feita a analise filogenética?

Inicia-se com um simples sequencia de 6 nucleotídeos a partir de 5 especies:

Observe um único carácter

A ACGTAA

B CCTTAA

C CGTCAA

D CGTCCG

E CGTCCG

Posição 1: especie A tem um A onde todos tem um C

Posição 3: especie A tem um G onde todos tem um T

Posição 2: especie A e B tem um C onde todos tem um G Continua com outras muitas posições

A ACGTAA

B CCTTAA

C CGTCAA

D CGTCCG

E CGTCCG

Análise filogenética

Dois principais métodos:

Métodos baseados em distânciasMétodos baseados em caracteres

Árvores...

Árvores Filogenéticas

A

B

D

E

F

G

HI C

OTU – Unidade Taxonômica Operacional (Nó terminal)Ramo Terminal

Nó ancestral

Ramo Ancestral

Árvores Filogenéticas

A

B B

DD

E

F

G

HI

E

CC

A

1 unidade

Tempo

2

1

1

6

22

3

2

Árvores Filogenéticas

AA

B

BD

D

EE

F

G

HI C

C

Tem po

R

Relógio Molecular

À medida que duas espécies divergem de um

ancestral comum, acumulam mutações em uma taxa regular, ficando progressivamente mais

diferentes uma da outra...

Relógio Molecular

Especiação

3 mutações

2 mutações

2 mutações

2 mutações

1 mutação

1 mutação

Acúmulo de Diferenças

A

A2A1

Homologia

Um caráter é homólogo em dois organismos se foi herdado por ambos a partir de seu ancestral comum.

Para análise de sequências: Não existe percentagem de homologia: ou uma seqüência

é homóloga, ou não é Quanto maior a similaridade entre as seqüências, maior a

probabilidade de serem homólogas No entanto, duas seqüências podem ser homólogas e não

apresentar similaridades (depende do tempo de divergência entre elas)

Homologia

Exemplos:

Órgãos homólogos – asas de morcego e mãos de humanos (mesma origem)

Órgãos similares – asas de morcego e asas de borboleta (mesma função)

HOMOLOGIA vs SIMILARIDADE

Estes conceitos tendem a ser extremamente confundidos quando aplicados a sequências de DNA e proteínas

Aplicações comuns: ‘high homology’, ‘significant homology’, ‘35% homology’.

O termo homologia se refere a uma descendência evolucionária comum, enquanto similaridade se refere a uma medida quantitativa daquilo que há em comum.

Definições Críticas

Concluir que duas (ou mais) sequências são homólogas é uma suposição/hipótese

Só é possível se pudermos explorar diretamente os ancestrais comuns e todas as suas formas intermediárias

Homologia entre dois genes Similaridade entre eles (variável observável que pode ser expressa numericamente e correlacionada com probabilidade)

Importante !!! Distinguir entre dois tipos de relação entre homólogos, as quais diferem em suas implicações evolutivas e funcionais.

Homólogos: Ortólogos e Parálogos

Parálogos: genes presentes em um mesmo organismo (geralmente famílias multigênicas) que evoluíram dentro de um mesmo genoma (antes ou depois da especiação)

Ortólogos: genes presentes em diferentes organismos que se originaram de um ancestral comum antes da especiação

Especiação

Duplicação do gene

Duplicação Gênica

Aumento da quantidade de genes nas células

Freqüente formação de pseudo-genes(genes que foram desligados)

Vantagens e Desvantagens

Vantagens:• A comparação entre organismos muito diferentes é

possível • Uso de genes diferentes para diferentes problemas• A evolução molecular é melhor compreendida que a

morfológica• Existem modelos e testes• Relógio molecular e Neutralismo - Teoricamente é

possível datar os eventos de divergência.

Vantagens e Desvantagens

Desvantagens:Técnicas mais

carasUso de produtos

cancerígenos e radioativos

Árvores de genes e não de espécies

Escolha do Gene

De acordo com a taxa de substituições nucleotídicas, levando em conta o tempo estimado de divergência dos organismos a serem comparados

Pseudogenes, regiões intergênicas e íntrons são indicados para espécies próximas ou populações

Histonas são indicadas para filogenias entre reinos.

Métodos Moleculares

Extração do DNA total do organismo

Reação de PCR com “primers” apropriados para amplificar o gene escolhido

Purificação dos fragmentos Seqüenciamento

Métodos Moleculares

Verificação da qualidade dos cromatogramas

Análise das Seqüências

BLAST (ferramenta do NCBI)Permite a comparação rápida da seqüência

obtida no laboratório com as seqüências presentes nos bancos de dados

Permite a busca por seqüências semelhantes para a construção de filogenias

Análise das Seqüências

Alinhamento de basesGarante que os sítios a serem

comparados tenham maior probabilidade de serem homólogos

G

AAA

AA

AAA

AA

CC

C AT

T TTTT T

TT

CCCC

AAA

AA

GGGGG

TTT

C

CC

CCC

AAA

AA

TTTT

TT

TN

GGGG

GGGG

T

TT

AGGGG

TTTT

CCCC

CCCC

TTTT

TTTT

T

T

CC

GGGG

TTTT

AAA

AA

GGGG

GT

TT T

TT

A

AAA

AA

A

Métodos de Reconstrução da Filogenia

Métodos que buscam, dentre todas as árvores possíveis, a que melhor represente a história evolutiva dos organismos estudados: Máxima Parcimônia

• Escolha da topologia que apresentar o menor número de substituições.

Máxima Verossimilhança• Escolha da topologia que apresentar o maior grau de adequação

a um modelo de substituição.Evolução Mínima

• Escolha da topologia que apresentar o menor tamanho dos ramos

• Problema: O número de topologias aumenta exponencialmente com o número de OTUs.

N. de OTUs N. de árvores enraizadas

N. de árvores não enraizadas

2 1 13 3 14 15 35 105 156 945 1057 10.395 9458 135.135 1.3959 2.027.025 135.13510 34.459.425 2.027.02515 2,13458 x 1014 7,90585 x 1012

20 8,20079 x 1021 2,21643 x 1020

25 1,19257 x 1030 2,53738 x 1028

30 4,9518 x 1038 8,68736 x 1036

40 1,00985 x 1057 1,31149 x 1055

50 2,75292 x 1076 2,83806 x 1074

CARACTERÍSTICAS DE UMA ÁRVORE FILOGENÉTICA

A maioria das árvores apresenta um padrão mais complexo necessidade de outros termos

Seqs. monofiléticas: derivam de um ancestral comum

Clade: grupo de seq. monofiléticas

Grupo parafilético: quando algumas seqs. da clade são excluídas

Grupo Polifilético: seqs. derivadas de diferentes ancstrais

Árvore Inferida ≠ Árvore Real

Alinhamento de Sequências

Diferenças entre sequências são pontuadas

Se forem homólogas ancestral comum = base para o estudo

Os métodos utilizados SEMPRE produzem uma árvore, mesmo com informações errôneas

Os nucleotídeos homólogos devem ser comparados

Conversão do alinhamento em uma árvore

Diversos métodos

MATRIZ DE DISTÂNCIAS

Tabela contendo as distâncias evolucionárias entre todos os pares de sequências. Distância evolucionária: n diferença de nucleotídeos = comprimento do ramo

comprimento das sequências

Conversão do alinhamento em uma árvore

NEIGHBOR-JOINING

- Usa os dados da matriz de distâncias

- Inicialmente, assume que há só um nó interno e todos os ramos que levam

às seqs. de DNA se irradiam dele.

- Um par de seqs. é escolhido ao acaso, removido do nó e anexado a um

novo nó

- O comprimento do ramo é calculado

- Este processo é repetido com todos os possíveis pares até a identificação

do ramo com o menor comprimento

- As sequências restantes passam pelos mesmos passos descritos acima até

que o ramo com o segundo menor comprimento seja identificado, e assim

sussecivamente

Conversão do alinhamento em uma árvore

MÁXIMA PARSIMÔNIA

Usa os dados de alinhamento mútiplo

Parsimônia: é a preferência pela explicação mais simples para uma observação

Estratégia que analisa diferentes árvores, identificando aquela que apresenta a menor via evolucionária = aquela que requer o menor número de mudanças de nucleotídeos para ir da seq. ancestral até as mais recentes

Árvores são construídas ao acaso e o número de mudanças nucleotídicas é calculado até todas as possíveis topologias terem sido examinadas.

•É baseado na suposição de que a árvore mais provável é a que requer o menor número de mudanças para explicar toda a variação observada na matriz de caracteres (ex. seqüencias alinhadas).

• Baseia-se no principio da homologia, ou seja, se dois táxons compartilham uma característica é porque foi herdado do ultimo ancestral comum a ambos.

Método dá máxima parcimônia (MP)Método dá máxima parcimônia (MP)

•A aplicação do princípio de máxima parcimônia nas A aplicação do princípio de máxima parcimônia nas reconstruções filogenéticas é conceitualmente muito reconstruções filogenéticas é conceitualmente muito simples: simples:

•Devemos escolher, dentre as árvores possíveis, Devemos escolher, dentre as árvores possíveis, aquela com aquela com o menor número de substituições o menor número de substituições que que seja compatível com as seqüências observadas. seja compatível com as seqüências observadas.

•Entretanto, a implementação é complexa, pois o Entretanto, a implementação é complexa, pois o número de árvores possíveis pode atingir valores número de árvores possíveis pode atingir valores muito altos. muito altos.

O princípio da parcimônia nas O princípio da parcimônia nas reconstruções filogenéticasreconstruções filogenéticas

Para 3 seqüências, existe apenas uma árvore possível (que sejam bifurcantes, árvores tais como A--B--C não são consideradas):

Para 4 seqüências, existem 3 árvores (bifurcantes) possíveis.

Para 5 seqüências existem 15 árvores (bifurcantes):

Avaliação da acurácia da árvore reconstruída

ANÁLISE BOOTSTRAP

Construção de um novo alinhamentoao acaso:

O novo alinhamento compreende sequências

que são diferentes do verdadeiro

Mas tem um padrão similar de variabilidade

•O número de árvores cresce muito rapidamente à O número de árvores cresce muito rapidamente à medida que aumenta o número de seqüências. medida que aumenta o número de seqüências.

•Para 10 seqüências,mais de um milhão de árvores Para 10 seqüências,mais de um milhão de árvores são possíveis. Para se atingir o número de são possíveis. Para se atingir o número de partículas elementares do Universo conhecido partículas elementares do Universo conhecido (~1080), bastam 59 seqüências! E isso contando (~1080), bastam 59 seqüências! E isso contando apenas as árvores sem raiz e estritamente apenas as árvores sem raiz e estritamente bifurcantes. bifurcantes.

Quantas árvores?

Recommended