Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Filogenias moleculares
Sergio Russo MatioliDepto. De Genética e Biologia evolutivaIB - USP Com contribuições de:
Dra Erika Sendra Tavares
Genética de populações, evoluçãomolecular e suas implicações nas
reconstruções filogenéticas
Parte I
Genética de populações
Ciência que estuda a dinâmica de alelos e genótiposem populações
Dados empíricos:
Genótipos de amostras populacionais
Ferramentas analíticas:
Estimadores de parâmetros baseados em modelosmatemáticos
Genética de populaçõesFenômenos estudados
A) Estruturas espaço-temporais de freqüências gênicas egenotípicas
B) Sistemas de cruzamento
C) Mutações
D) Fluxo gênico
E) Seleção natural
F) Deriva genética
Genética de populaçõesProblemas mais comuns
A) Problemas de escala: Estimativas de números muitopequenos (taxas de mutação, coeficientes de seleção, taxas demigração) e números muito grandes (Tamanhos populacionais,número de gerações). O conhecimento empírico dos valores équase sempre impraticável.
B) Problemas de testes de hipóteses: Os fenômenos estudadospela genética de populações não são mutuamente exclusivos eprocessos diferentes podem originar padrões semelhantes.
Genética de populaçõesSoluções dos problemas comuns
A) Muitos parâmetros de Genética de populações que podemser mais facilmente estimados resultam da multiplicação devalores grandes por valores pequenos, como Nm, Ns, Nµ, etc.(N= tamanho populacional, s = coeficiente de seleção e µ =taxa de mutação)
B) Problemas de testes de hipóteses: Certos processos têmefeitos globais e outros têm efeitos locais, assim, o estudo devários locos pode ajudar na interpretação dos padrões.
Evolução molecular
Ciência que estuda padrões existentes em macromoléculas de organismosatuais e faz inferências sobre processos que ocorreram na geração de taispadrões durante a evolução dos organismos.
Dados empíricos:
Seqüências e estruturas de macromoléculas
Ferramentas analíticas:
Programas computacionais baseados em modelos matemáticos.
Evolução molecular
Fenômenos estudados
A) Modificações de estruturas primária, secundária, terciáriae quaternária de macromoléculas por substituição demonômeros ou rearranjos.
B) Duplicações gênicas
C) Transferências horizontais de genes
D) Recrutamento de genes
Evolução molecular
Problemas mais comuns
A) Estabelecimento da homologia (as macromoléculasconsideradas de organismos atuais derivam da mesmamacromolécula que existiu em um ancestral comum?).
B) Estabelecimento do tipo de homologia (ortologia,paralogia e xenologia).
C) Necessidade de conhecimento filogenético prévio.
Evolução molecularSoluções dos problemas mais comuns
A) A homologia pode ser estabelecida com informações deoutros níveis estruturais (estrutura 2ária, 3d),
B) O estabelecimento do tipo de homologia fica facilitadocom o crescimento dos bancos de dados de genomas inteirose também com conhecimento de séries parálogas completas.
C) As filogenias podem ser reconstruídas dados de outranatureza e as informações paleontológicas podem também serutilizadas em certos casos.
Estrutura de proteínas
RNAse
Ácidos nucléícos também têm estruturas!
Algumas generalizações
Qualquer mudança evolutiva, em qualquer nível fenotípico (bioquímico,fisiológico, etológico, morfológico, ecológico, etc.), temNECESSARIAMENTE como causa pelo menos uma modificação de umamacromolécula hereditária.
Uma modificação de uma macromolécula hereditária pode causar OUNÃO uma mudança em algum nível fenotípico (bioquímico, fisiológico,etológico, morfológico, ecológico, etc.)
Algumas generalizações
Uma mudança evolutiva em qualquer nível fenotípico (bioquímico,fisiológico, etológico, morfológico, ecológico, etc.) pode ser causada porUMA ou MAIS modificações diferentes em macromoléculas hereditárias.
As mudanças evolutivas fixadas em organismos atuais passaramnecessariamente por processos estudados pela Genética de populações.
Evolução molecular e genética depopulações
Principais dados empíricos:
As relações entre a estruturas primárias de macromoléculas deorganismos atuais refletem muito mais o parentesco dosorganismos do que as características fenotípicas associadas a estes.(Zukerkandl e Pauling, 1962)
Macromoléculas diferentes evoluem com velocidades diferentes
Taxas de evolução
Evolução molecular e genética depopulações
Principais dados empíricos:
Trechos diferentes de macromoléculas evoluem com velocidadesdiferentes
Macromoléculas que evoluem mais rapidamente são maispolimórficas
Implicações teóricas dos padrõesobservados de evolução molecular
Os polimorfismos moleculares podem ser mantidos dinamicamente porseleção natural ou podem ser transitórios como resultado de derivagenética
A manutenção de polimorfismos por seleção natural, entretanto implicaa imposição de carga genética para as populações naturais
Carga genética
Carga genética é definida como a fração da população que deixade se reproduzir por uma causa de natureza genética. A cargagenética pode ser mutacional, recombinacional ou resultante deseleção natural.
Carga genética
Normalmente, o valor da carga genética é calculado secomparando uma população que não apresenta aquele fatorgenético com uma população que o apresenta. No caso de umapopulação sem seleção , o valor de referência é 1.
Carga genéticaUma população que está sofrendo seleção em favor de heterozigotos(coeficiente de seleção s para um dos homozigotos e t para o outro) temuma proporção de indivíduos que se reproduzem:
1 - sp2 - tq2
Por exemplo, se s = 0,2 e t = 0,1, no equilíbrio q = 0,667 e p = 0,333.Nesse caso a carga genética da população será de cerca de 6,7% dapopulação (aqueles que não se reproduzem por causa genética).
AA Aa aaGenótipos
Valores adaptativos 1-s 1 1-tFreqüências p2 2pq q2
Valor adaptativo médio =
Carga genética = -(sp2+sq2)
Carga genéticaUma população que está sofrendo seleção em favor de heterozigotos para10.000 locos gênicos ao mesmo tempo, supondo que a carga genética daseleção para cada um dos locos é apenas 0,1%, temos:
Valor adaptativo médio da população considerando-se apenas um locogênico:
0,999
Valor adaptativo médio da população considerando-se todos os 10.000locos gênicos:
0,99910000 = 0,000045
Decorrências teóricas
O principal motor da evolução molecular, especialmente no nível desubstituições nucleotídicas, é a deriva genética
Propriedades da evolução por derivagenética
Populações grandes estão menos sujeitas à deriva genética masapresentam maior probabilidade de aparecimento de mutantes neutros.
Populações pequenas estão mais sujeitas à deriva genética masapresentam menor probabilidade de aparecimento de mutantes neutros.
Propriedades da evolução por derivagenética
Propriedades da evolução por derivagenética
As taxas de evolução neutra por deriva genética são portanto constantese independentes dos tamanhos populacionais.
As taxas de evolução neutra por deriva genética são portantoproporcionais às taxas de mutação e à intensidade de seleção naturalnegativa.
Implicações da evolução por deriva genéticanas reconstruções filogenéticas de
organismos por informações de seqüênciasmacromoleculares
Escolha de moléculas
1. Há a necessidade do estabelecimento inequívoco de homologiado tipo ortologia.
2. Idealmente sujeita à evolução predominantemente neutra.
3. Taxas compatíveis com o nível taxonômico alvo.
Implicações da evolução por deriva genéticanas reconstruções filogenéticas de
organismos por informações de seqüênciasmacromoleculares
Escolha dos métodos de análise
Uma vez que a evolução por deriva genética pode ser consideradacomo o principal motor da evolução no nível molecular e estadepende basicamente das propriedades dos processos de mutação ede seleção natural negativa, idealmente esses fatores têm que serlevados em conta.
Filogenias moleculares.Métodos
Parte II
FilogeniasFilogenias“História evolutiva de um grupo taxonômico, incluindo as relações de parentesco entreespécies ancestrais em vários níveis e as espécies descendentes.” - Dalton de SouzaAmorim.
Seqüências recentes
Seqüências ancestrais
A
B
C
D
Fenotípicos Genotípicos
Dados utilizados em reconstruções filogenéticasDados utilizados em reconstruções filogenéticas
Caracteres homólogos: similaridades devidas à ancestralidadecomumExemplo:
654321
ATCGCTTTCGCTATCGCAAGGCGATáxon A
Táxon BTáxon CTáxon D
Estados diferentesde um mesmo
caráter
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Máxima parcimôniaMáxima parcimônia
Máxima verossimilhançaMáxima verossimilhança
Métodos baseados em distânciasMétodos baseados em distâncias
0Nd(N-1,N) 0N-1
......0...d(4,N)d(4,N-1)...04d(3,N)d(3,N-1)...d(3,4) 03d(2,N)d(2,N-1)...d(2,4)d(2,3) 02d(1,N)d(1,N-1)...d(1,4)d(1,3)d(1,2) 01
NN-1...4321
Dada uma matriz de distâncias:Dada uma matriz de distâncias:
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Métodos baseados em distânciasMétodos baseados em distâncias
Árvores são diagramas com dimensões fracionárias nosÁrvores são diagramas com dimensões fracionárias nosquais os nós são conectados por ramos, sem que haja ciclos. Umaquais os nós são conectados por ramos, sem que haja ciclos. Umaárvore derivada de uma matriz de distância deve respeitar asárvore derivada de uma matriz de distância deve respeitar asdistâncias presentes na matriz.distâncias presentes na matriz.
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Métodos baseados em distânciasMétodos baseados em distâncias
Considere a seguinte matriz com distâncias par a par entre asConsidere a seguinte matriz com distâncias par a par entre asseqüências A, B, C, D e E (p. ex. Número de sítios diferentes):seqüências A, B, C, D e E (p. ex. Número de sítios diferentes):
94D
9458C
192192192B
19219219282A
EDCBA
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Métodos baseados em distânciasMétodos baseados em distâncias
Os nós A, B, C, D e E e as distâncias entre os nós podem serOs nós A, B, C, D e E e as distâncias entre os nós podem serassim representados:assim representados:
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Métodos baseados em distânciasMétodos baseados em distâncias
As linhas que conectam os nós A, B, C, D e E podem serAs linhas que conectam os nós A, B, C, D e E podem serrearranjadas geometricamente de tal forma que as distânciasrearranjadas geometricamente de tal forma que as distânciaspresentes na matriz sejam preservadas:presentes na matriz sejam preservadas:
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Métodos baseados em distânciasMétodos baseados em distâncias
As distâncias nas árvores são idênticas às da matriz:As distâncias nas árvores são idênticas às da matriz:
94D
9458C
192192192B
19219219282A
EDCBA
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Métodos baseados em distânciasMétodos baseados em distâncias
Nesse caso particular, uma árvore Nesse caso particular, uma árvore ultramétrica ultramétrica pôde serpôde serreconstruída:reconstruída:
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Métodos baseados em distânciasMétodos baseados em distâncias
E
122D
272222C
23418486B
239189163125A
EDCBA
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Métodos baseados em distânciasMétodos baseados em distânciasConsidere a seguinte matriz com distâncias par a par entre asConsidere a seguinte matriz com distâncias par a par entre asseqüências A, B, C, D e E (p. ex. Número de sítios diferentes):seqüências A, B, C, D e E (p. ex. Número de sítios diferentes):
As distâncias na árvore são as mesmas da matriz:As distâncias na árvore são as mesmas da matriz:
E122D272222C23418486B239189163125A
EDCBA
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Métodos baseados em distânciasMétodos baseados em distâncias
No caso particular das distancias abaixo não pôde serNo caso particular das distancias abaixo não pôde serreconstruída uma árvore reconstruída uma árvore ultramétricaultramétrica::
Métodos baseados em distânciasMétodos baseados em distâncias
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
• Método simples e muito rápido;
• Pode ser aplicado em bases de dados muito extensas.
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Métodos baseados em distâncias. VantagensMétodos baseados em distâncias. Vantagens
• Não considera os dados originais, apenas as distancias.• Mais sujeito ao fenômeno GIGO (ELSL).
Métodos baseados em distâncias.Métodos baseados em distâncias.DesvantagensDesvantagens
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Modelo evolutivo Modelo evolutivo –– menor número de mutações explicam o conjunto menor número de mutações explicam o conjuntode dados.de dados. 654321
TTCGCTATTGGTAGCGCAAGGGGATáxon A
Táxon B
Táxon CTáxon D
7 passos7 passos 9 passos9 passos8 passos8 passos
A
D C
BA
C D
BA
B D
C
Homoplasia: origens independentes do mesmo estado de caráterHomoplasia: origens independentes do mesmo estado de caráter
Máxima parcimôniaMáxima parcimônia
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Substituições múltiplas ou homoplasia podem ser comuns em dadosmoleculares:
• As homoplasias não podem ser evidenciadas através do estudo daestrutura e do desenvolvimento.
T A
T G C A1 2 3
1
Máxima parcimôniaMáxima parcimôniaSubstituições múltiplas e homoplasiasSubstituições múltiplas e homoplasias
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
• Método com premissas simples;
• Deve resultar em dados confiáveis:- Homoplasia e substituições múltiplas forem raras ou
distribuídas aleatoriamente na topologia.- Amostragem densa.
Máxima parsimônia. VantagensMáxima parsimônia. Vantagens
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
• Pode levar a resultados errados se homoplasia for comum ouconcentrada em partes específicas da árvore. Exemplo:
-Desvio de composição de bases;-Atração de ramos longos. Mais de uma linhagemacumulando substituições em velocidade diferente das demaislinhagens.
• Exige muito esforço computacional.
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Máxima Máxima parsimôniaparsimônia. Desvantagens. Desvantagens
Verossimilhança (L) é a probabilidade dos dados dado oVerossimilhança (L) é a probabilidade dos dados dado omodelo evolutivo e uma hipótese de topologia filogenética.modelo evolutivo e uma hipótese de topologia filogenética.
L = P (dados/árvore)L = P (dados/árvore)
Modelo evolutivoModelo evolutivoReconhecimento de diferentes padrões de substituição.Reconhecimento de diferentes padrões de substituição.
A
C T
GTransição
Transversão PurinaPirimidina
Máxima verossimilhançaMáxima verossimilhança
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Freqüência de bases, por exemplo:
pi(A) = 33.0% pi(C) = 37.0% pi(G) = 10.0% pi(T) = 20.0%Proporção de sítios invariáveis
Distribuição dos sítios variáveis
Taxa 0 de variação
Substituições distribuídas aolongo dos sítios
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Máxima verossimilhança. Modelo evolutivoMáxima verossimilhança. Modelo evolutivo
Escolha do modelo evolutivoEscolha do modelo evolutivo
Os valores dos parâmetros considerados são estimados apartir dos dados com base no modelo evolutivo escolhido.
LLTT = L = L (1) (1) x L x L (2)(2) x L L (3)(3) x L L (4)(4) x..x L (N)(N) = ∏ L (i)n
i = 1
DCBA
CCTT7654321
TGGAGATATAGATCCCGATCAGAA
Táxon
Táxon
Táxon
Táxon
CC AALL(5)(5) = = Prob Prob ++
CC GG
AA AA
Prob +Prob +CC
CC
AA
GG
AA CC
CC
CC
AA
GG
CC TTProb +Prob +
Prob ... +Prob ... +
Prob +Prob +CC
CC
AA
GG
NN NN
Verossimilhança (L) é a probabilidade dos dados dado o modelo evolutivoVerossimilhança (L) é a probabilidade dos dados dado o modelo evolutivoe uma hipótese de topologia filogenética.e uma hipótese de topologia filogenética.
L = P (dados/árvore)L = P (dados/árvore)
AA
CC
BB
DD
AA
BB
CC
DD
AA
DD
CC
BB
Máxima verossimilhançaMáxima verossimilhança
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
• Utiliza todos os sítios;
• Permite considerar modelo evolutivo específico;
• Estimativa acurada dos tamanhos de ramo (substituições/ sítio)mesmo quando ocorre substituições múltiplas;
• Menos sensível a atração de ramos longos se o modelo foradequado.
Máxima verossimilhança. VantagensMáxima verossimilhança. Vantagens
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
• Valores dos parâmetros são estimados e fixados a partir dosdados e podem não refletir adequadamente as taxas naturais desubstituição e freqüências se a amostragem não for significativa;
• Tempo de cálculo muito longo.
Máxima verossimilhança. DesvantagensMáxima verossimilhança. Desvantagens
Reconstrução filogenética:Reconstrução filogenética:Métodos de inferênciaMétodos de inferência
Apoio para os ramosApoio para os ramos““BootstrapBootstrap””
Registro daRegistro damelhor árvoremelhor árvore
Finaliza após vários ciclosFinaliza após vários ciclos
Melhor topologia para aMelhor topologia para apseudo-réplicapseudo-réplica
Matriz de dados eMatriz de dados emodelo evolutivomodelo evolutivo
DCBA
CCTT7654321
TGGAGATATAGATCCCGATCAGGA
Pseudo Pseudo –– réplica da réplica damatriz é geradamatriz é gerada
DCBA
CCTT7554331
GGGAAAAATAAACCCCCACCAGGA
ABC
E
100 %
90%
70 %D
Topologia consensoTopologia consenso