Upload
internet
View
116
Download
2
Embed Size (px)
Citation preview
Métodos geométricos(baseados em
distância)
Cálculo de DistânciasAs distâncias evolutivas são
calculadas para todos os pares de taxa (ou OTUs) e a árvore é construída considerando as relações entre estes valores
www.megasofware.net
Estatísticas das Seqüências
Conteúdo de basesDistância das sequências par a partransiçoes/transversões (0,5)
Ou 2x trans/transv (1,0)
Todas estas estatísticas são levadas em conta na escolha do modelo de substituição a ser utilizado
Cálculo de DistânciasDistância p
n
pppV
)1()(
n
ndp
Distância pSe as seqüências forem muito
distintas, p pode ser subestimado por homoplasiasCom isso, algumas correções são
necessáriasComo regra geral:
se p > 0,3 a distância calculada por p é uma subestimativa
Se p > 0,5 – metade dos aa são diferentes...Se p > 0,15 – utilizar algum modelo de
substituição para corrigir a estimativa
Jukes-Cantor (d) - JCCorreção que leva em conta a
possibilidade de substituições de bases
A T C G A - α α α T α - α α C α α - α G α α α -
Substituições ocorrem com igual frequência em todos os nn, e que cada nn muda para qualquer outro com uma probabilidade α por ano (r = 3 α)
r é a taxa de substituição por sítio e por ano.
Considere duas sequencias, X e Y que divergiram de um ancestral há t anos Seja qt a proporção de sítios idênticos e
pt a proporção de sítios diferentes (1 – qt)
Jukes-Cantor (d) - JC
Proporção de sítios idênticos em t+1:Probabilidade de que um sítio idêntico
em t continue idêntico em t+1:(1 – r)2 = 1 – 2r + r2 1 – 2r
probabilidade de que um sítio diferente em t se torne idêntico em t+1
2r/3
Jukes-Cantor (d) - JC
Seja Xi e Yj em t:
Para que sejam idênticos em t+1:Xi Xj e Yj Yj ;
α (1 – r) ou
Xi Xi e Yj Yi ; (1 – r) α
2 . α (1 – r) = 2 . r/3 (1-r) = 2r/3 – 2r2/3 2r/3
Então:
Ou:
)1(3
2)21(1 ttt qrqrq
ttt qrr
qq3
8
3
21
Jukes-Cantor (d) - JC
Então:
Ou:
)1(3
2)21(1 ttt qrqrq
ttt qrr
qq3
8
3
21
Jukes-Cantor (d) - JCSítio idêntico em t que continua
idêntico
Então:
Ou:
)1(3
2)21(1 ttt qrqrq
ttt qrr
qq3
8
3
21
Jukes-Cantor (d) - JCSítio idêntico em t que continua
idêntico
Sítio não idêntico em t que passou a ser idêntico
Representando qt+1 – qt por dq/dt:
Em condições iniciais q = 1 em t = 0:
qrr
dt
dq
3
8
3
2
)1(4
31 3/8rteq
Jukes-Cantor (d) - JC
Se p = (1 - q)
Sendo d a proporção de nn que se modificaram com o tempo: d = 2r . t
)1(4
3 )3/8rtep
rtrteep
23
4
3
8
113
4
dep 3
4
13
4
)3
41ln(
4
3 pd
Jukes-Cantor (d) - JC
dep 3
4
13
4
3
4
3
41
d
ep
Ae A ln
AeA ln
3
4
ln)3
41ln(
d
ep
3
4)
3
41ln(
dp
)3
41ln(
4
3 pd
)3
41ln(
4
3 pd
np
ppdV
2)43(
)1(9)ˆ(
Jukes-Cantor (d) - JC
Kimura 2 parâmetros – K80
Correção que leva em conta probabilidades diferentes de transições e transversões
A T C G A - β β α T β - α β C β α - β G α β β -
r = α + 2βTransiçõesAs transversões
)21)(4
1( 8)(4 tt eeP
)1)(2/1( 8 teQ
)21ln()4
1()21ln()
2
1(
422
QQP
ttrtd
Kimura 2 parâmetros – K80
Tamura Leva em conta as diferenças em transições
e transversões (α e β), além da frequência diferencial de CG.
A T C G A - βθ2 βθ1 αθ1
T βθ2 - αθ1 βθ1
C βθ2 αθ2 - βθ1
G αθ2 βθ2 βθ1 -θ1 = frequência de CG
θ2 = freqüência de AT
Tamura-Nei (TrN) Leva em conta as diferenças em transições
e transversões (α e β), além da frequência diferencial de bases (g).
A T C G A - βgT βgC αα11ggGG
T βgA - αα22ggCC βgG
C βgA αα22ggTT - βgG
G αα11ggAA βgT βgC -
gA, gT, gC, gG = frequência de cada uma das bases
Tajima-Nei (F81) Leva em conta apenas as diferentes
freqüências das bases: A T C G
A - αgT αgC α1gG
T αgA - αgC α1gG
C αgA αgT - α1gG
G αgA αgT αgC -
gA, gT, gC, gG = frequência de cada uma das bases
General Time Reversible (GTR)
Leva em conta diferentes freqüências de bases e de substituições
A T C G A - agT bgC cgG
T agA - dgC egG
C bgA dgT - fgG
G cgA egT fgC -
gA, gT, gC, gG = frequência de cada uma das basesa, b, c, d, e, f = probabilidade de substituição
Distâncias GammaNas distâncias consideradas
anteriormente, assume-se que a taxa de substituições nucleotídicas é a mesma para todos os sítios...
Na verdade, isso dificilmente é assim, e esta taxa varia de sítio para sítio.
Parâmetro a ser ajustado = α
Distâncias Gamma
α=0,2
α=1α=2
α=5
α=10
UPGMA (Unweighted Pair-Group Method with Arithmetic Mean)
É o mais simples e intuitivo dos métodos
Se baseia nas médias das distâncias entre as OTUs
Parte do princípio de que o relógio molecular está “funcionando”
A
B
D
E
F
G
HI C
Tempo
Exemplo numéricoLocalizar a menor distância:
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
Exemplo numéricoLocalizar a menor distância:
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
Exemplo numéricoLocalizar a menor distância:
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
A
B
00,51,0
Calcular médias
AB
C D E F
AB
X
C X
D 4 X
E 2 4 X
F 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4 X
E 2 4 X
F 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 2 4 X
F 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 9 2 4 X
F 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 9 2 4 X
F 7,5 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 9 2 4 X
F 7,5 3 5 3 X
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 9 2 4 X
F 7,5 3 5 3 X
A
B
C
E
00,51,01,5
AB
C D E F
AB
X
C 4,5 X
D 4,5 4 X
E 9 2 4 X
F 7,5 3 5 3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE X
D X
F 5 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE X
D X
F 5 X
(dAC+dAE+dBC=dBE)/4
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE 6,75
X
D X
F 5 X
(dAC+dAE+dBC=dBE)/4
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE 6,75
X
D 4,5 X
F 7,5 5 X
Repetindo a matriz anterior
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE 6,75
X
D 4,5 X
F 7,5 5 X
(dCD+dED)/2
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE 6,75
X
D 4,5 4 X
F 7,5 5 X
(dCD+dED)/2
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
AB CE D F
AB X
CE 6,75
X
D 4,5 4 X
F 7,5 3 5 X
(dCF+dEF)/2
AB CE D F
AB X
CE 6,75
X
D 4,5 4 X
F 7,5 3 5 X
A
B
C
E
F
00,51,01,52,0
AB CEF
D
AB X
CEF 7 X
D 4,5 4,3 X
A
B
C
E
F
D
00,51,01,52,02,5
Calcular as médias (dAC+dAE+dAF+dBC+dBE+dBF)/6;
(dCD+dED+dFD)/3
AB
CEFD
AB X
CEFD
6.3
X
A
B
C
E
F
D
00,51,01,52,02,53,03,5
Calcular a média (dAC+dAD+dAE+dAF+dBC+dBD+dBE+dB
F)/8
Matriz cofenéticaA
B
C
E
F
D
00,51,01,52,02,53,03,5
A B C D E F
A X
B 1 X
C 6,3
6,3
X
D 6,3
6,3
4,3 X
E 6,3
6,3
2 4,3
X
F 6,3
6,3
3 4,3
3 X
Comparação entre matrizes...
Original Cofenética A B C D E F
A X
B 1 X
C 6,3
6,3
X
D 6,3
6,3
4,3
X
E 6,3
6,3
2 4,3
X
F 6,3
6,3
3 4,3
3 X
A B C D E F
A X
B 1 X
C 4 5 X
D 6 3 4 X
E 9 9 2 4 X
F 7 8 3 5 3 X
Quando a taxa de substituição de nucleotídeos varia de uma linhagem para a outra, o UPGMA fornece a topologia incorreta
Nestes casos é necessário utilizar métodos que permitam taxas evolutivas diferentes entre os organismos
UPGMA - Limitações
Evolução MínimaMétodo que busca, dentre todas as
árvores possíveis, aquela cuja soma dos tamanhos de ramos é a menor (parte do princípio que a árvore verdadeira seria a que contém os menores tamanhos de ramos)Limitações: como o número de
topologias possíveis é muito grande, a busca pode tornar-se lenta
Neighbor Joining (NJ)Saitou & Nei (1987)Método baseado no princípio da
evolução mínimaNão examina todas as
topologias, mas requer o princípio da EM em todos os estágios (é uma simplificação da EM)
Conceito de “vizinhos” – dois taxa conectados por um único nó numa árvore não enraizada (1,2 e 5,6)
Neighbor Joining (NJ)
Neighbor Joining (NJ)
Algoritmo: Início com uma topologia em estrela Somar todos os tamanhos de ramos da
árvore inicial (S0) Tomar um par de vizinhos, estabelecer a
distância entre este par e todos os outros Estimar Si,j
Repetir o procedimento para todos os pares de vizinhos até encontrar o menor S.
Neighbor Joining (NJ)
Neighbor Joining (NJ)
)1( m
T
m
jiij
m
iix d
mLS
1
1
10
Neighbor Joining (NJ)
m
iiYXYXX LLLLS
32112
Neighbor-Joining
Testes Estatísticos
Bootstrap: é o mais utilizado, faz uma reamostragem dos sítios com reposição:
G
AAA
AA
CC
C AT
TTTTTT
TTCCCC
GGGGG
TTT
C
CC
AAA
AA
TTTT
TT
TN
GGGG
GGGG
e b o k e f e h c j k f m n i AA
A
AA
CCCC
G
AAA
AA
AAA
AA
CC
C AT
TTTTTTTTCCCC
AAA
AA
GGGGG
TTT
C
CC
AAA
AA
TTTT
TT
TN
GGGG
GGGG
a b c d e f g h i j k l m n o
a b c d c f g h d j o l m n o
G
AAA
AA
AAA
AA
CC
CT
TTTT
CCCC
AAA
AA
GGGGG
C
CC
AAA
AA
TTTT
TT
TN
GGGG
GGGG
CC
CT
GGGG
TTT
T
Bibliografia
Li W-H. 1997. Molecular Evolution. Sinauer Ass. Publish.
Matioli, S.R. 2001. Biologia Molecular e Evolução. Editora Holos, São Paulo.
Nei, M. & Kumar, S. 2000. Molecular Evolution and Phylogenetics. Oxford University Press.