1
Seleção de modelos de substituição de nucleotídeos − I
1. Revisão
2. Princípio da verossimilhança
3. Teste da razão das verossimilhanças
Objetivos: Compreender o princípio de verossimilhança e sua aplicação em estimação de parâmetros e teste de hipóteses e o uso desse princípio para selecionar modelos de substituição de nucleotídeos.
2
A G
TC
Seleção de modelos de substituição
1. Revisão
3
Matriz de taxas instantâneas, Q
A
C
G
T
A C G T
Q =
μ → taxa média de substituição instantâneaa, b,…, l → taxas relativas de substituição
π → frequência do nucleotídeo
Seleção de modelos de substituição
1. Revisão
4
A G
TC
a g
bh
cj
d
i f l
ek
Seleção de modelos de substituição
1. Revisão
5
6
A G
TC
Seleção de modelos de substituição
1. Revisão
7
Nú
mero
de s
ítio
s co
m n
mu
taçõ
es
Número de mutações
Seleção de modelos de substituição
1. Revisão
8
1.0
0
0.5
Taxa de substituição (r)
Pro
po
rção
de s
ítio
s f
(r)
Distribuição gama com parâmetro de forma αSeleção de modelos de substituição
1. Revisão
9
• Distribuição da taxa de substituição, r,para diversos valores do parâmetro de
forma, α, da distribuição gama
Valores baixos de αAlta variação nas taxas ⎯ maioria dos sítios éinvariável, mas alguns sítios têm altas taxas de substituição
Valores altos de αBaixa variação nas taxas ⎯ maioria dos sítios tem a mesma taxa de substituição
Seleção de modelos de substituição
1. Revisão
10
Sequências alinhadas
Modelo de substituição de nucleotídeos
Variação na taxa de substituição entre sítios
Seleção de modelos de substituição
1. Revisão
11
Seleção de modelos de substituição de nucleotídeos − I
1. Revisão
2. Verossimilhança
3. Teste da razão das verossimilhanças
12
Sequência do gene globina−ψη humano
Seleção de modelos de substituição
2. Verossimilhança
13
Seleção de modelos de substituição
2. Verossimilhança
A G
TC
α
α
αα αα
TGCA ππππ ===
JC69
14
Qual a verossimilhança da sequência do
gene globina−ψη humano sob o modelo de
frequências de bases iguais,
Jukes & Cantor?
Seleção de modelos de substituição
2. Verossimilhança
15
• 894 sítios
• Modelo de substituição de Jukes & Cantor ⇒ frequência de nucleotídeos = 1/4
Seleção de modelos de substituição
2. Verossimilhança
16
Seleção de modelos de substituição
2. Verossimilhança
89425,0=L34,1239)25,0ln(894ln −==L
17
Seleção de modelos de substituição
2. Verossimilhança
A G
TC
α
α
αα αα
TGCA ππππ ≠≠≠
F81
18
Qual a verossimilhança da sequência
do gene globina−ψη humano sob o
modelo com frequências de bases
desiguais (F81)?
Seleção de modelos de substituição
2. Verossimilhança
19
• 894 sítios• A = 272, C = 297, G = 95, T = 230
• πA = 0,30 πC = 0,33
• πG = 0,11 πT = 0,26
Seleção de modelos de substituição
2. Verossimilhança
20
TGCA nT
nG
nC
nAL ππππ ×××=
23095
297272
25,011,033,030,0
××
×=
Seleção de modelos de substituição
2. Verossimilhança
21
( ) ( )( ) ( )26,0ln23011,0ln95
33,0ln29730,0ln272ln+
++=L
17,1176ln −=L
Seleção de modelos de substituição
2. Verossimilhança
22
17,1176ln 81 −=FL
34,1239ln −=−CantorJukesL
• Verossimilhança para o modelo F81 é maior que a verossimilhança para o modelo de Jukes-Cantor
• O modelo F81 explica melhor a variação nas sequências que o modelo de Jukes-Cantor(melhor ajuste)
Seleção de modelos de substituição
2. Verossimilhança
23
• Suponha uma árvore com dois
nós conectados por um único
ramo
• Como calcular a verossimilhança
para uma árvore com dois nós?
Seleção de modelos de substituição
2. Verossimilhança
24
Sequência 1
A A T C G A
G C C A T A
G C G
Sequência 2
A A C A G A
C A C A G T
C C G
Árvore com dois nós
Seleção de modelos de substituição
2. Verossimilhança
25
Sequência 1 — A A T C G A G C C A T A G C G
Sequência 2 — A A C A G A C A C A G T C C G
( ) ( )tii eiitP αα 431
41Pr)( −+== 2 seq. na 1 seq. na
( ) ( )tij eijtP αα 41
41Pr)( −−== 2 seq. na 1 seq. na
Probabilidades de transição segundo
o modelo de Jukes & Cantor
Seleção de modelos de substituição
2. Verossimilhança
26
Sequência 1 — A A T C G A G C C A T A G C G
Sequência 2 — A A C A G A C A C A G T C C G
Probabilidades de transição segundo o
modelo de Jukes & Cantor
Qual a verossimilhança do sítio 1 (L1)?
Seleção de modelos de substituição
2. Verossimilhança
27
( )( )1 seq. na A com começa 2 seq. na A com termina
1seq.naAcom começaPr
Pr1 ×=L
( )44 344 21
iiP
teL ⎥⎦⎤
⎢⎣⎡ +×⎟
⎠⎞
⎜⎝⎛= − α4
1 3141
41
( )teL α41 31
161 −+=
Seleção de modelos de substituição
2. Verossimilhança
28
Sequência 1 — A A T C G A G C C A T A G C G
Sequência 2 — A A C A G A C A C A G T C C G
Probabilidades de transição segundo o
modelo de Jukes & Cantor
Qual a verossimilhança do sítio 12, (L12)?
Seleção de modelos de substituição
2. Verossimilhança
29
( )( )1 seq. na G com começa 2 seq. na Tcom termina
1 seq. na G com começa
PrPr12 ×=L
( )4434421
ijP
teL ⎥⎦⎤
⎢⎣⎡ −×⎟
⎠⎞
⎜⎝⎛= − α4
12 141
41
( )teL α412 1
161 −−=
Seleção de modelos de substituição
2. Verossimilhança
30
Seqüência 1 — A A T C G A G C C A T A G C G
Seqüência 2 — A A C A G A C A C A G T C C G
Qual a função de verossimilhança
para todos os sítios?
8 sítios idênticos e 7 diferentes
Seleção de modelos de substituição
2. Verossimilhança
31
Qual a função de verossimilhança,
L(αt), para todos os sítios?
( ) ( )44 344 2144 344 21
diferentes sítios idênticos sítios 7
74
8
84 1
16131
161
⎥⎦⎤
⎢⎣⎡ −×⎥⎦
⎤⎢⎣⎡ += −− tt eeL αα
( ) ( )⎥⎦⎤
⎢⎣⎡ −+⎥⎦
⎤⎢⎣⎡ += −− tt eeL αα 44 1
161ln731
161ln8ln
Seleção de modelos de substituição
2. Verossimilhança
32
Qual o parâmetro desconhecido
na função de verossimilhança?
( ) ( )⎥⎦⎤
⎢⎣⎡ −+⎥⎦
⎤⎢⎣⎡ += −− tt eeL αα 44 1
161ln731
161ln8ln
Parâmetro desconhecido na
função de verossimilhança é α t
Seleção de modelos de substituição
2. Verossimilhança
33
• O parâmetro desconhecido na função de verossimilhança é α t
• Quem é α t?
–Produto da taxa de substituição pelo tempo
Número total, por sítio, de substituições em entre duas linhagens
α t = comprimento do ramo
Seleção de modelos de substituição
2. Verossimilhança
34
( ) ( )⎥⎦⎤
⎢⎣⎡ −+⎥⎦
⎤⎢⎣⎡ += −− tt eeL αα 44 1
161ln731
161ln8ln
• Como estimar o parâmetro desconhecido αt?
• Usar possíveis valores de αt na função de verossimilhança, para obter valores de ln L
• Escolher o valor de αt que maximiza ln L
Seleção de modelos de substituição
2. Verossimilhança
35
Seleção de modelos de substituição
2. Verossimilhança
αt — número esperado de substituições por sítio
ln L
ln L = − 1589,77 e αt = 0,03091825
36
Seleção de modelos de substituição de nucleotídeos − I
1. Revisão
2. Verossimilhança
3. Teste da razão das verossimilhanças
• Teste da razão das verossimilhanças
–Medida da plausibilidade relativa de duas hipóteses é dada pela razão de suas verossimilhanças
)](max[])(max[ 0
Amostraoalternativ ModeloAmostranulo Modelo
ALL
=Λ
L0 → Verossimilhança dos dados sob a hipótese nula
L1 → Verossimilhança dos dados sob a hipótese alternativa
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
Λ =
A G
TC
α
α
αα αα
TGCA ππππ ===
1
2
3
4
A G
TC
α
α
ββ ββ
TGCA ππππ ===
1
2
3
4
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
K81
JC69
Teste hierárquico de modelos de substituição de DNA
Taxas iguais entre os sítiosF81vs
F81 + GAMA
HKY85vs
HKY85 + GAMA
K80vs
K80 + GAMA
JC69vs
JC69 + GAMA
RejeitaAceita
Frequências de bases iguais
JC69 vs F81
Taxas de transição e transversão iguais
JC69 vs K80 F81 vs HKY85
RejeitaAceita RejeitaAceita
40
Estatística do teste da razão das verossimilhanças
)](max[])(max[ 0
Amostraoalternativ ModeloAmostranulo Modelo
ALL
=Λ
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
41
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
⎟⎟⎠
⎞⎜⎜⎝
⎛−
1
0log2LL
;log2 Λ−1
0
LL
=Λ
42
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
⎟⎟⎠
⎞⎜⎜⎝
⎛−
1
0log2LL
10 log2log2 LL +−( )01 loglog2 LL −
43
Estatística do teste da razão
das verossimilhanças
Λ− log201 loglog2 LL −
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
44
• Hierarquia de modelos aninhados
–O modelo na hipótese nula (L0) é um
caso especial do modelo na hipótese
alternativa (L1)
Por exemplo, o modelo de Jukes-Cantor (JC)
e o modelo de Felsenstein 1981 (F81) são
aninhados [JC é um caso especial de F81]
No modelo JC as frequências de bases são
todas iguais a 0,25, ao passo que no modelo
F81 as frequências podem ser diferentes
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
45
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
86,7675log 0 −=L
Peixe
Rã Humano
Pássaro
Rato
A G
TC
α
α
αα αα
TGCA ππππ ===
Peixe
Rã Humano
Pássaro
Rato
α
α
αα αα
A G
TC
TGCA ππππ ≠≠≠
08,7667log 0 −=L
F81
JC69
46
( )01 loglog2 LL −
( ) ( )[ ]86,767508,76672 −−−
[ ] 56,1786,767508,76672 =+−
Cálculo da estatística do teste da
razão das verossimilhanças
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
47
• Estatística do teste da razão
das verossimilhanças, −2 log Λ,
pode ser comparada à
distribuição χ2 com 3 graus de
liberdade
−2 log Λ = 17,56
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
48
Valores críticos da distribuição χ2
com ν graus de liberdade
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
49
Seleção de modelos de substituição
3. Teste da razão das verossimilhanças
• Conclusão
–Hipótese nula de frequências de bases iguais é rejeitada
–Modelo alternativo F81 resulta em melhor ajuste dos dados que o modelo de Jukes & Cantor
81,795,17ln2 >=Λ−
Teste hierárquico de modelos de substituição de DNA
Taxas iguais entre os sítiosF81vs
F81 + GAMA
HKY85vs
HKY85 + GAMA
K80vs
K80 + GAMA
JC69vs
JC69 + GAMA
RejeitaAceita
Frequências de bases iguais
JC69 vs F81
Taxas de transição e transversão iguais
JC69 vs K80 F81 vs HKY85
RejeitaAceita RejeitaAceita
51
Seleção de modelos de substituição de nucleotídeos − I
1. Revisão
2. Princípio da verossimilhança
3. Teste da razão das verossimilhanças
Objetivos: Compreender o princípio de verossimilhança e sua aplicação em estimação de parâmetros e teste de hipóteses e o uso desse princípio para selecionar modelos de substituição de nucleotídeos.