Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição...

Preview:

Citation preview

1

Seleção de modelos de substituição de nucleotídeos − I

1. Revisão

2. Princípio da verossimilhança

3. Teste da razão das verossimilhanças

Objetivos: Compreender o princípio de verossimilhança e sua aplicação em estimação de parâmetros e teste de hipóteses e o uso desse princípio para selecionar modelos de substituição de nucleotídeos.

2

A G

TC

Seleção de modelos de substituição

1. Revisão

3

Matriz de taxas instantâneas, Q

A

C

G

T

A C G T

Q =

μ → taxa média de substituição instantâneaa, b,…, l → taxas relativas de substituição

π → frequência do nucleotídeo

Seleção de modelos de substituição

1. Revisão

4

A G

TC

a g

bh

cj

d

i f l

ek

Seleção de modelos de substituição

1. Revisão

5

6

A G

TC

Seleção de modelos de substituição

1. Revisão

7

mero

de s

ítio

s co

m n

mu

taçõ

es

Número de mutações

Seleção de modelos de substituição

1. Revisão

8

1.0

0

0.5

Taxa de substituição (r)

Pro

po

rção

de s

ítio

s f

(r)

Distribuição gama com parâmetro de forma αSeleção de modelos de substituição

1. Revisão

9

• Distribuição da taxa de substituição, r,para diversos valores do parâmetro de

forma, α, da distribuição gama

Valores baixos de αAlta variação nas taxas ⎯ maioria dos sítios éinvariável, mas alguns sítios têm altas taxas de substituição

Valores altos de αBaixa variação nas taxas ⎯ maioria dos sítios tem a mesma taxa de substituição

Seleção de modelos de substituição

1. Revisão

10

Sequências alinhadas

Modelo de substituição de nucleotídeos

Variação na taxa de substituição entre sítios

Seleção de modelos de substituição

1. Revisão

11

Seleção de modelos de substituição de nucleotídeos − I

1. Revisão

2. Verossimilhança

3. Teste da razão das verossimilhanças

12

Sequência do gene globina−ψη humano

Seleção de modelos de substituição

2. Verossimilhança

13

Seleção de modelos de substituição

2. Verossimilhança

A G

TC

α

α

αα αα

TGCA ππππ ===

JC69

14

Qual a verossimilhança da sequência do

gene globina−ψη humano sob o modelo de

frequências de bases iguais,

Jukes & Cantor?

Seleção de modelos de substituição

2. Verossimilhança

15

• 894 sítios

• Modelo de substituição de Jukes & Cantor ⇒ frequência de nucleotídeos = 1/4

Seleção de modelos de substituição

2. Verossimilhança

16

Seleção de modelos de substituição

2. Verossimilhança

89425,0=L34,1239)25,0ln(894ln −==L

17

Seleção de modelos de substituição

2. Verossimilhança

A G

TC

α

α

αα αα

TGCA ππππ ≠≠≠

F81

18

Qual a verossimilhança da sequência

do gene globina−ψη humano sob o

modelo com frequências de bases

desiguais (F81)?

Seleção de modelos de substituição

2. Verossimilhança

19

• 894 sítios• A = 272, C = 297, G = 95, T = 230

• πA = 0,30 πC = 0,33

• πG = 0,11 πT = 0,26

Seleção de modelos de substituição

2. Verossimilhança

20

TGCA nT

nG

nC

nAL ππππ ×××=

23095

297272

25,011,033,030,0

××

×=

Seleção de modelos de substituição

2. Verossimilhança

21

( ) ( )( ) ( )26,0ln23011,0ln95

33,0ln29730,0ln272ln+

++=L

17,1176ln −=L

Seleção de modelos de substituição

2. Verossimilhança

22

17,1176ln 81 −=FL

34,1239ln −=−CantorJukesL

• Verossimilhança para o modelo F81 é maior que a verossimilhança para o modelo de Jukes-Cantor

• O modelo F81 explica melhor a variação nas sequências que o modelo de Jukes-Cantor(melhor ajuste)

Seleção de modelos de substituição

2. Verossimilhança

23

• Suponha uma árvore com dois

nós conectados por um único

ramo

• Como calcular a verossimilhança

para uma árvore com dois nós?

Seleção de modelos de substituição

2. Verossimilhança

24

Sequência 1

A A T C G A

G C C A T A

G C G

Sequência 2

A A C A G A

C A C A G T

C C G

Árvore com dois nós

Seleção de modelos de substituição

2. Verossimilhança

25

Sequência 1 — A A T C G A G C C A T A G C G

Sequência 2 — A A C A G A C A C A G T C C G

( ) ( )tii eiitP αα 431

41Pr)( −+== 2 seq. na 1 seq. na 

( ) ( )tij eijtP αα 41

41Pr)( −−== 2 seq. na 1 seq. na 

Probabilidades de transição segundo

o modelo de Jukes & Cantor

Seleção de modelos de substituição

2. Verossimilhança

26

Sequência 1 — A A T C G A G C C A T A G C G

Sequência 2 — A A C A G A C A C A G T C C G

Probabilidades de transição segundo o

modelo de Jukes & Cantor

Qual a verossimilhança do sítio 1 (L1)?

Seleção de modelos de substituição

2. Verossimilhança

27

( )( )1 seq. na A com começa 2 seq. na A com termina

1seq.naAcom começaPr

Pr1 ×=L

( )44 344 21

iiP

teL ⎥⎦⎤

⎢⎣⎡ +×⎟

⎠⎞

⎜⎝⎛= − α4

1 3141

41

( )teL α41 31

161 −+=

Seleção de modelos de substituição

2. Verossimilhança

28

Sequência 1 — A A T C G A G C C A T A G C G

Sequência 2 — A A C A G A C A C A G T C C G

Probabilidades de transição segundo o

modelo de Jukes & Cantor

Qual a verossimilhança do sítio 12, (L12)?

Seleção de modelos de substituição

2. Verossimilhança

29

( )( )1 seq. na G com começa 2 seq. na Tcom termina

1 seq. na G com começa

PrPr12 ×=L

( )4434421

ijP

teL ⎥⎦⎤

⎢⎣⎡ −×⎟

⎠⎞

⎜⎝⎛= − α4

12 141

41

( )teL α412 1

161 −−=

Seleção de modelos de substituição

2. Verossimilhança

30

Seqüência 1 — A A T C G A G C C A T A G C G

Seqüência 2 — A A C A G A C A C A G T C C G

Qual a função de verossimilhança

para todos os sítios?

8 sítios idênticos e 7 diferentes

Seleção de modelos de substituição

2. Verossimilhança

31

Qual a função de verossimilhança,

L(αt), para todos os sítios?

( ) ( )44 344 2144 344 21

diferentes sítios idênticos sítios  7

74

8

84 1

16131

161

⎥⎦⎤

⎢⎣⎡ −×⎥⎦

⎤⎢⎣⎡ += −− tt eeL αα

( ) ( )⎥⎦⎤

⎢⎣⎡ −+⎥⎦

⎤⎢⎣⎡ += −− tt eeL αα 44 1

161ln731

161ln8ln

Seleção de modelos de substituição

2. Verossimilhança

32

Qual o parâmetro desconhecido

na função de verossimilhança?

( ) ( )⎥⎦⎤

⎢⎣⎡ −+⎥⎦

⎤⎢⎣⎡ += −− tt eeL αα 44 1

161ln731

161ln8ln

Parâmetro desconhecido na

função de verossimilhança é α t

Seleção de modelos de substituição

2. Verossimilhança

33

• O parâmetro desconhecido na função de verossimilhança é α t

• Quem é α t?

–Produto da taxa de substituição pelo tempo

Número total, por sítio, de substituições em entre duas linhagens

α t = comprimento do ramo

Seleção de modelos de substituição

2. Verossimilhança

34

( ) ( )⎥⎦⎤

⎢⎣⎡ −+⎥⎦

⎤⎢⎣⎡ += −− tt eeL αα 44 1

161ln731

161ln8ln

• Como estimar o parâmetro desconhecido αt?

• Usar possíveis valores de αt na função de verossimilhança, para obter valores de ln L

• Escolher o valor de αt que maximiza ln L

Seleção de modelos de substituição

2. Verossimilhança

35

Seleção de modelos de substituição

2. Verossimilhança

αt — número esperado de substituições por sítio

ln L

ln L = − 1589,77 e αt = 0,03091825

36

Seleção de modelos de substituição de nucleotídeos − I

1. Revisão

2. Verossimilhança

3. Teste da razão das verossimilhanças

• Teste da razão das verossimilhanças

–Medida da plausibilidade relativa de duas hipóteses é dada pela razão de suas verossimilhanças

)](max[])(max[ 0

Amostraoalternativ ModeloAmostranulo Modelo

ALL

L0 → Verossimilhança dos dados sob a hipótese nula

L1 → Verossimilhança dos dados sob a hipótese alternativa

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

Λ =

A G

TC

α

α

αα αα

TGCA ππππ ===

1

2

3

4

A G

TC

α

α

ββ ββ

TGCA ππππ ===

1

2

3

4

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

K81

JC69

Teste hierárquico de modelos de substituição de DNA

Taxas iguais entre os sítiosF81vs

F81 + GAMA

HKY85vs

HKY85 + GAMA

K80vs

K80 + GAMA

JC69vs

JC69 + GAMA

RejeitaAceita

Frequências de bases iguais

JC69 vs F81

Taxas de transição e transversão iguais

JC69 vs K80 F81 vs HKY85

RejeitaAceita RejeitaAceita

40

Estatística do teste da razão das verossimilhanças

)](max[])(max[ 0

Amostraoalternativ ModeloAmostranulo Modelo

ALL

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

41

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

⎟⎟⎠

⎞⎜⎜⎝

⎛−

1

0log2LL

;log2 Λ−1

0

LL

42

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

⎟⎟⎠

⎞⎜⎜⎝

⎛−

1

0log2LL

10 log2log2 LL +−( )01 loglog2 LL −

43

Estatística do teste da razão

das verossimilhanças

Λ− log201 loglog2 LL −

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

44

• Hierarquia de modelos aninhados

–O modelo na hipótese nula (L0) é um

caso especial do modelo na hipótese

alternativa (L1)

Por exemplo, o modelo de Jukes-Cantor (JC)

e o modelo de Felsenstein 1981 (F81) são

aninhados [JC é um caso especial de F81]

No modelo JC as frequências de bases são

todas iguais a 0,25, ao passo que no modelo

F81 as frequências podem ser diferentes

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

45

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

86,7675log 0 −=L

Peixe

Rã Humano

Pássaro

Rato

A G

TC

α

α

αα αα

TGCA ππππ ===

Peixe

Rã Humano

Pássaro

Rato

α

α

αα αα

A G

TC

TGCA ππππ ≠≠≠

08,7667log 0 −=L

F81

JC69

46

( )01 loglog2 LL −

( ) ( )[ ]86,767508,76672 −−−

[ ] 56,1786,767508,76672 =+−

Cálculo da estatística do teste da

razão das verossimilhanças

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

47

• Estatística do teste da razão

das verossimilhanças, −2 log Λ,

pode ser comparada à

distribuição χ2 com 3 graus de

liberdade

−2 log Λ = 17,56

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

48

Valores críticos da distribuição χ2

com ν graus de liberdade

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

49

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

• Conclusão

–Hipótese nula de frequências de bases iguais é rejeitada

–Modelo alternativo F81 resulta em melhor ajuste dos dados que o modelo de Jukes & Cantor

81,795,17ln2 >=Λ−

Teste hierárquico de modelos de substituição de DNA

Taxas iguais entre os sítiosF81vs

F81 + GAMA

HKY85vs

HKY85 + GAMA

K80vs

K80 + GAMA

JC69vs

JC69 + GAMA

RejeitaAceita

Frequências de bases iguais

JC69 vs F81

Taxas de transição e transversão iguais

JC69 vs K80 F81 vs HKY85

RejeitaAceita RejeitaAceita

51

Seleção de modelos de substituição de nucleotídeos − I

1. Revisão

2. Princípio da verossimilhança

3. Teste da razão das verossimilhanças

Objetivos: Compreender o princípio de verossimilhança e sua aplicação em estimação de parâmetros e teste de hipóteses e o uso desse princípio para selecionar modelos de substituição de nucleotídeos.

Recommended