51
1 Seleção de modelos de substituição de nucleotídeos I 1. Revisão 2. Princípio da verossimilhança 3. Teste da razão das verossimilhanças Objetivos: Compreender o princípio de verossimilhança e sua aplicação em estimação de parâmetros e teste de hipóteses e o uso desse princípio para selecionar modelos de substituição de nucleotídeos.

Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

1

Seleção de modelos de substituição de nucleotídeos − I

1. Revisão

2. Princípio da verossimilhança

3. Teste da razão das verossimilhanças

Objetivos: Compreender o princípio de verossimilhança e sua aplicação em estimação de parâmetros e teste de hipóteses e o uso desse princípio para selecionar modelos de substituição de nucleotídeos.

Page 2: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

2

A G

TC

Seleção de modelos de substituição

1. Revisão

Page 3: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

3

Matriz de taxas instantâneas, Q

A

C

G

T

A C G T

Q =

μ → taxa média de substituição instantâneaa, b,…, l → taxas relativas de substituição

π → frequência do nucleotídeo

Seleção de modelos de substituição

1. Revisão

Page 4: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

4

A G

TC

a g

bh

cj

d

i f l

ek

Seleção de modelos de substituição

1. Revisão

Page 5: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

5

Page 6: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

6

A G

TC

Seleção de modelos de substituição

1. Revisão

Page 7: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

7

mero

de s

ítio

s co

m n

mu

taçõ

es

Número de mutações

Seleção de modelos de substituição

1. Revisão

Page 8: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

8

1.0

0

0.5

Taxa de substituição (r)

Pro

po

rção

de s

ítio

s f

(r)

Distribuição gama com parâmetro de forma αSeleção de modelos de substituição

1. Revisão

Page 9: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

9

• Distribuição da taxa de substituição, r,para diversos valores do parâmetro de

forma, α, da distribuição gama

Valores baixos de αAlta variação nas taxas ⎯ maioria dos sítios éinvariável, mas alguns sítios têm altas taxas de substituição

Valores altos de αBaixa variação nas taxas ⎯ maioria dos sítios tem a mesma taxa de substituição

Seleção de modelos de substituição

1. Revisão

Page 10: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

10

Sequências alinhadas

Modelo de substituição de nucleotídeos

Variação na taxa de substituição entre sítios

Seleção de modelos de substituição

1. Revisão

Page 11: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

11

Seleção de modelos de substituição de nucleotídeos − I

1. Revisão

2. Verossimilhança

3. Teste da razão das verossimilhanças

Page 12: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

12

Sequência do gene globina−ψη humano

Seleção de modelos de substituição

2. Verossimilhança

Page 13: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

13

Seleção de modelos de substituição

2. Verossimilhança

A G

TC

α

α

αα αα

TGCA ππππ ===

JC69

Page 14: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

14

Qual a verossimilhança da sequência do

gene globina−ψη humano sob o modelo de

frequências de bases iguais,

Jukes & Cantor?

Seleção de modelos de substituição

2. Verossimilhança

Page 15: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

15

• 894 sítios

• Modelo de substituição de Jukes & Cantor ⇒ frequência de nucleotídeos = 1/4

Seleção de modelos de substituição

2. Verossimilhança

Page 16: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

16

Seleção de modelos de substituição

2. Verossimilhança

89425,0=L34,1239)25,0ln(894ln −==L

Page 17: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

17

Seleção de modelos de substituição

2. Verossimilhança

A G

TC

α

α

αα αα

TGCA ππππ ≠≠≠

F81

Page 18: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

18

Qual a verossimilhança da sequência

do gene globina−ψη humano sob o

modelo com frequências de bases

desiguais (F81)?

Seleção de modelos de substituição

2. Verossimilhança

Page 19: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

19

• 894 sítios• A = 272, C = 297, G = 95, T = 230

• πA = 0,30 πC = 0,33

• πG = 0,11 πT = 0,26

Seleção de modelos de substituição

2. Verossimilhança

Page 20: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

20

TGCA nT

nG

nC

nAL ππππ ×××=

23095

297272

25,011,033,030,0

××

×=

Seleção de modelos de substituição

2. Verossimilhança

Page 21: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

21

( ) ( )( ) ( )26,0ln23011,0ln95

33,0ln29730,0ln272ln+

++=L

17,1176ln −=L

Seleção de modelos de substituição

2. Verossimilhança

Page 22: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

22

17,1176ln 81 −=FL

34,1239ln −=−CantorJukesL

• Verossimilhança para o modelo F81 é maior que a verossimilhança para o modelo de Jukes-Cantor

• O modelo F81 explica melhor a variação nas sequências que o modelo de Jukes-Cantor(melhor ajuste)

Seleção de modelos de substituição

2. Verossimilhança

Page 23: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

23

• Suponha uma árvore com dois

nós conectados por um único

ramo

• Como calcular a verossimilhança

para uma árvore com dois nós?

Seleção de modelos de substituição

2. Verossimilhança

Page 24: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

24

Sequência 1

A A T C G A

G C C A T A

G C G

Sequência 2

A A C A G A

C A C A G T

C C G

Árvore com dois nós

Seleção de modelos de substituição

2. Verossimilhança

Page 25: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

25

Sequência 1 — A A T C G A G C C A T A G C G

Sequência 2 — A A C A G A C A C A G T C C G

( ) ( )tii eiitP αα 431

41Pr)( −+== 2 seq. na 1 seq. na 

( ) ( )tij eijtP αα 41

41Pr)( −−== 2 seq. na 1 seq. na 

Probabilidades de transição segundo

o modelo de Jukes & Cantor

Seleção de modelos de substituição

2. Verossimilhança

Page 26: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

26

Sequência 1 — A A T C G A G C C A T A G C G

Sequência 2 — A A C A G A C A C A G T C C G

Probabilidades de transição segundo o

modelo de Jukes & Cantor

Qual a verossimilhança do sítio 1 (L1)?

Seleção de modelos de substituição

2. Verossimilhança

Page 27: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

27

( )( )1 seq. na A com começa 2 seq. na A com termina

1seq.naAcom começaPr

Pr1 ×=L

( )44 344 21

iiP

teL ⎥⎦⎤

⎢⎣⎡ +×⎟

⎠⎞

⎜⎝⎛= − α4

1 3141

41

( )teL α41 31

161 −+=

Seleção de modelos de substituição

2. Verossimilhança

Page 28: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

28

Sequência 1 — A A T C G A G C C A T A G C G

Sequência 2 — A A C A G A C A C A G T C C G

Probabilidades de transição segundo o

modelo de Jukes & Cantor

Qual a verossimilhança do sítio 12, (L12)?

Seleção de modelos de substituição

2. Verossimilhança

Page 29: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

29

( )( )1 seq. na G com começa 2 seq. na Tcom termina

1 seq. na G com começa

PrPr12 ×=L

( )4434421

ijP

teL ⎥⎦⎤

⎢⎣⎡ −×⎟

⎠⎞

⎜⎝⎛= − α4

12 141

41

( )teL α412 1

161 −−=

Seleção de modelos de substituição

2. Verossimilhança

Page 30: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

30

Seqüência 1 — A A T C G A G C C A T A G C G

Seqüência 2 — A A C A G A C A C A G T C C G

Qual a função de verossimilhança

para todos os sítios?

8 sítios idênticos e 7 diferentes

Seleção de modelos de substituição

2. Verossimilhança

Page 31: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

31

Qual a função de verossimilhança,

L(αt), para todos os sítios?

( ) ( )44 344 2144 344 21

diferentes sítios idênticos sítios  7

74

8

84 1

16131

161

⎥⎦⎤

⎢⎣⎡ −×⎥⎦

⎤⎢⎣⎡ += −− tt eeL αα

( ) ( )⎥⎦⎤

⎢⎣⎡ −+⎥⎦

⎤⎢⎣⎡ += −− tt eeL αα 44 1

161ln731

161ln8ln

Seleção de modelos de substituição

2. Verossimilhança

Page 32: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

32

Qual o parâmetro desconhecido

na função de verossimilhança?

( ) ( )⎥⎦⎤

⎢⎣⎡ −+⎥⎦

⎤⎢⎣⎡ += −− tt eeL αα 44 1

161ln731

161ln8ln

Parâmetro desconhecido na

função de verossimilhança é α t

Seleção de modelos de substituição

2. Verossimilhança

Page 33: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

33

• O parâmetro desconhecido na função de verossimilhança é α t

• Quem é α t?

–Produto da taxa de substituição pelo tempo

Número total, por sítio, de substituições em entre duas linhagens

α t = comprimento do ramo

Seleção de modelos de substituição

2. Verossimilhança

Page 34: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

34

( ) ( )⎥⎦⎤

⎢⎣⎡ −+⎥⎦

⎤⎢⎣⎡ += −− tt eeL αα 44 1

161ln731

161ln8ln

• Como estimar o parâmetro desconhecido αt?

• Usar possíveis valores de αt na função de verossimilhança, para obter valores de ln L

• Escolher o valor de αt que maximiza ln L

Seleção de modelos de substituição

2. Verossimilhança

Page 35: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

35

Seleção de modelos de substituição

2. Verossimilhança

αt — número esperado de substituições por sítio

ln L

ln L = − 1589,77 e αt = 0,03091825

Page 36: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

36

Seleção de modelos de substituição de nucleotídeos − I

1. Revisão

2. Verossimilhança

3. Teste da razão das verossimilhanças

Page 37: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

• Teste da razão das verossimilhanças

–Medida da plausibilidade relativa de duas hipóteses é dada pela razão de suas verossimilhanças

)](max[])(max[ 0

Amostraoalternativ ModeloAmostranulo Modelo

ALL

L0 → Verossimilhança dos dados sob a hipótese nula

L1 → Verossimilhança dos dados sob a hipótese alternativa

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

Page 38: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

Λ =

A G

TC

α

α

αα αα

TGCA ππππ ===

1

2

3

4

A G

TC

α

α

ββ ββ

TGCA ππππ ===

1

2

3

4

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

K81

JC69

Page 39: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

Teste hierárquico de modelos de substituição de DNA

Taxas iguais entre os sítiosF81vs

F81 + GAMA

HKY85vs

HKY85 + GAMA

K80vs

K80 + GAMA

JC69vs

JC69 + GAMA

RejeitaAceita

Frequências de bases iguais

JC69 vs F81

Taxas de transição e transversão iguais

JC69 vs K80 F81 vs HKY85

RejeitaAceita RejeitaAceita

Page 40: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

40

Estatística do teste da razão das verossimilhanças

)](max[])(max[ 0

Amostraoalternativ ModeloAmostranulo Modelo

ALL

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

Page 41: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

41

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

⎟⎟⎠

⎞⎜⎜⎝

⎛−

1

0log2LL

;log2 Λ−1

0

LL

Page 42: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

42

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

⎟⎟⎠

⎞⎜⎜⎝

⎛−

1

0log2LL

10 log2log2 LL +−( )01 loglog2 LL −

Page 43: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

43

Estatística do teste da razão

das verossimilhanças

Λ− log201 loglog2 LL −

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

Page 44: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

44

• Hierarquia de modelos aninhados

–O modelo na hipótese nula (L0) é um

caso especial do modelo na hipótese

alternativa (L1)

Por exemplo, o modelo de Jukes-Cantor (JC)

e o modelo de Felsenstein 1981 (F81) são

aninhados [JC é um caso especial de F81]

No modelo JC as frequências de bases são

todas iguais a 0,25, ao passo que no modelo

F81 as frequências podem ser diferentes

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

Page 45: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

45

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

86,7675log 0 −=L

Peixe

Rã Humano

Pássaro

Rato

A G

TC

α

α

αα αα

TGCA ππππ ===

Peixe

Rã Humano

Pássaro

Rato

α

α

αα αα

A G

TC

TGCA ππππ ≠≠≠

08,7667log 0 −=L

F81

JC69

Page 46: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

46

( )01 loglog2 LL −

( ) ( )[ ]86,767508,76672 −−−

[ ] 56,1786,767508,76672 =+−

Cálculo da estatística do teste da

razão das verossimilhanças

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

Page 47: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

47

• Estatística do teste da razão

das verossimilhanças, −2 log Λ,

pode ser comparada à

distribuição χ2 com 3 graus de

liberdade

−2 log Λ = 17,56

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

Page 48: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

48

Valores críticos da distribuição χ2

com ν graus de liberdade

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

Page 49: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

49

Seleção de modelos de substituição

3. Teste da razão das verossimilhanças

• Conclusão

–Hipótese nula de frequências de bases iguais é rejeitada

–Modelo alternativo F81 resulta em melhor ajuste dos dados que o modelo de Jukes & Cantor

81,795,17ln2 >=Λ−

Page 50: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

Teste hierárquico de modelos de substituição de DNA

Taxas iguais entre os sítiosF81vs

F81 + GAMA

HKY85vs

HKY85 + GAMA

K80vs

K80 + GAMA

JC69vs

JC69 + GAMA

RejeitaAceita

Frequências de bases iguais

JC69 vs F81

Taxas de transição e transversão iguais

JC69 vs K80 F81 vs HKY85

RejeitaAceita RejeitaAceita

Page 51: Seleção de modelos de substituição de nucleotídeos I...1 Seleção de modelos de substituição de nucleotídeos −I 1. Revisão 2. Princípio da verossimilhança 3. Teste da

51

Seleção de modelos de substituição de nucleotídeos − I

1. Revisão

2. Princípio da verossimilhança

3. Teste da razão das verossimilhanças

Objetivos: Compreender o princípio de verossimilhança e sua aplicação em estimação de parâmetros e teste de hipóteses e o uso desse princípio para selecionar modelos de substituição de nucleotídeos.