38
Máxima Verossimilhan ça ou Maximum Likelihood

Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Embed Size (px)

Citation preview

Page 1: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Máxima Verossimilhança

ou Maximum Likelihood

Page 2: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Máxima Verossimilhança

Criada por R. A. Fisher em 1912Introduzida na filogenia por

Edwards & Cavalli-Sforza em 1964

Apesar de ser de importância central na estatística, é usualmente omitida nos cursos de biologia...

Page 3: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Descrição da MVVerossimilhança é a probabilidade dos

DADOS sob um determinado modelo.Por que não chamar simplesmente de

probabilidade?Na verdade é uma probabilidade, só que

estamos falando da probabilidade dos dados (que já foram coletados) e não da ocorrência de um evento (que ainda não ocorreu)

Page 4: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Moedas...No lançamento de uma moeda

você obteve uma cara. Este é o dadodado.

Se você achar que a moeda é uma moeda comum (modelo), o dadodado tem probabilidade de ½½.

Porém se você achar que a moeda tem duas caras (modelo), o dadodado tem probabilidade de 11.

Page 5: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Evolução Molecular

Dados = alinhamentoModelo = árvore + mecanismos

de modificações moleculares Normalmente chamamos os

mecanismos de modelomodelo e a árvore de árvoreárvore.

Page 6: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Modelos Moleculares (ou de DNA)

Um modelo tem duas partes:Composição

Proporção dos quatro nucleotídeos – Pode-se assumir proporções iguais ou pode-se deixar que os dados decidam

ProcessoEm que taxa um nucleotídeo muda

para o outro? (Jukes-Cantor? Kimura 2 P???...GTR???)

Page 7: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

A verossimilhança de uma sequência sequência composta por uma uma base base - AA

Não precisamos da parte do modelo envolvida no processoprocesso;Modelos de composição:

1) Todas as bases são A . L=12) Todas as bases são C. L=03) A ocorre numa frequência de 33%. L=0.33

Likelihood (L)=verossimilhança)

Page 8: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Composição: ¼ para cada base L = 1/4 x 1/4 = 1/16 = 0,0625

Composição: 40% A e 10% CL = 0.4 x 0.1 = 0.04

A verossimilhança de uma sequência de duas bases - AC

Page 9: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Regra GeralA soma das verossimilhanças

(assim como acontece com as probabilidades) deve ser igual a 1Se há 16 possibilidades de di-

nucleotídeos deferentes, e você quer calcular a verossimilhança de todos eles, a soma deve ser 1

Page 10: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

O Processo...Esta parte do modelo é

necessária quando duas ou mais sequências estão conectadas por uma árvore.

Pode ser descrito porSentençasEquaçõesMatrizes de números

Page 11: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

0.1 0.4 0.2 0.3

P =

(Processo)

0.976 0.01 0.0070.007

0.002 0.983 0.0050.01

0.003 0.01 0.9790.007

0.002 0.013 0.0050.979

π =(Conteúdo)

MV de duas sequências com quatro bases cada

Page 12: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

P =

(Processo)

0.976 0.01 0.0070.007 =1

0.002 0.983 0.0050.01

0.003 0.01 0.9790.007

0.002 0.013 0.0050.979

A C G T

A

C

T

G

DE

Para:

Observação Importante...

Page 13: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

0.1 0.4 0.2 0.3

P =

(Processo)

0.976 0.01 0.0070.007

0.002 0.983 0.0050.01

0.003 0.01 0.9790.007

0.002 0.013 0.0050.979

π =(Conteúdo)

MV de duas sequências com quatro bases cada

Page 14: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Dados Seja o alinhamento:

C C A TC C G T

A verossimilhança de sair da primeira para a segunda sequência é:L = πC PCC πC PCC πA PAG πT PTT=

=0.4 x 0.983 x 0.4 x 0.983 x 0.1 x 0.007 x 0.3 x 0.979=0.0000300

Page 15: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Diferentes tamanhos de ramos

O modelo anterior não leva em conta a possibilidade de diferentes tamanhos de ramos...Ramo curto – pequena

probabilidade de modificações, grande probabilidade de permanência no mesmo estado

Ramo longo – grande probabilidade de modificações

Page 16: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Digamos então que a matriz P corresponda a uma certa Certa Distância Evolutiva (cde)

Já sabemos que a verossimilhança do exemplo anterior com 1 cde foi de L = 0.0000300, qual será a verossimilhança com 2 ou 3 cdes?

Diferentes tamanhos de ramos

Page 17: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Diferentes tamanhos de ramos

0.953 0.020.013 0.015

0.005 0.966 0.010.02

0.007 0.020.959 0.015

0.005 0.026 0.010.959

0.93 0.0290.019 0.022

0.007 0.9490.015 0.029

0.01 0.0290.939 0.022

0.007 0.0380.015 0.94

0.976 0.010.007 0.007

0.002 0.9830.005 0.01

0.003 0.010.979 0.007

0.002 0.0130.005 0.979

P =

P2= P3=

1 cde

L= 0.0000300

2 cdes

L = 0.0000559

3 cdes

L = 0.0000782

Page 18: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Diferentes tamanhos de ramos

Page 19: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Se P for elevado a potências muito altas (tamanhos de ramos muito longos, π acaba aparecendo...)0.1 0.4 0.2

0.30.1 0.4 0.2

0.30.1 0.4 0.2

0.30.1 0.4 0.2

0.3

P10 =6

Diferentes tamanhos de ramos

Page 20: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Matrizes de TaxasO problema de P é que os tamanhos

de ramos são obtidos em cdes, unidades arbitrárias muito pouco convenientes...

O ideal é que a matriz revele tamanhos de ramos em termos de substituições por sítio

Mais importante que isso é extrair a matriz de taxas separadas de π.

Page 21: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Matrizes de TaxasCom um pouco de álgebra,

obtém-se a matriz de taxas independente do conteúdocom isso não é necessária a

inclusão da probabilidade de não-modificação:

Page 22: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

No PAUP...Use o comando Lset para expressar

a matriz de taxas da seguinte maneira:gt = 1.0 (default que não entra na

matriz)a c, ag, at, cg, ct (em

valores referentes a um. Neste caso, com a matriz anterior temos:

Lset rmat=(1.0, 1.3333, 1.0, 1.0, 1.3333)

Page 23: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Como escolher o melhor modelo para MV?

Programa ModelTestTrata-se de um script do PAUP, que

toma como base o alinhamento e uma árvore feita rapidamente com NJ.

Tendo a árvore e o alinhamento, 54 modelos diferentes são avaliados.

A cada modelo é atribuído um valor de Verossimilhança (L) (na verdade –logL)

Page 24: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

JC+I

JC+G

JC+I+G

JC

Tajima – Nei ou Felsenstein 81

Page 25: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Jukes-Cantor (d) - JCCorreção que leva em conta a

possibilidade de substituições de bases

A T C G A - α α α T α - α α C α α - α G α α α -

Page 26: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Tajima-Nei (F81) Leva em conta apenas as diferentes

frequências das bases: A T C G

A - αgT αgC α1gG

T αgA - αgC α1gG

C αgA αgT - α1gG

G αgA αgT αgC -

gA, gT, gC, gG = frequência de bases

Page 27: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Parâmetro a ser ajustado = α

Distâncias Gamma

α=0,2

α=1α=2

α=5

α=10

Page 28: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Kimura 2P

Tamura-Nei

Page 29: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Kimura 2 parâmetros – K80

Correção que leva em conta probabilidades diferentes de transições e transversões

A T C G A - β β α T β - α β C β α - β G α β β -

Page 30: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Tamura-Nei (TrN) Leva em conta as diferenças em transições

e transversões (α e β), além da frequência diferencial de bases (g).

A T C G A - βgT βgC αα11ggGG

T βgA - αα22ggCC βgG

C βgA αα22ggTT - βgG

G αα11ggAA βgT βgC -

gA, gT, gC, gG = frequência de bases

Page 31: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

GTR

Page 32: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

General Time Reversible (GTR)

Leva em conta diferentes frequências de bases e de substituições

A T C G A - agT bgC c1gG

T agA - dgC e1gG

C bgA dgT - f1gG

G cgA egT fgC -

gA, gT, gC, gG = frequência de bases

Page 33: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Resultados do ModelTestLikelihood Ratio Test

hLRTs = 2(lnL1 – lnL0)dist. como qui-quadrado, com grausde liberdade igual à diferença do número de parâmetros

Page 34: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Resultados do ModelTestLikelihood Ratio Test

1

1 JC: nst=1 base=equal rates=equalPinv=0 F81: nst=1 base=est rates=equalPinv=0

1 parâmetro

4 parâmetros

2

2F81: nst=1 base=est tratio=est rates=equal Pinv=0 1 parâmetro

hLRTs = 2(lnL1 – lnL0)dist. como qui-quadrado, com grausde liberdade igual à diferença do número de parâmetros

Page 35: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Resultados do ModelTest Akaike Information Criterion

AIC = -2LnL + 2K

Page 36: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

O que fazer com tantos números?

Colar a linha Lset do resultado do teste de AIC:

Page 37: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

Comandos do PAUPSet criterion=LikelihoodLset (colado do modeltest)Hsearch ?

Hsearch swap=TBR start=NJ Bootstrap ?

Search=heuristic/swap=NNI start=NJ

Page 38: Máxima Verossimilhança ou Maximum Likelihood. Máxima Verossimilhança Criada por R. A. Fisher em 1912 Introduzida na filogenia por Edwards & Cavalli-Sforza

BIC (Bayesian Information Criterion)

BIC = -2LnL + K ln (n)

Encontra modelos mais simples que o AIC, pois dá uma penalidade ainda maior para modelos com excesso de parâmetros – dá para calcular no MEGA 5.0