55
O teorema de Bayes em Filogenias...

O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Embed Size (px)

Citation preview

Page 1: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

O teorema de Bayes em Filogenias...

Page 2: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia.

Dados:• Incidência do câncer em mulheres na faixa dos

40 anos: 1%• 80% das mulheres que têm câncer fazem

mamografia e o resultado é positivo• 9,6% das mulheres que não têm câncer fazem

mamografia e o resultado é negativo• O QUE VOCÊ DIZ À SUA TIA?

Page 3: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Se apenas 1% das mulheres na faixa dos 40 anos têm câncer, então 99% delas não têm.

Se sua tia tem um resultado positivo na mamografia, ela tanto pode ter câncer e ter o resultado positivo (probabilidade 0.01 x 0,8) ou não ter câncer e ter o resultado positivo (probabilidade 0.99 x 0.096)

Page 4: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Com isso,

Prob. a priori (x)

Resultado positivo (y)

Prob. conjunta(xy)

Prob. a posteriori(xAyA) / (xAyA) + (xByB)

câncer (A)

Não câncer (B)

Total

0.1

0.99

0.8

0.096

0.08

0.09504

0.17504

0.457

0.543

Page 5: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Neste caso, sua tia, que antes do exame tinha apenas 1% de chance de ter câncer, passou a ter uma chance de 46% de ter câncer

No entanto, a chance é muito menor que os 80% do resultado positivo do exame.

Page 6: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Fulaninho é o pai de Júnior?• Dados: um lócus de microssatelite

apresentou o seguinte resultado:

Mãe Pai

13

17

14

17

10

13

Júnior herdou o alelo 17 de sua mãe

Júnior pode ter herdado o alelo 13 de Fulaninho

A paternidade de Fulaninho não foi excluída!!!

Page 7: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Dá para afirmar que Fulaninho é pai de Júnior?• Ainda não. Assim como Fulaninho tem o

lócus 13, outros homens na população também têm este lócus.

• E agora? É preciso levar em conta a frequência do alelo

13 na população como um todo, no caso é de 0,075

Page 8: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Prob. a priori (x)

Passa o alelo 13 a Júnior (y)

Prob. conjunta(xy)

Prob. a posteriori(xAyA) / (xAyA) + (xByB)

Pai - Fulaninho

Pai - outro

Total

0.5

0.5

0.5

0.075

0.25

0.0375

0.2875

0.87

0.13

Page 9: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Apesar do teste com um locus não ter excluído a paternidade de Fulaninho, a frequência do alelo 13 nos diz que a probabilidade de que ele seja mesmo o pai de Júnior é de apenas 87%.

Page 10: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

A vitamina C cura o câncer? Experimento com dois grupos de 100

pessoas, o primeiro grupo tratado com vitamina C e o segundo com placebo

Page 11: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Protegidos do câncer

Esperado por acaso

χ2

Grupo 1 (Vit C) 65 50 4,5

Grupo 2 (Placebo)

50 50 0

Χ2 com 1g.l. (0,05) = 3,84 O resultado do teste diz que o

resultado foi significativo a 5% de confiança.

Page 12: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

No entanto, outras pesquisas mostram que a probabilidade da vitamina C ter algum efeito sobre o câncer é mínima...

• Com isso, a probabilidade a priori é muito pequena. Se fizermos o gráfico, a probabilidade posterior fica minúscula...

Page 13: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Prob. a priori (x)

Protegidos contra o câncer (y)

Prob. conjunta(xy)

Prob. a posteriori(xAyA) / (xAyA) + (xByB)

Vit C funciona

Vit C não funciona

Total

0.01

0.99

0.65

0.50

0.0065

0.495

0.5015

0.013

0.987

Page 14: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:
Page 15: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Prob da sua tia ter câncer, dado que o resultado foi positivo

Probabilidade a priori de se ter câncer de mama aos 40

Probabilidade do exame dar positivo se a mulher tiver o câncer

Probabilidade do exame dar positivo em qualquer situação

0,01 0,8

0,01 x 0,8 +0,99 x 0,096

0,46

Probabilidade Posterior

Probabilidade a priori

Probabilidade dos dados, dada a probabilidade a priori

Somatório das probabilidades, considerando cada uma das hipóteses a priori

Page 16: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Qual a probabilidade de que um dado sorteado ao acaso seja “biased” (tendencioso)?

P(biased) = 10/10+90=0,1

Essa é a probabilidade a priori, ou “prior”

Page 17: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Agora, vou pegar o dado tomado ao acaso e jogar duas vezes (produção de dados, para ter uma observação que me permita avaliar melhor se o dado é tendencioso ou não).

Page 18: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Joguei o dado e obtive um 6 e um 4.

Conclusão: O dado é tendencioso!

Cálculo da Verossimilhança em cada caso:

Page 19: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

O que diz a análise Bayesiana sobre isso?

Probabilidade da hipótese (H=dado tendencioso) dados os dados

Probabilidade da hipótese a priori

Probabilidade dos dados, segundo a hipótese (verossimilhança)

Somatório das verossimilhanças de todas as possibilidades de dar 4 e 6 (tendencioso ou justo)

0,1 24/411

(1/36 x 0.9) + (24/411 x 0,1)= 0,03

0,179

Page 20: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Quando tínhamos só a informação de quantos dados justos e quantos tendenciosos há na caixa, a probabilidade de ter sorteado um dado tendencioso era de 10%.

Depois que jogamos o dado duas vezes, passamos a ter uma probabilidade posterior, ou seja, uma probabilidade obtida com a observação, que nos permite julgar com mais clareza o que aconteceu. Depois disso, a probabilidade de ter sorteado um dado tendencioso passou a ser de 17,9%

Page 21: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

A análise Bayesiana permite o cálculo da probabilidade posterior, ou seja a probabilidade de uma hipótese depois que os dados forem obtidos

A probabilidade posterior permite que uma análise baseada numa visão de mundo e na observação.

Page 22: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

No exemplo 1, sua tia pode ficar menos desesperada, já que 0.46 é muito menor que 0.8! Isso tudo porque utilizamos a probabilidade a priori, de 0.1.

No exemplo 2, fulaninho tem a probabilidade de 87% de ser o pai de Júnior, não 100%, já que foi levada em conta a probabilidade do alelo na população como um todo!

Page 23: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

No exemplo 3, da vitamina C, a probabilidade a priori de ter algum efeito é tão pequena que os dados obtidos podem ser desprezados, apesar da estatística convencional ter indicado que os resultados são significativos...

Page 24: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Probabilidade do modelo (H=árvore + modelo de substituição) dado o alinhamento

Probabilidade do modelo a priori

Probabilidade do alinhamento, dado o modelo (verossimilhança)

Somatório das verossimilhanças de todos os modelos possíveis

E Agora

???

Page 25: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Probabilidade do modelo a priori

Page 26: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Em geral não temos hipóteses a priori, o que fazer?• Considerar uma hipótese “flat” (plana) ou

vaga.

Page 27: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Topologias 2n-3 tamanhos de ramos Frequências dos nucleotídeos Parâmetros das taxas de substituição

• Transições/transversões• GTR (taxas individuais, A→T, A →C, A →G etc.)

Parâmetros sobre a heterogeneidade de sítios• Gamma• Proporção de sítios invariáveis

Page 28: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Primeira opção: “flat”, ou seja, um valor qualquer, aleatório, fixo. Deixe para o programa avaliar a probabilidade posterior• No exemplo da paternidade utilizamos um

prior “flat” ao dizer que a probabilidade de Fulaninho ser o pai de júnior era de 50%. Na verdade poderíamos ter utilizado testemunhas que conheçam o casal e o comportamento da esposa de Fulaninho e começar com uma probabilidade a priori um pouco maior ou um pouco menor.

Page 29: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Segunda opção: Você pode utilizar o MrModelTest apenas para saber quais parâmetros devem ser inferidos pelo MrBayes, o que economiza tempo e melhora muito as estimativas.

Page 30: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Terceira opção: utilize o MrModelTest, e ele poderá fornecer muitos dos parâmetros que precisam de priors, exceto pela topologia e os tamanhos dos ramos.

Tamanhos de ramos e topologia, bom, começamos de qualquer ponto aleatório – “flat”

Page 31: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Somatório das verossimilhanças de todos os modelos possíveis

Page 32: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Este foi o único empecilho para utilizar a análise Bayesiana em filogenias, que era tão promissora, mas ao mesmo tempo tão complicada e impossível computacionalmente.

O problema foi resolvido com o uso da CADEIA de MARKOV aliada ao método de Monte Carlo e ao algoritmo de Metrópolis– Markov Chain Monte Carlo Methods - MCMC

Page 33: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

É uma sequência de passos, cuja principal característica é que o estado do passo n só depende do estado do passo n-1.

Page 34: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Na cadeia de Markov, você pode comparar o “estado” do passo 1 com o “estado” do passo 2.

Basicamente se o passo 2 for “melhor” que o 1, o 2 passa a ser a referência para o passo 3, se não, você deve voltar para o passo 1 e tentar outra alternativa para o 2, até poder sair dele...

Page 35: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

São as verossimilhanças de cada passo (qual a verossimilhança do alinhamento num determinado modelo?) Cada passo da cadeia de Markov

corresponde à verossimilhança de hipótese diferente testada com o alinhamento que temos (H1, H2, H3...)

Page 36: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Somatório das verossimilhanças de todos os modelos possíveis

Page 37: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Como Prob(H1) e Prob (H2) são os “priors”, então são iguais!

Comparando os dois “passos”

Como Prob (D) também é a mesma...

Então podemos considerar que estamos comparando as probabilidades posteriores dos passos adjascentes.

Então não precisamos calcular o denominador...

Page 38: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Comece com uma árvore qualquer, Ti Procure uma árvore vizinha (próximo

passo), Tj Calcule a razão entre as duas:

Aceite a nova árvore como a árvore atual

Rejeite a nova árvore e volte à anterior

R = Tj/Ti

Page 39: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:
Page 40: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Os cassinos, por mais que eventualmente paguem prêmios milionários, SEMPRE saem ganhando.

Garantem isso na quantidade, já que o número de perdedores pagantes num cassino é imensamente superior ao número de ganhadores.

Com a Bayesiana em filogenias, é preciso apostar num enorme número de passos, para garantir que os modelos encontrados sejam de fato os melhores...

Page 41: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Depois que o mcmc rodar por muiiiitttooosss passos, ou gerações (em geral mais de 1 milhão), chegaremos num ponto de poucas melhoras.

Agora toma-se apenas o conjunto de melhores árvores e avalia-se as topologias. Se um determinado nó (humanos + chimpanzés, por exemplo) aparece em mais de 95% delas, então temos a confiabilidade deste ramo, pela probabilidade posterior.

Page 42: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

O algoritmo de Metropolis é uma cadeia de Markov com distribuição de equilíbrio πTi (pequena modificação na cadeia de Markov):

A nova árvore deve ser aceita como a árvore atual com probabilidade igual a 1

A nova árvore deve ser aceita como a árvore atual com probabilidade igual R

cupinzeiro

R = Tj/Ti

Page 43: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Metropolis Coupled Markov Chains Monte Carlo

Page 44: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:
Page 45: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Daí você coloca o cego para tentar achar o topo mais alto da Serra da Mantiqueira.

Ele certamente encontrará um topo, mas jamais saberá se chegou no mais alto de todos (é cego!).

Page 46: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Não, porque coloco ao invés de 1, 4 cegos.• Faço ainda com que caminhem em passos

diferentes. • Um deles caminha a passos curtos (cadeia

fria) e os outros a passos bem longos (cadeias quentes)

• Os três cegos da cadeia quente são capazes de vasculhar toda a Serra, porque dão pulos de vez em quando

Page 47: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

O cego da cadeia fria é sempre aquele que está no ponto mais alto.

Page 48: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Bom, na verdade não serão 4, mas 8 cegos encarregados da tarefa. • 2 deles de cadeia fria • 6 deles de cadeia quente.

Quando os dois de cadeia fria chegarem no mesmo lugar, admito que cheguei em um ótimo global

Faço mais algumas milhares de análises e utilizo as últimas posições (o topo mais alto) para avaliar minhas árvores.

Page 49: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Dentre as árvores do melhor lugar, vejo qual a proporção que contém os nós da minha árvore de interesse.

Sempre que um nó aparecer em mais de 90 ou 95% delas, é um nó bem sustentado.

Page 50: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:
Page 51: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Curva de verossimilhança - Azul

Curva da Bayesiana - laranja

A área sob a curva bayesiana é sempre maior. A ML procura por um pico, que corresponderia à melhor árvore, enquanto a bayesiana procura por um conjunto de melhores árvores.

Page 52: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:
Page 53: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Primeiro passo: rodar o MrModelTest• Serve para inferir quais parâmetros devem

ser calculados pelo MrBayes além da topologia e dos tamanhos de ramos Frequência das bases? (se for diferente de 25%

para cada uma) Transição/transversão? (se a frequência de

transversões for maior que a de transições) Frequências de modificação de uma base para a

outra Gamma % de invariáveis

Page 54: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Depois que o MrBayes sabe o que calcular, é só rodar.• O default é fazer duas corridas, cada uma

com 4 cadeias, três quentes e 1 fria Isso pode variar, se você tiver um super

computador, pode fazer 3 ou 4 corridas e esperar que todas convirjam.

• Deixe as cadeias rodar por 1 milhão de passos (ou gerações)

Page 55: O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia. Dados:

Amostre em que ponto as cadeias estão a cada 100 ou 1000 gerações. Se optar por amostrar a cada 1000 gerações, faça 10 milhões de gerações ao invés de 1 milhão.

Monitore as corridas e não termine o programa antes que as cadeias tenham convergido (desvio padrão > 0.01)

Elimine pelo menos 25% das árvores iniciais, certamente elas têm baixa verossimilhança e não é isso que você quer.