O teorema de Bayes em Filogenias.... Sua tia chega em casa desesperada por causa de um resultado...

Preview:

Citation preview

O teorema de Bayes em Filogenias...

Sua tia chega em casa desesperada por causa de um resultado positivo para câncer de mama em uma mamografia.

Dados:• Incidência do câncer em mulheres na faixa dos

40 anos: 1%• 80% das mulheres que têm câncer fazem

mamografia e o resultado é positivo• 9,6% das mulheres que não têm câncer fazem

mamografia e o resultado é negativo• O QUE VOCÊ DIZ À SUA TIA?

Se apenas 1% das mulheres na faixa dos 40 anos têm câncer, então 99% delas não têm.

Se sua tia tem um resultado positivo na mamografia, ela tanto pode ter câncer e ter o resultado positivo (probabilidade 0.01 x 0,8) ou não ter câncer e ter o resultado positivo (probabilidade 0.99 x 0.096)

Com isso,

Prob. a priori (x)

Resultado positivo (y)

Prob. conjunta(xy)

Prob. a posteriori(xAyA) / (xAyA) + (xByB)

câncer (A)

Não câncer (B)

Total

0.1

0.99

0.8

0.096

0.08

0.09504

0.17504

0.457

0.543

Neste caso, sua tia, que antes do exame tinha apenas 1% de chance de ter câncer, passou a ter uma chance de 46% de ter câncer

No entanto, a chance é muito menor que os 80% do resultado positivo do exame.

Fulaninho é o pai de Júnior?• Dados: um lócus de microssatelite

apresentou o seguinte resultado:

Mãe Pai

13

17

14

17

10

13

Júnior herdou o alelo 17 de sua mãe

Júnior pode ter herdado o alelo 13 de Fulaninho

A paternidade de Fulaninho não foi excluída!!!

Dá para afirmar que Fulaninho é pai de Júnior?• Ainda não. Assim como Fulaninho tem o

lócus 13, outros homens na população também têm este lócus.

• E agora? É preciso levar em conta a frequência do alelo

13 na população como um todo, no caso é de 0,075

Prob. a priori (x)

Passa o alelo 13 a Júnior (y)

Prob. conjunta(xy)

Prob. a posteriori(xAyA) / (xAyA) + (xByB)

Pai - Fulaninho

Pai - outro

Total

0.5

0.5

0.5

0.075

0.25

0.0375

0.2875

0.87

0.13

Apesar do teste com um locus não ter excluído a paternidade de Fulaninho, a frequência do alelo 13 nos diz que a probabilidade de que ele seja mesmo o pai de Júnior é de apenas 87%.

A vitamina C cura o câncer? Experimento com dois grupos de 100

pessoas, o primeiro grupo tratado com vitamina C e o segundo com placebo

Protegidos do câncer

Esperado por acaso

χ2

Grupo 1 (Vit C) 65 50 4,5

Grupo 2 (Placebo)

50 50 0

Χ2 com 1g.l. (0,05) = 3,84 O resultado do teste diz que o

resultado foi significativo a 5% de confiança.

No entanto, outras pesquisas mostram que a probabilidade da vitamina C ter algum efeito sobre o câncer é mínima...

• Com isso, a probabilidade a priori é muito pequena. Se fizermos o gráfico, a probabilidade posterior fica minúscula...

Prob. a priori (x)

Protegidos contra o câncer (y)

Prob. conjunta(xy)

Prob. a posteriori(xAyA) / (xAyA) + (xByB)

Vit C funciona

Vit C não funciona

Total

0.01

0.99

0.65

0.50

0.0065

0.495

0.5015

0.013

0.987

Prob da sua tia ter câncer, dado que o resultado foi positivo

Probabilidade a priori de se ter câncer de mama aos 40

Probabilidade do exame dar positivo se a mulher tiver o câncer

Probabilidade do exame dar positivo em qualquer situação

0,01 0,8

0,01 x 0,8 +0,99 x 0,096

0,46

Probabilidade Posterior

Probabilidade a priori

Probabilidade dos dados, dada a probabilidade a priori

Somatório das probabilidades, considerando cada uma das hipóteses a priori

Qual a probabilidade de que um dado sorteado ao acaso seja “biased” (tendencioso)?

P(biased) = 10/10+90=0,1

Essa é a probabilidade a priori, ou “prior”

Agora, vou pegar o dado tomado ao acaso e jogar duas vezes (produção de dados, para ter uma observação que me permita avaliar melhor se o dado é tendencioso ou não).

Joguei o dado e obtive um 6 e um 4.

Conclusão: O dado é tendencioso!

Cálculo da Verossimilhança em cada caso:

O que diz a análise Bayesiana sobre isso?

Probabilidade da hipótese (H=dado tendencioso) dados os dados

Probabilidade da hipótese a priori

Probabilidade dos dados, segundo a hipótese (verossimilhança)

Somatório das verossimilhanças de todas as possibilidades de dar 4 e 6 (tendencioso ou justo)

0,1 24/411

(1/36 x 0.9) + (24/411 x 0,1)= 0,03

0,179

Quando tínhamos só a informação de quantos dados justos e quantos tendenciosos há na caixa, a probabilidade de ter sorteado um dado tendencioso era de 10%.

Depois que jogamos o dado duas vezes, passamos a ter uma probabilidade posterior, ou seja, uma probabilidade obtida com a observação, que nos permite julgar com mais clareza o que aconteceu. Depois disso, a probabilidade de ter sorteado um dado tendencioso passou a ser de 17,9%

A análise Bayesiana permite o cálculo da probabilidade posterior, ou seja a probabilidade de uma hipótese depois que os dados forem obtidos

A probabilidade posterior permite que uma análise baseada numa visão de mundo e na observação.

No exemplo 1, sua tia pode ficar menos desesperada, já que 0.46 é muito menor que 0.8! Isso tudo porque utilizamos a probabilidade a priori, de 0.1.

No exemplo 2, fulaninho tem a probabilidade de 87% de ser o pai de Júnior, não 100%, já que foi levada em conta a probabilidade do alelo na população como um todo!

No exemplo 3, da vitamina C, a probabilidade a priori de ter algum efeito é tão pequena que os dados obtidos podem ser desprezados, apesar da estatística convencional ter indicado que os resultados são significativos...

Probabilidade do modelo (H=árvore + modelo de substituição) dado o alinhamento

Probabilidade do modelo a priori

Probabilidade do alinhamento, dado o modelo (verossimilhança)

Somatório das verossimilhanças de todos os modelos possíveis

E Agora

???

Probabilidade do modelo a priori

Em geral não temos hipóteses a priori, o que fazer?• Considerar uma hipótese “flat” (plana) ou

vaga.

Topologias 2n-3 tamanhos de ramos Frequências dos nucleotídeos Parâmetros das taxas de substituição

• Transições/transversões• GTR (taxas individuais, A→T, A →C, A →G etc.)

Parâmetros sobre a heterogeneidade de sítios• Gamma• Proporção de sítios invariáveis

Primeira opção: “flat”, ou seja, um valor qualquer, aleatório, fixo. Deixe para o programa avaliar a probabilidade posterior• No exemplo da paternidade utilizamos um

prior “flat” ao dizer que a probabilidade de Fulaninho ser o pai de júnior era de 50%. Na verdade poderíamos ter utilizado testemunhas que conheçam o casal e o comportamento da esposa de Fulaninho e começar com uma probabilidade a priori um pouco maior ou um pouco menor.

Segunda opção: Você pode utilizar o MrModelTest apenas para saber quais parâmetros devem ser inferidos pelo MrBayes, o que economiza tempo e melhora muito as estimativas.

Terceira opção: utilize o MrModelTest, e ele poderá fornecer muitos dos parâmetros que precisam de priors, exceto pela topologia e os tamanhos dos ramos.

Tamanhos de ramos e topologia, bom, começamos de qualquer ponto aleatório – “flat”

Somatório das verossimilhanças de todos os modelos possíveis

Este foi o único empecilho para utilizar a análise Bayesiana em filogenias, que era tão promissora, mas ao mesmo tempo tão complicada e impossível computacionalmente.

O problema foi resolvido com o uso da CADEIA de MARKOV aliada ao método de Monte Carlo e ao algoritmo de Metrópolis– Markov Chain Monte Carlo Methods - MCMC

É uma sequência de passos, cuja principal característica é que o estado do passo n só depende do estado do passo n-1.

Na cadeia de Markov, você pode comparar o “estado” do passo 1 com o “estado” do passo 2.

Basicamente se o passo 2 for “melhor” que o 1, o 2 passa a ser a referência para o passo 3, se não, você deve voltar para o passo 1 e tentar outra alternativa para o 2, até poder sair dele...

São as verossimilhanças de cada passo (qual a verossimilhança do alinhamento num determinado modelo?) Cada passo da cadeia de Markov

corresponde à verossimilhança de hipótese diferente testada com o alinhamento que temos (H1, H2, H3...)

Somatório das verossimilhanças de todos os modelos possíveis

Como Prob(H1) e Prob (H2) são os “priors”, então são iguais!

Comparando os dois “passos”

Como Prob (D) também é a mesma...

Então podemos considerar que estamos comparando as probabilidades posteriores dos passos adjascentes.

Então não precisamos calcular o denominador...

Comece com uma árvore qualquer, Ti Procure uma árvore vizinha (próximo

passo), Tj Calcule a razão entre as duas:

Aceite a nova árvore como a árvore atual

Rejeite a nova árvore e volte à anterior

R = Tj/Ti

Os cassinos, por mais que eventualmente paguem prêmios milionários, SEMPRE saem ganhando.

Garantem isso na quantidade, já que o número de perdedores pagantes num cassino é imensamente superior ao número de ganhadores.

Com a Bayesiana em filogenias, é preciso apostar num enorme número de passos, para garantir que os modelos encontrados sejam de fato os melhores...

Depois que o mcmc rodar por muiiiitttooosss passos, ou gerações (em geral mais de 1 milhão), chegaremos num ponto de poucas melhoras.

Agora toma-se apenas o conjunto de melhores árvores e avalia-se as topologias. Se um determinado nó (humanos + chimpanzés, por exemplo) aparece em mais de 95% delas, então temos a confiabilidade deste ramo, pela probabilidade posterior.

O algoritmo de Metropolis é uma cadeia de Markov com distribuição de equilíbrio πTi (pequena modificação na cadeia de Markov):

A nova árvore deve ser aceita como a árvore atual com probabilidade igual a 1

A nova árvore deve ser aceita como a árvore atual com probabilidade igual R

cupinzeiro

R = Tj/Ti

Metropolis Coupled Markov Chains Monte Carlo

Daí você coloca o cego para tentar achar o topo mais alto da Serra da Mantiqueira.

Ele certamente encontrará um topo, mas jamais saberá se chegou no mais alto de todos (é cego!).

Não, porque coloco ao invés de 1, 4 cegos.• Faço ainda com que caminhem em passos

diferentes. • Um deles caminha a passos curtos (cadeia

fria) e os outros a passos bem longos (cadeias quentes)

• Os três cegos da cadeia quente são capazes de vasculhar toda a Serra, porque dão pulos de vez em quando

O cego da cadeia fria é sempre aquele que está no ponto mais alto.

Bom, na verdade não serão 4, mas 8 cegos encarregados da tarefa. • 2 deles de cadeia fria • 6 deles de cadeia quente.

Quando os dois de cadeia fria chegarem no mesmo lugar, admito que cheguei em um ótimo global

Faço mais algumas milhares de análises e utilizo as últimas posições (o topo mais alto) para avaliar minhas árvores.

Dentre as árvores do melhor lugar, vejo qual a proporção que contém os nós da minha árvore de interesse.

Sempre que um nó aparecer em mais de 90 ou 95% delas, é um nó bem sustentado.

Curva de verossimilhança - Azul

Curva da Bayesiana - laranja

A área sob a curva bayesiana é sempre maior. A ML procura por um pico, que corresponderia à melhor árvore, enquanto a bayesiana procura por um conjunto de melhores árvores.

Primeiro passo: rodar o MrModelTest• Serve para inferir quais parâmetros devem

ser calculados pelo MrBayes além da topologia e dos tamanhos de ramos Frequência das bases? (se for diferente de 25%

para cada uma) Transição/transversão? (se a frequência de

transversões for maior que a de transições) Frequências de modificação de uma base para a

outra Gamma % de invariáveis

Depois que o MrBayes sabe o que calcular, é só rodar.• O default é fazer duas corridas, cada uma

com 4 cadeias, três quentes e 1 fria Isso pode variar, se você tiver um super

computador, pode fazer 3 ou 4 corridas e esperar que todas convirjam.

• Deixe as cadeias rodar por 1 milhão de passos (ou gerações)

Amostre em que ponto as cadeias estão a cada 100 ou 1000 gerações. Se optar por amostrar a cada 1000 gerações, faça 10 milhões de gerações ao invés de 1 milhão.

Monitore as corridas e não termine o programa antes que as cadeias tenham convergido (desvio padrão > 0.01)

Elimine pelo menos 25% das árvores iniciais, certamente elas têm baixa verossimilhança e não é isso que você quer.

Recommended