11
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências LGN5830 - Biometria de Marcadores Genéticos Tópico 2: Verossimilhança Antonio Augusto Franco Garcia http://about.me/augusto.garcia [email protected] Departamento de Genética ESALQ/USP 2017 Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências Conteúdo 1 Distribuição de Probabilidades Regras Básicas Distribuição Binomial Distribuição Normal 2 Esperança Matemática Alguns Fundamentos 3 Verossimilhança Introdução Definição Estimador de Máxima Verossimilhança 4 Referências Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências Regras Básicas Definições Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências Regras Básicas Regras Adição P(A ou B)= P(A)+ P(B) - P(A e B) Adição (eventos mutuamente exclusivos) P(A ou B)= P(A)+ P(B) Subtração P(A)=1 - P(não A) Multiplicação P(A e B)= P(A) × P(B|A) Multiplicação (A e B independentes) P(A e B)= P(A) × P(B) Notação: P(A e B)= P(A B)= P(A, B)

LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Embed Size (px)

Citation preview

Page 1: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

LGN5830 - Biometria de Marcadores GenéticosTópico 2: Verossimilhança

Antonio Augusto Franco Garciahttp://about.me/augusto.garcia

[email protected]

Departamento de GenéticaESALQ/USP

2017

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Conteúdo

1 Distribuição de ProbabilidadesRegras BásicasDistribuição BinomialDistribuição Normal

2 Esperança MatemáticaAlguns Fundamentos

3 VerossimilhançaIntroduçãoDefiniçãoEstimador de Máxima Verossimilhança

4 Referências

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Regras Básicas

Definições

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Regras Básicas

Regras

AdiçãoP (A ouB) = P (A) + P (B)− P (A eB)

Adição (eventos mutuamente exclusivos)

P (A ouB) = P (A) + P (B)

SubtraçãoP (A) = 1− P (nãoA)

MultiplicaçãoP (A eB) = P (A)× P (B|A)

Multiplicação (A e B independentes)

P (A eB) = P (A)× P (B)

Notação: P (A eB) = P (A ∩B) = P (A,B)

Page 2: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Regras Básicas

Probabilidade Condicional

Dois dados com cores diferentes

Se eu jogar os dois dados simultaneamente, qual é a probabilidadede obter soma 3?

# resultados possíveis: 6× 6 = 36# resultados com soma 3: 2 ({1, 2}, {2, 1})Resp: P (soma 3) = 2/36

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Regras Básicas

Probabilidade Condicional

Dois dados com cores diferentes

Suponha agora que um dos dois dados foi jogado antes, e o resultadofoi 1Qual a probabilidade de obter soma 3?

# resultados possíveis: 6# resultados com soma 3: 1 ({1, 2})Resp: P (soma 3|valor 1 em um dos dados) = 1/6

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Regras Básicas

Probabilidade Condicional

P (A|B)

P (A|B) =P (A,B)

P (B)

Atenção

Note a relação entre probab. condicional e a regra da multiplicação

O que significam P (A|B) = 1 e P (A|B) = 0?

Eventos independentes: P (A,B) = P (A)× P (B)

Exemplo anterior

P (A|B) =P (A,B)

P (B)=

13616

=1

6

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Regras Básicas

Eventos independentes

Moeda “honesta”Qual a probabilidade de obter uma sequência de 4 caras?

Resp:(12

)4

Page 3: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Regras Básicas

Eventos independentes

Moeda “honesta”

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Regras Básicas

Eventos independentes

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Regras Básicas

Um caso simples

Doença, Genótipo

mm Mm MM

R 0.10 0.21 0.47 0.78S 0.05 0.09 0.08 0.22

0.15 0.30 0.55 1

P (D = R) = 0.78

P (G = Mm) = 0.30

P (D = R|G = MM) = P (D=R,G=MM)P (G=MM) = 0.47

0.55 = 0.85

P (D = R,G = MM) = P (D = R)P (G = MM |D = R) =0.78× 0.47

0.78 = 0.47

Note que P (D = R).P (G = MM) = 0.78× 0.55 = 0.429

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Regras Básicas

Teorema de Bayes

Thomas Bayes, 1701–1761

P (A|B) =P (A) P (B|A)

P (B)

P (A): “priori”

P (A|B): “posteriori”

P (B|A)/P (B): suporte queB fornece paraA

Page 4: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Binomial

Variável Discreta

Exemplo - Distribuição Binomial

Seja θ a proporção de indivíduosAa numa população grande ehomogênea, proveniente de um retrocruzamento.

Neste caso, temos teoricamente 50% dos indivíduos com estegenótipo (θ = 1/2)Qual a probabilidade de observarmos x genótiposAa numa amostrade 4 indivíduos (n = 4)?

P (x) =

(nx

)θx(1− θ)(n−x)

Note que estamos assumindo que os eventos são independentes!

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Binomial

Distribuição Binomial

Exemplo

0.0

0.1

0.2

0.3

0 1 2 3 4

x

Pro

babi

lidad

e

Theta=1/2

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Binomial

Distribuição Binomial

Exemplo

Qual a probabilidade de observarmos 3 genótiposAa (x = 3) numaamostra de 4 indivíduos (n = 4)?

P (3) =

(43

)(1/2)3 [1− (1/2)]

(4−3)= 1/4

0.0

0.1

0.2

0.3

0 1 2 3 4

x

Pro

babi

lidad

e

Theta=1/2

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Binomial

Distribuição Binomial

Outras distribuições

E se θ tiver outros valores?

Theta=5/6 Theta=1 Theta=0

Theta=1/2 Theta=1/3 Theta=3/4

0 1 2 3 4 0 1 2 3 4 0 1 2 3 4

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

x

Pro

babi

lidad

e

Diferentes valores de theta

Page 5: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Normal

Distribuição Normal

Grande parte das variáveis (caracteres) estudados na Genética

f(x) =1√2πσ2

e−(x−µ)2

2σ2

Exemplo: teor de açúcar numa população de cana-de-açúcar

0.00

0.05

0.10

0.15

10 15 20 25

Brix

Pro

babi

lidad

e

Concentração em torno da média, dispersão, indivíduos raros, etc

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Normal

Densidade de Probabilidades

Qual a probab. de selecionar ind. com Brix acima de 22?

0.00

0.05

0.10

0.15

10 15 20 25

Brix

Pro

babi

lidad

e

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Normal

Modelo vs dados reais

É óbvio que dados reais não estão “classificados”Várias técnicas são empregadas (histogramas, boxplots,ramo-e-folhas, etc

Brix, 200 valores

0.00

0.05

0.10

0.15

0.20

10 15 20 25

Brix

Den

sida

de

0

50

100

150

200

Contagem

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Normal

Exercício

Qual(is) conj. foram amostrado(s) em pop. com dist. normal?

0

2

4

6

−2 −1 0 1x

Con

tage

m

0

10

20

−6 −4 −2 0 2 4x

Con

tage

m

0

5

10

−3 −2 −1 0 1 2x

Con

tage

m

0.0

2.5

5.0

7.5

−2 −1 0 1 2x

Con

tage

m

Page 6: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Normal

Exercício

Todos eles! (n = 50)

0

2

4

6

−2 −1 0 1x

Con

tage

m

Tamanho das classes: Amplitude/50

0

5

10

15

20

25

−6 −4 −2 0 2 4x

Con

tage

m

Tamanho das classes: 2

0

5

10

−3 −2 −1 0 1 2x

Con

tage

m

Tamanho das classes: 0.5

0

2

4

6

8

−2 −1 0 1 2x

Con

tage

m

Tamanho das classes: 0.25

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Normal

Exercício

Tamanho da amostra

0

5

10

−4 −2 0 2 4x

Con

tage

m

Amostra A: n=40

0

10

20

30

40

50

60

−2 0 2x

Con

tage

m

Amostra B: n=300

0

20

40

60

80

100

−2 0 2 4x

Con

tage

m

Amostra C: n=500

0.0

0.1

0.2

0.3

0.4

−4 −2 0 2 4x

Den

sida

de

amostra

A

B

C

Comparação

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Distribuição Normal

História - Tycho Brahe

Movimento de corpos celestiais

Outra ideia: P = G+ E

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Alguns Fundamentos

Variável Discreta

Retrocruzamento, com interesse emAa

Imagine um exp. hipotético não realizado, com 4 indivíduos

1, 1, . . . , 1︸ ︷︷ ︸x

, 0, 0, . . . , 0︸ ︷︷ ︸n-x

Resultados possíveis:

Aa 0 1 2 3 4

Probabilidade P (0) P (1) P (2) P (3) P (4)

Média esperada:E(X) =

∑xP (x)

Na distribuição binomial, demonstra-se queE(X) = np

No caso, E(X) = 4(1/2), ou seja, 2 indivíduos com genótipoAa

Page 7: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Alguns Fundamentos

Variável Contínua

Brix de 200 indivíduos, cana-de-açúcar

0.00

0.05

0.10

0.15

0.20

10 15 20 25

Brix

Den

sida

de

0

50

100

150

200

Contagem

Qual a média desse experimento, com base no histograma?

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Alguns Fundamentos

Variável Contínua

Qual a média esperada para uma variável contínua?

Esperança Matemática:

E(X) =

∫ ∞

−∞xf(x) dx

Demonstra-se que, no caso da distribuição normal,E(X) = µ

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Introdução

Alguns conceitos

Experimento

Conjunto de dados

Informações sobre como esses dados foram coletados

Inferência estatística

Desejamos explicitar o modelo que deu origem aos dados

Usualmente, o modelo envolve um ou mais parâmetrosdesconhecidos

Os parâmetros devem ser estimados a partir dos dados

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Introdução

Método da Verossimilhança

Suponha que ummodelo probabilístico tenha sido formulado paraum experimento

Imagine que esse modelo envolva um parâmetro θ

Desejamos usar os dados para estimar θ

Formalmente, desejamos determinar quais são os possíveis valoresde θmais plausíveis (prováveis, verossímeis), à luz das observações

Page 8: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Introdução

Método da Verossimilhança

Exemplo

Seja θ a proporção de indivíduosAa numa população grande ehomogênea, com 2 alelos para esse loco.

Desejamos estimar essa proporção.

Para tanto, selecionamos aleatoriamente n indivíduos e verificamosseu genótipo.

Após o experimento, notamos que x deles sãoAa

A probabilidade de observarmos esse eventoE é P (E; θ) = probab.de x, de um total de n indivíduos, possuírem o genótipoAa

P (E; θ) =

(nx

)θx(1− θ)(n−x)

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Introdução

Método da Verossimilhança

Exemplo

Suponha que x = 3 e n = 4

Note que, nesta situação, θ não é conhecido

P (E; θ) =

(43

)θ3(1− θ)(4−3)

Se θ = 1/2, P (E; θ) = 0.25Se θ = 1/3, P (E; θ) = 0.10Se θ = 3/4, P (E; θ) = 0.42Se θ = 5/6, P (E; θ) = 0.39Se θ = 1, P (E; θ) = 0

Qual valor de θ é mais plausível?

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Introdução

Verossimilhança

Distribuições

De qual distribuição os dados foram amostrados?

Theta=5/6 Theta=1 Theta=0

Theta=1/2 Theta=1/3 Theta=3/4

0 1 2 3 4 0 1 2 3 4 0 1 2 3 4

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

x

Pro

babi

lidad

e

Diferentes valores de theta

Note que é mais fácil rejeitar do que aceitar

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Definição

Método da Verossimilhança

Definição

A função de verossimilhança de θ é definida como L(θ) = c · P (E; θ)

Função de Verossimilhança: função densidade de probabilidade dasobservações, interpretada como uma função dos parâmetros quedeterminam a distribuição (Siegmund e Yakir, 2007)

Edwards (1992): The likelihood L(H|R), of the hypothesisH givendataR, and a specific model, is proportional to P (R|H), theconstant of proportionality being arbitrary.

(Note que a soma de P (E; θ) no exemplo anterior não é 1)

Page 9: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Definição

Método da Verossimilhança

Definição

Likelihood is the hypothetical probability that an event that hasalready occurred would yield a specific outcome. The concept differsfrom that of a probability in that a probability refers to theoccurrence of future events, while a likelihood refers to past eventswith known outcomes.(http://mathworld.wolfram.com/Likelihood.html)L(θ) ∝ P (E; θ)

L(θ) ∝ θx(1− θ)(n−x) (no caso da dist. binomial)

A constante c, por não depender dos parâmetros, normalmente édesconsiderada

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Definição

Verossimilhança

Definição

Sorensen e Gianola (2002): Sejam y os dados observados, resultadode um processo estocástico caracterizado por ummodelo comdistribuição (densidade) p(y|θ)A distribuição (densidade) das observações é portanto p(y|θ)A verossimilhança L(θ) ou L(θ|y) é obtida com base em uma“inversão” deste conceito

Por definição: L(θ|y) ∝ p(y|θ)

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Definição

Exemplo - genótiposAa

Dados: yi (i = 1, . . . , n; n = 4)

1, 1, . . . , 1︸ ︷︷ ︸x

, 0, 0, . . . , 0︸ ︷︷ ︸n-x

p(yi|θ) =∏n

i=1 p(yi|θ)

θ, θ, . . . , θ︸ ︷︷ ︸x

, (1− θ), (1− θ), . . . , (1− θ)︸ ︷︷ ︸n-x

p(yi|θ) =(

nx

)θx(1− θ)n−x

Verossimilhança:L(θ|y) ∝ θx(1− θ)n−x

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Definição

Peso de indivíduos amostrados numa pop. F2

Ummodelo possível: yi ∼ N(µ, σ2), sendo θ = (µ, σ2)

Verossimilhança:

L(θ|y) =n∏

i=1

1√2πσ2

e−(yi−µ)2

2σ2

Qual seria ummodelo para estudar a variação do peso dos alunos dasala de aula?

Page 10: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Estimador de Máxima Verossimilhança

Método da Verossimilhança

Para simplificar, é usual trabalharmos com o log de L(θ)

Qual a razão?

Atenção Os pontos de máximo e mínimo não se alteram após o usodo logaritmo (funçãomonótona)

Notação: l(θ) = loge L(θ) = logL(θ)d l(θ)dθ é dita função score

I(θ) = −d2l(θ)dθ2

é dita função de informação de Fisher

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Estimador de Máxima Verossimilhança

Estimador de Máxima Verossimilhança

Exercício1 Qual a função de verossimilhança do exemplo anterior (binomial)?2 Qual a função score?3 Qual é o ponto de máximo de l(θ), dito θ?

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Estimador de Máxima Verossimilhança

Estimador de Máxima Verossimilhança

Exercício1 L(θ) ∝ θx(1− θ)(n−x)

2 l(θ) = x log(θ) + (n− x) log(1− θ)

3 θ = xn

0.000

0.025

0.050

0.075

0.100

0.00 0.25 0.50 0.75 1.00

x

x3 (1−

x)(4

−3)

−20

−15

−10

−5

0.00 0.25 0.50 0.75 1.00

x

3log

(x)+

(4−

3)lo

g(1

−x)

MLE

θ = 3/4 é o MLE de θ

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Estimador de Máxima Verossimilhança

MLE

Distribuição Normal

1 L(θ|y) =∏n

i=11√2πσ2

e−(yi−µ)2

2σ2

2 µ =∑n

i=1 yin = y

3 σ2 =∑n

i=1(yi−y)2

n

MLE e Quadrados Mínimos

Sob normalidade, osMLE’s também são estimadores de quadradosmínimos

Page 11: LGN5830 - Biometria de Marcadores Genéticos - Tópico 2 ...augustogarcia.me/Biometria-de-Marcadores/pdfs/aula2_imprimir.pdf · DistribuiçãodeProbabilidades EsperançaMatemática

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Principais Referências

Gonick, L; Smith, W.The Cartoon Guide to StatisticsEditora Harper Perennial, 1993

Kalbfleisch, J.G.Probability and Statistical InferenceEditora Springer-Verlag, 1985 Volume 1

Edwards, A.W.F.Likelihood (expanded edition)The John Hopkins University, 1992

Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências

Principais Referências

Sorensen, D.; Gianola, D.Likelihood, Bayesian, and MCMC Methods inQuantitative GeneticsEditora Springer-Verlag, 2002

Koller, D.; Friedman, N.Probabilistic Graphical Models: Principles and TechniquesMIT Press, 2009