Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
LGN5830 - Biometria de Marcadores GenéticosTópico 2: Verossimilhança
Antonio Augusto Franco Garciahttp://about.me/augusto.garcia
Departamento de GenéticaESALQ/USP
2017
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Conteúdo
1 Distribuição de ProbabilidadesRegras BásicasDistribuição BinomialDistribuição Normal
2 Esperança MatemáticaAlguns Fundamentos
3 VerossimilhançaIntroduçãoDefiniçãoEstimador de Máxima Verossimilhança
4 Referências
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Regras Básicas
Definições
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Regras Básicas
Regras
AdiçãoP (A ouB) = P (A) + P (B)− P (A eB)
Adição (eventos mutuamente exclusivos)
P (A ouB) = P (A) + P (B)
SubtraçãoP (A) = 1− P (nãoA)
MultiplicaçãoP (A eB) = P (A)× P (B|A)
Multiplicação (A e B independentes)
P (A eB) = P (A)× P (B)
Notação: P (A eB) = P (A ∩B) = P (A,B)
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Regras Básicas
Probabilidade Condicional
Dois dados com cores diferentes
Se eu jogar os dois dados simultaneamente, qual é a probabilidadede obter soma 3?
# resultados possíveis: 6× 6 = 36# resultados com soma 3: 2 ({1, 2}, {2, 1})Resp: P (soma 3) = 2/36
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Regras Básicas
Probabilidade Condicional
Dois dados com cores diferentes
Suponha agora que um dos dois dados foi jogado antes, e o resultadofoi 1Qual a probabilidade de obter soma 3?
# resultados possíveis: 6# resultados com soma 3: 1 ({1, 2})Resp: P (soma 3|valor 1 em um dos dados) = 1/6
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Regras Básicas
Probabilidade Condicional
P (A|B)
P (A|B) =P (A,B)
P (B)
Atenção
Note a relação entre probab. condicional e a regra da multiplicação
O que significam P (A|B) = 1 e P (A|B) = 0?
Eventos independentes: P (A,B) = P (A)× P (B)
Exemplo anterior
P (A|B) =P (A,B)
P (B)=
13616
=1
6
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Regras Básicas
Eventos independentes
Moeda “honesta”Qual a probabilidade de obter uma sequência de 4 caras?
Resp:(12
)4
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Regras Básicas
Eventos independentes
Moeda “honesta”
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Regras Básicas
Eventos independentes
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Regras Básicas
Um caso simples
Doença, Genótipo
mm Mm MM
R 0.10 0.21 0.47 0.78S 0.05 0.09 0.08 0.22
0.15 0.30 0.55 1
P (D = R) = 0.78
P (G = Mm) = 0.30
P (D = R|G = MM) = P (D=R,G=MM)P (G=MM) = 0.47
0.55 = 0.85
P (D = R,G = MM) = P (D = R)P (G = MM |D = R) =0.78× 0.47
0.78 = 0.47
Note que P (D = R).P (G = MM) = 0.78× 0.55 = 0.429
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Regras Básicas
Teorema de Bayes
Thomas Bayes, 1701–1761
P (A|B) =P (A) P (B|A)
P (B)
P (A): “priori”
P (A|B): “posteriori”
P (B|A)/P (B): suporte queB fornece paraA
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Binomial
Variável Discreta
Exemplo - Distribuição Binomial
Seja θ a proporção de indivíduosAa numa população grande ehomogênea, proveniente de um retrocruzamento.
Neste caso, temos teoricamente 50% dos indivíduos com estegenótipo (θ = 1/2)Qual a probabilidade de observarmos x genótiposAa numa amostrade 4 indivíduos (n = 4)?
P (x) =
(nx
)θx(1− θ)(n−x)
Note que estamos assumindo que os eventos são independentes!
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Binomial
Distribuição Binomial
Exemplo
0.0
0.1
0.2
0.3
0 1 2 3 4
x
Pro
babi
lidad
e
Theta=1/2
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Binomial
Distribuição Binomial
Exemplo
Qual a probabilidade de observarmos 3 genótiposAa (x = 3) numaamostra de 4 indivíduos (n = 4)?
P (3) =
(43
)(1/2)3 [1− (1/2)]
(4−3)= 1/4
0.0
0.1
0.2
0.3
0 1 2 3 4
x
Pro
babi
lidad
e
Theta=1/2
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Binomial
Distribuição Binomial
Outras distribuições
E se θ tiver outros valores?
Theta=5/6 Theta=1 Theta=0
Theta=1/2 Theta=1/3 Theta=3/4
0 1 2 3 4 0 1 2 3 4 0 1 2 3 4
0.00
0.25
0.50
0.75
1.00
0.00
0.25
0.50
0.75
1.00
x
Pro
babi
lidad
e
Diferentes valores de theta
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Normal
Distribuição Normal
Grande parte das variáveis (caracteres) estudados na Genética
f(x) =1√2πσ2
e−(x−µ)2
2σ2
Exemplo: teor de açúcar numa população de cana-de-açúcar
0.00
0.05
0.10
0.15
10 15 20 25
Brix
Pro
babi
lidad
e
Concentração em torno da média, dispersão, indivíduos raros, etc
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Normal
Densidade de Probabilidades
Qual a probab. de selecionar ind. com Brix acima de 22?
0.00
0.05
0.10
0.15
10 15 20 25
Brix
Pro
babi
lidad
e
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Normal
Modelo vs dados reais
É óbvio que dados reais não estão “classificados”Várias técnicas são empregadas (histogramas, boxplots,ramo-e-folhas, etc
Brix, 200 valores
0.00
0.05
0.10
0.15
0.20
10 15 20 25
Brix
Den
sida
de
0
50
100
150
200
Contagem
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Normal
Exercício
Qual(is) conj. foram amostrado(s) em pop. com dist. normal?
0
2
4
6
−2 −1 0 1x
Con
tage
m
0
10
20
−6 −4 −2 0 2 4x
Con
tage
m
0
5
10
−3 −2 −1 0 1 2x
Con
tage
m
0.0
2.5
5.0
7.5
−2 −1 0 1 2x
Con
tage
m
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Normal
Exercício
Todos eles! (n = 50)
0
2
4
6
−2 −1 0 1x
Con
tage
m
Tamanho das classes: Amplitude/50
0
5
10
15
20
25
−6 −4 −2 0 2 4x
Con
tage
m
Tamanho das classes: 2
0
5
10
−3 −2 −1 0 1 2x
Con
tage
m
Tamanho das classes: 0.5
0
2
4
6
8
−2 −1 0 1 2x
Con
tage
m
Tamanho das classes: 0.25
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Normal
Exercício
Tamanho da amostra
0
5
10
−4 −2 0 2 4x
Con
tage
m
Amostra A: n=40
0
10
20
30
40
50
60
−2 0 2x
Con
tage
m
Amostra B: n=300
0
20
40
60
80
100
−2 0 2 4x
Con
tage
m
Amostra C: n=500
0.0
0.1
0.2
0.3
0.4
−4 −2 0 2 4x
Den
sida
de
amostra
A
B
C
Comparação
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Distribuição Normal
História - Tycho Brahe
Movimento de corpos celestiais
Outra ideia: P = G+ E
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Alguns Fundamentos
Variável Discreta
Retrocruzamento, com interesse emAa
Imagine um exp. hipotético não realizado, com 4 indivíduos
1, 1, . . . , 1︸ ︷︷ ︸x
, 0, 0, . . . , 0︸ ︷︷ ︸n-x
Resultados possíveis:
Aa 0 1 2 3 4
Probabilidade P (0) P (1) P (2) P (3) P (4)
Média esperada:E(X) =
∑xP (x)
Na distribuição binomial, demonstra-se queE(X) = np
No caso, E(X) = 4(1/2), ou seja, 2 indivíduos com genótipoAa
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Alguns Fundamentos
Variável Contínua
Brix de 200 indivíduos, cana-de-açúcar
0.00
0.05
0.10
0.15
0.20
10 15 20 25
Brix
Den
sida
de
0
50
100
150
200
Contagem
Qual a média desse experimento, com base no histograma?
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Alguns Fundamentos
Variável Contínua
Qual a média esperada para uma variável contínua?
Esperança Matemática:
E(X) =
∫ ∞
−∞xf(x) dx
Demonstra-se que, no caso da distribuição normal,E(X) = µ
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Introdução
Alguns conceitos
Experimento
Conjunto de dados
Informações sobre como esses dados foram coletados
Inferência estatística
Desejamos explicitar o modelo que deu origem aos dados
Usualmente, o modelo envolve um ou mais parâmetrosdesconhecidos
Os parâmetros devem ser estimados a partir dos dados
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Introdução
Método da Verossimilhança
Suponha que ummodelo probabilístico tenha sido formulado paraum experimento
Imagine que esse modelo envolva um parâmetro θ
Desejamos usar os dados para estimar θ
Formalmente, desejamos determinar quais são os possíveis valoresde θmais plausíveis (prováveis, verossímeis), à luz das observações
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Introdução
Método da Verossimilhança
Exemplo
Seja θ a proporção de indivíduosAa numa população grande ehomogênea, com 2 alelos para esse loco.
Desejamos estimar essa proporção.
Para tanto, selecionamos aleatoriamente n indivíduos e verificamosseu genótipo.
Após o experimento, notamos que x deles sãoAa
A probabilidade de observarmos esse eventoE é P (E; θ) = probab.de x, de um total de n indivíduos, possuírem o genótipoAa
P (E; θ) =
(nx
)θx(1− θ)(n−x)
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Introdução
Método da Verossimilhança
Exemplo
Suponha que x = 3 e n = 4
Note que, nesta situação, θ não é conhecido
P (E; θ) =
(43
)θ3(1− θ)(4−3)
Se θ = 1/2, P (E; θ) = 0.25Se θ = 1/3, P (E; θ) = 0.10Se θ = 3/4, P (E; θ) = 0.42Se θ = 5/6, P (E; θ) = 0.39Se θ = 1, P (E; θ) = 0
Qual valor de θ é mais plausível?
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Introdução
Verossimilhança
Distribuições
De qual distribuição os dados foram amostrados?
Theta=5/6 Theta=1 Theta=0
Theta=1/2 Theta=1/3 Theta=3/4
0 1 2 3 4 0 1 2 3 4 0 1 2 3 4
0.00
0.25
0.50
0.75
1.00
0.00
0.25
0.50
0.75
1.00
x
Pro
babi
lidad
e
Diferentes valores de theta
Note que é mais fácil rejeitar do que aceitar
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Definição
Método da Verossimilhança
Definição
A função de verossimilhança de θ é definida como L(θ) = c · P (E; θ)
Função de Verossimilhança: função densidade de probabilidade dasobservações, interpretada como uma função dos parâmetros quedeterminam a distribuição (Siegmund e Yakir, 2007)
Edwards (1992): The likelihood L(H|R), of the hypothesisH givendataR, and a specific model, is proportional to P (R|H), theconstant of proportionality being arbitrary.
(Note que a soma de P (E; θ) no exemplo anterior não é 1)
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Definição
Método da Verossimilhança
Definição
Likelihood is the hypothetical probability that an event that hasalready occurred would yield a specific outcome. The concept differsfrom that of a probability in that a probability refers to theoccurrence of future events, while a likelihood refers to past eventswith known outcomes.(http://mathworld.wolfram.com/Likelihood.html)L(θ) ∝ P (E; θ)
L(θ) ∝ θx(1− θ)(n−x) (no caso da dist. binomial)
A constante c, por não depender dos parâmetros, normalmente édesconsiderada
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Definição
Verossimilhança
Definição
Sorensen e Gianola (2002): Sejam y os dados observados, resultadode um processo estocástico caracterizado por ummodelo comdistribuição (densidade) p(y|θ)A distribuição (densidade) das observações é portanto p(y|θ)A verossimilhança L(θ) ou L(θ|y) é obtida com base em uma“inversão” deste conceito
Por definição: L(θ|y) ∝ p(y|θ)
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Definição
Exemplo - genótiposAa
Dados: yi (i = 1, . . . , n; n = 4)
1, 1, . . . , 1︸ ︷︷ ︸x
, 0, 0, . . . , 0︸ ︷︷ ︸n-x
p(yi|θ) =∏n
i=1 p(yi|θ)
θ, θ, . . . , θ︸ ︷︷ ︸x
, (1− θ), (1− θ), . . . , (1− θ)︸ ︷︷ ︸n-x
p(yi|θ) =(
nx
)θx(1− θ)n−x
Verossimilhança:L(θ|y) ∝ θx(1− θ)n−x
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Definição
Peso de indivíduos amostrados numa pop. F2
Ummodelo possível: yi ∼ N(µ, σ2), sendo θ = (µ, σ2)
Verossimilhança:
L(θ|y) =n∏
i=1
1√2πσ2
e−(yi−µ)2
2σ2
Qual seria ummodelo para estudar a variação do peso dos alunos dasala de aula?
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Estimador de Máxima Verossimilhança
Método da Verossimilhança
Para simplificar, é usual trabalharmos com o log de L(θ)
Qual a razão?
Atenção Os pontos de máximo e mínimo não se alteram após o usodo logaritmo (funçãomonótona)
Notação: l(θ) = loge L(θ) = logL(θ)d l(θ)dθ é dita função score
I(θ) = −d2l(θ)dθ2
é dita função de informação de Fisher
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Estimador de Máxima Verossimilhança
Estimador de Máxima Verossimilhança
Exercício1 Qual a função de verossimilhança do exemplo anterior (binomial)?2 Qual a função score?3 Qual é o ponto de máximo de l(θ), dito θ?
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Estimador de Máxima Verossimilhança
Estimador de Máxima Verossimilhança
Exercício1 L(θ) ∝ θx(1− θ)(n−x)
2 l(θ) = x log(θ) + (n− x) log(1− θ)
3 θ = xn
0.000
0.025
0.050
0.075
0.100
0.00 0.25 0.50 0.75 1.00
x
x3 (1−
x)(4
−3)
−20
−15
−10
−5
0.00 0.25 0.50 0.75 1.00
x
3log
(x)+
(4−
3)lo
g(1
−x)
MLE
θ = 3/4 é o MLE de θ
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Estimador de Máxima Verossimilhança
MLE
Distribuição Normal
1 L(θ|y) =∏n
i=11√2πσ2
e−(yi−µ)2
2σ2
2 µ =∑n
i=1 yin = y
3 σ2 =∑n
i=1(yi−y)2
n
MLE e Quadrados Mínimos
Sob normalidade, osMLE’s também são estimadores de quadradosmínimos
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Principais Referências
Gonick, L; Smith, W.The Cartoon Guide to StatisticsEditora Harper Perennial, 1993
Kalbfleisch, J.G.Probability and Statistical InferenceEditora Springer-Verlag, 1985 Volume 1
Edwards, A.W.F.Likelihood (expanded edition)The John Hopkins University, 1992
Distribuição de Probabilidades Esperança Matemática Verossimilhança Referências
Principais Referências
Sorensen, D.; Gianola, D.Likelihood, Bayesian, and MCMC Methods inQuantitative GeneticsEditora Springer-Verlag, 2002
Koller, D.; Friedman, N.Probabilistic Graphical Models: Principles and TechniquesMIT Press, 2009