Upload
rafe
View
36
Download
4
Embed Size (px)
DESCRIPTION
Problema Objectivos Estado da Arte Estudo de simulação Trabalho futuro. Um dos problemas básicos em modelação estatística é o de averiguar se o modelo proposto para representar o fenómeno aleatório que produz um conjunto de dados é ou não adequado. - PowerPoint PPT Presentation
Citation preview
Metodologia bayesiana e adequação de modelos
Doutoranda: Maria João Polidoro
Orientador: Fernando Magalhães
Co-orientador: Maria Antónia AmaralTurkman
GI3 – Encontro Ericeira – 20 Fevereiro 2010
• Problema
• Objectivos
• Estado da Arte
• Estudo de simulação
• Trabalho futuro
Tópicos
GI3 – Encontro Ericeira – 20 Fevereiro 2010 2
Um dos problemas básicos em modelação estatística é o de averiguar se o modelo proposto para representar o fenómeno aleatório que produz um conjunto de dados é ou não adequado.
Problema
GI3 – Encontro Ericeira – 20 Fevereiro 2010 3
O trabalho de doutoramento que propomos visa desenvolver novas técnicas de estudo da adequabilidade de modelos, focada numa abordagem bayesiana não paramétrica.
O conjunto de técnicas deve permitir, de forma clara, dizer até que ponto o modelo se ajusta ou se um novo modelo tem que ser gerado.
Objectivos
GI3 – Encontro Ericeira – 20 Fevereiro 2010 4
o Métodos preditivosGelman et al (1996); Bayarri e Berger (2000); Robins et al (2000); Hjort et al (2006) e Draper e Krnjajic (2007)
o Validação cruzadaGelfand et al (1992); Lampinen e Vehtari (2002) e Marshall e Spiedelhalter (2003)
o Não paramétricaCarota e Parmigiani (1996); Conigliani et al (2000); Spezzaferri et al (2006); Berger e Guglielmi (2001); e Johnson (2004,2007)
Estado da Arte
GI3 – Encontro Ericeira – 20 Fevereiro 2010 5
Tradicionalmente, a abordagem bayesiana para o estudo da avaliação da adequação de um modelo, compara os valores observados com os valores preditos.
Exemplo: valor p preditivo de discrepância (Gelman et al,1996)
Abordagens
GI3 – Encontro Ericeira – 20 Fevereiro 2010 6
( , | )valor Pr ( , ) ( , ) |rep
obsp x x repobs obsp T X t x x
( , | ) ( | ) ( | )rep repobs obsp x x f x h x
Abordagens
GI3 – Encontro Ericeira – 20 Fevereiro 2010
Alternativamente, uma outra abordagem bayesiana designada de não paramétrica, consiste em definir um modelo mais alargado que incorpore o modelo em análise, utilizando seguidamente, medidas de comparação entre os dois modelos, por exemplo, o factor de Bayes.
7
Abordagem não paramétrica (CCO,2000)
GI3 – Encontro Ericeira – 20 Fevereiro 2010
Seja x=(x1,x2,…,xn) uma amostra de n observações i.i.d. onde cada observação pode ser classificada em um dos k+1 grupos Gj, j=1,2,…,k e seja r=(r0,r1,…,rk) o número de observações, xi, que caem em cada um dos grupos.
8
01 1 1
0
2 2 0 1
: Pr(X | ) ( ) e ( ), ( | ) ( ) ,
: Pr(X | ) , ( | ) Multinomial( ( , ,..., ))
jk r
i j j jj
i j j k
M G h f r
M G f r
0 1
0
~ Dirichlet( ( , ,..., ))
( ), 0,1,...,
k
j jj jk
jj
c c c cc c
E j kcc
Abordagem não paramétrica (CCO,2000)
GI3 – Encontro Ericeira – 20 Fevereiro 2010
Para a comparação, os autores utilizam o factor de Bayes fraccionário, dado por
que representa o peso da evidência contida no conjunto de dados a favor de M2 e contra M1.
9
21 2
1
01 1
1 01 1
02 2 1
2 02 2 1
( ; )BF ( ; )( ; )
onde
( | ) ( )( ; )
( | ) ( )
( | ) ( | ) ( )( ; )
( | ) ( | ) ( )
frac
b
b
q r br bq r b
f r h dq r b
f r h d
f r h h d dq r b
f r h h d d
Abordagem não paramétrica (CCO,2000)
GI3 – Encontro Ericeira – 20 Fevereiro 2010
Simulação 1:
10
1 11
( ) ( 5, 0,5)
1( ) (1 ) ,
j Bi k
h bn
BF21
n r0 r1 r2 r3 r4 r5 c = 2 c = 20 c = 100100 4 18 33 29 15 1 0,0148 0,8868 1,8049
2 11 30 36 19 2 0,0007 0,0694 0,4459 1 21 39 22 15 2 0,0010 0,0995 0,5512
50 1 8 18 13 10 0 0,0884 0,7985 1,1238 3 8 15 18 5 1 0,0030 0,1909 0,7194 4 5 15 19 5 2 0,0188 0,6788 1,3118
25 2 4 4 10 4 1 0,0325 0,6807 1,1127 0 4 8 8 3 2 0,0789 0,6330 0,9797 2 4 8 8 3 0 0,0507 0,5162 0,9095
Abordagem não paramétrica (CCO,2000)
GI3 – Encontro Ericeira – 20 Fevereiro 2010
Simulação 2:
11
BF21
n r0 r1 r2 r3 r4 r5 c = 2 c = 20 c = 100
100 26 40 21 10 2 1 0,0039 0,0682 0,4437
23 48 18 8 3 0 0,0604 0,7939 1,6675
50 15 12 15 6 2 0 0,1617 1,4460 1,6513
12 22 13 3 0 0 0,1019 0,5670 0,9275
25 8 9 4 3 1 0 0,0937 0,6669 1,0906
4 10 7 4 0 0 0,1906 0,7460 0,9835
( ) ( 5, 0,25)j Bi k
Abordagem não paramétrica (CCO,2000)
GI3 – Encontro Ericeira – 20 Fevereiro 2010
Simulação 3 (SIZ, 2006):
12
5, (0,31;0,16;0,03;0,03;0,16;0,31), forma Uk
BF21
n r0 r1 r2 r3 r4 r5 c = 2 c = 20 c = 100
60 15 10 3 4 8 20 7,73×1024 9,92×1021 1,56×1014
40 15 6 0 0 5 14 2,68×1026 2,32×1021 9,58×1013
20 7 3 0 0 3 7 2,69×1011 9,9×107 10977,84
Outras abordagens não paramétricas
GI3 – Encontro Ericeira – 20 Fevereiro 2010
1) Carota e Parmigiani (1996)
2) Berger e Guglielmi (2001)
3) Johnson V. (2004)
13
22
1
( ( ) )( ) ( 1)K
B k k
nk k
n npQ Knp
Simule-se da distribuição a posteriori ( | )h x 0 1 1Escolher quantis 0 ... 1, com = , 1,...,k k k ka a a p a a k K
1
1
0 se ( | ) ( , ]Seja z ( ) um vector de tamanho ,cujo elemento =
1 se ( | ) ( , ]i k k
ii k k
F x a aK k é
F x a a
1
( ) ( )n
ii
n z
Trabalho futuro
GI3 – Encontro Ericeira – 20 Fevereiro 2010
Propor uma técnica alternativa para o estudo da adequação de modelos
Medir o desempenho da nova técnica
Realizar estudos experimentais e comparativos
14