107
Aplicações de Approximate Bayesian Computation a controle de qualidade Thiago Feitosa Campos Tese apresentada ao Instituto de Matemática e Estatística da Universidade de São Paulo para obtenção do título de Doutor em Ciências Programa: Estatística Orientador: Prof. Dr. Sergio Wechsler Coorientador: Prof. Dr. Luís Gustavo Esteves Durante o desenvolvimento deste trabalho o autor recebeu auxílio financeiro da CAPES São Paulo, Junho de 2015

Aplicações de Approximate Bayesian Computation a controle de

  • Upload
    votuong

  • View
    214

  • Download
    2

Embed Size (px)

Citation preview

  • Aplicaes deApproximate Bayesian Computation

    a controle de qualidade

    Thiago Feitosa Campos

    Tese apresentadaao

    Instituto de Matemtica e Estatsticada

    Universidade de So Paulopara

    obteno do ttulode

    Doutor em Cincias

    Programa: EstatsticaOrientador: Prof. Dr. Sergio Wechsler

    Coorientador: Prof. Dr. Lus Gustavo Esteves

    Durante o desenvolvimento deste trabalho o autor recebeu auxlio financeiro da CAPES

    So Paulo, Junho de 2015

  • Aplicaes de Approximate Bayesian Computation a controle dequalidade

    Esta verso da tese contm as correes e alteraes sugeridaspela Comisso Julgadora durante a defesa da verso original do trabalho,realizada em 11/06/2015. Uma cpia da verso original est disponvel no

    Instituto de Matemtica e Estatstica da Universidade de So Paulo.

    Comisso Julgadora:

    Prof. Dr. Sergio Wechsler (orientador) - IME-USP

    Prof. Dr. Lus Gustavo Esteves - IME-USP

    Prof. Dr. Jess Enrique Garca - UNICAMP

    Profa. Dra. Laura Leticia Ramos Rifo - UNICAMP

    Prof. Dr. Marcio Alves Diniz - UFSCar

  • Agradecimentos

    A tarefa de escrever essa tese foi bastante difcil, ceratocone nos dois olhos Foi um fator com-plicador que tive que lidar durante a produo dessa tese. No teria conseguido sem o apoio deamigos e famlia, em especial minha me que sempre deu apoio incondicional durante toda minhavida. Meus amigos Alexandre Patriota e Victor Fossaluza, atualmente professores do IME-USP, eCaio Freire foram importantes, sempre ajudando a manter a tempestade mental viva.

    O perodo de tempo que passei como professor substituto na UFSCar foi basante engrandecedorpara minha vida, e por isso quero agradecer a todos os professores e funcionrios do departamentode estatstica da universidade federal de So Carlos apenas por terem feito parte da minha vidanaquele momento.

    Minha amiga Raquel Guimares e sua tia Catharina merecem um agradecimento especial porme ajudarem a superar momentos difceis.

    Ao meus amigos Alexander Strelow, e famlia, Fernando, Felipe(Pride), e famlia, e Lo, obrigadopelos momentos de descontrao com o RPG, comidas gostosas e boa cerveja.

    Alexandre Patriota e sua namorada, Fernanda, merecem um agradecimento adicional por teremme hospedado por uma semana, da ocasio da defesa da minha tese.

    Desculpem aos meus amigos que esqueci de mencionar, mas agradeo a vocs por serem meusamigos.

    i

  • ii

  • Resumo

    CAMPOS, T. F. Aplicaes de Approximate Bayesian Computation a controle de quali-dade. 2015. 120 f. Tese (Doutorado) - Instituto de Matemtica e Estatstica, Universidade de SoPaulo, So Paulo, 2015.Neste trabalho apresentaremos dois problemas do contexto de controle estatstico da qualidade:monitoramento on-line de qualidade e enviromental stress screening, analisados pela ptica baye-siana. Apresentaremos os problemas dos modelos bayesianos relativos a sua aplicao e, os reana-lisamos com o auxlio do ABC o que nos fornece resultados de uma maneira mais rpida, e assimpossibilita anlises diferenciadas e a previso novas observaes.

    Palavras-chave: Approximate Bayesian Computarion, Controle de qualidade, Preditivismo.

    iii

  • iv

  • Abstract

    CAMPOS, T. F. Applications of Approximate Bayesian Computation in quality control. 2015. 120 f. Tese (Doutorado) - Instituto de Matemtica e Estatstica, Universidade de So Paulo,So Paulo, 2015 .In this work we will present two problems in the context of statistical quality control: on line qua-lity monitoring and environmental stress screening, analyzed from the Bayesian perspective. Wewill present problems of the Bayesian models related to their application, and also we reanalyzethe problems with the assistance of ABC methods which provides results in a faster way, and soenabling differentiated analyzes and new observations forecast.

    Keywords: Approximate Bayesian Computation, Quality control, Forecast.

    v

  • vi

  • Sumrio

    Lista de Figuras ix

    Lista de Tabelas xi

    1 Introduo 11.1 Organizao do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    2 Approximate Bayesian Computation 52.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Funo de verossimilhana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Algoritmo ABC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.3.1 Gnese do Approximate Bayesian Computation . . . . . . . . . . . . . . 72.3.2 Observando variveis aleatrias contnuas . . . . . . . . . . . . . . . . . . . . 82.3.3 MCMC-ABC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3.4 Noisy ABC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.4 Toy model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.4.1 Beta-binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.4.2 Normal-gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.5 Comparando o ABC com um algoritmo MCMC . . . . . . . . . . . . . . . . . . . . 14

    3 Gerando observaes de uma distribuio de Holgate 213.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.2 Distribuio de Poisson bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3 Abordagem Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.4 Gerando observaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.4.1 Gibbs Sampler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.4.2 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.4.3 ABC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.4.4 Comparando mtodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.5 Prevendo novas observaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.6 Observaes sobre o ABC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    4 ABC aplicado ao modelo Bayesiano no-paramtrico para o monitoramento on-line de qualidade de Taguchi para atributos. 454.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.2 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    4.2.1 Suposies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    vii

  • viii SUMRIO

    4.2.2 Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.2.3 Vantagens e desvantagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    4.3 ABC aplicado ao modelo no paramtrico . . . . . . . . . . . . . . . . . . . . . . . . 484.3.1 Gerando observaes de um processo de Dirichlet . . . . . . . . . . . . . . . . 484.3.2 Gerando observaes do processo de controle de qualidade. . . . . . . . . . . . 524.3.3 ABC configurado para gerar uma funo de probabilidade acumulada . . . . 524.3.4 Escolha do mtodo para gerar uma observao de um processo de Dirichlet . 54

    4.4 Calculando a estimativa da proporo dos itens no-conforme ao longo do processode produo usando o amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 54

    4.5 Resultados das simulaes do ABC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.5.1 Anlise dos hipermetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    4.6 Inferncia preditiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.7 Observaes e consideraes finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    5 ABC aplicado a Enviromental Stress Screening 675.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.2 Abordagem Bayesiana para a metodologia ESS . . . . . . . . . . . . . . . . . . . . . 67

    5.2.1 Funo de risco a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.2.2 Anlise Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    5.3 Usando o ABC na metodologia ESS . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.3.1 Exemplo numrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    5.4 MCMC aplicado metodologia ESS . . . . . . . . . . . . . . . . . . . . . . . . . . 725.5 Taxa de fala crescente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    5.5.1 Modelo com taxa de falha crescente . . . . . . . . . . . . . . . . . . . . . . . 745.5.2 Exemplo numrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    5.6 Previses de futuros enviromental stress screening . . . . . . . . . . . . . . . . . . . . 775.7 Consideraes finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    6 Concluses 876.1 Sugestes para Pesquisas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

    Referncias Bibliogrficas 89

  • Lista de Figuras

    2.1 (a) Histograma da amostra mdia gerada no primeiro cenrio comparada com adensidade a posteriori (equao 2.12); (b) Histograma da amostra mdia geradano segundo cenrio comparada com a densidade a posteriori (equao 2.12); (c)Histograma da amostra mdia gerada no terceiro cenrio comparada com a densidadea posteriori (equao 2.12); (d) Histograma da amostra mdia gerada no quartocenrio comparada com a densidade a posteriori (equao 2.12) . . . . . . . . . . . . 16

    2.2 (a) Funo de probabilidade acumulada de (, )|x; (b) Funo emprica mdia daamostra do primeiro cenrio; (c) Funo emprica mdia da amostra do segundo cenrio. 17

    2.3 (a) Grfico de disperso de todas as amostras geradas no primeiro cenrio; (b) Grficode disperso de todas as amostras geradas no segundo cenrio. . . . . . . . . . . . . 18

    2.4 (a) Funo de probabilidade acumulada de (, )|x; (b) Funo acumulada emp-rica mdia da amostra do primeiro cenrio; (c) Funo acumulada emprica mdiada amostra do segundo cenrio; (d) Funo acumulada emprica mdia da amostragerada pelo amostrador de Gibbs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    2.5 (a) Grfico de disperso de todas as amostras geradas no primeiro cenrio; (b) Gr-fico de disperso de todas as amostras geradas no segundo cenrio; (c) Grfico dedisperso de todas as amostras geradas pelo amostrador de Gibbs. . . . . . . . . . . . 20

    3.1 Boxplot do nmero da iteraes que cada algoritmo necessitou para gerar a amostra. 333.2 Histogramas de observaes a posteriori de 1, 2 e 3 geradas pelo MCMC via

    Random Walk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.3 Histogramas de observaes a posteriori de 1, 2 e 3 geradas pelo MCMC via

    Independence Chain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.4 Histogramas de observaes, geradas pelo ABC a posteriori de 1, 2 e 3 . . . . . . 363.5 Histograma em trs dimenses das amostras de 1 versus 2 geradas pelo Indepen-

    dence Chain MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.6 Histograma em trs dimenses das amostras de 1 versus 3 geradas pelo Indepen-

    dence Chain MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.7 Histograma em trs dimenses das amostras de 3 versus 3 geradas pelo Indepen-

    dence Chain MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.8 Histograma em trs dimenses das amostras de 1 versus 2 geradas pelo ABC . . 403.9 Histograma em trs dimenses das amostras de 1 versus 3 geradas pelo ABC . . 413.10 Histograma em trs dimenses das amostras de 3 versus 3 geradas pelo ABC . . . 423.11 Disgrama de disperso em trs dimenses da distribuio preditiva . . . . . . . . . . 433.12 Representao da distribuio preditiva na forma de um histograma em trs dimenses 44

    ix

  • x LISTA DE FIGURAS

    4.1 Nmero de linhas da matriz Ck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.2 Nmero de linhas da matriz Ck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.3 Boxplot do numero de interaes necessrias para gerar amostras utilizando o stick-

    breacker e o Rapid Simulation, como amostradores da distribuio priori . . . . . . . 554.4 Estimativas de F (t)| = k geradas pelo ABC, usando o Stickbreaker e o Rapid

    Simulations Of A Dirichlet Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.5 Estimativas de F (t)| = 1, obtidos pela equao 4.4, pelo ABC (algoritmo 14) e

    Gibbs(algorimo 16) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.6 Estimativas de F (t)| = k para a = b = = = = 5, dado = k para k = 1, . . . , 10 614.7 Estimativas de F (t)| = 1 variando de acordo com valores de a . . . . . . . . . . . . 624.8 Estimativas de F (t)| = 1 variando de acordo com valores de b . . . . . . . . . . . . 634.9 Estimativas de F (t)| = 1 variando de acordo com valores de . . . . . . . . . . . . 644.10 Estimativas de F (t)| = 1 variando de acordo com valores de . . . . . . . . . . . . 654.11 Estimativas de F (t)| = 1 variando de acordo com valores de . . . . . . . . . . . . 66

    5.1 Histograma das amostras da distribuio de probabilidade a posteriori de p, e e ggeradas pelo algoritmo 18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    5.2 Funo de risco a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 805.3 Histograma das amostras de (, p, g, e) gerados pelo MCMC, algoritmo 19 . . . . . 815.4 Funo de risco a priori quando a taxa de falha crescente . . . . . . . . . . . . . . . 825.5 Histograma das amostras da distribuio a posteriori de (, p, g, e, kg, ke) . . . . . 835.6 Funo de risco a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 845.7 Grfico de barras das distribuies preditivas marginais de x, y, z e m suponto taxa

    de falha constante. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855.8 Grfico de barras das distribuies preditivas marginais de x, y, z e m suponto taxa

    de falha crescente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

  • Lista de Tabelas

    2.1 Sumrio do nmero de interaes necessrias para gerar uma observao usando oamostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    3.1 Sumrio do nmero de iteraes necessrias para gerar uma observao da distribui-o de Holgate usando os algoritmos 9, 10 e 11 . . . . . . . . . . . . . . . . . . . . . 29

    3.2 Distribuio preditiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    4.1 Estatsticas descritivas do nmero de interaes que o ABC levou para gerar asestimativas de F (t)| = k, usando tanto o Stickbreaker como o Rapid Simulation . . 54

    4.2 Distribuio preditiva do nmero de inspees necessrias para detectar um itemno-conforme, num prximo ciclo de produo . . . . . . . . . . . . . . . . . . . . . . 58

    xi

  • xii LISTA DE TABELAS

  • Lista de Algoritmos

    1 ABC -Rejeio 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 ABC -Rejeio 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 MCMC-ABC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 ABC - Rejeio 2 (Beta-Binomial) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 ABC - Rejeio 2 (Normal-gama) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 Amostrador de Gibbs (Normal-gama) . . . . . . . . . . . . . . . . . . . . . . . 147 Amostrador de Gibbs para gerar observaes da distribuio Holgate . . . . . . . . . 258 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Random Walk Chain Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . 2710 Independence Chain Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . 2711 ABC - Rejeio 2 (Holgate) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2812 Gerador de processo de Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5213 Gerador de processo de controle de qualidade de Taguchi . . . . . . . . . . . . . . . . 5214 Processo de estimao de F (t)| = k . . . . . . . . . . . . . . . . . . . . . . . . . . . 5315 Amostrador de Gibbs para obter o estimador bayesiano no-paramtrico da funo

    de sobrevivncia para o caso de censura intervalar quando a priori processo deDirichlet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    16 amostrador de Gibbs para obter observaes da distribuio 4.4 . . . . . . . . . . . . 5617 ABC para gerar amostras de (, p, g, e|x, y, z,m) . . . . . . . . . . . . . . . . . . 7018 ABC para gerar amostras de (, p, g, e|x, y, z,m) . . . . . . . . . . . . . . . . . . 7219 MCMC via independence chain para gerar amostras do modelo 5.8 . . . . . . . . . . 7320 ABC para gerar amostras de (, p, g, e, kg, ke|x, y, z,m) . . . . . . . . . . . . . . 76

    xiii

  • xiv LISTA DE ALGORITMOS

  • Captulo 1

    Introduo

    Os fenmenos da natureza sempre chamaram ateno do homem. Na pr-historia o conhecimentosobre os fenmenos naturais representava a diferena entre viver ou morrer. A capacidade de poderexplicar, e com isso poder prever tais fenmenos se tornou importante para a evoluo humana.Tal cenrio demonstra o importante papel que um esforo de explicao e previso teve em termosprticos tanto quanto em termos explicativos

    Com a necessidade de obter novas explicaes sobre o que era contemplado pelo ser humano,sugiram novas formas de responder aos questionamentos levantados perante tais fenmenos. Opensamento matemtico tornou-se uma alternativa para explicar tais contemplaes. Por considerara aleatoriedade, caos dos fenmenos observados, a abordagem estatstica a forma mais adaptadatal tarefa.

    Modelos estatsticos vem evoluindo de maneira similar s explicaes dos fenmenos observados.Essa evoluo do modelo deve-se, em grande parte, a evoluo tecnolgica. Atualmente, modeloscom suposies cada vez mais sofisticadas podem ser criados, avaliados e usados no mundo prtico.Dos modelos, mais especificamente modelos estatsticos, possuidores de sofisticaes tericas, queaumentam o nvel de complexidade do mesmo, os que mais se beneficiaram do avano tecnolgicoso os modelos sob a ptica Bayesiana. Um exemplo so modelos que no tinham um teorema queestipulava uma famlia conjugada e, com o avano tecnolgico, passaram a ser frequentes.

    Com a constante sofisticao dos modelos, desejo latente de alguns estatsticos, um fenmenoaflorou, a extrema complexidade computacional dos mesmos. At que ponto a contnua sofisticaode modelos estatsticos possvel, levando em considerao a complexidade gerada por ela? Quaiscustos a utilizao de um modelo super sofisticado pode trazer ao seu usurio? Quais os ganhos eperdas tem-se por utilizar um modelo menos sofisticado, mas mais acessvel?

    O controle estatstico do processo de produo de um determinado item uma rea de estudoem que a complexidade de modelos estatstica uma caracterstica indesejvel. Quanto maior acomplexidade do modelo utilizado maior o tempo necessrio para diagnosticar uma possvel quebrana qualidade do processo de produo.

    Assegurar o controle de qualidade de uma linha de produo essencial para evitar a comerci-alizao de produtos defeituosos. Tsunemi et al. (2012) e Barlow et al. (1994) propem modelosBayesianos para dois procedimentos de monitoramento da qualidade do processo de produo. Oprimeiro trata o monitoramento de um processo de produo em linha segundo a abordagem deTaguchi (ver Taguchi et al. (1989)). Tsunemi et al. (2012) apresentam uma abordagem Bayesianano-paramtrica para modelar a verificao de um item no-conforme durante uma inspeo dociclo de produo.

    J em Barlow et al. (1994) o contexto abordado o da ps-produo. assumido que ositens produzidos podem atender ou no a qualidade estipulada. Um lote destes itens submetidoa um ensaio de estresse simulando, de forma acelerada, o tempo de uso. O trabalho em questoapresenta uma abordagem bayesiana para estimar a proporo de itens de baixa qualidade queforam produzidos, bem como o tempo mdio da vida til dos itens de boa e baixa qualidade.

    Em ambos os modelos h um fato em comum, uma complexidade computacional intensa, aoponto de inviabilizar o seu uso. Tal complexidade devida a suposies tericas extremamentesofisticadas, feitas nos seus respectivos trabalhos.

    1

  • 2 INTRODUO 1.1

    Quando um modelo em estudo complicado de analisar, pelo fato de no ter uma forma analticaamigvel, a opo para a utilizao do mesmo, a gerao de observaes deste modelo em estudo.

    Existem diversos mtodos para gerar observaes de um modelo estatstico, todos baseados nadistribuio de probabilidade associada ao modelo. O mais simples utilizar a funo inversa dadistribuio acumulada (F1).

    Quando a complexidade envolvida na anlise grande, so necessrios mtodos computacionaismais potentes. Para os modelos Bayesianos mais sofisticados os mtodos mais usuais so baseadosem Markov Chain Monte Carlo, MCMC. O amostrador de Gibbs e o algoritmo de Metropolis-Hastings so os algoritmos mais utilizados.

    O lado negativo dessa estratgia de anlise o fato de que esses algoritmos dependem direta,ou indiretamente, da forma da funo de verossimilhana. Dependendo da complexidade da fun-o de verossimilhana, como o caso do modelo apresentado por Tsunemi et al. (2012), gerarobservaes do modelo continua sendo uma tarefa extremamente difcil. Os modelos apresentadosem Tsunemi et al. (2012) e Barlow et al. (1994) so dois modelos que apresentam uma comple-xidade computacional to grande que impossibilita at mesmo a utilizao de mtodos MCMC,como ser visto e discutido mais a frente nesse trabalho.

    Em casos como esse que o Approximate Bayesian Computation (ABC) se destaca. Em suaessncia est o fato de no utilizar, de forma numrica, a funo de verossimilhana. Essa premissa o grande atrativo do ABC e, tambm, um ponto de grande discusso. Pela sua sua ideia motriz,o ABC o candidato ideal para gerar observaes dos modelos supracitados.

    O ABC bastante usado em reas biolgicas: Beaumont et al. (2002) implementam o mtodoem gentica de populaes e discutem o problema de inmeros parmetros indesejados nos modelosestatsticos utilizados nessa rea de pesquisa. Em Cornuet et al. (2008) proposto um programacomputacional, Do It Yourself Approximate Bayesian Computation (DIY ABC ) para analisar dadosde populao gentica e aferir informaes sobre a histria evolutiva da mesma. Beaumont (2010)descreve o ABC, bem como tcnicas de MCMC nos contextos de populaes genticas, demografiade colonizao, histria demogrfica humana, filogeografia, entre outros.

    No presente trabalho introduzido o uso do ABC no contexto de controle de qualidade. Comisso esperado que as anlises dos modelos de Tsunemi et al. (2012) e Barlow et al. (1994) fiquemmais palpveis e, assim, fazer com eles sejam utilizados com mais frequncia . Outra ambio apossibilidade estender os resultados, j conhecidos, para outros casos igualmente interessantes. Porexemplo, relaxar a suposio de taxa de falha constante, presente em Barlow et al. (1994), usandouma taxa de falha crescente.

    Com o objetivo de manter a complexidade computacional no nvel mais baixo possvel, decidiu-sepor apenas implementar a verso mais simples do ABC.

    1.1 Organizao do trabalhoEsse trabalho se organiza da seguinte forma. O captulo 2 apresenta o algoritmo Approximate

    Bayesian Computation em seus detalhes. Discute-se o fato do ABC usar, ou no, a funode verossimilhana de um modelo. O funcionamento ilustrado atravs de toy models. Suas pe-culiaridades so discutidas, o que muda nas amostras geradas quando mudamos os argumentoscomputacionais do ABC e, por fim, o desempenho do ABC comparado com o do MCMC .

    No captulo 3 apresentado um breve resumo sobre a distribuio de Holgate, que possui umafuno de probabilidade, e por consequncia uma funo de verossimilhana, analiticamente com-plicada. O ABC, e o MCMC , so configurados para gerar observaes de uma distribuio deprobabilidade a posteriori, distribuio dos dados observados a distribuio Holgate, e seus de-sempenhos comparados. Acredita-se que esse pode ser um exemplo esclarecedor de que o ABCpode gerar amostras de um modelo sem necessitar de sua funo de verossimilhana.

    Nos captulos 4 e 5 seguido o seguinte roteiro, para ambos os captulos. Apresentar o pro-blema em estudo, revisando os artigos de origem do problema, justificar o uso do ABC, aplicar omesmo, compara-lo com o MCMC e, por fim usar os dados gerados para obter a distribuio deprobabilidade preditiva de um nova observao do experimento de interesse.

  • 1.1 ORGANIZAO DO TRABALHO 3

    Finalmente, no captulo 6, conclui-se o trabalho, e so apresentadas diretrizes para futurostrabalhos.

  • 4 INTRODUO 1.1

  • Captulo 2

    Approximate Bayesian Computation

    2.1 IntroduoNa inferncia Bayesiana h uma necessidade recorrente de gerar observaes de dados de inte-

    resse, e os motivos para tal necessidade so variados. Em grande parte das anlises bayesianas essanecessidade oriunda ao fato da distribuio de probabilidade a posteriori no possuir uma formaanaltica fechada, o que bastante frequente quando no possvel trabalhar dentro da famlias dedistribuies conjugadas usuais, que so modelos mais simples e amplamente conhecidos.

    Quando no se tem uma forma analtica fechada, a obteno de resumos (como esperana,varincia, mximo, mnimo, entre outros) a posteriori fica bastante dificultada. A gerao de obser-vaes de uma distribuio de probabilidade de grande ajuda neste caso, j que existem mtodosnumricos que possibilitam calcular probabilidades, estimar densidades, fazer qualquer manipulao(inferncia) que se deseje, e para isso basta ter um nmero de observaes suficientemente grande.

    Alguns dos algoritmos que geram dados observveis (tambm chamados de amostradores) maisutilizados so baseados em MCMC , sigla para Markov Chain Monte Carlo, um algoritmo quepropem gerar observaes de uma deseja da distribuio de probabilidade atravs da evoluode cadeias de Markov. Pode-se dizer que o amostrador de Gibbs (Casella e George, 1992) umadas variantes do MCMC mais utilizadas em anlises devido a facilidade de implement-lo. Outravariante basante utilizada o algoritmo de Metropolis-Hasting (Gamerman e Lopes, 2006), maisrobusto que o amostrador de Gibbs. Em esmagadora maioria os mtodos de simulao necessitam,de alguma forma, da funo de verossimilhana, geralmente atravs de manipulaes algbricas.

    O ABC, tambm conhecido como likelihood-free method, um amostrador que gera dadosobservveis sem necessitar calcular, ou efetuar clculos, em uma funo de verossimilhana. Suagnese, funcionamento e peculiaridades sero apresentado a seguir, bem como uma breve discussosobre o que verossimilhana, e se o ABC a utiliza ou no.

    2.2 Funo de verossimilhana usualmente dito que a funo de verossimilhana nada mais que a funo de probabilidade

    (funo densidade de probabilidade) vista em funo do parmetro, usualmente retratado por ,com uma observao amostral x, podendo ser uma nica observao ou uma amostra com vriasobservaes, mas fixa, j observada (DeGroot, 1989, captulo 6). Esse fato faz com que a funo doparmetro no seja mais uma funo de probabilidade, mas sim uma funo, de qualquer, exceto deprobabilidade ou densidade de probabilidade. Em Fisher (1922, pag. 310) dito The Likelihoodthat any parameter (or set of parameters) should have any assigned value (or set of values) isproportional that if this were so, the totality of observations should be that observed. Portanto afuno pode ser escrita como:

    L() f(x|). (2.1)

    A verossimilhana de algum parmetro (), dado a observao de uma amostra (x) de tamanho1(um), ou seja, uma nica observao oriunda de uma populao (ou varivel) discreta, pode serescrita da forma:

    L(|x) = P (x|). (2.2)

    Considerando agora uma amostra de tamanho n, x = (x1, x2, . . . , xn) (supondo observaes inde-

    5

  • 6 APPROXIMATE BAYESIAN COMPUTATION 2.2

    pendentes e identicamente distribudas), pode-se escrever:

    L(|x) =ni=1

    P (xi|). (2.3)

    Analogamente, quando observada uma amostra, de tamanho um e de tamanho n, respectiva-mente, de uma populao (ou varivel) continua, tem-se:

    L(|x) = f(x|);

    L(|x) =ni=1

    f(xi|).

    Em Bayarri e DeGroot (1992), alm da definio supracitada, dito que a funo de verossi-milhana, usualmente, tambm pode ser considerada como sendo proporcional a funo de proba-bilidade, ou funo de densidade de probabilidade, de quantidade observadas em um determinadoexperimento, condicionadas a quantidades no observadas neste mesmo experimento,

    L() f(o que foi observado|o que no foi observado) (2.4)

    De maneira mais simples, esta forma de pensar abre um precedente para interpretar a funo deverossimilhana como sendo o condicionamento da amostra observada nas amostras que poderiamser observadas, mas no foram. Assim, no h um interesse direto no parmetro , caso haja umno problema em estudo.

    Note que a nica diferena entre as duas interpretaes exatamente o que considerado,ou no, parmetro. Na primeira abordagem, equao 2.1, o parmetro, geralmente, consideradouma quantidade fixa, mas desconhecida. J na segunda abordagem, equao 2.4, isso pode nonecessariamente acontecer. Esse fato fica mais claro com o exemplo contido em Bayarri e DeGroot(1992), exemplo 2.2.1.

    Exemplo 2.2.1. Considere um problema em que, para cada valor do parmetro , uma varivelaleatria Y tem funo densidade de probabilidade f(y|). Considera-se que Y no pode ser, por sis, observada, mas sim pode-se observar uma pertubao aleatria X de Y . Isto , assume-se queo que observado uma realizao da varivel aleatria X com funo densidade de probabilidadecondicional f(x|y, ) = f(x|y).

    Qual a funo de verossimilhana para esse problema? Existem diversas possibilidades. Pri-meiro deve-se decidir onde o valor desconhecido de y de Y deve ser includa na funo de veros-similhana. Pode-se argumentar que, j que y no pode ser, nem nunca ser, observado, maisapropriado que no seja includa ao se definir a funo de verossimilhana, e assim definir:

    L0() f(x|). (2.5)

    Por outro lado, j que a formulao bsica do problema em funo de y, ento pode-se pensarque y deve ser levada em considerao na funo de verossimilhana (este caso seria bvio sehouvesse interesse tambm em y). Neste caso precisa-se decidir em como considerar y, como umarealizao de uma varivel aleatria, e portanto ficando a esquerda de |, da seguinte forma,

    L1() f(x, y|), (2.6)

    ou considerar y como uma quantidade no observada, e desconhecida, e assim fazendo-o ficar adireita de |, resultando uma funo de verossimilhana da seguinte forma:

    L2() f(x|y, ) = f(x|y). (2.7)

    Qual funo de verossimilhana usar no , a principio, fcil de escolher, e necessrio realizar

  • 2.3 ALGORITMO ABC 7

    um julgamento de carter subjetivo para poder decidir qual usar.

    A motivao desse exemplo mostrar que a funo de verossimilhana pode ser ambgua e dif-cil de ser definida mesmo em problemas com um nvel baixo de complexidade. Assim, a afirmaofeita por Bayarri e DeGroot (1992) (...there is not such a thing as a likelihood function that canbe unambigouosly defined in all statistical problems.) ganha bastante fora. No h uma definionica da funo de verossimilhana para todos os problemas estatsticos. Com isso em mente umquestionamento pode ser levantado: um conceito, to difundido na estatstica, pode ser delimitadosomente pela definio de uma nica funo, que se mostrou ambgua? Pode-se considerar que omodelo probabilstico, do experimento de interesse, um sinnimo da verossimilhana, no sentidode que ambos podem ser facilmente confundidos? O exemplo 2.2.1 deixa claro que funo de veros-similhana e modelo probabilstico, funo (densidade) de probabilidade, so distintas, apesar deuma depender da outra.

    2.3 Algoritmo ABCEm qualquer experimento sempre so feitas suposies sobre os dados observveis. Essas supo-

    sies sempre so projetadas na funo de verossimilhana, e algumas dessas suposies tornam afuno de verossimilhana intratveis, deixando qualquer clculo impossvel, se no computacional-mente bastante custoso. Nos casos em que a intratabilidade da funo de verossimilhana no toextrema, algoritmos MCMC so bastante utilizados, mas o que pode ser feito quando a intrata-bilidade to grande que um algoritmo MCMC demoraria um tempo maior do que o disponvelpara gerar uma amostra desejvel? Nesta seo est apresentado uma alternativa para casos comoesse, o algoritmo ABC (Approximate Bayesian Computation), que no utiliza a funo deverossimilhana. Por esse motivo, esse mtodo chamado de likelihood-free.

    2.3.1 Gnese do Approximate Bayesian Computation

    A primeira apario do ABC, ainda como um conceito apareceu em Rubin (1984). nesse tra-balho dito que: Suppose the model for data set X is given by f(X|)p() where is the parameterwhose posterior distribution is to be calculated. Of course, the posterior distribuition of given ob-served X is calculated via Bayesians theorem, but how is conceptual content of this theorem easilyconveyed? Consider the simple description.

    Suppose we first draw equally likely values of from p(), and label this 1, . . . , s. The j , j =1, . . . , s can be thought of as representing the possible populations that might have generated theobserved X. For each j, we now draw an X, that might have been observerd under the full modelf(X|)p(). Now some of the X will look just like the observerd X and many will not; of course,subject to the degree of rounding and the number of possible values of X, s might have to be verylarge in order to find generated Xj that agree with observerd X, but this creates no problem for ourconceptual experiment. Suppose we collect together all Xj match the observerd X, and then all jthat correspond to these Xj. This collection of j represents the values of that could have generatedthe observerd X; formally, this collection of values represents the posterior distribution of .

    De maneira resumida, a ideia motriz do ABC a suposio de que, um valor oriundo dadistribuio de |X = x capaz de gerar, simular, um conjunto de dados igual , ou suficientementeprximos como mostrado a seguir, do conjunto de dados originalmente observado.

    Essa ideia simples, desenvolvida por Rubin (1984), acabou se tornando uma alternativa com-putacional para o processo inferencial. Os casos que apresentam uma funo de verossimilhanaintratvel, beneficiam-se bastante do algoritmo ABC. Isso pode ser visto mais detalhadamente noscaptulos 4 e 5.

    A transcrio, para pseudo-cdigo, da ideia presente em Rubin (1984) est presente no algo-ritmo 1. Este algortimo tambm pode ser encontrado em outros trabalhos, que contam a historia doABC, como por exemplo Marin et al. (2011) que, alm disso apresentam outras verses do ABC.

    Para melhor entendimento do algoritmo 1, suponha que se deseja gerar amostras da distribui-o a posteriori de uma quantidade no observvel de um determinado experimento. Seja essaquantidade desconhecida e () sua distribuio de probabilidade a priori. Seja X uma varivelobservvel e x o valor observado de X, podendo ser uma nica ou vmrias observaes. Suponha

  • 8 APPROXIMATE BAYESIAN COMPUTATION 2.3

    um modelo probabilstico para a varivel X dado o valor da quantidade desconhecida . Denota-sepor f(x|) tal modelo probabilstico. A verossimilhana gerada pela observao do experimento, jdefinida anteriormente, L(|x). Assim a distribuio de probabilidade a posteriori de |X = x dada por (|X = x) L(|x)().

    Considerando um caso em que se tem uma funo de verossimilhana intratvel, mas em quese sabe como gerar uma observao de f(|), um exemplo disso est bem detalhada no captulo 3.O algoritmo 1, gera um da distribuio priori, denominado (passo 3). Ento, com geradouma amostra y oriunda de f(|) (passo 4). Se a amostra simulada igual a amostra observada,ento uma observao de (|X = x) (Passo 5).

    Perceba que o ABC necessita, de maneira vital, que haja uma maneira de replicar o experimentoobservado: se no se sabe como fazer isso, ento no h como implementar qualquer verso do ABC.

    Note que em nenhum momento foi feita nenhuma manipulao, algbrica ou numrica, na funode verossimilhana. O processo inferencial, a maneira de como a informao de obtida atravsda amostra observada, x, baseia-se somente no ato de replicar o experimento observado e anotarseus resultados. Por esse motivo o ABC tambm chamado de likelihood-free method.

    Algoritmo 1 ABC -Rejeio 11: for i = 1 to N do2: repeat3: Gerar de ()4: Gerar y de f(|)5: until x=y6: i =

    7: end for

    A prova matemtica de que uma amostra gerada pelo ABC pode ser considerada como umaamostra da distribuio a posteriori de interesse dada a seguir. Seja f(i) a densidade de 1 geradapelo algoritmo 1. Assim,

    f(i) yX

    (i)f(y|i)Ix(y) = (i)f(x|i)

    (i|x),

    onde X o conjunto, enumervel, de valores possveis de x.Uma demonstrao deveras simples, mas o suficiente para dar credibilidade matemtica ao

    ABC.

    2.3.2 Observando variveis aleatrias contnuas

    Do ponto de vista computacional, a condio de parada do algoritmo 1, passo 5, inalcanvel,quando os valores x e y pertencem ao conjunto dos nmeros reais.

    Sofrendo desse problema, observando valores contnuos, Pritchard et al. (1999) utilizam oABC de forma modificada. Com o intuito de relaxar a condio de igualdade do algoritmo 1. Issofoi possvel utilizando mecanismos,que hoje so chamados de tunning parameters.

    Devido ao fato de observar uma amostra de tamanho grande, Pritchard et al. sumarizam aamostra, condensando asim a informao contida nela e assume que a condio de igualdade en-tre as amostras, geradas e observadas, pode ser substituda por: a amostra gerada, devidamentesumarizada, est suficientemente perto da amostra observada, tambm devidamente sumarizada.

    Com esse relaxamento, a ideia original de Rubin (1984) se modifica. Agora, se um valor

    gerado de () pode gerar uma amostra y na vizinhana da amostra observada x, ento esse valor especfico considerado como uma realizao da distribuio a posteriori (|x).

    A transcrio, para pseudo-cdigo, do algoritmo apresentado em Pritchard et al. (1999) encontra-se logo a baixo, algoritmo 2. Nele so presentes os seguintes tunning parameters:

  • 2.3 ALGORITMO ABC 9

    () a funo sumrio, que utilizada para resumir a informao da amostra em uma ordem degrandeza menor que a da amostra(e.g. estatsticas suficientes);

    () > 0 a funo distncia, que vai informar quo longe, ou perto, as duas amostras, observadae a simulada, esto;

    > 0 a distncia mxima tolerada entre as duas amostras.

    Algoritmo 2 ABC -Rejeio 21: for i = 1 to N do2: repeat3: Gerar de ()4: Gerar y de f(|)5: until ((x) (y)) 6: i =

    7: end for

    A demonstrao terica de que a amostra gerada pelo algoritmo 2 segue, aproximadamente, adistribuio de probabilidade a posteriori de interesse segue abaixo.

    Considere o conjunto A,x = {y X |((x) (y)) }, todos os valores y que satisfizeram acondio de aceitao do algoritmo 2, para um determinado. Note que no contexto que envolve oalgoritmo 2, quando observamos variveis aleatrias continuas, X no enumervel.

    A distribuio a posteriori conjunta de (i, y) da forma:

    (, y|x) =()f(y|)IA,x(y)A,x ()f(y|)d

    .

    Assim,

    (|x) =(, y|x)dy (|x). (2.8)

    A qualidade da aproximao, que pode no estar muito clara na demonstrao acima, dependeda escolha conjunta de e . A escolha de um sumrio de amostra representativa o suficientealiado com uma tolerncia pequena o suficiente, deve produzir uma aproximao, suficientementeboa.

    Quando igual a zero, mesmo caso do ABC-Rejeio quando se observam variveis discre-tas, tem-se a amostra exata da distribuio alvo, mas, quando so observadas variveis contnuas,escolher um igual a zero revela-se uma impossibilidade computacional. A escolha do valor de uma negociao entre os custos computacionais e a qualidade da aproximao. Uma discusso maisaprofundada sobre as diferenas entre (|x) e (|x), atravs de resultados empricos, pode serencontrada em Sisson et al. (2007), e resultados tericos sobre limites superiores, em casos bemespecficos, para podem ser vistos em Dean et al. (2014).

    Quando se tem um conjunto de dados com vrias dimenses, sumrios de amostra de dimen-ses menores, condensando a maior quantidade de informao possvel da maneira mais simplesque se possa, so essenciais. Mas nem sempre possvel condensar a informao dos dados damaneira que mais til. A m escolha de funes sumrios, alm de aumentar a diferena entre(|x) e (|x), podem levar a uma perda de informao o que implica numa inferncia de mqualidade (Csillry et al., 2010). Uma reviso pode mtodos para escolher pode ser encontradaem Blum et al. (2013).

    importante frisar que em cada caso, a escolha de e deve ser feita depois de investigaes daqualidade da amostra gerada, em contra partida com custos computacionais envolvidos na execuodo algoritmo.

  • 10 APPROXIMATE BAYESIAN COMPUTATION 2.4

    2.3.3 MCMC-ABC

    Outras variaes do algoritmo ABC, desenvolvidas para superar dificuldades encontradas emdiversos problemas, podem ser encontradas em Marin et al. (2011). Uma dessas variaes oMCMC-ABC que mescla o ABC com a classe de algoritmos MCMC . A motivao para taljuno foi a tendncia em gerar pontos com baixa probabilidade a posteriori que o ABC-Rejeiotem em alguns casos. O MCMC -ABC fez sua primeira apario em Marjoram et al. (2003),com a ideia de adicionar uma nova condio de aceitao para , condio essa tambm presenteno algoritmo de Metropolis-Hastings, alm da adio de um kernel de transio para gerar novoss dependendo do ultimo aceito. A transcrio do MCMC-ABC pode ser vista a seguir,algoritmo 3.

    Algoritmo 3 MCMC-ABC

    1: Use o algoritmo 2 para obter uma realizao ((0), y(0))2: for t = 1 to N do3: Gerar do kernel q(|(t1))4: Gerar y de f(|)5: Gerar u de Uniforme(0, 1)6: if u (

    )q((t1)|))((t1))q(|(t1)) e ((x) (y)) then

    7: ((t), y(t)) = (, y)8: else9: ((t), y(t)) = ((t1), y(t1))

    10: end if11: end for

    Ao custo de aumentar a complexidade computacional do ABC-Rejeio, que pode ser imprati-cvel em algumas situaes, o MCMCABC promete diminuir, talvez at eliminar, a tendnciado ABC-Rejeio gerar pontos em regies de baixa probabilidade a posteriori.

    2.3.4 Noisy ABC

    Outra variao do ABC, tambm comentada em Marin et al. (2011), mas apresentada pelaprimeira vez em Wilkinson (2008) chama-se Noisy ABC. A particularidade desse mtodo aceitarque o ABC gera amostras perfeitas, mas da distribuio errada.

    Semelhante a um modelo linear, ou modelo linear generalizado, onde os dados so observaesde um modelo adicionado de um erro aleatrio, Wilkinson (2008) interpreta a distribuio geradapelo ABC como se fosse o melhor modelo de predio possvel e assume que h uma discrepnciaentre esse melhor modelo de predio e os dados observados. Essa discrepncia pode representartanto um erro de medida nos dados como um erro de modelo. Fazendo esta discrepncia ser comoo erro aleatrio de um modelo linear, possvel escrever os dados observados da seguinte forma:

    x = P (|) + ,

    uma realizao do modelo com o melhor argumento , adicionado de um termo aleatrio . Por serum termo aleatrio assumido uma distribuio para , denominada por ().

    A condio de aceitao do ABC, na metodologia presente em Wilkinson (2008), baseia-se nadistribuio () avaliada no ponto x y, o que torna a regra de aceitao varivel a cada iteraodo algoritmo. Detalhes em como construir () encontram-se em Wilkinson (2008).

    Todos as simulaes desse captulo, bem como de todo o trabalho, feitas usando o ABC foramgeradas pelo ABC-Rejeio. Nenhuma outra variao foi utilizada, pois tendo em vista a altacomplexidade ds modelos discutidos neste trabalho, manter a simplicidade computacional do ABCtornou-se prioridade.

  • 2.4 TOY MODEL 11

    2.4 Toy modelPara ilustrar o funcionamento do ABC, ele foi implementado para gerar amostras de duas distri-

    buies a posteriori de modelos Bayesianos j conhecidos, toy models. Em um dos modelos a varivelobservada discreta e no outro uma varivel contnua. Isso permite observar os algoritmos 1 e 2em ao. Os modelos em estudo so:

    1. Considerando X uma sequncia de n ensaios de Bernoullis

    Beta(a, b),X| Bernoulli(),

    |X = x Beta(a+ni=1

    xi, b+ 1ni=1

    xi); (2.9)

    2. Considerando uma amostra de tamanho n

    Gama(0, 0),| Normal(0, ()1),

    X|, Normal(, 1), |X = x Gama(n, n), (2.10)

    |, X = x Normal(n, [(n+ ) ]1); (2.11)

    onde

    n = 0 + n/2,

    n = 0 +ni=1(xix)2

    2 +n(x0)2

    2(n+) ,

    n =nx+0n+ .

    Como sabido, em outros mtodos computacionais que, tambm utilizam parmetros de tun-ning, Random Walk Chain MCMC por exemplo (Gamerman e Lopes, 2006, pag. 198), no existeuma regra geral para determinar o melhor valor para o parmetro de tunning. Por isso foram es-colhidos alguns valores para esses parmetros, gerando assim alguns cenrios diferentes em que oABC ser implementado.

    Na escolha de (), tem-se a crena que usar um vetor cujas componentes so estatsticas su-ficientes, ou utilizar um vetor cujas as componentes so funes da amostra que esto parte deestatsticas suficientes, como o boxplot (um vetor cujas componentes so os trs quartis), que parte de uma estatstica suficiente(estatsticas de ordem), devem gera amostras de boa qualidade.Dependendo das caractersticas amostrais (tendncia central, disperso, assimetria, curtose, etc.)de x que deseja-se replicar na amostra gerada y ser necessrio uma funo () especifica.

    Para escolher a funo distncia, (), a distncia euclideana parece natural para isso, mastambm foram testadas outras composies de distncias.

    O nvel de tolerncia funciona como em qualquer outro algoritmo: quanto menor, mais prximoesto as duas amostras, e mais tempo computacional gasto para gerar uma amostra y que satisfaaa condio de aceitao desejada.

    2.4.1 Beta-binomial

    O primeiro dos toy models a ser estudado o modelo beta-binomial. O ABC configurado paraeste caso est apresentado em seguida, algoritmo 4.

    Considere a realizao de 10 ensaios de Bernoulli, x = (1 0 1 0 0 0 0 0 0 1) e a distribuio a priori beta(1/2, 1/2). Pela equao 2.9 tem-se que,

    |X = x Beta(7/2, 15/2). (2.12)

  • 12 APPROXIMATE BAYESIAN COMPUTATION 2.4

    Algoritmo 4 ABC - Rejeio 2 (Beta-Binomial)1: for i = 1 to N do2: repeat3: Gerar de Beta(a, b)4: Gerar y de Bernoulli()5: until ((x) (y)) 6: i =

    7: end for

    O algoritmo ABC-Rejeio 2 (Beta-Binomial) foi configurado em quatro cenrios diferentes

    1. (x) = x, ((x) (y)) = (x y)2 e = 102;

    2. (x) = x, ((x) (y)) a distncia euclidiana e = 102

    3. (x) = x, ((x) (y)) = (x y)2 e = 106;

    4. (x) um vetor cujas componentes so os quantis de ordem 25%, 50%, 75%, ((x) (y)) a distncia euclidiana = 106.

    Note que, quando o algoritmo 2 implementado com () descrito como no segundo cenrio,independente das escolhas de () e de , o algoritmo executado acaba sendo o algoritmo 1.

    Para cada cenrio foram gerados 100 amostras de tamanho 1000 cada uma, e com essas amostrasobtiveram-se as seguintes informaes:

    1. Para gerar uma amostra de tamanho 1000 foi necessrio gerar, em mdia, 7153 , em outraspalavras necessrio gerar 8 para aceitar 1;

    2. Para gerar uma amostra de tamanho 1000 foi necessrio gerar, em mdia, 1840000 , emoutras palavras necessrio gerar 1841 para aceitar 1;

    3. Para gerar uma amostra de tamanho 1000 foi necessrio gerar, em mdia, 153200 , em outraspalavras necessrio gerar 154 para aceitar 1;

    4. Para gerar uma amostra de tamanho 1000 foi necessrio gerar, em mdia, 153300 , em outraspalavras necessrio gerar 154 para aceitar 1.

    Ainda utilizando as rplicas, os grficos da figura 2.1 foram feitos com a inteno de saber quoaproximado est a amostra da posteriori gerada pelo ABC da densidade da distribuio a posterioridesejada (equao 2.12).

    Em cada cenrio, cada uma das rplicas foi ordenada, gerando assim as estatsticas de ordem.Calculou-se a mdia de cada uma das estatstica de ordem nas 100 rplicas, gerando assim umaamostra composta pelas mdias de cada estatstica de ordem. Esta amostra composta pelas mdiasdas estatsticas de ordem ser denominada amostra mdia. Na figura 2.1, esto representados cadauma das amostras mdias para cada cenrio.

    Percebe-se que a configurao do cenrio 1 no to boa quanto as dos outros trs cenrios, poisfoi a que mais se afastou da distribuio alvo, equao 2.9, embora tenha sido a que necessitou demenos interaes para a amostra. A amostra gerada com as configuraes do cenrio 2, teoricamente,tem a melhor qualidade, pelo fato de usar toda a amostra x como funo sumrio. Mas foi o casoem que o ABC mais foi dispendioso computacionalmente, j que necessitou mais de 10 vezesmais interaes que o ABC nos outros dois cenrios, para gerar a amostra. As configuraes doscenrios 3 e 4 geraram amostras muito prximas da densidade alvo, tanto quanto as do cenrio 2,e com uma taxa de aceitao bem maior, mostrando-se as melhores alternativas, dentre os quatrocenrios, aliando qualidade da amostra com consumo de recursos computacionais intermedirio.Como comentado anteriormente, a escolha de uma negociao entre recursos computacionais equalidade da amostra.

  • 2.4 TOY MODEL 13

    2.4.2 Normal-gama

    O segundo toy model estudado neste captulo um modelo conjugado bastante conhecido, mo-delo normal-gama. O algoritmo 2 foi configurado para gerar amostras da distribuio de (, )|X =x apresentado em seguida.

    Algoritmo 5 ABC - Rejeio 2 (Normal-gama)1: for i = 1 to N do2: repeat3: Gerar de Gama(0, 0)4: Gerar de Normal(0, ( )1)5: Gerar y de Normal(, 1)6: until ((x) (y)) 7: i =

    8: i =

    9: end for

    Os hiperparmetros foram escolhidos da seguinte forma, = 1, 0 = 0.45, 0 = 1.53 e 0 = 0.81.Novamente foram escolhidos cenrios diferentes para estudar o desempenho do ABC. Estes estoapresentados a seguir:

    1. (x) =

    (ni=1

    xi,

    ni=1

    x2i

    ), ((x) (y)) a distncia euclidiana e = 102;

    2. (x) um vetor cujas as componentes so os quantis de ordem 25%, 50%, 75%, ((x)(y)) a distancia euclidiana e = 102.

    Novamente, para cada cenrio, foram gerados 100 amostras de tamanho 1000, com uma mesmaamostra observada para cada um dos cenrios. A amostra observada nesse exemplo, x, tem tamanho

    100 e possui

    (ni=1

    xi,ni=1

    x2i

    )= (40.46047, 45.42041) eQuantis(25%, 50%, 75%) = (0.01946887, 0.46127636, 0.83666056).

    A distribuio a posteriori de (, )|x pode ser escrita da seguinte forma:

    |X = x Gama(51.53, 15.33598) (2.13)|,X = x Normal(0.4050541, (101 )1). (2.14)

    Note que (x) um vetor em qualquer um dos dois cenrios.Antes de apresentar os resultados das simulaes interessante ressaltar que no modelo beta-

    binomial possui um parmetro escalar. J o modelo normal-gama tem um vetor de parmetros(, ). No h como usar estatsticas de ordem, como foram usadas no toy model com o modeloBeta-Binomial, para os vetores observados. A alternativa utilizada foi calcular a funo emprica deprobabilidade acumulada para cada uma das rplicas geradas, e ento calcular a mdia das funesempricas ponto a ponto. Assim h a possibilidade de comparar a funo emprica mdia de cadacenrio com funo de probabilidade acumulada da distribuio alvo.

    Os seguintes resultados foram obtidos, para cada cenrio:

    1. Para gerar uma amostra da distribuio a posteriori de tamanho 1000 foi necessrio gerar, emmdia, 14915067 . Significa que necessrio gerar 14916 para aceitar 1 desses 14916;

    2. Para gerar uma amostra da distribuio a posteriori de tamanho 1000 foi necessrio gerar, emmdia, 298800.1 . Significa que necessrio gerar 299 para aceitar 1 desses 299.

    Na figura 2.2 so apresentados as curvas de nveis das funes de probabilidade acumulada dadistribuio alvo, figura (a), e das funes empricas mdia de cada um dos cenrios, figuras (b),(c). Percebe-se que dos dois cenrios o que mais se aproxima da distribuio alvo o segundo.

  • 14 APPROXIMATE BAYESIAN COMPUTATION 2.5

    Este cenrio no trabalha com uma estatstica suficiente como funo sumrio, mas sim uma partedela. Como falado anteriormente, a suficincia, utilizada como sumrio, ou parte da suficincia,aliada com a escolha da funo de distncia, deve gerar boas amostras. imprescindvel investigarcada caso a fim de determinar a melhor combinao possvel. Quando as estatsticas suficientesforam usadas como funo sumrio, primeiro cenrio, amostras y suficientemente prximas dasamostras x (passo 6 do algoritmo 5) so geradas em grande quantidade, o que diminui a taxa derejeio de . Tal fato no acontece no segundo cenrio, que utiliza uma outra estatstica, nosuficincia e, dificulta, restringe, a gerao de amostras y prximas de x aumentando assim a taxade rejeio de . Esse fato pode explicar a razo da grande gerao de pontos em uma regio debaixa probabilidade a posteriori.

    De modo geral, as suspeitas sobre a influncia dos parmetros de tunning foram comprovadas.Autilizao de estatsticas suficientes, ou parte delas, como resumo das amostras, associada com adistncia euclidiana fazendo o papel de (), tende a uma amostra mais plausvel com a distribuioalvo. A tolerncia influencia a velocidade computacional e a qualidade da amostra como prevamos.

    O fato do ABC gerar pontos amostrais regies de baixa probabilidade a posteriori comentadoem Marin et al. (2011). O MCMC-ABC , j exposto anteriormente foi criado com o intuito deresolver esse problema.

    Como os modelos estatsticos apresentados nos captulos seguintes tem uma complexidade com-putacional elevada, decidiu-se implementar somente o ABC-Rejeio para no elevar inda mais acomplexidade dos clculos. Por esse motivo, os desempenho do MCMC-ABC no foi apresentadoaqui. mas os dados sobre ele esto disponveis em Campos e Wechsler (2012).

    2.5 Comparando o ABC com um algoritmo MCMCApenas com as informaes apresentadas na seo anterior, no se pode afirmar se o ABC

    um bom amostrador, se gera amostras confiveis e se de rpida execuo computacional. Por isso necessrio compar-lo com a classe de algoritmos MCMC .

    Foi decidido comparar as amostras geradas, pelo ABC, para o segundo toy-model, modelonormal-gama, com as amostras geradas por um algoritmo MCMC. O escolhido para este modelofoi o amostrador de Gibbs (veja Casella e George, 1992).

    Como mostrado anteriormente o modelo normal-gama apresenta as seguintes distribuies aposteriori,

    |X = x Gama(n, n),|, X = x Normal(n, [(n+ ) ]1);

    deste modo,

    (, |X = x) =

    (n+ )

    2e

    12

    (n)2(n+) n(n)

    n1en . (2.15)

    No difcil ver que as distribuies condicionais completas, (|,X = x) e ( |,X = x),que so necessrias para implementar o amostrador de Gibbs, coincidem com as distribuies aposteriori de |X = x e |, X = x. Utilizando a mesma amostra observada que foi utilizada naseo 2.4.2, pode-se obter osseguintes valores n = 51.53, n = 15.33598 e n = 0.4050541. Oprocesso para obter uma amostra da distribuio de , |X = x usando o amostrador de Gibbsencontra-se descrito abaixo, algoritmo 6.

    Algoritmo 6 Amostrador de Gibbs (Normal-gama)

    1: Escolher valores iniciais (0) e ((0)) e inicializar o contador j = 12: repeat3: Gerar (j) de Gama(51.53, 15.33598)4: Gerar (j) de Normal(0.4050541, (101 (j))1)5: j = j + 16: until Condio de convergncia

  • 2.5 COMPARANDO O ABC COM UM ALGORITMO MCMC 15

    Foi escolhido utilizar um critrio grfico para diagnosticar a convergncia da cadeia, monitorandoa mdia ergdica das duas cadeias, uma para e outra para . Foi estipulado que se a mdia ergdicana iterao j for igual a mdia ergdica da interao j 1, com pelo menos 4 casas decimais deigualdade, e se essa igualdade se mantiver h por pelo menos 500 iteraes, as cadeias tero atingidoa convergncia.

    Por um motivo de comparao, decidiu-se iniciar sempre um novo par de cadeias deMarkov paracada nova observao da amostra gerada. Deste modo possvel comparar o nmero de interaesque o ABC necessitou para gerar uma observao com o nmero de iteraes que o amostrador deGibbs necessitou para gerar uma observao, descontando as 500 iteraes obrigatrias para a cons-tatao da convergncia, alm de no haver preocupao com a dependncia entre as observaes.

    Tabela 2.1: Sumrio do nmero de interaes necessrias para gerar uma observao usando o amostradorde Gibbs

    Mnimo 1o Quartil Mediana Mdia 3o Quartil Mximo Varincia858 1249 1367 1386 1504 2334 34778,59

    Ao comparar a informao apresentada na tabela 2.1 com as informaes contidas na seo 2.4.2,nota-se que, desconsiderando as 500 interaes obrigatrias para a constatao de convergncia,o amostrador de Gibbs necessitou, em mdia, de 1386 interaes para gerar uma observao daamostra da distribuio de interesse, enquanto o ABC, no melhor dos casos necessitou de apenas299 interaes, em mdia, para gerar uma observao.

    Comparando os dois algoritmos apenas por esse critrio, tem-se a impresso de que o ABC um algoritmo melhor, mas essa deciso pode estar equivocada. Tambm necessrio comparara qualidade da amostra gerada por cada um dos amostradores. As amostras geradas pelo ABC,primeiro e terceiro cenrio, e Gibbs foram comparadas, nas figuras 2.4 e 2.5. Estes cenrios, apre-sentados na seo 2.4.2, foram escolhidos por terem gerado as amostras que mais se aproximaramcom a distribuio alvo (ver figura 2.2).

    Com o auxlio das figuras 2.4 e 2.5 pode-se dizer que, para o modelo normal-gama, o amostradorde Gibbs conseguiu gerar melhores amostras, embora necessitasse de um pouco mais de 6 vezesmais interaes que o ABC no cenrio que gerou a melhor amostra, mas ainda assim o desempenhocomputacional do amostrador de Gibbs considerado bom. Os grficos na figura 2.4 confirmam oque j foi dito, o algoritmo ABC-rejeio tende a gerar pontos em baixa rea de probabilidade aposteriori. O amostrador de Gibbs conseguiu gerar de maneira satisfatria a cauda da distribuioalvo.

    Note que, mesmo com as escalas dos grficos na figura 2.5 sendo diferentes, possvel ver queas amostras gerada pelo ABC mais dispersas que a amostra gerada pelo amostrador de Gibbs, umaexplicao para isso pode ser a tendncia do ABC-Rejeio de gerar pontos em regies de baixaprobabilidade a posteriori.

    Se fosse necessrio escolher um algoritmo como o melhor seria o amostrador de Gibbs poismostrou-se mais confivel quando foi utilizado. Deve-se lembrar que este modelo em especifico simples, e j era esperada essa derrota do ABC. Mas para casos com uma funo de verossimi-lhana de forma analtica intratvel, o ABC se mostrar um algoritmo mais eficiente do que vistoat aqui, para gerar observaes de modelos em estudo, como ser mostrado nos prximos captulos.

  • 16 APPROXIMATE BAYESIAN COMPUTATION 2.5

    (a)

    Den

    sity

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.5

    1.0

    1.5

    2.0

    2.5

    (b)

    Den

    sity

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.5

    1.0

    1.5

    2.0

    2.5

    (c)

    Den

    sity

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.5

    1.0

    1.5

    2.0

    2.5

    (d)

    Den

    sity

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.5

    1.0

    1.5

    2.0

    2.5

    Figura 2.1: (a) Histograma da amostra mdia gerada no primeiro cenrio comparada com a densidade aposteriori (equao 2.12); (b) Histograma da amostra mdia gerada no segundo cenrio comparada com adensidade a posteriori (equao 2.12); (c) Histograma da amostra mdia gerada no terceiro cenrio com-parada com a densidade a posteriori (equao 2.12); (d) Histograma da amostra mdia gerada no quartocenrio comparada com a densidade a posteriori (equao 2.12)

  • 2.5 COMPARANDO O ABC COM UM ALGORITMO MCMC 17

    (a)

    0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

    0.9

    1

    0 1 2 3 4 5

    05

    1015

    20

    (b)

    0.1 0.2 0.3 0.4 0.5 0.6

    0.7 0.8

    0.9

    1

    0 1 2 3 4 5

    05

    1015

    20

    (c)

    0.1 0.2 0.3 0.4

    0.5 0.6 0.7

    0.8 0.9

    1

    0 1 2 3 4 5

    05

    1015

    20

    Figura 2.2: (a) Funo de probabilidade acumulada de (, )|x; (b) Funo emprica mdia da amostra doprimeiro cenrio; (c) Funo emprica mdia da amostra do segundo cenrio.

  • 18 APPROXIMATE BAYESIAN COMPUTATION 2.5

    1.5 1.0 0.5 0.0 0.5

    05

    1015

    20

    (a)

    2 1 0 1 2

    05

    1015

    (b)

    Figura 2.3: (a) Grfico de disperso de todas as amostras geradas no primeiro cenrio; (b) Grfico dedisperso de todas as amostras geradas no segundo cenrio.

  • 2.5 COMPARANDO O ABC COM UM ALGORITMO MCMC 19

    (a)

    0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

    0.9

    1

    0 1 2 3 4 5

    05

    1015

    20

    (b)

    0.1 0.2 0.3 0.4 0.5 0.6

    0.7 0.8

    0.9

    1

    0 1 2 3 4 5

    05

    1015

    20

    (c)

    0.1 0.2 0.3 0.4

    0.5 0.6 0.7

    0.8 0.9

    1

    0 1 2 3 4 5

    05

    1015

    20

    (d)

    0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

    0.9

    1

    0 1 2 3 4 5

    05

    1015

    20

    Figura 2.4: (a) Funo de probabilidade acumulada de (, )|x; (b) Funo acumulada emprica mdia daamostra do primeiro cenrio; (c) Funo acumulada emprica mdia da amostra do segundo cenrio; (d)Funo acumulada emprica mdia da amostra gerada pelo amostrador de Gibbs.

  • 20 APPROXIMATE BAYESIAN COMPUTATION 2.5

    1.5 1.0 0.5 0.0 0.5

    05

    1015

    20

    (a)

    2 1 0 1 2

    05

    1015

    (b)

    0.2 0.3 0.4 0.5 0.6

    23

    45

    (c)

    Figura 2.5: (a) Grfico de disperso de todas as amostras geradas no primeiro cenrio; (b) Grfico dedisperso de todas as amostras geradas no segundo cenrio; (c) Grfico de disperso de todas as amostrasgeradas pelo amostrador de Gibbs.

  • Captulo 3

    Gerando observaes de uma distribuio de Holgate

    3.1 IntroduoNo presente captulo apresentado um outro Toy Model, mais complexo que os apresentados no

    captulo anterior. Esse novo exemplo, considera os dados observados obedecendo a distribuio deHolgate. Essa complexidade consequncia de uma maior sofisticao matemtica, que exemplificade forma mais clara o fato de que o ABC no necessita da funo de verossimilhana para geraruma amostra de uma determinada distribuio a posteriori.

    Esse grau complexidade, apresentada e analisada no decorrer desse captulo, dificulta a imple-mentao de algum algoritmo para gerar observaes desta distribuio. Ser mostrado como oalgoritmo de Metropolis-Hastings (Gamerman e Lopes, 2006) pode ser usado para tal tarefa. Comonos exemplos passados, o ABC ser posto em ao, e consequentemente, as amostras geradas porcada um dos dois algoritmos sero comparadas.

    3.2 Distribuio de Poisson bivariadaExistem diferentes formas de representar a distribuio Poisson bivaraida. A que ser tratada

    aqui, distribuio de Holgate, como dito em Chire (2013), construdo pelo mtodo da reduotrivariada. Basicamente, esse mtodo consiste em reduzir a dimenso de um vetor, de trs dimensespara duas, atravs de uma operao nas componentes do vetor original, aqui essa operao ser asoma.

    A construo de uma distribuio Holgate feita da seguinte forma:

    Considere U1, U2, U3 variveis aleatrias (independentes) Poisson com parmetros 1, 2, 3,respectivamente;

    Seja X1 = U1 +U3 e X2 = U2 +U3. O par (X1, X2) tem distribuio Holgate com parmetros(1, 2, 3) (ou (1 + 3, 2 + 3, 3) como visto em Stern e Zacks (2002));

    A funo de probabilidade do par (X1, X2) da forma:

    P (X1 = x, X2 = y|1, 2, 3) = e(1+2+3)min(x,y)i=0

    xi1 yi2

    i3

    (x i)!(y i)!i!(3.1)

    Notem que, quando U3 igual a zero, as componentes do par (X1, X2) so independentes.As distribuies de probabilidade marginais das variveis X1 e X2 so da forma

    P (X1 = x|1, 3) =e(1+3)(1 + 3)

    x

    x!, (3.2)

    P (X2 = x|2, 3) =e(2+3)(2 + 3)

    x

    x!, (3.3)

    i. e., palavras X1 Poisson(1 + 3) e X2 Poisson(2 + 3). Uma consequncia desse fato acovarincia de X1 e X2 que igual a 3, COV (X1, X2) = 3 (Chire, 2013, pag. 11).

    COV (X1, X2) = COV (U1 + U3, U2 + U3)

    21

  • 22 GERANDO OBSERVAES DE UMA DISTRIBUIO DE HOLGATE 3.2

    = COV (U1 + U3, U2) + COV (U1 + U3, U3)

    = COV (U1 + U2) + COV (U1 + U3) + COV (U3, U2) + COV (U3, U3)

    = COV (U3, U3)

    = V ar(U3)

    = 3.

    Portanto 3 uma mdida de dependncia entre X1 e X2 e,

    X1,X2 =3

    (1 + 3)(2 + 3). (3.4)

    Note que 0 X1,X2 1, pois 1, 2, 3 > 0 e, alm disso, a funo de probabilidade do par(X1, X2), quando X1,X2 = 0, da seguinte forma,

    P (X1 = x,X2 = y) =x1

    y2e(1+2)

    x!y!, x, y = 0, 1, . . . (3.5)

    Considere agora um conjunto de observaes independentes x = [(x1, x2)1, (x1, x2)2, . . . , (x1, x2)n].A funo de verossimilhana dada da seguinte forma:

    L(, x) = en(1+2+3)nj=1

    min(xj ,yj)i=0

    xji1

    yji2

    i3

    (xj i)!(yj i)!i!, (3.6)

    onde = (1, 2, 3). Em Chire (2013) a funo de verossimilhana apresentada com umadiferente parametrizao, em funo das esperanas de X1 e X2. Sejam 1 = 1 + 3 = E[X1] e2 = 2 +3 = E[X2]. A funo de verossimilhana, parametrizada em funo de = (1, 2, 3) da forma:

    L(, x) = en(1+2+3)nj=1

    min(xj ,yj)i=0

    (1 3)xji(2 3)yjii3(xj i)!(yj i)!i!

    . (3.7)

    Essa reparametrizao, originalmente apresentada em Holgate (1964), de acordo com o prprio,torna o processo de estimao via mxima verossimilhana matematicamente mais simples, masainda assim continua bastante trabalhoso.

    Todo o processo de estimao pontual, via mtodo dos momentos e mxima verossimilhana, apresentado em Chire (2013), bem como toda a metodologia para teste de hipteses, via teste darazo de verossimilhana, referente a hiptese de independncia entre X1 e X2, isto , 3 = 0.

    As estimativas pontuais de , como mostradas em Chire (2013), via mtodo dos momentos soas seguintes:

    1 = X1 m1,1, (3.8)2 = X2 m1,1, (3.9)3 = m1,1, (3.10)

    onde m1,1 = 1n

    (i,j)D

    (iX1)(jX2)nij , nij =n

    k=1 I{(i,j)}((X1, X2)k) a frequncia de cada par

    (i, j), para i, j = 0, 1, . . ., e D = {(i, j) : nij > 0} representa o conjunto de dados observados. Porconsequncia,

    n =

    (i,j)D

    nij .

    J os estimadores via mxima verossimilhana, mais trabalhosos e complicados de serem obtidos,

  • 3.3 ABORDAGEM BAYESIANA 23

    so:

    1 = X1 3, (3.11)2 = X2 3. (3.12)

    O estimador de mxima verossimilhana para 3 obtido atravs da raiz da seguinte equao, comrelao a 3,

    1

    n

    ni=1

    p(xi 1, yi 1)p(xi, yi)

    = 1, (3.13)

    utilizando 1 = X1 e 2 = X2, no intervalo [0,min(X1, X2)]. A funo p(xi, yi) a funo deprobabilidade P (X1 = xi, X2 = yi) utilizando a reparametrizao presente na equao 3.7;

    3.3 Abordagem BayesianaEm Arruda (2000) h a necessidade de modelar, probabilisticamente, resultados de partidas de

    futebol, com a finalidade de poder prever os resultados das partidas seguintes, vitria, empate ouderrota do time com o mando de campo.

    O placar do jogo pode ser encarado como uma varivel aleatria de duas dimenses, com cadadimenso, marginalmente, seguindo uma distribuio univariada de Poisson. Portanto, pode-seconsiderar que esse vetor, aleatrio, segue uma distribuio bivariada de Poisson. A distribuiode Holgate uma possvel distribuio de Poisson bivariada. Chire (2013) apresenta uma outraopo, a distribuio de Poisson generalizada bivariada.

    O modelo Bayesiano abordado aqui, para estudar dados com essas caractersticas menciona-das acima, utiliza a distribuio de Holgate como distribuio dos dados observados, ou a seremobservados.

    Considere as seguintes distribuies de probabilidade, a priori, para (1, 2, 3).

    1 Gama(1, 1), (3.14)2 Gama(2, 2), (3.15)3 Gama(3, 3). (3.16)

    Considere agora que 1, 2 e 3 so, a priori, independentes, e, tambm, a seguinte parametrizaoda distribuio gama. Seja x Gama(a, b), ento:

    fX(x) =ba

    (a)xa1ebx, a > 0, b > 0, x > 0.

    Portanto, a distribuio a priori do trio ordenado (1, 2, 3)

    (1, 2, 3) 111 e11212 e

    22313 e33 . (3.17)

    Utilizando o teorema de Bayes com a priori, equao 3.17, e a funo de verossimilhana,euqo 3.6, tem-se a seguinte distribuio de probabilidade a posteriori:

    (|x) 111 212

    313 e

    (1(n+1)+2(n+2)+3(n+3))nj=1

    min(xj ,yj)i=0

    xj11

    yji2

    i3

    (xj 1)!(yj i)!i!. (3.18)

    Notem que o fatornj=1

    min(xj ,yj)i=0

    xj11

    yji2

    i3

    (xj 1)!(yj i)!i! uma quantidade que, dificulta a obteno

    da constante de normalizao da distribuio a posteriori, e por consequncia, deixa complexaqualquer tentativa de inferncia da distribuio a posteriori.

    exatamente por esse motivo Chire (2013) apresenta uma abordagem alternativa, introduzindo

  • 24 GERANDO OBSERVAES DE UMA DISTRIBUIO DE HOLGATE 3.4

    variveis latentes no modelo. Considere as variveis U1, U2 e U3 usadas para construir a distribuiode Holgate na seo 3.2 e o vetor aumentado (X1, X2, U3). A funo de probabilidade deste vetor dada por:

    P (X1 = x,X2 = y, U3 = u|) = P (U1 = x u, U2 = y u, U3 = u|)

    =xu1

    yu2

    u3e(1+2+3)

    (x u)!(y u)!u!.

    Note que x, y = 0, 1, . . . e u = 0, 1, . . . ,min(x, y).Suponha uma amostra aleatriaD = {(x1, y1, u1), . . . , (xn, yn, un)}. A funo de verossimilhana

    baseada em D da seguinte forma:

    L(D,) =ni=1

    P (X1 = xi, X2 = yi, U3 = ui|)

    =ni=1

    xiui1 yiui2

    ui3 e(1+2+3)

    (xi ui)!(yi ui)!ui!

    ni=1(xiui)

    1 en1

    ni=1(yiui)

    2 en2

    ni=1 ui

    3 en3 (3.19)

    Note que a funo de verossimilhana 3.19 tem uma forma mais simples, e amigvel, que afuno de verossimilhana 3.6, pois no possui o um produtrio de somatrios na sua expresso.

    Utilizando o teorema de Bayes com a distribuio a priori 3.17 e a funo de verossimilhana 3.19tem-se a seguinte funo densidade de probabilidade a posteriori:

    (|D) ni=1(xiui)+11

    1 e(n+1)1

    ni=1(yiui)+21

    2 e(n+2)2

    ni=1 ui+31

    3 e(n+3)3 .

    (3.20)A densidade da distribuio a posteriori 3.20 tem uma forma analtica mais amigvel que a

    densidade a posteriori 3.18, mas ainda assim um problema para obter estimativas e realizar todoo processo inferencial de maneira direta, apenas utilizando a forma analtica densidade. Por issoh a necessidade de mtodos que geram observaes da distribuio de Holgate e assim realizar oprocesso inferencial to desejados.

    3.4 Gerando observaesGeralmente algoritmos MCMC so os primeiros que vm a mente de um estatstico, e destes,

    o mais simples, de um certo ponto de vista, o algoritmo de Gibbs (veja Casella e George, 1992).

    3.4.1 Gibbs Sampler

    Para implementar o algoritmo de Gibbs necessrio obter as formas analticas das distribuiescondicionais completas, e o mais importante, saber como gerar observaes delas. A partir dadistribuio a posteriori 3.18 as seguintes condicionais completas so obtidas:

    (1|2, 3,x) 111 e1(n+1)

    nj=1

    min(xj ,yj)i=0

    xj11

    yji2

    i3

    (xj 1)!(yj i)!i!; (3.21)

    (2|1, 3,x) 212 e2(n+2)

    nj=1

    min(xj ,yj)i=0

    xj11

    yji2

    i3

    (xj 1)!(yj i)!i!; (3.22)

    (3|1, 2,x) 313 e3(n+3)

    nj=1

    min(xj ,yj)i=0

    xj11

    yji2

    i3

    (xj 1)!(yj i)!i!. (3.23)

    Novamente tem-se a complicao gerada pelo produto de somas. Devido a essa complicao no possvel obter a constante de normalizao das distribuies condicionais completas.

  • 3.4 GERANDO OBSERVAES 25

    Os mtodos numricos de integrao, utilizados para calcular a constante de normalizao dacondicionais completas, no obtiveram sucesso e, consequentemente, no foi possvel obter-las, im-possibilitando a gerao observaes de 3.21, 3.22 e 3.23.

    Chire (2013) apresenta uma configurao do amostrador de Gibbs utilizando a densidade 3.20,com dados aumentados. As distribuies condicionais completas so da forma:

    1|2, 3, D Gama

    (ni=1

    (xi ui) + 1, n+ 1

    ), (3.24)

    2|1, 3, D Gama

    (ni=1

    (yi ui) + 2, n+ 2

    ), (3.25)

    3|2, 1, D Gama

    (ni=1

    ui + 3, n+ 3

    ). (3.26)

    Com

    P (u|x, y,) ni=1

    1

    (xi ui)!(yi ui)!ui!

    (321

    )ui. (3.27)

    O algoritmo de Gibbs para gerar amostras da distribuio a posteriori da densidade 3.20, apre-sentado em Chire (2013), encontra-se a seguir.

    Algoritmo 7 Amostrador de Gibbs para gerar observaes da distribuio Holgate

    1: Escolher (0) = ((0)1 , (0)2 ,

    (0)3 ) e inicializar o contador j = 0;

    2: Faa t = t+ 1;3: Gerar u(t) a partir de 3.27.4: Gerar (t)1 ,

    (t)2 e

    (t)3 , a partir de 3.24, 3.25 e 3.26 respectivamente.

    5: Repetir os passos 2, 3 e 4 at a convergncia ser diagnosticada.

    3.4.2 Metropolis-Hastings

    O algoritmo de Metropolis-Hastings (Veja Gamerman e Lopes, 2006, cap. 6), no caso abordadoneste captulo, tem uma vantagem sobre o algoritmo de Gibbs. A despreocupao com o clculoda constante de normalizao das equaes 3.21 3.22 3.23. Essa vantagem oriunda da prpriaestrutura do algoritmo.

    Algoritmo 8 Metropolis-Hastings

    1: Escolher (0) e inicializar o contador j = 12: Mover a cadeia para um novo valor gerado a partir da densidade q((j1), ).3: Calcular a probabilidade de aceitao da mudana da cadeia, ((j1), ). Se aceito, (j) = ,

    caso contrario, j = (j1) e a cadeia no se move.4: Atualizar o contador j para j + 1 e retornar at o passo 2 at a convergncia ser atingida.

    A quantidade ((j1), ) do algoritmo 8 representa a probabilidade de que seja aceito comoum novo elemento da trajetria da cadeia de Markov, sendo calculado pela seguinte expresso:

    (, ) = min

    {1,()q(, )

    ()q(, )

    }. (3.28)

    A funo q(, ) chamada de kernel de transio, uma verso da matriz de transio(espao deestados discreto) para quando o espao de estados contnuo. Representa, como o prprio nome jdiz, a transio da cadeia de Markov do estado para o estado . A funo () representa a densi-dade alvo, da qual h interesse em gerar uma amostra. Como h uma razo de funes, ()/(),tudo o que no depender de e ser simplificado, incluindo a constante de normalizao.

  • 26 GERANDO OBSERVAES DE UMA DISTRIBUIO DE HOLGATE 3.4

    Dentre os casos especiais do algoritmo deMetropolis-Hastings apresentados em Gamerman e Lopes(2006) foram geradas amostras de teste usando os caso especiais Random Walk Chain e Indepen-dence Chain.

    Para implementar o algoritmo de Metropolis-Hastings, atravs da tcnica Random Walk Chainos resultados das equaes 3.21 a 3.23 foram aproveitados, decidiu-se evoluir uma cadeia para cadaum dos i. Uma cadeia influenciar no na outra atravs do calculo de (, ).

    Como comentado em Gamerman e Lopes (2006), no algoritmo de Metropolis-Hastings via ran-dom walk chain, a evoluo da cadeia de Markov ocorre da seguinte forma:

    (j) = (j1) + wj , (3.29)

    onde wj uma varivel aleatria com distribuio independente da cadeia. Geralmente as variveiswj so independentes e identicamente distribudas com densidade fw. Deste modo o kernel detransio para este caso especial q(, ) = fw( ).

    Decidiu-se criar uma cadeia de Markov para cada um dos s e, portanto, foram definidas trsdistribuies para os rudos, w(1)j Normal

    (0,

    1+ni=1 xi

    (1+n)2

    ), w(2)j Normal

    (0,

    2+ni=1 yi

    (2+n)2

    )e w(3)j Normal

    (0, 3+cov(x,y)

    (3+n)2

    ), onde um parmetro de tunning que ajusta a velocidade

    de convergncia em oposio a taxa de aceitao do algoritmo. As varincias das distribuiesdos rudos foram escolhidas da maneira apresentada acima, pelo motivo de restringir o espao devariao das cadeias, baseando-se na amostra observada. Espera-se que isso melhore o desempenhocomputacional do algoritmo.

    Pelo fato das distribuies de w(1)j , w(2)j e w

    (1)j serem simtricas em torno do valor zero, h

    uma simetria nas cadeias de Markov, portanto, qi(, ) = qi(, ) e i(, ) = min{

    1,i ()

    i ()

    },

    onde as distribuies i() referem-se as equaes 3.21 a 3.23.A outra tcnica explorada foi oMetropolis-Hastings via Independence Chain, onde o estado atual

    da cadeia foi gerado de forma independente do estado anterior. Como Gamerman e Lopes (2006)explica, apesar da cadeia evoluir com independncia entre os estados, o algoritmo de Metropolis-Hastings ainda apresenta a propriedade markoviana, pois a probabilidade, (, ), de aceitar ou noum valor como parte da cadeia no atual instante, ainda depende do estado da cadeia no instanteanterior.

    Para implementar o algoritmo de Metropolis-Hastings via Independence decidiu-se evoluir umacadeia tridimensional para o trio ordenado = (1, 2, 3), da seguinte maneira:

    f(l1, l2, l3) =11

    (1)l111 e

    1l1 22

    (2)l212 e

    2l2 33

    (3)l313 e

    3l3 . (3.30)

    Deste modo, (, ) = min{

    1,()

    3i=1

    i1ei

    ()3i=1

    i1ei

    }, onde () refere-se a distribuio 3.18.

    O critrio de convergncia adotado ser especificado mais adiante, mas pode-se adiantar quebaseia-se na mdia ergdica da cadeia. Se a mdia ergdica manter-se, com um certo nvel detolerncia, estvel por um tempo razoavelmente longo, considera-se que a cadeia convergiu.

    Os pseudo-cdigos usados para implementar o Random Walk Chain Metropolis-Hastings e In-dependence Chain Metropolis-Hastings so apresentados a seguir, algoritmos 9 e 10

    3.4.3 ABC

    Os detalhes sobre o funcionamento do ABC j foram expostos no captulo 2, discutindo-seaqui apenas adaptaes especificas do ABC para gerar observaes para o modelo da distribuioHolgate.

    Apesar de observar uma varivel de contagem-placar de um jogo-foi implementada a verso doABC para variveis contnuas, algoritmo 2. Tal fato motivado por critrios computacionais. Emsimulaes preliminares foi constatado que o algoritmo necessitava de um nmero bastante elevadode iteraes para poder aceitar um elemento gerado como parte de uma amostra de interesse. Ao

  • 3.4 GERANDO OBSERVAES 27

    Algoritmo 9 Random Walk Chain Metropolis-Hastings1: Iniciar contador j = 12: Iniciar as cadeias (0)1 ,

    (0)2 ,

    (0)1

    3: Gerar 1 = (j1)1 + w

    1j , onde w

    1j Normal

    (0,

    1+ni=1 xi

    (1+n)2

    )4: Gerar u de uma uniforme(0, 1)5: if u < 1(

    (j1)1 ,

    1) then

    6: (j)1 1

    7: else8:

    (j)1

    (j1)1

    9: end if10: Gerar 2 =

    (j1)2 + w

    2j , onde w

    2j Normal

    (0,

    2+ni=1 xi

    (2+n)2

    )11: Gerar u de uma uniforme(0, 1)12: if u < 2(

    (j1)2 ,

    2) then

    13: (j)2 2

    14: else15:

    (j)2

    (j1)2

    16: end if17: Gerar 3 =

    (j1)3 + w

    3j , onde w

    3j Normal

    (0,

    3+ni=1 xi

    (3+n)2

    )18: Gerar u de uma uniforme(0, 1)19: if u < 3(

    (j1)3 ,

    3) then

    20: (j)3 3

    21: else22:

    (j)3

    (j1)3

    23: end if24: Repetir os passos 3 a 23 at diagnosticar a convergncia

    Algoritmo 10 Independence Chain Metropolis-Hastings1: Iniciar contador j = 12: Iniciar a cadeia (0)

    3: Gerar a partir de 3.304: Gerar u de uma uniforme(0, 1)5: if u < ((j1),) then6: (j) 7: else8: (j) (j1)9: end if

    10: Repetir os passos 3 a 9 at diagnosticar a convergncia

  • 28 GERANDO OBSERVAES DE UMA DISTRIBUIO DE HOLGATE 3.4

    usar a verso do ABC para variveis contnuas, a taxa de rejeio diminui, poupando assim recursoscomputacionais, em detrimento da qualidade da amostra gerada. Espera-se que alguns pontos aceitospelo ABC-Rejeio, para variveis contnuas, no sejam aceitos pela verso do ABC-Rejeio paravariveis discretas, o que implica numa aproximao no to boa quanto a desejada.

    O vetor de sumrio de amostra ser um vetor com a primeira componente igual mdia dasprimeiras componentes das amostras. A segunda componente do vetor de sumrio a mdia dassegundas componentes da amostra, e por fim, a ltima componente do vetor de sumrio a co-varincia da primeira e segunda componentes da amostra((x) = (x1,,x2,, cov(x1,,x2,))). Talescolha foi motivada pela facilidade em obter tais quantidades, sendo mais simples de calcular queos estimadores de mxima verossimilhana e mtodo dos momentos.

    Note que nesse toy model (x) no uma estatstica suficiente para (1.2, 3). A tarefa deencontrar um estimador suficiente para no nada simples, tendo em vista a complexidade dafuno de probabilidade,e por consequncia da funo de verossimilhana.

    Definiu-se a funo distncia () como sendo a distancia euclidiana entre os dois vetores desumrio, o da amostra observada (x) e o da amostra gerada (y).

    O algoritmo ABC, configurado para gerar amostras de uma distribuio de Holgate est apre-sentado a seguir, algoritmo 11

    Algoritmo 11 ABC - Rejeio 2 (Holgate)1: for i = 1 to N do2: repeat3: Gerar 1 de Gama(1, 1)4: Gerar 2 de Gama(2, 2)5: Gerar 3 de Gama(3, 3)6: Gerar u1 de Poisson(1)7: Gerar u2 de Poisson(2)8: Gerar u3 de Poisson(3)9: y = (u1 + u3, u2 + u3)

    10: until ((x) (y)) 11: i =

    12: end for

    3.4.4 Comparando mtodos

    Com a finalidade de comparar o desempenho dos trs algoritmos, 9, 10 e 11, foram geradasobservaes da mesma distribuio a posteriori.

    Para tal distribuio, foram escolhidos os hiperparmetros da seguinte forma: (1, 2, 3) =(1, 2, 3) = (1, 1, 1). Como amostra observada, x considere a sequncia de pares encontradosem Arruda (2000, pag. 12),

    x = ((1, 0), (1, 2), (2, 3), (3, 2), (3, 0), (2, 1)),

    considere tambm que tal amostra consiste de observaes permutveis.O critrio usado para diagnosticar a convergncia das cadeias de Markov, algoritmos 9 e 10, foi

    usar a mdia ergdica da cadeia. No algoritmo que utiliza a metodologia de passeio aleatrio as, trscadeias, uma para cada i, as trs mdias ergdicas devem se manter iguais, com uma tolernciade 105, por 500 iteraes. J o algoritmo que usa a metodologia de cadeias independentes, amdia ergdica da cadeia, referente a deve se manter igual com uma tolerncia de 105, por 500iteraes.

    O ABC implementado para o modelo Holgate no necessita de um critrio de convergncia,mas necessita de uma tolerncia, o quanto a amostra gerada est prxima da amostra observada.Sabemos que essa tolerncia influencia na velocidade do algoritmo e pensando nisso foi impostauma tolerncia de 105 para manter uma certa justia entre os algoritmos trabalhados, mas em

  • 3.4 GERANDO OBSERVAES 29

    testes preliminares usar um to pequeno revelou-se impraticvel. Este fato expe uma fraquezado ABC. Por fim houve a necessidade da escolher um maior. Neste caso, a tolerncia escolhidafoi 102.

    O amostrador de Gibbs no foi implementado por dois motivos. O primeiro que ele j implementado e analisado em Chire (2013). O segundo motivo que ainda no claro como gerarvalores da distribuio de u|x, y,, equao 3.27. Foi considerado que a complexidade de gerarobservaes de u|x, y, equivalente a efetuar clculos na funo de verossimilhana 3.6.

    Para os trs algoritmos foram geradas 10 amostras de tamanho 1000. Para os algoritmos baseadosem MCMC, a cada observao gerada, era iniciada uma nova cadeia, com estados iniciais geradosaleatoriamente, para assegurar a independncia das observaes da amostra final.

    Algumas estatsticas descritivas do nmero de iteraes que cada algoritmo levou para geraruma observao do modelo Holgate esto dispostas na tabela 3.1. possvel ver que a metodologiaMCMC, baseada em passeio aleatrio, aparenta ser a mais eficiente na gerao de amostras, pois a metodologia mais rpida, necessitando de menos iteraes, seguida pela metodologia do ABC edo MCMC, com em cadeias independentes.

    Tabela 3.1: Sumrio do nmero de iteraes necessrias para gerar uma observao da distribuio deHolgate usando os algoritmos 9, 10 e 11

    Mnimo 1o Quartil Mediana Mdia 3o Quartil Mximo VarinciaRandom Walk MCMC 508 547 560 564,2 575 371 634,592Independence Chain MCMC 9588 15489 19648 21689 26214 55365 60560197ABC 1 1500 3688 5409 7456 57340 30582628

    Os valores presente na coluna varincia da tabela 3.1 podem parecer confusos. Como a varinciado nmero de iteraes do algoritmo ABC pode ser maior que a varincia nmero de iteraes doalgoritmo Independence Chain MCMC, a amplitude do nmero de iteraes do ABC maior? Aresposta para essa pergunta encontra-se nas informaes que podem ser extradas no grfico dafigura 3.1.

    possvel ver que 75% das iteraes do ABC foram menores que o valor mnimo das iteraesdo Independence Chain MCMC. Deste modo, a ordem de grandeza do nmero de iteraes doIndependence Chain MCMC bem maior que a ordem de grandeza do nmero de iteraes doABC, o que explica o fato da varincia do nmero da iteraes do ABC quase a metade davarincia do nmero da iteraes do Independence Chain MCMC, mesmo tendo uma amplitudemaior.

    Na figura 3.2 esto apresentados os histogramas de 1, 2 e 3, cujas amostras foram geradas pelametodologia de MCMC via passeio aleatrio. As 10 amostras de tamanho 1000 foram consideradascomo uma nica amostra de tamanho 10000, como feito nos toy models do captulo 2. Percebeu-seque h uma quantidade demasiadamente grande de observaes na cauda direita dos histogramas,indicando uma bimodalidade das distribuies.

    Este comportamento bimodal dos histogramas pode ser indcio de uma dependncia entre 1,2 e 3, em que 2 e 3 dependem de 1, o que contraria as crenas a priori sobre . No existemmotivos para acreditar que 1, 2 e 3 apresentem uma dependncia a posteriori.

    Uma outra explicao para este fato advm da taxa de aceitao do algoritmo. Durante o tempoem que o algoritmo 9 estava em execuo percebeu-se que as cadeias passeavam algumas regiesespecificas, restringindo sua variao a essas regies, ocasionando poucas mudanas na trajetriada cadeia.

    Por fim, o estimador de Bayes, considerando essa amostra, de = (1, 2, 3), sob perdaquadrtica, = (0.50390, 1.66900, 2.13800).

    J na figura 3.3 observamv-se os histogramas de 1, 2 e 3, considerando a amostra gerada peloalgoritmo 10. possvel ver que neste caso j no constatada a bimodalidade nos histogramas de2 e 3 que so apresentados na figura 3.2, o que pode indicar que esse fenmeno pode ter acontecidodevido ao fato de que no algoritmo 9 atualiza primeiro a cadeia referente a 1 e depois as cadeias

  • 30 GERANDO OBSERVAES DE UMA DISTRIBUIO DE HOLGATE 3.5

    subsequentes, j com o algoritmo 10 h apenas uma cadeia sendo evoluda, e assim 1, 2 e 3 soatualizados conjuntamente, no havendo a possibilidade de uma componente de (1, 2, 3) ficarestagnada em um estado especfico.

    Os histogramas apresentam um comportamento semelhante ao de distribuio Gama, o queest dentro do esperado, j que a distribuio a priori de uma distribuio trivariada cujasdistribuies marginais so Gamas independentes. Finalizando os comentrios sobre a amostragerada pelo algoritmo 10 apresentada a estimativa de Bayes, com relao a perda quadrtica, de como sendo o vetor (0.6417, 0.638200, 0.7361).

    Por fim, na figura 3.4 esto os histogramas da amostra, de tamanho 10000, a posteriori de 1, 2e 3 gerada pelo algoritmo 11. Nota-se que h comportamento que lembra uma distribuio Gamapara os trs histogramas, como na figura 3.3, o que j era esperado. O vetor de estimativas de Bayes,a posteriori, com relao a perda quadrtica, para (1, 2, 3) (1.318548, 0.7509752, 0.6750414),respectivamente. Pode-se considerar que tanto este vetor de estimativas, quanto as estimativas daamostra apresentada na figura 3.3, so estimativas plausveis pra .

    Perceba que as amostras gerada pelo ABC so mais dispersas que as amostras geradas peloMetropolis-Hastings via Random Walk Chain, mais um fato que pode ser atribudo tendnciaque o ABC-Rejeio tem de gerar observaes em regies com baixa probabilidade posteriori.Comparando as amostras geradas por esses dois mtodos, com a amostra gerada pelo algoritmo deGibbs, apresentado em Chire (2013, pag. 53), pode-se constatar que as dua amostras so coerentes,salvo as mudanas nos hiperparmetros.

    Como as amostras geradas pelo ABC e pelo Independence Chain MCMC se mostraram bem se-melhantes, marginalmente, decidiu-se por construir os histogramas em trs dimenses dos s, dois adois, gerados por cada um dos mtodos. Nas figuras 3.5, 3.6 e 3.6 esto representados os histogramas,em trs dimenses, dos s gerados pelo Independence Chain MCMC. E nas figuras 3.8, 3.9 e 3.9esto representados os histogramas, em trs dimenses, dos s gerados pelo ABC. Ao compararos histogramas, de duas e trs dimenses, das amostras geradas pelos dois mtodos, possvel ver,no