Universidade Federal do Rio de Janeiro · Ao Alex ei, pelo amor, compreens~ao e que sempre me deu for˘ca nos momentos de des^animo, ... LB, em que tal infer^encia resume-se a primeiro

Universidade Federal do Rio de Janeiro

Uma Comparacao entre Metodos de

Aproximacoes Determinısticas e

Estocastica para Inferencia Bayesiana em

Modelos Dinamicos Lineares

Generalizados

Teresa Villanueva Caballero

2013

Uma Comparacao entre Metodos deAproximacoes Determinısticas e

Estocastica para Inferencia Bayesiana emModelos Dinamicos Lineares

Generalizados

Teresa Villanueva Caballero

Dissertacao de Mestrado submetida ao Programa de Pos-Graduacao em Estatıstica do

Instituto de Matematica da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos

requisitos necessarios a obtencao do grau de Mestre em Estatıstica.

Orientadora: Mariane Branco Alves

Rio de Janeiro

Novembro 2013

ii

iv

A minha famılia, em especial ao meus pais,

Juan e Flora.

v

Agradecimentos

A minha orientadora Mariane Branco Alves, obrigada pelo tempo que disponibilizou para

nossas reunioes, pela orientacao academica e paciencia ao longo deste trabalho.

A minha famılia, que sempre acreditou em mim. Aos meus pais, Juan e Flora, pelo amor,

carinho. Aos meus irmaos(as), pelo apoio incondicional, apesar da distancia.

Ao Alexei, pelo amor, compreensao e que sempre me deu forca nos momentos de desanimo,

estresse e cujo carinho e amor foi essencial ao dar um sentido na minha vida.

A Mariana Albi de Oliveira Souza, agradeco por me fornecer a programacao utilizada no

seu relatorio tecnico. Ao Thiago Guerrera Martins, pela ajuda dada, mesmo a distancia.

A todos meus amigos, e companheiros do DME que compartilharam comigo experiencias,

momentos de dificuldade e de alegria. Em especial, Mariana, Aniel, Cristian, Pamela, Renata,

Larissa, Kelly, Carlos e Arthur.

Agradeco a todos meus professores do programa de Pos-Graduacao do DME-UFRJ, pelo

valioso conhecimento transmitido, pelas maravilhosas aulas e toda a disponibilidade para

ajudar. Em especial, aos professores Nei Rocha e Alexandra Schmidt, pelo compartilhamento

de conhecimento das aulas didaticas que eles apresentam e fazem voce por mais vontade de

continuar estudando. Ao professor Dani Gamerman, pelo valioso conhecimento transmitido

no estagio docente e pela compressao, ajuda nos momentos de dificuldade.

Agradeco as professoras Alexandra Schmidt e Glaura da Conceicao Franco, por aceitarem

participar da banca e a professora Marina Silva Paez pela posicao de suplente na banca.

Por fim, agradeco a CAPES por ter financiado e possibilitaram o prosseguimento dos meus

estudos.

vi

Resumo

Nesta dissertacao, temos interesse em apresentar procedimentos de inferencia Bayesiana

na classe de modelos dinamicos lineares generalizados. Muitas vezes, as distribuicoes

de interesse nao sao possıveis de serem obtidas analiticamente, sendo necessario utilizar

metodos de aproximacao, tais como metodos determinısticos e estocasticos. Neste contexto,

apresentamos os metodos INLA (Integrated Nested Laplace Aproximation), Linear Bayes (LB)

e Monte Carlo via cadeia de Markov (MCMC). Particularmente, objetivamos comparar estes

metodos para um modelo dinamico Poisson com dados artificiais. Os tres metodos capturam

bem o comportamento da serie de dados artificiais, mas o metodo LB difere do modelo

ajustado por MCMC e INLA, pois nestes dois ultimos metodos, pressupoe variancias fixas

no tempo e enquanto o LB varia ao longo do tempo e especificadas por meio de fator de

desconto. Outra diferenca entre os metodos deve-se, a que o LB processa informacao em

tempo real, ja INLA e MCMC produzem inferencia condicional a toda informacao disponıvel.

Alem disso, estes ultimos produzem inferencia completa para os estados, diferentemente do

LB, em que tal inferencia resume-se a primeiro e segundo momentos, do vetor de estados.

Finalmente analisamos dois conjuntos de dados reais. O primeiro, trata do efeito de

poluentes atmosfericos sobre contagem de obitos de criancas menores de cinco anos por

doencas respiratorias, na cidade de Sao Paulo, usando os modelos Poisson e Poisson

inflacionado de zeros. O segundo conjunto de dados trata de efeito de volumes diarios de

chuva sobre nıveis de poluicao. Para sua estimacao usamos os modelos Gama e Bernoulli.

Palavras-Chaves: Metodos Integrated Nested Laplace Approximation, metodos de

Monte Carlo via cadeias de Markov, Linear Bayes, modelos de espaco de estados, inferencia

Bayesiana.

vii

Abstract

In this work, are interested in presenting procedures for Bayesian inference in the class

of generalized linear dynamic models. Often, distributions of interest are not available

analytically, approximated methods are needed, such as methods deterministic and stochastic.

We present methods Integrated Nested Laplace Aproximation (INLA), Linear Bayes (LB) and

Monte Carlo Markov Chain (MCMC). Particularly, we aimed to compare these methods for

a dynamic Poisson model with simulated data. The three methods capture the behavior the

series of artificial data, but the LB method differs from the adjusted model by MCMC and

INLA, since these last two methods, presupposes fixed variances in time and while the LB

varies over time and specified by the discount factor. Another difference between the methods

is due, LB processes information in real time, already INLA and MCMC processes conditional

inference all available information, Moreover, the latter produces full inference to the states,

unlike LB, in which such inference comes down to first and second moments of the state

vector.

Finally we analyze two real data sets. The first deals with the effect of air pollutants on

count of deaths of under five children with respiratory diseases in the city of Sao Paulo,using

the Poisson model and inflated Poisson models of zeros. The second set of data deals with

effect daily volumes of rain about levels of pollution. For its estimation we use the Gamma

and Bernoulli models.

Keywords: Method Integrated Nested Laplace Approximation, methods of Monte Carlo

Markov chain, Linear Bayes, state-space modeling, Bayesian inference.

viii

Sumario

1 Introducao 1

2 Modelos Dinamicos 5

2.1 Modelos Lineares Dinamicos . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 Inferencia Para Modelos Lineares Dinamicos . . . . . . . . . . . . . 6

2.2 Modelos Lineares Generalizados . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Modelos Dinamicos Lineares Generalizados . . . . . . . . . . . . . . . . . . 8

2.4 Metodos de Aproximacao da Posteriori em Modelos Dinamicos Lineares

Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4.1 Variacoes do Filtro de Kalman . . . . . . . . . . . . . . . . . . . . . 9

2.4.2 Aproximacao Linear Bayes . . . . . . . . . . . . . . . . . . . . . . . 10

3 Metodos de Aproximacao MCMC e INLA 21

3.1 Metodo de Aproximacao MCMC . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1.1 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1.2 Algoritmo de Metropolis Hastings . . . . . . . . . . . . . . . . . . . 25

3.2 O Metodo de Aproximacao INLA . . . . . . . . . . . . . . . . . . . . . . . 27

3.2.1 Parametrizacao adequada do vetor parametrico e exploracao da grade 29

3.2.2 Aproximacao para p(θ|y) . . . . . . . . . . . . . . . . . . . . . . . 31

3.2.3 Aproximacao para p(xi|θ,y) . . . . . . . . . . . . . . . . . . . . . . 32

3.2.4 Algoritmo INLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3 Modelo Poisson Dinamico com dados artificiais, exemplo . . . . . . . . . . . 34

3.3.1 Prioris para os parametros fixos . . . . . . . . . . . . . . . . . . . . 35

ix

3.3.2 Prioris para variaveis gaussianas latentes . . . . . . . . . . . . . . . 36

3.3.3 Aproximacao Gaussiana para a distribuicao Condicional Completa xt 38

3.3.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4 Aplicacoes com Dados Reais 48

4.1 Efeito de Monoxido de Carbono sobre Obitos de Criancas em Sao Paulo . . . 48

4.1.1 Formulacao do Modelo Proposto . . . . . . . . . . . . . . . . . . . 51

4.1.2 Inferencia Bayesiana Utilizando INLA . . . . . . . . . . . . . . . . . 55

4.1.3 Escolha do melhor Modelo . . . . . . . . . . . . . . . . . . . . . . . 59

4.1.4 Resultados para o Modelo 1: Dinamica no Nıvel . . . . . . . . . . . 61

4.2 Efeito de Chuva sobre Nıveis de material Particulado no Rio de Janeiro . . . 68

4.2.1 Descricao dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.2.2 Modelo Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.2.3 Resultados do modelo . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.2.4 Modelo Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.2.5 Resultados do modelo . . . . . . . . . . . . . . . . . . . . . . . . . 77

5 Conclusoes 85

A Codigos Usados para Dados Artificiais 87

A.1 Codigo usado pelo metodo Linear Bayes . . . . . . . . . . . . . . . . . . . 87

A.2 Codigo usado em WinBUGS . . . . . . . . . . . . . . . . . . . . . . . . . . 90

A.3 Codigo usando a Biblioteca INLA . . . . . . . . . . . . . . . . . . . . . . . 91

B Codigo Usados aos Dados de Contagem de Obitos 96

B.1 Codigo do modelo Poisson Tradicional . . . . . . . . . . . . . . . . . . . . 97

B.2 Codigo do modelo Poisson inflacao-zeros do tipo 0 . . . . . . . . . . . . . . 98

B.3 Codigo do modelo Poisson inflacao-zeros do tipo 1 . . . . . . . . . . . . . . 98

C Codigo Referentes aos Dados de Material Particulado 100

C.1 Codigo do modelo Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

C.2 Codigo do modelo Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 102

x

Capıtulo 1

Introducao

Nos ultimos anos, varios estudos tem evidenciado associacao significativa entre a

exposicao a poluicao do ar e eventos adversos a saude, com foco em exposicao de curto

prazo. Numerosos estudos epidemiologicos tem encontrado associacoes positivas entre os

poluentes, tais como material particulado (PM10) e monoxido de carbono (CO) e mortalidade

ou morbidade, sendo muitas destas associacoes relacionadas com nıveis de poluicao que

ultrapassam limiares de seguranca, veja por exemplo, Vedal S e J. (2003), Dominici F e

J. (2002) e Alves et al. (2010). Recentemente, a Agencia Internacional de Pesquisas sobre

o Cancer (IARC), vinculada a Organizacao Mundial da Saude (OMS), classificou a poluicao

do ar exterior como uma causa de cancer. Estes estudos sao tipicamente baseados em dados

diarios de uma regiao especıfica e perıodo de tempo e a analise e efetuada utilizando metodos

de regressao de series temporais. Caso os dados de saude estejam disponıveis apenas como

contagens diarias, no contexto epidemiologico, o modelo Poisson linear generalizado e modelos

aditivos sao o metodo padrao de analise. Pode-se ter interesse, ainda, na modelagem do nıvel

diario de certo poluente atmosferico, podendo-se utilizar para tal fim, por exemplo, um modelo

Gama linear generalizado. Um outro interesse, no mesmo contexto, pode ser a explicacao de

uma resposta binaria, como por exemplo, a ultrapassagem de um limiar de seguranca, por

um certo poluente atmosferico.

Na literatura estatıstica, muitos modelos sao construıdos sob a suposicao de normalidade

da variavel resposta. Alternativas sao necessarias para o tratamento de dados que nao

satisfacam essa restricao. Como descrito por Alves (2006), Nelder e Wedderburn (1972)

1

propuseram uma classe, denominada modelos lineares generalizados (MLG), permitindo que

a distribuicao da variavel resposta pertenca a famılia exponencial. A funcao de reposta media

relaciona-se a um preditor linear por meio de uma transformacao monotona e diferenciavel,

conhecida como funcao de ligacao. Apesar da grande flexibilizacao permitida pelos MLGs - se

comparados aos tradicionais modelos lineares - estes ainda supoem independencia da variavel

resposta sobre diferentes unidades observacionais. Por outro lado, os modelos dinamicos

lineares (MDL) West e Harrison (1997), que sao um caso particular da classe de modelos de

espaco de estados, Franco et al. (2009) pressupoem normalidade da variavel resposta, mas

tratam formalmente a autocorrelacao tıpica de dados de serie temporal, ao permitir evolucao

aos parametros que controlam o preditor linear. A evolucao desses parametros e tipicamente

descrita por relacoes estocasticas markovianas. West et al. (1985) estendem tanto os MLGs

quanto os MDLs, ao combinar uma estrutura observacional nao necessariamente Gaussiana -

mais especificamente, pertencente a famılia exponencial, como nos MLGs - a uma estrutura

de evolucao dinamica para os parametros, como nos MDLs.

Do ponto de vista de realizacao de inferencia bayesiana, a classe de modelos dinamicos

lineares generalizados apresenta dificuldades, pois nao e possıvel a obtencao analıtica de

distribuicao a posteriori de todas as quantidades latentes de interesse. Ha varias alternativas

na literatura para aproximacao ou resumo da distribuicao a posteriori nesse contexto. Na

decada de 80, eram primordialmente utilizadas aproximacoes determinısticas, que se tornam

mais complexas a medida em que a dimensao do vetor parametrico aumenta. West et al.

(1985) propoem a metodologia linear bayes para realizacao de inferencia em MDLGs. Sua

abordagem baseia-se na adocao de uma distribuicao a priori conjugada para a resposta media

e a avaliacao incompleta das distribuicoes a priori e a posteriori do vetor de estados, apenas em

termos de momentos de primeira e segunda ordens, evitando assim esforco computacional para

integracao ou otimizacao. Alem do reduzido tempo computacional, permitindo realizacao de

inferencia em tempo real, outra vantagem do metodo e a obtencao de distribuicoes preditivas

com forma analıtica fechada, devido a propriedades de conjugacao da famılia exponencial

(Migon e Gamerman 1999, pp 62-70). A perda em relacao a metodos que exigem maior

esforco computacional, como MCMC, reside no fato de nao se obter a distribuicao a posteriori

para o campo latente de forma completa, mas apenas sua media e matriz de covariancia, o

2

que permite a obtencao de estimativas intervalares. No metodo linear Bayes, todo o ciclo

de inferencia e baseado no conhecimento de hiperparametros ou na sua especificacao por

meio de alguma racionalizacao, como por exemplo o uso de fatores de desconto (West e

Harrison 1997, pp 193-202), para especificacao de variancias/covariancias evolucionais. A

especificacao desses fatores pode nao ser trivial.

Fahrmeir (1992), por outro lado, apresenta uma generalizacao do filtro de Kalman

estendido em modelos dinamicos lineares generalizados multivariadas, para estimar os

parametros de estado atraves de modas a posteriori.

A partir da decada de 90, com avancos computacionais, metodos aproximados baseados

em simulacao - em particular os metodos de Monte Carlo via cadeias de Markov (MCMC),

detalhados em Gamerman e Lopes (2006) - dominaram o cenario de aproximacoes para

distribuicoes a posteriori, nos casos em que estas sao analiticamente intrataveis. Tais metodos

buscam, a partir de nucleos de transicao convenientes, a construcao iterativa de uma cadeia

de Markov homogenea, irredutıvel, ergodica, que tenha como distribuicao estacionaria a

posteriori de interesse. No caso dos modelos de espaco de estados, que pressupoem correlacao

temporal entre seus parametros, a convergencia de metodos MCMC para a distribuicao

estacionaria pode ser bastante lenta.

Devido ao elevado custo computacional dos metodos MCMC no contexto abordado, busca-

se alternativas a estes, de forma a tornar a realizacao de inferencia bayesiana aproximada mais

rapida e eficiente. Tem despertado grande interesse o trabalho de Rue et al. (2009), propondo

a realizacao de inferencia bayesiana por meio de aproximacoes determinısticas para modelos

de espaco de estados com campos latentes Gaussianos, ou seja, aqueles em que se supoe que a

evolucao estocastica dos parametros de estado e ditada por uma distribuicao Gaussiana (mas

a resposta, nao necessariamente). Os autores relatam a obtencao de estimativas acuradas

de hiperparametros e do campo latente, com tempos computacionais bastante reduzidos,

em comparacao a longas cadeias obtidas via MCMC. Resende (2011) propoe uma extensao

desse metodo para modelos de espaco de estados com campos latentes nao Gaussianos,

apresentando a base teorica da proposta, entretanto relata problemas computacionais que

impediram a exemplificacao do metodo ali proposto.

No presente trabalho, propomos uma comparacao do metodo Linear Bayes, MCMC e

3

aproximacao determinıstica, como sugerem Rue et al. (2009), a duas aplicacoes de interesse

no contexto de epidemiologia ambiental.

Este documento esta organizado da seguinte forma: no capıtulo 2, e apresentada

a estrutura dos modelos dinamicos lineares generalizados e discute-se as dificuldades

relacionadas a sua estimacao, sob abordagem bayesiana e os metodos de aproximacao da

distribuicao a posteriori em MDLG, como o Linear Bayes. Ja os metodos MCMC e INLA sao

descritos no capıtulo 3, isto devido a importancia neste trabalho, apresentando um exemplo

de aplicao a dados Poisson artificialmente gerados, com base em um preditor estruturado em

termos de um nıvel e uma covariavel (CO) com efeito dinamico. As estimativas obtidas

via INLA sao comparadas aquelas obtidas com os metodos LB e MCMC. No capıtulo

4, apresentam-se dois conjuntos de dados reais com a metodologia descrita. Na secao

4.1 apresenta-se um modelo de regressao dinamica Poisson, em que se busca descrever o

impacto de poluentes atmosfericos e variaveis climaticas sobre desfechos epidemiologicos, com

diferentes estruturas preditivas. Na secao 4.2 e apresentado um modelo Gama para quantificar

o efeito cumulativo de volumes diarios de chuva sobre o nıveis de material particulado e em

seguida o modelo com resposta Bernoulli, para analisar fatores associados a ultrapassagem de

um limiar de seguranca no nıvel de material particulado. O capıtulo 5 conclui este trabalho.

4

Capıtulo 2

Modelos Dinamicos

2.1 Modelos Lineares Dinamicos

Na literatura bayesiana, os Modelos Lineares Dinamicos (MLD) sao conhecidos tambem

como modelos de espaco de estados. Tais modelos foram introduzidos por Harrison e

Stevens (1976), estao bem documentados em West e Harrison (1997) e constituem uma

ampla classe parametrica, com parametros variando no tempo, em que tanto a variacao dos

parametros quanto a informacao a respeito de quantidades observaveis sao descritas de uma

forma probabilıstica. Os modelos lineares dinamicos possuem estrutura hierarquica e sao uma

metodologia flexıvel para tratar problemas em analises de series temporais, caracterizando-se

atraves das seguintes equacoes:

Yt = F′txt + vt, vt ∼ N(0,Vt) (2.1a)

xt = Gtxt−1 + ωt, ωt ∼ N(0,Wt), , (2.1b)

em que para t = 1, . . . , Y t = (y1, y2, . . . , yn) e o vetor de observacoes; xt e um vetor

p−dimensional denominado vetor de estados; F t e uma matriz de p×n de variaveis regressoras

ou variaveis explicativas, cujos elementos sao conhecidos; Gt e uma matriz quadrada de

ordem p que descreve a evolucao dos parametros de estado no tempo. As matrizes de

covariancia Vt e Wt, de ordem n e p, estao associadas ao erro observacional vt e ao erro

de evolucao dos estados ωt, respectivamente. Assume-se que os erros vt e ωt, sejam serial e

mutuamente independentes. O modelo completa-se com uma densidade a priori (x1|D0) ∼

5

N(a,R), em que D0 denota a informacao inicial disponıvel ao analista. O modelo descrito em

(2.1) e completamente especificado pela quadrupla {F t,Gt,Vt,Wt} e de uma distribucao

a priori assumida para os parametros de estados. A equacao (2.1a) e denominada equacao

da observacao e relaciona o vetor de observacoes e componentes estruturais (como nıvel,

tendencia, sazonalidade etc.), tendo a forma de uma regressao multivariada e a equacao

(2.1b) e denominada equacao de estados ou do sistema, responsavel pela evolucao do vetor

de coeficientes de regressao (ou parametros de estado) ao longo do tempo.

De acordo com Migon et al. (2005), modelos dinamicos podem ser vistos como uma

generalizacao de modelos de regressao, permitindo alteracoes nos valores de parametros ao

longo do tempo, por meio da introducao de uma equacao que rege a evolucao temporal da

coeffcientes regressao.

2.1.1 Inferencia Para Modelos Lineares Dinamicos

Seja Y o vetor de obsevacoes e x o vetor de parametros. De acordo com o paradigma

bayesiano, assume-se uma distribuicao a priori p(x)1 , a qual representa a incerteza inicial

acerca do vetor de parametros, antes de que Y seja observado, e a funcao de verossimilhanca

do modelo, p(Y |x). A especificacao de p(x) e p(Y |x) fornece um modelo probabilıstico,

p(Y ,x) = p(Y |x)p(x).

Tendo observado os dados Y que contem informacao acerca de x, pode-se usar Y para

atualizar a informacao acerca de x. Atraves do teorema de Bayes, encontra-se a distribucao

a posteriori de x, que contem toda informacao probabilıstica de interesse sobre x, dada por

p(x|Y ) =p(Y |x)p(x)∫p(Y |x)p(x)dx

(2.2)

Em modelos lineares dinamicos, a inferencia segue os passos usuais em inferencia bayesiana

e e realizada en forma sequencial, combinando duas operacoes principais: evolucao para

construir, a cada instante, a priori e atualizacao, para incorporar a nova observacao no tempo

t. Seja Dt = Dt−1 ∪ yt a informacao disponıvel no instante t. Entao, para cada tempo t, a

distribuicao a priori, preditiva a um passo e posteriori sao, respectivamente:

1De fato, p(x|D0), mas para simplicidade de notacao, omitimos o condicionamento no conjunto inicial de

informacao, D0.

6

p(xt|Dt−1) =

∫p(xt|xt−1)p(xt−1|Dt−1)dxt−1 (2.3)

p(yt|Dt−1) =

∫p(yt|xt)p(xt|Dt−1)dxt (2.4)

p(xt|Dt) ∝ p(yt|xt)p(xt|Dt−1), (2.5)

sendo a equacao (2.5) obtida via teorema de Bayes. Essa forma simplificada do teorema de

Bayes sera util em problemas que envolvam estimacao de parametros, ja que o denominador e

apenas uma constante normalizadora, as vezes facilmente obtida. Isso ocorre, em particular,

no caso em que (F ,G,V,W) sao todos conhecidos e assumido-se normalidade dos erros.

O algoritmo resultante, neste caso, e conhecido como filtro de Kalman (Anderson e Moore,

1979).

Em geral, o medelo descrito em (2.1) e completamente especificado pela quadrupla

{Ft, Gt, Vt,Wt} e de uma distribucao a priori assumida para os parametros de estados. Mas,

geralmente, Vt,Wt e em alguns casos elementos de Ft e Gt nao sao conhecidos, o que implica

que a inferencia nao pode ser feita de forma analıtica. Estas quantidades desconhecidas sao

chamadas de hiperparametros.

2.2 Modelos Lineares Generalizados

A classe dos modelos lineares tem por objetivo analisar a influencia de covariaveis em uma

determinada variavel resposta atraves de uma relacao linear nos parametros que governam os

impactos de tais regressoras. Uma suposicao usual, porem frequentemente inadequada, e a

de que as variaveis resposta a serem modeladas seguem distribuicao Normal.

Uma extensao dos modelos lineares permite modelar observacoes descritas por membros da

famılia exponencial. Esta classe de modelos e conhecida como Modelos Lineares Generalizados

(MLG), introduzida por Nelder e Wedderburn (1972). A ideia basica consiste em ampliar a

gama de opcoes para a distribuicao da variavel resposta, sendo a mesma pertencente a famılia

exponencial, por um conjunto de covariaveis independentes, as quais e aplicada uma estrutura

linear e dar flexibilidade para a relacao funcional entre a media da variavel resposta e o preditor

7

linear. A media passa a ser relacionada a um preditor linear apos passar por uma transformacao

monotona e diferenciavel, denominada funcao de ligacao g.

Considere-se Yt, para cada t = 1, . . . , T , a variavel resposta e F t o vetor de covariaveis

no instante t. A estrutura para o modelo linear generalizado univariado e dada por:

p(yt|ηt, φ) = exp[φ {ytηt − a(ηt)}]b(yt, φ), (2.6)

em que ηt e o parametro natural da distribucao de yt, satisfazendo

E[Yt|ηt, φ] = µt = a(ηt) (2.7a)

V [Yt|ηt, φ] = a(ηt)/φ (2.7b)

e φ e denominado parametro de escala. Um modelo linear generalizado e composto pela

estrutura observacional (2.6), combinada a um preditor linear λt, determinado por um vetor

(p× 1) de regressoras conhecidas Ft:

g(ηt) = λt = F′tx, (2.8)

sendo x um vetor latente de parametros a estimar, de ordem (p× 1), e g(.) uma funcao

de ligacao monotona e diferenciavel. O modelo completa-se com a hipotese de que os Y ′t s,

condicionalmente a ηt, t = 1, . . . , T e φ, sejam independentes e identicamente distribuıdos.

2.3 Modelos Dinamicos Lineares Generalizados

West et al. (1985) formalizaram uma extensao dos modelos lineares dinamicos (MLD) para

observacoes que pertencam a famılia exponencial, baseados no modelo linear generalizado de

Nelder e Wedderburn (1972), fazendo possıvel a utilizacao destes modelos para variados tipos

de problemas.

Os modelo dinamicos lineares generalizados (MDLG) contornam a restricao gaussiana

do modelo linear e atribuem tratamento formal a autocorrelacao serial, ao substutituir a

especificacao do preditor linear em termos de quantidades latentes x estaticas, como em

(2.8), pela dinamica:

g(ηt) = λt = F′txt, (2.9)

8

adicionando ainda a formulacao do modelo uma equacao de evolucao ou sistema, descrevendo

a forma de atualizacao do campo latente dinamico:

xt = Gtxt−1 + ωt, ωt ∼ N [0,Wt], (2.10)

em que Gt e uma matriz de transicao, suposta conhecida e de ordem (p× p) e Wt a matriz

de covariancias de ordem (p× p), associada aos erros de evolucao, ωt, dos estados ou campo

latente xt.

No caso de MLGD as integrais em (2.3),(2.4) e (2.5) nao podem ser obtidas

analiticamente, e assim a inferencia nao pode ser feita de forma exata. Muitas propostas

para resolver este problema tem sido apresentadas na literatura. Nas subsecoes seguintes

apresentam-se algumas delas.

2.4 Metodos de Aproximacao da Posteriori em Modelos

Dinamicos Lineares Generalizados

Modelos dinamicos introduzidos na secao 2.1.1 permitem a inferencia completa apenas

quando o F t, Gt e W t sao totalmente conhecidas e, ainda, sob suposicao de normalidade

dos erros. Em geral, quando estas quantidades ou outras quantidades sao desconhecidas

(hiperparametros) e a inferencia sobre eles devem basear-se na distribuicao a posteriori, essa

distribuicao nao tem solucao analıtica.

No que segue apresentamos uma revisao de alguns metodos adotados para aproximacoes

de distribuicoes a posteriori para os MLGD.

2.4.1 Variacoes do Filtro de Kalman

Fahrmeir (1992) apresenta uma generalizacao do filtro de Kalman estendido em modelos

dinamicos lineares generalizados multivariado, para estimar os parametros de estado atraves

da moda a posteriori.

O algoritmo e aplicado sequencialmente e proporciona uma aproximacao da moda a

posteriori. A utilizacao do estimador da moda a posteriori, e apenas para evitar a integracao

9

numerica. Para estimar o hiperparametro e proposto um procedimento baseado em um

algoritmo tipo-EM, Junger (2002).

Para estimar os parametros de espaco de estado, Singh e Roberts (1992) propuseram

uma aplicacao iterativa do filtro Kalman linear a modelos dinamicos lineares generalizados,

modificando a equacao observacional (2.6) por:

yt = F′txt + vt, vt ∼ N(0, Vt), (2.11)

em que yt sao observacoes modificadas, dadas por uma aproximacao linear das observacoes,

segundo:

yt = ηt + (yt − µt)g(µt) (2.12)

e com variancias associadas:

Vt = Vt(xt) =a

φt(ηt)[g

′(µt)]2 (2.13)

com g e a indicando a primeira e a segunda derivada das funcoes g e a, respectivamente.

Estas observacoes e variancias modificadas sao definidas a cada iteracao usando os valores de

xt estimados em iteracoes anteriores, pelo filtro de Kalman. Singh e Roberts (1992) estimam

W t = W utilizando uma abordagem baseada em momentos.

Fahrmeir (1997) tambem trabalhou na obtencao da moda a posteriori dos parametros

de estado para MLGD multivariado. Eles mostraram que o algoritmo proposto por Singh

e Roberts (1992) leva a moda a posteriori dos parametros de estado condicionado em um

valor fixo W . Eles tambem mostraram que a generalizacao do filtro de Kalman estendido de

Fahrmeir (1992) e um caso especial deste algoritmo com apenas uma iteracao e uma escolha

conveniente dos valores iniciais. Eles sugerem a utilizacao de um procedimento com base no

criterio de validacao cruzada generalizada para estimar hiperparametros.

2.4.2 Aproximacao Linear Bayes

West et al. (1985) propuseram uma aproximacao baseada em linear Bayes. Esta ideia foi

tambem descita por Migon e Harrison (1985) dentro do contexto de modelos nao-lineares

10

dinamicos normais e e um dos metodos aplicados neste trabalho, portanto passamos a

descreve-lo mais detalhadamente.

Suponha-se que o modelo de amostragem no tempo t tem a forma (2.6) e admita-se que

uma distribuicao a priori conjugada, denotada por (ηt|Dt−1) ∼ CP [rt, st] seja adotada para

o parametro natural ou canonico ηt

p(ηt|Dt−1) = C(rt, st)exp [rtηt − sta(ηt)] (2.14)

para algum par rt e st. A extensao dinamica natural de um modelo linear generalizado

pressupoe g(ηt) = λt = F′txt, mas tal especificacao imporia severas restricoes a priori de ηt.

Ao inves disso, West et al. (1985) utilizam a ligacao entre g(ηt) e λt apenas como um guia

para formar a priori para ηt, passando a denotar tal relacao guia por g(ηt) ≈ λt.

Ainda, suponha-se que as distribuicoes a priori e a posteriori do vetor de estados agora

nao sejam necessariamente normais, mas que, por analogia ao modelo Gaussiano, sejam

especificadas apenas pelos momentos de primeira e segunda ordens do vetor de estados xt,

dadas por

(xt−1|Dt−1) ∼ [mt−1,Ct−1] , (2.15)

(xt|Dt−1) ∼ [at, Rt] , (2.16)

em que:

at = Gtmt−1 and Rt = GtCt−1G′t +W t. (2.17)

Nesse ponto, os autores sugerem o uso de fatores de desconto para contornar o problema

de especificacao ou estimativa de W t. A ideia de fatores de desconto e especificar uma

quantidade que descreva a perda do valor de observacoes passadas para a inferencia a cada

instante. Mais especificamente, segundo West e Harrison (1997), observando-se que

V [xt−1|Dt−1] = Ct−1

e

V [xt|Dt−1] = GtCt−1G′t +W t,

denotando-se a primeira parcela no lado direito da equacao acima por P t, tem-se

Rt = P t +W t (2.18)

11

e W t, portanto, representa a inflacao na incerteza ao se passar do instante t− 1 ao instante

t, condicionalmente ao mesmo conjunto de informacao, Dt−1. Assim, tomando-se 0 < δ ≤ 1,

tal inflacao poderia ser representada por

Rt =P t

δ. (2.19)

Igualando-se (2.18) e (2.19), tem-se

W t =1− δδP t.

Portanto, condicional a Pt e arbitrando-se δ, W t fica completamente especificada. West e

Harrison (1997)[pp. 196-8] estendem essa ideia, permitindo especificacao de diferentes fatores

de desconto δj para cada bloco estrutural em um preditor, permitindo trajetorias mais suaves

(δj ≈ 1) ou mais volateis, como em West et al. (1985), que definem uma matriz diagonal

Bt, de dimensao p× p, cujos elementos sao 1√δj

, 0 < δj ≤ 1, j = 1, . . . , p.

Logo, reescrevendo (2.17), temos

at = Gtmt−1 and Rt = BtGtCt−1G′tBt, (2.20)

com a matriz de transicao Gt e matriz de descontos Bt conhecidos. Note-se que a

representacao (2.10) pode ser utilizada, mas evidentemente, ωt nao e necessariamente

normal. Alem disso,a distribuicao completa do vetor de estados nao e especificada; apenas

a media e matriz de covariancia sao assumidas. Finalmente, a distribuicao a priori para

g(ηt) = λt = F′txt e dada por

λt|Dt−1 ∼ [ft, qt], (2.21)

em que

ft = E [λt|Dt−1] = F ′tat ,

qt = V [λt|Dt−1] = F ′tRtF t ,

e

St = C [λt,xt|Dt−1] = RtF t .

Neste ponto, a priori para o parametro natural ηt esta apenas parcialmente especificada,

tendo a forma (2.14), sem qualquer restricao sobre os valores de rt e st. Estes valores sao

12

escolhidos com base na relacao g(ηt) ≈ λt, que fixa os dois primeiros momentos de g(ηt)

determinando rt e st. A relacao guia sugere os valores de ft e qt, para estes momentos e St,

para a covariancia entre g(ηt) e xt.

Com base nessa especificacao, e imediato que a distribuicao preditiva tem a forma:

p(yt|Dt−1, φ) =c(rt, st)

c(rt + φyt, st + φ)b(yt, φ), (2.22)

podendo ser diretamente obtida, e a distribucao a posteriori para (ηt|Dt) e a congujada

atualizada da forma ηt|Dt ∼ CP (rt + φyt, st + φ). Uma analise bayesiana completa requer

tambem a posteriori para (xt|Dt), mas esta nao esta disponıvel porque a priori para (xt|Dt−1)

e apenas parcialmente especificada e o modelo nao fornece verossimilhanca para xt. O modelo

desenvolvido ate agora, no entanto, nao requer a especificacao completa para prosseguir para

o tempo (t + 1), apenas a media e matriz de covariancia de (xt|Dt) sao necessarias e estas

satisfazem as identidades

mt = E [E [xt|ηt, Dt]] (2.23)

e

Ct = V [E [xt|ηt, Dt]] + E [V [xt|ηt, Dt]] (2.24)

Alem disso, assim como no caso normal, (xt|ηt, Dt) e condicionalmente independente de

It = {Yt,Ft}, e como Dt = {It, Dt−1}, tem-se que os momentos condicionais nas esperancas

internas em (2.23) e (2.24) sao (xt|ηt, Dt−1). Em geral, estes momentos serao desconhecidos,

funcoes nao lineares de ηt, sendo a unica informacao disponıvel aquela que diz respeito aos

momentos conjuntos de (g (ηt) ,x′t|Dt−1),

g (ηt)

xt|Dt−1

∼ ft

at

,

qt S′t

St Rt

, (2.25)

onde a matriz de covariancia completa e singular. Na base desta informacao por si, uma

abordagem alternativa e necessaria para que a informacao em It possa ser filtrada de volta

para xt.

13

Atualizacao do campo latente

O metodo linear Bayes pode ser aplicado no modelo anterior para fornecer feedback das

informacoes em It para xt. A densidade de p(xt|ηt, Dt−1) e a distribuicao desconhecida

preditiva de xt, dado ηt; a media e o preditor otimo, no sentido de minimizar o traco da

funcao de risco quadratica [At (d)] em relacao a d, em que:

At (d) = E[(xt − d) (xt − d)′ |ηt, Dt−1

]. (2.26)

A matriz de covariancia da distribuicao e o valor de At(d) na media.

Agora, uma vez que a media e desconhecida, um preditor alternativo e procurado atraves

da abordagem linear Bayes. Tendo em vista a relacao (2.9) e a construcao de ηt, e natural

que se adote uma funcao linear de g(ηt) como preditor de xt. Especificamente, suponha que

d deva ser escolhido de tal modo que d = d0 + d1g(ηt) para algum d0 e d1 e que, em vez

de (2.26), d minimize o risco global quadratico (ou soma de variancias) dado por

rt (d) = tracoE [At (d) |Dt−1 ] ,

onde a esperanca e com relacao a p(ηt|Dt−1).

Neste modelo, os momentos conjuntos (2.25) sao suficientes para determinar o preditor

requerido. Diretamente minimizando rt(d) em relacao a d0 e d1, obtem-se um unico mınimo

em d = at, onde

at = at + St (g (ηt)− ft) /qt (2.27)

o valor de E [At (d) |Dt−1 ] no mınimo e dado por

Rt = Rt − StS′

t/qt (2.28)

Os valores at e Rt, fornecem um preditor linear otimo de xt|ηt, Dt−1 e a medida do risco

associado e um problema nao linear. A alimentacao da informacao de It, pode agora ser

completada substituindo-se a media condicional e matriz de covariancia em (2.23) e (2.24)

por at e Rt para se obter o preditor esperado e risco, dados por:

14

mt =at + St (gt − ft) /qt

Ct =Rt − StS′t (1− pt/qt) /qt ,

onde gt = E [g (ηt) |Dt] e pt = V [g (ηt) |Dt] sao calculadas pela posteriori conjugada de

(ηt, Dt).

Modelo Poisson Dinamico

No capıtulo 3, o metodo proposto por West et al. (1985) sera aplicado a contagens

epidemiologicas. Suponha-se, em particular, que tais observacoes sigam uma distribuicao

Poisson com media λt. O modelo e definido pelas seguintes quatro componentes: equacao

de observacao, distribuicao a priori, funcao de ligacao e a evolucao de estados.

Considere os seguintes componentes essenciais do analise para o modelo dinamico Poisson:

• Modelo observacional

yt ∼ Poisson(λt)

p(yt|λt) = exp [ytlog(λt)− λt]1

yt!, (2.29)

em que φ = 1, ηt = logλt com ηt parametro natural e a(ηt) = λt = eηt , sendo a

media e variancia E[yt|ηt, φ] = µt = a′(ηt) = eηt = λt e V [yt|ηt, φ] = a′′(ηt)/φ = eηt

respectivamente.

• Priori para (ηt|Dt−1) ∼ CP [rt, st].

No caso Poisson, especificamos uma priori log-Gama para ηt, ou seja, uma priori Gama

para λt:

λt|Dt−1 ∼ CP [rt, st] = gama(rt, st)

O par (αt, βt) e deduzido usando propriedades da famılia exponencial.

• A funcao de ligacao e a equacao do sitema:

ηt = log(λt) = F′

txt

xt = Gtxt−1 + wt ∼ [0,Wt],

15

A fim de iniciar o procedimento de estimacao sequencial precisamos a informacao inicial

de x0.

• Informacao inicial:

(x0|D0) ∼ (m0,C0),

A natureza sequencial de modelos dinamicos e conseguida atraves da ciclagem de tres

passos: evolucao, equalizacao dos parametros e atualizacao, a partir de t = 1, · · · , T . As

distribuicoes sao apenas parcialmente especificadas em termos de seus momentos. Para um

determinado tempo t, os passos (1)-(3) sao descritos a seguir.

1. Evolucao:

• Prioris para o parametro de estado e do preditor linear:

xt|Dt−1 ∼ [at, Rt]

ηt|Dt−1 ∼ [ft, qt]

• Priori para λt: ja que o parametro λt > 0 e real positivo, uma escolha natural

para a priori e a famılia gama: (λt|Dt−1) ∼ CP [rt, st] = gama(rt, st), em que

rt, st > 0. Os seus dois primeiros momentos sao conhecidos e serao utilizados na

solucao de um sistema nao linear simples, a fim de obter os valores dos parametros

(rt, st) consistentes com (ft, qt), os momentos de (ηt|Dt−1). Os detalhes sobre a

solucao do sistema nao-linear sao descritos no proximo passo.

2. Equalizacao dos parametros:

Considerando-se que o preditor linear esta relacionado com a media da distribuicao

observacional por meio de uma funcao de ligacao, alguma aproximacao e necessaria

para determinar os hiperparametros rt e st da distribuicao a priori de λt.

Da priori de (ηt|Dt−1) e a transformacao ηt = log(λt) obtemos a priori (λt|Dt−1) como

uma distribuicao gama, isto e (λt|Dt−1) = gama(rt, st) com densidade

16

p(λt|Dt−1) =srtt

Γ(rt)λrt−1exp (−stλt) ,

O par (rt, st) e deduzido usando propriedades da famılia exponencial, isto e,

p(λt|Dt−1) = exp

[(rt − 1)log(λt)− stλt + log

(srtt

Γ(rt)

)]e ηt = log(λt), entao temos:

p(ηt|Dt−1) = exp

rt log(λt)︸︷︷︸ηt

−st λt︸︷︷︸exp(ηt)

+log

(srtt

Γ(rt)

)com

T = (T1(λt), T2(λt)) = (logλt,−λt)

b(rt, st) = −rtlog(st) + logΓ(rt).

Entao,

E[T1] =∂b

∂rt= −log(st) + ψ(rt)

E[T2] =∂b

∂st= −rt

st

V [T1] =∂2b

∂r2t

= ψ′(rt)

V [T2] =∂2b

∂s2t

=rts2t

Cov[T2] =∂2b

∂st∂rt= − 1

st,

com ψ(z) a funcao digamma, definida por ψ(z) = dlog(Γ(z))dz

e ψ′(z) = dψ(z)

dz, a funcao

trigamma (Abramowitz e Stegun (1964)). Da teoria associada a famılia exponencial,

temos

17

ft = E[ηt|Dt−1] = E[log(λt)|Dt−1]

= E[T1] = −log(st) + ψ(rt)

qt = V [ηt|Dt−1] = V [log(λt)|Dt−1]

= V [T1] = ψ′(rt)

Com base na avaliacao da media e variancia de log(λt) e uma aproximacao numerica

da funcao digamma dada por ψ(z) ≈ log(z) e ψ′(z) ≈ z−1 segundo Abramowitz e

Stegun (1964), temos

ft ≈ −log(st) + log(rt) = log

(rtst

)(2.30)

qt ≈1

rt(2.31)

Resolvendo as equacoes (2.33) e (2.31) , temos

rt =1

qt, st = exp

(−ftqt

)(2.32)

com isso temos a priori conjugada para λt e completamente especificada e (ηt|Dt−1) ∼[ft = log

(rtst

), qt = 1

rt

].

3. Distribuicao preditiva um passo a frente:

A distribuicao incondicional da distribuicao preditiva um passo a frente e obtida atraves

da integracao de λt:

18

p(yt|Dt−1) =

∫p(yt, λt|Dt−1)dλt =

∫p(yt|λt, Dt−1)p(λt|Dt−1)dλt

∝∫

1

yt!exp(−λt)λytt

srtt λrt−1t

Γ(rt)e−stλtdλt

∝ srttΓ(rt)yt!

∫λ

(yt+rt)−1t e−(st+1)λtdλt

∝ srttΓ(rt)yt!

× Γ(yt + rt)t(1 + st)yt+rt

, entao

p(yt|Dt−1) =Γ(yt + rt)t

Γ(yt + 1)Γ(rt)

(st

st + 1

)rt ( 1

st + 1

)yt,

que e uma distribuicao binomial negativa, denotada por yt|Dt−1 ∼ Bin neg(rt,

1st+1

).

A media e a variancia da distribuicao preditiva podem ser calculadas usando esperancas

condicionais, isto e,

E(yt|Dt−1) = E (E(yt|λt)|Dt−1) =rtst

V (yt|Dt−1) = E (V (yt|λt)|Dt−1) + V (E(yt|λt)|Dt−1) =rt(st + 1)

s2t

.

4. Atualizacao:

• Posteriori para λt: A distribuicao posterior de λt e obtida usando o teorema de

Bayes. Seja

p(λt|Dt) =p(yt|λt, Dt−1)p(λt|Dt−1)

p(yt|Dt−1)

∝ p(yt|λt, Dt−1)p(λt|Dt−1)

∝ 1

yt!exp(−λt)λytt

srtt λrt−1t

Γ(rt)e(−stλt)

∝ srttΓ(yt + 1)Γ(rt)

λyt+rt−1t exp(−(st + 1)λt)

que e a distribuicao gama, denotada por λt|Dt ∼ gama (yt + rt, st + 1). Da

teoria associada a famılia exponencial e por analogia, o calculo de gt e pt que sao

a media e a variancia a posteriori do preditor linear ηt, respectivamente, temos

19

gt = E[ηt|Dt] = E[log(λt)|Dt] = −log(st + 1) + ψ(yt + rt)

pt = V [ηt|Dt] = V [log(λt)|Dt] = ψ′(yt + rt),

que podem ser calculados recursivamente, pois:

ψ(z) = ψ(z + 1)− z−1

ψ′(z) = ψ

′(z + 1) + z−2.

Utilizando a aproximacao numerica da funcao digamma dada por ψ(z) ≈ log(z)+

(2z)−1 e ψ′(z) ≈ 1

z− 1

2z2segundo Abramowitz e Stegun (1964), temos

gt = −log(st + 1) + ψ(yt + rt)

≈ −log(st + 1) + log(yt + rt) +1

2(yt + rt)

= log

(yt + rtst + 1

)+

1

2(yt + rt)

pt = ψ′(yt + rt) ≈

1

(yt + rt)− 1

2(yt + rt)2

=2(yt + rt)− 1

2(yt + rt)2

• Atualizacao dos estados: A distribuicao conjunta de xt e ηt e parcialmente

especificada e obtida a partir dos resultados anteriores. O metodo de estimacao

linear bayesiana West e Harrison (1997) podem ser utilizados para obter xt|Dt ∼

[mt,Ct].

com mt = at + St(gt − ft)/qt e Ct = Rt − StS′t(1− pt/qt)/qt.

• Transicao de estado: at = Gtmt−1 e Rt = BtGtCt−1G′tBt.

Outros metodos de aproximacao de inferencia bayesiana sao os metodos de simulacao

estocastica, em particular os metodos de Monte Carlo via Cadeias de Markov (MCMC) e o

metodo determinıstico Integrated Nested Laplace Approximation (INLA). Estos metodos sao

centrais nesta dissertacao e sao desenvolvidos de forma mas detalhada no capıtulo 3.

20

Capıtulo 3

Metodos de Aproximacao MCMC e

INLA

Neste capıtulo, descrevemos os metodos de aproximacao MCMC e INLA para realizar

inferencia bayesiana completa em uma classe de modelos de espaco de estados. Em termos

gerais os metodos de Monte Carlo via Cadeias de Markov (MCMC), baseados em simulacao

estocastica que estao relacionados ao processo de obtencao de amostras da distribuicao a

posteriori para sumarizar informacao e que sao descritos de forma detalhada por Gamerman

e Lopes (2006). Por outro lado o metodo de aproximacao determinıstico, Integrated Nested

Laplace Approximation (INLA), proposto por Rue et al. (2009), combinando aproximacoes

Laplace e integracao numerica tornando este metodo eficiente (ver Rue e Martino (2007),

Rue et al. (2009), para um tratamento mais extenso).

O metodo de aproximacao INLA, calcula diretamente aproximacoes muito precisas

para as marginais a posteriori de interesse, nao passando por atualizacao recursiva, como

metodos baseados em variacoes do filtro de Kalman ou por procedimento iterativo, como

metodos MCMC. Em comum com esses ultimos, o INLA fornece a posteriori dos estados e

hiperparametros com respeito a toda a amostra observada, mas seu principal benefıcio e o

tempo computacional reduzido, em comparacao a metodos MCMC. Os metodos MCMC, em

contrapartida, aplicam-se a classes mais abrangentes, nao sujeitas as imposicoes descritas a

seguir sobre a forma dos modelos trataveis via INLA.

Na secao 3.1 apresentamos o metodo MCMC e na secao 3.2 apresentamos a metodologia

21

INLA, e para a ilustracao dos metodos, exibimos uma aplicacao com dados artificias, em

que a variavel resposta nao-gaussiana segue uma distribuicao Poisson. No dado artificial,

apresentamos comparacao entre os metodos INLA, MCMC e Linear Bayes (LB) comentando

restricoes do LB em relacao aos demais, e ganho de eficiencia computacional ao se usar o

metodo INLA, ao inves de MCMC.

3.1 Metodo de Aproximacao MCMC

Em modelos dinamicos, como vimos no capıtulo anterior, no caso que Ft,Gt,Wt sao

totalmente conhecidas, sob normalidade dos erros e se uma forma conjugada e imposta a

Vt = V , ∀t, entao tem-se inferencia bayesiana completa, de forma analıtica. E natural

assumir-se, entretanto, que Wt seja desconhecida. Uma alternativa e a especificacao de Wt

por meio de fatores de desconto, como descrito na secao anterior, mas pode-se ter interesse

na estimacao de Wt ou de quantidades desconhecidas em Ft e Gt. Ainda, a suposicao de

normalidade dos erros pode nao ser valida. Nesse caso, nao ha forma analıtica fechada para

distribuicoes a priori, preditiva e posteriori.

Em particular, no caso MDLG, devido a verossimilhanca construıda com base na famılia

exponencial, associada a prioris nao conjugadas, nao se obtem forma fechada para a densidade

a posteriori de diversos parametros, ao contrario do que ocorre nos modelos dinamicos normais

Alves (2006).

Em inferencia bayesiana, os problemas nao solucionados analiticamente podem ser

resolvidos usando metodos de simulacao que estao relacionados ao processo de obtencao

de amostras de distribuicoes a posteriori. Os metodos de Monte Carlo via Cadeias de

Markov (MCMC) sao metodos de simulacao estocastica, amplamente utilizados na inferencia

bayesiana nas duas ultimas decadas, quando se tem interesse em simular amostras de uma

determinada distribuicao a posteriori, a qual nao possui forma analıtica conhecida.

A ideia basica do metodo MCMC consiste em construir uma cadeia de Markov que, por

meio de escolhas adequadas de nucleos de transicao, tenha como distribuicao estacionaria a

distribuicao de interesse: no contexto bayesiano, a distribuicao a posteriori. Tais metodos

requerem ainda que a cadeia de Markov seja homogenea (as probabilidades de transicao de

22

um estado para outro sao invariantes), irredutıvel (cada estado pode ser atingido a partir de

qualquer outro em um numero finito de iteracoes) e aperiodica(nao haja estados absorventes),

cuja distribuicao estacionaria seja igual a distribuicao de interesse.

Uma vez que a convergencia da cadeia tenha sido atingida, as amostras estarao sendo

geradas da distribuicao estacionaria.

A principal vantagem desta abordagem e a possibilidade de se fazer a analise bayesiana

completa, o que significa tratamento formal da incerteza devida ao fato de que os

hiperparametro θ sao desconhecidos, sendo possıvel integrar θ a fim de apresentar inferencia

sobre (x1, · · · ,xT ). Alem disso, a estimacao pontual e a estimacao por intervalo de θ podem

ser feitas com base na distribuicao a posteriori.

Quando a distribuicao condicional completa de um parametro de interesse esta disponıvel

para amostragem, usualmente adota-se o amostrador de Gibbs, caso particular de algoritmo

MCMC, descrito a seguir. Em MDLGs, entretanto, nao se consegue amostrar a condicional

completa de xt. Existem algumas propostas de implementacao do amostrador de Gibbs para

casos particulares e o algoritmo Metropolis Hastings e indicado para as aplicacoes em geral,

tais algoritmos serao apresentados na subsecoes seguintes. Detalhes sobre metodos MCMC

podem ser vistos em Gamerman e Lopes (2006).

A difusao da aplicacao destes metodos foi iniciada com o trabalho de Gelfand e Smith

(1990), no qual foi feita uma comparacao entre o amostrador de Gibbs, proposto inicialmente

por Geman e Geman (1984), com outros esquemas de simulacao estocastica. Ate entao,

os trabalhos desenvolvidos eram baseados principalmente em aproximacoes numericas e

analıticas. O avanco computacional na decada de 1990 facilitou a popularizacao de aplicacoes

dos metodos bayesianos.

3.1.1 Amostrador de Gibbs

O amostrador de Gibbs foi proposto por Geman e Geman (1984), sendo popularizado por

Gelfand e Smith (1990). O amostrador de Gibbs e um esquema iterativo de amostragem

de uma cadeia de Markov, utilizando tal esquema para amostrar uma distribuicao a

posteriori p(x) do vetor parametrico x = (x1,x2, · · · ,xd)′, desde que as distribuicoes

23

condicionais completas destes parametros sejam conhecidas para amostragem. A distribuicao

condicional completa e a distribuicao da j−esima componente de x condicionada a informacao

de todos os outros parametros, podendo ser denotada por p(xj | x−j) onde x−j =

(x1, · · · ,xj−1,xj+1, · · · ,xd). A distribuicao condicional completa e obtida a partir da

distribuicao conjunta.

Em muitos casos, a geracao de uma amostra diretamente de p(x) pode ser custosa ou

impossıvel, mas se as distribuicoes condionais completas forem completamente conhecidas,

entao o algoritmo do amostrador de Gibbs pode descrito atraves dos seguintes passos:

(i) Especifique-se um valor arbitrario inicial para x(0) para x e inicialize-se o contador

j = 1;

(ii) Obtem-se um novo valor x(j) a partir de x(j−1) atraves de geracoes sucessivas dos

valores

x(j)1 ∼ p(x1 | x(j−1)

2 , . . . ,x(j−1)d )

x(j)2 ∼ p(x2 | x(j)

1 ,x(j−1)3 , . . . ,x

(j−1)d )

x(j)3 ∼ p(x3 | x(j)

1 ,x(j)2 ,x

(j−1)4 , . . . ,x

(j−1)d )

...

x(j)d ∼ p(xd | x(j)

1 ,x(j)2 , . . . ,x

(j)d−1).

(iii) Atualiza-se o contador de j para j+ 1 e retorna-se ao passo (ii) ate que a convergencia

seja obtida.

Carlin et al. (1992) introduziram o uso do amostrador Gibbs para realizar inferencia para

modelos de espaco de estados nao-normais e nao-lineares, com perturbacoes tanto na equacao

observacao e na equacao do sistema. Embora Carlin et al. (1992) nao trabalhem com MDLG,

a ideia motivou algumas solucoes baseadas em MCMC para MDLG.

Fahrmeir et al. (1992) propos o amostrador de Gibbs para analise de MDLG utilizando

amostragem por rejeicao para gerar a partir das condicionais completas de xt. No contexto

de MDLGD a equacao do sistema tem perturbacoes normais, e assim existem mt e Ct tal

24

que p(xt | x−t, Dt,W ) ∝ p(yt | xt)N(mt,Ct) = f(xt),∀t. Fahrmeir et al. (1992) entao

propuseram g(xt) = N(mt, Ct) o que parece natural, mas pode levar a baixas taxas de

aceitacao.

A desvantagem e que este abordagem nao e aplicavel a famılia exponencial em geral,

pois nao e possıvel amostrar as distribuicoes condicionais completas de todos os parametros

de interesse, como descritos no paso 2 acima. Nestes casos, passos de Metropolis Hastings

podem ser inseridos no algoritmo de Gibbs

3.1.2 Algoritmo de Metropolis Hastings

O metodo de Metropolis-Hastings foi apresentado por Metropolis et al. (1953) e

posteriormente estendido por Hastings (1970), resultando o algoritmo de Metropolis-Hastings.

O metodo e usado geralmente para a geracao de amostras da distribuicao de parametros de

interesse cujas condicionais completas nao tenham forma analıtica fechada. Nesse caso,

sao gerados valores para cada parametro a partir de uma distribuicao auxiliar, chamada de

distribuicao proposta q(·), tais valores sao aceitos ou nao com uma certa probabilidade.

Para superar a dificuldade de amostragem das distribuicoes condicionais completas de

todos os parametros de interesse, alguns autores vem apresentando abordagens com base no

algoritmo de Metropolis-Hastings. A ideia consiste em usar o amostrador de Gibbs com passos

de Metropolis-Hastings para conseguir amostrar as densidades dos parametros de estado. No

caso da amostragem dos parametros de estado, um de cada vez, este passo de Metropolis-

Hastings e composto de dois passos. Sejam p(·) a funcao densidade de probabilidade de

interesse e q(·) a funcao de probabilidade ou funcao densidade de probabilidade proposta.

Entao:

(i) Gera-se um valor ξ de uma distribuicao proposta q(x(j−1), ξ).

(ii) Aceita-se o valor gerado em (ii) com probabilidade

α (x, ξ) = min

{1,

p(ξ)/q(x(j−1), ξ)

p(x(j−1))/q(ξ,x(j−1))

}.

Se o valor for aceito, x(j) = ξ. Caso contrario, a cadeia nao se move e x(j) = x(j−1).

25

A diferenca entre os metodos apresentados por diferentes autores, e a amostragem

individual ou em blocos dos estadoe e a escolha da distribuicao proposta q(x(j−1), ξ). Embora

a distribuicao proposta possa ser escolhida arbitrariamente, na pratica e crucial, e deve-se

tomar alguns cuidados para garantir rapida convergencia para a distribuicao a posteriori e

eficiencia do algoritmo MCMC.

Fruhwirth Schnatter (1994) e Carter e Kohn (1994) propoem amostrar todos os parametros

de estado em forma simultanea, usando o amostrador de Gibbs, acelerando a convergencia

das cadeias em comparacao ao caso de movimentos individuais.

Shephard e Pitt (1997) e Knorr-Held (1999) sugeriram o uso de blocos aleatorios (cujos

tamanhos podem variar ), contendo alguns dos componentes de xt. Suas propostas foram

baseadas em aproximacoes normais para a verossimilhanca e movimentos de passeio aleatorios,

respectivamente, utilizando a metodologia via algoritmo de Metropolis Hastings como uma

ferramenta simples, porem flexıvel e eficiente para inferencia bayesiana via MCMC em modelos

dinamicos.

Gamerman (1998) apresenta um abordagem metodologica para a realizacao de inferencia

bayesiana sobre modelos dinamicos para observacoes da famılia exponencial, baseando-se em

simulacao, utilizando a tecnica MCMC, considerando passos de Metropolis-Hastings dentro

do amostrador de Gibbs. Nesse trabalho o autor sugeriu o uso de um modelo dinamico

normal ajustado com o objetivo de construir uma boa densidade proposta, q(.), baseada no

modelo do trabalho de Singh e Roberts (1992) definido por (2.11), (2.12) e (2.13). Para

organizar esta ideia, implementa tres esquemas de amostragem diferentes: a amostragem

individual ou em blocos dos estados, ou amostragem individual dos termos do erro da equacao

de evolucao; concluindo que os movimentos individuais sao preferıveis aos movimentos em

blocos e que amostrar os erros e mais eficiente, porque as cadeias resultantes sao menos

autocorrelacionadas, o que ajuda a acelerar a convergencia do algoritmo. Para maiores

detalhes sob o algoritmo, veja Tierney (1994), Gamerman (1997) e Ferreira e Gamerman

(2000) Gamerman e Lopes (2006).

Migon et al. (2013) Propoem um esquema de amostragem em blocos para os parametros

de estados de modelos dinamicos nao-gaussianos e nao-linear de series temporais univariadas.

Este esquema de amostragem combina a abordagem de Conjugate Updating para modelos

26

lineares dinamicos generalizados, com amostragem retrospectiva (Backward Sampling) dos

parametros de estado usados em modelos lineares dinamicos normais. Denominado algoritmo

CUBS, abreviacao do ingles Conjugate updating backward sampling. As vantagens do

algoritmo sao a facilidade de implementacao e a reducao significativa do tempo computacional

necessario para se atingir a convergencia das cadeias.

Para a avaliacao da convergencia, existem metodos formais para diagnostico de

convergencia das cadeias, como os propostos por Geweke (1992) e a estatıstica de Gelman e

Rubin (1992). Entretanto, nenhum destes metodos e conclusivo, fornecendo apenas indıcios

de convergencia.

Um modo informal simples de verificacao da convergencia, adotado neste trabalho, e a

inspecao visual das cadeias de Markov, que consiste em analisar a trajetoria de pelo menos

duas cadeias independentes (definidas por diferentes valores iniciais) dos proprios parametros

que oscilam na mesma regiao, mesclando-se, a medida em que o numero de iteracoes cresce

e verificar se todas convergem para a mesma regiao de estabilidade.

Vale ressaltar que tecnicas informais de verificacao da convergencia devem ser utilizado

com cautela e sempre acompanhadas de alguma fundamentacao teorica.

Supondo que sejam realizadas N iteracoes do algoritmo MCMC e que a partir da iteracao J

a cadeia tenha atingido a convergencia para a distribuicao de equilıbrio, os valores xJ , . . . ,xN

constituem uma amostra aproximada da distribuicao a posteriori de x.

3.2 O Metodo de Aproximacao INLA

Modelos de espaco de estados pressupoem uma estrutura markoviana de evolucao entre

seus estados e, ainda, que condicionalmente a tais estados, as observacoes sejam serialmente

independentes Petris et al. (2009). Modelos dinamicos lineares gaussianos, como descritos

em West e Harrison (1997) sao, portanto, modelos de espaco de estados em que se pressupoe

normalidade, tanto da variavel resposta, quanto dos erros de evolucao dos estados. O metodo

INLA e adequado a modelos mais gerais que os MDLs, ja que nao impoe a restricao de

normalidade sobre a variavel reposta. Ao inves disso, assume-se resposta pertencente a famılia

exponencial, explicada por preditores aditivos (e, portanto, nao necessariamente lineares)

27

e, ainda, que seu vetor de estados x = (x1, . . . , xn)′ possa ser escrito como um campo

latente gaussiano markoviano com matriz de precisao Q(θ) esparsa, definida por um vetor

de hiperparametros θ de dimensao m baixa (m ≤ 6). θ pode incluir, ainda, parametros

definidores de p(yi|x). Segundo Rue et al. (2009), usualmente a eficiencia do metodo depende

da baixa dimensao do vetor de hiperparametros e da esparsidade da matriz de precisao, mas

ha excecoes. A esparsidade de Q viabiliza a adocao de metodos numericos muito mais rapidos

que seus equivalentes para matrizes densas.

Sejam yi, i = 1, . . . , T os dados observados, supostos condicionalmente

independentes,dado o campo latente x, ou seja,

p(y|x,θ) =∏i

p(yi|xi,θ), (3.1)

onde cada observacao esta conectada a somente um elemento do campo latente. Apos

atribuir uma priori para o vetor de hiperparametros θ, temos a distribuicao a posteriori de

interesse, dada por:

p(x,θ|y) ∝ p(θ)p(x|θ)∏i

p(yi|xi,θ) (3.2)

∝ p(θ)|Q(θ)|1/2exp

{−1

2x′Q(θ)x +

∑i

log(p(yi|xi,θ))

}. (3.3)

O principal objetivo da abordagem INLA e aproximar as distribuicoes a posteriori marginais

para as quantidades latentes p(xi|y), ∀i = 1, . . . , n e para os hiperparametros do modelo

gaussiano latente p(θj|y), ∀j = 1, . . . ,m, dadas por:

p(xi|y) =

∫p(θ|y)p(xi|θ,y)dθ (3.4)

p(θj|y) =

∫p(θ|y)dθ−j, (3.5)

Como as integracoes em (3.4) e (3.5) nao podem ser resolvidas analiticamente, sao

necessarias aproximacoes para p(xi|θ,y) e p(θ|y) denotadas respectivamente por p(xi|θ,y)

e p(θ|y). Ainda, as integrais sao possıveis devido a baixa dimensao suposta para θ.

28

p(xi|y) =

∫p(θ|y)p(xi|θ,y)dθ (3.6)

p(θj|y) =

∫p(θ|y)dθ−j. (3.7)

Estas aproximacoes baseiam-se em uma combinacao eficiente de aproximacoes de Laplace

(proposta por Tierney e Kadane (1986)) para as condicionais completas p(θ|y) e p(xi|θ,y),

i = 1, · · · , n, e rotinas de integracao numerica e obtidas atraves de

p(xi|y) ≈∑j

p(xi|θj,y)p(θj|y)∆j (3.8)

p(θj|y) ≈∑i

p(θi|y)∆ji (3.9)

Para resolver (3.8) e (3.9) e necessario obter as aproximacoes de p(θ|y) e p(xi|θ,y) e

avaliar p(θ|y) em uma grade, descrito a seguir (secoes 3.2.1 e 3.2.1).

3.2.1 Parametrizacao adequada do vetor parametrico e exploracao

da grade

Quando se aplica metodos numericos para a obtencao das distribuicoes de interesse, em

muitos casos e necessario reparametrizar o vetor parametrico, ja que boas reparametrizacoes

simplificam integracoes numericas e facilitam a construcao de grades otimizadas.

Parametrizacao adequada do vetor parametrico

Segundo Rue et al. (2009), e conveniente fazer uma reparametrizacao do vetor parametrico

θ = (θ1, · · · ,θm) ∈ <m, sendo m a dimensao de θ, de modo a obter um novo vetor,

por exemplo, z, cuja distribuicao seja aproximadamente uma distribuicao normal padrao

multivariada. Essa transformacao ira facilitar a construcao de grades otimizadas, em que

as regioes de maior massa de probabilidade tenham mais pontos em relacao as demais areas.

Na literatura sao conhecidas varias propostas para achar a melhor reparametrizacao. Em

particular, a abordagem de Smith et al. (1987), fornece bons resulatdos. Para maiores

29

referencias sugerimos Martins (2010). Segundo Smith et al. (1987), procede-se em duas

etapas:

1. Reparametriza-se os parametros individuais de tal forma que tenham suporte na reta

real. Por exemplo, parametros com suporte em intervalos da forma (0,∞) sao

transformados utilizando θ∗ = log(θ) e, quando o intervalo e do tipo (a, b), a

transformacao utilizada e θ∗ = [log(θ − a) − log(b − θ)]. Denote-se θ∗ como o

novo vetor parametrico, tal que θ∗ ∈ <m.

2. Deseja-se, agora, um conjunto centrado, padronizado e mais ortogonal. Para isso,

calcular a moda da densidade a posteriori de θ∗, denotada por θ∗Mo e encontrar a

matriz Hessiana, H avaliada na moda θ∗Mo. Considerar a decomposicao espectral, Σ,

dada por Σ = VΛV′ e que Σ = −H−1. O novo conjunto de parametros z e tal que

θ(z) = θ∗Mo + VΛ1/2z ou z = VTΛ−1/2(θ − θ∗Mo)

Exploracao da Grade

A ideia e explorar log[p(θ|y)] suficientemente bem, a fim de selecionar bons pontos, o

que e crucial para a precisao da integracao numerica e assim localizar as regioes com maior

massa de probabilidade. Portanto, nao e necessario representar p(θ|y) parametricamente.

Rue et al. (2009) sugere fazer tal exploracao, utilizando a parametrizacao z, detalhados da

seguinte forma:

1. Iniciar pela moda z = 0 (θ = θ∗Mo), e ir na direcao positiva de z1 com espacamento de

tamanho δz, por exemplo, δz = 1; ate quando a seguinte condicao for satisfeita

log{p(0|y)} − log{p(θ(z)|y)} < δπ (3.10)

sendo por exemplo δπ = 2.5.

2. Repetir o procedimento na direcao negativa de z1. Todas as demais coordenadas de z

seguem o mesmo procedimento analogo. Os pontos assim obtidos sao denominados de

pontos pretos.

30

3. Completar a construcao da grade com todas as combinacoes dos pontos pretos,

verificando para cada combinacao se a condicao (3.10) e satisfeita. Esses novos pontos

sao chamados de pontos cinzas.

O conjunto de pontos pretos e cinzas e utilizado para obter as distribuicoes marginais de

θ|y via integracao numerica.

3.2.2 Aproximacao para p(θ|y)

Seja a identidade

p(θ|y) =p(x,θ|y)

p(x|θ,y), ∀x. (3.11)

Rue e Martino (2007) propoem aproximar p(θ|y), baseadas em aproximacoes de Laplace

para a distribuicao a posteriori marginal de θ, dada por

p(θ|y) ∝ p(x,θ,y)

pG(x|θ,y)

∣∣∣∣x=x∗(θ)

, (3.12)

em que pG(x|θ,y) do denominador de (3.12) e uma aproximacao Gaussiana para a

distribuicao condicional completa de x, e x∗(θ) e a moda da distribuicao condicional completa

de x para um dado θ,

p(x|θ,y) ∝ exp

{−1

2x′Q(θ)x +

∑i

log(p(yi|xi,θ))

}. (3.13)

A moda, x∗(θ) e obtida atraves de algum metodo de otimizacao, por exemplo,

utilizando o metodo de Newton-Raphson descritos por Martins (2010) e Resende (2011).

A proporcionalidade de (3.12) e devido ao fato de nao conhecer a constante normalizadora

de p(x,θ|y).

Rue e Martino (2007) utilizaram a aproximacao (3.12) em diversos modelos latentes

Gaussianos e concluıram que tal aproximacao e muito precisa, de tal forma que nem longas

cadeias de MCMC foram capazes de detectar erros na aproximacao.

A distribuicao a posteriori p(θ|y) sera usada posteriormente para integrar a incerteza com

relacao a θ ao aproximar a marginal a posterior de xi.

31

3.2.3 Aproximacao para p(xi|θ,y)

Rue et al. (2009) sugerem tres abordagens de aproximacao para p(xi|θ,y): a aproximacao

Gaussiana, aproximacao de Laplace, aproximacao de Laplace simplificada, que variam em

termos de custo computacional e/ou precisao.

Duas de tais aproximacoes propostas para a obtencao das condicionais completas de um

modo mais simples sao aproximacoes Gaussiana e Laplace simplificada.

A aproximacao Gaussiana fornece resultados razoaveis em tempo computacional curto.

No entanto, de acordo com a Rue e Martino (2007), sua precisao pode ser afetada por erros

na localizacao e/ou erros devidos a falta de simetria. Estas deficiencias podem ser corrigidas

com um custo adicional razoavel, usando uma versao simplificada da aproximacao de Laplace,

definida como a expansao de Taylor da serie de pLA(xi|θ,y) em torno de xi = µi(θ), a media

de p(xi|y,θ) (para detalhes ver Rue et al. (2009), Ruiz-Cardenas et al. (2010), Martins

(2010), Resende (2011)).

Metodo de Laplace

Uma forma natural para melhorar a aproximacao Gaussiana e pela aproximacao de Laplace

para p(xi|θ,y), dada por:

pLA(xi|θ,y) ∝ p(x,θ,y)

pGG(x−i|xi,θ,y)

∣∣∣∣x−i=x∗−i(xi,θ)

, (3.14)

em que pGG(x−i|xi,θ,y) e a aproximacao Gaussiana para (x−i|xi,θ,y) e x∗−i(xi,θ) e a

moda de p(x−i|xi,θ,y).

E necessario avaliar a expressao (3.14) em diversos valores de xi para obter a densidade,

como por exemplo, {x(1)i , . . . , x

(k)i }. Estes pontos sao selecionados, considera-se x

(j)i =

µi(θ)+σi(θ)x(j)ab , em que µi(θ) e σi(θ) sao a media e desvio-padrao da aproximacao Gaussiana

pG(xi|θ,y) dada em (3.12) e x(j)ab e um ponto da abcissa dado pela quadratura de Gauss-

Hermite (Resende (2011)). Assim, a aproximacao de Laplace pLA(xi|θ,y) e representada

por:

pLA(xi|θ,y) ∝ N{µi(θ), σ2i (θ)}exp{h(xi)}, (3.15)

32

sendo a funcao h(x) uma funcao spline cubica ajustada a diferenca log {pLA(xi|θ,y)} −

{pG(xi|θ,y)}, avaliada nos pontos selecionados. Em seguida, a densidade (3.15) e

normalizada utilizando integracao por quadratura.

A aproximacao p(xi|θ,y) usando a expressao (3.14) pode levar a um alto custo

computacional, uma vez que pGG(x−i|xi,θ,y) deve ser recalculado para cada valor de xi

e θ uma vez que sua matriz de precisao depende de xi e θ.

Rue et al. (2009) propoem duas alteracoes a expressao (3.14) que a tornam viavel

computacionalmente. A primeira modificacao consiste em evitar o passo de otimizacao e

calcular pGG(x−i|xi,θ,y) atraves de uma aproximacao para a moda, dada por

x∗−i(xi,θ) ≈ EpG(x−i|xi). (3.16)

A segunda modificacao materializa a intuicao de que, devido a propriedades de Markov

do campo latente de x, apenas aqueles elementos do campo latente xj que sao de uma certa

forma ”proximos”de xi devem ter um efeito (alguma influencia) sobre a distribuicao marginal

de xi. Denote-se por Ri(θ) a ”regiao de interesse”com relacao a distribuicao marginal de xi.

A esperanca condicionada na approximacao acima implica que

EpG(xj|xi)− µj(θ)

σj(θ)= aij(θ)

xi − µi(θ)

σi(θ)(3.17)

para algum aij(θ), j 6= i. Portanto, considere-se uma simples regra para a construcao de

Ri(θ),

Ri(θ) = {j : |aij(θ)| > 0.001}. (3.18)

O mais importante e que agora so sera necessario fatorizar matrizes esparsas de dimensao

|Ri(θ)| × |Ri(θ)|.

3.2.4 Algoritmo INLA

O metodo de aproximacao INLA, pode ser resumido em tres passos:

33

1. Explorar p(θ|y).

• Localizar a moda θ∗ de p(θ|y), otimizando log{p(θ|y)} com respeito a θ.

• Usar a Hessiana para construir a nova variavel z, isto e, fazendo a transformacao

adequada para θ, descrito na secao (3.2.1).

• Construir a grade, explorando log{p(θ|y)} utilizando a nova parametrizacao z.

• Aproximar p(θj|y) atraves de integracao numerica. A ideia principal e usar os

pontos calculados no item anterior e construir um interpolante para log{p(θ|y)}

e fazer a integracao numerica atraves deste interpolante.

2. Obter p(xi|θ,y).

Para cada θj da grade, encontrar a aproximacao de Laplace para cada elemento do

campo latente x.

3. Obter p(xi|y), conbinando os dois passos anteriores, por meio de integracao numerica,

isto e∑

j p(xi|θj,y)p(θj|y)∆j.

3.3 Modelo Poisson Dinamico com dados artificiais,

exemplo

Na presente secao, apresentamos o ajuste do modelo Poisson dinamico com dados

artificiais. Para a comparacao do modelo utilizamos os metodos de aproximacao INLA, MCMC

e Linear Bayes (LB), descrito na secao anterior (2.4.2).

Seja Y1, . . . , YT variaveis aleatorias condicionalmente independentes seguindo uma

distribuicao Poisson com media λt > 0, com funcao de probabilidae dada por:

p(yt|λt) = eλtλtyt 1

yt!

34

Assume-se que a media λt varia no tempo atraves de uma estrutura dinamica,

Yt | λt ∼ Poisson(λt)

ηt = log(λt) (3.19a)

ηt = F′txt = αt + βtzt (3.19b)

αt = αt−1 + vt, vt ∼ N [0,V], (3.19c)

βt = βt−1 + ωt, ωt ∼ N [0,W] (3.19d)

em que F′t = (1,wt) e um vetor de dimensao p = 2 que descreve os valores das covariaveis

observadas para cada indivıduo t e xt = (αt, βt) o vetor de parametros associados ao preditor

linear ηt.

Na estimacao bayesiana, devemos considerar as prioris para os parametros (αt, βt) no

instante inicial. Assume-se que

α1 ∼ N [0, R1] (3.20a)

β1 ∼ N [0, R2]. (3.20b)

sendo R1 e R2 valores conhecidos refletindo a incerteza a priori sobre o processo no

instante inicial.

Assim, as quantidades a serem estimadas sao Ψ = (V,W, α1, α1, . . . , αT ; β1, β2, . . . βT ),

em que θ = (V,W ) e o parametro fixo e (α1, α1, . . . , αT ; β1, β2, . . . βT ) parametros do campo

latente.

3.3.1 Prioris para os parametros fixos

Assume-se uma especificacao para as priori dos hiperparametros θ = (V,W ) que

sao independentes, e a distribuicao a priori para V ∼ GI(av, bv) e W ∼ GI(aw, bw)

respectivamente, sendo av, bv, aw e bw valores conhecidos.

Agora vamos reparametrizar os parametros fixos de modo que eles possuam suporte na

reta real.

35

V ∗ = log(1/V ) = log(τ1), sendo τ1 ∼ G(av, bv)

W ∗ = log(1/W ) = log(τ2), sendo τ2 ∼ G(aw, bw),

Sendo, τ1 = 1/V e τ2 = 1/W . Assim os calculos das prioris apos a nossa reparametrizacao

e,

p(V ∗) ∝ exp(V ∗)ave−bvexp(V∗) (3.21)

p(W ∗) ∝ exp(W ∗)awe−bwexp(W∗) (3.22)

3.3.2 Prioris para variaveis gaussianas latentes

A distribuicao conjunta dos parametros do campo latente xt = (α1, · · · , αT, β1, · · · , βT)

condicional a θ = (V,W ), e dada por:

p(x|θ) = p(α1)T∏t=2

p(αt|αt−1)p(β1)T∏t=2

p(βt|βt−1) (3.23a)

∝ exp

{−1

2R−1

1 α21

} T∏t=2

exp

{−1

2V −1 (αt − αt−1)2

}× (3.23b)

× exp{−1

2R−1

2 β21

} T∏t=2

exp

{−1

2W−1 (βt − βt−1)2

}

∝ exp

{−1

2

[R−1

1 α21 + V −1

T∑t=2

(αt − αt−1)2 +R−12 β2

1 +W−1

T∑t=2

(βt − βt−1)2

]}(3.23c)

mais

T∑t=2

(αt − αt−1)2 =∑T

t=2 α2t +

∑Tt=2 α

2t−1 − 2

∑Tt=2 α

2tα

2t−1 (3.24a)

= α21 + α2

T + 2∑T−1

t=2 α2t − 2

∑Tt=2 αtαt−1 (3.24b)

36

rescrevendo a distribuicao conjunta dos parametros do campo latente por

p(x|θ) ∝ exp

{−1

2

[(V −1 +R−1

1 )α21 + V −1α2

T + 2V −1

T∑t=2

α2t − 2V −1

T∑t=2

αtαt−1

(3.25a)

+(W−1 +R−12 )β2

1 +W−1β2T + 2V −1

T∑t=2

α2t − 2V −1

T∑t=2

βtβt−1

]}

p(x|θ) ∝ exp

{−1

2

[αTQ(V )α+ βTQ(W )β

]}(3.25b)

p(x|θ) ∝ exp

{−1

2xTQ(θ)x

}(3.25c)

Com isso temos (x|θ) ∼ N [0,Q(θ)], onde Q(θ) e a matriz de precisao, em que

Q(θ) =

Q(V) 0

0 Q(W)

2T×2T

(3.26)

em que,

Q(V) =

R−11 + V −1 −V −1 0 · · · 0 0

−V −1 2V −1 −V −1 · · · 0 0

0 −V −1 2V −1 · · · 0 0

0 0 −V −1 · · · 0 0...

......

. . ....

...

0 0 0 · · · 2V −1 −V −1

0 0 0 · · · −V −1 V −1

T×T

(3.27)

e

Q(W) =

R−12 +W−1 −W−1 0 · · · 0 0

−W−1 2W−1 −W−1 · · · 0 0

0 −W−1 2W−1 · · · 0 0

0 0 −W−1 · · · 0 0...

......

. . ....

...

0 0 0 · · · 2W−1 −W−1

0 0 0 · · · −W−1 W−1

T×T

(3.28)

37

Neste caso a verossimilhanca associada a η = (η1, · · · , ηT )′, sendo ηt = log λt temos:

p(yt|ηt, θ) ∝ e−λtλtyt = exp(−eηt)exp(ηt)yt (3.29)

log p(yt|ηt) ∝ −eηt + ytηt (3.30)

3.3.3 Aproximacao Gaussiana para a distribuicao Condicional

Completa xt

A aproximacao Gaussiana para a distribuicao condicional completa de xt, dado por

p(x|θ,y) ∝ p(y|x,θ)p(x|θ) =∏T

t=1 p(yt|xt,θ)p(xt|θ) (3.31)

∝ exp

−12xTQ(θ)x +

∑log p(yt|xt,θ)︸︷︷︸g(xt)=g(ηt)

(3.32)

Denote gt(xt) = log p(yt|xt,θ) como a verossimilhanca descrita em (3.30) e que xt =

ηt = (αt,βt) com t = 1, · · · , T entao g(ηt) = g(xt) e θ = (V,W ), sendo αt e βt

independentes.

gt(ηt) = log p(yt|ηt, θ) ∝ −eηt + ytηt (3.33)

ηt = αt + βtzt (3.34)

Em que o gradiente (∇g) e a matriz Hessiana (Hg) e dado por,

∇g =

(∂g(ηt)

∂αt,∂g(ηt)

∂βt

)= (−eηt + yt,−eηtzt + ytzt) (3.35)

Hg =

∂2g(ηt)

∂α2t

0

0 ∂2g(ηt)

∂β2t

=

−eηt 0

0 −eηt

(3.36)

Seja η(0) = (α(0),β(0)) um vetor de valores iniciais utilizados para a inicializacao do

algoritmo em busca da moda de p(θ | y). Expandindo gt(ηt) em torno de η(0)t , t = 1, · · · , T

segue:

38

gt(ηt) ≈ gt(η(0))︸︷︷︸

cte

+b(η(0))η − 1

2η′C(η(0))η

em que

b(η(0)) = ∇g(η(0))−Hg(η

(0))η(0)

C(η(0)) = −Hg(η(0))

fazendo as devidas operacoes algebricas,

bt(η(0)t ) =

(yt − eη

(0)t + eη

(0)t α

(0)t , ytzt − eη

(0)t zt + z2

teη(0)t β

(0)t

)(3.37)

Ct(η(0)t ) = diag

(eη

(0)t , eη

(0)t z2

t

)(3.38)

Logo

gt(ηt) ∝(eη

(0)t(α0t − 1

)+ yt, zte

η(0)t(ztβ

0t − 1

)+ ztyt

)ηt − ηTdiag

(eη

(0)t , eη

(0)t z2

t

)ηt

aplicando somatorios∑gt(ηt) =

∑t∈I log p(yt|ηt,θ) ≈ −1

2ηTC(η(0))η + b(η(0))ηt (3.39)

em que,

b(η(0)) =

eη

(0)1

(α

(0)1 − 1

)+ y1 z1e

η(0)1

(z1β

(0)1 − 1

)+ z1y1

eη(0)2

(α

(0)2 − 1

)+ y2 z2e

η(0)2

(z2β

(0)2 − 1

)+ z2y2

......

eη(0)T

(α

(0)T − 1

)+ yT zT e

η(0)T

(zTβ

(0)T − 1

)+ zTyT

(3.40)

e,

C(η(0)) = diag((eη

(0)1 , eη

(0)2 , · · · , eη

(0)T

),(eη

(0)1 z2

1, eη(0)2 z2

2, · · · , eη(0)T z2

T

))(3.41)

39

3.3.4 Resultados

Geramos uma serie temporal de dados artificiais, segundo um modelo Poisson dinamico

descrito acima, de tamanho T = 1444, sendo 1443 para estimacao do modelo e o ponto

restante, para a avalicao preditiva um passo a frente, isto devido ao MCMC levar horas para

rodar. A regressora z utilizada na simulacao de dados e uma das regressoras de valores reais

(monoxido de carbono) em que se tem interesse na aplicacao do Capıtulo 4. Portanto, a serie

temporal do modelo Poisson foi simulado para y condicionado a w, fixando-se V = 0.001

(1/V = 1000), W = 0.0005 (1/W = 2000). A figura 3.1 mostra a serie da regressora zt.

0 500 1000 1500

02

46

time

zt

Figura 3.1: Regressora zt utilizada na simulacao para o resposta Poisson.

A figura 3.2 mostra a serie temporal dos dados artificiais para o modelo poisson, gerados

com V = 0.001, W = 0.0005, e valores α1 e β1 sorteados, respectivamente, de α1 ∼

N(0, R1 = 10) e β1 ∼ N(0, R2 = 10).

Considerando a matriz de precisao a priori para o campo latente descrita em (3.26),

assumindo-se distribuicoes a priori para os parametros α1 ∼ N(0, R1 = 10) e β1 ∼ N(0, R2 =

10), e prioris nao informativas para os hiperparametros V e W com av = 2, bv = 0.0018,

aw = 2, bw = 0.0018, a estimacao foi feita usando os metodos INLA, MCMC e Linear Bayes.

40

0 500 1000 1500

05

1015

20

time

Y

Figura 3.2: Dados artificialmente gerados de um modelo Poisson dinamico, com covariaveis

de tamanho T = 1444.

A implementacao computacional do INLA e LB foram programadas utilizando o software R

(R Development Core Team (2013)) e para a abordagem do MCMC, o WinBUGS. Os codigos

sao apresentados no apendice A. No caso do INLA, foi tomado como base inicial o relatorio

de Albi et al. (2009).

No caso MCMC, para lograr convergencia das cadeias de Markov, foram simulados

duas cadeias de 27000 iteracoes cada uma, sendo as primeiras 5000 iteracoes consideradas

como perıodo de aquecimento, sendo as amostras restantes tomadas a espacamentos de 30

iteracoes, de forma a reduzir a autocorrelacao serial, com isso obtendo-se uma amostra final

de tamanho 1466.

A tabela (3.1) e a figura 3.3 mostram os valores estimados das distribuicoes a posteriori

41

dos hiperparametros V e de W , assim como os intervalos de credibilidade de 95% para cada

um deles, obtidas utilizando os metodos INLA e MCMC. Observe-se que ambos metodos

fornecem estimativas muito proximas e foram capazes de recuperar os valores teoricos dos

hiperparametros.

Tabela 3.1: Estimativas a posteriori com intervalos de credibilidade a 95% e valor verdadeiro

dos hiperparametros.

INLA MCMC

ICI media ICS ICI media ICS

V (0.001) 0.000549 0.001012 0.001728 0.000568 0.001059 0.001828

W (0.0005) 0.000247 0.000507 0.000961 0.000275 0.000553 0.000971

V

Den

sida

de

0.0005 0.0015 0.0025

020

060

010

0014

00

simulatedINLAMCMC

W

Den

sida

de

0.0000 0.0005 0.0010 0.0015

050

010

0015

0020

0025

00

simulatedINLAMCMC

Figura 3.3: Aproximacao da distribuicao a posteriori para V e W , pelos metodos INLA (linha

azul) e MCMC (histograma, linha preta), com intervalos de credibilidade ao 95% para INLA

(linha vertical tracejada azul) e MCMC (pontos pretos). A linha vertical vermelha refere-se

ao valor verdadeiro.

As Figuras 3.4 e 3.5 mostram as distribuicoes a posteriori marginais para os coeficientes

de regressao αt e o coeficiente βt obtidas utilizando os metodos INLA, MCMC e LB. Os

intervalos de credibilidade obtidos pelos metodos INLA e MCMC tem nıvel de credibilidade

de 95%. Ja os intervalos do LB tem nıvel de credibilidade indeterminado e foram obtidos

42

0 500 1000 1500

0.0

0.5

1.0

1.5

2.0

Tempo

alph

a_t

ArtificialINLAMCMCLB

Figura 3.4: Media a posteriori e intervalos de credibilidade de 95% para (α1, · · · , αT ) usando

os metodo INLA (linha azul), MCMC (linha vermelha) e LB (linha cinza). A linha preta

refere-se aos valores reais.

0 500 1000 1500

−0.

6−

0.2

0.2

0.4

0.6

Tempo

beta

_t

ArtificialINLAMCMCLB

Figura 3.5: Media a posteriori e intervalos de credibilidade de 95% para (β1, · · · , βT ) usando

os metodo INLA (linha azul), MCMC (linha vermelha) e LB (linha cinza). A linha preta

refere-se aos valores reais.

43

somando-se e subtraindo-se dois desvios padrao as medias a posteriori das componentes αt

e βt. Ainda, observe-se que de fato o modelo ajustado pelo metodo LB difere do modelo

ajustado por MCMC e INLA, uma vez que, neste dois ultimos metodos, pressupos-se V (αt) =

V , V (βt) = W (fixas no tempo) e no metodo LB em contrapartida, tem-se V (αt) = Vt,

V (βt) = Wt, variando no tempo e especificadas por meio de fator de desconto δ1 = 0.95

e δ2 = 0.97, respectivamente. Uma outra diferenca essencial entre os metodos deve-se ao

fato de que o LB processa informacao em tempo real, produzindo inferencia a cada tempo t

condicionalmente a informacao disponıvel ate esse instante, Dt. Ja INLA e MCMC produzem

inferencia condicional a toda informacao disponıvel, Dt. Estes dois ultimos metodos produzem

inferencia completa para os estados (diferentemente do LB, em que tal inferencia resume-se

a primeiros e segundos momentos).

Tabela 3.2: Tempo computacionais necessarios para a convergencia dos diferentes metodos,

em minutos.

LB INLA MCMC

1 15 300

Os tempos computacionais necessarios para a convergencia do metodo MCMC podem ser

bastantes elevados, devido a autocorrelacao dos pararametros com variacao temporal, como se

muestra na tabela (3.2). A adocao do metodo INLA mostra-se, entao, computacionalmente

tao rapido quanto o metodo Linear Bayes, produzindo porem inferencias arbitrariamente

proximas daquelas obtidas via MCMC.

A figura 3.6 e a figura 3.7 apresenta as trajetorias dos valores observados yt (simulados)

junto a resposta media, λt e intervalos de credibilidade a posteriori de 95%, estimados

pelos metodos INLA e MCMC. A figura 3.7 apresenta as trajetorias dos metodos INLA e

MCMC respectivamente. Pode-se observar que a resposta media estimada acompanha bem

as flutuacoes da serie da variavel resposta por ambos metodos e que os valores teoricos da

funcao resposta media parecem ser capturados pelos intervalos de credibilidade a 95%.

A figura 3.8 mostra o histograma das amostras das distribuicoes preditivas um passo a

frente pelos metodos INLA e MCMC, a linha vertical vermelha corresponde ao valor verdadeiro

da variavel resposta. Ja a figura 3.9 apresenta a distribuicao preditiva um passo a frente com

44

0 500 1000 1500

05

10

15

20

25

Tempo

La

mb

da

_t

ArtificialMCMCINLA

Figura 3.6: Media a posteriori e intervalo de credibilidade de 95% para a resposta media λt

usando os metodo INLA (linha azul) e MCMC (linha vermelha) . A linha cinza refere-se aos

valores reais.

0 500 1000 1500

05

1015

2025

Tempo

Lam

bda_

t

INLAICArtificial

0 500 1000 1500

05

1015

2025

Tempo

Lam

bda_

t

MCMCICArtificial

Figura 3.7: Media a posteriori e intervalo de credibilidade de 95% para a resposta media

λt usando os metodos INLA (figura (a)) e MCMC (figura (b)). A linha preta refere-se aos

valores reais.

45

Den

sity

0 5 10 15

0.00

0.05

0.10

0.15

INLAvalor real

Den

sity

0 5 10 15

0.00

0.05

0.10

0.15 MCMC

valor real

Figura 3.8: Histogramas das amostras das distribuicoes preditivas um passo a frente usando

o metodo INLA (esquerda) e MCMC (direita). A linha vertical vermelha refere-se ao valor

real da variavel resposta.

Tempo

0 500 1000 1500

−5

05

1015

20

Figura 3.9: Media a posteriori e intervalo de credibildade para a predicao um passo a frente

junto a serie observada (linha preta) pelo metodo LB.

46

intervalos de credibilidade a 95%, junto aos valores observados para a serie artificial, pelo

metodo LB. Pode-se ver que o modelo foi capaz de capturar bastante bem as flutuacoes da

variavel resposta. O esquema de atualizacao em tempo real do metodo linear bayes permite

incorporacao de nova informacao e previsao a cada instante. Ja os metodos MCMC e INLA

produzem inferencia a posteriori com respeito a toda a serie observada. Os elevados tempos

computacionais em esquemas MCMC dificultam, a atualizacao de informacao para realizacao

de inferencia em tempo real. Adotando-se metodo INLA, entretanto, com baixıssimo tempo

computacional e possıvel incorporar novas informacoes, atualizando-se predicoes e obtendo-se

resultados muito proximos daquele fornecido pelo metodo MCMC, como se ve na figura 3.8.

47

Capıtulo 4

Aplicacoes com Dados Reais

Nesta secao, apresentamos duas aplicacoes de interesse no contexto de epidemiologia

ambiental. Na primeira aplicacao, secao 4.1, tratamos dos efeitos de poluicao atmosferica, em

particular do poluente monoxido de carbono, sobre o numero de obitos de criancas menores

de cinco anos, por doencas respiratorias, em Sao Paulo. Para modelagem do desfecho,

utiliza-se modelo Poisson e Poisson com inflacao de zeros. Como covariaveis, adota-se,

alem do poluente, variaveis climaticas (temperatura, umidade) e de calendario. Uma segunda

aplicacao apresentada na secao 4.2, trata dos nıveis de material particulado (PM10) na cidade

do Rio de Janeiro, usando como regressores variaveis climaticas, como a temperatura mınima

diaria e umidade relativa, com particular atencao centrada sobre o efeito do volume da chuva

sobre tais poluentes. Inicialmente consideramos como resposta o nıvel de material particulado,

descrito por um modelo Gama e em seguida, considera-se resposta dicotomica, com interesse

em analisar fatores associados a ultrapassagem de um limiar de seguranca no nıvel de material

particulado.

4.1 Efeito de Monoxido de Carbono sobre Obitos de

Criancas em Sao Paulo

Apresentamos aqui uma analise da relacao entre o numero diario (contagens) de obitos

de criancas menores de 5 anos por doencas respiratorias, e os nıveis do poluente atmosferico

48

Monoxido de Carbono, CO (ppm) e variaveis climaticas, temperatura mınima (oC) e umidade

relativa media (%), registrados na cidade de Sao Paulo, desde o primeiro de janeiro 1994 a 31

de dezembro 1997, medidos diariamente. Apresenta-se como valor diario a media aritmetica

sobre as oito estacoes de mensuracao disponıveis no banco de dados. Estas informacoes estao

bem documentadas em Alves (2006).

A figura 4.1 mostra a serie temporal de contagens diarias de obitos por doencas

respiratorias para criancas com idades inferiores a 5 anos, na cidade de Sao Paulo, no perıodo

de 1994 a 1997. Observe-se um claro comportamento sazonal com periodo anual e possui

grandes picos nos meses de julho, implicando o incremento de obitos durante o inverno, alem

de uma queda de tendencia do numero de obitos ao longo dos anos.

Tempo

Núm

ero

de Ó

bito

s

0 500 1000 1500

02

46

810

12

Figura 4.1: Contagem diaria de obitos de criancas menores de 5 anos em Sao Paulo nos anos

de 1994 a 1997.

A figura 4.2(a) apresenta a serie temporal de registros do poluente monoxido de carbono

(CO) na cidade de Sao Paulo, no perıodo de 1994 a 1997, observe-se que os meses de

inverno possuem altos picos o que significa alta concentracao de poluentes, eventualmente

ultrapassando o limite aceitavel (Alves 2006), ao igual que na figura 4.1 possui uma queda

de tendencia ao longo dos anos.

49

Tempo

CO

0 500 1000 1500

51

01

5

(a)

Tempo

Te

mp

era

tura

0 500 1000 1500

05

10

15

20

(b)

Tempo

Um

ida

de

0 500 1000 1500

50

60

70

80

90

(c)

Figura 4.2: Registros diario de concentracao de CO, temperatura mınima e umidade media

em Sao Paulo no perıodo 1994 a 1997.

50

A figura 4.2(b) e 4.2(c), exibe as series temporais da temperatura mınima e umidade

media na cidade de Sao Paulo. Note-se que no painel da esquerda (temperatura mımima)

que os meses de inverno possuem picos baixos, associados a maior concentracao da poluicao.

4.1.1 Formulacao do Modelo Proposto

A variavel de interesse e contagem diaria de obitos de criancas menores de 5 anos por

doencas respiratorias na cidade de Sao Paulo, sendo esta discreta com numero medio de

contagens baixo. E usual, no contexto epidemiologico adotar-se o modelo poisson para a

descricao do comportamento probabilıstico desse tipo de variavel. Nosso interesse e analisar

a associacao entre o numero diario de obitos e os nıveis do poluentes atmosfericos monoxido

de carbono (CO), ajustada pelas variaveis climaticas, como a temperatura e umidade, onde

o logaritmo da taxa media da distribuicao e relacionada com cada uma das covariaveis, nıvel

e efeitos sazonais anual (cos( 2πt365

) e sen( 2πt365

)), por meio de Modelos Dinamicos Lineares

Generalizados.

Alem da relacao do numero de obitos com os nıveis dos poluentes atmosfericos no dia

da ocorrencia, considera-se tambem a relacao atraves dos dias passados. A fim de propor

os modelos mais proximos da realidade, optamos por modelos com efeitos das covariaveis

defasados a dias anteriores a ocorrencia do numero de obitos. Portanto considere-se modelos

com efeitos de cada uma das covariaveis desfasados por dois, tres e dois dias anteriores a

observacao do numero de obitos para CO, temperatura e umidade, respectivamente.

Denote-se yt como o numero de obitos de criancas menores de 5 anos, no dia

t, t = 1, · · · , T com distribuicao poisson, yt ∼ Poisson(λt), e as covariaveis nıvel, CO,

temperatura, umidade e sasonalidade. Assim, a forma geral do modelo basico e representado,

Yt | λt ∼ Poisson(λt)

ηt = log(λt), (4.1)

em que o preditor linear ηt associado ao vetor de parametros, assume quinze diferentes

especificacoes, determinadas pela natureza dos parametros que variam no tempo atraves

51

de uma estrutura dinamica e estatica. A evolucao temporal dos parametros e um passeio

aleatorio, o que torna flexıveis os modelos. Em seguida, descrevemos os diferentes modelos.

Modelo 1: Modelo com nıvel dinamico.

log(λt) = ηt = αt + β1COt−2 + β2Tempt−3 + β3Umidt−2 + (4.2a)

β4Cos(2πt

365) + β5Sen(

2πt

365)

αt = αt−1 + vt, vt ∼ N [0, V ] (4.2b)

Modelo 2: Modelo com dinamica no coeficiente de CO.

log(λt) = ηt = α + β1tCOt−2 + β2Tempt−3 + β3Umidt−2 (4.3a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

β1t = β1,t−1 + ω1t, ω1t ∼ N [0,W1] (4.3b)

Modelo 3: Modelo com dinamica no coeficiente da temperatura.

log(λt) = ηt = α + β1COt−2 + β2tTempt−3 + β3Umidt−2 (4.4a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

β2t = β2,t−1 + ω2t, ω2t ∼ N [0,W2] (4.4b)

Modelo 4: Modelo com dinamica no coeficiente da umidade.

log(λt) = ηt = α + β1COt−2 + β2Tempt−3 + β3tUmidt−2 (4.5a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

β3t = β3,t−1 + ω3t, ω3t ∼ N [0,W3] (4.5b)

Modelo 5: Modelo com dinamica no nıvel e o coeficientes de CO.

log(λt) = ηt = αt + β1tCOt−2 + β2Tempt−3 + β3Umidt−2 (4.6a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

αt = αt−1 + vt, vt ∼ N [0, V ] (4.6b)

β1t = β1,t−1 + ω1t, ω1t ∼ N [0,W1] (4.6c)

52

Modelo 6: Modelo com dinamica no nıvel e o coefieciente da temperatura.

log(λt) = ηt = αt + β1COt−2 + β2tTempt−3 + β3Umidt−2 (4.7a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

αt = αt−1 + vt, vt ∼ N [0, V ] (4.7b)

β2t = β2,t−1 + ω2t, ω2t ∼ N [0,W2] (4.7c)

Modelo 7: Modelo com dinamica no nıvel e no coeficiente da umidade.

log(λt) = ηt = αt + β1COt−2 + β2Tempt−3 + β3tUmidt−2 (4.8a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

αt = αt−1 + vt, vt ∼ N [0, V ] (4.8b)

β3t = β3,t−1 + ω3t, ω3t ∼ N [0,W3] (4.8c)

Modelo 8: Modelo com dinamica nos coeficientes do CO e temperatura.

log(λt) = ηt = α + β1tCOt−2 + β2tTempt−3 + β3Umidt−2 (4.9a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

β1t = β1,t−1 + ω1t, ω1t ∼ N [0,W1] (4.9b)

β2t = β2,t−1 + ω2t, ω2t ∼ N [0,W2] (4.9c)

Modelo 9: Modelo com dinamica nos coeficientes do CO e umidade.

log(λt) = ηt = α + β1tCOt−2 + β2Tempt−3 + β3tUmidt−2 (4.10a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

β1t = β1,t−1 + ω1t, ω1t ∼ N [0,W1] (4.10b)

β3t = β3,t−1 + ω3t, ω3t ∼ N [0,W3] (4.10c)

Modelo 10: Modelo com dinamica nos coeficientes do temperatura e umidade.

53

log(λt) = ηt = α + βtCOt−2 + β2tTempt−3 + β3tUmidt−2 (4.11a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

β2t = β2,t−1 + ω2t, ω2t ∼ N [0,W2] (4.11b)

β3t = β3,t−1 + ω3t, ω3t ∼ N [0,W3] (4.11c)

Modelo 11: Modelo com dinamica no nıvel e nos coeficientes de CO e temperatura.

log(λt) = ηt = αt + β1tCOt−2 + β2tTempt−3 + β3Umidt−2 (4.12a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

αt = αt−1 + vt, vt ∼ N [0, V ] (4.12b)

β1t = β1,t−1 + ω1t, ω1t ∼ N [0,W1] (4.12c)

β2t = β2,t−1 + ω2t, ω2t ∼ N [0,W2] (4.12d)

Modelo 12: Modelo com dinamica no nıvel e nos coeficientes de CO e umidade.

log(λt) = ηt = αt + β1tCOt−2 + β2Tempt−3 + β3tUmidt−2 (4.13a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

αt = αt−1 + vt, vt ∼ N [0, V ] (4.13b)

β1t = β1,t−1 + ω1t, ω1t ∼ N [0,W1] (4.13c)

β3t = β3,t−1 + ω3t, ω3t ∼ N [0,W3] (4.13d)

Modelo 13: Modelo com dinamica no nıvel e nos coeficientes de temperatura e umidade.

log(λt) = ηt = αt + βtCOt−2 + β2tTempt−3 + β3tUmidt−2 (4.14a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

αt = αt−1 + vt, vt ∼ N [0, V ] (4.14b)

β2t = β2,t−1 + ω2t, ω2t ∼ N [0,W2] (4.14c)

β3t = β3,t−1 + ω3t, ω3t ∼ N [0,W3] (4.14d)

54

Modelo 14: Modelo com dinamica nos coeficientes de CO, temperatura e umidade.

log(λt) = ηt = α + β1tCOt−2 + β2tTempt−3 + β3tUmidt−2 (4.15a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

β1t = β1,t−1 + ω1t, ω1t ∼ N [0,W1] (4.15b)

β2t = β2,t−1 + ω2t, ω2t ∼ N [0,W2] (4.15c)

β3t = β3,t−1 + ω3t, ω3t ∼ N [0,W3] (4.15d)

Modelo 15: Modelo com dinamica no nıvel e nos coeficientes de CO, temperatura e

umidade.

log(λt) = ηt = αt + β1tCOt−2 + β2tTempt−3 + β3tUmidt−2 (4.16a)

+β4Cos(2πt

365) + β5Sen(

2πt

365)

αt = αt−1 + vt, vt ∼ N [0, V ] (4.16b)

β1t = β1,t−1 + ω1t, ω1t ∼ N [0,W1] (4.16c)

β2t = β2,t−1 + ω2t, ω2t ∼ N [0,W2] (4.16d)

β3t = β3,t−1 + ω3t, ω3t ∼ N [0,W3] (4.16e)

Com base na estrutura acima, composto de 1458 dados, dos quais 1443 foram utilizados

para estimacao do modelo e os outros 15 dados ficam para a avalicao preditiva.

4.1.2 Inferencia Bayesiana Utilizando INLA

Os modelos acima foram implementados usando o metodo INLA como descrito no capıtulo

3. Para as distribuicoes a priori dos hiperparametros foram usadas prioris nao informativas.

A estrutura dos quinze modelos tem a forma requerida da estrutura do metodo INLA. Nesta

secao descrevemos os modelos 1 e 11. Os outros modelos podem ser feitos por analogia.

Modelo 1: Nıvel Dinamico

O preditor linear ηt descrito pela equacao (4.2a) e com dinamica no nıvel ao longo do

tempo, dado pela equacao (4.2b). Neste caso, as quantidades a serem estimadas sao Ψ =

55

(α1, · · · , αT , β1, · · · , β5, V ), em que o parametro fixo e θ = V e o campo latente e definido

como x = (α1, · · · , αT , β1, · · · , β5). Assuma-se a priori para o hiperparametro θ = V ∼

GI(av, bv), sendo av, bv valores conhecidos. Usando as equacoes (4.2a) e (4.2b) temos que

a distribuicao a priori p(x|θ) e dado por:

p(x|θ) = p(α1)T∏t=2

p(αt|αt−1)5∏i=1

p(βi) (4.17a)

p(x|θ) ∝ exp

{−1

2xTQ(θ)x

}(4.17b)

Com isso temos (x|θ) ∼ N [0,Q(θ)−1], onde Q(θ) e a matriz de precisao, dada por

Q(θ) =

Q(V) 0 0 0 0 0

0 Qβ1β1 0 0 0 0

0 0 Qβ2β2 0 0 0

0 0 0 Qβ3β3 0 0

0 0 0 0 Qβ4β4 0

0 0 0 0 0 Qβ5β5

(T+5)×(T+5)

(4.18)

em que,

Q(V) =

R−11 + V −1 −V −1 0 · · · 0 0

−V −1 2V −1 −V −1 · · · 0 0

0 −V −1 2V −1 · · · 0 0

0 0 −V −1 · · · 0 0...

......

. . ....

...

0 0 0 · · · 2V −1 −V −1

0 0 0 · · · −V −1 V −1

T×T

(4.19)

Neste caso o log da funcao verossimilhanca associada ηt = log λt e:

log p(yt|ηt) ∝ −eηt + ytηt. (4.20)

56

Portanto, a aproximacao Gaussiana para a distribuicao condicional completa xt e dada

por


t=1 p(yt|xt,θ)p(xt|θ) (4.21)

∝ exp

−12xTQ(θ)x +

∑log p(yt|x,θ)︸︷︷︸g(xt)=g(ηt)

(4.22)

Modelo 11: Dinamica no nıvel e nos coeficientes de CO e temperatura

O preditor linear ηt descrito pela equacao (4.12a) e com dinamica descrita

pelas equacoes (4.12b) ate (4.12d). Neste caso, as quantidades a serem

estimadas sao Ψ = (α1, · · · , αT , β1,1, · · · , β1,T , β2,1, · · · , β2,T , β3, β4, β5, V,W1,W2), e

o parametro fixo e θ = (V,W1,W2) e o campo latente e definido como x =

(α1, · · · , αT , β1,1, · · · , β1,T , β2,1, · · · , β2,T , β3, β4, β5). Assuma-se que os hiperparametros θ

sao independentes e a distribuicao a priori para V,W1,W2 sera uma GI(av, bv), sendo av, bv

valores conhecidos. Usando as equacoes (4.12a) a (4.12d) temos que a distribuicao a priori

p(x|θ) e dada por:

p(x|θ) =p(α1)T∏t=2

p(αt|αt−1)p(β1,t)T∏t=2

p(β1,t|β1,t−1) (4.23a)

p(β2,t)T∏t=2

p(β2,t|β2,t−1)5∏i=3

p(βi)

p(x|θ) ∝ exp

{−1

2xTQ(θ)x

}(4.23b)

Com isso temos (x|θ) ∼ N [0,Q(θ)−1], onde Q(θ) e a matriz de precisao, dada por

57

Q(θ) =

Q(V) 0 0 0 0 0

0 Q(W1) 0 0 0 0

0 0 Q(W2) 0 0 0

0 0 0 Q(β3β3) 0 0

0 0 0 0 Q(β4β4) 0

0 0 0 0 0 Q(β5β5)

(3T+3)×(3T+3)

(4.24)

em que,

Q(V) =

R−11 + V −1 −V −1 0 · · · 0 0

−V −1 2V −1 −V −1 · · · 0 0

0 −V −1 2V −1 · · · 0 0

0 0 −V −1 · · · 0 0...

......

. . ....

...

0 0 0 · · · 2V −1 −V −1

0 0 0 · · · −V −1 V −1

T×T

(4.25)

e submatriz para para a presicao Wi com i = 1, 2, e

Q(Wi) =

R−12 +W−1

i −W−1i 0 · · · 0 0

−W−1i 2W−1

i −W−1i · · · 0 0

0 −W−1i 2W−1

i · · · 0 0

0 0 −W−1i · · · 0 0

......

.... . .

......

0 0 0 · · · 2W−1i −W−1

i

0 0 0 · · · −W−1i W−1

i

T×T

(4.26)

Neste caso a verossimilhanca associada ηt = log λt e:

log p(yt|ηt) ∝ −eηt + ytηt (4.27)

58

Portanto, a aproximacao Gaussiana para a distribuicao condicional completa xt e dado

por


t=1 p(yt|xt,θ)p(xt|θ) (4.28)

∝ exp

−12xTQ(θ)x +

∑log p(yt|x,θ)︸︷︷︸g(xt)=g(ηt)

(4.29)

4.1.3 Escolha do melhor Modelo

A implementacao computacional dos 15 modelos acima, foi feita usando a biblioteca

INLA, disponıvel no pacote R-INLA, na pagina http://www.r-inla.org, que deve ser instalado

no software R.

Para a escolha do melhor modelo foi usado o criterio DIC, utilizados em aplicacoes do

metodo INLA. O modelo que apresenta melhor ajuste ao dados sao aqueles que presentam

o menor valor. Na tabela (4.1), sao apresentados os valores obtidos para o criterio de

comparacao, DIC de cada um dos modelos estimados.

O melhor modelo, segundo o criterio DIC, e o modelo 1, com dinamica no nıvel.

59

Tabela 4.1: Comparacao de cada um dos modelos (especificacoes do preditor) ajustados para

o numero de obitos

Modelo Dinamica DIC

1 Nıvel 5331.4

2 Poluente 5441.6

3 Temperatura 5415.6

4 Umidade 5467.1

5 Nivel e Poluente 5337.1

6 Nivel e Temperatura 5338.9

7 Nivel e Umidade 5341.1

8 Poluente e Temperatura 5393.8

9 Poluente e Umidade 5434.7

10 Temperatura e Umidade 5415.1

11 Nivel, Poluente e temperatura 5344.4

12 Nivel, Poluente e Umidade 5347.6

13 Nivel, Temperatura e Umidade 5348.2

14 Poluente, Temperatura e Umidade 5408.4

15 Nivel,Poluente, Temperatura e Umidade 5354.0

60

4.1.4 Resultados para o Modelo 1: Dinamica no Nıvel

Como ja foi mencionado a implementacao deste modelo, preditor linear com dinamica no

nıvel, foi feita pela biblioteca INLA e apresentada no Apendice B.1.

Para a comparacao do metodo INLA com MCMC, o modelo com dinamica no nıvel,

tambem foi estimado via MCMC, como descrito no capıtulo (2) utilizando o software

WinBugs. Amostras a posterior no MCMC foram simuladas a partir de duas cadeias de

33000 iteracoes, sendo descartadas as primeiras 6000, denominado perıodo de aquecimento,

logo foi considerado um espacamento de 25 iteracoes. Assim, 1080 amostras foram deixados

para cada cadeia. Portanto, a amostra final e de 2160 para a obtencao das estimativas da

distribuicao a posteriori.

Tabela 4.2: Estimativas das distribuicoes a posteriori com intervalos de credibilidade a 95%

dos parametros estaticos.

INLA MCMC


β1 0.0142154 0.0525784 0.0905837 0.013688 0.0531 0.091782

β2 -0.1296084 -0.0746466 -0.0191963 -0.1323025 -0.074886 -0.017695

β3 -0.0297995 0.0077015 0.0453201 -0.0299445 0.0077052 0.0447915

β4 -0.2833013 -0.1713995 -0.0596559 -0.2949075 -0.1741129 -0.0689595

β5 -0.043985 0.0648599 0.1731649 -0.0278118 0.0780079 0.1728275

A tabela 4.2 mostra os resultados das estatısticas das distribuicoes a posteriori para os

parametros estaticos para o modelo Poisson com nıvel variando no tempo (modelo 1), e

figura 4.3 mostra os graficos das distribuicoes a posteriori para os parametros estaticos,

estimados pelos metodos INLA e MCMC, mostrando resultado muito semelhante com as duas

abordagens, mas o tempo computacional no INLA foi muito rapido (segundos) em compracao

a MCMC. Os coeficientes β1, β2, β4 sao significativamente diferentes de zero ao nıvel del 95%

de credibilidade. A estimativa para o coeficiente (β1) do monoxido de carbono (CO) e

significativo com efeito positivo sobre a taxa de obitos. O coeficiente (β2) da temperatura

mımima e significativa com efeito negativo sobre a variavel resposta, isto e, temperaturas

61

Bet

a1

−0.02 0.02 0.04 0.06 0.08 0.10 0.12

05

1015

20

INLAMCMC

Bet

a2

−0.15 −0.10 −0.05 0.00

02

46

810

1214 INLA

MCMCB

eta3

−0.06 −0.02 0.02 0.04 0.06 0.08

05

1015

20

INLAMCMC

Bet

a4

−0.35 −0.25 −0.15 −0.05

01

23

45

67 INLA

MCMC

Bet

a5

−0.1 0.0 0.1 0.2

02

46

INLAMCMC

Figura 4.3: Aproximacoes das distribuicoes a posteriori e intervalos de credibilidade a 95% para

os parametros estaticos do modelo Poisson com nıvel variando no tempo estimados pelos metodos

INLA (linha azul) e MCMC (histograma, cor preto). A linha azul vertical pontilhada e os pontos

pretos sao os intervalo de credibilidade do INLA e MCMC, respectivamente.

62

baixas estao associadas a maior numero de obitos, como ja esperado. Apesar de a estimativa

do coeficiente (β3) da umidade nao ser significativo, pode-se considerar com efeito positivo

com probabilidade a posteriori de aproximadamente de 91.2%.

Para se obter o risco relativo da estimativa obtida para o monoxido de carbono, basta

exponenciar os valores da a posteriori para β1, obtendo-se 1.054 o que siginifica que o

risco relativo associado a uma elevacao de um desvio padrao no nıvel de CO provocaria

um acrescimo de 5.4% na taxa de obitos; sendo o intervalo de credibilidade de 95%,

[1.014317, 1.094813].

0 500 1000 1500

0.2

0.4

0.6

0.8

1.0

1.2

1.4

Tempo

Niv

el_

t

INLAMCMC

Figura 4.4: Media a posteriori e intervalos de credibilidade de 95% para a componente αt (Nıvel).

A linha azul refera-se ao metodo INLA e a vermelha a MCMC.

A Figura 4.4 apresenta o nıvel do preditor linear, pelos metodos INLA e MCMC,

acompanham os valores observados da resposta. Pode-se observar que o nıvel capta a

tendencia da variavel resposta (numero de obitos) ao longo dos anos.

A figura 4.5 mostra a aproximacao da distribuicao a posteriori da marginal V −1, e os

resultados sao apresentados na tabela 4.3, observa-se que ambos metodos fornecem resultados

equivalentes.

63

1/V

Den

sity

500 1000 1500 2000

0.00

000.

0005

0.00

100.

0015

INLAMCMC

Figura 4.5: Distribuicao a posteriori marginal para o hiperparametro V −1 e intervalos de

credibilidade de 95%. A linha azul refera-se ao metodo INLA e o Histograma ao metodo MCMC.

Tabela 4.3: Estimativas das distribuicoes a posteriori com intervalos de credibilidade a 95% do

hiperparametro V.

INLA MCMC


V −1 556.4787 1012.709 1679.086 585.185 998.0053 1559

A figura 4.6 mostra a serie do numero de obitos ao lado da serie da resposta media, λt

(taxa de obitos) pelos dois metodos INLA e MCMC. Observa-se que o modelo acompanha o

comportamento do numero de obitos.

A distribuicao preditiva nos fornece as previsoes para horizontes futuros. A figura 4.7

64

0 500 1000 1500

02

46

810

12

Tempo

Lam

bda_

t

ObservadoMCMC e ICINLA e IC

Figura 4.6: Media a posteriori para a resposta media, λt com intervalo de credibilidade de 95%.

Numero de obitos (linha preta). Refera-se ao metodo INLA (linha azul) e MCMC (linha vermelha).

mostra o grafico de barras das amostras das distribuicoes preditiva dos 15 dias finais que

foram reservados, obtidas pelo metodo INLA. As linhas verticais vermelhas de cada grafico

de barras indicam o numero de obitos observados em cada um desses dias. Intervalos de

predicao a 95% capturam os reais valores observados.

Por outra lado, observou-se que os dados contem varios dias com contagens nulas

e a adocao de um modelo Poisson pode ser questionada. Portanto, uma alternativa e

realizar um ajuste que contemple o excesso de zeros, sendo comum utilizar o modelo

com distribuicao Poisson inflacionada de zeros (ZIP) (Fernandes 2006). Na abordagem

INLA temos duas propostas da distribuicao Poisson inflacionada de zeros (ZIP): inflacao

de zeros de tipo 0 e inflacao de zeros de tipo 1 (http://www.math.ntnu.no/inla/r-

inla.org/doc/likelihood/zeroinflated.pdf.), dada por

tipo 0: p(y|...) = p× 1y=0 + (1− p)Poisson (y|y > 0).

tipo 1: p(y|...) = p× 1y=0 + (1− p)Poisson(y).

65

0 2 4 6

1

0100

200300

0 2 4 6

2

0100

200300

0 2 4 6

3

050

100150

200250

300350

0 2 4 6

4

050

100150

200250

300350

0 2 4 6

5

050

100150

200250

300350

0 2 4 6

6

050

100150

200250

300350

0 2 4 6

7

050

100150

200250

300350

0 2 4 6

8

050

100150

200250

300

0 2 4 6

9

050

100150

200250

300350

0 2 4 7

10

050

100150

200250

300350

0 2 4 6

11

050

100150

200250

300350

0 2 4 6

12

050

100150

200250

300350

0 2 4 6

13

050

100150

200250

300350

0 2 4 6

14

050

100150

200250

300

0 2 4 6

15

050

100150

200250

300350

Figura 4.7: Grafico de barra das amostras das ditribuicoes preditivas para o numero de obitos, para

dados reais de acordo com o modelo Poisson, com horizontes variando de 1 a 15

66

A implementacao destas duas propostas de inflacao de zeros para o melhor modelo do

contagens de obitos (modelo 1: Nıvel mudando no tempo), sao apresentadas no Apendice

B.2 e B.3.

Para comparar estas tres famılias (Poisson tradicional, distribuicao Poisson inflacionada

de zeros (ZIP): tipo 0 e tipo 1) usamos o erro quadratico medio (EQM) de predicao, para

os ultimos 15 dias disponıveis. Os resultados do erro quadratico medio associado ao modelo

Poisson tradicional e de 18.67, correspondente a um erro relativo medio de 27.8%. O erro

quadratico medio do modelo com inflacao de zeros do tipo 0 resultou em 19.22 e erro relativo

medio de 30%. Ja erro quadratico medio para inflacao de zeros do tipo 1 e = 18.70 e

erro relativo medio 27.98%. Como se pode ver os EQM preditivos para as tres abordagens

apontam uma ligeira vantagem do modelo Poisson tradicional, em relacao aos demais.

67

4.2 Efeito de Chuva sobre Nıveis de material Particulado

no Rio de Janeiro

Pode haver interesse, no contexto de epidemiologia ambiental, em modelos para explicacao

de nıveis de poluicao, ja que frequentemente ha observacoes faltantes nesse tipo de dado. Tais

modelos podem ser utilizados como um nıvel hierarquico para modelos que objetivem explicar

contagens epidemiologicas. Ainda, pode-se ter interesse na modelagem de desfechos contınuos

e estritamente positivo (por exemplo, nıvel de um poluente) ou binarios (ultrapassagem ou nao

de certo limite de seguranca para a saude). Todas essas aplicacoes podem ser acomodadas

pela classe de modelos dinamicos lineares generalizados e estas sob a forma de um modelo

de campo gaussiano markoviano latente.

Portanto, a metodologia INLA pode-se mostrar bastante util a implementacao de

inferencia bayessiana nesse contexto. Apresentamos a seguir, a tıtulo de ilustracao dois

modelos: uma em que se modela o nıvel de certo poluente atmosferico em funcao de variaveis

climaticas e de calendario e, em seguida, um segundo modelo em que adotamos como resposta

a variavel indicadora de que o nıvel desse poluente ultrapasse um limite de seguranca para a

saude.

4.2.1 Descricao dos Dados

Apresentamos aqui um analise da relacao entre o nıveis do poluente material particulado

(PM10) e variaveis climaticas, temperatura mınima e umidade media e ainda utilizam-se

variaveis indicadoras de dia da semana, tomando como base o domingo, e tendo especial

atencao a propagacao do efeito de volumes de chuva sobre os nıveis do poluente, registrados

na cidade do Rio de Janeiro, desde o primeiro de setembro de 2000 a 31 de agosto de 2002,

medidos diariamente. Apresenta-se como valor diario a media aritmetica sobre as diferentes

estacoes de mensuracao disponıveis no banco de dados. Segundo informacoes colhidas no sıtio

da Companhia de Tecnologia de Saneamento Ambiental (CETESB), o material particulado e

um conjunto de poluentes constituıdos de poeiras, fumacas e todo tipo de material solido e

lıquido que se mantem suspenso na atmosfera por causa de seu pequeno tamanho. O tamanho

68

das partıculas esta diretamente associado ao seu potencial para causar problemas a saude,

sendo que quanto menores, maiores os efeitos provocados. As partıculas inalaveis (PM10)

sao definidas como aquelas cujo diametro aerodinamico e menor que 10µm. Dependendo

da distribuicao de tamanho (0 a 10 µm), podem ficar retidas na parte superior do sistema

respiratorio ou penetrar mais profundamente, alcancando os alveolos pulmonares. Nesta

aplicacao consideram-se o material particulado, PM10.

Na figura 4.8 exibe-se a serie temporal das concentracoes medias diarias de PM10 (µg/m3)

e as outras tres series mostram volume de chuva, temperatura mınima e umidade media, na

cidade de Rio de Janeiro, no perıodo de primeiro de setembro de 2000 ao 31 de agosto de

2002.

69

0 100 200 300 400 500 600 700

2040

6080

100

120

140

Tempo

PM

0 100 200 300 400 500 600 700

020

4060

80

Tempo

Chuv

a

0 100 200 300 400 500 600 700

1618

2022

2426

Tempo

Temp

eratur

a míni

ma

0 100 200 300 400 500 600 700

6065

7075

8085

9095

Tempo

Umida

de m

édia

Figura 4.8: Serie de Nıveis diarios de PM10(µg/m3) e variaveis meteorologicas no Rio de Janeiro,

no perıodo de Setembro de 2000 a Agosto de 2002.70

4.2.2 Modelo Gama

Denote-se por Yt o nıvel de material particulado (PM10) como a variavel a ser explicada

no dia t, t = 1, · · · , T com distribuicao Gama, Yt ∼ Gama(ϕ, λt) e como regressoras,

nıvel padronizado de chuva, nıvel padronizado de temperatura mınima, nıvel padronizado de

umidade e indicadoras de dia da semama e feriado.

O preditor linear ηt associado ao vetor de parametros com nıvel dinamico e parametros

estaticos. Para evolucao temporal do nıvel, assume-se um passeio aleatorio. Portanto, o

modelo ajustado segue a seguinte estrutura:

Yt ∼ Gama(ϕ, λt) (4.30a)

log(ϕ

λt) = ηt = αt + β1Chuva+ β2Temp+ β3Umid+ β4Seg + β5Ter +

β6Qua+ β7Qui+ β8Sex+ β9Sab+ β10Fer (4.30b)

em que,

αt = αt−1 + vt, vt ∼ N [0,V] (4.31)

4.2.3 Resultados do modelo

A implementacao deste modelo, preditor linear com dinamica no nıvel, foi feita pela

biblioteca INLA e apresentada no Apendice C.1.

A figura 4.9 mostra as distribuicoes a posterioris marginais dos parametros estaticos para o

modelo Gama com nıvel variando no tempo, e tabela 4.4 mostra os resultados das estatısticas


Observe-se que todas as estimativas para os coeficientes sao significativamente diferentes

de zero. As estimativas dos dias da semana crescem a medida em que se aproxima a sexta-

feira e decresce no sabado, como se exibe na figura 4.10, isto pode ser pelo trafego de veıculos

e atividades industriais nos dias da semana. Ja feriados tem efeito negativo, provavelmente

devido a reducao de atividades industriais e trafego de veıculos. O efeito da chuva (β1), e

negativo, o que indica decrescimo nos nıveis de PM10 em funcao de aumento nos volumes

de chuva. A chuva ”limpa a atmosfera”, ao depositar partıculas no solo, entao em dias de

chuva e dias subsequentes, espera-se menos material particulado no ar. A temperatura media

apresenta efeito positivo (β2) e a estimativa do efeito da umidade media (β3) e negativo.

71

−0.06 −0.04 −0.02 0.00

010

2030

40

Beta.Chuva

0.05 0.10 0.15 0.20

05

1015

20

Beta.Temp

−0.12 −0.10 −0.08 −0.06 −0.04 −0.02

010

2030

40

Beta.Umid

0.00 0.05 0.10 0.15 0.20

05

1015

Beta.Seg

0.05 0.10 0.15 0.20 0.25

05

1015

Beta.Ter

0.10 0.15 0.20 0.25 0.30

05

1015

Beta.Qua

0.10 0.15 0.20 0.25 0.30

05

1015

Beta.Qui

0.10 0.15 0.20 0.25 0.30 0.35

05

1015

Beta.Sex

0.00 0.05 0.10 0.15 0.20

05

1015

Beta.Sab

−0.25 −0.15 −0.05 0.05

02

46

810

Beta.Feriado

Figura 4.9: Aproximacoes das distribuicoes a posteriori e intervalos de credibilidade a 95% para os

parametros estaticos do modelo Gama com nıvel variando no tempo. A linha vertical pontilhada

sao os intervalo de credibilidade.

72



Media e.p ICI Mediana ICS

ϕ 35.9606 4.29025 28.0649 35.7944 44.9050

β1 -0.0257 0.0083 -0.0419 -0.0257 -0.0093

β2 0.1321 0.0204 0.0918 0.1321 0.1720

β3 -0.0717 0.0101 -0.0916 -0.0717 -0.0519

β4 0.1048 0.0241 0.0574 0.1048 0.1522

β5 0.1591 0.0254 0.1092 0.1591 0.2090

β6 0.1922 0.0258 0.1415 0.1922 0.2429

β7 0.1980 0.0258 0.1473 0.1980 0.2486

β8 0.2208 0.0254 0.1708 0.2208 0.2707

β9 0.1053 0.0242 0.0579 0.1053 0.1527

β10 -0.0898 0.0360 -0.1601 -0.0899 -0.0189

−0

.10

.00

.10

.20

.3

Se

g

Ter

Qu

a

Qu

i

Sex

Sa

b

Fe

r

Figura 4.10: Media a posteriori e intervalos de credibilidade de 95% para os parametros estaticos

dos dias da semana comparados ao domingo do modelo Gama

73

O risco relativo associado a variacoes no nıvel da chuva e 0.98 o que siginifica que o risco

relativo associado a um aumento de um desvio padrao no nıvel de chuva provocaria uma

reducao de 2% no nıvel de material particulado; sendo o intervalo de credibilidade de 95%,

[0.9589657, 0.9907431].

0 100 200 300 400 500 600 700

3.0

3.5

4.0

4.5

Tempo

Niv

el(a

lpha

_t)


100 200 300 400

0.000

0.004

0.008

0.012

1/V


credibilidade de 95%.

74

A Figura 4.11 apresenta o nıvel do preditor linear. Pode-se observar que a serie capta a

tendencia da variavel resposta ao longos dos anos. A figura 4.12 mostra a aproximacao

da distribuicao a posteriori da marginal V −1. A tabela 4.5 apresenta as estatısticas do

hiperparametro.


hiperparametro V −1.

Media e.p. ICI Mediana ICS

V −1 117.78621 32.704912 68.14643 112.81178 195.49330

A figura 4.13 mostra a serie do material particulado ao lado da serie da resposta

media µt, com intervalo de credibilidade de 95%. Observe-se que o modelo acompanha

o comportamento da serie do PM10.

0 100 200 300 400 500 600 700

20

40

60

80

10

01

20

14

0

Tempo

y vs

mu

_t

Figura 4.13: Nıveis do material particulado (lihna cinza) e a funcao da resposta media, µt (linha

preta) com intervalo de credibilidade de 95% (linha tracejada).

A figura 4.14 mostra os histogramas das amostras das distribuicoes preditiva para os nıveis

de material particulado dos 15 dias finais do perıodo. As linhas verticais vermelhas de cada

histograma indicam os valores reais observados em cada um desses dias. Pode-se observar

que quase todas as distribuicoes preditivas contemplam os valores observados.

75

1

Density

40 80 120

0.0000.005

0.0100.015

0.0200.025

2

Density

20 60 100

0.0000.005

0.0100.015

0.0200.025

3

Density

40 80 140

0.0000.005

0.0100.015

0.0200.025

4

Density

50 150

0.0000.005

0.0100.015

5

Density

50 150

0.0000.005

0.0100.015

6

Density

50 150

0.0000.005

0.0100.015

7

Density

50 150

0.0000.005

0.0100.015

8

Density

50 150

0.0000.005

0.0100.015

9

Density

50 150

0.0000.005

0.0100.015

0.020

10

Density

0 100 200

0.0000.005

0.0100.015

11

Density

0 100 200

0.0000.005

0.0100.015

12

Density

50 150 250

0.0000.002

0.0040.006

0.0080.010

0.012

13

Density

50 150 250

0.0000.002

0.0040.006

0.0080.010

0.012

14

Density

50 200

0.0000.002

0.0040.006

0.0080.010

0.012

15

Density

0 100 200

0.0000.005

0.0100.015

Figura 4.14: Histogramas das amostras das ditribuicoes preditivas para nıvel de material particulado

do modelo Gama, com horizontes variando de 1 a 15. As linhas verticais sao os valores reais

observado.

76

4.2.4 Modelo Bernoulli

Denote-se Yt a variavel a ser explicada como a indicadora de que o nıvel de material

particulado ultrapassou o limite recomendado pela CETESB como seguro a saude (PM10 >

50µg/m3); isto e que a qualidade do ar e regular, o que significa que pessoas de grupos

sensıveis (criancas, idosos e pessoas com doencas respiratorias e cardıacas) podem apresentar

sintomas como tosse seca e cansaco. A populacao, em geral, nao e afetada.

Portanto, Yt ∼ Bernoulli(pt), com t, t = 1, · · · , T e como regressoras: nıvel padronizado

de chuva, nıvel padronizado de temperatura mınima, nıvel padronizado de umidade e

indicadoras de dia da semama e feriado. O preditor linear ηt esta associado ao vetor de

parametros com nıvel dinamico e demais parametros estaticos.

Portanto o modelo ajustado segue a seguinte estrutura:

Yt ∼ Binomial(1, pt) (4.32a)

log(pt

1− pt) = ηt = αt + β1Chuva+ β2Temp+ β3Umid+ β4Seg + β5Ter +

β6Qua+ β7Qui+ β8Sex+ β9Sab+ β10Fer (4.32b)

em que a evolucao temporal do nıvel e um passeio aleatorio.

αt = αt−1 + vt, vt ∼ N [0,V] (4.33)

4.2.5 Resultados do modelo

Para a implementacao do modelo, usamos a biblioteca INLA e apresentada no Apendice

C.2. A figura 4.15 mostra as distribuicoes a posteriori marginais dos parametros estaticos

para o modelo Bernoulli com nıvel variando no tempo, e tabela 4.6 mostra os resultados das

estatısticas dos parametros estaticos.

Observa-se que os efeitos dos parametros das distribuicoes a posteriori sao

significativamente diferentes de zero; exceto as segundas-feira (β4) e sabados (β9).

Novamente as estimativas dos dias da semana crescem a medida em que se aproxima a

sexta-feira e decrescem no sabado, como se exibe na figura 4.16, isto pode ser pelas diferentes

atividades industriais, trafego de veıculos nos dias da semana, ja o feriado tem efeito negativo,

77

−1.0 −0.5 0.0 0.5

0.00.5

1.01.5

2.02.5

3.0

Beta.Chuva

0.5 1.0 1.5 2.0

0.00.5

1.01.5

2.02.5

Beta.Temp

−1.4 −1.2 −1.0 −0.8 −0.6 −0.4 −0.2

01

23

4

Beta.Umid

−1 0 1 2

0.00.2

0.40.6

0.81.0

Beta.Seg

−1 0 1 2 3

0.00.2

0.40.6

0.81.0

Beta.Ter

−1 0 1 2 3

0.00.2

0.40.6

0.81.0

Beta.Qua

0 1 2 3

0.00.2

0.40.6

0.81.0

Beta.Qui

0 1 2 3 4

0.00.2

0.40.6

0.81.0

Beta.Sex

−1 0 1 2

0.00.2

0.40.6

0.81.0

1.2

Beta.Sab

−4 −3 −2 −1 0 1 2

0.00.2

0.40.6

0.8

Beta.Feriado

Figura 4.15: Aproximacoes das distribuicoes a posteriori e intervalos de credibilidade a 95% para os

parametros estaticos do modelo Bernoulli com nıvel variando no tempo. A linha vertical pontilhada

sao os intervalo de credibilidade.

78


dos parametros estaticos para o modelo Bernoulli.

Media Sd ICI Mediana ICS

β1 -0.2888031 0.1310572 -0.55602824 -0.2853235 -0.04103419

β2 1.1992542 0.1471949 0.92054531 1.1957534 1.49772529

β3 -0.8431380 0.1032854 -1.05254980 -0.8407065 -0.64733609

β4 0.5775461 0.3468859 -0.09876125 0.5760566 1.26239545

β5 1.2286691 0.3588336 0.53377010 1.2253947 1.94213943

β6 1.2314627 0.3617086 0.53084082 1.2282191 1.95048542

β7 1.3654385 0.3575843 0.67317938 1.3621016 2.07661565

β8 1.5402010 0.3644277 0.83574698 1.5364285 2.26601823

β9 0.6257250 0.3406822 -0.03849647 0.6242737 1.29827086

β10 -1.0257493 0.4570002 -1.93256933 -1.0221242 -0.13972123

pois tais atividades diminuem. O efeito da chuva (β1) e negativo, o que indica decrescimo na

probabilidade de ultrapassagem do nıvel de seguranca de PM10 em funcao de aumentos dos

volumenes de chuva.

A estimativa da razao de chances associado a um incremento c sobre os nıveis da chuva,

(β1), segue a razao de chances associado a um desvio padrao (c = 1) no nıvel de chuva

provocaria uma reducao de 24.34% no nıvel na chance; com intervalo de credibilidade de

95%, [0.5734823, 0.9597963].

A Figura 4.17 apresenta o nıvel do preditor linear. Pode ser observado que a serie

acompanha a tendencia da funcao de resposta media ao longos dos anos. A figura 4.18

mostra a aproximacao da distribuicao a posteriori da marginal do hiperparametro (V −1). A

tabela 4.7 apresentam as estatısticas do hiperparametros.

A figura 4.19 apresenta a resposta media do material particulado com intervalo de

credibilidade de 95%. Observa-se que o modelo acompanha o comportamento da serie do

PM10. Adotando-se o modelo ajustado e classificando-se como dia de ultrapassagem do

limite de seguranca aquele em que pt > 0.50, pt a media a posteriori de pt. Comparando-se

tal classificacao a real situacao de cada dia, pode-se avaliar a sensibilidade e a especificidade

79

−2−1

01

23

Seg

Ter

Qua

Qui

Sex

Sab

Fer

Figura 4.16: Media a posteriori e intervalos de credibilidade de 95% para os parametros estaticos

dos dias da semana comparados ao domingo do modelo Bernoulli


hiperparametro V −1

Media e.p. ICI Mediana ICS

V −1 11.15328 6.020395 3.637271 9.812335 26.44925

80

0 100 200 300 400 500 600 700

−4−2

02

4

Tempo

Niv

el


0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

1/V


credibilidade de 95%.

81

do procedimento de classificacao. Os erros de classificacao sao exibidos na figura 4.20. A

sensibilidade e a probabilidade de classificar como ultrapassagem, dado que ultrapassou e foi

igual a 93% e especifidade e definida como classificacao como nao ultrapassagem, dado que

nao ultrapassou com 87.5%. A taxa glovbal de acertos foi de 80%.

0 100 200 300 400 500 600 700

0.0

0.2

0.4

0.6

0.8

1.0

Tempo

p_t

Figura 4.19: Estimativa da media a posteriori (linha preta) com intervalo de credibilidade de 95%

(linha tracejada) para o modelo Bernoulli.

A figura 4.22 mostra o grafico de barras das amostras das distribuicoes preditiva para os

nıveis de material particulado dos 20 dias finais do perıodo de analises. As linhas verticais

vermelhas de cada uma das barras indicam os valores reais observados em cada um desses

dias, percebe-se que quase todas as distribuicoes preditivas estam centradas em torno dos

valores observados. A figura 4.21 mostra a media a posteriori e intervalos de credibilidade de

95% da distribuicao preditiva.

82

0 100 200 300 400 500 600 700

−1.

0−

0.5

0.0

0.5

1.0

Tempo

erro

Figura 4.20: Erro de classificacao do modelo Bernoulli, para cada dia do perıodo de observacao

690 700 710 720 730

0.2

0.4

0.6

0.8

1.0

Tempo

p_t

Figura 4.21: Intervalo de credibilidade de 95% (linha tracejada vermelha) e media a posteriori da

distribuicao preditiva (linha vermelha). A linha cinza refere-se aos valores observados.

83

0 1

1

0200

400600

800

0 1

2

0200

400600

8001000

0 1

3

0200

400600

8001000

0 1

4

0200

400600

800

0 1

5

0200

400600

800

0 1

6

0200

400600

800

0 1

7

0200

400600

800

0 1

8

0200

400600

800

0 1

9

0200

400600

8001000

0 1

10

0200

400600

800

0 1

11

0200

400600

800

0 1

12

0200

400600

800

0 1

13

0200

400600

800

0 1

14

0200

400600

0 1

15

0200

400600

800

0 1

16

0200

400600

800

0 1

17

0200

400600

800

0 1

18

0200

400600

8001000

0 1

19

0200

400600

800

0 1

20

0100

200300

400500

600700

Figura 4.22: Modelo Bernoulli: Grafico de barras das amostras das distribuicoes preditivas do

ultrapassagem do limiar de seguranca de PM10, com horizontes variando de 1 a 20. As linhas

verticais vermelhas sao os valores reais observado.

84

Capıtulo 5

Conclusoes

Esta dissertacao comeca descrevendo metodos de aproximacao para realizar inferencia

Bayesiana de modelos dinamicos com estrutura observacional pertencente a familia

exponencial. Dentre os metodos de aproximacao de inferencia, estao os metodos de

aproximacao LB, MCMC e INLA, descrito no Capıtulo 2 e Capıtulo 3. Esta dissertacao

foca na comparacao destes metodos.

Uma ilustracao de aplicacao dos metodos de aproximacao: Linear Bayes, MCMC e INLA

em um modelo Poisson dinamico com dados simulados foi apresentada. Uma questao

importante da comparacao entre os tres metodos e que de fato o modelo ajustado pelo

metodo LB difere do modelo ajustado por MCMC e INLA, uma vez que, neste dois ultimos

metodos, pressupos-se variancia fixas no tempo e no metodo LB em contrapartida, tem-se,

variando no tempo e especificadas por meio de fator de desconto. Outra diferenca essencial

entre os metodos deve-se ao fato de que o LB processa informacao em tempo real, produzindo

inferencia a cada tempo t condicionalmente a informacao disponıvel ate esse instante, Dt. Ja

INLA e MCMC produzem inferencia condicional a toda informacao disponıvel, Dt. Embora

estes dois ultimos metodos produzam inferencia completa para os estados (diferentemente do

LB, em que tal inferencia resume-se a primeiros e segundos momentos).

Os tempos computacionais necessarios para a convergencia do metodo MCMC podem

ser bastante elevados, devido a autocorrelacao dos pararametros com variacao temporal. A

adocao do metodo INLA mostra-se, entao, computacionalmente rapido quanto o metodo

Linear Bayes, produzindo porem inferencias arbitrariamente proximas daquelas obtidas via

85

MCMC. Este ultimo metodo continua sendo um abordagem mais flexıvel, praticamente

qualquer modelo pode ser ajustado usando MCMC, alem disso a documentacao e exemplos

e mais extensa para os modelos.

O Capıtulo 4 apresenta duas aplicacoes com dados reais usando os metodos MCMC e

INLA, a primeira aplicacao, trata do efeito do poluentes sobre o numero de obitos de criancas

menores de cinco anos por doencas respiratorias, na cidade de Sao Paulo e na segunda trata

dos nıveis de material particulado em funcao de variaveis climaticas e de calendario, na cidade

do Rio de Janeiro, adotando-se os modelos Gama e Bernoulli. Esta ultima com interesse em

analisar fatores associados a ultrapassagem de um limiar de seguranca no nıvel de material

particulado.

Como trabalhos futuros, poderıamos considerar a modelagem da propagacao de efeitos de

uma regressora sobre a resposta esperada ou, ainda, considerar estruturas espaco-temporais

no preditor.

86

Apendice A

Codigos Usados para Dados Artificiais

A seguir, tem-se os codigo utilizados pelos metodos de aproximacao para dados artificiais

para ajustar o modelo com dois covariaveis para dados simulados no capıtulo 3.

A.1 Codigo usado pelo metodo Linear Bayes

#########################################################

#modelo :

# y_t|lambda_t ~ poisson(lambda_t)

# eta_t=log(lambda_t)=alpha_t + beta_t*CO, F_t=(1,CO)

# alpha_t = alpha_{t-1} + v_t, v_t ~ (0, V_t)

# beta_t = beta_{t-1} + w_t,w_t ~ (0, W_t)

#########################################################

phi<-1 #parametro de escala da familia exponencial

d=2 #ncol(matrizdados)-1 # 5 dim. do vetor parametrico

T=n #nrow(matrizdados) #1458 comprimento da serie temporal

yt<-y

G = diag(d)

m0 = matrix(ncol=1, rep(0,d))

C0 =2*diag(d) # 2*diag(d)

vetdes<-c(0.95,0.97) # c(0.92,0.97)

87

B<-diag(1/sqrt(vetdes))

#Inicializando a dimens~ao das matrizes

mt=matrix(ncol=T,nrow=d)

Rt=array(rep(diag(d),T),dim=c(d,d,T))

ft=matrix(nrow=T,ncol=1)

pred=icl.pred=icu.pred=ft

pred.aj=hh=icl=icu=qt=rt=rtp=gtp=zt=ztp=gt=pt=ft

at=St=mt

Ct=Rt

# et=ft

at[,1]=G%*%m0

Rt[,,1]=B%*%G*C0*t(G)%*%B

ft[1]=t(F[1,])%*%at[,1]

St[,1]=Rt[,,1]%*%F[1,]

qt[1]=t(F[1,])%*%St[,1]

rt[1]=1/qt[1]

zt[1]=exp(-ft[1])/qt[1]

# a posteriori

rtp[1]=rt[1]+yt[1]

ztp[1]=zt[1]+1

gt[1]=log(rtp[1]/ztp[1])+1/(2*rtp[1])

pt[1]=(2*rtp[1]-1)/(2*rtp[1]^2)

# atualizac~ao

mt[,1]=at[,1]+St[,1]*(gt[1]-ft[1])/qt[1]

Ct[,,1]=Rt[,,1]-St[,1]%*%t(St[,1])*(1-pt[1]/qt[1])/qt[1]

pred[1]<-rt[1]/ zt[1]

var.pred<-rt[1]*(zt[1]+1)/(zt[1])^2

icl.pred[1]<-pred[1]-2*sqrt(var.pred)

icu.pred[1]<-pred[1]+2*sqrt(var.pred)

for(t in 2:T){

88

at[,t]=G%*%mt[,t-1]

Rt[,,t]=B%*%G*Ct[,,t-1]*t(G)%*%B

ft[t]=t(F[t,])%*%at[,t]

St[,t]=Rt[,,t]%*%F[t,]

qt[t]=t(F[t,])%*%St[,t]

rt[t]=1/qt[t]

zt[t]=exp(-ft[t])/qt[t]

rtp[t]=rt[t]+yt[t]

ztp[t]=zt[t]+1

gt[t]=log(rtp[t]/ztp[t])+1/(2*rtp[t])

pt[t]=(2*rtp[t]-1)/(2*rtp[t]^2)

mt[,t]=at[,t]+St[,t]*(gt[t]-ft[t])/qt[t]

Ct[,,t]= Rt[,,t]- St[,t]%*%t(St[,t]) *

(1 -pt[t]/qt[t])/qt[t]

pred[t]<-rt[t]/ zt[t]

var.pred<-rt[t]*(zt[t]+1)/(zt[t])^2

icl.pred[t]<-pred[t]-2*sqrt(var.pred)

icu.pred[t]<-pred[t]+2*sqrt(var.pred)

icl.ct1<-sqrt(Ct[1,1,])

list(mt[,t],diag(Ct[,,t]))

}

89

A.2 Codigo usado em WinBUGS

#########################################################

#modelo :





#########################################################

model

alfa[1]~dnorm(b1,tau1)

beta[1]~dnorm(b2,tau2)

lnlambda[1]<- alfa[1]+ beta[1]*x[1]

lambda[1] <- exp(lnlambda[1])

y[1] ~ dpois(lambda[1])

y.rep[1] ~ dpois(lambda[1])

for(i in 2:1443){

alfa[i]~dnorm(alfa[i-1], tau1)

beta[i]~dnorm(beta[i-1], tau2)

lnlambda[i]<- alfa[i] + beta[i]*x[i]

lambda[i] <- exp(lnlambda[i])

y[i] ~ dpois(lambda[i])

y.rep[i]~dpois(lambda[i])}

sigma1<- 1/tau1

sigma2<- 1/tau2

b1~dnorm(0, 0.7)

b2~dnorm(0, 0.7)

tau1 ~dgamma(2,0.0018)

tau2 ~dgamma(2,0.0018)

90

A.3 Codigo usando a Biblioteca INLA

#########################################################

#modelo :





#########################################################

require(INLA)

raizdados = "C:\\Users\\Techy\\Desktop\\Cap_INLAMCMCLB_2regresoras\\

MDLD\\Dados"

setwd(raizdados)

dados1 = matrix(scan("dadosim3.txt",dec=".",skip=0,

what=double(0)),1458,5,byrow=T)

dados1[1:3,]

n.tot=nrow(dados1) # 1458

n=n.tot-14 # 1444

dados=dados1[1:n,]

y=dados[,1]

x1=dados[,3]

b0=dados[,4] #valor verdadeiro do nivel

b1=dados[,5] #valor verdadeiro do coef da regressora

# defining indices for rw1 coefficients

# -------------------------------------

id <- id1 <- 1:n

# formulating the model

# ---------------------

formula <- y ~ f(id, model="rw1",param=c(2,0.0018),initial=5, constr=F) +

91

f(id1, x1, model="rw1",param=c(2,0.0018),initial=5,

constr=F) -1

r = inla(formula, family="poisson", data = data.frame(id,id1,y),

control.predictor=list(compute=TRUE))

#plot(r)

#summary(r)

##################################################################

## graph for y

win.graph()

rang <- range(r[[18]][1:n, 3:5], y)

plot(y, type="l", ylim=rang, xlim=c(1,n),ylab="y",xlab="time")

lines(r[[18]][1:n,1], col=2, lty=3)

lines(r[[18]][1:n,3], col="blue", lty=3)

lines(r[[18]][1:n,5], col="blue", lty=3)

legend("topleft", legend=c("simulated","posterior mean","95% CI"),

col=c("black", "red","blue"),lty=c(1,1,2),bty="n")

## graph for states (b0_t)

win.graph()

rang <- range(r[[13]][[1]][1:n,4:6], b0[1:n])

plot(r[[13]][[1]][1:n,2], type="l",

ylim=rang, col="red", xlim=c(1,n),ylab="b0",xlab="time")

lines(r[[13]][[1]][1:n,4], col="blue", lty=3)


lines(b0[1:n])

legend("topleft", legend=c("simulated","posterior mean","95% CI"),


## graph for states (b1_t)

win.graph()

92

rang <- range(r[[13]][[2]][1:n,4:6], b1[1:n])

plot(r[[13]][[2]][1:n,2], type="l",

ylim=rang, col="red", xlim=c(1,n),ylab="b1",xlab="time")



lines(b1[1:n])

legend("bottomleft", legend=c("simulated","posterior mean","95% CI"),


# hyperparamerter estimation values

# ---------------------------------

r$summary.hyperpar

# posterior densities for precision parameters

# --------------------------------------------

W0=0.001

W1=0.0005

# summary of posterior hyperparameters

# ------------------------------------

r[[21]] #r$summary.hyperpar, s~ao os hiperparametro dinamico (nivel)

# mean sd 0.025quant 0.5quant 0.975quant

#Precision for id 748.0065 208.3632 418.2954 721.6714 1230.515

#Precision for id1 2506.0592 896.1714 1168.1072 2369.5505 4639.932

# posterior density for precision parameter

# -----------------------------------------

# precision for V_t

win.graph()

plot(r[[22]][[1]], type="l", xlab="1/V", main="precision for V_t", ylab="",

xlim=c(0,2000),lwd=2)

abline(v=r[[21]][1,1],col=4, lty=2,lwd=2)#mean

93

points(x=r[[21]][1,3],y=0,cex=1.5,pch=19,col=4) #q25


#legend(2000,0.0015,legend=c("simulated","INLA","MCMC"),

col=c(2,4,1),lty=c(1,2,1),bty="n")

abline(v=1/W0,col=2, lwd=3)

# precision for W_t

win.graph()

plot(r[[22]][[2]], type="l", xlab="1/V", main="precision for W_t",

ylab="", xlim=c(0,6000),lwd=2)

abline(v=r[[21]][2,1],col=4, lty=2,lwd=2)#mean



#legend(2000,0.0015,legend=c("simulated","INLA","MCMC"),

col=c(2,4,1),lty=c(1,2,1),bty="n")

abline(v=1/W1,col=2, lwd=3)

#####################################################################

#Distribuic~ao preditiva para o preditor linear \eta_T|\eta_{-T}

n.pred=1 ##forescat

n1=n-n.pred

yf = c(y[1:n1],rep(NA,n.pred))

id <- id1 <- 1:n

formula1 <- yf ~ f(id, model="rw1",param=c(2,0.0018),initial=5,constr=F) +

f(id1, x1, model="rw1",param=c(2,0.0018),initial=5,constr=F) -1

r1 = inla(formula1, family="poisson", data = data.frame(id,id1,y),


#letura das marginais do preditor linear

PredH1<-r1[[17]][[(n1+1)]] #r1$marginals.linear.predictor[[(n1+1)]]

94

win.graph()

plot(PredH1,xlab="",ylab="Density")

lines(inla.smarginal(PredH1))

#Grafico da taxa marginal

win.graph()

plot(inla.tmarginal(exp,PredH1)) # taxa.marg3)

summary(inla.tmarginal(exp,PredH1))

amostra.taxa1<-inla.tmarginal(exp,PredH1)[,1]

amostra.y1<-rpois(length(amostra.taxa1),amostra.taxa1)

#----------------------------------

# Grafics da distribuic~ao preditiva

#----------------------------------

win.graph()

hist(amostra.y1,freq=F,breaks = 17,main="",xlab="")

abline(v=y[(n1+1)],col=2,lwd=2) #valor dos dados reais

legend("topright", legend=c("INLA","valor real"),

col=c("black", "red"),lwd=c(2,2), bty="n")

95

Apendice B

Codigo Usados aos Dados de

Contagem de Obitos

A seguir, tem-se os codigos utilizados pela biblioteca INLA, para ajustar o melhor modelo,

para dados de contagem de obitos de criancas menores de 5 anos. O melhor modelo e dado

por:

#########################################################

#Biblioteca INLA com parametros dinamicos e estaticos #

#########################################################

## regression Poisson dynamic: nivel variando no tempo

##-------------------------------------------------------

## Observational equation:

## y_t \sim Poisson(\lambda_t)

## log(\lambda_t) = \eta_t = \alpha_t + \beta*F_t , t=1,...,n

## System equations:

## \alpha_t = \alpha_{t-1} + w_{1,t} , t=2,...,n

## F_t =cbind(pollag2,templag3,umidlag2,cost,sent)

## \beta = c(b1,b2,b3,b4,b5)

##-------------------------------------------------------

96

B.1 Codigo do modelo Poisson Tradicional

require(INLA)

#Leitura de dados para inla (dados reais)

dados1 = matrix(scan("dadosreais_P2T3U2CS.txt")

n1=nrow(dados1)

n.pred=15 ##forescat

n=n1-n.pred # 1458-15=1443

dados=dados1[1:n,]

y=dados[,1] #obitos

nivel=dados[,2]

pollag2=dados[,3]

templag3=dados[,4]

umidlag2=dados[,5]

cost=dados[,6]

sent=dados[,7]

# defining indices for rw1 coefficients

# -------------------------------------

id <- 1:n


# ---------------------

formula <- y ~ pollag2+templag3+umidlag2+cost + sent +

f(id, model="rw1", param=c(2,0.007), initial=5, constr=F) -1

# call to fit the model

# ---------------------

r = inla(formula, family="poisson",

data = data.frame(pollag2, templag3, umidlag2, cost, sent, id,y),


plot(r)

summary(r)

97

B.2 Codigo do modelo Poisson inflacao-zeros do tipo 0

require(INLA)

# leitura dod dados do modelo completo



# ---------------------

id <- 1:n

formula <- y ~ pollag2 +templag3 +umidlag2 +cost +sent +

f(id, model="rw1",param=c(2,0.007), initial=5, constr=F) -1


# ---------------------

r = inla(formula, family="zeroinflatedpoisson0",

data = data.frame(pollag2,templag3,umidlag2,cost, sent,id,y),


summary(r)

plot(r)

B.3 Codigo do modelo Poisson inflacao-zeros do tipo 1

require(INLA)




# ---------------------

id <- 1:n

formula <- y ~ pollag2 +templag3 +umidlag2 +cost +sent +

f(id, model="rw1",param=c(2,0.007), initial=5, constr=F) -1


# ---------------------

98

r = inla(formula, family="zeroinflatedpoisson1",

data = data.frame(pollag2,templag3,umidlag2,cost, sent,id,y),


summary(r)

plot(r)

99

Apendice C

Codigo Referentes aos Dados de

Material Particulado

A seguir, tem-se os codigos utilizados pela biblioteca INLA, para ajustar os modelos Gama

e Binimial, para dados de material particulado. O melhor modelo e dado por:

#########################################################

#Modelo Gama e Binomial: nivel variando no tempo #

#########################################################

## Observational equation:

## log(phi/\lambda_t) = \eta_t = \alpha_t + \beta*F_t , t=1,...,n

## System equations:

## \alpha_t = \alpha_{t-1} + w_{1,t} , t=2,...,n

## F_t =cbind(rainpad,tmpminpad,wetpad,MON,TUE,WED, THU, FRI,SAT,FERIADO)

## \beta = c(b1,...,b10)

##-------------------------------------------------------

C.1 Codigo do modelo Gama

require(INLA)


100

dados1 = matrix(scan("dados_Riof.CSV")

n1=nrow(dados1) # 730

n=n1-15

dados=dados1[1:n,]

y=PM=dados[,1]

rainpad=dados[,4] #chuva padronizada

wetpad=dados[,8] # umindade padronizada

tmpminpad=dados[,9] #temp minima padronizada

MON=dados[,10]

TUE=dados[,11]

WED=dados[,12]

THU=dados[,13]

FRI=dados[,14]

SAT=dados[,15]

FERIADO=dados[,16]

id <- 1:n


# ---------------------

formula <- y ~ rainpad+tmpminpad+wetpad+MON+TUE+WED+THU+ FRI+

SAT+FERIADO+ f(id, model="rw1",param=c(2,0.007), initial=5,constr=F) -1


# ---------------------

r = inla(formula, family="gamma",

data = data.frame(rainpad,tmpminpad,wetpad,MON, TUE,WED,THU,FRI,

SAT,FERIADO,id,y),

scale =1.1,control.predictor=list(compute=TRUE))

summary(r)

plot(r)

101

C.2 Codigo do modelo Bernoulli

require(INLA)


dados1 = matrix(scan("dados_Riof.CSV"))

n1=nrow(dados1) # 730

n=n1-20 #pred horizonte 20

id <- 1:n


# ---------------------

formula <- y ~ rainpad+tmpminpad+wetpad+MON+TUE+WED+THU+

FRI + SAT + FERIADO + f(id, model="rw1", hyper=list(list(prior="loggamma",

param = c(2,0.007), initial = 2)))-1

r = inla(formula, family="binomial", Ntrials=rep(1, n),

data = data.frame(rainpad,tmpminpad,wetpad,MON, TUE,WED,THU,FRI,SAT,

FERIADO,id,y),

control.family = list(link = "logit"),


summary(r)

plot(r)

102

Referencias Bibliograficas

Abramowitz, M. e Stegun, I, A. (1964) Handbook of Mathematical Functions. New York:

Dover.

Albi, M. O. S., Migon, H. S. e da Silva, C. Q. (2009) Bayesian inference for the beta

distribution. Technical Report-RTPE07-Dep. Estatıstica-UnB.

Alves, M. B. (2006) Funcoes de Transferencia em Modelos Dinamicos Lineares Generalizados.

Tese de Doutorado, Universidade Federal do Rio de Janeiro, Rio de Janeiro.

Alves, M. B., Gamerman, D. e Ferreira, M. A. (2010) Transfer functions in dynamic

generalized linear models. Statistical Modelling, 10(1), 03–40.

Carlin, B. P., Polson, N. G. e Stoffer, D. S. (1992) A Monte Carlo approach to nonnormal and

nonlinear state-space modeling. Journal of the American Statistical Association, 87(418),

493–500.

Carter, C. K. e Kohn, R. (1994) On Gibbs sampling for state space models. Biometrika,

81(3), 541–553.

Dominici F, Daniels M, Z. S. e J., S. (2002) Air pollution and mortality: estimating regional

and national dose-response relationships. Journal of the American Statistical Association,

97, 100–111.

Fahrmeir, L. (1992) Posterior mode estimation by extended Kalman filtering for multivariate

dynamic generalized linear models. Journal of the Americal Statistical Association,

87(418), 501–509.

103

— (1997) Penalized likelihood estiamtion and iterative Kalman smoothing for non-Guassian

dynamic regression models. Computational Statistics and Data Analysis, 24, 295–320.

Fahrmeir, L., Hennevogl, W. e Klemme, K. (1992) Smoothing in dynamic generalized linear

models by Gibbs sampling. In advances in glim and Statistical Modelling, Lecture Notes in

Statistics. Springer, New York, 78, 85–90.

Fernandes, M. V. M. (2006) Modelos para Processos EspaA§os-Temporais Inflacionados de

Zeros. Dissertacao de Mestrado, Universidade Federal do Rio de Janeiro, Rio de Janeiro.

Ferreira, M. A. R. e Gamerman, D. (2000) Dynamic generalized linear models. In Dey. D. K.,

Ghosh, S. K., e Mallick, B. K. Generalized Linear Models, 85, 57–72.

Franco, G. C., Gamerman, D. e Santos, T. R. (2009) Modelos de Espacos de Estados:

Abordagens Classica e Bayesiana. Associacao Brasileira de Estatıstica.

Fruhwirth Schnatter, S. (1994) Data augmentation and dynamic linear models. Journal of

Time Series Analysis, 15, 183–202.

Gamerman, D. (1997) Markov Chain Monte Carlo Stochastic Simulation for Bayesian

Inference. Chapman & Hall.

— (1998) Markov chain Monte Carlo for dynamic generalized linear models. Biometrika, 85,

215–227.

Gamerman, D. e Lopes, H. (2006) Markov Chain Monte Carlo: Stochastic Simulation for

Bayesian Inference. New York: Chapman & Hall / CRC.

Gelfand, A. E. e Smith, A. F. M. (1990) Sampling-based approaches to calculating marginal

densities. Journal of the American Statistical Association, 85, 398–409.

Gelman, A. e Rubin, D. R. (1992) Inference from iterative simulation using multiple sequences

(with discussion). Statistical Science, 7, 457–511.

Geman, S. e Geman, D. (1984) Stochastic relaxation, Gibbs distributions and the Bayesian

restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6,

721–741.

104

Geweke, J. (1992) Evaluating the accuracy of sampling-based approaches to the calculation

of the posterior moments (with discussion). Em Bernardo, J.M. , Berger, J. O., Dawid, A.

P. e Smith, A. F. M. Em bayesian statistics 4. Oxford University Press, 4, 169–193.

Harrison, P. e Stevens, C. (1976) Bayesian forecasting (with discussion). J. Roy. Statist. Soc.,

B38, 205–247.

Hastings, H. (1970) Monte Carlo sampling methods using Markov chains and their

applications. Biometrika, 57, 97–109.

Junger, W. L. (2002) Imputacao de dados faltando em series temporais multivariadas via

algoritmo EM. Monografia de graduacao, Universidade Federal do Rio de Janeiro.

Knorr-Held, L. (1999) Conditional prior proposals in dynamic models. Scandinavian Journal

of Statistics, 26, 129–144.

Martins, T. (2010) Aproximacoes Analıticas de Distribuicoes a Posteriori. Dissertacao de

Mestrado, Universidade Federal do Rio de Janeiro, Rio de Janeiro.

Metropolis, N., Rosenbulth, A., Rosenbulth, M., Teller, A. e Teller, E. (1953) Equation of

state calculations by fast computing machine. Journal of Chemical Physics, 21, 1087–1091.

Migon, H. S. e Gamerman, D. (1999) Statistical Inference: an Integrated Approach. Arnold.

Migon, H. S., Gamerman, D., Lopes, H. F. e Ferreira, M. A. R. (2005) Bayesian dynamic

models. Em Dey, D. e Rao, C.R. Handbooks of Statistics, 25, 553–588.

Migon, H. S. e Harrison, P. (1985) An Application of Non-Linear Bayesian Forecasting to

Television Advertising, in Bayesian Statistic 2. Amsterdam: North Holland.

Migon, H. S., Schmidt, A. M., Ravines, R. e Pereira, J. (2013) An efficient sampling scheme

for generalized dynamic models. Computational Statistics, 28, 2267–2293.

Nelder, J. A. e Wedderburn, R. W. M. (1972) Generalized linear models. Journal of the Royal

Statistical Society A, 135, 370–384.

105

Petris, G., Campagnoli, P. e Petrone, S. (2009) Dynamic Linear Models with R. New York:

Springer.

R Development Core Team (2013) R: A Language and Environment for Statistical Computing.

R Foundation for Statistical Computing, Vienna, Austria. URLhttp://www.R-project.

org/.

Resende, C. M. C. (2011) Inferencia Bayesiana Aproximada em Modelos de Espaco de Estados.

Dissertacao de Mestrado, Universidade Federal do Rio de Janeiro, Rio de Janeiro.

Rue, H. e Martino, S. (2007) Approximate bayesian inference for hierarchical gaussian markov

random field models. Journal of statistical planning and inference, 137(10), 3177–3192.

Rue, H., Martino, S. e Chopin, N. (2009) Approximate Bayesian inference for latent Gaussian

models by using integrated nested Laplace approximations. Journal of the Royal Statistical

Society B, 71, 319–392.

Ruiz-Cardenas, R., Krainski, E. T. e Rue, H. (2010) Fitting dynamic models using

integrated nested laplace approximations - inla. Preprint Statistics No 12/2010,

Department of Mathematical Sciences, Norwegian University of Science and Technology,

Trondheim, Norway. URLhttp://www.math.ntnu.no/inla/r-inla.org/papers/

Ruiz_Krainski_Rue_TR_23112010.pdf.

Shephard, N. e Pitt, M. K. (1997) Likelihood analysis of non-Gaussian measurement time

series. Biometrika, 84, 653–667.

Singh, A. C. e Roberts, G. R. (1992) State space modelling of cross-classified time series of

counts. International Statistics Review, 60, 321–336.

Smith, A. F. M., Skene, A. M., Shaw, J. E. H. e Naylor, J. C. (1987) Progress with numerical

and graphical methods for practical bayesian statistics. Journal of the Royal Statistical

Society. Series D (The Statistician), 36, 75–82.

Tierney, L. (1994) Markov chains for exploring posterior distribuitions. Annals of Statistics,

22, 1701–1728.

106

http://www.R-project.org/

http://www.R-project.org/

http://www.math.ntnu.no/inla/r-inla.org/papers/Ruiz_Krainski_Rue_TR_23112010.pdf

http://www.math.ntnu.no/inla/r-inla.org/papers/Ruiz_Krainski_Rue_TR_23112010.pdf

Tierney, L. e Kadane, J. B. (1986) Accurate approximations for posterior moments and

marginal densities. Journal of the American Statistics Association, 81, 82–86.

Vedal S, Brauer M, W. R. e J., P. (2003) Air pollution and daily mortality in a city with low

levels of pollution. Environmental Health Perpespectives, 111, 45–51.

West, M. e Harrison, J. (1997) Bayesian Forecasting and Dynamic Models. New York:

Springer-Verlag, 2a edn.

West, M., Harrison, J. e Migon, H. S. (1985) Dynamic generalized linear models and bayesian

forecasting. Journal of the Americal Statistical Association, 80, 389, 73–83.

107

Documents

Universidade Federal do Rio de Janeiro · Ao Alex ei, pelo amor, compreens~ao e que sempre me deu for˘ca nos momentos de des^animo, ... LB, em que tal infer^encia resume-se a primeiro