Eric Krishna Peres Barbosa - repositorio.unicamp.br€¦ · Eric Krishna Peres Barbosa Modelos de mistura para dados longitudinais de habilidade cognitiva em idosos Disserta¸c˜ao

Universidade Estadual de Campinas

Instituto de Matematica, Estatısticae Computacao Cientıfica

Eric Krishna Peres Barbosa

Modelos de mistura para dados longitudinais de habilidadecognitiva em idosos

CAMPINAS

2018

Eric Krishna Peres Barbosa

Modelos de mistura para dados longitudinais de habilidadecognitiva em idosos

Dissertacao apresentada ao Instituto de Ma-

tematica, Estatıstica e Computacao Cientıfica da

Universidade Estadual de Campinas como parte

dos requisitos exigidos para a obtencao do tıtulo

de Mestre em estatıstica.

Orientadora: Hildete Prisco Pinheiro

Este exemplar corresponde a versao final da

dissertacao defendida pelo aluno Eric Krishna

Peres Barbosa, e orientada pela Profa. Dra. Hil-

dete Prisco Pinheiro.

Assinatura da Orientadora

Campinas

2018

Agência(s) de fomento e nº(s) de processo(s): CNPq, 133529/2016-9; CAPES

Ficha catalográficaUniversidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação CientíficaAna Regina Machado - CRB 8/5467

Barbosa, Eric Krishna Peres, 1993- B234m BarModelos de mistura para dados longitudinais de habilidade cognitiva em

idosos / Eric Krishna Peres Barbosa. – Campinas, SP : [s.n.], 2018.

BarOrientador: Hildete Prisco Pinheiro. BarDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de

Matemática, Estatística e Computação Científica.

Bar1. Misturas finitas. 2. Problemas de ponto de mudança. 3. Análise de

regressão. 4. Distribuição binomial. 5. Cognição. I. Pinheiro, Hildete Prisco,1966-. II. Universidade Estadual de Campinas. Instituto de Matemática,Estatística e Computação Científica. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Longitudinal mixture models for the analysis of elderly people'scognitionPalavras-chave em inglês:Finite mixturesChange-point problemsRegression analysisBinomial distributionCognitionÁrea de concentração: EstatísticaTitulação: Mestre em EstatísticaBanca examinadora:Hildete Prisco Pinheiro [Orientador]Mariana Rodrigues MottaClarice Garcia Borges DemétrioData de defesa: 23-03-2018Programa de Pós-Graduação: Estatística

Powered by TCPDF (www.tcpdf.org)

Dissertação de Mestrado defendida em 23 de março de 2018 e aprovada

pela banca examinadora composta pelos Profs. Drs.

Prof(a). Dr(a). HILDETE PRISCO PINHEIRO

Prof(a). Dr(a). MARIANA RODRIGUES MOTTA

Prof(a). Dr(a). CLARICE GARCIA BORGES DEMÉTRIO

As respectivas assinaturas dos membros encontram-se na Ata de defesa

Agradecimentos

Agradeco as agencias CAPES e CNPq pelo apoio financeiro e a agencia FAPESP por ter usufruido

do projeto tematico 2013/09357-9.

Ao IMECC pela infraestrutura que me ofereceu durante estes anos. Em particular, ao Celso e

Quintino da informatica, aos professores Alberto Saa e Benilton Sa pelo suporte dado.

As professoras Clarice Garcia Borges Demetrio e Mariana Rodrigues Motta, por terem participado

da banca examinadora e contribuıdo com importantes levantamentos acerca do meu trabalho.

As professoras Tatiana Andrea Benaglia e Graciela Muniz-Terrera pela oportunidade de trabalho,

orientacao e companheirismo. Aos professores Hildete Prisco Pinheiro, Luiz Koodi Hotta, Nancy

Lopes Garcia e Victor Hugo Lachos Davila, pessoas que admiro e fizeram enorme contribuicao para

minha formacao como estatıstico. Em especial, ainda a professora Hildete pelo “apadrinhamento”,

orientacao e ajuda imprescindıvel pra resolver os problemas inerentes ao projeto de mestrado.

Aos meus amigos, aos que me ajudaram e aqueles os quais tive a oportunidade de ajudar.

Obrigado republica XIII de Jau. A todos que tive o prazer de conviver neste lugar e as incontaveis

reflexoes feitas nos finais de tarde vistos da minha querida varanda.

Por ultimo e mais importante, aos meus pais e famılia. Pelo exemplo das suas trajetorias, pelo

respeito e apoio incondicionais aos meus planos.

“Sera que sei tudo que sou?

Sera que sou tudo que sei?

Se eu nao sei tudo que sou

Entao eu nao sou tudo que sei?

Tudo que penso que sei?

Sou humano ou sou um mosquito?

Sou parte do universo, sou parte do infinito

Sou humano ou sou um produto?

Produto do que querem que eu seja

Produto do que me e permitido ser

Sera que sou tudo que sou?

Sera que sei tudo que sei?

Nao, nao sou nada disso

Ou sera que sou tudo isso? [...]

Pois essa busca parece incessante

Historia sem fim, inferno de Dante [...]”

Pedro Augusto de Almeida Rosa,

amigo e poeta.

Resumo

Neste trabalho, propoe-se um modelo de mistura de regressoes para lidar com dados de habilidade

cognitiva em idosos ate seu falecimento. A cognicao e mensurada longitudinalmente por questionarios

padrao em geriatria, com perguntas que avaliam a memoria, linguagem, raciocınio logico, dentre

outros, e compoem um escore enumeravel e finito dos acertos. Diferente de grande parte da literatura

na area, em que aplicam modelos lineares mistos classicos com ou sem transformacoes logarıtmicas,

sao ajustados modelos para variaveis resposta Binomial e Beta-Binomial. A especificacao de mistura

de regressoes e feita para discriminar dois comportamentos prevalentes encontrados nos dados: um

grupo de idosos apresenta declınio cognitivo a taxa constante no tempo; enquanto outro grupo passa,

a partir de um momento, a ter um declınio acelerado. Para o ultimo comportamento, preditores nao

lineares com pontos de quebra aleatorios sao propostos. Um estudo de simulacao e conduzido para

avaliar a qualidade da estimacao Bayesiana dos efeitos fixos e aleatorios sob diferentes configuracoes

amostrais e empıricas do modelo proposto: quantidade de observacoes longitudinais, proporcao de

indivıduos em cada componente da mistura e abruptude da aceleracao do declınio. Na pratica, o

intuito e estudar e quantificar associacoes entre a perda da capacidade cognitiva e o diagnostico de

demencias como a doenca de Alzheimer, alem de fatores sociodemograficos. Por fim, uma aplicacao

dos modelos descritos e feita ao banco de dados produzido pelo Rush Memory and Aging Project da

Universidade Rush – Chicago, Estados Unidos, entre os anos de 1997 e 2016.

Palavras-chave: modelos de mistura, modelos longitudinais, modelos de efeitos mistos, pontos de

quebra aleatorios, habilidade cognitiva em idosos, distribuicao beta-binomial, distribuicao binomial.

Abstract

A regression mixture model to handle elderly’s cognitive ability up to their death is presen-

ted. Cognition is measured across time with standard questionnaires from geriatrics which involve,

amongst others, memory, language and reasoning issues. The output of such questionnaires is recor-

ded with a countable and finite score. Many authors in the literature apply classical linear mixed

models for the raw scores or use some logarithmic transformation. Differently, models for Binomial

and Beta-Binomial response variables are discussed here. The mixture specification rises to discri-

minate two prevalent behaviors in the data: one group of elderly people presents cognition decline

at constant rate; whilst the other experiences a spontaneous accelerated decline at some time. The

latter aspect is dealt with random change points nonlinear predictors. To assess the Bayesian esti-

mation performance of fixed and random effects, a simulation study is conducted under the following

sampling and empirical different aspects: number of repeated measures across time, individuals pro-

portion in each mixture component and the decline’s acceleration abruptness. Finally, the study’s

goal is to quantify associations amidst cognition loss and the diagnostics of dementias like Alzhei-

mer’s disease, besides sociodemographic factors. The proposed model is evaluated in the database

provided by the Rush University – Chicago, United States, through the Rush Memory and Aging

Project from 1997 to 2016.

Keywords: mixture models, longitudinal models, mixed effects models, random change points,

elderly people cognition, beta-binomial distribution, binomial distribution.

Lista de Figuras

2.1 Funcoes de probabilidade da variavel aleatoria 𝑌 ∼ Beta-Binomial(10, 𝜑𝜇, 𝜑(1 − 𝜇))

para diferentes valores de 𝜇 e 𝜑. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2 Limite inferior do espaco parametrico da correlacao intraclasse 𝜌 = (𝜑+1)−1, de acordo

com diferentes valores de 𝜇 = 𝛼1/(𝛼1 + 𝛼2) e quantidade de ensaios 𝑛. . . . . . . . . . 21

2.3 Preditor Broken-Stick com 𝛽2 ∈ (−7,−1). Alem disso, 𝜏 = 5, 𝛽0 = 40 e 𝛽1 = 0, 5. . . . 23

2.4 Preditor em (2.2.2) com 𝐾1 = 1 e 𝐾2 = 2. Em todos os casos, 𝜏 = 5, 𝛽0 = 40 e

𝛽1 = 0, 5. Alem disso, todos os grids de 𝛽2 ou 𝛽3 possuem 14 valores. Especificamente,

(a)𝛽3 = −0, 8 e 𝛽2 ∈ (−7,−1); (b)𝛽2 = −4 e 𝛽3 ∈ (−4;−0, 05); (c)𝛽2 ∈ (−7,−1),enquanto 𝛽3 ∈ (−4;−0, 05). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.1 Exemplo de dados fictıcios gerados pela estrutura (4.1.3). Em todos os casos, a pro-

porcao de indivıduos em cada grupo foi gerada com 𝜆 = (0, 0)′ na expressao (4.1.2)

e os efeitos do preditor (4.1.1) iguais a 𝛽 = (1, 5;−0, 2; 𝛽3;−1)′. Na primeira linha,

𝛽3 = −2, 5; na linha central, 𝛽3 = −1, 5; e na ultima linha, 𝛽3 = −0, 5. . . . . . . . . . 54

4.2 Graficos dos erros quadraticos medios (4.2.1), estratificados pelas caracterısticas de in-

teresse: magnitude do efeito apos o ponto de quebra (𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), pro-porcao de indivıduos no grupo de mistura com decaimento acelerado (𝐺2 ∈ {Pequeno,Medio,Grande} ≈ {14%, 50%, 92%}) e quantidade de medidas repetidas ao longo do

tempo simulado (𝐽 ∈ {5, 10}). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3 Graficos das probabilidades de cobertura (4.2.2) com 95% de confianca, estratifica-

dos pelas caracterısticas de interesse: magnitude do efeito apos o ponto de quebra

(𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), proporcao de indivıduos no grupo de mistura com decai-

mento acelerado (𝐺2 ∈ {Pequeno,Medio,Grande} ≈ {14%, 50%, 92%}) e quantidade

de medidas repetidas ao longo do tempo simulado (𝐽 ∈ {5, 10}). . . . . . . . . . . . . 60

4.4 Graficos de dispersao entre a Taxa de Verdadeiros Positivos (4.2.3) vs Taxa de Fal-

sos Positivos (4.2.4), estratificados pelas caracterısticas de interesse: magnitude do

efeito apos o ponto de quebra (𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), proporcao de indivıduos

no grupo de mistura com decaimento acelerado (𝐺2 ∈ {Pequeno,Medio,Grande} ≈{14%, 50%, 92%}) e quantidade de medidas repetidas ao longo do tempo simulado

(𝐽 ∈ {5, 10}). Adicionalmente, apresenta-se a Acuracia Media - ACM (4.2.6) para

cada configuracao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.5 Densidades a posteriori para simulacao do modelo Beta-Binomial com 𝐽 = 5, 𝐺2

medio e 𝛽3 = −1, 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.6 Historico das cadeias a posteriori para simulacao do modelo Beta-Binomial com 𝐽 = 5,

𝐺2 medio e 𝛽3 = −1, 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.1 Box-plots dos escores mmse dos invidıduos do estudo RUSH, estratificados para cada

tempo ate a morte, de 19 a 0 anos ate o falecimento. . . . . . . . . . . . . . . . . . . 68

5.2 Frequencias de indivıduos para cada quantidade de acompanhamentos feitos. Na pa-

leta de cores, a idade de entrada dos indivıduos no estudo. . . . . . . . . . . . . . . . 69

5.3 Grafico longitudinal dos escores individuais ao longo do tempo ate a morte. A estra-

tificacao e feita com base nas variaveis indicadoras AD - pelo menos um diagnostico da

doenca de Alzheimer e MCI - pelo menos um diagnostico de dano cognitivo moderado. 70

5.4 Mapa de calor dos escores individuais ao longo do tempo ate a morte. A estratificacao

e feita com base nas variaveis indicadoras AD - pelo menos um diagnostico da doenca de

Alzheimer e MCI - pelo menos um diagnostico de dano cognitivo moderado. Truncou-

se a disposicao do grafico para 𝑡 ∈ {−10, . . . , 0} para melhor visualizacao, visto que

entre 𝑡 ∈ {−19, . . . ,−11} os escores sao majoritariamente altos (vide 5.1). . . . . . . . 71

5.5 Mapa de calor dos escores individuais ao longo do tempo ate a morte. A estratificacao

e feita com base na variavel indicadora de educacao superior EDUC: Basica caso ≤ 12

anos de estudo ou Superior, caso contrario. Truncou-se a disposicao do grafico para

𝑡 ∈ {−10, . . . , 0} para melhor visualizacao, visto que entre 𝑡 ∈ {−19, . . . ,−11} os

escores sao majoritariamente altos (vide 5.1). . . . . . . . . . . . . . . . . . . . . . . . 71

5.6 Medianas e intervalos de credibilidade 95% para cadeias finais do modelo com dis-

tribuicao Binomial, preditores dados por (5.3.2) e (5.3.3). Em (a), tem-se a es-

pecificacao com ℳlogito : ℎ(𝑥) = log(𝑥/(1 − 𝑥)), enquanto em (b) ℳcloglog :

ℎ(𝑥) = log(−log(1− 𝑥)). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.7 Graficos de resıduos quantılicos aleatorizados para o modelo ℳ𝑏𝑖𝑛. No grafico (a),

calculam-se 30 conjuntos de resıduos. A curva e uma referencia para o caso ideal.

Nos graficos (b)-(d), por outro lado, apenas um conjunto e utilizado para avaliar,

respectivamente, a relacao com os valores ajustados 𝑦𝑖𝑗, tempo ate a morte e covariavel

que da o efeito apos os pontos de quebra estimados: [𝑡𝑖𝑗−𝜏𝑖]+ = max(0, 𝑡𝑖𝑗−𝜏𝑖). Nestes,as curvas sao suavizacoes dos dados via modelos aditivos genealizados (GAM). . . . . 76

5.8 Historico de cadeias a posteriori do parametro 𝜑 da distribuicao Beta-Binomial como

resultado de ajuste do modeloℳ𝑏𝑏. A esquerda, ajuste com burn-in de 1,1 milhao de

iteracoes, enquanto a direita, com 1,4 milhao de iteracoes. . . . . . . . . . . . . . . . 77

5.9 Graficos de resıduos quantılicos aleatorizados para o modelo Binomial de efeitos mistos

com ajuste Bayesiano. No grafico (a), calculam-se 30 conjuntos de resıduos. A curva

e uma referencia para o caso ideal. Nos graficos (b) e (c), por outro lado, apenas um

conjunto e utilizado para avaliar, respectivamente, a relacao com os valores ajustados

𝑦𝑖𝑗 e tempo ate a morte. Nestes, as curvas sao suavizacoes dos dados via modelos

aditivos generalizados (GAM). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.10 Grafico longitudinal dos escores individuais observados e ajustados ao longo do tempo

ate a morte. A estratificacao e feita com base nas variaveis indicadoras AD - pelo menos

um diagnostico da doenca de Alzheimer e MCI - pelo menos um diagnostico de dano

cognitivo moderado. Linhas tracejadas no modelo com mistura indicam indivıduos

classificados no grupo com decaimento acelerado (𝐺2). . . . . . . . . . . . . . . . . . 79

5.11 Histograma dos pontos de quebra estimados para o grupo com decaimento acelerado

(𝐺2), segundo modelo finalℳ𝑏𝑖𝑛. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.12 Histograma das idades estimadas em que os pontos de quebra aconteceram para o

grupo com decaimento acelerado (𝐺2), segundo modelo finalℳ𝑏𝑖𝑛. . . . . . . . . . . . 81

C.1 Box-plots da variavel resposta escore mmse de acordo com as covariaveis categoricas.

Segundo legenda da Tabela 5.1, (a) - ad; (b) - mci; (c) - educ; (d) - sexo; (e) - etnia. 96

C.2 Diagonal principal: densidades suavizadas dos escores mmse para tempos ate a morte

diferentes, 𝑡 ∈ {−19, . . . ,−10}. Graficos da parte triangular inferior: dispersao entre

escores para tempos cruzados. Informacoes da parte triangular superior: correlacoes

entre escores para tempos cruzados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

C.3 Diagonal principal: densidades suavizadas dos escores mmse para tempos ate a morte

diferentes, 𝑡 ∈ {−9, . . . ,−0}. Graficos da parte triangular inferior: dispersao entre

escores para tempos cruzados. Informacoes da parte triangular superior: correlacoes

entre escores para tempos cruzados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

C.4 Nas primeiras 4 linhas de graficos, densidades a posteriori e nas ultimas 4 linhas,

historico das cadeias a posteriori do modeloℳ𝑏𝑖𝑛. . . . . . . . . . . . . . . . . . . . . 100

Lista de Tabelas

2.1 Funcoes de ligacao comuns para regressao com dados binarios. . . . . . . . . . . . . . 26

3.1 Funcoes de perdas usuais e os respectivos estimadores Bayesianos encontrados pela

minimizacao em (3.1.1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2 Funcoes de discrepancia comuns para avaliar reproducibilidade dos dados originais sob

modelos Bayesianos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.1 Variaveis retiradas e/ou modificadas do banco de dados Rush Memory and Ageing

Project. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.2 Tempo de ajuste, medidas de diagnostico (valores-p Bayesianos amostrados 𝑠𝑝𝑏(𝑦)) e

comparacao de modelos (DIC7 e LMPL) para modelos com distribuicao Binomial dos

escores mmse condicionais, preditores dados por (5.3.2) e (5.3.3). Valores em negrito

por coluna indicam melhores indicadores. Para os valores-p Bayesianos amostrados

em (3.1.11), tomou-se a moda das cadeias finais como quantidades 𝜃𝑓𝑖𝑥𝑜. . . . . . . . 74

5.3 Tempo de ajuste, numero de iteracoes (burn-in + rodadas finais), medidas de di-

agnostico (valores-p Bayesianos anostrados 𝑠𝑝𝑏(𝑦)) e comparacao de modelos (DIC7 e

LMPL) para modelo com distribuicao Binomial dos escores mmse condicionais e predi-

tor dado por (5.3.5). Para os valores-p Bayesianos amostrados em (3.1.11), tomou-se

a moda das cadeias finais como quantidades 𝜃𝑓𝑖𝑥𝑜. . . . . . . . . . . . . . . . . . . . . 76

5.4 Estatıstica R, mediana, bandas inferior (Inf) e superior (Sup) de credibilidade 95%

para cadeias finais do modelo com distribuicao Binomial, preditores dados por (5.3.5)

e (5.3.3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

C.1 Mediana, bandas inferior (Inf) e superior (Sup) de credibilidade 95% para cadeias

finais do modelo com distribuicao Binomial, preditores dados por (5.3.2) e (5.3.3).

Os ajustes sao feitos com ℳlogito : ℎ(𝑥) = log(𝑥/(1 − 𝑥)), enquanto ℳcloglog :

ℎ(𝑥) = log(−log(1− 𝑥)). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

Conteudo

Lista de Figuras ix

Lista de Tabelas xii

1 Introducao 15

1.1 Notacao utilizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.2 Organizacao do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2 Modelo de Mistura de Regressoes Com Componente de Declınio Acelerado 18

2.1 Variaveis aleatorias de ensaios com respostas dicotomicas . . . . . . . . . . . . . . . . 18

2.2 Preditores para dados longitudinais com ponto de quebra . . . . . . . . . . . . . . . . 21

2.3 O modelo de mistura de regressoes com componente de declınio acelerado . . . . . . . 24

2.3.1 Verossimilhanca para o modelo proposto . . . . . . . . . . . . . . . . . . . . . 26

3 Metodo de Estimacao 29

3.1 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.1.1 Algoritmos de simulacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.1.2 Softwares para inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 38

3.1.3 Diagnostico dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.1.4 Comparacao dos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.2 Estimacao Bayesiana para o modelo proposto de mistura de regressoes . . . . . . . . 43

3.2.1 Amostrador de Gibbs para o caso Beta-Binomial . . . . . . . . . . . . . . . . . 44

3.2.2 Amostrador de Gibbs para o caso Binomial . . . . . . . . . . . . . . . . . . . . 47

4 Estudo de Simulacao 52

4.1 Configuracoes de parametros e exemplos de dados simulados . . . . . . . . . . . . . . 53

4.2 Medidas para avaliacao das cadeias geradas e suas estimativas . . . . . . . . . . . . . 54

4.3 Resultados das simulacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.4 Consideracoes sobre o caso Beta-Binomial . . . . . . . . . . . . . . . . . . . . . . . . 61

5 Aplicacao do Modelo em Dados Reais 64

5.1 Rush Memory and Aging Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.2 Analise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.3 Ajuste do modelo proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6 Consideracoes Finais 83

Bibliografia 85

A Exemplo questionario MMSE 92

B Algoritmos de simulacao 93

C Rush Memory and Aging Project 96

C.1 Graficos analise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

C.2 Material suplementar dos ajustes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

15

Capıtulo 1

Introducao

A tendencia de crescimento da expectativa de vida mundial e evidenciada desde meados da

decada de 1840, de acordo com Oeppen and Vaupel (2002). Com isso, estudos relacionados aos

idosos tem sido uma area de grande interesse em medicina quantitativa e bioestatıstica nos ultimos

anos. Capacidade motora e aspectos neurologicos do envelhecimento sao caracterısticas que podem

estar associadas a doencas cognitivas comuns da idade avancada (como a demencia e, em particular,

a doenca de Alzheimer). Alguns estudos se baseiam no acompanhamento prospectivo de coortes,

tais como o OCTO - Twin (Origins of Variance in the Old-old: Octagenarian Twins) McClearn

et al. (1997), pelo Departamento de Epidemiologia Medica e Bioestatıstica do Karolinska Institutet ;

o Bronx aging study Katzman et al. (1989) e o Honolulu Asia Aging Study, Launer et al. (1995).

Para medir a capacidade neurologica dos participantes, sao aplicados periodicamente questionarios

padrao de habilidade cognitiva e memoria, por exemplo, o Mini Mental Status Examination (MMSE)

Cockrell and Folstein (2002), o Selective Reminding Test Hannay and Levin (1985) e o Cognitive

Abilities Screening Instrument Teng et al. (1994). Estes sao formulados por questoes relacionadas a

pronuncia, domınio de linguagem, memoria, logica e ate a habilidades motoras. Apresenta-se como

resultado um escore ordinal de acertos cuja amplitude varia de teste para teste.

Analises de dados longitudinais relacionados a habilidade cognitiva (como Hall et al. (2007)

e van den Hout et al. (2013)) evidenciam dois tipos prevalentes de comportamento dos idosos,

separando-os essencialmente em dois grupos. Um deles apresenta trajetoria dos escores com perda

da capacidade neurologica a uma taxa que pode ser considerada constante com o passar dos anos;

enquanto no outro grupo, a partir de um determinado momento aleatorio (que pode, inclusive, ser

diferente entre indivıduos), o escore de habilidade cognitiva passa a decair mais rapidamente ate a

morte ou censura. Essa caracterıstica e referenciada na literatura como ponto de quebra ou ponto de

mudanca. Ela aparece em outros tipos de dados, como em series temporais com quebras estruturais

- Bauwens and Rombouts (2012) - e em modelos logısticos para epidemiologia - Muggeo (2003), por

exemplo.

Analises estatısticas dos escores de habilidade cognitiva com repentina aceleracao do declınio

16

sao introduzidos em Hall et al. (2000), em que propoem modelos lineares de efeitos mistos com

o parametro ponto de quebra comum a todos os indivıduos. Artigos posteriores utilizam tecnicas

completa ou parcialmente Bayesianas com o objetivo de estimar pontos de quebra como efeitos

aleatorios dos indivıduos. Alguns exemplos destes estao em Dominicus et al. (2008) com o amostrador

de Gibbs (Casella and George (1992)) ou em van den Hout et al. (2013), com uma estimacao classica

seguida da tecnica de maximo a posteriori MAP (DeGroot (2005)) para o vetor de pontos de quebra.

Ainda assim, dado que nao se pode falar que todos os participantes apresentam o ponto de mudanca,

modelos com tal suposicao podem sub ou superestimar esta caracterıstica. Alem disso, nao ha

garantia de que os efeitos estimados das variaveis explicativas representem adequadamente o conjunto

de dados.

Uma recorrencia notada na literatura e a utilizacao de modelos de efeitos mistos com a distribuicao

gaussiana para as perturbacoes aleatorias. Dessa maneira, alguns autores Hall et al. (2001), Yu and

Ghosh (2010) propoem especificacoes para transformacoes logarıtmicas dos escores, como tentativa

de eliminar a assimetria empırica do desempenho dos participantes. Com tal conduta, os autores

tambem evitam lidar com modelos para variaveis respostas discretas, o que pode enfraquecer a

qualidade do ajuste e/ou previsao.

Outros aspectos que tem sido estudados para obtencao de modelos mais fidedignos e informativos

sao: (i) a inclusao dos pontos de quebra com transicoes suaves, como propostos em Bacon and Watts

(1971), Tishler and Zang (1981), van den Hout et al. (2011); (ii) tratar o problema como um modelo

de mistura, no qual especificacoes de regressao para grupos subjacentes de indivıduos sao feitas -

veja McLachlan and Peel (2004), Benaglia et al. (2009). Neste caso, a distincao entre os grupos e a

presenca ou nao do ponto de quebra. Analises que englobam os quesitos (i) e (ii) encontram-se em

Yu and Ghosh (2010), van den Hout et al. (2013).

O objetivo deste trabalho e propor um modelo de mistura para discriminar entre o grupo de

idosos que possuem decaimento da cognicao a taxa constante e o grupo que apresenta um ponto de

quebra ao longo da trajetoria. A formulacao e feita supondo que a variavel resposta tem distribuicao

condicional Binomial ou Beta-Binomial. Ambas as escolhas levam a uma distribuicao marginal dos

escores mais versatil do que a Binomial. Alem disso, essas escolhas nao negligenciam a natureza dos

escores, diferentemente de grande parte da literatura no assunto, como Hall et al. (2001), Jacqmin-

Gadda et al. (2006), Yu and Ghosh (2010). Alguns aspectos tecnicos como situacoes em que vale a

pena tal postulacao e custo versus benefıcio computacional serao avaliados por meio de simulacoes.

Assim, um estudo de simulacao e conduzido para avaliar a qualidade da estimacao Bayesiana

dos efeitos fixos e aleatorios sob diferentes configuracoes amostrais e empıricas do modelo proposto:

quantidade de observacoes longitudinais, proporcao de indivıduos em cada componente da mistura

e abruptude da aceleracao do declınio.

De uma maneira geral, pesquisadores desta area buscam relacoes entre o ponto de quebra e o

surgimento de algum tipo de demencia, como a doenca de Alzheimer. Ha tambem interesse em

17

verificar o efeito no ponto de quebra de covariaveis como sexo e nıvel de instrucao do participante

Hall et al. (2007), bem como fatores que atrasem o declınio cognitivo acelerado, como a pratica de

esportes. Em primeira instancia, e de interesse saber o que pode estar associado a presenca de tal

caracterıstica, isto e, ser classificado no grupo com mudanca no decaimento da cognicao. Em seguida,

caso pertenca a este grupo, saber que covariaveis podem melhorar o ajuste e/ou previsao da mudanca

na aceleracao da taxa de decaimento.

Uma aplicacao do modelo proposto sera feita usando o banco de dados gerado pelo Rush Memory

and Aging Project, disponibilizado pelo Centro Medico da Universidade RUSH, Bennett et al. (2005a).

Este conjunto contem informacoes longitudinais de uma coorte da regiao metropolitana de Chicago,

nos Estados Unidos, de Setembro/1997 ate Abril/2005. Alem da habilidade cognitiva medida uti-

lizando o Mini Mental Status Examination (MMSE), coletaram-se variaveis dos indivıduos como

genero, etnia, anos de educacao, bem como diagnosticos clınicos da presenca ou nao de demencias.

1.1 Notacao utilizada

Funcoes de probabilidade ou funcoes densidade serao representadas por 𝑓 ou 𝜋. Parametros

conhecidos e fixos serao, por simplicidade, suprimidos da escrita em 𝑓 . Assim, uma variavel aleatoria

pode ser definida pelo seu nome, como em 𝑋 ∼ Normal(𝜇, 𝜎2), por 𝑋 ∼ 𝑓(𝑥;𝛼) = 𝑓(𝑥) ou 𝑋 ∼ 𝜋(𝑥).

Distribuicoes condicionais serao representadas por 𝑋|𝑌 ∼ 𝑓(𝑥|𝑦) ou 𝑋|𝑌 ∼ 𝜋(𝑥|𝑦). Densidades

de variaveis truncadas no conjunto A por 𝑋 ∼ 𝑓(𝑥)1{𝑥 ∈ A}, em que 1{𝑥 ∈ 𝐴} = 1, se 𝑥 ∈ A, e

1{𝑥 ∈ 𝐴} = 0, caso contrario.

A notacao 𝑋𝑞.𝑐.−→ 𝑌 indica convergencia quase certa da variavel aleatoria 𝑋 para a variavel 𝑌 , que

pode tambem ser degenerada.𝑎𝑝𝑟∼ indica distribuicao aproximada,

𝑖𝑛𝑑∼ e𝑖𝑛𝑑= indicam, respectivamente,

com distribuicoes independentes e por independencia. Por ultimo,𝑖𝑖𝑑∼ representa variaveis aleatorias

independentes e identicamente distribuıdas.

1.2 Organizacao do trabalho

No proximo capıtulo, discutem-se algumas caracterısticas tecnicas para construcao do modelo,

e a apresentacao deste na Secao 2.3. Em seguida, apresentam-se a metodologia de estimacao e os

algoritmos necessarios para tal no Capıtulo 3. Os estudos de simulacao e analise do banco de dados

encontram-se, respectivamente, nos capıtulos 4 e 5. Finalmente, uma discussao sobre os resultados

das metodologias e feita no Capıtulo 6.

18

Capıtulo 2

Modelo de Mistura de Regressoes Com

Componente de Declınio Acelerado

A natureza dos escores que medem a habilidade cognitiva e discreta e com suporte finito. E

adequado, portanto, que esses sejam modelados por meio de variaveis aleatorias que contam a quan-

tidade de sucessos dentre um numero de ensaios. Sob esta perspectiva, dentro de um questionario

padrao de mensuracao cognitiva em idosos (conjunto de perguntas que medem memoria, raciocınio

logito, linguagem etc), cada pergunta representa um ensaio e cada resposta correta um sucesso.

As variaveis aleatorias Binomial e Beta-Binomial sao utilizadas como postulacoes as quantidades

de sucessos (ou fracassos) em um conjunto de ensaios Feller (1968). Para modelar o numero de

acertos dos questionarios padrao aqui tratados, entretanto, a suposicao de ensaios independentes

(que e amplamente empregada) pode nao ser adequada. Isto se da porque as perguntas aplicadas

compartilham caracterısticas e areas de enfoque, tais como memoria e linguagem. Por exemplo,

o Mini Mental Status Examination (MMSE) Cockrell and Folstein (2002) e composto por quatro

questoes que avaliam pronuncia/linguagem, duas que demandam reflexos motores, entre outros, vide

exemplo no Apendice A. Logo, se indivıduos tem dificuldade em algum construto do questionario, e

esperado que as respostas para perguntas relacionadas tambem o sejam. Ainda assim, neste trabalho,

nao se explorarao alternativas a essa questao.

2.1 Variaveis aleatorias de ensaios com respostas dicotomicas

Definicao 2.1.1. Uma variavel aleatoria 𝑌 ∈ {0, . . . , 𝑛} tem distribuicao 𝑌 ∼ Binomial(𝑛, 𝑝), 𝑛 ∈ Nsendo a quantidade de ensaios independentes com probabilidade de sucesso 𝑝 ∈ (0, 1), se sua funcao

de probabilidade for da forma

𝑓(𝑦) =

(𝑛

𝑦

)𝑝𝑦(1− 𝑝)𝑛−𝑦, 𝑦 ∈ {0, . . . , 𝑛}. (2.1.1)

19

Tendo em vista que 𝑌 ∼ Binomial(𝑛, 𝑝) ⇔ 𝑌 =∑𝑛

𝑖=1𝑋𝑖, 𝑋𝑖𝑖𝑖𝑑∼ Bernoulli(𝑝), as caracterısticas

de 𝑌 sao obtidas por:

E[𝑌 ] = E[ 𝑛∑

𝑖=1

𝑋𝑖

]=

𝑛∑𝑖=1

E[𝑋𝑖] = 𝑛𝑝, (2.1.2)

Var[𝑌 ] = Var[ 𝑛∑

𝑖=1

𝑋𝑖

]=

𝑛∑𝑖=1

Var[𝑋𝑖] = 𝑛𝑝(1− 𝑝). (2.1.3)

Definicao 2.1.2. Sejam 𝑌 e 𝑝 variaveis aleatorias tais que 𝑌 ∈ {0, ..., 𝑛}, 𝑛 ∈ N fixo e conhecido, e

𝑝 ∈ (0, 1). Considere 𝑌 |𝑝 ∼ Binomial(𝑛, 𝑝) e 𝑝 ∼ Beta(𝛼1, 𝛼2), em que 𝛼1, 𝛼2 > 0 sao parametros fixos

e desconhecidos. Com esta estrutura, 𝑌 tem distribuicao marginal 𝑌 ∼ Beta-Binomial(𝑛, 𝛼1, 𝛼2),

com funcao densidade dada por:

𝑓(𝑦) =

∫ 1

0

𝑓(𝑦|𝑝)𝑓(𝑝) d𝑝

=

∫ 1

0

(𝑛

𝑦

)𝑝𝑦(1− 𝑝)𝑛−𝑦 1

B(𝛼1, 𝛼2)𝑝𝛼1−1(1− 𝑝)𝛼2−1 d𝑝

=

(𝑛

𝑦

)1

B(𝛼1, 𝛼2)

∫ 1

0

𝑝𝑦+𝛼1−1(1− 𝑝)𝑛−𝑦+𝛼2−1 d𝑝

=

(𝑛

𝑦

)B(𝑦 + 𝛼1, 𝑛− 𝑦 + 𝛼2)

B(𝛼1, 𝛼2), 𝑦 ∈ {0, . . . , 𝑛}, (2.1.4)

sendo B(𝑎, 𝑏) = Γ(𝑎)Γ(𝑏)Γ(𝑎+𝑏)

a funcao Beta, e Γ(𝑎) =∫∞0

𝑥𝑎−1𝑒−𝑥 d𝑥 a funcao Gamma.

Uma parametrizacao importante para o contexto de regressao considera a transformacao unıvoca

(𝛼1, 𝛼2) ↦→ (𝜑𝜇, 𝜑(1 − 𝜇)), em que 𝜇 = 𝛼1/(𝛼1 + 𝛼2) e 𝜑 = 𝛼1 + 𝛼2. As caracterısticas da variavel

𝑌 ∼ Beta-Binomial(𝑛, 𝛼1, 𝛼2) = Beta-Binomial(𝑛, 𝜑𝜇, 𝜑(1− 𝜇)) sao dadas por:

E[𝑌 ] = E[E[𝑌 |𝑝]] = 𝑛E[𝑝] = 𝑛𝜇, (2.1.5)

Var[𝑌 ] = E[Var[𝑌 |𝑝]] + Var[E[𝑌 |𝑝]]

= E[𝑛𝑝(1− 𝑝)] + Var[𝑛𝑝]

= 𝑛(E[𝑝]− E[𝑝2]

)+ 𝑛2Var[𝑝]

= 𝑛(E[𝑝]−

(Var[𝑝] + E2[𝑝]

))+ 𝑛2Var[𝑝]

= 𝑛E[𝑝]− 𝑛Var[𝑝]− 𝑛E2[𝑝] + 𝑛2Var[𝑝]

= 𝑛(E[𝑝](1− E[𝑝]) + (𝑛− 1)Var[𝑝]

)= 𝑛

(𝜇(1− 𝜇) + (𝑛− 1)𝜇(1− 𝜇)(𝜑+ 1)−1

)= 𝑛𝜇(1− 𝜇)

[1 +

𝑛− 1

𝜑+ 1

], (2.1.6)

tendo em vista que Var[𝑝] = 𝛼1𝛼2/[(𝛼1 + 𝛼2)2(𝛼1 + 𝛼2 + 1)] = 𝜇(1− 𝜇)(𝜑+ 1)−1.

20

Ve-se pela expressao da variancia (2.1.6) um aspecto essencial que difere a Beta-Binomial da

Binomial: a sobredispersao dos valores gerados pela primeira, em comparacao com a segunda. Num

contexto de regressao para variaveis dicotomicas, a utilizacao da distribuicao Beta-Binomial para os

dados e uma alternativa relevante quando o modelo Binomial nao se faz adequado Williams (1982).

A parametrizacao 𝑌 ∼ Beta-Binomial(𝑛, 𝜑𝜇, 𝜑(1 − 𝜇)) e mais conveniente para desenvolver os

modelos de regressao e, em conformidade com os propositos deste trabalho, adotaremos esta estrutura

de agora em diante. O parametro 𝜇 pode ser interpretado como a probabilidade de sucesso num

ensaio, enquanto 𝜌 = (𝜑+1)−1 e visto como o parametro de correlacao intraclasse, e esta relacionado

a sobredispersao que os dados podem apresentar. Considerando que 𝜑 > 0, 𝜌 e necessariamente nao

negativo. Porem, Prentice (1986) mostra que (2.1.4) e uma funcao de probabilidade valida para certos

valores negativos da correlacao intraclasse, expandindo o espaco parametrico dessa caracterıstica a

𝜌 > −min(

𝜇𝑛−𝜇−1

, 1−𝜇𝑛+𝜇−2

), Ridout et al. (1999). Nas figuras 2.1 e 2.2, sao mostrados alguns exemplos

da versatilidade da distribuicao Beta-Binomial e os valores mınimos que o parametro 𝜌 pode assumir.

µ = 0,25 µ = 0,50 µ = 0,70

φ=

0,5φ

=5

φ=

10φ

=100

0 1 2 3 4 5 6 7 8 910 0 1 2 3 4 5 6 7 8 910 0 1 2 3 4 5 6 7 8 910

0.0

0.2

0.4

0.0

0.2

0.4

0.0

0.2

0.4

0.0

0.2

0.4

k

P(Y

=k)

Figura 2.1: Funcoes de probabilidade da variavel aleatoria 𝑌 ∼ Beta-Binomial(10, 𝜑𝜇, 𝜑(1−𝜇)) paradiferentes valores de 𝜇 e 𝜑.

21

−0.06

−0.04

−0.02

0.00

0.00 0.25 0.50 0.75 1.00

µ

Va

lor

mín

imo

ρ

n

10

20

30

40

50

60

Figura 2.2: Limite inferior do espaco parametrico da correlacao intraclasse 𝜌 = (𝜑+ 1)−1, de acordocom diferentes valores de 𝜇 = 𝛼1/(𝛼1 + 𝛼2) e quantidade de ensaios 𝑛.

2.2 Preditores para dados longitudinais com ponto de que-

bra

Sob a perspectiva dos Modelos Lineares Generalizados Nelder and Wedderburn (1972), tem-se o

intuito de modelar a media condicional da proporcao de sucessos, E[𝑌 *] = E[𝑌/𝑛] = 𝜇, equivalente

a probabilidade de acerto ao responder um questionario. Isto e feito por meio das chamadas funcoes

de ligacao, que relacionam a probabilidade de sucesso a efeitos das variaveis explicativas utilizadas

no estudo.

Segundo Paula (2004), o modelo de regressao para respostas independentes Binomiais 𝑌1, . . . , 𝑌𝑛

com 𝑌𝑖 ∼ Binomial(𝐾,𝜇𝑖) e dado pela expressao 𝑔(𝜇𝑖) = 𝜂𝑖, em que 𝜂𝑖 e o preditor do 𝑖-esimo

indivıduo. 𝑔 : (0, 1) ↦→ R e uma funcao de ligacao, e pode ser da forma 𝑔(𝑥) = log(𝑥/(1 − 𝑥)), por

exemplo. Em geral, avalia-se a relacao de uma variavel explicativa, 𝑥𝑖, com o preditor 𝜂𝑖 de uma

maneira linear no vetor de parametros 𝛽 = (𝛽0, 𝛽1)′, ou seja, 𝑔(𝜇𝑖) = log(𝜇𝑖/(1−𝜇𝑖)) = 𝜂𝑖 = 𝛽0+𝛽1𝑥𝑖.

Adicionalmente, a postulacao de modelos com ponto de quebra para indivıduos e feita por meio

de preditores 𝜂𝑖 nao lineares nos parametros Muggeo (2003). Nesses casos, a dimensao do vetor 𝛽

aumenta para contemplar os efeitos das variaveis explicativas apos a ocorrencia do ponto de mudanca.

Veja a seguinte ilustracao desta nova perspectiva:

Exemplo 2.2.1. Seja 𝑌1, . . . , 𝑌𝑛 com 𝑌𝑖 ∼ Binomial(𝐾,𝜇𝑖). 𝛽 = (𝛽0, 𝛽1, 𝛽2)′ e 𝜏 sao parametros

e 𝑥𝑖 o valor de uma covariavel contınua para o 𝑖-esimo indivıduo. Uma possıvel relacao entre as

quantidades 𝜇𝑖 e as variaveis explicativas 𝑥𝑖 e dada por:

log

(𝜇𝑖

1− 𝜇𝑖

)= 𝛽0 + 𝛽1𝑥𝑖 + 𝛽2(𝑥𝑖 − 𝜏)+,

22

∀𝑖 ∈ {1, . . . , 𝑛}, em que (𝑎)+ = max(𝑎, 0). O interesse neste modelo reside majoritariamente na

estimacao das quantidades 𝛽2 e 𝜏 , sendo os parametros que refletem o surgimento do ponto de

quebra e a magnitude do seu efeito, respectivamente.

Considere agora que cada unidade experimental possui mensuracoes longitudinais em 𝑡𝑖 = (𝑡𝑖1, . . . ,

𝑡𝑖𝑛𝑖)′, ∀𝑖 ∈ {1, . . . , 𝑁} com T sendo a amplitude dos tempos observados. Por simplicidade, suponha

que todos os indivıduos tenham um ponto de quebra desconhecido, denotado por 𝜏𝑖 ∈ T. Neste

contexto, os preditores nao lineares mais comuns sao listados abaixo:

1. O chamado Broken-Stick Toms and Lesperance (2003):

𝜂1,𝑖𝑗 =

{𝛽0 + 𝛽1𝑡𝑖𝑗 𝑡𝑖𝑗 < 𝜏𝑖,

𝛽0 + 𝛽1𝜏𝑖 + 𝛽2(𝑡𝑖𝑗 − 𝜏𝑖) 𝑡𝑖𝑗 ≥ 𝜏𝑖,(2.2.1)

∀(𝑗, 𝑖) ∈ {1, . . . , 𝑛𝑖} × {1, . . . , 𝑁}. Se o ponto de quebra 𝜏𝑖 fosse conhecido, ter-se-ia um

preditor linear em 𝛽. Apesar de nao o ser, preservaremos a notacao tradicional, com subındice

representando que as covariaveis podem depender de 𝜏𝑖. 𝜂1,𝑖𝑗 pode ser escrito, entao, da forma:

𝜂1,𝑖𝑗 = 𝛽0 + 𝛽1min(𝑡𝑖𝑗, 𝜏𝑖) + 𝛽2(𝑡𝑖𝑗 − 𝜏𝑖)+ = 𝑥′

𝑖𝑗,𝜏𝑖𝛽,

com 𝑥𝑖𝑗,𝜏𝑖 = (1,min(𝑡𝑖𝑗, 𝜏𝑖), (𝑡𝑖𝑗 − 𝜏𝑖)+)′ e 𝛽 = (𝛽0, 𝛽1, 𝛽2)

′.

Claramente, as desvantagens de utilizar o modelo Broken-Stick sao pela sua nao diferenciabi-

lidade em 𝑡𝑖𝑗 = 𝜏𝑖,∀𝑗 ∈ {1, . . . , 𝑛𝑖}. Em abordagens de otimizacao classica e uma especificacao

que deve ser evitada.

2. Um conjunto de preditores contınuos, utilizados em diversas aplicacoes Hall et al. (2001),

Jacqmin-Gadda et al. (2006), Yu and Ghosh (2010):

𝜂2,𝑖𝑗 =

⎧⎪⎪⎨⎪⎪⎩𝛽0 +

𝐾1∑𝑘=1

𝛽𝑘𝑡𝑘𝑖𝑗, 𝑡𝑖𝑗 < 𝜏𝑖,

𝛽0 +𝐾1∑𝑘=1

𝛽𝑘𝑡𝑘𝑖𝑗 +

𝐾2∑𝑘=1

𝛽𝑘+𝐾1(𝑡𝑖𝑗 − 𝜏𝑖)𝑘, 𝑡𝑖𝑗 ≥ 𝜏𝑖.

(2.2.2)

Podemos escrever 𝜂2,𝑖𝑗 como:

𝜂2,𝑖𝑗 = 𝛽0 +

𝐾1∑𝑘=1

𝛽𝑘𝑡𝑘𝑖𝑗 +

𝐾2∑𝑘=1

𝛽𝑘+𝐾1 [(𝑡𝑖𝑗 − 𝜏𝑖)+]𝑘 = 𝑥′

𝑖𝑗,𝜏𝑖𝛽,

em que 𝑥𝑖𝑗,𝜏𝑖 =(1, 𝑡1𝑖𝑗, . . . , 𝑡

𝐾1𝑖𝑗 , [(𝑡𝑖𝑗 − 𝜏𝑖)

+]1, . . . , [(𝑡𝑖𝑗 − 𝜏𝑖)+]𝐾2

)′e 𝛽 = (𝛽0, 𝛽1, . . . , 𝛽𝐾1+𝐾2)

′.

O problema da falta de suavidade do preditor com respeito ao tempo 𝑡𝑖𝑗 = 𝜏𝑖 e contornado no

preditor dado em (2.2.2) desde que 𝐾2 ≥ 2 Seber and Wild (1989). Sua desvantagem, por outro

lado, e o acrescimo na dimensao do vetor de efeitos fixos para estimacao, com relacao a especificacao

(2.2.1). O comportamento das duas funcoes e mostrado nas figuras 2.3 e 2.4.

23

10

20

30

40

2.5 5.0 7.5 10.0

TempoP

red

ito

r

Figura 2.3: Preditor Broken-Stick com 𝛽2 ∈ (−7,−1). Alem disso, 𝜏 = 5, 𝛽0 = 40 e 𝛽1 = 0, 5.

−20

0

20

40

2.5 5.0 7.5 10.0

Tempo

Pre

dit

or

(a)

−80

−40

0

40

2.5 5.0 7.5 10.0

Tempo

Pre

dit

or

(b)

−50

0

2.5 5.0 7.5 10.0

Tempo

Pre

dit

or

(c)

Figura 2.4: Preditor em (2.2.2) com 𝐾1 = 1 e 𝐾2 = 2. Em todos os casos, 𝜏 = 5, 𝛽0 = 40 e 𝛽1 = 0, 5.Alem disso, todos os grids de 𝛽2 ou 𝛽3 possuem 14 valores. Especificamente, (a)𝛽3 = −0, 8 e𝛽2 ∈ (−7,−1); (b)𝛽2 = −4 e 𝛽3 ∈ (−4;−0, 05); (c)𝛽2 ∈ (−7,−1), enquanto 𝛽3 ∈ (−4;−0, 05).

A criacao de preditores com pontos de quebra com transicoes suaves e um tema ativo de pesquisa

nessa area. Tem-se, por exemplo, as especificacoes com a funcao tangente hiperbolica de Bacon and

Watts (1971), o Bent-Cable Tishler and Zang (1981), Chiu et al. (2006) e a polinomial van den Hout

et al. (2011). Elas possuem vantagens para o contexto de estimacao classica dos pontos de mudanca,

assim como uma maior flexibilidade de dinamica, considerando que trazem parametros de suavidade

adicionais.

24

2.3 O modelo de mistura de regressoes com componente de

declınio acelerado

Suponha que 𝑌1(𝑡1), . . . ,𝑌𝑁(𝑡𝑁) sejam vetores aleatorios independentes. Cada componente 𝑌𝑖(𝑡𝑖) =

𝑌𝑖 = (𝑌 (𝑡𝑖1), . . . , 𝑌 (𝑡𝑖𝑛𝑖))′ = (𝑌𝑖1, . . . , 𝑌𝑖𝑛𝑖

)′, representa o escore no tempo 𝑡𝑖𝑗 do 𝑖-esimo indivıduo,

𝑗 ∈ {1, . . . , 𝑛𝑖}, 𝑖 ∈ {1, . . . , 𝑁}. 𝑌𝑖𝑗 ∈ {0, . . . , 𝐾}, ∀(𝑖, 𝑗), em que 𝐾 e o numero de questoes do

questionario padrao aplicado longitudinalmente. Alem disso, considere os seguintes agrupamentos:

∙ 𝐺1 - indivıduos com declınio dos escores a taxa constante;

∙ 𝐺2 - indivıduos com ponto de quebra na trajetoria dos escores (total de acertos do questionario).

Sabendo que as especificacoes de preditores em (2.2.1) e (2.2.2) trazem parametros adicionais por

conta do ponto de quebra, deve-se ter cautela ao postular o modelo para os diferentes grupos. Em

outras palavras, e interessante que a proposta garanta a mesma dimensao do espaco gerado pelas

covariaveis entre os grupos 𝐺1 e 𝐺2, como nas especificacoes tradicionais de mistura McLachlan and

Peel (2004). A solucao para a questao da dimensionalidade e dada propondo um ponto de quebra

para cada indivıduo, como um efeito aleatorio, mas que assume a seguinte forma Yu and Ghosh

(2010):

𝜏𝑖 =

{𝜏∞,𝑖, com probabilidade (1− 𝑝𝑖)

𝜏𝑎,𝑖, com probabilidade 𝑝𝑖,

em que 𝜏∞,𝑖𝑞.𝑐.−→ +∞ , 𝜏𝑎,𝑖 ∼ Normal(𝜇𝜏 , 𝜎

2𝜏 )1{𝜏𝑖 ∈ T} e T e a amplitude dos tempos observados.

Assim, se o indivıduo nao apresenta um declınio acelerado na sua trajetoria, entao a variavel assume

algum valor 𝜏𝑖𝑞.𝑐.−→ +∞ e a contribuicao das covariaveis [(𝑡𝑖𝑗 − 𝜏𝑖)

+]𝑘 e nula para todo 𝑘. Pode-se

determinar, ainda, os pontos de quebra com auxılio de variaveis latentes 𝑆1, . . . , 𝑆𝑁𝑖𝑛𝑑∼ Bernoulli(𝑝𝑖)

que indicam a alocacao do 𝑖-esimo indivıduo: caso 𝑆𝑖 = 0, entao, 𝑖 ∈ 𝐺1, e se 𝑆𝑖 = 1, entao, 𝑖 ∈ 𝐺2,

isto e,

𝜏𝑖 =(𝜏∞,𝑖

)1{𝑆𝑖=0}(𝜏𝑎,𝑖)1{𝑆𝑖=1}

,

com 𝜏∞,𝑖 e 𝜏𝑎,𝑖 ja definidos anteriormente.

Assim como na extensao dos Modelos Lineares Generalizados de Efeitos Mistos McCulloch and

Neuhaus (2001), outro conjunto de efeitos aleatorios serao introduzidos no estudo. Considere a

amostra independente 𝑏1, . . . , 𝑏𝑁 ∼ Normal𝑞𝑏(0,D), e componentes 𝑏𝑖 = (𝑏𝑖1, . . . , 𝑏𝑖𝑞𝑏)′. Com estes,

o objetivo e de capturar particularidades dos indivıduos nas trajetorias de escore medio obtidas. A

representacao hierarquica do modelo e, entao, dada por:

𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖) (2.3.1)

𝑏𝑖𝑖𝑖𝑑∼ Normal𝑞𝑏(0,D)

𝜏𝑎,𝑖𝑖𝑖𝑑∼ Normal(𝜇𝜏 , 𝜎

2𝜏 )1{𝜏𝑎,𝑖 ∈ T}

25

𝑆𝑖𝑖𝑛𝑑∼ Bernoulli(𝑝𝑖),

𝜏𝑖 =(𝜏∞,𝑖

)1{𝑆𝑖=0}(𝜏𝑎,𝑖)1{𝑆𝑖=1}

𝜇𝑖𝑗 = 𝑔−1(𝑥′𝑖𝑗,𝜏𝑖

𝛽 + 𝑧′𝑖𝑗,𝜏𝑖

𝑏𝑖) (2.3.2)

𝑝𝑖 = ℎ−1(𝑤′𝑖𝜆), (2.3.3)

∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁}×{1, . . . , 𝑛𝑖}. 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖) assume as formas (2.1.1) ou (2.1.4), isto e, pode-se

ter em (2.3.1) que[𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖

] 𝑖𝑛𝑑∼ Binomial(𝐾,𝜇𝑖𝑗) ou[𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖

] 𝑖𝑛𝑑∼ Beta-Binomial(𝐾,𝜑𝜇𝑖𝑗, 𝜑(1−𝜇𝑖𝑗)). Alem disso, 𝑔, ℎ : (0, 1) ↦→ R sao funcoes de ligacao, 𝛽 e 𝜆 vetores de efeitos fixos com di-

mensoes 𝑞𝛽 × 1 e 𝑞𝜆 × 1, respectivamente. 𝑤𝑖 = (𝑤𝑖1, . . . , 𝑤𝑖𝑞𝜆)′ sao as covariaveis para modelar a

probabilidade de classificacao no grupo com ponto de quebra, como em Yu and Ghosh (2010).

De acordo com as expressoes dos preditores nao lineares (2.2.1) e (2.2.2), os vetores de co-

variaveis para os efeitos fixos e aleatorios das medias 𝜇𝑖𝑗 dependem dos valores 𝜏1, . . . , 𝜏𝑁 e dos vetores

𝑡1, . . . , 𝑡𝑁 . Entao, intrinsecamente, 𝑥𝑖𝑗,𝜏𝑖 = (𝑥𝑖𝑗1(𝜏𝑖), . . . , 𝑥𝑖𝑗𝑞𝛽(𝜏𝑖))′ e 𝑧𝑖𝑗,𝜏𝑖 = (𝑧𝑖𝑗1(𝜏𝑖), . . . , 𝑧𝑖𝑗𝑞𝑏(𝜏𝑖))

′.

Tenha em vista, entretanto, que para ındices arbitrarios 𝑘1 e 𝑘2, 𝑥𝑖𝑗𝑘1(𝜏𝑖) e 𝑧𝑖𝑗𝑘2(𝜏𝑖) podem tanto

depender do tempo ou ponto de quebra como ser uma caracterıstica fixa, por exemplo, o genero do

indivıduo.

Segundo as formulas (2.1.2), (2.1.3), (2.1.5) e (2.1.6), as caracterısticas para as variaveis resposta

𝑌𝑖𝑗, ∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁} × {1, . . . , 𝑛𝑖} sob os modelos Binomial e Beta-Binomial se tornam:

∙ Caso 𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Binomial(𝐾,𝜇𝑖𝑗) :

E[𝑌𝑖𝑗] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]

= 𝐾 E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝜇𝑖𝑗]

= 𝐾 E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′

𝑖𝑗,𝜏𝑖𝛽 + 𝑧′

𝑖𝑗,𝜏𝑖𝑏𝑖)],

Var[𝑌𝑖𝑗] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [Var[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]] + Var𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]

= 𝐾 E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖

[𝑔−1(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖)(1− 𝑔−1(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖))]

+𝐾2Var𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′



Cov[𝑌𝑖𝑗, 𝑌𝑖𝑘] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [Cov[(𝑌𝑖𝑗, 𝑌𝑖𝑘)|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]

+ Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖],E[𝑌𝑖𝑘|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]

= E[0] + Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝐾𝜇𝑖𝑗, 𝐾𝜇𝑖𝑘]

= 𝐾2Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖), 𝑔

−1(𝑥′𝑖𝑘,𝜏𝑖

𝛽 + 𝑧′𝑖𝑘,𝜏𝑖

𝑏𝑖)], ∀𝑗 = 𝑘;

∙ Caso 𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Beta-Binomial(𝐾,𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗)) :

E[𝑌𝑖𝑗] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]

26

= 𝐾 E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝜇𝑖𝑗]

= 𝐾 E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′



Var[𝑌𝑖𝑗] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [Var[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]] + Var𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]

= 𝐾

[1 +

𝐾 − 1

𝜑+ 1

]E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖

[𝑔−1(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖)(1− 𝑔−1(𝑥′



+𝐾2Var𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′



Cov[𝑌𝑖𝑗, 𝑌𝑖𝑘] = E𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [Cov[(𝑌𝑖𝑗, 𝑌𝑖𝑘)|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]

+ Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [E[𝑌𝑖𝑗|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖],E[𝑌𝑖𝑘|𝑏𝑖, 𝑆𝑖, 𝜏𝑎,𝑖]]

= E[0] + Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝐾𝜇𝑖𝑗, 𝐾𝜇𝑖𝑘]

= 𝐾2Cov𝑏𝑖,𝑆𝑖,𝜏𝑎,𝑖 [𝑔−1(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖), 𝑔

−1(𝑥′𝑖𝑘,𝜏𝑖

𝛽 + 𝑧′𝑖𝑘,𝜏𝑖

𝑏𝑖)], ∀𝑗 = 𝑘.

A associacao entre escores em diferentes tempos sera uma decorrencia da distribuicao dos efeitos

aleatorios 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖,∀𝑖, e das funcoes de ligacao 𝑔, ℎ escolhidas. Nos casos em que o metodo de es-

timacao se der sob a perspectiva Bayesiana, as caracterısticas numericas calculadas ainda dependerao

da distribuicao a priori dos parametros envolvidos.

As funcoes de ligacao mais difundidas sao a logito, logito(𝑝) = log(𝑝/(1 − 𝑝)) e a probito,

probito(𝑝) = Φ−1(𝑝), em que Φ(·) denota a funcao de distribuicao acumulada de uma variavel

aleatoria Normal padrao. A primeira possui uma interpretacao conveniente, pois a razao de chances

entre as probabilidades 𝑝 e (1− 𝑝) e facilmente derivada da expressao. Por outro lado, estas formas

sao pouco flexıveis caso os preditores [𝑥′𝑖𝑗,𝜏𝑖

𝛽+𝑧′𝑖𝑗,𝜏𝑖

𝑏𝑖] em (2.3.2) e [𝑤′𝑖𝜆] em (2.3.3) apresentem assi-

metria em termos de alguma covariavel em 𝑥𝑖𝑗,𝜏𝑖 ou 𝑧𝑖𝑗,𝜏𝑖 . Funcoes de ligacao simetricas e assimetricas

tradicionais sao apresentadas na Tabela 2.1.

Tabela 2.1: Funcoes de ligacao comuns para regressao com dados binarios.

Nome Expressao 1o Quartil Mediana 3o Quartil

Logito 𝑔(𝑥) = log(𝑥/(1− 𝑥)

)-1,099 0,000 1,099

Probito 𝑔(𝑥) = Φ−1(𝑥) -0,674 0,000 0,674

Log-Log complementar 𝑔(𝑥) = log(−log(1− 𝑥)) -1,246 -0,367 0,327

Reversa Log-Log complementar 𝑔(𝑥) = −log(−log(𝑥)) -0,327 0,367 1,246

2.3.1 Verossimilhanca para o modelo proposto

De acordo com a representacao hierarquica em (2.3.1)-(2.3.3) e as suposicoes delineadas na Secao

2.3, a funcao densidade conjunta das variaveis respostas 𝑦𝑖 = (𝑦𝑖1, . . . , 𝑦𝑖𝑛𝑖) de um indivıduo e obtida

27

com base na aplicacao sucessiva do Teorema da Multiplicacao:

𝑓(𝑦𝑖, 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖) = 𝑓(𝑦𝑖|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖)𝑓(𝑏𝑖|𝜏𝑎,𝑖, 𝑆𝑖)𝑓(𝜏𝑎,𝑖|𝑆𝑖)𝑓(𝑆𝑖)

𝑖𝑛𝑑=

[ 𝑛𝑖∏𝑗=1

𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖)

]𝑓(𝑏𝑖)𝑓(𝜏𝑎,𝑖)𝑓(𝑆𝑖).

Seja 𝜃 = (𝛽′,𝜆′, vec(D)′, 𝜇𝜏 , 𝜎2𝜏 , 𝜑)

′ o vetor de parametros associados ao modelo. Assim, a funcao

densidade marginal dos escores alcancados por um indivıduo e a verossimilhanca sao dados por:

𝑓(𝑦𝑖) =

∫∫𝐴

1∑𝑆𝑖=0

[ 𝑛𝑖∏𝑗=1


]𝑓(𝑏𝑖)𝑓(𝜏𝑎,𝑖)𝑓(𝑆𝑖) d𝑏𝑖 d𝜏𝑎,𝑖,

𝐿(𝜃|𝑦) =𝑁∏𝑖=1

[∫∫𝐴

1∑𝑆𝑖=0

[ 𝑛𝑖∏𝑗=1


]𝑓(𝑏𝑖)𝑓(𝜏𝑎,𝑖)𝑓(𝑆𝑖) d𝑏𝑖 d𝜏𝑎,𝑖

], (2.3.4)

∀𝑖 ∈ {1, . . . , 𝑁}, em que 𝐴 = T× R𝑞𝑏 .

Em modelos de regressao com efeitos aleatorios, e recorrente a dificuldade de se trabalhar com

a distribuicao marginal das variaveis resposta, visto que necessitam do calculo de integrais para sua

obtencao Pinheiro and Bates (1995). Portanto, e conveniente calcular a chamada verossimilhanca

completa (ou aumentada), como em Little and Rubin (1983), Tan et al. (2009). Metodos de es-

timacao como o Algoritmo EM (Expectation-Maximization) e suas variacoes Dempster et al. (1977),

Delyon et al. (1999) ou em inferencia Bayesiana Gelman et al. (2014) se utilizam fortemente da

verossimilhanca completa.

Considere Ω = (𝑦′, 𝑏′, 𝜏 ′𝑎,𝑆

′)′ o vetor de observacoes aumentado. As verossimilhancas completas

para as duas postulacoes da variavel resposta condicional 𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖 sao como se segue:

Caso 𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Binomial(𝐾,𝜇𝑖𝑗), o vetor de parametros e reduzido a 𝜃 = (𝛽′,𝜆′, vec(D)′, 𝜇𝜏 , 𝜎

2𝜏 )

′

e tem-se a seguinte verossimilhanca completa:

𝐿𝑐(𝜃|Ω) =𝑁∏𝑖=1

[[ 𝑛𝑖∏𝑗=1


]𝑓(𝑏𝑖)𝑓(𝜏𝑎,𝑖)𝑓(𝑆𝑖)

]

=𝑁∏𝑖=1

[[ 𝑛𝑖∏𝑗=1

(𝐾

𝑦𝑖𝑗

)𝜇𝑦𝑖𝑗𝑖𝑗 (1− 𝜇𝑖𝑗)

𝐾−𝑦𝑖𝑗

]× (2𝜋)−𝑞𝑏/2|D|−1/2exp

{− 1

2𝑏′𝑖D

−1𝑏𝑖

}× 𝑝𝑆𝑖

𝑖 (1− 𝑝𝑖)1−𝑆𝑖

× (2𝜋𝜎2𝜏 )

−1/2exp{− 1

2𝜎2𝜏

(𝜏𝑎,𝑖 − 𝜇𝜏 )2}[P(𝜏𝑎,𝑖 ∈ T)]−1

]

=𝑁∏𝑖=1

[[ 𝑛𝑖∏𝑗=1

(𝐾

𝑦𝑖𝑗

)(𝑔−1(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖)

)𝑦𝑖𝑗(1− 𝑔−1(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖)

)𝐾−𝑦𝑖𝑗]× (2𝜋)−𝑞𝑏/2|D|−1/2exp

{− 1

2𝑏′𝑖D

−1𝑏𝑖

}×[ℎ−1(𝑤′

𝑖𝜆)]𝑆𝑖[1− ℎ−1(𝑤′

𝑖𝜆)]1−𝑆𝑖

28

× (2𝜋𝜎2𝜏 )

−1/2exp{− 1

2𝜎2𝜏

(𝜏𝑎,𝑖 − 𝜇𝜏 )2}[P(𝜏𝑎,𝑖 ∈ T)]−1

].

Caso 𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Beta-Binomial(𝐾,𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗)), 𝜃 = (𝛽′,𝜆′, vec(D)′, 𝜇𝜏 , 𝜎

2𝜏 , 𝜑)

′ e tem-se

𝐿𝑐(𝜃|Ω) =𝑁∏𝑖=1

[[ 𝑛𝑖∏𝑗=1


]𝑓(𝑏𝑖)𝑓(𝜏𝑎,𝑖)𝑓(𝑆𝑖)

]

=𝑁∏𝑖=1

[[ 𝑛𝑖∏𝑗=1

(𝐾

𝑦𝑖𝑗

)B[𝑦𝑖𝑗 + 𝜑𝜇𝑖𝑗, 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝜇𝑖𝑗)

]B[𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗)

] ]× (2𝜋)−𝑞𝑏/2|D|−1/2exp

{− 1

2𝑏′𝑖D

−1𝑏𝑖

}

× 𝑝𝑆𝑖𝑖 (1− 𝑝𝑖)

1−𝑆𝑖 × (2𝜋𝜎2𝜏 )

−1/2exp{− 1

2𝜎2𝜏

(𝜏𝑎,𝑖 − 𝜇𝜏 )2}[P(𝜏𝑎,𝑖 ∈ T)]−1

]

=𝑁∏𝑖=1

[[ 𝑛𝑖∏𝑗=1

(𝐾

𝑦𝑖𝑗

)B[𝑦𝑖𝑗 + 𝜑𝑔−1(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖), 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝑔−1(𝑥′



B[𝜑𝑔−1(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖), 𝜑(1− 𝑔−1(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖))] ]

× (2𝜋)−𝑞𝑏/2|D|−1/2exp

{− 1

2𝑏′𝑖D

−1𝑏𝑖

}×[ℎ−1(𝑤′

𝑖𝜆)]𝑆𝑖[1− ℎ−1(𝑤′


× (2𝜋𝜎2𝜏 )

−1/2exp{− 1

2𝜎2𝜏

(𝜏𝑎,𝑖 − 𝜇𝜏 )2}[P(𝜏𝑎,𝑖 ∈ T)]−1

]. (2.3.5)

29

Capıtulo 3

Metodo de Estimacao

No presente trabalho, as escolhas por delinear o modelo para analise dos escores de habilidade

cognitiva com grupos latentes, efeitos aleatorios tanto para a media como para os pontos de quebra

tornam a verossimilhanca em (2.3.4) de difıcil manuseio. Isto se da pelas integrais e somatorio

inerentes ao calculo das densidades marginais 𝑓(𝑦1), . . . , 𝑓(𝑦𝑁). Optou-se, portanto, pelos metodos

Bayesianos de estimacao dos parametros, os quais carregam vantagens explicadas no decorrer deste

capıtulo.

A inferencia Bayesiana tem como princıpio uma formulacao inteiramente probabilıstica para a

variavel resposta e os parametros de interesse Box and Tiao (2011). As vantagens destes procedimen-

tos de estimacao vem tanto de um ponto de vista pratico como teorico. Os algoritmos de estimacao

sao baseados na combinacao de informacao do pesquisador/usuario (com as distribuicoes a priori

dos parametros, 𝜋(𝜃)), e a informacao vinda dos dados coletados, pela funcao de verossimilhanca.

Com isso, o objetivo e encontrar a forma da distribuicao a posteriori, 𝜋(𝜃|𝑦) Gilks et al. (1995).

No que diz respeito a especificacao do fenomeno, a inferencia Bayesiana permite que parametros

de modelos complexos e com representacoes hierarquicas extensas sejam convenientemente estimados.

Isto e feito ao transformar o paradigma de maximizacao da funcao de verossimilhanca, em inferencia

classica, para um de geracao de (pseudo-) variaveis aleatorias Robert (2007). Assim, algoritmos

de simulacao se fazem necessarios para encontrar amostras da distribuicao a posteriori e extrair

informacao da estrutura delineada. Uma vez que amostras da distribuicao a posteriori dos parametros

sao obtidas, tanto as inferencias como ferramentas de diagnostico e medidas para comparacao de

modelos Bayesianos sao calculadas sem maiores problemas.

Alem disso, para problemas que incluem efeitos aleatorios, o procedimento Bayesiano e bastante

conveniente, pois evita o calculo de integrais para a obtencao da distribuicao marginal dos dados.

Nestes casos, trabalha-se com a estrutura de dados aumentados, como nos algoritmos EM Dempster

et al. (1977) e suas extensoes.

Entretanto, esta perspectiva para lidar com problemas de inferencia deve ser utilizada com cautela.

30

Assim como suposicoes acerca das distribuicoes a priori podem enriquecer as analises, elas tambem

podem levar a conclusoes erroneas: veja Alvarez et al. (2014), por exemplo, sobre a estimacao

Bayesiana de matrizes de covariancia. E sempre valido, tambem, checar a sensibilidade do modelo

para diferentes postulacoes da estrutura a priori dos parametros Berger (1990).

3.1 Inferencia Bayesiana

Suponha que 𝑦 e um vetor de dados observados da distribuicao condicional 𝑌 |𝜃 ∼ 𝑓(·|𝜃), e𝜃 ∈ Θ ⊆ R𝑑 e um vetor aleatorio com distribuicao a priori 𝜃 ∼ 𝜋(·). Pelo Teorema de Bayes, temos

que a distribuicao a posteriori de 𝜃 condicionada aos dados 𝑦, 𝜋(𝜃|𝑦), sera resumida por

𝜋(𝜃|𝑦) = 𝑓(𝜃,𝑦)

𝑓(𝑦)=

𝑓(𝑦|𝜃)𝜋(𝜃)𝑓(𝑦)

∝ 𝑓(𝑦|𝜃)𝜋(𝜃). (3.1.1)

O lado direito da relacao (3.1.1) e o nucleo da distribuicao a posteriori 𝜋(𝜃|𝑦), e determina comple-

tamente sua forma, visto que o denominador 𝑓(𝑦) independe de 𝜃 (e, portanto, somente a constante

de proporcionalidade da densidade).

Toda inferencia sobre o parametro 𝜃 e feita com base na densidade 𝜋(𝜃|𝑦), agora que tambem

considera informacao baseada na amostra obtida. Em problemas de estimacao pontual, opta-se por

encontrar um valor que represente melhor determinado parametro. Note que “representar melhor”

aqui e um conceito subjetivo, e sempre deve ser entendido como um criterio (com ou sem restricoes)

sob o qual a estimacao das quantidades de interesse e feita. Por exemplo, no conhecido metodo de

Mınimos Quadrados para regressao linear simples homocedastica, o objetivo e encontrar os valores

(𝛽0, 𝛽1)′ tais que a funcao 𝑄(𝛽0, 𝛽1) =

∑𝑖(𝑦𝑖 − 𝛽0 − 𝛽1𝑥𝑖)

2 seja mınima.

Sem perda de generalidade, seja 𝜃 o parametro unidimensional com espaco parametrico Θ ⊆ R,𝒟 ⊆ R𝑛 o suporte do vetor aleatorio 𝑌 e 𝛿𝜋(𝑌 ) uma decisao para 𝜃, isto e, um estimador desta

quantidade. Todo procedimento de inferencia Bayesiana deve ser embasado pela determinacao de

tres fatores:

1. a distribuicao das observacoes, 𝑓(𝑦|𝜃);

2. a distribuicao a priori do parametro, 𝜋(𝜃);

3. a funcao de perda ℒ : Θ×𝒟 ↦→ [0,+∞) associada a decisao 𝛿𝜋.

Definicao 3.1.1. O risco integrado e a funcao 𝑟(𝜋, 𝛿) dada por

𝑟(𝜋, 𝛿) =

∫Θ

(∫𝒟ℒ(𝜃, 𝛿(𝑦))𝑓(𝑦|𝜃) d𝑦

)𝜋(𝜃) d𝜃.

31

Teorema 3.1.1 (Robert (2007)). Um estimador 𝛿𝜋 que minimiza a funcao de risco integrado pode

ser obtido ao minimizar a perda esperada a posteriori ,

𝑔(𝜋, 𝛿𝜋(𝑦)|𝑦) =∫Θ

ℒ(𝜃, 𝛿𝜋(𝑦))𝜋(𝜃|𝑦) d𝜃,

para cada 𝑦 ∈ 𝒟.

Prova do Teorema 3.1.1. Como ℒ(𝜃, 𝛿) ≥ 0, vale o Teorema de Fubini para trocar a ordem de inte-

gracao, e

𝛿𝜋 = arg min𝛿

∫∫Θ×𝒟

ℒ(𝜃, 𝛿(𝑦))𝑓(𝑦|𝜃) d𝑦 𝜋(𝜃) d𝜃

= arg min𝛿

∫∫𝒟×Θ

ℒ(𝜃, 𝛿(𝑦))𝑓(𝑦|𝜃)𝜋(𝜃)𝑓(𝑦)

𝑓(𝑦) d𝜃 d𝑦

= arg min𝛿

∫𝒟

𝑔(𝜋, 𝛿(𝑦)|𝑦)𝑓(𝑦) d𝑦

= arg min𝛿

𝑔(𝜋, 𝛿(𝑦)|𝑦), para cada 𝑦 ∈ 𝒟,

Assim, diz-se que 𝛿𝜋 encontrado pela minimizacao da funcao de perda esperada a posteriori

e um estimador de Bayes, sob funcao de perda L e a priori 𝜋(·). De agora em diante, utilizaremos

simplesmente a notacao 𝜃 para denotar estimadores Bayesianos do parametro 𝜃. As funcoes de perda

mais usuais e seus respectivos estimadores sao listadas na Tabela 3.1:

Tabela 3.1: Funcoes de perdas usuais e os respectivos estimadores Bayesianos encontrados pelaminimizacao em (3.1.1).

Nome Expressao Estimador associado

Perda Absoluta ℒ(𝜃, 𝛿) = |𝜃 − 𝛿| 𝜃 = mediana{𝜋(𝜃|𝑦)

}Perda Quadratica ℒ(𝜃, 𝛿) = (𝜃 − 𝛿)2 𝜃 = E[𝜃|𝑦]

Perda 0-1 ℒ(𝜃, 𝛿) =

{0, se 𝜃 = 𝛿

1, se 𝜃 = 𝛿𝜃 = moda

{𝜋(𝜃|𝑦)

}Perda Multilinear ℒ𝑘1,𝑘2(𝜃, 𝛿) =

{𝑘1(𝛿 − 𝜃), se 𝜃 ≤ 𝛿

𝑘2(𝜃 − 𝛿), se 𝜃 > 𝛿𝜃 e o 𝑘2

𝑘1+𝑘2-esimo quantil de 𝜋(𝜃|𝑦)

Na pratica, a distribuicao 𝜋(𝜃|𝑦) e dificilmente obtida de maneira explıcita. A solucao para en-

contrar os estimadores do vetor 𝜃 e conseguir uma amostra da densidade a posteriori, por metodos

de simulacao de variaveis aleatorias Gelman et al. (2014). Ainda assim, em casos multiparametricos,

32

nem sempre o nucleo de 𝜋(𝜃|𝑦) e de alguma distribuicao completamente conhecida. Uma das es-

trategias possıveis e entao obter amostras via simulacao das chamadas distribuicoes condicionais

completas, que nada mais sao do que a colecao de densidades {𝜋(𝜃𝑘|𝑦,𝜃−𝑘);∀𝑘 ∈ {1, . . . , 𝑑}}, emque 𝜃−𝑘 = (𝜃1, . . . , 𝜃𝑘−1, 𝜃𝑘+1, . . . , 𝜃𝑑)

′. Esta tecnica pertence aos conhecidos algoritmosMarkov Chain

Monte Carlo - MCMC Gilks et al. (1995).

Desde que o suporte da densidade 𝜋(𝜃|𝑦) seja o produto cartesiano dos suportes das condicionais

completas {𝜋(𝜃𝑘|𝑦,𝜃−𝑘);∀𝑘 ∈ {1, . . . , 𝑑}}, as cadeias de amostras das condicionais completas geradas

via MCMC sao ergodicas Robert (2007). Cuidados adicionais devem ser tomados para eliminar

a dependencia das cadeias de cada parametro: escolher uma amostra gerada a cada 𝑙 valores e

eliminar as 𝐵 primeiras simulacoes, para desconsiderar o efeito dos valores iniciais. Assim, conforme o

numero de simulacoes cresce, espera-se que as amostras obtidas sejam representativas da distribuicao

estacionaria 𝜋(𝜃|𝑦). Os calculos das estimativas Bayesianas sao feitos com base nas versoes amostrais

das estatısticas mostradas na Tabela 3.1.

3.1.1 Algoritmos de simulacao

Ferramentas tradicionais para encontrar estimativas Bayesianas se baseiam em conceitos de inte-

gracao numerica, aproximacao analıtica de Laplace ou metodos de Monte Carlo para calcular inte-

grais da distribuicao a posteriori Robert (2004). Por exemplo, supondo funcao de perda quadratica,

o estimador de 𝜃 e dado por:

𝜃 = E[𝜃|𝑦] =∫

𝜃 𝜋(𝜃|𝑦) d𝜃 =

∫𝜃𝑓(𝑦|𝜃)𝜋(𝜃) d𝜃∫𝑓(𝑦|𝜃)𝜋(𝜃) d𝜃

. (3.1.2)

Assim, 𝜃 poderia ser estimado por quadraturas gaussianas ou gerando uma amostra 𝜃(1), . . . , 𝜃(𝑀) da

distribuicao a priori 𝜋(𝜃) e aproximando (3.1.2) por 𝜃 ≈ 𝐴𝐵, 𝐵 > 0, com

𝐴 =1

𝑀

𝑀∑𝑘=1

𝜃(𝑘)𝑓(𝑦|𝜃(𝑘)) 𝑞.𝑐.−→∫

𝜃𝑓(𝑦|𝜃)𝜋(𝜃) d𝜃, (3.1.3)

𝐵 =1

𝑀

𝑀∑𝑘=1

𝑓(𝑦|𝜃(𝑘)) 𝑞.𝑐.−→∫

𝑓(𝑦|𝜃)𝜋(𝜃) d𝜃, (3.1.4)

visto que 𝐴𝐵

𝑞.𝑐.−→ E[𝜃|𝑦]. Este resultado e decorrente das propriedades de convergencia quase certa,

juntamente com (3.1.3) e (3.1.4). Esta abordagem torna-se menos acurada a medida que a dimensao

do espaco parametrico cresce. Alem disso, a inferencia acerca destes estimadores nao e feita de

maneira direta.

Com o avanco das capacidades de processamento e armazenamento de informacao dos computa-

dores na decada de 1990, os algoritmos MCMC tornaram-se mais vantajosos em relacao aos metodos

Monte Carlo tradicionais. Eles sao, em princıpio, amplamente aplicaveis a problemas de inferencia

33

Bayesiana e trabalham melhor com espacos parametricos de alta dimensao.

Os algoritmos MCMC baseiam-se na construcao de cadeias de Markov dos parametros, de forma

que sua distribuicao estacionaria seja a densidade de interesse 𝜋(𝜃|𝑦). Como o numero de simulacoes

para que a estacionariedade e nao correlacao das cadeias seja atingida pode ser grande, estes metodos

tem um custo computacional alto. Dentro desta categoria de algoritmos, encontram-se os conhecidos

metodos de simulacao Amostrador de Gibbs Casella and George (1992) e Metropolis-Hastings Has-

tings (1970). E possıvel ainda combinar tecnicas de simulacao como o Slice Sampling Neal (1997)

ou o metodo de Aceitacao-Rejeicao Devroye (1986) dentro do Amostrador de Gibbs, por exemplo.

Amostrador de Gibbs

O Amostrador de Gibbs, as vezes chamado de amostragem condicional alternada, e uma ferra-

menta importante e muito utilizada quando o parametro de interesse 𝜃 e multidimensional. Considere

ainda a estrutura 𝜃 ∈ Θ ⊆ R𝑑. O algoritmo em questao faz uso das distribuicoes condicionais com-

pletas, definidas na Secao 3.1, e o procedimento e descrito no Algoritmo B.2.

Caso as condicionais completas tenham a forma de distribuicoes conhecidas, opera-se com metodos

de simulacao de variaveis aleatorias tradicionais, como o Metodo da Inversao, o Metodo da Aceitacao-

Rejeicao, Metodo da Composicao ou Metodo da Representacao Estocastica, para explicacao e exem-

plos, veja Tan et al. (2009).

Por outro lado, se para pelo menos um 𝑘, a distribuicao 𝜋(𝜃𝑘|𝜃−𝑘) nao tiver forma conhecida,

deve-se simular desta(s) variavel(is) aleatoria(s) com outros metodos, como os que seguem.

Metropolis-Hastings

Suponha que queiramos simular uma variavel aleatoria da densidade ℎ(·), de suporte ℋ. Escolhe-se uma densidade auxiliar 𝑔 : ℋ ↦→ [0,+∞), da qual se sabe gerar valores aleatorios. Sob o algoritmo

de Metropolis-Hastings, ℎ e vista como a distribuicao estacionaria de um processo aleatorio Markovi-

ano. Assim, seus valores sao gerados atraves de uma cadeia de Markov e, de acordo com um criterio

das condicoes de balanco, estes valores podem ou nao ser aceitos, segundo o esquema do Algoritmo

B.1.

Note que da maneira como se define a probabilidade de aceitacao, 𝑎, e suficiente saber o nucleo

da densidade objetivo ℎ para que o algoritmo funcione. Uma desvantagem desta ferramenta e a

arbitrariedade na escolha da funcao 𝑔, visto que ela interfere na taxa de aceitacao e define, entao, a

velocidade/eficacia do procedimento Chib and Greenberg (1995).

34

Slice sampler

Uma alternativa interessante para a simulacao de valores provenientes de condicionais completas

desconhecidas e o Slice sampler. Alem de ter operacoes computacionalmente menos custosas, em

diversos cenarios (multimodalidade, por exemplo) ele e mais eficiente do que o Metropolis-Hastings.

Como discutido em Neal (2003), ele e introduzido justamente com o objetivo de ser adaptativo

e de uso automatizado, ao contrario das formulacoes tradicionais do Metropolis-Hastings. Genera-

lizacoes para casos multivariados e demonstracao dos resultados de invariancia da amostra gerada

sao apresentadas no mesmo artigo.

Novamente, suponha que a densidade objetivo e proporcional a funcao ℎ : ℋ ↦→ [0,+∞). Defi-

nindo uma variavel auxiliar, 𝑧, a ideia do algoritmo e obter uma amostra da distribuicao conjunta

uniforme de (𝑋,𝑍) sobre o conjunto 𝑈 = {(𝑥, 𝑧) : 0 < 𝑧 < ℎ(𝑥)}, e em sequencia projeta-los sobre o

eixo das abscissas para obter uma amostra da densidade determinada por ℎ(𝑥). Sendo um metodo

robusto para simular de funcoes de probabilidade e ate densidades multimodais, ha diferentes pos-

sibilidades para implementacao de algumas etapas do algoritmo. O procedimento geral consiste em,

com base num valor inicial 𝑥(0):

i. Gerar 𝑧 ∼ Uniforme(0, ℎ(𝑥(0))), e definir o corte horizontal 𝑆 = {𝑥 : 𝑧 < ℎ(𝑥)}.

ii. Encontrar um intervalo 𝐼 = (𝐿,𝑅) ao redor de 𝑥(0) que contenha todos, ou grande parte

dos pontos de 𝑆. Este passo pode ser feito pelo procedimento stepping out, que incrementa

alternadamente a vizinhanca do ponto 𝑥(0) ate que 𝑆 ⊂ 𝐼; ou pelo procedimento doubling, que

incrementa a vizinhanca ao redor de 𝑥(0) sempre duplicando seu tamanho, ate que 𝑆 ⊂ 𝐼.

iii. O novo valor 𝑥(1) e simulado de uma distribuicao uniforme sobre o conjunto 𝐼, e aceito se

pertencer ao conjunto 𝐴 = {𝑥 : 𝑥 ∈ 𝑆 ∩ 𝐼 e P(𝐼 | estado 𝑥) = P(𝐼 | estado 𝑥0)}.

Como exemplo, o algoritmo slice sampling para distribuicoes unimodais com procedimento doubling

e mostrado pelo Algoritmo B.3.

Simulacao com variaveis auxiliares para modelos logısticos Binomiais

A estimacao Bayesiana de Modelos Lineares Generalizados e complicada sob um ponto de vista

computacional, pelo fato do valor esperado condicional das variaveis resposta nao mais ser uma

funcao linear nos parametros. As distribuicoes condicionais completas dos efeitos das covariaveis

tornam-se desconhecidas por conta da funcao de ligacao entre os preditores e a densidade da variavel

resposta, exigindo algoritmos mais sofisticados de simulacao para gerar valores das suas distribuicoes,

tais como o Metropolis-Hastings e/ou Slice sampling.

35

Em alguns casos dentro da famılia exponencial, entretanto, e possıvel construir um amostrador de

Gibbs que herda caracterısticas desejaveis das estimacoes Bayesianas de modelos lineares gaussianos,

sem precisar dos referidos algoritmos adicionais. Tais procedimentos tem como base a determinacao

de variaveis auxiliares para criacao de uma verossimilhanca completa Tanner and Wong (1987), e

servem em particular para regressao com distribuicao de Poisson e Binomial, sob certas funcoes de

ligacao.

Dentro dos modelos de regressao Bernoulli, o novo procedimento foi desenvolvido para o caso com

ligacao probito Albert and Chib (1993), enquanto os autores Holmes and Held (2006) estenderam

para o caso com ligacao logito. Desde entao, os metodos mais interessantes e eficientes elaborados

para regressao Binomial logıstica estao descritos em Fruhwirth-Schnatter and Fruhwirth (2007) e

Fruhwirth-Schnatter et al. (2009). A ideia sera introduzida para o caso com respostas Bernoulli, e

depois generalizado para 𝐾 ensaios com resposta dicotomica.

Suponha o modelo de regressao 𝑌1, . . . , 𝑌𝑛𝑖𝑛𝑑∼ Bernoulli(𝑝𝑖), logito(𝑝𝑖) = 𝑥′

𝑖𝛽, em que 𝑥𝑖 e o vetor

de covariaveis e 𝛽 um vetor de parametros com distribuicao gaussiana multivariada. Em primeira

instancia, definem-se variaveis latentes 𝑦𝑢0𝑖 e 𝑦𝑢𝑖 (denominadas de utilidades de escolha das categorias

0 e 1, respectivamente) para cada unidade experimental, de forma que

𝑦𝑖 =

{0, se 𝑦𝑢𝑖 ≤ 𝑦𝑢0𝑖

1, se 𝑦𝑢𝑖 > 𝑦𝑢0𝑖e 𝑦𝑢𝑖 = 𝑥′

𝑖𝛽 + 𝜀𝑖, (3.1.5)

com 𝑦𝑢0𝑖, 𝜀𝑖𝑖𝑖𝑑∼ Gumbel(0, 1). 𝑋 ∼ Gumbel(𝑎, 𝑏) representa a distribuicao Gumbel do maximo com

locacao 𝑎 e escala 𝑏 (tambem conhecida como distribuicao do valor extremo tipo I Johnson et al.

(1995)). Note que pela representacao, 𝑦𝑢𝑖𝑖𝑛𝑑∼ Gumbel(𝑥′

𝑖𝛽, 1). Sob esta estrutura, a distribuicao

marginal dos dados 𝑦𝑖 e equivalente a do modelo postulado Bernoulli(𝑝𝑖), 𝑝𝑖 = logito−1(𝑥′𝑖𝛽). Para

que o modelo tenha identificabilidade, as utilidades 𝑦𝑢0𝑖 independem de covariaveis. Note que esta

formulacao traz a conveniencia de se ter uma expressao para as utilidades que e linear nos parametros

𝛽, mas que ainda possui perturbacoes aleatorias com forma nao tratavel diretamente.

Adicionalmente, os autores Fruhwirth-Schnatter and Fruhwirth (2007) aproximam a distribuicao

de 𝜀𝑖 por uma mistura finita de variaveis aleatorias gaussianas com L componentes, 𝑓(𝜀𝑖) ≈∑𝐿

𝑙=1 𝑟𝑙×𝜑(𝜀𝑖|𝑚𝑙, 𝑠

2𝑙 ), com

∑𝑙 𝑟𝑙 = 1. 𝜑(·|𝜇, 𝜎2) representa a densidade gaussiana univariada com media 𝜇 e

variancia 𝜎2. A dimensao 𝐿 (em geral igual a 10) e os parametros 𝑚𝑙, 𝑠2𝑙 , ∀𝑙 ∈ {1, . . . , 𝐿} foram

obtidos anteriormente minimizando a distancia de Kullback-Leibler entre a mistura e a densidade

da Gumbel padrao Fruhwirth-Schnatter and Fruhwirth (2007). Deve-se, portanto, incluir mais um

conjunto de variaveis latentes, 𝑅1, . . . , 𝑅𝑛, sendo estas as alocacoes das componentes da mistura.

Assim, a representacao do modelo logıstico com os dados aumentados (𝑦,𝑦𝑢,𝑅) fica:

𝑦𝑖|𝑦𝑢𝑖 , 𝑅𝑖𝑖𝑛𝑑∼ 𝑓(𝑦𝑖|𝑦𝑢𝑖 , 𝑅𝑖), 𝑦𝑢𝑖 |𝑅𝑖 = 𝑙

𝑎𝑝𝑟∼ Normal(𝑥′𝑖𝛽 +𝑚𝑙, 𝑠

2𝑙 ) e 𝑅𝑖

𝑖𝑖𝑑∼ Multinomial(1, 𝑟1, . . . , 𝑟𝐿),

em que 𝑓(𝑦𝑖|𝑦𝑢𝑖 , 𝑅𝑖) e desconhecida, e este fato nao afeta o procedimento. Alem disso, como {𝑦𝑢0𝑖 :

36

𝑖 = 1, . . . , 𝑛} nao dependem dos parametros de interesse 𝛽, eles sao considerados quantidades nui-

sance, e podem ser marginalizados da estrutura dos dados. A distribuicao a posteriori neste caso,

por condicionamento, e da forma 𝜋(𝑦𝑢,𝑅,𝛽|𝑦) ∝ 𝑓(𝑦,𝑦𝑢,𝑅|𝛽)𝜋(𝛽), com condicionais completas

𝜋(𝛽|𝑦,𝑦𝑢,𝑅) e 𝜋(𝑦𝑢,𝑅|𝑦,𝛽), que pode ser decomposta em 𝜋(𝑅|𝑦𝑢,𝑦,𝛽)𝜋(𝑦𝑢|𝑦,𝛽).

Algumas propriedades importantes antes de encontrar a forma das distribuicoes acima mencio-

nadas:

∙ Pela representacao (3.1.5), argumenta-se em Fruhwirth-Schnatter and Fruhwirth (2007) que

𝜋(𝑅|𝑦𝑢,𝑦,𝛽) =𝑛∏

𝑖=1

𝜋(𝑅𝑖|𝑦𝑢𝑖 ,𝛽) e 𝜋(𝛽|𝑦,𝑦𝑢,𝑅) = 𝜋(𝛽|𝑦𝑢,𝑅);

∙ Se 𝑋 ∼ Gumbel(𝑎, 1), entao 𝑍 = 𝑒−𝑋 ∼ Exponencial(𝑒𝑎), com taxa de falha 𝑒𝑎. Consequente-

mente, no atual contexto, temos exp(−𝑦𝑢0𝑖) ∼ Exponencial(1) e exp(−𝑦𝑢𝑖 ) ∼ Exponencial(𝑒𝑥′𝑖𝛽);

∙ Se 𝑋𝑖𝑖𝑛𝑑∼ Exponencial(𝜆𝑖), 𝑖 ∈ {1, 2}, entao min{𝑋1, 𝑋2} ∼ Exponencial(𝜆1 + 𝜆2). Em particu-

lar, min{exp(−𝑦𝑢0𝑖), exp(−𝑦𝑢𝑖 )} ∼ Exponencial(1 + 𝑒𝑥′𝑖𝛽).

Agora, para simular valores de 𝜋(𝑦𝑢𝑖 |𝑦𝑖,𝛽), considere a densidade aumentada 𝜋(𝑦𝑢𝑖 , 𝑦𝑢0𝑖|𝑦𝑖,𝛽). Os

autores encontram, de forma argumentativa, a distribuicao condicional de 𝑦𝑢𝑖 por duas situacoes:

1. Caso 𝑦𝑖 = 1, a utilidade da categoria 1 e maior do que da categoria 0, e 𝑦𝑢𝑖 > 𝑦𝑢0𝑖 ⇐⇒ exp(−𝑦𝑢𝑖 ) <exp(−𝑦𝑢0𝑖) ⇐⇒ min{exp(−𝑦𝑢𝑖 ), exp(−𝑦𝑢0𝑖)} = exp(−𝑦𝑢𝑖 ). Assim, exp(−𝑦𝑢𝑖 ) ∼ Exponencial(1 +

𝑒𝑥′𝑖𝛽) diretamente;

2. Caso 𝑦𝑖 = 0, a utilidade da categoria 0 e maior do que da categoria 1, e 𝑦𝑢𝑖 ≤ 𝑦𝑢0𝑖 ⇐⇒exp(−𝑦𝑢𝑖 ) ≥ exp(−𝑦𝑢0𝑖) ⇐⇒ min{exp(−𝑦𝑢𝑖 ), exp(−𝑦𝑢0𝑖)} = exp(−𝑦𝑢0𝑖). Assim, 𝜋(𝑦𝑢𝑖 , 𝑦

𝑢0𝑖|𝑦𝑖 =

1,𝛽) = 𝜋(𝑦𝑢𝑖 |𝑦𝑢0𝑖, 𝑦𝑖 = 0,𝛽)𝜋(𝑦𝑢0𝑖|𝑦𝑖 = 0,𝛽). Pela falta de memoria das variaveis aleatorias

Exponenciais, a densidade de exp(−𝑦𝑢𝑖 ) sera deslocada pelo min{exp(−𝑦𝑢𝑖 ), exp(−𝑦𝑢0𝑖)} reali-

zado, que neste caso vale exp(−𝑦𝑢0𝑖). Portanto, obtem-se exp(−𝑦𝑢0𝑖) ∼ Exponencial(1 + 𝑒𝑥′𝑖𝛽) e

exp(−𝑦𝑢𝑖 )|[exp(−𝑦𝑢0𝑖) = 𝑐] ∼ Exponencial(𝑒𝑥′𝑖𝛽)1{exp(−𝑦𝑢𝑖 ) ∈ (𝑐,+∞)}.

As condicionais completas das alocacoes 𝑅𝑖 tem a mesma forma das alocacoes em modelos Baye-

sianos de misturas gaussianas finitas Fruhwirth-Schnatter (2006), isto e, para todo 𝑖 ∈ {1, . . . , 𝑛},

𝜋(𝑅𝑖 = 𝑙|𝑦𝑢𝑖 ,𝛽L) ∝𝑟𝑙𝑠𝑙exp

{1

2𝑠2𝑙

(𝑦𝑢𝑖 − 𝑥′

𝑖𝛽 −𝑚𝑙

)2}, 𝑙 ∈ {1, . . . , 𝐿}. (3.1.6)

Por ultimo, fixados os valores 𝑦𝑢1 , . . . , 𝑦𝑢𝑛 e 𝑅1, . . . , 𝑅𝑛, a simulacao de 𝛽 e feita da mesma forma

como no modelo linear gaussiano, em que possui condicional completa com distribuicao Normal

multivariada Zellner (1971), por conta da representacao (3.1.5). Assim, a estimacao Bayesiana de

parametros para um modelo linear generalizado e feita com simulacoes de quantidades equivalentes

aquelas de um modelo linear.

37

Apresenta-se agora a metodologia para regressao longitudinal com o numero de sucessos dentre

𝐾 ensaios independentes como variavel resposta e com inclusao de efeitos aleatorios, isto e, 𝑌𝑖𝑗𝑖𝑛𝑑∼

Binomial(𝐾, 𝑝𝑖𝑗), logito(𝑝𝑖𝑗) = 𝑥′𝑖𝑗𝛽+𝑧′

𝑖𝑗𝑏𝑖, em que 𝑥𝑖𝑗 e 𝑧𝑖𝑗 sao vetores de covariaveis para os efeitos

𝛽 ∼ Normal𝑞𝛽(𝜇𝛽, I𝛽) e 𝑏𝑖 ∼ Normal𝑞𝑏(0,D), respectivamente. Embora nao seja necessario, supoe-se

que a matriz de covariancias D tem uma distribuicao Inversa Wishart. Considere a decomposicao

da quantidade de sucessos no tempo 𝑗 como 𝑦𝑖𝑗 =∑𝐾

𝑘=1 𝑠𝑘𝑖𝑗, com

𝑠𝑘𝑖𝑗 =

{1, se 1 ≤ 𝑘 ≤ 𝑦𝑖𝑗

0, se 𝑦𝑖𝑗 < 𝑘 ≤ 𝐾,

em que P[𝑠𝑘𝑖𝑗 = 1|𝑝𝑖𝑗] = 𝑝𝑖𝑗,∀𝑘 ∈ {1, . . . , 𝐾}, ∀𝑗 ∈ {1, . . .L, 𝑛𝑖} e ∀𝑖 ∈ {1, . . . , 𝑛}. As utilidades

𝑦𝑢𝑘𝑖𝑗,∀(𝑘, 𝑗) da 𝑖-esima unidade experimental sao criadas como em (3.1.5), para cada 𝑠𝑘𝑖𝑗. Da mesma

forma, 𝑦𝑢0𝑖𝑗 tem distribuicao conhecida e independente de covariaveis, por questoes de identificabili-

dade. O modelo de regressao para as utilidades latentes fica:

𝑦𝑢𝑘𝑖𝑗 = 𝑥′𝑖𝑗𝛽 + 𝑧′

𝑖𝑗𝑏𝑖 + 𝜀𝑘𝑖𝑗, (3.1.7)

∀𝑘 ∈ {1, . . . , 𝐾} e ∀𝑗 ∈ {1, . . . , 𝑛𝑖}, em que 𝑦𝑢0𝑖𝑗, 𝜀𝑘𝑖𝑗𝑖𝑖𝑑∼ Gumbel(0, 1). Negativando e tomando o

exponencial em ambos os lados da expressao (3.1.7), tem-se a relacao

exp(−𝑦𝑢𝑘𝑖𝑗) = exp(−𝑥′𝑖𝑗𝛽 − 𝑧′

𝑖𝑗𝑏𝑖) exp(−𝜀𝑘𝑖𝑗)⇒𝐾∑𝑘=1

exp(−𝑦𝑢𝑘𝑖𝑗) = exp(−𝑥′𝑖𝑗𝛽 − 𝑧′

𝑖𝑗𝑏𝑖)𝐾∑𝑘=1

exp(−𝜀𝑘𝑖𝑗)⇒

𝑦*𝑖𝑗 = 𝑥′𝑖𝑗𝛽 + 𝑧′

𝑖𝑗𝑏𝑖 + 𝜉𝑖𝑗, (3.1.8)

em que 𝑦*𝑖𝑗 = −log(∑𝐾

𝑘=1 exp(−𝑦𝑢𝑘𝑖𝑗))e 𝜉𝑖𝑗 = −log

(∑𝐾𝑘=1 exp(−𝜀𝑘𝑖𝑗)

)= −log(Gamma(𝐾, 1)), ∀𝑖, 𝑗.

𝑋 ∼ Gamma(𝑎, 𝑏) indica a parametrizacao com E[𝑋] = 𝑎/𝑏. Assim como no caso Bernoulli, no

inıcio desta secao, aproxima-se a variavel 𝜉𝑖𝑗 por uma mistura finita gaussiana de 𝐿 componentes.

A vantagem agora e que, de acordo com o Teorema Central do Limite, conforme a quantidade

de categorias 𝐾 cresce, a aproximacao da variavel aleatoria −log(Gamma(𝑢, 1)) para a Normal e

melhor. Assim, conforme 𝐾 −→ +∞, a quantidade de componentes na mistura finita necessaria

para aproximar 𝜉𝑖𝑗 diminui. Para 𝐾 = 30, por exemplo, utiliza-se 𝐿 = 4 componentes.

A simulacao das utilidades agregadas 𝑦*𝑖𝑗 e feita de maneira analoga ao caso de regressao Ber-

noulli. O processo e descrito em Fruhwirth-Schnatter et al. (2009), e culmina em: para 𝑦𝑖𝑗 = 𝐾,

𝑦*𝑖𝑗 = −log(

𝑈𝑖𝑗

1+𝜆𝑖𝑗

); enquanto para 𝑦𝑖𝑗 < 𝐾, 𝑦*𝑖𝑗 = −log

(𝑈𝑖𝑗

1+𝜆𝑖𝑗+

𝑉𝑖𝑗

𝜆𝑖𝑗

), em que 𝜆𝑖𝑗 = exp(𝑥′

𝑖𝑗𝛽 + 𝑧′𝑖𝑗𝑏𝑖),

𝑈𝑖𝑗 ∼ Gamma(𝐾, 1) e 𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1), independentes. As variaveis latentes de alocacao

nas componentes de mistura sao geradas exatamente como em (3.1.6), com acrescimo dos efeitos

aleatorios na media das utilidades. Por ultimo, dentro do processo iterativo de simulacao, condici-

onados em {𝑦*𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛} e {𝑅𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛}, a condicional

completa das quantidades (𝛽′, 𝑏′1, . . . , 𝑏′𝑛) e D assumem as formas do modelo linear misto com erros

38

gaussianos multivariados. Assim, elas sao obtidas, respectivamente, ao gerar pontos de uma Normal

(𝑞𝛽 + 𝑛𝑞𝑏) - multivariada e de uma Inversa Wishart (dadas as escolhas de distribuicoes a priori ci-

tadas). A simulacao em blocos do caso Binomial com efeitos mistos e funcao logito e descrita no

Algoritmo B.4, no Apendice B.

3.1.2 Softwares para inferencia Bayesiana

Atualmente, ha diversas opcoes de softwares convenientemente desenvolvidos para implementacao

de algoritmos para inferencia Bayesiana. Alguns dos mais conhecidos sao o WinBUGS (com versao

gratuita OpenBUGS) - Lunn et al. (2000), o Just Another Gibbs Sampler (JAGS) - Plummer et al.

(2003), o BayesX - Brezger et al. (2003) e o Stan - Carpenter et al. (2016). Em geral, eles foram

desenvolvidos para que, do ponto de vista do usuario, os modelos sejam especificados de maneira

simples na sua estrutura hierarquica; enquanto do ponto de vista de processamento, sejam mais

eficientes do que algoritmos criados pelos proprios usuarios, por se basearem na representacao dos

modelos em grafos direcionados Lunn et al. (2012).

A vantagem da utilizacao destes programas e que todos possuem integracao com o software R,

como listado abaixo. Os principais atributos e diferencas das plataformas sao:

∙ WinBUGS/OpenBUGS: baseados em rotinas MCMC, com utilizacao do Amostrador de

Gibbs, Metodo da Rejeicao e Metropolis-Hastings adaptativos quando a densidade condicional

completa nao tem forma conhecida. Integracao com o R por meio dos pacotes BUGS,R2WinBUGS,

R2OpenBUGS;

∙ JAGS: baseados em rotinas MCMC, com utilizacao do Amostrador de Gibbs e Slice sam-

pling quando a densidade condicional completa nao tem forma conhecida. Possui modulo

glm, que faz simulacao com variaveis auxiliares e por blocos para algumas distribuicoes da

famılia exponencial. Este invoca recursos da linguagem C, e por isso e mais eficiente do que

os WinBUGS/OpenBUGS. Recurso de paralelizar cadeias e possıvel com pacotes adicionais.

Integracao com o R por meio das bibliotecas rjags,R2jags;

∙ BayesX: baseados em rotinas MCMC, com utilizacao do Amostrador de Gibbs. E aplicavel

tambem a problemas de regressao quantılica e possui rotinas prontas para selecao de modelos.

Integracao com o R por meio dos pacotes R2BayesX,BayesR;

∙ Stan: baseados em rotinas Hamiltonian Monte Carlo (HMC) - Neal (2011). Os passos deste al-

goritmo costumam contemplar todo o suporte da densidade objetivo completamente de maneira

mais rapida. Sendo assim, a convergencia das cadeias geradas por esta plataforma e, em geral,

mais rapida. Sua linguagem e a mesma do software C. Paraleliza cadeias automaticamente nas

versoes atuais. Integracao com o R por meio do pacote rstan.

39

3.1.3 Diagnostico dos modelos

Ferramentas de diagnostico podem ser utilizadas para avaliar a adequabilidade de modelos a

alguma caracterıstica de interesse dos dados, bem como para identificar observacoes possivelmente

atıpicas e qual a influencia destes pontos no ajuste do modelo Cook and Weisberg (1982).

No contexto parametrico classico, em geral, se avalia a adequabilidade das estimativas de um

ajuste com graficos de resıduos, discrepancias entre valores ajustados e observados, alem de re-

plicacoes dos dados em graficos de envelope Paula (2004).

Sob a perspectiva Bayesiana, o diagnostico e mais focado em ferramentas baseadas na funcao

preditiva a posteriori : 𝑓(𝑦𝑟𝑒𝑝|𝑦) =∫𝑓(𝑦𝑟𝑒𝑝,𝜃|𝑦) d𝜃 =

∫𝑓(𝑦𝑟𝑒𝑝|𝜃)𝜋(𝜃|𝑦) d𝜃, que tem o intuito

de inferir se o modelo gera replicacoes (representadas por 𝑦𝑟𝑒𝑝) fidedignas dos dados originais. Esta

verificacao deve ser feita com base numa funcao de discrepancia entre as replicas e os dados coletados,

e pode se dar em diferentes nıveis do modelo (fixando efeitos aleatorios e simulando variaveis resposta

condicionais ou gerando valores de todos os nıveis da estrutura hierarquica, por exemplo).

Discrepancia preditiva a posteriori

Gelman et al. (1996) propoem o uso da discrepancia preditiva a posteriori para analisar a coerencia

do modelo ajustado frente aos dados observados. Sob um modeloℳ, ha uma extensao natural dos

valores-p classicos 𝑝𝑐(𝑦) = P𝜃[𝑈(𝑌 ) ≥ 𝑈(𝑦))|ℳ] definida por

𝑝𝑏(𝑦) = P[𝑊 (𝑌 𝑟𝑒𝑝,𝜃) ≥ 𝑊 (𝑦,𝜃)|ℳ,𝑦]

=

∫ (P[𝑊 (𝑌 𝑟𝑒𝑝,𝜃) ≥ 𝑊 (𝑦,𝜃)|𝜃,ℳ,𝑦]

)𝜋(𝜃|𝑦) d𝜃

=

∫ (∫1{𝑊 (𝑦𝑟𝑒𝑝,𝜃) ≥ 𝑊 (𝑦,𝜃)}𝑓(𝑦𝑟𝑒𝑝|𝜃,ℳ) d𝑦𝑟𝑒𝑝

)𝜋(𝜃|𝑦) d𝜃

=

∫∫1{𝑊 (𝑦𝑟𝑒𝑝,𝜃) ≥ 𝑊 (𝑦,𝜃)}𝑓(𝑦𝑟𝑒𝑝|𝜃,ℳ)𝜋(𝜃|𝑦) d𝑦𝑟𝑒𝑝 d𝜃, (3.1.9)

em que 𝑊 (·, ·) e uma funcao de discrepancia a qual pode ser escolhida de acordo com a caracterıstica

de interesse nos dados, como a diferenca entre as estatısticas de ordem extremas ou a amplamente

utilizada estatıstica qui-quadrado de Pearson para bondade de ajuste.

Definida uma funcao 𝑊 e tomando como base os valores simulados finais da distribuicao a poste-

riori de 𝜃, (𝜃(1), . . . ,𝜃(𝑀)), criam-se as discrepancias realizadas 𝑤𝑟𝑒𝑎 = {𝑊 (𝑦,𝜃(1)), . . . ,𝑊 (𝑦,𝜃(𝑀))}.Alem disso, para cada 𝑙 ∈ {1, . . . ,𝑀}, geram-se replicacoes 𝑦𝑟𝑒𝑝,𝑙 e, assim, e construıdo o conjunto

de discrepancias das replicacoes 𝑤𝑟𝑒𝑝 = {𝑊 (𝑦𝑟𝑒𝑝,1,𝜃(1)), . . . ,𝑊 (𝑦𝑟𝑒𝑝,𝑀 ,𝜃(𝑀))}. E possıvel, entao,

verificar a adequabilidade do modelo ℳ pelo grafico de dispersao dos pontos 𝑤𝑟𝑒𝑎 versus 𝑤𝑟𝑒𝑝, ou

calcular (3.1.9) pela aproximacao de integrais via Monte Carlo com as amostras (𝜃(1), . . . ,𝜃(𝑀)) e

(𝑦𝑟𝑒𝑝,1, . . . ,𝑦𝑟𝑒𝑝,𝑀). No segundo caso, Gelman et al. (2014) aponta que valores muito altos (≥ 0, 9) ou

40

muito baixos (≤ 0, 1) de 𝑝𝑏(𝑦) indicam falta de adequacao do ajuste, segundo a funcao de discrepancia

𝑊 e a caracterıstica que ela intrinsecamente pretende avaliar.

Em trabalhos mais recentes, autores como Johnson (2004, 2007), Gosselin (2011) propoem um

uso levemente diferente das discrepancias preditivas a posteriori, de forma a garantir melhores ca-

racterısticas teoricas dos valores-p Bayesianos, como distribuicao uniforme sob as hipoteses nulas

estabelecidas (considerando que o modelo e especificado corretamente Gosselin (2011)). Define-se

entao o valor-p Bayesiano amostrado como

𝑠𝑝𝑏(𝑦) =

∫1{𝑊 (𝑦𝑟𝑒𝑝,𝜃𝑓𝑖𝑥𝑜) ≥ 𝑊 (𝑦,𝜃𝑓𝑖𝑥𝑜)}𝑓(𝑦𝑟𝑒𝑝|𝜃𝑓𝑖𝑥𝑜,ℳ)𝜋(𝜃𝑓𝑖𝑥𝑜|𝑦) d𝑦𝑟𝑒𝑝, (3.1.10)

em que 𝜃𝑓𝑖𝑥𝑜 ∼ 𝜋(𝜃|𝑦). Assim, a diferenca entre 𝑝𝑏(𝑦) e 𝑠𝑝𝑏(𝑦) e que o ultimo requer somente um

ponto da distribuicao a posteriori 𝜋(𝜃|𝑦) e, caso a obtencao deste valor seja feita via integracao

Monte Carlo, todas as simulacoes de 𝑦𝑟𝑒𝑝 sao obtidas da densidade 𝑓(𝑦𝑟𝑒𝑝|𝜃𝑓𝑖𝑥𝑜). O autor Zhang

(2014) resume a vantagem de (3.1.10) sobre (3.1.9) em dois casos: (i) - quando os dados 𝑦 sao

corretamente especificados e a distribuicao a priori 𝜋(𝜃) postulada e a “verdadeira”, 𝜃𝑓𝑖𝑥𝑜 sera

de fato um ponto de 𝜋(𝜃|𝑦), entao as distribuicoes das discrepancias 𝑊 (𝑦,𝜃𝑓𝑖𝑥𝑜) e 𝑊 (𝑦𝑟𝑒𝑝,𝜃𝑓𝑖𝑥𝑜),

condicionadas em 𝜃𝑓𝑖𝑥𝑜 serao identicas. Portanto, 𝑠𝑝𝑏(𝑦) tera distribuicao uniforme; (ii) - quando os

dados 𝑦 sao corretamente especificados, mas 𝜋(𝜃) nao o e, entao o valor-p Bayesiano tera distribuicao

assintoticamente uniforme, sob condicoes de regularidade e independencia dos dados. Ainda neste

artigo, ha estudos de simulacao e uma discussao sobre as demandas computacionais das diferentes

abordagens.

Neste trabalho, os valores-p Bayesianos amostrados serao calculados segundo a seguinte formula:

𝑠𝑝𝑏(𝑦) =1

𝑀

𝑀∑𝑚=1

1{𝑊 (𝑦𝑟𝑒𝑝,𝑚,𝜃𝑓𝑖𝑥𝑜) ≥ 𝑊 (𝑦,𝜃𝑓𝑖𝑥𝑜)}, (3.1.11)

em que 𝜃𝑓𝑖𝑥𝑜 e algum ponto da cadeia final obtida pelos algoritmos MCMC, e 𝑦𝑟𝑒𝑝,𝑚 = {𝑦𝑟𝑒𝑝,𝑚𝑖𝑗 : 𝑖 =

1, . . . , 𝑛; 𝑗 = 1, . . . , 𝑛𝑖} sao valores simulados da distribuicao condicional (2.3.1), sob a suposicao de

independencia. Funcoes de discrepancia usuais sao dadas na Tabela 3.2:

Tabela 3.2: Funcoes de discrepancia comuns para avaliar reproducibilidade dos dados originais sobmodelos Bayesianos.

Nome 𝑊 (𝑦,𝜃)

Qui-quadrado de Pearson(𝑦 − E(𝑌 |𝜃)

)′Cov(𝑌 |𝜃)−1

(𝑦 − E(𝑌 |𝜃)

)Desvio −2 log(𝑓(𝑦|𝜃))Percentis 𝑝-esimo percentil de {𝑦}Mınimo min{𝑦}Maximo max{𝑦}

41

3.1.4 Comparacao dos modelos

No contexto de analise de dados Bayesiana, a ferramenta mais tradicional para auxiliar na selecao

de modelos e o fator de Bayes Kass and Raftery (1995). Ele e uma medida para comparacao de pares

de modelos, digamos,ℳ1 eℳ2:

B12 =𝑓(𝑦|ℳ1)

𝑓(𝑦|ℳ2)=

∫𝑓(𝑦|𝜃,ℳ1)𝜋(𝜃|ℳ1) d𝜃∫𝑓(𝑦|𝜃,ℳ2)𝜋(𝜃|ℳ2) d𝜃

.

Como constatado em Gelman et al. (2014), seu uso e de difıcil acesso para estruturas complexas e

dimensao de espaco parametrico muito elevada. Assim, surgem outras ferramentas de comparacao que

podem ser mais facilmente adaptaveis a casos complicados, alem da conveniencia de serem medidas

para comparacao direta entre uma quantidade arbitraria de modelos, como o Deviance Information

Criterion (DIC) e Log Pseudo Marginal Likelihood (LPML).

Deviance Information Criterion - DIC

Analogamente aos criterios de informacao classicos, AIC (Akaike Information Criterion) - Akaike

(1974) e BIC (Bayesian Information Criterion) - Schwarz (1978), o DIC Spiegelhalter et al. (2002) e

apresentado com a proposta de ser uma medida de bondade penalizada pela complexidade do modelo

ajustado.

Seja a funcao desvio dada por D(𝜃) = −2 𝑙𝑜𝑔𝑓(𝑦|𝜃). Considere D(𝜃) = E𝜃[D(𝜃)|𝑦] representandoa bondade do ajuste e 𝑝𝐷 = D(𝜃) − D(𝜃), para algum estimador Bayesiano 𝜃, representando a

complexidade do modelo. Visto como uma “versao Bayesiana” do AIC, o DIC e definido e calculado

por

DIC = D(𝜃) + 𝑝𝐷 = 2D(𝜃)−D(𝜃) = −4E𝜃[𝑙𝑜𝑔𝑓(𝑦|𝜃)|𝑦]−D(𝜃),

Assim como nos criterios de Akaike e Schwarz, dentre os ajustes feitos, o melhor modelo e aquele

que apresenta menor DIC.

Ha, entretanto, crıticas a formulacao e ao uso do DIC, principalmente pelo fato da dimensao

efetiva do modelo, 𝑝𝐷, poder ser negativa em alguns casos, como em regressao com misturas finitas.

O debate do artigo Spiegelhalter et al. (2002) fomentou, entao, a pesquisa para propostas mais

adequadas desta medida com utilizacao de verossimilhancas aumentadas. Consequentemente, em

Celeux et al. (2006) ha o estudo de oito versoes do DIC, cujas definicoes se baseiam no uso dos dados

faltantes (como parametros de interesse ou auxiliares). No presente trabalho, utiliza-se o DIC7, que

e uma adequacao do criterio para modelos com efeitos aleatorios, quando estes sao parametros de

interesse.

DIC7 = −4E𝜃,𝑍 [𝑙𝑜𝑔𝑓(𝑦|𝑍,𝜃)|𝑦] + 2𝑙𝑜𝑔𝑓(𝑦|��,𝜃),

42

em que �� e algum estimador Bayesiano de 𝑍. Na pratica, em modelos longitudinais, obtem-se o

DIC7 estimado por:

DIC7 = −4

𝑀

( 𝑀∑𝑚=1

𝑁∑𝑖=1

𝑛𝑖∑𝑗=1

log𝑓(𝑦𝑖𝑗|𝑍(𝑚),𝜃(𝑚))

)+ 2

( 𝑁∑𝑖=1

𝑛𝑖∑𝑗=1

log𝑓(𝑦𝑖𝑗|��,𝜃)

),

em que {(𝑍(𝑚),𝜃(𝑚)) : 𝑚 = 1, . . . ,𝑀} sao amostras da distribuicao a posteriori 𝜋(𝑍,𝜃|𝑦).

Log Pseudo Marginal Likelihood - LPML

Outros criterios importantes para escolha de modelos sao construıdos com base na distribuicao

preditiva a posteriori, 𝑓(𝑦𝑟𝑒𝑝|𝑦) =∫𝑓(𝑦𝑟𝑒𝑝|𝜃)𝜋(𝜃|𝑦) d𝜃. Na pratica, esta funcao e utilizada para

avaliar a capacidade de reproducao das caracterısticas dos dados com base no modelo ajustado.

Como a visualizacao bruta dos dados replicados em comparacao aos dados observados pode ser

impraticavel, trabalha-se com medidas que unem a distribuicao preditiva com a ideia de validacao

cruzada. O autor Geisser (1987) apresenta a Conditional Predictive Ordinate a posteriori (CPO) do

𝑖-esimo indivıduo como

CPO𝑖 = 𝑓(𝑦𝑖|𝑦−𝑖) =

∫𝑓(𝑦𝑖|𝜃)𝜋(𝜃|𝑦−𝑖) d𝜃 =

𝑓(𝑦)

𝑓(𝑦−𝑖),

em que o subındice da expressao 𝑦−𝑖 representa o vetor 𝑦 sem a 𝑖-esima coordenada. No mesmo

artigo, ainda se discute maneiras de calcular as CPO’s dos indivıduos com base na amostra da

distribuicao a posteriori ja simulada, verificando que

CPO𝑖 =

(𝑓(𝑦−𝑖)

𝑓(𝑦)

)−1

=

(∫𝑓(𝑦−𝑖|𝜃)𝜋(𝜃)

𝑓(𝑦)d𝜃

)−1

=

(∫𝑓(𝑦𝑖|𝜃)𝑓(𝑦𝑖|𝜃)

𝑓(𝑦−𝑖|𝜃)𝜋(𝜃)𝑓(𝑦)

d𝜃

)−1

=

(∫1

𝑓(𝑦𝑖|𝜃)𝜋(𝜃|𝑦) d𝜃

)−1

= E𝜃

[1

𝑓(𝑦𝑖|𝜃)

𝑦

]Assim, pode-se estimar esta quantidade por

CPO𝑖 =

(1

𝑀

𝑀∑𝑚=1

1∏𝑛𝑖

𝑗=1 𝑓(𝑦𝑖𝑗|𝜃(𝑚))

)−1

, (3.1.12)

em que (𝜃(1), . . . ,𝜃(𝑀)) constitui uma amostra da distribuicao a posteriori de 𝜃. Para contornar o

problema do calculo das integrais no caso de efeitos aleatorios, opta-se pela mesma solucao do DIC7

mencionado no topico anterior: na equacao (3.1.12) utiliza-se a densidade condicional das respostas,

𝑓(𝑦𝑖|𝑍(𝑚)𝑖 ,𝜃(𝑚)), no lugar de 𝑓(𝑦𝑖|𝜃(𝑚)).

Com base nas CPO’s para cada indivıduo que compoe a amostra, define-se o LPML como uma

43

medida resumo das ordenadas preditivas a posteriori :

LPML = log

( 𝑛∏𝑖=1

𝑓(𝑦𝑖|𝑦−𝑖)

)=

𝑛∑𝑖

log(CPO𝑖). (3.1.13)

Para obtencao do LPML estimado, basta encontrar as estimativas de (3.1.12) e aplica-las em (3.1.13).

Como buscamos um ajuste capaz de reproduzir bem a distribuicao dos dados, o melhor modelo e

aquele que apresenta maior LPML, ja que este e obtido ao aplicar uma funcao nao decrescente no

produto das densidades 𝑓(𝑦𝑖|𝑦−𝑖),∀𝑖 ∈ {1, . . . , 𝑛}.

3.2 Estimacao Bayesiana para o modelo proposto de mis-

tura de regressoes

Considere 𝜃 = (𝛽′,𝜆′, vec(D)′, 𝜇𝜏 , 𝜎𝜏 , 𝜑)′ o vetor de parametros para o caso Beta-Binomial. Su-

pondo que a distribuicao conjunta de 𝜋(𝜃) pode ser escrita como

𝜋(𝜃) = 𝜋(𝛽)𝜋(𝜆)𝜋(D)𝜋(𝜇𝜏 )𝜋(𝜎𝜏 )𝜋(𝜑). (3.2.1)

Cada funcao acima que compoe a densidade conjunta 𝜋(𝜃) depende de hiperparametros conhecidos

e fixos, portanto, suprimidos da notacao.

Durante a escolha das distribuicoes a priori, tomou-se como base a distribuicao gaussiana para

os efeitos das covariaveis em (2.3.2), (2.3.3) e para a media dos pontos de quebra:

𝛽 ∼ Normal𝑞𝛽(0, 𝜎2𝛽I𝑞𝛽), 𝜆 ∼ Normal𝑞𝜆(0, 𝜎

2𝜆I𝑞𝜆), 𝜇𝜏 ∼ Normal(��𝜏 , 𝜎

2𝜇𝜏)1{𝜇𝜏 ∈ T},

em que I𝑛 indica a matriz identidade de dimensao 𝑛 e 𝜎2𝛽, 𝜎

2𝜆, ��𝜏 , 𝜎

2𝜇𝜏

sao hiperparametros: valores

escolhidos pelo proponente do modelo, de forma que as distribuicoes a priori tenham as caracterısticas

desejadas (em geral, nao informativas).

Escolhe-se a distribuicao uniforme para o desvio padrao dos pontos de quebra, 𝜎𝜏 , e para 𝜑

(quando aplicavel). Sobre a postulacao das covariancias dos efeitos aleatorios, a escolha mais comum

e assumir uma distribuicao Inversa Wishart para a matriz D. Assim,

𝜎𝜏 ∼ Uniforme(0, 𝑢𝜏 ), 𝜑 ∼ Uniforme(0, 𝑢𝜑), D ∼ Inversa Wishart𝑞𝑏(D0, 𝜈),

com 𝑢𝜏 , 𝑢𝑏, 𝑢𝜑,D0, 𝜈 sendo hiperparametros. A parametrizacao X ∼ Inversa Wishart𝑞(A, 𝜈) indica

que (X)(𝑞×𝑞) tem distribuicao Inversa Wishart Kotz et al. (2004) com matriz de escalas A, positiva

definida de entradas positivas e 𝜈 > 𝑞 − 1 representando os graus de liberdade. Em alguns casos,

entretanto, tal suposicao pode levar a amostras muito correlacionadas dos componentes (𝑏𝑖1, . . . , 𝑏𝑖𝑛𝑖)′

quando esta caracterıstica nao e verdadeira, de acordo com Alvarez et al. (2014). Como alternativa,

44

podem-se assumir distribuicoes uniformes no suporte (0, 𝑢𝜎), 𝑢𝜎 >> 0 para os desvios padroes de D

e distribuicoes uniformes em (−1, 1) para as correlacoes, segundo Gelman (2006).

A distribuicao a priori em (3.2.1) para o caso Beta-Binomial fica:

𝜋(𝜃) = 𝜋(𝛽)𝜋(𝜆)𝜋(D)𝜋(𝜇𝜏 )𝜋(𝜎𝜏 )𝜋(𝜑)

∝ exp

{− 1

2𝜎2𝛽

𝛽′𝛽

}exp

{− 1

2𝜎2𝜆

𝜆′𝜆

}exp

{− 1

2𝜎2𝜇𝜏

(𝜇𝜏 − ��𝜏 )2

}1{𝜇𝜏 ∈ T}

× |D|−𝜈+𝑞𝑏+1

2 exp

{− 1

2tr(D0D

−1)}

1{𝜎𝜏 ∈ (0, 𝑢𝜏 )}1{𝜑 ∈ (0, 𝑢𝜑)}, (3.2.2)

em que tr(·) e o operador traco de matrizes quadradas.

Para a especificacao Binomial, a expressao da distribuicao a priori e como em (3.2.2), sem o

termo 𝜋(𝜑).

3.2.1 Amostrador de Gibbs para o caso Beta-Binomial

De acordo com a motivacao de se trabalhar com os dados aumentados apresentada na Secao 2.3.1,

a densidade a posteriori das quantidades de interesse desconhecidas (parametros e efeitos aleatorios)

e da seguinte forma:

𝜋(𝜃, 𝑏, 𝜏𝑎,𝑆|𝑦) ∝ 𝑓(𝑦|𝑏, 𝜏𝑎,𝑆,𝜃)𝑓(𝑏, 𝜏𝑎,𝑆,𝜃)

= 𝑓(𝑦|𝑏, 𝜏𝑎,𝑆,𝜃)𝑓(𝑏|𝜏𝑎,𝑆,𝜃)𝑓(𝜏𝑎|𝑆,𝜃)𝑓(𝑆|𝜃)𝜋(𝜃)

= 𝑓(𝑦|𝑏, 𝜏𝑎,𝑆, 𝜑)𝑓(𝑏|D)𝑓(𝜏𝑎|𝜇𝜏 , 𝜎2𝜏 )𝑓(𝑆|𝜆)⏟ ⏞

𝐿𝑐(𝜃|Ω)

𝜋(𝜃)

= 𝐿𝑐(𝜃|Ω)𝜋(𝛽)𝜋(𝜆)𝜋(D)𝜋(𝜇𝜏 )𝜋(𝜎𝜏 )𝜋(𝜑),

com 𝐿𝑐(𝜃|Ω) definida em (2.3.5) e 𝜋(𝜃) em (3.2.1).

Apresenta-se nesta secao a forma das distribuicoes condicionais completas das quantidades 𝛽, 𝜆,

D, 𝜇𝜏 , 𝜎𝜏 , 𝜑, 𝑏, 𝜏𝑎 e 𝑆. Lembrando que 𝜏𝑖 =(𝜏∞,𝑖

)1{𝑆𝑖=0}(𝜏𝑎,𝑖)1{𝑆𝑖=1}

, 𝜇𝑖𝑗 = 𝑔−1(𝑥′𝑖𝑗,𝜏𝑖


𝑏𝑖) e

𝑝𝑖 = ℎ−1(𝑤′𝑖𝜆), ∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁} × {1, . . . , 𝑛𝑖}, tem-se, para os efeitos fixos,

𝜋(𝛽|𝜃−𝛽, 𝑏, 𝜏 ,𝑆,𝑦) ∝

[𝑁∏𝑖=1

𝑛𝑖∏𝑗=1

(𝐾

𝑦𝑖𝑗

)B(𝑦𝑖𝑗 + 𝜑𝜇𝑖𝑗, 𝐾 − 𝑦𝑖𝑗 + 𝜑(1− 𝜇𝑖𝑗))

B(𝜑𝜇𝑖𝑗, 𝜑(1− 𝜇𝑖𝑗))

]exp

{− 1

2𝜎2𝛽

𝛽′𝛽

},

(3.2.3)

𝜋(𝜆|𝜃−𝜆, 𝑏, 𝜏 ,𝑆,𝑦) ∝[ 𝑁∏

𝑖=1

[ℎ−1(𝑤′

𝑖𝜆)]𝑆𝑖[1− ℎ−1(𝑤′


]exp

{− 1

2𝜎2𝜆

𝜆′𝜆

}, (3.2.4)

45

𝜋(𝜑|𝜃−𝜑, 𝑏, 𝜏 ,𝑆,𝑦) ∝

[𝑁∏𝑖=1

𝑛𝑖∏𝑗=1

(𝐾

𝑦𝑖𝑗



], 𝜑 ∈ (0, 𝑢𝜑), (3.2.5)

𝜋(𝜇𝜏 |𝜃−𝜇𝜏 , 𝑏, 𝜏 ,𝑆,𝑦) ∝ exp

{− 1

2𝜎2𝜏

𝑁∑𝑖=1

(𝜏𝑎,𝑖 − 𝜇𝜏 )2 − 1

2𝜎2𝜇𝜏

(𝜇𝜏 − ��𝜏 )2

}, 𝜇𝜏 ∈ T, (3.2.6)

𝜋(𝜎𝜏 |𝜃−𝜎𝜏 , 𝑏, 𝜏 ,𝑆,𝑦) ∝ 𝜎−𝑁𝜏 exp

{− 1

2𝜎2𝜏

𝑁∑𝑖=1

(𝜏𝑎,𝑖 − 𝜇𝜏 )2

}, 𝜎𝜏 ∈ (0, 𝑢𝜏 ), (3.2.7)

𝜋(D|𝜃−D, 𝑏, 𝜏 ,𝑆,𝑦) ∝[ 𝑁∏

𝑖=1

|D|−1/2exp

{− 1

2tr(𝑏𝑖𝑏

′𝑖D

−1)}]|D|−

𝜈+𝑞𝑏+1

2 exp

{− 1

2tr(D0D

−1)}

(3.2.8)

Pelas expressoes (3.2.6), (3.2.7) e (3.2.8), deduz-se que os respectivos efeitos fixos tem distribuicoes

condicionais completas conhecidas, com seguintes formas:

D|𝜃−D, 𝑏, 𝜏 ,𝑆,𝑦 ∼ Inversa Wishart𝑞𝑏

( 𝑁∑𝑖=1

𝑏𝑖𝑏′𝑖 +D0, 𝜈 + 𝑞𝑏

),

𝜎𝜏 |𝜃−𝜎𝜏 , 𝑏, 𝜏 ,𝑆,𝑦 ∼

⎯⎸⎸⎷Inversa Gamma

(𝑁

2− 1,

1

2

𝑁∑𝑖=1

(𝜏𝑎,𝑖 − 𝜇𝜏

)2)1{𝜎𝜏 ∈ (0, 𝑢𝜏 )},

𝜇𝜏 |𝜃−𝜇𝜏 , 𝑏, 𝜏 ,𝑆,𝑦 ∼ Normal

((∑𝑖 𝜏(𝑎,𝑖)𝜎2𝜏

+��

𝜎2𝜇𝜏

)(𝑁

𝜎2𝜏

+1

𝜎2𝜇𝜏

)−1

,

(𝑁

𝜎2𝜏

+1

𝜎2𝜇𝜏

)−1)1{𝜇𝜏 ∈ T}.

As condicionais completas para os efeitos aleatorios ∀𝑖 ∈ {1, . . . , 𝑁} sao:

𝜋(𝜏𝑎,𝑖|𝜃, 𝑏𝑖, 𝑆𝑖,𝑦𝑖) ∝[ 𝑛𝑖∏

𝑗=1

(𝐾

𝑦𝑖𝑗



]× exp

{− 1

2𝜎2𝜏

(𝜏𝑎,𝑖 − 𝜇𝜏 )2}, 𝜏𝑎,𝑖 ∈ T, (3.2.9)

𝜋(𝑏𝑖|𝜃, 𝜏(𝑎,𝑖), 𝑆𝑖,𝑦𝑖) ∝[ 𝑛𝑖∏

𝑗=1

(𝐾

𝑦𝑖𝑗



]exp

{− 1

2𝑏′𝑖D

−1𝑏𝑖

}, (3.2.10)

𝜋(𝑆𝑖|𝜃, 𝑏𝑖, 𝜏(𝑎,𝑖),𝑦𝑖) ∝

{ [∏𝑛𝑖

𝑗=1 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝑆𝑖 = 0)][1− ℎ−1(𝑤′

𝑖𝜆)], 𝑆𝑖 = 0,[∏𝑛𝑖

𝑗=1 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1)][ℎ−1(𝑤′

𝑖𝜆)], 𝑆𝑖 = 1,

(3.2.11)

em que

𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝑆𝑖 = 0) = 𝑙𝑖𝑚𝜏𝑖→+∞

{(𝐾

𝑦𝑖𝑗



},

46

𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1) =

(𝐾

𝑦𝑖𝑗



𝜏𝑖=𝜏𝑎,𝑖

.

Destas, temos distribuicao conhecida apenas das alocacoes 𝑆𝑖,∀𝑖 ∈ {1, . . . , 𝑁}:

𝑆𝑖|𝜃, 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖,𝑦𝑖 ∼ Bernoulli(𝑝*𝑖 ),

𝑝*𝑖 =

[∏𝑛𝑖

𝑗=1 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1)][ℎ−1(𝑤′

𝑖𝜆)][∏𝑛𝑖

𝑗=1 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1)][ℎ−1(𝑤′

𝑖𝜆)]+[∏𝑛𝑖

𝑗=1 𝑓(𝑦𝑖𝑗|𝑏𝑖, 𝑆𝑖 = 0)][1− ℎ−1(𝑤′

𝑖𝜆)] .

De posse das distribuicoes condicionais completas (3.2.3)-(3.2.8) e (3.2.9)-(3.2.11), pode-se cons-

truir o algoritmo para obtencao das cadeias dos parametros. Para as variaveis que nao possuem

distribuicao conhecida (e.g. 𝛽,𝜆, 𝜑, 𝑏𝑖, 𝜏𝑎,𝑖), opta-se pelo Slice Sampler. O amostrador de Gibbs para

o modelo proposto com resposta condicional Beta-Binomial e dado pelo Algoritmo 3.1.

Saıda: Amostras de tamanho 𝑀 de cada parametro 𝛽1, . . . , 𝛽𝑞𝛽 , 𝜆1, . . . , 𝜆𝑞𝜆 ,D, 𝜇𝜏 , 𝜎𝜏 , 𝜑 e dos

efeitos aleatorios 𝑆1, . . . , 𝑆𝑁 , 𝜏(𝑎,1), . . . , 𝜏(𝑎,𝑁), 𝑏1, . . . , 𝑏𝑁 .

Valores iniciais: (𝛽(0),𝜆(0),D(0), 𝜇(0)𝜏 , 𝜎

(0)𝜏 , 𝜑(0), 𝑆

(0)1 , . . . , 𝑆

(0)𝑁 , 𝜏

(0)(𝑎,1), . . . , 𝜏

(0)(𝑎,𝑁), 𝑏

(0)1 , . . . , 𝑏

(0)𝑁 ), 𝑀

Inıcio

𝑡← 0;

Enquanto 𝑡 ≤𝑀 faca

𝛽(𝑡+1)𝑘 ∼ 𝜋(𝛽𝑘|𝜆(𝑡),D(𝑡), 𝜇

(𝑡)𝜏 , 𝜎

(𝑡)𝜏 , 𝜑(𝑡), 𝑏(𝑡), 𝜏

(𝑡)𝑎 ,𝑆(𝑡),𝑦), 1 ≤ 𝑘 ≤ 𝑞𝛽 em (3.2.3);

𝜆(𝑡+1)𝑘 ∼ 𝜋(𝜆𝑘|𝛽(𝑡+1),D(𝑡), 𝜇

(𝑡)𝜏 , 𝜎

(𝑡)𝜏 , 𝜑(𝑡), 𝑏(𝑡), 𝜏

(𝑡)𝑎 ,𝑆(𝑡),𝑦), 1 ≤ 𝑘 ≤ 𝑞𝜆 em (3.2.4);

𝜑(𝑡+1) ∼ 𝜋(𝜑| 𝛽(𝑡+1),𝜆(𝑡+1),D(𝑡), 𝜇(𝑡)𝜏 , 𝜎

(𝑡)𝜏 , 𝑏(𝑡), 𝜏

(𝑡)𝑎 ,𝑆(𝑡),𝑦) em (3.2.5);

D(𝑡+1) ∼ Inversa Wishart𝑞𝑏

(∑𝑁𝑖=1 𝑏

(𝑡)𝑖 𝑏

(𝑡)′𝑖 +D0, 𝜈 + 𝑞𝑏

)𝜎(𝑡+1)𝜏 ∼

√Inversa Gamma

(𝑁2− 1, 1

2

∑𝑁𝑖=1

(𝜏(𝑡)𝑎,𝑖 − 𝜇

(𝑡)𝜏

)2)1{𝜎𝜏 ∈ (0, 𝑢𝜏 )}

𝜇(𝑡+1)𝜏 ∼ Normal

((∑𝑖 𝜏

(𝑡)(𝑎,𝑖)

𝜎2𝜏(𝑡+1) + ��

𝜎2𝜇𝜏

)(𝑁

𝜎2𝜏(𝑡+1) +

1𝜎2𝜇𝜏

)−1

,

(𝑁𝜎2𝜏+ 1

𝜎2𝜇𝜏

)−1)1{𝜇𝜏 ∈ T}

𝑖← 1;

Enquanto 𝑖 ≤ 𝑁 faca

𝑏(𝑡+1)𝑖 ∼ 𝜋(𝑏𝑖|𝛽(𝑡+1),𝜆(𝑡+1),D(𝑡+1), 𝜇

(𝑡+1)𝜏 , 𝜎

(𝑡+1)𝜏 , 𝜑(𝑡+1), 𝜏

(𝑡)(𝑎,𝑖), 𝑆

(𝑡)𝑖 ,𝑦) em (3.2.10)

𝜏(𝑡+1)𝑎,𝑖 ∼ 𝜋(𝜏𝑎,𝑖|𝛽(𝑡+1),𝜆(𝑡+1),D(𝑡+1), 𝜇

(𝑡+1)𝜏 , 𝜎

(𝑡+1)𝜏 , 𝜑(𝑡+1), 𝑏

(𝑡+1)𝑖 , 𝑆

(𝑡)𝑖 ,𝑦) em (3.2.9)

𝑆(𝑡+1)𝑖 ∼ 𝜋(𝑆𝑖|𝛽(𝑡+1),𝜆(𝑡+1),D(𝑡+1), 𝜇

(𝑡+1)𝜏 , 𝜎

(𝑡+1)𝜏 , 𝜑(𝑡+1), 𝑏

(𝑡+1)𝑖 , 𝜏

(𝑡+1)(𝑎,𝑖) ,𝑦) em (3.2.11)

𝑖← 𝑖+ 1;

𝑡← 𝑡+ 1;

Fim

Algoritmo 3.1: Amostrador de Gibbs para modelo proposto com distribuicao Beta-Binomial

das respostas condicionais.

47

3.2.2 Amostrador de Gibbs para o caso Binomial

Nesta secao, suponha que a funcao 𝑔 em (2.3.2) seja 𝑔(𝑥) = log(𝑥/(1 − 𝑥)

). Sob o caso de

respostas condicionais com distribuicoes Binomial, e de interesse utilizar o Amostrador de Gibbs com

variaveis auxiliares descrito na secao (3.1.1). Para tal, a representacao dos dados em (2.3.1) - (2.3.3)

deve ainda ser aumentada pelo conjunto de variaveis latentes {𝑦*𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑁}e {𝑅𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑁}. Lembrando que estas sao, respectivamente, as utilidades

agregadas das observacoes {𝑌𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑁} e as alocacoes nas componentes da

mistura finita gaussiana na aproximacao de {𝜉𝑖𝑗 ∼ Gumbel(0, 1) : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑁} em(3.1.8).

Com a criacao das variaveis auxiliares que refletem a dinamica original dos dados, as quantidades

[𝑌𝑖𝑗|𝑦*𝑖𝑗, 𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖] permanecem aleatorias e desconhecidas. Apesar disso, suas distribuicoes

nao sao de interesse, tampouco necessarias. Tem-se a seguinte representacao do modelo:

𝑌𝑖𝑗|𝑦*𝑖𝑗, 𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ 𝑓(𝑦𝑖𝑗|𝑦*𝑖𝑗, 𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖)

𝑦*𝑖𝑗|𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Normal(𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖 +𝑚𝑙, 𝑠

2𝑙 ) (3.2.12)

𝑅𝑖𝑗𝑖𝑖𝑑∼ Multinomial(1, 𝑟1, . . . , 𝑟𝐿)

𝑏𝑖𝑖𝑖𝑑∼ Normal𝑞𝑏(0,D)


2𝜏 )1{𝜏𝑎,𝑖 ∈ T}


∀𝑙 ∈ {1, . . . , 𝐿}, ∀(𝑖, 𝑗) ∈ {1, . . . , 𝑛} × {1, . . . , 𝑛𝑖}, em que 𝜏𝑖 =(𝜏∞,𝑖

)1{𝑆𝑖=0}(𝜏𝑎,𝑖)1{𝑆𝑖=1}

e 𝑝𝑖 =

ℎ−1(𝑤′𝑖𝜆), como apresentado anteriormente.

Considere 𝜃 = (𝛽′,𝜆′, vec(D)′, 𝜇𝜏 , 𝜎𝜏 )′ o vetor de parametros para o caso Binomial. As escolhas

de distribuicoes a priori sao iguais aos da Secao (3.2.1), e a suposicao de independencia mantida.

Assim, a distribuicao 𝜋(𝜃) e da forma (3.2.2), excluindo o termo 1{𝜑 ∈ (0, 𝑢𝜑)}.

Sob a premissa de que qualquer outra variavel, condicionada aos dados aumentados (𝑦,𝑦*) in-

depende dos dados originais 𝑦 em Fruhwirth-Schnatter and Fruhwirth (2007), Fruhwirth-Schnatter

et al. (2009), generaliza-se o resultado para o presente modelo, implicando em 𝜋(𝛾𝑑|𝑦,𝑦*,𝛾−𝛾𝑑) =

𝜋(𝛾𝑑|𝑦*,𝛾−𝛾𝑑) para qualquer parametro 𝛾𝑑 ∈ 𝛾 = {𝛽,𝜆,D, 𝜇𝜏 , 𝜎𝜏 , 𝑏, 𝜏𝑎,𝑆,𝑅}.

Com uso deste resultado, a simulacao das variaveis de locacao 𝛽 e 𝑏 pode ser feita simultanea-

mente, de acordo com as distribuicoes a priori elicitadas. Seja B = (𝛽′, 𝑏′1, . . . , 𝑏′𝑁)

′. A estrategia e

escrever o modelo condicional (3.2.12) na sua forma vetorial, isto e, dadas as variaveis 𝑦*, 𝑅, 𝜃−𝛽,

48

𝜏𝑎 e 𝑆, tem-se para o 𝑖-esimo indivıduo:⎡⎢⎢⎢⎢⎣𝑦*𝑖1 −𝑚𝑅𝑖1

𝑦*𝑖2 −𝑚𝑅𝑖2

...

𝑦*𝑖𝑛𝑖−𝑚𝑅𝑖𝑛𝑖

⎤⎥⎥⎥⎥⎦ =

⎡⎢⎢⎢⎢⎣𝑥′𝑖1,𝜏𝑖

𝑥′𝑖2,𝜏𝑖...

𝑥′𝑖𝑛𝑖,𝜏𝑖

⎤⎥⎥⎥⎥⎦𝛽 +

⎡⎢⎢⎢⎢⎣𝑧′𝑖1,𝜏𝑖

𝑧′𝑖2,𝜏𝑖...

𝑧′𝑖𝑛𝑖,𝜏𝑖

⎤⎥⎥⎥⎥⎦ 𝑏𝑖 +

⎡⎢⎢⎢⎢⎣𝜉𝑖1

𝜉𝑖2...

𝜉𝑖𝑛𝑖

⎤⎥⎥⎥⎥⎦ ,

que e equivalente a

𝑦*𝑖 −𝑚𝑅𝑖

= X𝑖,𝜏𝑖𝛽 + Z𝑖,𝜏𝑖𝑏𝑖 + 𝜉𝑖,

𝜉𝑖|𝑅𝑖 ∼ Normal𝑛𝑖(0,Σ𝑖)

𝛽 ∼ Normal𝑞𝛽(𝜇𝛽,Σ𝛽)

𝑏𝑖 ∼ Normal𝑞𝑏(0,D)

com Σ𝑖 = diag(𝑠2𝑅𝑖1, . . . , 𝑠2𝑅𝑖𝑛𝑖

) e as matrizes possuindo dimensoes(𝑦*𝑖−𝑚𝑖

)𝑛𝑖×1

,(X𝑖,𝜏𝑖

)𝑛𝑖×𝑞𝛽

,(Z𝑖,𝜏𝑖

)𝑛𝑖×𝑞𝑏

.

As observacoes de todos os indivıduos concatenadas ficam da seguinte forma:

Y*𝑚 =

⎡⎢⎢⎢⎢⎣𝑦*1 −𝑚𝑅1

𝑦*2 −𝑚𝑅2

...

𝑦*𝑁 −𝑚𝑅𝑁

⎤⎥⎥⎥⎥⎦ , X𝜏 =

⎡⎢⎢⎢⎢⎣X1,𝜏1

X2,𝜏2...

X𝑁,𝜏𝑁

⎤⎥⎥⎥⎥⎦ , Z𝜏 =𝑁⨁𝑖=1

Z𝑖,𝜏𝑖 e 𝜉 =

⎡⎢⎢⎢⎢⎣𝜉1

𝜉2...

𝜉𝑁

⎤⎥⎥⎥⎥⎦ ,

em que ⊕ e o operador de soma direta entre matrizes. A representacao matricial geral fica, entao:

Y*𝑚 = WB+ 𝜉 (3.2.13)

𝜉|𝑅 ∼ Normal∑𝑁𝑖=1 𝑛𝑖

(0,Σ𝜉)

B ∼ Normal(𝑞𝛽+𝑞𝑏𝑁)(𝜇B,ΣB), em que

W =[X𝜏 Z𝜏

], Σ𝜉 = ⊕𝑁

𝑖=1Σ𝑖, 𝜇B =(𝜇′

𝛽,0′, . . . ,0′)′ e ΣB = Σ𝛽 ⊕

(⊕𝑁

𝑖=1 D

),

em que(Y*

𝑚

)(∑

𝑖 𝑛𝑖)×1e(W)(∑

𝑖 𝑛𝑖)×(𝑞𝛽+𝑞𝑏𝑁). Para o modelo linear geral de regressao multivariada com

erros gaussianos, a expressao da condicional completa de B e amplamente conhecida, e encontrada

por meio de:

𝜋(B|𝑦*,𝑅,𝜃−𝛽, 𝜏𝑎,𝑆) ∝ exp

{− 1

2

[(Y*

𝑚 −WB)′Σ−1

𝜉

(Y*

𝑚 −WB)+(B− 𝜇B

)′Σ−1

B

(B− 𝜇B

)]}∝ exp

{− 1

2

[B′W′Σ−1

𝜉 WB− 2B′W′Σ−1𝜉 Y*

𝑚 +B′Σ−1

B B− 2B′Σ−1

B 𝜇B

]}= exp

{− 1

2

[B′(W′Σ−1

𝜉 W+ Σ−1

B

)B− 2B′(W′Σ−1

𝜉 Y*𝑚 + Σ−1

B 𝜇B)]}

,

que e o nucleo de uma distribuicao gaussiana multivariada. Sendo assim, a condicional completa de

49

B = (𝛽′, 𝑏′1, . . . , 𝑏′𝑁)

′ e da forma

B|(𝑦*,𝑅,𝜃−𝛽,𝜏𝑎,𝑆) ∼ Normal(𝑞𝛽+𝑞𝑏𝑁)

(��*B, Σ

*B),

Σ*B =

(W′Σ−1

𝜉 W+ Σ−1

B

)−1

��*B = Σ*

B

(W′Σ−1

𝜉 Y*𝑚 + Σ−1

B 𝜇B

).

Na pratica, W pode ser esparsa por conta da matriz de desenho dos efeitos aleatorios, Z𝜏 . Sendo

assim, tanto para encontrar a media ��*B como para gerar valores aleatorios da distribuicao gaussiana

multivariada, nao se calcula diretamente a inversa Σ*B, e resolve-se o sistema linear Σ*−1

B ��*B =(

W′Σ−1𝜉 Y*

𝑚 + Σ−1

B 𝜇B

)com uso da fatoracao de Cholesky para encontrar a media a posteriori em

questao.

Como mostrado na Secao 3.1.1, a atualizacao das variaveis auxiliares 𝑦*𝑖𝑗 e 𝑅𝑖𝑗 dar-se-a com base na

condicional completa conjunta 𝜋(𝑅,𝑦*|𝜃, 𝑏, 𝜏𝑎,𝑆,𝑦) = 𝜋(𝑅|𝑦*,𝜃, 𝑏, 𝜏𝑎,𝑆)𝜋(𝑦*|𝜃, 𝑏, 𝜏𝑎,𝑆,𝑦). Ade-

quando a expressao (3.1.6) para o modelo de mistura de regressoes, tem-se, para cada (𝑖, 𝑗) ∈{1, . . . , 𝑁} × {1, . . . , 𝑛𝑖} :

𝜋(𝑅𝑖𝑗 = 𝑙|𝑦*𝑖𝑗,𝜃, 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖) ∝𝑟𝑙𝑠𝑙exp

{1

𝑠2𝑙

(𝑦*𝑖𝑗 − 𝑥′

𝑖𝑗,𝜏𝑖𝛽 − 𝑧′

𝑖𝑗,𝜏𝑖𝑏𝑖 −𝑚𝑙

)2}, 𝑙 ∈ {1, . . . , 𝐿},

em que os parametros (𝑟𝑙,𝑚𝑙, 𝑠2𝑙 ),∀𝑙 ∈ {1, . . . , 𝐿} e 𝐿 sao conhecidos e tabelados conforme a quanti-

dade de ensaios 𝐾 das variaveis Binomiais Fruhwirth-Schnatter et al. (2009). As utilidades agregadas

a posteriori ∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁} × {1, . . . , 𝑛𝑖} sao obtidas segundo:

𝑦*𝑖𝑗|(𝜃, 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖, 𝑦𝑖𝑗) = −log(𝑈𝑖𝑗

𝛿𝑖𝑗+

𝑉𝑖𝑗1{𝑦𝑖𝑗 < 𝐾}1 + 𝛿𝑖𝑗

),

em que 𝑈𝑖𝑗 ∼ Gamma(𝑦𝑖𝑗, 1), 𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1) e 𝛿𝑖𝑗 = exp(𝑥′𝑖𝑗,𝜏𝑖


𝑏𝑖).

Agora, para as quantidades D, 𝜇𝜏 e 𝜎𝜏 e 𝜆, tem-se resultados equivalentes aos da secao 3.2.1:

D|𝜃−D, 𝑏, 𝜏𝑎,𝑆,𝑦*,𝑅 ∼ Inversa Wishart𝑞𝑏

( 𝑁∑𝑖=1

𝑏𝑖𝑏′𝑖 +D0, 𝜈 + 𝑞𝑏

)

𝜎𝜏 |𝜃−𝜎𝜏 , 𝑏, 𝜏𝑎,𝑆,𝑦*,𝑅 ∼

⎯⎸⎸⎷Inversa Gamma

(𝑁

2− 1,

1

2

𝑁∑𝑖=1

(𝜏𝑎,𝑖 − 𝜇𝜏

)2)1{𝜎𝜏 ∈ (0, 𝑢𝜏 )},

𝜇𝜏 |𝜃−𝜇𝜏 , 𝑏, 𝜏𝑎,𝑆,𝑦*,𝑅 ∼ Normal

((∑𝑖 𝜏(𝑎,𝑖)𝜎2𝜏

+��

𝜎2𝜇𝜏

)(𝑁

𝜎2𝜏

+1

𝜎2𝜇𝜏

)−1

,

(𝑁

𝜎2𝜏

+1

𝜎2𝜇𝜏

)−1)1{𝜇𝜏 ∈ T},

𝜋(𝜆|𝜃−𝜆, 𝑏, 𝜏𝑎,𝑆,𝑦*,𝑅) ∝

[ 𝑁∏𝑖=1

[ℎ−1(𝑤′

𝑖𝜆)]𝑆𝑖[1− ℎ−1(𝑤′


]𝑒𝑥𝑝

{− 1

2𝜎2𝜆

𝜆′𝜆

}. (3.2.14)

50

As condicionais completas das componentes aleatorias dos pontos de quebra sao, ∀𝑖 ∈ {1, . . . , 𝑁}:

𝜋(𝜏𝑎,𝑖|𝜃, 𝑏𝑖, 𝑆𝑖,𝑦*𝑖 ,𝑅𝑖) ∝

[ 𝑛𝑖L∏𝑗=1

𝐿∏𝑙=1

(𝑟𝑙𝜑(𝑦

*𝑖𝑗|𝑥′



2𝑙 ))1{𝑅𝑖𝑗=𝑙}

]× 𝑒𝑥𝑝

{− 1

2𝜎2𝜏

(𝜏𝑎,𝑖 − 𝜇𝜏 )2}, 𝜏𝑎,𝑖 ∈ T. (3.2.15)

Analogamente ao caso Beta-Binomial, a alocacao a posteriori dos indivıduos ao grupo com decai-

mento cognitivo acelerado sera dada por uma distribuicao Bernoulli:

𝑆𝑖|𝜃, 𝑏𝑖, 𝜏(𝑎,𝑖),𝑦*𝑖 ,𝑅𝑖 ∼ Bernoulli

(𝑞*𝑖1

𝑞*𝑖1 + 𝑞*𝑖0

),

𝑞*𝑖0 =

[𝑛𝑖∏𝑗=1

𝐿∏𝑙=1

(𝑟𝑙𝑓(𝑦

*𝑖𝑗|𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝑆𝑖 = 0)

)1{𝑅𝑖𝑗=𝑙}][

1− ℎ−1(𝑤′

𝑖𝜆)], (3.2.16)

𝑞*𝑖1 =

[𝑛𝑖∏𝑗=1

𝐿∏𝑙=1

(𝑟𝑙𝑓(𝑦

*𝑖𝑗|𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1)

)1{𝑅𝑖𝑗=𝑙}][

ℎ−1(𝑤′

𝑖𝜆)], (3.2.17)

em que

𝑓(𝑦*𝑖𝑗|𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝑆𝑖 = 0) = 𝑙𝑖𝑚𝜏𝑖→+∞

𝜑(𝑦*𝑖𝑗|𝑥′



2𝑙

)e

𝑓(𝑦*𝑖𝑗|𝑅𝑖𝑗 = 𝑙, 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖 = 1) = 𝜑(𝑦*𝑖𝑗|𝑥′



2𝑙

)𝜏𝑖=𝜏(𝑎,𝑖)

.

O algoritmo para o modelo de mistura de regressoes com resposta condicional Binomial e resumido

pelo Algoritmo 3.2.

Com as cadeias geradas pelo Algoritmo 3.1 ou 3.2, elimina-se um numero burn de elementos de

cada parametro simulado, para evitar a (possıvel) ma influencia dos valores iniciais. Em seguida, as

cadeias finais sao determinadas mantendo elementos com um numero thin de espacamento, para evi-

tar autocorrelacao alta entre parametros. Assim, o tamanho final das cadeias e de ⌈(𝑀−𝑏𝑢𝑟𝑛)/𝑡ℎ𝑖𝑛⌉.As escolhas de burn e thin variam de acordo com a complexidade do modelo.

Em Fruhwirth-Schnatter (2006), a autora discute diferentes funcoes de perda e seus correspon-

dentes estimadores das alocacoes 𝑆1, . . . , 𝑆𝑁 . A escolha mais adequada e considerar a perda 0-1,

dada por ℒ(𝑆,𝑆) = 0, se todas as alocacoes sao corretas, e ℒ(𝑆,𝑆) = 1, caso contrario. Assim, o

risco integrado fica E[ℒ(𝑆,𝑆)|𝑦] = 1 − P[𝑆1 = 𝑆1, . . . , 𝑆𝑁 = 𝑆𝑁 |𝑦], e e minimizado com a moda a

posteriori de 𝑆. Para todos os outros parametros e efeitos aleatorios, opta-se pela perda absoluta, e

os estimadores Bayesianos serao dados pela mediana das cadeias finais.

51

Saıda: Amostras de tamanho 𝑀 de cada parametro 𝛽1, . . . , 𝛽𝑞𝛽 , 𝜆1, . . . , 𝜆𝑞𝜆 ,D, 𝜇𝜏 , 𝜎𝜏 e dosefeitos aleatorios 𝑆1, . . . , 𝑆𝑁 , 𝜏(𝑎,1), . . . , 𝜏(𝑎,𝑁), 𝑏1, . . . , 𝑏𝑁 .

Valores iniciais: (𝛽(0),𝜆(0),D(0), 𝜇(0)𝜏 , 𝜎

(0)𝜏 , 𝑆

(0)1 , . . . , 𝑆

(0)𝑁 , 𝜏

(0)(𝑎,1), . . . , 𝜏

(0)(𝑎,𝑁), 𝑏

(0)1 , . . . , 𝑏

(0)𝑁 ), 𝑀

Inıcio𝑡← 0;Defina 𝐿, (𝑚𝑙, 𝑠

2𝑙 , 𝑟𝑙),∀𝑙 ∈ {1, . . . , 𝐿} com base em 𝐾, segundo Fruhwirth-Schnatter et al.

(2009).

Defina valores iniciais para as variaveis auxiliares {𝑦*(0)𝑖𝑗 , 𝑅(0)𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑁.}


Construa Y*(𝑡)𝑚 ,W(𝑡),Σ

(𝑡)𝜉 ,Σ

(𝑡)

B pelas definicoes em (3.2.13);

A←(W(𝑡)′Σ

(𝑡)𝜉

−1W(𝑡) + Σ

(𝑡)

B−1);

Encontre 𝜇 solucionando o sistema linear A𝜇 =(W(𝑡)′Σ

(𝑡)𝜉

−1Y*(𝑡)

𝑚 + Σ(𝑡)

B−1𝜇B

);

(𝛽(𝑡+1)′, 𝑏(𝑡+1)′1 , . . . , 𝑏

(𝑡+1)′𝑁 )′ ∼ Normal(𝑞𝛽+𝑞𝑏𝑁)(𝜇,A

−1);

D(𝑡+1) ∼ Inversa Wishart𝑞𝑏

(∑𝑁𝑖=1 𝑏

(𝑡)𝑖 𝑏

(𝑡)′𝑖 +D0, 𝜈 + 𝑞𝑏

);

𝜎(𝑡+1)𝜏 ∼

√Inversa Gamma

(𝑁2− 1, 1

2

∑𝑁𝑖=1

(𝜏(𝑡)𝑎,𝑖 − 𝜇

(𝑡)𝜏

)2)1{𝜎𝜏 ∈ (0, 𝑢𝜏 )};

𝜇(𝑡+1)𝜏 ∼ Normal

((∑𝑖 𝜏

(𝑡)(𝑎,𝑖)

𝜎2𝜏(𝑡+1) + ��

𝜎2𝜇𝜏

)(𝑁

𝜎2𝜏(𝑡+1) +

1𝜎2𝜇𝜏

)−1

,

(𝑁𝜎2𝜏+ 1

𝜎2𝜇𝜏

)−1)1{𝜇𝜏 ∈ T};

𝜆(𝑡+1) ∼ 𝜋(𝜆|𝜃(𝑡+1)−𝜆 , 𝑏(𝑡+1), 𝜏

(𝑡)𝑎 ,𝑆(𝑡),𝑦*(𝑡),𝑅(𝑡)) em (3.2.14);

𝑖← 1;𝑗 ← 1;Enquanto 𝑖 ≤ 𝑁 faca

𝜏(𝑡+1)𝑎,𝑖 ∼ 𝜋(𝜏𝑎,𝑖|𝜃(𝑡+1), 𝑏

(𝑡+1)𝑖 , 𝑆

(𝑡)𝑖 ,𝑦

*(𝑡)𝑖 ,𝑅

(𝑡)𝑖 ) em (3.2.15);

𝑆(𝑡+1)𝑖 ∼ Bernoulli

(𝑞*𝑖1

𝑞*𝑖1+𝑞*𝑖0

)com 𝑞*𝑖0 e 𝑞*𝑖1 dados por (3.2.16) e (3.2.17);

Enquanto 𝑗 ≤ 𝑛𝑖 faca

𝛿𝑖𝑗 = exp(𝑥′𝑖𝑗,𝜏

(𝑡+1)𝑖

𝛽(𝑡+1) + 𝑧′𝑖𝑗,𝜏

(𝑡+1)𝑖

𝑏(𝑡+1)𝑖 );

Se 𝑦𝑖𝑗 = 𝐾 entao𝑉𝑖𝑗 ← 0

Senao𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1)

𝑈𝑖𝑗 ∼ Gamma(𝐾, 1);

𝑦*(𝑡+1)𝑖𝑗 ← −log

(𝑈𝑖𝑗

1+𝛿𝑖𝑗+

𝑉𝑖𝑗

𝛿𝑖𝑗

);

𝑟*𝑙 ←𝑟𝑙𝑠𝑙exp

{1

2𝑠2𝑙

(𝑦*(𝑡+1)𝑖𝑗 −𝑥′

𝑖𝑗,𝜏(𝑡+1)𝑖

𝛽(𝑡+1)−𝑧′𝑖𝑗,𝜏

(𝑡+1)𝑖

𝑏(𝑡+1)𝑖 −𝑚𝑙

)2}, 𝑙 ∈ {1, . . . , 𝐿};

𝑟*𝑙 ← 𝑟*𝑙 /(∑

𝑙 𝑟*𝑙

), 𝑙 ∈ {1, . . . , 𝐿};

𝑅(𝑡+1)𝑖𝑗 ∼ Multinomial(1, 𝑟*1, . . . , 𝑟

*𝐿);

𝑡← 𝑡+ 1;

Fim

Algoritmo 3.2: Amostrador de Gibbs para modelo proposto com distribuicao Binomial pararespostas condicionais.

52

Capıtulo 4

Estudo de Simulacao

Nesta secao, por meio da aplicacao do modelo proposto na Secao 2.3 (estrutura (2.3.1)) a dados

simulados da distribuicao Binomial, avalia-se a performance da estimacao de parametros pelo Al-

goritmo 3.2. Para cada caso de variavel resposta, e de interesse verificar a influencia dos seguintes

fatores nas estimativas: (i) - proporcao de indivıduos em cada grupo da mistura de regressoes (𝐺1-

decaimento dos escores a taxa constante e 𝐺2- componente com declınio acelerado); (ii) - magnitude

do coeficiente 𝛽 que produz o declınio acelerado e (iii) - quantidade de respostas por indivıduos ao

longo do tempo.

Os bancos de dados relacionados a estudos prospectivos com coortes de idosos contem, em geral,

centenas de indivıduos observados ao longo do tempo. Em particular, dois exemplos destes dados que

utilizam o questionario de avaliacao da habilidade cognitiva MMSE (Mini Mental Status Examina-

tion) sao compostos por 656 (OCTO-Twin McClearn et al. (1997)) e 1163 (Rush Memory and Aging

Project Bennett et al. (2005a)) idosos acompanhados ate a morte. Baseado nessas quantidades, mas

pensando num caso mais conservador, foi fixado um tamanho de amostra 𝑁 = 500.

Outro aspecto importante a ser considerado em modelos longitudinais e o numero de vezes que

cada participante respondeu o questionario com o passar dos anos. Nos mesmos exemplos apontados

acima, temos numero maximo de respostas por indivıduo iguais a 5 para o OCTO-Twin e 19 para

o Rush Memory and Aging Project. Assim, consideraremos casos balanceados com 𝐽 = 5 e 𝐽 = 10

medidas repetidas das unidades experimentais.

As demais caracterısticas a serem avaliadas - a proporcao de indivıduos em cada componente da

mistura e a magnitude do efeito apos a ocorrencia do ponto de quebra - sao alteradas de acordo com

tres configuracoes dos parametros 𝜆 e 𝛽 nas expressoes (2.3.2) e (2.3.3). Os valores escolhidos sao

apresentados na continuacao deste capıtulo. Assim, tem-se 18 combinacoes de parametros e tamanhos

amostrais para a simulacao dos escores e covariaveis (3 distincoes do efeito fixo da covariavel (𝑡𝑖𝑗−𝜏𝑖)+,3 distincoes de 𝜆 e 2 casos de medidas repetidas). Com cada uma destas combinacoes, sao gerados

100 conjuntos de dados para calcular medidas de qualidade do metodo de modelagem escolhido.

53

4.1 Configuracoes de parametros e exemplos de dados si-

mulados

Considere dem𝑖,∀𝑖 ∈ {1, . . . , 𝑁} uma variavel explicativa dicotomica que simula o diagnostico de

demencia. Os preditores da probabilidade de acerto das questoes e da probabilidade de alocacao nos

grupos 𝐺1 e 𝐺2 sao gerados com o preditor nao linear em 𝑡, o Broken-Stick (2.2.1), por meio de:

log

(𝜇𝑖𝑗

1− 𝜇𝑖𝑗

)= 𝛽1 + 𝑏𝑖 + 𝛽2min(𝑡𝑖𝑗, 𝜏𝑖) + 𝛽3 (𝑡𝑖𝑗 − 𝜏𝑖)

+ + 𝛽4 dem𝑖 (4.1.1)

log

(𝑝𝑖

1− 𝑝𝑖

)= 𝜆1 + 𝜆2dem𝑖, (4.1.2)

em que 𝜏𝑖 =(𝜏∞,𝑖

)1{𝑆𝑖=0}(𝜏𝑎,𝑖)1{𝑆𝑖=1}

. As demais variaveis sao simuladas de acordo com

𝑌𝑖𝑗|𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Binomial(𝐾,𝜇𝑖𝑗) (4.1.3)


2𝜏 )1{𝜏𝑎,𝑖 ∈ T}

𝑏𝑖𝑖𝑖𝑑∼ Normal(0, 𝜎2

𝑏 )


∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁} × {1, . . . , 𝐽}. Os seguintes parametros tem valores fixos para todas as confi-

guracoes: 𝜎2𝑏 = 1, 5, 𝜇𝜏 = −5, 𝜎2

𝜏 = 1, 𝛽1 = 2, 5, 𝛽2 = −0, 2 e 𝛽4 = −1. As demais quantidades

assumem os seguintes valores:

∙ Questionarios por indivıduo: 𝐽 ∈ {5, 10};

∙ Proporcao de pessoas nos grupos 𝐺2, determinados por 𝜆′ ∈ {(−1,−4), (0, 0), (3,−1)}, corres-pondentes a proporcoes medias de 13,72%, 50,00% e 91,61% dos indivıduos, respectivamente,

dentro da componente com declınio acelerado (estes foram os valores observados dos bancos de

dados simulados no caso Binomial);

∙ Magnitude do efeito apos ponto de quebra: 𝛽3 ∈ {−2, 5;−1, 5;−0, 5}. Estas escolhas levam a

um aumento relativo com respeito ao decaimento linear no tempo (𝛽3/𝛽2) iguais a 12,5, 7,5 e

2,5 vezes, respectivamente.

Exemplos acerca das diferentes configuracoes de parametros sao dados na Figura 4.1.

Acerca da configuracao das rodadas MCMC, optou-se por gerar, inicialmente, duas cadeias com

burn-in de 100 mil pontos, seguido de 100 mil iteracoes com espacamento de 100, resultando assim

em amostras a posteriori de tamanho 1000 para cada parametro. Com estes numeros de iteracoes,

entretanto, nem todos os ajustes convergiram. Assim, para atingir o numero desejado de 100 ajustes

em cada configuracao, rodadas adicionais foram feitas com duas cadeias e burn-in de 300 mil pontos,

54

Grupo decaimento linear Grupo decaimento aceleradoβ

3=

−2,5

β3

=−

1,5

β3

=−

0,5

−9 −8 −7 −6 −5 −4 −3 −2 −1 0 −9 −8 −7 −6 −5 −4 −3 −2 −1 0

10

50

90

10

50

90

10

50

90

Tempo até a morte

Es

co

re s

imu

lad

o

Figura 4.1: Exemplo de dados fictıcios gerados pela estrutura (4.1.3). Em todos os casos, a proporcaode indivıduos em cada grupo foi gerada com 𝜆 = (0, 0)′ na expressao (4.1.2) e os efeitos do preditor(4.1.1) iguais a 𝛽 = (1, 5;−0, 2; 𝛽3;−1)′. Na primeira linha, 𝛽3 = −2, 5; na linha central, 𝛽3 = −1, 5;e na ultima linha, 𝛽3 = −0, 5.

seguido de 100 mil iteracoes com espacamento de 100. Este procedimento foi suficiente para obter

os resultados a respeito da simulacao com distribuicao Binomial (exceto para a configuracao 𝐽 =

5, 𝐺2 pequeno e 𝛽3 = −0, 5).

4.2 Medidas para avaliacao das cadeias geradas e suas esti-

mativas

Um importante diagnostico realizado na estimacao de modelos Bayesianos diz respeito a con-

vergencia das cadeias geradas por metodos MCMC para a verdadeira distribuicao estacionaria. Au-

tores como Ripley (2009), Gelfand and Smith (1990) ja discutiam o problema, mas somente com

solucoes qualitativas e, portanto, com reproducibilidade comprometida. Gelman and Rubin (1992),

entretanto, propoem uma ferramenta precisa e que pode ser aplicada em configuracoes MCMC bas-

tante gerais. Este e chamado fator potencial de reducao de escala, comumente conhecido como

55

Estatıstica R, calculada relacionando as variancias das cadeias independentes de um parametro com

as variancias globais:

R =

√1 +

1

𝐻

(𝐵

𝑊− 1

),

𝐵 =𝐻

(𝐶 − 1)

𝐶∑𝑐=1

(𝜃𝑐. − 𝜃..

)2, 𝑊 =

1

𝐶

𝐶∑𝑐=1

(1

(𝐻 − 1)

𝐻∑ℎ=1

(𝜃𝑐,ℎ − 𝜃𝑐.)2

),

em que 𝜃𝑐,ℎ e ℎ−esimo valor do parametro univariado na 𝑐-esima cadeia, 𝜃𝑐. = (1/𝐻)∑𝐻

ℎ=1 𝜃𝑐,ℎ

(media em cada cadeia) e 𝜃.. = (1/𝐶𝐻)∑𝐻

ℎ=1

∑𝐶𝑐=1 𝜃𝑐,ℎ (media geral concatenando cadeias), com 𝐶

sendo a quantidade de cadeias independentes geradas e 𝐻 o numero de iteracoes finais apos burn-in

e composicao da cadeia com o espacamento desejado.

Conforme a estatıstica R e seu limite superior de confianca se aproximam de 1, o poder para

assumir que o parametro convergiu para sua verdadeira distribuicao estacionaria em todas as cadeias

geradas aumenta. Neste estudo de simulacao, o criterio para assumir que a cadeia de um parametro

convergiu foi de que sua estatıstica R estivesse proxima por menos de 0,1 em valor absoluto, isto

e, para o 𝑘-esimo parametro univariado 𝜃𝑘, caso R𝜃𝑘 < 1, 1, acredita-se que a cadeia obtida vem da

verdadeira distribuicao estacionaria.

Os efeitos fixos serao avaliados pelas tradicionais medidas de erro quadratico medio (EQM) e

probabilidade de cobertura (PC), dadas por:

EQM(𝜃) =1

𝑀

𝑀∑𝑚=1

(𝜃(𝑚) − 𝜃𝑣)2, (4.2.1)

PC𝛼(𝜃) =1

𝑀

𝑀∑𝑚=1

1{𝜃𝑣 ∈ [𝜃(𝑚)𝛼/2 ; 𝜃

(𝑚)1−𝛼/2]}, (4.2.2)

em que 𝑀 e a quantidade de conjuntos de dados simulados, 𝜃(𝑚) e o estimador Bayesiano da 𝑚-

esima simulacao sob funcao de perda absoluta para todo parametro verdadeiro 𝜃𝑣 ∈ {𝛽0, . . . , 𝛽𝑞𝛽} ∪{𝜆0, . . . , 𝜆𝑞𝜆 , 𝜎𝑏, 𝜇𝜏 , 𝜎𝜏 , 𝜑}; e [𝜃

(𝑚)𝛼/2 ; 𝜃

(𝑚)1−𝛼/2] representa o intervalo de credibilidade de nıvel 𝛼 para

o parametro 𝜃. Os efeitos aleatorios da media dos escores, 𝑏1, . . . , 𝑏𝑁 , e os pontos de quebra

𝜏(𝑎,1), . . . , 𝜏(𝑎,𝑁) nao serao avaliados diretamente, mas somente pelos parametros que os caracteri-

zam - 𝜎𝑏, 𝜇𝜏 e 𝜎𝜏 , com as medidas EQM e PC.

Por outro lado, com as alocacoes 𝑆(𝑚)1 , . . . , 𝑆

(𝑚)𝑁 provenientes da 𝑚-esima simulacao, pode-se

verificar a sensibilidade da classificacao de acordo com os fatores de interesse mencionados. Uma

maneira de o fazer e coletar a matriz de confusao Fawcett (2006) para cada modelo ajustado e obter

as taxas de verdadeiros positivos (TVP) e de falsos positivos (TFP), alem da acuracia (AC):

TVP(𝑆(𝑚)1 , . . . , 𝑆

(𝑚)𝑁 ) =

∑𝑁𝑖=1 1{𝑆

(𝑚)𝑖 = 0 e 𝑆

(𝑚)𝑖,𝑣 = 0}∑𝑁

𝑖=1 1{𝑆(𝑚)𝑖 = 0 e 𝑆

(𝑚)𝑖,𝑣 = 0}+

∑𝑁𝑖=1 1{𝑆

(𝑚)𝑖 = 1 e 𝑆

(𝑚)𝑖,𝑣 = 0}

, (4.2.3)

56

TFP(𝑆(𝑚)1 , . . . , 𝑆

(𝑚)𝑁 ) =

∑𝑁𝑖=1 1{𝑆

(𝑚)𝑖 = 0 e 𝑆

(𝑚)𝑖,𝑣 = 1}∑𝑁

𝑖=1 1{𝑆(𝑚)𝑖 = 0 e 𝑆

(𝑚)𝑖,𝑣 = 1}+

∑𝑁𝑖=1 1{𝑆

(𝑚)𝑖 = 1 e 𝑆

(𝑚)𝑖,𝑣 = 1}

, (4.2.4)

AC(𝑆(𝑚)1 , . . . , 𝑆

(𝑚)𝑁 ) =

1

𝑁

𝑁∑𝑖=1

[1{𝑆(𝑚)

𝑖 = 0 e 𝑆𝑖,𝑣 = 0}+ 1{𝑆(𝑚)𝑖 = 1 e 𝑆𝑖,𝑣 = 1}

], (4.2.5)

em que 𝑆(𝑚)1,𝑣 , . . . , 𝑆

(𝑚)𝑁,𝑣 sao as verdadeiras alocacoes para a 𝑚-esima simulacao. De maneira geral,

pode-se avaliar tambem a media geral de acertos das classificacoes dentre as 𝑀 simulacoes em cada

configuracao de parametros, pela acuracia media (ACM), com

ACM =1

𝑀

𝑀∑𝑚=1

AC(𝑆(𝑚)1 , . . . , 𝑆

(𝑚)𝑁 ). (4.2.6)

Acredita-se que a classificacao erronea mais grave (equivalente ao conceito de Erro Tipo I em

testes de hipoteses Casella and Berger (2002)) e nao indicar o declınio acelerado para um indivıduo

quando este se faz presente, isto e, classifica-lo no grupo 𝐺1, dado que pertence ao grupo 𝐺2. Num

contexto clınico, este erro pode incorrer na falta de cuidados adicionais a um idoso que possivelmente

necessita deles. Por outro lado, classificar uma pessoa como tendo o declınio acelerado quando nao

se faz presente e um erro mais ameno.

Dados os resultados das simulacoes, o modelo ajustado sera considerado melhor conforme as

quantidades EQM (4.2.1) e TFP (4.2.4) diminuem, e a medida que PC (4.2.2), TVP (4.2.3) e AC

(4.2.5) crescem.

4.3 Resultados das simulacoes

A estimacao dos modelos Bayesianos foi feita no software Just Another Gibbs Sampler - JAGS

versao 4.3.0, processado dentro do software R, versao 3.4.3 com o pacote rjags Plummer (2016).

Embora tenha-se optado por gerar duas cadeias para cada MCMC por banco de dados gerado, as

rodadas independentes nao foram paralelizadas. Os ajustes foram feitos em computadores Intel Xeon

2,40GHz com 251Gb RAM e Intel Core i7 3,33GHz com 15Gb RAM. Para os modelos com 𝐽 = 5

medidas repetidas, o tempo de modelagem (cada ajuste) foi cerca de 8 horas, enquanto para 𝐽 = 10,

cerca de 16 horas (burn-in de 300 mil, seguidos de 100 mil iteracoes).

Diferentemente da secao de modelagem do banco de dados real, em nenhuma configuracao de

parametros foi necessario fornecer pontos iniciais mais especıficos do que valores aleatorios. Os

ajustes apresentados sao compostos por cadeias de tamanho 200 ou 400 mil com espacamento de

100 ındices. Esta disparidade surge por conta da necessidade de rodadas adicionais para os casos

em que nao se obtiveram 100 representantes de cada configuracao. Para aferir a convergencia dos

algoritmos MCMC, utilizou-se a regra R𝜃𝑘 < 1, 1. Os resultados das medidas de qualidade de ajuste

57

sao apresentados nas figuras 4.2, 4.3 e 4.4.

As estimativas dos parametros em (4.2.1) foram obtidas pela mediana a posteriori. Na Figura

4.2 ve-se, claramente, que e mais difıcil ser assertivo nos efeitos fixos de variaveis preditoras da

probabilidade de alocacao nos grupos 𝐺1 e 𝐺2. Em particular, para o parametro 𝜆2, que e o coeficiente

para a presenca de demencia no preditor da probabilidade de alocacao, tem-se maior desvio do caso

nao viciado. Este fato nao ocorre necessariamente por se ter caudas muito pesadas (portanto, que

influenciem a estimativa pontual do parametro), visto que as probabilidades de cobertura desta

medida comportam-se bem (Figura 4.3). Sendo assim, credita-se as aparentes diferencas um vies

intrınseco. Ainda para 𝜆2 e, adicionalmente, para o intercepto da probabilidade de alocacao, 𝜆1, e

aparente que nos casos em que o numero de indivıduos no grupo de decaimento acelerado 𝐺2 e grande

ou pequeno, ha um maior vıcio nas estimativas pontuais. Isto pode ocorrer porque os ajustes para

quaisquer configuracoes de parametros foram feitos com base na funcao logito: ℎ(𝑝𝑖) = log(𝑝𝑖/(1−𝑝𝑖)).Assim, por mais que os dados tenham sido gerados pela funcao logito, especificar outra ligacao

assimetrica (veja 2.1) pode melhorar os ajustes. Todos os outros parametros apresentam desempenho

bastante satisfatorio.

Sobre as probabilidades de cobertura na Figura 4.3, nao ha padroes de melhoria aparentes con-

forme mudancas nas configuracoes de parametros. Quando estimados modelos com 200 mil iteracoes,

notou-se a recorrencia de probabilidades de cobertura baixas para 𝛽3 ∈ {−2, 5;−0, 5} com 𝐽 = 10.

A este comportamento indesejado, atribuiu-se a causa dos valores discrepantes um efeito de confun-

dimento entre 𝛽1 e (𝑏1, . . . , 𝑏𝑁). Esta caracterıstica foi amenizada com o aumento da quantidade de

iteracoes para 400 mil. Adicionalmente, para os parametros 𝛽1, 𝛽3, 𝜆1, 𝜎𝑏 nao se ve melhoria relevante

na cobertura a nıvel 95% ao aumentar o numero de medidas repetidas das unidades experimentais.

As estimativas das alocacoes {𝑆1, . . . , 𝑆𝑁} nos grupos 𝐺1 e 𝐺2 foram obtidas pela moda a posteri-

ori, de acordo com sugestao em Fruhwirth-Schnatter (2006) para modelos de mistura finita. Apesar

dos parametros 𝜆1 e 𝜆2 mostrarem os maiores erros quadraticos medios ao longo da estimacao (Figura

4.2), este fato nao parece ter prejudicado a correta estimacao da alocacao das unidades experimentais.

Ve-se pela Figura 4.4 que todas as configuracoes com 𝛽3 ∈ {−2, 5;−1, 5} e 𝛽3 = −0, 5 para 𝐺2 medio

tem alocacoes excelentes. O pior caso acontece para 𝛽3 = 0, 5 e 𝐺2 pequeno, pois ha um aumento na

Taxa de Falsos Positivos (4.2.4), que indica o pior erro de classificacao: alocar um indivıduo em 𝐺1

quando na verdade pertence a 𝐺2. De certa forma, dada a dificuldade de estimacao e assertividade

do modelo para o caso com 𝐺2 pequeno, este resultado era esperado. Para 𝐺2 grande, o aumento na

Taxa de Verdadeiros Positivos (4.2.3) reflete um erro mais ameno, de alocar um indivıduo no grupo

com decaimento acelerado quando esta caracterıstica nao e verificada. Em ambos os casos, pode ser

que a alocacao melhore com a especificacao de funcoes de ligacao assimetrica em ℎ(𝑝𝑖) para os casos

notadamente nao balanceados em termos da proporcao de indivıduos em 𝐺1 e 𝐺2.

A falta de exemplos com convergencia aferida para a configuracao 𝐽 = 5, 𝐺2 pequeno e 𝛽3 = −0, 5nao e de todo inusitada. Neste caso, torna-se particularmente difıcil de se obter resultados bons para

o modelo proposto de misturas: em termos da geracao dos dados, ele tem o efeito mais sutil de

58

decaimento acelerado apos o ponto de quebra 𝜏 (Figura 4.1); enquanto em termos de ajuste possui

poucas observacoes longitudinais (𝐽 = 5) e poucos indivıduos com a informacao do ponto de quebra

para conseguir estimar os parametros a ele associados (𝜇𝜏 , 𝜎𝜏 , 𝜆1, 𝜆2, 𝜏𝑖, 𝑆𝑖).

De maneira geral, aprende-se pelo estudo de simulacao que o modelo de mistura com pontos de

quebra aleatorios proposto deve ser utilizado de maneira cautelosa, isto e, sugere-se que esta espe-

cificacao seja aplicada quando haja de fato indıcios graficos de um declınio acelerado na variavel

que mede cognicao para um grupo medio/grande de unidades experimentais. O modelo nao e indi-

cado para bancos de dados com baixo numero (≤ 5) de observacoes longitudinais dos participantes.

Adicionalmente, na pratica, ao mesmo tempo que parametrizar a probabilidade de alocacao 𝑝𝑖 com

covariaveis pode ser bastante informativo, estes novos efeitos possuem convergencia demorada. Uma

opcao e aplicar primeiro a mistura com pontos de quebra para 𝑆𝑖𝑖𝑖𝑑∼ Bernoulli(𝑝) e, caso aparente ser

uma postulacao valida, avaliar o caso nao identicamente distribuıdo para a variavel latente 𝑆𝑖.

59

β1 β2 β3 βdem λ1 λ2µτ στ σb

5 m

ed

idas

rep

etid

as

10 m

ed

idas

rep

etid

as

−2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5

0.0

0.5

1.0

0.0

0.5

1.0

β3

Err

o Q

ua

drá

tic

o M

éd

io

G2 Pequeno Medio Grande

Figura 4.2: Graficos dos erros quadraticos medios (4.2.1), estratificados pelas caracterısticas de interesse: magnitude do efeito apos o ponto dequebra (𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), proporcao de indivıduos no grupo de mistura com decaimento acelerado (𝐺2 ∈ {Pequeno, Medio,Grande} ≈{14%, 50%, 92%}) e quantidade de medidas repetidas ao longo do tempo simulado (𝐽 ∈ {5, 10}).

60

β1 β2 β3 βdem λ1 λ2µτ στ σb

5 m

ed

idas

rep

etid

as

10 m

ed

idas

rep

etid

as

−2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5 −2.5 −1.5 −0.5

0.80

0.85

0.90

0.95

1.00

0.80

0.85

0.90

0.95

1.00

β3

Pro

ba

bil

ida

de

de

Co

be

rtu

ra 9

5%

G2 Pequeno Medio Grande

Figura 4.3: Graficos das probabilidades de cobertura (4.2.2) com 95% de confianca, estratificados pelas caracterısticas de interesse: magnitudedo efeito apos o ponto de quebra (𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), proporcao de indivıduos no grupo de mistura com decaimento acelerado (𝐺2 ∈{Pequeno,Medio,Grande} ≈ {14%, 50%, 92%}) e quantidade de medidas repetidas ao longo do tempo simulado (𝐽 ∈ {5, 10}).

61

ACM = 1

ACM = 1

ACM = 1

ACM = 1

ACM = 1

ACM = 1

ACM = 1

ACM = 1

ACM = 1

ACM = 1

ACM = 1

ACM = 1

ACM = NA

ACM = 0.933

ACM = 0.969

ACM = 0.977

ACM = 0.955

ACM = 0.979

β3 = −2,5 β3 = −1,5 β3 = −0,5P

eq

ue

no

J=

5

Me

dio

J=

5

Gra

nd

e

J=

5

Pe

qu

en

o

J=

10

Me

dio

J=

10

Gra

nd

e

J=

10

0.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.000.00 0.25 0.50 0.75 1.00

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

0.00

0.25

0.50

0.75

1.00

Taxa de Falsos Positivos

Ta

xa

de

Ve

rda

de

iro

s P

os

itiv

os

Figura 4.4: Graficos de dispersao entre a Taxa de Verdadeiros Positivos (4.2.3) vs Taxa de FalsosPositivos (4.2.4), estratificados pelas caracterısticas de interesse: magnitude do efeito apos o pontode quebra (𝛽3 ∈ {−2, 5;−1, 5;−0, 5}), proporcao de indivıduos no grupo de mistura com decaimentoacelerado (𝐺2 ∈ {Pequeno,Medio,Grande} ≈ {14%, 50%, 92%}) e quantidade de medidas repetidasao longo do tempo simulado (𝐽 ∈ {5, 10}). Adicionalmente, apresenta-se a Acuracia Media - ACM(4.2.6) para cada configuracao.

4.4 Consideracoes sobre o caso Beta-Binomial

Durante o estudo de simulacao para a distribuicao Binomial, viu-se que 400 mil simulacoes era

um numero suficiente para se ter convergencia em parte razoavel dos bancos de dados gerados sob

diferentes configuracoes de parametros. Entretanto, para o caso Beta-Binomial, este numero cresce

consideravelmente, impossibilitando a replicacao de modelos e ajustes diversas vezes. Sendo as-

62

sim, mostra-se nesta secao apenas um ajuste obtido com resultados satisfatorios e discutem-se as

difererencas das duas abordagens.

Considere as mesmas formulacoes em (4.1.1) e (4.1.2). Agora, as variaveis sao simuladas de acordo

com 𝑌𝑖𝑗| 𝑏𝑖, 𝜏𝑎,𝑖, 𝑆𝑖𝑖𝑛𝑑∼ Beta-Binomial(𝐾,𝜑𝜇𝑖𝑗, 𝜑 (1 − 𝜇𝑖𝑗)) no lugar de (4.1.3), ∀(𝑖, 𝑗) ∈ {1, . . . , 𝑁} ×

{1, . . . , 𝐽}. Os parametros recebem valores 𝜎2𝑏 = 1, 5, 𝜇𝜏 = −5, 𝜎2

𝜏 = 1, 𝛽1 = 2, 5, 𝛽2 = −0, 2,𝛽4 = −1 e 𝜑 = 10. A quantidade 𝜑 = 10 foi escolhida de modo que a distribuicao Beta-Binomial fosse

unimodal, e consideravelmente mais dispersa do que a Binomial (valores 𝜑 ≥ 50 tornam as funcoes

de probabilidade bastante semelhantes). Alem disso, fixaram-se as caracterısticas de interesse em

𝐽 = 5, 𝛽3 = −1, 5 e 𝜆 = (0, 0)′.

Esta configuracao e considerada um dos casos mais faceis (dentro do grupo 𝐽 = 5) de se atingir

a convergencia dos parametros, segundo resultados da distribuicao Binomial. Processado no mesmo

computador Intel Xeon 2,40GHz com 251Gb RAM, este ajuste contou com 1 milhao de iteracoes

(burn-in de 900 mil seguido de 100 mil com espacamento de 100 ındices) para convergir e demorou

98,84 horas de processamento (o ajuste Binomial com mesmas configuracoes levou cerca de 8 horas).

Esta gritante diferenca nao e atribuıda ao fato de ter que simular o novo parametro 𝜑 | · · · , mas se

deve a perda do vantajoso amostrador de Gibbs com variaveis auxiliares para a regressao Binomial

logıstica descrito na Secao 3.1.1.

Apesar disso, a recuperacao das quantidades simuladas do modelo Beta-Binomial e correta. As

densidades a posteriori, bem como as series temporais das cadeias sao mostradas nas figuras 4.5 e

4.6:

φ

9 10 11 12 13

0.0

0.4

στ

0.8 1.0 1.2 1.4 1.6

01

23

4

σb

1.0 1.1 1.2 1.3 1.4

02

46

µτ

−5.6 −5.4 −5.2 −5.0 −4.8 −4.6

0.0

1.5

3.0

λ1

−0.6 −0.4 −0.2 0.0 0.2 0.4

0.0

1.0

2.0

3.0

λ2

0.0 0.5 1.0

0.0

1.0

2.0

β1

2.4 2.6 2.8 3.0 3.2

0.0

1.5

3.0

β2

−0.24 −0.22 −0.20 −0.18 −0.16

010

30

β3

−1.65 −1.60 −1.55 −1.50 −1.45 −1.40

04

812

βdem

−1.8 −1.6 −1.4 −1.2 −1.0 −0.8

0.0

1.5

3.0

Figura 4.5: Densidades a posteriori para simulacao do modelo Beta-Binomial com 𝐽 = 5, 𝐺2 medioe 𝛽3 = −1, 5.

63

φ

900000 940000 980000

911

13

στ

900000 940000 980000

1.0

1.4

σb

900000 940000 980000

1.0

51.2

01.3

5

µτ

900000 940000 980000

−5.4

−5.0

λ1

900000 940000 980000

−0.6

−0.2

0.2

λ2

900000 940000 980000

−0.2

0.4

1.0

β1

900000 940000 980000

2.6

3.0

β2

900000 940000 980000

−0.2

4−

0.1

8

β3

900000 940000 980000

−1.6

0−

1.4

5

βdem

900000 940000 980000

−1.6

−1.2

−0.8

Figura 4.6: Historico das cadeias a posteriori para simulacao do modelo Beta-Binomial com 𝐽 = 5,𝐺2 medio e 𝛽3 = −1, 5.

64

Capıtulo 5

Aplicacao do Modelo em Dados Reais

Nesta secao aplica-se o modelo proposto em (2.3) a um dos estudos prospectivos que motiva a

analise da habilidade cognitiva em idosos: o Rush Memory and Aging Project. Todas as informacoes

por vir acerca deste projeto, quando nao indicadas por outras referencias, sao baseadas nos artigos

Bennett et al. (2005a, 2012). Antes do ajuste propriamente dito na Secao 5.3, apresentaremos a

descricao desta coorte e uma analise descritiva das variaveis utilizadas em 5.1 e 5.2, respectivamente.

Comumente, e de interesse avaliar e quantificar relacoes entre o diagnostico de demencias e fatores

de risco, tanto geneticos como comportamentais. Em especıfico, entende-se por demencias as doencas

neurologicas que afetam a memoria e habilidades cognitivas em diversos nıveis. Um frequente objeto

de estudo, por exemplo, e a Doenca de Alzheimer: um caso particular de demencia que acontece

majoritariamente em idosos e deteriora progressivamente a memoria de curto e medio prazos. Alem

desta, diagnostico de outras doencas como a Demencia com Corpos de Lewy Schneider et al. (2004)

e acontecimentos como o Acidente Vascular Cerebral (AVC) sao levados em conta para estudar os

cenarios clınicos de uma maneira mais geral.

Os fatores de risco mencionados diferem amplamente em escala. Alguns deles sao facilitadores

anatomicos para o surgimento das doencas, como o acumulo (ou formacao) de proteınas com funcoes

degeneradas em locais do cerebro Bennett et al. (2005b), ao passo que outros sao caracterısticas

comportamentais dos indivıduos, tais como depressao, desordens psicologicas e ate o seu nıvel de

educacao Bennett et al. (2003, 2004). Num cenario platonico, seria desejavel encontrar relacoes

causais entre fatores de risco e doencas. Entretanto, considerando que atualmente e impossıvel

descobrir tais efeitos determinısticos, por conta da variabilidade intrınseca dos atributos, o interesse

e voltado para o estudo de associacoes entre eles. Aliado a isso, surge um conceito heurıstico bastante

destacado na area em questao: a reserva neural ou reserva cognitiva. Esta e entendida como a

justificativa para quando demencias nao se manifestam, mesmo com quadros clınicos graves (como o

acumulo das proteınas degeneradas no cerebro). Assim, acredita-se que atividades fısicas, cerebrais

(por meio de leitura e nao sedentarismo da mente) e estudos constantes atrasem algumas patologias

neurologicas Katzman et al. (1988), Scarmeas and Stern (2004), Staff et al. (2004).

65

Nos Estados Unidos, os gastos anuais inerentes aos cuidados dos pacientes com algum tipo de

demencia podem exceder 100 bilhoes de dolares, dentre enfermeiros, terapias e remedios. Alem

disso, de acordo com Hebert et al. (2003), espera-se que o numero de indivıduos com Doenca de

Alzheimer no mesmo paıs triplique ate meados dos anos 2050. Ha um consenso, entao, assim como

com qualquer outra patologia, de que se deve tomar medidas preventivas eficazes para retardar ou

eliminar o surgimento destas desordens cognitivas. Para satisfazer esta polıtica, se faz necessario o

entendimento quantitativo da relacao entre os fatores de risco e as demencias.

5.1 Rush Memory and Aging Project

O objetivo a longo prazo dos pesquisadores responsaveis ao iniciar o Rush Memory and Aging

Project (em 1997) era identificar, apos a morte dos indivıduos, os ındices geneticos e fatores com-

portamentais que influenciavam o desenvolvimento da Doenca de Alzheimer. Para tal, a coorte foi

delineada de maneira que cada idoso participante nunca fora diagnosticado com qualquer tipo de

demencia, alem de passar por avaliacoes clınicas (no mınimo anuais) e permitir a doacao dos seus

orgaos para pesquisas. Com estas garantias, ao final do estudo, os autores pretendiam ter em maos

as seguintes informacoes: (i) - fatores de risco comportamentais obtidos antes do diagnostico de

demencias (quando presente); (ii) - DNA para documentar fatores de risco geneticos; (iii) - acom-

panhamento clınico regular dos idosos, de forma que a habilidade cognitiva pudesse ser avaliada ate

a morte; (iv) - autopsia dos cerebros daqueles que faleceram, para mensurar ındices patologicos das

doencas.

Localizada em Chicago, nos Estados Unidos, a Universidade Rush contou, entao, com parti-

cipacao dos idosos da regiao metropolitana desta cidade, sem demencias previas e que aceitassem as

condicoes acerca da doacao de orgaos apos obito. Os dados foram obtidos longitudinalmente (sem

uma frequencia regular dos participantes), e possuem registros desde Setembro de 1997. A obtencao

dos dados era feita com visitas regulares a lares de idosos aposentados, por uma equipe composta de

enfermeiros treinados, tecnicos de testes neuropsicologicos, assistentes de pesquisa e um flebotomista

(pessoa encarregada por coletar sangue dos indivıduos).

Como produto da coleta, ha uma serie de informacoes que podem ser separadas em demograficas;

medicas; testes de performance cognitiva; testes de performance motora; atividades diarias; fatores

de risco por experiencias vividas e comportamentais; ındices geneticos pre falecimento e ındices pos

falecimento. Contudo, nem todas as vertentes sao disponibilizadas livremente para pesquisadores.

Entao, aqui, o estudo sera restrito ao uso das caracterısticas demograficas - idade ao entrar no

estudo, idade ao falecimento (quando disponıvel), sexo, educacao durante a vida (em anos), etnia

(branco, negro/afro-descendente, ındio/americano nativo, asiatico/das ilhas do pacıfico) -, medicas

(diagnosticos clınicos) e dos testes de performance cognitiva.

Dentre os testes de performance cognitiva, como medida global da cognicao, foi utilizado o MMSE

66

Cockrell and Folstein (2002) (escore de 0 a 30 que avalia memoria, logica, pronuncia e linguagem).

Separadamente, aplicaram-se diversos testes para os construtos de memoria, habilidade visual e

velocidade de percepcao, culminando com ındices ponderados para cada um destes, como em Wilson

et al. (2005), Fleischman et al. (2005).

Os diagnosticos clınicos sobre a presenca ou nao de demencias foram feitos a cada visita dos

grupos de coleta aos lares de idosos. Alem da avaliacao clınica por medicos, era aplicada uma bateria

de testes neuropsicologicos por tecnicos treinados, com geracao de um escore final relativizado pela

educacao do idoso. Esta medida, que era uma ponderacao dos testes com informacoes sobre as

suas ocupacoes, deficits sensoriais e motores, formava a base da classificacao ou nao no grupo com

danos cognitivos. Assim, para o 𝑖-esimo indivıduo, a cada 𝑗-esima visita, a variavel explicativa do

diagnostico de demencias e dada por:

∙ 1 - sem danos cognitivos;

∙ 2 - dano cognitivo moderado. Esta classificacao era atribuıda aqueles cujos resultados da bateria

de testes indicavam prejuızo cognitivo, mas que nao houve diagnostico clınico de demencia pelo

medico responsavel;

∙ 3 - dano cognitivo moderado e outro tipo de demencia;

∙ 4 - Doenca de Alzheimer, classificado de acordo com criterios conjuntos das agencias NINCDS

(National Institute of Neurological and Communicative Disorders and Stroke) e ADRDA (Alzhei-

mer’s Disease and Related Disorders Association), em McKhann et al. (1984);

∙ 5 - Doenca de Alzheimer e outro tipo de demencia;

∙ 6 - outro tipo de demencia. Por outros tipos, entende-se a ocorrencia de demencia vascular

(com Acidente Vascular Cerebral), demencia com corpos de Lewy, entre outros.

5.2 Analise descritiva

De 1997 ate 2016, o estudo contou com 3295 participantes no total. Deste numero, selecionaram-

se aqueles que faleceram e tiveram pelo menos dois acompanhamentos da equipe de coleta no perıodo

mencionado, resultando em 1163 indivıduos (aproximadamente 36% do total). Com base nas variaveis

originais do banco de dados, algumas transformacoes foram feitas para poder proceder com a analise

descritiva e modelagem.

Primeiramente, com a idade de entrada no estudo e idade ao falecimento, criou-se a variavel

arredondada tempo ate a morte, isto e, se um indivıduo em 1997 entrou no estudo com 80 anos e

foi acompanhado por mais 5 anos consecutivos ate sua morte, entao os seus tempos em anos ate a

morte observados sao 𝑡1 = −5, 𝑡2 = −4, . . . , 𝑡6 = 0. Quando presente, o tempo 𝑡 = 0 representa

67

a ultima coleta do participante, e indica os dados a 6 ou menos meses da sua morte. Alem desta,

para a variavel educacao, criaram-se categorias de acordo com os anos estudados e os nıveis escolares

comumente atribuıdos a eles: ensino fundamental, ensino medio, graduacao e pos graduacao.

Como citado na Secao 5.1, a avaliacao acerca dos tipos de demencia era feita a cada visita e possi-

velmente por profissionais diferentes. Esta questao resultou numa incompatibilidade de diagnosticos

clınicos para mesmos indivıduos em tempos diferentes, isto e, para o 𝑖-esimo participante, pode ser

que ele tenha sido diagnosticado com doenca de Alzheimer em 𝑡𝑖1 = −5, enquanto em 𝑡𝑖3 = −2com dano cognitivo moderado. Entretanto, nem toda responsabilidade deve ser atribuıda a rota-

tividade das equipes medicas. A severidade dos sintomas associados as demencias pode variar de

acordo com o nıvel de estresse ou desgaste dos indivıduos num determinado dia. Para contornar

esta disparidade, criaram-se variaveis indicadoras (0 ou 1) para cada pessoa com a presenca de pelo

menos um diagnostico de dano cognitivo moderado (itens 2 ou 3 da lista na Secao 5.1) e pelo menos

um diagnostico de doenca de Alzheimer (itens 4 ou 5 da mesma lista). Assim, tem-se as variaveis

utilizadas e suas respectivas descricoes na Tabela 5.1:

Tabela 5.1: Variaveis retiradas e/ou modificadas do banco de dados Rush Memory and AgeingProject.

Variavel Descricao Suporte ou Categorias

projid Identificacao do indivıduo

tempo Tempo ate a morte {−19,−18, . . . , 0}mmse Escore do teste MMSE Cockrell and Folstein (2002) {0, 1, . . . , 30}ad Doenca de Alzheimer e/ou outra demencia 0 - Nao; 1 - Sim

mci Dano cognitivo moderado e/ou outra demencia 0 - Nao; 1 - Sim

sexo Genero do indivıduo 0 - Feminino; 1 - Masculino

etnia Etnia do indivıduo

1 - Branco

2 - Negro

3 - Americano Nativo

4 - Asiatico

educ Nıvel de instrucao do indivıduo

1 - Ensino Fundamental

2 - Ensino Medio

3 - Graduacao

4 - Pos Graduacao

De acordo com os objetivos tracados com a coleta do banco de dados, salienta-se que mmse

e a variavel resposta do estudo. Na Figura C.1, Apendice C, apresentam-se cruzamentos desta

caracterıstica com as outras variaveis explicativas, demograficas e clınicas, por meio de boxplots.

Ve-se que as unicas diferencas sobressalentes nos valores medios de mmse se dao (i) - com a presenca

ou nao de pelo menos um diagnostico da doenca de Alzheimer (grafico (a) da referida figura) e (ii) -

tendo pelo menos escolaridade de ensino medio (grafico (c)). Estas aparencias reforcam a ideia dos

68

artigos Bennett et al. (2003, 2005a). As demais mudancas no nıvel dos escores mmse para diferentes

atributos de mci, sexo e etnia serao avaliadas pelos resultados dos modelos de regressao da Secao

5.3. Sob a perspectiva Bayesiana, uma maneira de avaliar a relevancia de variaveis explicativas em

modelos de regressao e verificar se o intervalo de credibilidade associado ao determinado coeficiente

inclui o valor 0. Caso inclua, entao diz-se (ou pode-se assumir, para o nıvel de confianca escolhido)

que a covariavel em questao nao traz ganhos significativos para o entendimento da variabilidade da

variavel resposta, sob a relacao postulada (linear, nao-linear, etc).

Sobre os escores mmse observados, trazem-se medidas resumos na Figura 5.1. Fica evidente que

ha um grupo com prevalencia de boas performances nas respostas ao questionario padrao MMSE ao

longo do tempo. Contudo, a partir do tempo 𝑡 = −9 os escores mınimos passam a ser menores do

que um terco da nota maxima e dispersao entre eles aumenta consideravelmente. Isto indica que,

alem da clara mudanca de comportamento, o questionario MMSE acaba sendo muito facil para os

idosos que nao estao em fase terminal. Esta peculiaridade e conhecida na literatura como ceiling

effect, e e citada em van den Hout et al. (2013).

0

5

10

15

20

25

30

−19 −18 −17 −16 −15 −14 −13 −12 −11 −10 −9 −8 −7 −6 −5 −4 −3 −2 −1 0Tempo até a morte

Es

co

re M

MS

E

Figura 5.1: Box-plots dos escores mmse dos invidıduos do estudo RUSH, estratificados para cadatempo ate a morte, de 19 a 0 anos ate o falecimento.

As figuras C.2 e C.3, Apendice C, mostram as dispersoes dos valores de mmse entre tempos diferen-

tes. Por elas, nota-se que as associacoes entre escores de tempos que se distanciam vao enfraquecendo

(veja, por exemplo, a primeira coluna de graficos da Figura C.3); ao passo que para tempos conse-

cutivos a correlacao positiva e aparentemente prevalente (graficos imediatamente abaixo da diagonal

principal nas referidas figuras). Estas caracterısticas ajudam na especificacao da estrutura da matriz

de covariancia em modelos lineares mistos. Aqui, servirao de base para a determinacao dos efeitos

aleatorios na proporcao de acertos dentro do questionario padrao.

69

A quantidade de observacoes longitudinais e apresentada na Figura 5.2. Ve-se tambem, pelo

mesmo grafico, que a distribuicao da idade em que os indivıduos entraram no estudo e razoavelmente

homogenea intra quantidade de medidas repetidas. Um aspecto dos dados que pode interferir no

desempenho da estimacao Bayesiana de parametros e a nao liquidez das variaveis respostas, isto e,

mesmo que um indivıduo tenha participado de 15 coletas, por exemplo, nao implica que todas elas

foram em anos consecutivos.

0

50

100

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18Quantidade de observações longitudinais

Fre

quên

cia

abso

luta

60

70

80

90

100

Idade de entrada

Figura 5.2: Frequencias de indivıduos para cada quantidade de acompanhamentos feitos. Na paletade cores, a idade de entrada dos indivıduos no estudo.

Os graficos longitudinais (ou spaghetti) dos escores mmse observados sao apresentados na Figura

5.3. Claramente, vai se tornando difıcil analisar as trajetorias individuais conforme a quantidade de

unidades experimentais cresce. Ainda assim, e possıvel ver que ha uma discrepancia na tendencia

geral dos caminhos que os escores tomam para aqueles que foram diagnosticados com doenca de

Alzheimer. Neste sentido, os dados corroboram as suspeitas associacoes entre esta demencia e a

habilidade cognitiva, como mostrado na Secao 5.1. Porem, ainda assim, e arriscado tentar ser

assertivo sobre o que acontece detalhadamente nos graficos longitudinais com muitas observacoes

sobrepostas.

A escolha por postular um modelo de misturas com pontos de quebra aleatorios e embasada

por uma avaliacao detalhada dos escores e seus estratos de acordo com covariaveis. Uma solucao

para o problema da superposicao entre trajetorias longitudinais de variaveis e analisar estas com suas

intensidades traduzidas em cores gradativas dispostas numa matriz (𝑁×𝐽), em que 𝑁 e a quantidade

de unidades experimentais e 𝐽 o valor maximo de medidas repetidas. Assim, observacoes de distintos

indivıduos sao expressas sem sobreposicao. Esta ferramenta grafica e comumente conhecida como

mapa de calor (heat map), e em analises de dados longitudinais, tambem e tida como grafico lasagna

(em referencia aos tradicionais graficos spaghetti) Swihart et al. (2010).

Alem da vantagem acima mencionada para visualizar os dados, a nova abordagem permite: (i) -

70

AD = 0 AD = 1

MC

I = 0M

CI = 1

−19 −17 −15 −13 −11 −9 −7 −5 −3 −1 −19 −17 −15 −13 −11 −9 −7 −5 −3 −1

0

10

20

30

0

10

20

30

Tempo até a morte

Esc

ore

MM

SE

Figura 5.3: Grafico longitudinal dos escores individuais ao longo do tempo ate a morte. A estra-tificacao e feita com base nas variaveis indicadoras AD - pelo menos um diagnostico da doenca deAlzheimer e MCI - pelo menos um diagnostico de dano cognitivo moderado.

que as linhas (isto e, as trajetorias) sejam ordenadas sucessivamente pelas intensidades da variavel

resposta, a cada tempo observado; (ii) - estratificacao por outras variaveis categoricas e (iii) - no

nosso contexto, ter uma melhor ideia sobre o momento em que os decaimentos abruptos acontecem. O

ultimo caso e importante para ter impressoes acerca da relevancia em propor um modelo de mistura.

Em contrapartida, a analise dos mapas de calor pode ser complicada caso haja demasiados valores

faltantes, e/ou com numero de unidades experimentais que torne difıcil distinguir as evolucoes nas

trajetorias.

Especificamente, as figuras 5.4 e 5.5 mostram os mapas de calor para o banco de dados processado

a partir do Rush Memory and Aging Project descrito na Secao 5.1. Considerando que, de acordo com

a Figura 5.3, os decaimentos acontecem razoavelmente a taxa constante ate o tempo 𝑡 = −10, osgraficos de calor sao construıdos com 𝑡 ∈ {−10, . . . , 0}, para melhor visualizacao. Do primeiro deles,

ve-se que ha uma clara distincao entre padroes de decaimento para aqueles que foram diagnosticados

pelo menos uma vez com doenca de Alzheimer e os que nao foram. Este quesito mostra que pode ser

interessante introduzir a variavel ad no preditor da probabilidade de alocacao nos grupos 𝐺1 e 𝐺2,

na expressao (2.3.3). A discriminacao pela variavel indicadora de danos cognitivos moderados nao

parece trazer uma informacao tao relevante acerca do decaimento acelerado, diferente da intuicao

colocada anteriormente. Na Figura 5.5, ve-se um comportamento menos discrepante entre aqueles

com educacao basica e superior, em comparacao com o diagnostico de Alzheimer.

71

Tempo até a morte

−10 −

9

−8

−7

−6

−5

−4

−3

−2

−1 0

MMSE

0102030

ADNãoSim

MCINãoSim

Figura 5.4: Mapa de calor dos escores individuais ao longo do tempo ate a morte. A estratificacaoe feita com base nas variaveis indicadoras AD - pelo menos um diagnostico da doenca de Alzheimere MCI - pelo menos um diagnostico de dano cognitivo moderado. Truncou-se a disposicao do graficopara 𝑡 ∈ {−10, . . . , 0} para melhor visualizacao, visto que entre 𝑡 ∈ {−19, . . . ,−11} os escores saomajoritariamente altos (vide 5.1).

Tempo até a morte

−10 −

9

−8

−7

−6

−5

−4

−3

−2

−1 0

MMSE

0102030

EDUCBásicaSuperior

Figura 5.5: Mapa de calor dos escores individuais ao longo do tempo ate a morte. A estratificacaoe feita com base na variavel indicadora de educacao superior EDUC: Basica caso ≤ 12 anos de estudoou Superior, caso contrario. Truncou-se a disposicao do grafico para 𝑡 ∈ {−10, . . . , 0} para melhorvisualizacao, visto que entre 𝑡 ∈ {−19, . . . ,−11} os escores sao majoritariamente altos (vide 5.1).

72

5.3 Ajuste do modelo proposto

Como visto no estudo de simulacao da Secao 4, a introducao de pontos de quebra aleatorios no

modelo demanda uma quantidade alta de iteracoes para a convergencia do metodo MCMC. Alem

disso, a postulacao da distribuicao Beta-Binomial para a variavel resposta traz um amostrador de

Gibbs (Algritmo 3.1) que pode ser muito lento conforme o numero de efeitos aleatorios aumenta, por

nao ter a estrutura de atualizacao por blocos, como na Binomial.

Sendo assim, a modelagem dos dados Rush Memory and Aging Project sera feita em duas eta-

pas. Primeiramente, a significancia de todas as variaveis explicativas descritas na Tabela 5.1 sera

avaliada por meio de modelos Binomiais com preditor Broken-Stick (2.2.1), funcoes de ligacao logito

e complemento log-log (Tabela 2.1) para a probabilidade de alocacao 𝑝𝑖 = ℎ−1(𝑤′𝑖𝜆). Com base nes-

tes resultados, selecionar-se-a a melhor ligacao para a probabilidade 𝑝𝑖 por meio do DIC7 e LPML,

ao passo que as covariaveis nao significativas sairao das especificacoes dos preditores. Em seguida,

modelos Binomiais e Beta-Binomiais com as variaveis significativas e funcao de ligacao para 𝑝𝑖 mais

adequada serao comparados para os preditores Broken-Stick (2.2.1) e a proposta dada em (2.2.2).

Destes, apos a checagem preditiva a posteriori, sera selecionado aquele que possuir a combinacao de

melhores indicadores (menor DIC7 e maior LPML).

Para os modelos da primeira etapa, assumimos entao que as variaveis resposta 𝑦𝑖𝑗 = 𝑦𝑖(𝑡𝑖𝑗) serao

os escores mmse medidos para o 𝑖-esimo indivıduo no tempo ate a morte 𝑡𝑖𝑗,∀𝑖 ∈ {1, . . . , 1163}, 𝑗 ∈{1, . . . , 𝑛𝑖}, 𝑛𝑖 ∈ {2, . . . , 19}. Com as medidas de educacao, etnia e sexo, criaram-se variaveis di-

cotomicas indicadoras de seus nıveis (Tabela 5.1) segundo a parametrizacao de casela de referencia

Agresti (2003). Assim, tem-se educ𝐸𝑀𝑖valendo 1 se o indivıduo tem educacao ate o Ensino Medio

e 0 caso contrario; educ𝐺𝑖valendo 1 se o indivıduo tem educacao ate Graduacao e 0 caso contrario,

e assim por diante para as outras categorias e subındices auto-explicativos. No caso em que todas

as variaveis indicadoras criadas forem nulas, entao a unidade experimental e do sexo feminino, teve

educacao ate o Ensino Fundamental e e branca.

As caracterısticas comuns aos modelos iniciais sao dadas pelas seguintes expressoes:

𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖𝑖𝑛𝑑∼ Binomial(30, 𝜇𝑖𝑗), 𝜏𝑎,𝑖

𝑖𝑖𝑑∼ Normal(𝜇𝜏 , 𝜎2𝜏 )1{𝜏𝑎,𝑖 ∈ T}, (5.3.1)

𝑏𝑖𝑖𝑖𝑑∼ Normal2(0,D), 𝑆𝑖

𝑖𝑖𝑑∼ Bernoulli(𝑝𝑖),

log

(𝜇𝑖𝑗

1− 𝜇𝑖𝑗

)= 𝑥′


𝑖𝑗,𝜏𝑖𝑏𝑖

= 𝛽1 + 𝑏1𝑖 + (𝛽2 + 𝑏2𝑖)min(𝑡𝑖𝑗, 𝜏𝑖) + 𝛽3 (𝑡𝑖𝑗 − 𝜏𝑖)+ + 𝛽4 ad𝑖 + 𝛽5mci𝑖

+ 𝛽6 educ𝐸𝑀𝑖+ 𝛽7 educ𝐺𝑖

+ 𝛽8 educ𝑃𝐺𝑖+ 𝛽9 sexo𝑚𝑎𝑠𝑐𝑖 + 𝛽10 etnia𝑛𝑒𝑔𝑟𝑜𝑖

+ 𝛽11 etnia𝐴𝑚𝑁𝑎𝑡𝑖 + 𝛽12 etnia𝑎𝑠𝑖𝑖 + 𝛽13 (ad𝑖 𝑡𝑖𝑗), (5.3.2)

ℎ(𝑝𝑖) = 𝑤′𝑖𝜆 = 𝜆1 + 𝜆2 ad𝑖, (5.3.3)

em que T = {min(𝑡),max(𝑡)}, 𝑧𝑖𝑗,𝜏𝑖 =(1,min(𝑡𝑖𝑗, 𝜏𝑖)

)′, 𝑏𝑖 = (𝑏1𝑖, 𝑏2𝑖)

′, 𝛽 = (𝛽1, 𝛽2, . . . , 𝛽13)′, 𝑤𝑖 =

73

(1, ad𝑖)′ e 𝜆 = (𝜆1, 𝜆2)

′. Todos os outros termos da combinacao linear (5.3.2) compoem o vetor

coluna 𝑥𝑖𝑗,𝜏𝑖 . Sobre as distribuicoes a priori, escolheram-se 𝜇𝜏 ∼ Normal(med(𝑡), 105)1{𝜇𝜏 ∈ T},𝜎𝜏 ∼ Uniforme(0, 100), 𝛽 ∼ Normal13(0, 10

4 I13) e 𝜆 ∼ Normal2(0, 104 I2). A matriz de covariancia

dos efeitos aleatorios e parametrizada por

D =

(𝜎2𝑏1

𝜌 𝜎𝑏1𝜎𝑏2

𝜌 𝜎𝑏1𝜎𝑏2 𝜎2𝑏2

), (5.3.4)

com distribuicoes a priori segundo sugestao em Gelman (2006): 𝜌 ∼ Uniforme(−1, 1), 𝜎𝑏𝑙 ∼ Uniforme(0, 100), 𝑙 ∈{1, 2}.

Nos primeiros modelos ajustados, alguns parametros se mostraram sensıveis a escolha dos valo-

res iniciais. Quando numeros aleatorios eram gerados para todas essas quantidades, nao se tinha

confluencia das duas cadeias independentes dos parametros 𝜇𝜏 e 𝜎𝜏 . Uma alternativa foi centrar

𝜇(0)𝜏,1 = mediana(𝑡) para uma cadeia e 𝜇

(0)𝜏,2 = mediana(𝑡) + 𝜀, em que 𝜀 ∼ Normal(0, 1) para a ou-

tra. Alem disso, valores iniciais para 𝛽−3 em (5.3.2) foram gerados com base no ajuste classico de

quase-verossimilhanca penalizada para modelos lineares generalizados de efeitos mistos Schall (1991),

Wolfinger and O’connell (1993), biblioteca MASS do software R Venables and Ripley (2002). Para

o efeito pos ponto de quebra na media dos acertos, 𝛽3, estimou-se o modelo linear generalizado de

intercepto aleatorio logito(𝜇𝑖𝑗) = (𝛼0 + 𝑎𝑖) + 𝛼1 (𝑡𝑖𝑗 − 𝜇(0)𝜏,1) com as observacoes que tivessem valores

(𝑡𝑖𝑗 − 𝜇(0)𝜏,1) positivos; assim, 𝛽

(0)3 = ��1. Para obter valores diferentes de 𝛽 nas cadeias independentes,

mudou-se o numero maximo de iteracoes da funcao glmmPQL(). Todos os outros parametros nao

mencionados receberam valores iniciais aleatorios.

A estimacao dos modelos Bayesianos foi feita no software Just Another Gibbs Sampler - JAGS

versao 4.3.0, processado dentro do software R, versao 3.4.3 com o pacote rjags Plummer (2016). As

cadeias independentes foram obtidas em paralelo num computador Intel Core i7 3,60GHz com 7,9Gb

RAM.

Selecionando ℎ e avaliando significancia de covariaveis

Agora, sob as formulacoes gerais em (5.3.1)-(5.3.2), considere os modelos concorrentes para

probabilidade de alocacao nos grupos 𝐺1 e 𝐺2 - ℳlogito : ℎ(𝑥) = log(𝑥/(1 − 𝑥)) e ℳcloglog :

ℎ(𝑥) = log(−log(1 − 𝑥)). A ligacao logito e escolhida pela conveniente interpretacao em razao de

chances, enquanto a complementar log-log pelo fato das proporcoes de indivıduos com o diagnostico

de Alzheimer (ad) nao ser balanceada.

Em ambos os ajustes, foram geradas duas cadeias independentes com burn-in de 700 mil iteracoes

seguidas de 100 mil rodadas. Ao armazenar os resultados, utilizou-se espacamento de 100 ındices para

compor as amostras finais de tamanho 1000. Para calculo das medidas de diagnostico e comparacao,

as duas cadeias de cada parametro foram concatenadas depois de ter suas convergencias aferidas pela

estatıstica R. Os resultados sao apresentados nas tabelas 5.2, C.1 (Apendice C) e na Figura 5.6.

74

De acordo com as medidas de diagnostico da Tabela 5.2, ve-se que o ajuste ℳ𝑙𝑜𝑔𝑖𝑡𝑜 nao possui

reprodutibilidade dos dados originais adequada (valor-p maior do que 0, 9), segundo as funcoes de

discrepancia qui-quadrado de Pearson e desvio. Os quesitos de comparacao de modelos DIC7 e

LPML nao confluem. Assim, escolhe-se o modeloℳ𝑐𝑙𝑜𝑔𝑙𝑜𝑔, pois apresenta melhores comportamentos

no diagnostico baseado na funcao preditiva a posteriori.

Tabela 5.2: Tempo de ajuste, medidas de diagnostico (valores-p Bayesianos amostrados 𝑠𝑝𝑏(𝑦)) ecomparacao de modelos (DIC7 e LMPL) para modelos com distribuicao Binomial dos escores mmsecondicionais, preditores dados por (5.3.2) e (5.3.3). Valores em negrito por coluna indicam melhoresindicadores. Para os valores-p Bayesianos amostrados em (3.1.11), tomou-se a moda das cadeiasfinais como quantidades 𝜃𝑓𝑖𝑥𝑜.

𝑠𝑝𝑏(𝑦)

Tempo (h) DIC7 LPML 𝜒2 Desvio Mediana

ℳ𝑙𝑜𝑔𝑖𝑡𝑜 18,78 31445 -16270 0,916 0,973 0,468

ℳ𝑐𝑙𝑜𝑔𝑙𝑜𝑔 18,86 31454 -16232 0,620 0,864 0,706

−4 −2 0 2 4

λ2

λ1

β13

β12

β11

β10

β9

β8

β7

β6

β5

β4

β3

β2

β1

µτ

στ

ρ

σb2

σb1

(a)

−4 −2 0 2 4

λ2

λ1

β13

β12

β11

β10

β9

β8

β7

β6

β5

β4

β3

β2

β1

µτ

στ

ρ

σb2

σb1

(b)

Figura 5.6: Medianas e intervalos de credibilidade 95% para cadeias finais do modelo com distribuicaoBinomial, preditores dados por (5.3.2) e (5.3.3). Em (a), tem-se a especificacao com ℳlogito :

ℎ(𝑥) = log(𝑥/(1− 𝑥)), enquanto em (b)ℳcloglog : ℎ(𝑥) = log(−log(1− 𝑥)).

A relevancia das variaveis sexo𝑚𝑎𝑠𝑐 (𝛽9), etnia𝑛𝑒𝑔𝑟𝑜 (𝛽10), etnia𝐴𝑚𝑁𝑎𝑡 (𝛽11) e etnia𝑎𝑠𝑖 (𝛽12) nao foi

verificada segundo os dois graficos da Figura 5.6 e a Tabela C.1, Apendice C, a um nıvel de signi-

ficancia 𝛼 = 0, 05. Isto se da pelo fato dos intervalos de credibilidade (com cobertura 95%) dos efeitos

(𝛽9, 𝛽10, 𝛽11, 𝛽12) conterem o valor zero. Este resultado indica que nao ha diferenca significativa entre

os valores medios de acertos do questionario mmse para indivıduos considerados negros, americanos

nativos e asiaticos frente a etnia branca. Da mesma forma, nao ha diferenca relevante no desempenho

dos idosos do sexo masculino ou feminino.

75

Comparando modelos Binomial vs Beta-Binomial

Com base nas consideracoes da ultima subsecao 5.3, os proximos modelos a serem apresentados

desconsideram as covariaveis categoricas sexo e etnia, alem de utilizarem a funcao de ligacao comple-

mento log-log para o preditor da probabilidade de alocacao nos grupos 𝐺1 ou 𝐺2. A caracterıstica de

interesse agora sera a distribuicao condicional da variavel resposta mmse - Binomial ou Beta-Binomial,

analisadas com mais ferramentas de diagnostico.

Considere as seguintes suposicoes, as quais serao mantidas para todos os modelos que vem a

seguir:

𝜏𝑎,𝑖𝑖𝑖𝑑∼ Normal(𝜇𝜏 ,𝜎

2𝜏 )1{𝜏𝑎,𝑖 ∈ T}, 𝑏𝑖

𝑖𝑖𝑑∼ Normal2(0,D), 𝑆𝑖𝑖𝑖𝑑∼ Bernoulli(𝑝𝑖),

log(− log(1− 𝑝𝑖)

)= 𝜆1 + 𝜆2 ad𝑖,

em que T = {min(𝑡),max(𝑡)}. Alem disso, mantem-se a forma da matriz de covariancia dos efeitos

aleatorios D em (5.3.4). O preditor para media de acertos dos escores mmse tera a seguinte forma:

log

(𝜇𝑖𝑗

1− 𝜇𝑖𝑗

)= 𝛽1 + 𝑏1𝑖 + (𝛽2 + 𝑏2𝑖)min(𝑡𝑖𝑗, 𝜏𝑖) + 𝛽3 (𝑡𝑖𝑗 − 𝜏𝑖)

+ + 𝛽4 ad𝑖 + 𝛽5mci𝑖

+ 𝛽6 educ𝐸𝑀𝑖+ 𝛽7 educ𝐺𝑖

+ 𝛽8 educ𝑃𝐺𝑖+ 𝛽9 (ad𝑖 𝑡𝑖𝑗). (5.3.5)

Sobre as distribuicoes condicionais dos escores mmse, pode-se ter [𝑦𝑖𝑗|𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖𝑖𝑛𝑑∼ Binomial(30, 𝜇𝑖𝑗)]

ou [𝑦𝑖𝑗| 𝑏𝑖, 𝜏(𝑎,𝑖), 𝑆𝑖𝑖𝑛𝑑∼ Beta-Binomial(30, 𝜑𝜇𝑖𝑗, 𝜑(1−𝜇𝑖𝑗))]. As diferencas entre modelos serao indicadas

pela notacaoℳ𝑑𝑖𝑠𝑡, em que 𝑑𝑖𝑠𝑡 ∈ {binomial, beta-binomial} = {bin, bb}.

As distribuicoes a priori para todos os parametros sao mantidas, salvo correcao das novas di-

mensoes do vetor de efeitos fixos 𝛽. Adicionalmente, foi escolhida 𝜑 ∼ Uniforme(0, 100). Os valores

iniciais sao gerados da mesma forma como na primeira etapa de modelagem.

Ao comparar diferentes distribuicoes para a variavel resposta, e interessante avaliar as suas ade-

quabilidades aos dados por analises residuais. Uma especificacao bastante geral e a dos resıduos

quantılicos Dunn and Smyth (1996), que se baseiam na transformacao integral da probabilidade. Es-

tes sao encontrados ao aplicar aos valores observados {𝑦𝑖𝑗 : 𝑖 = 1, . . . , 𝑁 ; 𝑗 = 1, . . . , 𝑛𝑖} suas propriasfuncoes de distribuicao acumulada, pelo modelo assumido. Como trata-se aqui de postulacoes com

natureza discreta, o resıduo quantılico aleatorizado e calculado por:

𝑟𝑖𝑗 = Φ

(Uniforme

(lim𝑦→𝑦−𝑖𝑗

𝐹 (𝑦|𝜃), 𝐹 (𝑦𝑖𝑗|𝜃)))

,

em que 𝐹 (·,𝜃) e a funcao de distribuicao acumulada da Binomial ou Beta-Binomial avaliadas nos

estimadores Bayesianos 𝜃 e Φ(·) representa a funcao de distribuicao acumulada da variavel aleatoria

Normal(0, 1).

76

Para ambos os modelos desta etapa, foram geradas duas cadeias independentes com burn-in

seguido de 100 mil rodadas e espacamento de 100 ındices para compor as amostras finais de tamanho

1000. Dada a diferente complexidade das especificacoes e distribuicoes trabalhadas, o valor de burn-

in teve que ser aumentado para o caso Beta-Binomial: multiplas tentativas com burn-in de 1 milhao,

1,1 milhao, e 1,4 milhao foram feitas, todas sem sucesso. Assim, a convergencia das cadeias so foi

aferida no caso Binomial.

Apresenta-se as informacoes deℳ𝑏𝑖𝑛 na Tabela 5.3. Alem disso, respectivos graficos com resıduos

quantılicos aleatorizados sao mostrados na Figura 5.7.

Tabela 5.3: Tempo de ajuste, numero de iteracoes (burn-in + rodadas finais), medidas de diagnostico(valores-p Bayesianos anostrados 𝑠𝑝𝑏(𝑦)) e comparacao de modelos (DIC7 e LMPL) para modelo comdistribuicao Binomial dos escores mmse condicionais e preditor dado por (5.3.5). Para os valores-pBayesianos amostrados em (3.1.11), tomou-se a moda das cadeias finais como quantidades 𝜃𝑓𝑖𝑥𝑜.

𝑠𝑝𝑏(𝑦)

Iteracoes (milhares) Tempo (h) DIC7 LPML 𝜒2 Desvio Mediana

ℳ𝑏𝑖𝑛 700 + 100 18,43 31437 -16218 0,982 0,961 0,631

Figura 5.7: Graficos de resıduos quantılicos aleatorizados para o modelo ℳ𝑏𝑖𝑛. No grafico (a),calculam-se 30 conjuntos de resıduos. A curva e uma referencia para o caso ideal. Nos graficos(b)-(d), por outro lado, apenas um conjunto e utilizado para avaliar, respectivamente, a relacaocom os valores ajustados 𝑦𝑖𝑗, tempo ate a morte e covariavel que da o efeito apos os pontos de quebraestimados: [𝑡𝑖𝑗 − 𝜏𝑖]

+ = max(0, 𝑡𝑖𝑗 − 𝜏𝑖). Nestes, as curvas sao suavizacoes dos dados via modelosaditivos genealizados (GAM).

77

Sobre os ajustes com a distribuicao Beta-Binomial para variavel resposta condicional, a con-

vergencia dos parametros do modelo nao foi aferida em nenhuma das tentativas mencionadas (com

diferentes valores de burn-in). Especificamente, as cadeias MCMC que mal convergiam, ou tinham

comportamentos imprevisıveis nos diversos ajustes, eram das caracterısticas 𝜇𝜏 , 𝜎𝜏 e 𝜑.

Na Figura 5.8, mostram-se dois exemplos de resultados de ajuste para o parametro adicional

da distribuicao Beta-Binomial, 𝜑. Nota-se que nao necessariamente ha confluencia das duas cadeias

quando se tem maior burn-in, e este fato pode indicar lentidao na convergencia para a distribuicao

estacionaria desse parametro.

Ademais, em todas as tentativas de ajuste Beta-Binomial, as cadeias finais de 𝜑 assumiam valores

majoritariamente acima de 40. Entao, uma possıvel explicacao para a falta de convergencia do ajuste

ℳ𝑏𝑏 e o fato do parametro 𝜑 com magnitudes elevadas serem estimativas instaveis. Sob outro ponto

de vista, 𝜑 alto implica correlacao intraclasse 𝜌 = (𝜑 + 1)−1 pequena, isto e, com pontos perto do

limite inferior do seu espaco parametrico (veja Figura 2.2), e esta proximidade a fronteira se torna

justificativa para a questao.

De toda forma, para o banco de dados apresentado, espera-se que nao se perca tanto por nao

conseguir estimar o modeloℳ𝑏𝑏. Isto se da porque conforme 𝜑 −→ +∞, mais a distribuicao Beta-

Binomial tem caracterısticas parecidas com a distribuicao Binomial. Para casos em que ha indıcios

empıricos de que 𝜑 nao e tao elevado, vale a pena insistir na especificacao Beta-Binomial.

φ

1100000 1120000 1140000 1160000 1180000 1200000

40

45

50

55

φ

1400000 1420000 1440000 1460000 1480000 1500000

40

50

60

70

80

90

Figura 5.8: Historico de cadeias a posteriori do parametro 𝜑 da distribuicao Beta-Binomial comoresultado de ajuste do modelo ℳ𝑏𝑏. A esquerda, ajuste com burn-in de 1,1 milhao de iteracoes,enquanto a direita, com 1,4 milhao de iteracoes.

78

Comparando modelo final com respectivo benchmark

Visto que tiveram-se problemas de convergencia nas tentativas de ajuste para o modelo Beta-

Binomial,ℳ𝑏𝑏, considerar-se-a que o modelo final escolhido eℳ𝑏𝑖𝑛. Assim, de acordo com os obje-

tivos tracados inicialmente, o referido modelo sera contrastado com a sua versao sem a mistura de

regressoes, que nesse caso e a especificacao logıstica Binomial de efeitos mistos. As variaveis explica-

tivas utilizadas, bem como as distribuicoes a priori dos parametros sao iguais aos da Secao 5.3. Os

resultados da analise de resıduos sao mostrados na Figura 5.9.

Na referida figura, os resıduos quantılicos aleatorizados contra os valores ajustados (grafico (b))

apresentam o mesmo comportamento do caso ℳ𝑏𝑖𝑛, com indıcios de heterocedasticidade e muitos

pontos em valor absoluto maiores do que 4. No grafico (c), a suavizacao via modelos aditivos

generalizados (GAM) indica que uma especificacao para o preditor logito(𝜇𝑖𝑗) = 𝑥′𝑖𝑗𝛽 + 𝑧′

𝑖𝑗𝑏𝑖 com

termo quadratico no tempo pode ser mais adequada (decaimento a partir do tempo -2). Nota-se

entao uma vantagem da especificacao com a mistura de regressoes: o efeito no tempo e corretamente

capturado com um coeficiente simples em 𝑡𝑖𝑗 e a introducao do efeito apos o ponto de quebra,

max(0, 𝑡𝑖𝑗 − 𝜏𝑖), levando a uma interpretacao mais simples do tempo nos escores, com relacao ao que

seria com o termo quadratico em 𝑡𝑖𝑗. Ainda na mesma figura, o grafico (a) indica levemente menor

adequabilidade dos resıduos a linha de referencia, em comparacao a Figura 5.7, grafico (a).

Figura 5.9: Graficos de resıduos quantılicos aleatorizados para o modelo Binomial de efeitos mistoscom ajuste Bayesiano. No grafico (a), calculam-se 30 conjuntos de resıduos. A curva e uma referenciapara o caso ideal. Nos graficos (b) e (c), por outro lado, apenas um conjunto e utilizado para avaliar,respectivamente, a relacao com os valores ajustados 𝑦𝑖𝑗 e tempo ate a morte. Nestes, as curvas saosuavizacoes dos dados via modelos aditivos generalizados (GAM).

79

Na Figura 5.10, comparam-se tambem os valores ajustados dos escores mmse discriminados pe-

las variaveis explicativas ad (indicadora de pelo menos um diagnostico da doenca de Alzheimer) e

mci (indicadora de pelo menos um diagnostico de dano cognitivo moderado). Ve-se que o modelo

benchmark nao resulta em valores ajustados ruins, mas subestima o decaimento do escore mmse de

indivıduos (veja graficos da coluna da direita).

AD = 0 AD = 1

Se

m m

istu

ra

MC

I = 0

Ob

se

rva

do

MC

I = 0

Co

m m

istu

ra

MC

I = 0

Se

m m

istu

ra

MC

I = 1

Ob

se

rva

do

MC

I = 1

Co

m m

istu

ra

MC

I = 1

−19 −15 −10 −5 0 −19 −15 −10 −5 0

0

10

20

30

0

10

20

30

0

10

20

30

0

10

20

30

0

10

20

30

0

10

20

30

Tempo até a morte

Esco

re m

mse (

ob

serv

ad

o o

u a

justa

do

)

Figura 5.10: Grafico longitudinal dos escores individuais observados e ajustados ao longo do tempoate a morte. A estratificacao e feita com base nas variaveis indicadoras AD - pelo menos um di-agnostico da doenca de Alzheimer e MCI - pelo menos um diagnostico de dano cognitivo moderado.Linhas tracejadas no modelo com mistura indicam indivıduos classificados no grupo com decaimentoacelerado (𝐺2).

80

Interpretando resultados do modelo final

As estimativas Bayesianas dos efeitos fixos do modelo ℳ𝑏𝑖𝑛, sob funcao de perda absoluta sao

apresentadas na Tabela 5.4. Para indivıduos “a tempos de morte iguais”, ter algum dos graus

de escolaridade Ensino Medio aumenta em media a chance de acertos nas questoes do MMSE em

exp (0, 502) = 1, 652 vezes com relacao aqueles que possuem somente o Ensino Fundamental. O

mesmo acontece para Graduacao ou Pos-Graduacao, mas com fatores de aumento exp (0, 724) =

2, 063 e exp (0, 898) = 2, 455, respectivamente.

Tabela 5.4: Estatıstica R, mediana, bandas inferior (Inf) e superior (Sup) de credibilidade 95% paracadeias finais do modelo com distribuicao Binomial, preditores dados por (5.3.5) e (5.3.3).

ℳ𝑏𝑖𝑛

Parametro Inf(95%) Mediana Sup(95%) Estatıstica R

𝛽1 (Intercepto) 1,617 1,966 2,311 1,02

𝛽2 (min(𝑡𝑖𝑗, 𝜏𝑖)) -0,082 -0,069 -0,055 1,01

𝛽3 ((𝑡𝑖𝑗 − 𝜏𝑖)+) -1,442 -1,324 -1,186 1,04

𝛽4 (Alzheimer) -2,190 -2,027 -1,870 1,00

𝛽5 (Demencia moderada) -0,351 -0,240 -0,132 1,03

𝛽6 (Ensino Medio) 0,144 0,502 0,856 1,01

𝛽7 (Graduacao) 0,386 0,724 1,077 1,01

𝛽8 (Pos-Graduacao) 0,561 0,898 1,246 1,01

𝛽9 (Alzheimer × tempo) -0,174 -0,152 -0,131 1,00

𝜆1 (Intercepto) -4,026 -3,143 -2,513 1,00

𝜆2 (Alzheimer) 2,423 3,066 3,976 1,00

𝜎𝑏1 0,930 0,996 1,062 1,00

𝜎𝑏2 0,086 0,097 0,109 1,02

𝜌 0,636 0,699 0,752 1,00

𝜎𝜏 2,638 2,934 3,257 1,01

𝜇𝜏 -0,637 -0,135 -0,007 1,00

O impacto de se ter pelo menos um diagnostico de demencia moderada (mci) e de exp (−0, 24) =0, 787, isto e, para indivıduos com mesmas caracterısticas escolares e “a mesmo tempo da morte”,

ter algum diagnostico de demencia moderada diminui em media (1− 0, 787)100% = 21, 3% a chance

de acertos em questoes do MMSE. Ja para a presenca da doenca de Alzheimer, este fator e mais

drastico: num tempo 𝑡, a chance de acertos e diminuıda em media por 𝑓(𝑡) =(1 − exp (−2, 027 −

0, 152 𝑡))100% =

(1 − 0, 132 exp (−0, 152 𝑡)

)100%. Por exemplo, para um indivıduo “a 10 anos da

morte”, tem-se uma diminuicao de 𝑓(−10) = 39, 6% e “a 5 anos da morte”, 𝑓(−5) = 71, 8% na

assertividade de questoes.

Sobre as alocacoes 𝑆𝑖 ∀𝑖 nos grupos 𝐺1 e 𝐺2, a probabilidade de pertencer a componente com

81

declınio acelerado e obtida por P[𝑆𝑖 = 1|ad𝑖] = 1 − exp(− exp (𝜆1 + 𝜆2 ad𝑖)

), e estimada porP[𝑆𝑖 = 1|ad𝑖] = 1− exp

(− exp (−3, 143 + 3, 066 ad𝑖)

). Tem-se, entao

∙ P[apresentar declınio acelerado | sem Alzheimer] = P[𝑆𝑖 = 1|ad𝑖 = 0] = 0, 042, com intervalo

de credibilidade 95% igual a(0, 018 ; 0, 078

);

∙ P[apresentar declınio acelerado | com Alzheimer] = P[𝑆𝑖 = 1|ad𝑖 = 1] = 0, 604, com intervalo

de credibilidade 95% igual a(0, 522 ; 0, 683

).

0.0

0.1

0.2

0.3

0.4

0.5

−13 −12 −11 −10 −9 −8 −7 −6 −5 −4 −3 −2 −1 0

Pontos de quebra estimados (tempo até a morte)

Fre

qu

ên

cia

rela

tiva

Figura 5.11: Histograma dos pontos de quebra estimados para o grupo com decaimento acelerado(𝐺2), segundo modelo finalℳ𝑏𝑖𝑛.

Para aqueles classificados no grupo com pontos de quebra, (287 indivıduos, 24,7% do total),

os pontos de quebra estimados constam na Figura 5.11. Destes idosos, calcula-se que 25% deles

tiveram o declınio acelerado ate aproximadamente 3 anos e 2 meses antes da sua morte, e 75% ate

aproximadamente 1 ano e 5 meses antes da sua morte. O valor mais frequente dos pontos de quebra

estimados aconteceu a pouco mais de 2 anos do falecimento.

0.00

0.02

0.04

0.06

60 65 70 75 80 85 90 95 100 105 110

Idade estimada do surgimento do ponto de quebra

Fre

qu

ên

cia

rela

tiva

Figura 5.12: Histograma das idades estimadas em que os pontos de quebra aconteceram para o grupocom decaimento acelerado (𝐺2), segundo modelo finalℳ𝑏𝑖𝑛.

82

Sob a perspectiva das idades de ocorrencia dos declınios acelerados, na Figura 5.12, calcula-se

que 25% dos indivıduos o tiveram antes dos 83 anos (incluso), e 75% antes dos 92 (incluso). O valor

mais frequente das idades estimadas nas quais houve surgimento de pontos de quebra aconteceu nos

indivıduos com 87 anos.

83

Capıtulo 6

Consideracoes Finais

No presente trabalho, estudou-se um modelo de mistura de regressoes para analisar a habilidade

cognitiva de idosos com o passar do tempo. Diferentemente da literatura na area Hall et al. (2000,

2001), van den Hout et al. (2011), Yu and Ghosh (2010), postularam-se distribuicoes de suporte

discreto para a variavel resposta (escore obtido pela aplicacao de questionarios da area de geriatria

em cognicao). Um componente da mistura representa indivıduos que experimentam um declınio

cognitivo acelerado a partir de um tempo espontaneo, enquanto na outra ha decaimento a taxa

constante. Aqui, o enfoque se voltou para o estudo da estimacao Bayesiana, e como ela se comportava

de acordo com mudancas nas caracterısticas do modelo, e nao na interpretacao do problema em si.

Assim, diversos aspectos importantes para o entendimento pleno do declınio cognitivo em idosos nao

foram explorados, como o estudo da dependencia dos escores no tempo, o cruzamento mais detalhado

de variaveis explicativas para verificar efeitos de interacao e a especificacao da funcao de ligacao da

probabilidade de acerto dentro do questionario padrao.

No estudo de simulacao, a proposta foi avaliada sob diferentes combinacoes de parametros e

as estimativas das variaveis explicativas criadas foram comparadas com os valores reais pelo seus

erros quadraticos medios e probabilidades de cobertura realizadas. Com as alocacoes das unidades

experimentais estimadas, calcularam-se as acuracias de classificacao, sensitividade e taxa de falsos

positivos da matriz de confusao. Segundo estes resultados, fica claro que a proposta nao e robusta

a casos diversos. Ha que se ter indıcios razoaveis de que existem dois comportamentos dıspares, e

o sucesso da estimacao ainda dependera da quantidade de indivıduos com declınio acelerado, bem

como da diferenca entre o decaimento natural dos escores no tempo e o que se espera da trajetoria

com ponto de quebra.

Uma aplicacao ao conjunto de dados Rush Memory and Aging Project foi feita, possibilitando a

comparacao do modelo sugerido com outros ja estabelecidos na literatura (modelos lineares genera-

lizados de efeitos mistos). Os resultados indicam que, embora pequeno, ha um ganho na adequacao

dos valores estimados frente ao que se observa da variavel resposta. Um aspecto interessante e que a

nova especificacao permite discriminar um grupo de risco dentre os idosos, e assim cruzar informacoes

84

com variaveis explanatorias (como diagnostico de demencias e graus de escolaridade) para quantificar

associacoes.

Trabalhos futuros podem ser feitos por dois caminhos diferentes. O primeiro deles e um melhor

entendimento do modelo aqui desenvolvido, com estudos de simulacao para outras propostas de pre-

ditores nao lineares com pontos de quebra, respostas Beta-Binomial mudando o efeito do parametro

de sobredispersao, com quantidades maiores de unidades experimentais, alem da sensitividade na

escolha de distribuicoes a priori no caso Bayesiano. Em outra oportunidade, pode-se explorar como

se daria a estimacao do modelo sob a perspectiva de inferencia classica, a utilizacao de transicoes

suaves para o preditor nao linear com ponto de quebra, o uso de informacoes de indivıduos que

nao faleceram (com censuras, portanto, para evitar o desperdıcio de informacao), a postulacao de

mistura em conjunto com um modelo de sobrevivencia para o risco de demencias. Adicionalmente, a

suposicao de que se possuem escores compostos por questoes independentes ainda nao se faz valida.

Assim, estudos sobre como modelar as relacoes dos construtos dentro de questionarios padrao em

geriatria (memoria, pronuncia/linguagem, reflexos motores, etc) podem ser bastante uteis.

85

Bibliografia

Agresti, A. (2003). Categorical data analysis, volume 482. John Wiley & Sons.

Akaike, H. (1974). A new look at the statistical model identification. IEEE transactions on automatic

control, 19(6):716–723.

Albert, J. H. and Chib, S. (1993). Bayesian analysis of binary and polychotomous response data.

Journal of the American statistical Association, 88(422):669–679.

Alvarez, I., Niemi, J., and Simpson, M. (2014). Bayesian inference for a covariance matrix. arXiv

preprint arXiv:1408.4050.

Bacon, D. W. and Watts, D. G. (1971). Estimating the transition between two intersecting straight

lines. Biometrika, 58(3):525–534.

Bauwens, L. and Rombouts, J. V. K. (2012). On marginal likelihood computation in change-point

models. Computational Statistics & Data Analysis, 56(11):3415–3429.

Benaglia, T., Chauveau, D., Hunter, D., and Young, D. (2009). mixtools: An r package for analyzing

finite mixture models. Journal of Statistical Software, 32(6):1–29.

Bennett, D. A., Schneider, J. A., Buchman, A. S., Barnes, L. L., Boyle, P. A., and Wilson, R. S.

(2012). Overview and findings from the rush memory and aging project. Current Alzheimer

Research, 9(6):646–663.

Bennett, D. A., Schneider, J. A., Buchman, A. S., de Leon, C. M., Bienias, J. L., and Wilson, R. S.

(2005a). The rush memory and aging project: study design and baseline characteristics of the

study cohort. Neuroepidemiology, 25(4):163–175.

Bennett, D. A., Schneider, J. A., Wilson, R. S., Bienias, J. L., Berry-Kravis, E., and Arnold, S. E.

(2005b). Amyloid mediates the association of apolipoprotein e e4 allele to cognitive function in

older people. Journal of Neurology, Neurosurgery & Psychiatry, 76(9):1194–1199.

Bennett, D. A., Wilson, R. S., Schneider, J. A., Bienias, J. L., and Arnold, S. E. (2004). Cerebral

infarctions and the relationship of depression symptoms to level of cognitive functioning in older

persons. The American journal of geriatric psychiatry, 12(2):211–219.

86

Bennett, D. A., Wilson, R. S., Schneider, J. A., Evans, D. A., Leon, C. F. M. D., Arnold, S. E.,

Barnes, L. L., and Bienias, J. L. (2003). Education modifies the relation of ad pathology to level

of cognitive function in older persons. Neurology, 60(12):1909–1915.

Berger, J. O. (1990). Robust bayesian analysis: sensitivity to the prior. Journal of statistical planning

and inference, 25(3):303–328.

Box, G. E. P. and Tiao, G. C. (2011). Bayesian inference in statistical analysis, volume 40. John

Wiley & Sons.

Brezger, A., Kneib, T., and Lang, S. (2003). Bayesx: Analysing bayesian structured additive re-

gression models. Technical report, Discussion paper//Sonderforschungsbereich 386 der Ludwig-

Maximilians-Universitat Munchen.

Carpenter, B., Gelman, A., Hoffman, M., Lee, D., Goodrich, B., Betancourt, M., Brubaker, M. A.,

Guo, J., Li, P., and Riddell, A. (2016). Stan: A probabilistic programming language. Journal of

Statistical Software, 20:1–37.

Casella, G. and Berger, R. L. (2002). Statistical inference, volume 2. Duxbury Pacific Grove, CA.

Casella, G. and George, E. I. (1992). Explaining the gibbs sampler. The American Statistician,

46(3):167–174.

Celeux, G., Forbes, F., Robert, C. P., and Titterington, D. M. (2006). Deviance information criteria

for missing data models. Bayesian analysis, 1(4):651–673.

Chib, S. and Greenberg, E. (1995). Understanding the metropolis-hastings algorithm. The american

statistician, 49(4):327–335.

Chiu, G., Lockhart, R., and Routledge, R. (2006). Bent-cable regression theory and applications.

Journal of the American Statistical Association, 101(474):542–553.

Cockrell, J. R. and Folstein, M. F. (2002). Mini-mental state examination. Principles and practice

of geriatric psychiatry, pages 140–141.

Cook, R. D. and Weisberg, S. (1982). Residuals and influence in regression. New York: Chapman

and Hall.

DeGroot, M. H. (2005). Optimal statistical decisions, volume 82. John Wiley & Sons.

Delyon, B., Lavielle, M., and Moulines, E. (1999). Convergence of a stochastic approximation version

of the em algorithm. Annals of statistics, pages 94–128.

Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data

via the em algorithm. Journal of the royal statistical society. Series B (methodological), pages

1–38.

87

Devroye, L. (1986). Sample-based non-uniform random variate generation. In Proceedings of the

18th conference on Winter simulation, pages 260–265. ACM.

Dominicus, A., Ripatti, S., Pedersen, N. L., and Palmgren, J. (2008). A random change point

model for assessing variability in repeated measures of cognitive function. Statistics in medicine,

27(27):5786–5798.

Dunn, P. K. and Smyth, G. K. (1996). Randomized quantile residuals. Journal of Computational

and Graphical Statistics, 5(3):236–244.

Fawcett, T. (2006). An introduction to roc analysis. Pattern recognition letters, 27(8):861–874.

Feller, W. (1968). An introduction to probability theory and its applications: volume I, volume 3.

John Wiley & Sons New York.

Fleischman, D. A., Wilson, R. S., Bienias, J. L., and Bennett, D. A. (2005). Parkinsonian signs and

cognitive function in old age. Journal of the International Neuropsychological Society, 11(5):591–

597.

Fruhwirth-Schnatter, S. (2006). Finite mixture and Markov switching models. Springer Science &

Business Media.

Fruhwirth-Schnatter, S. and Fruhwirth, R. (2007). Auxiliary mixture sampling with applications to

logistic models. Computational Statistics & Data Analysis, 51(7):3509–3528.

Fruhwirth-Schnatter, S., Fruhwirth, R., Held, L., and Rue, H. (2009). Improved auxiliary mixture

sampling for hierarchical models of non-gaussian data. Statistics and Computing, 19(4):479–492.

Geisser, S. (1987). Influential observations, diagnostics and discovery tests. Journal of Applied

Statistics, 14(2):133–142.

Gelfand, A. E. and Smith, A. F. M. (1990). Sampling-based approaches to calculating marginal

densities. Journal of the American statistical association, 85(410):398–409.

Gelman, A. (2006). Prior distributions for variance parameters in hierarchical models (comment on

article by browne and draper). Bayesian analysis, 1(3):515–534.

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., and Rubin, D. B. (2014).

Bayesian data analysis, volume 2. CRC press Boca Raton, FL.

Gelman, A., Meng, X., and Stern, H. (1996). Posterior predictive assessment of model fitness via

realized discrepancies. Statistica sinica, pages 733–760.

Gelman, A. and Rubin, D. B. (1992). Inference from iterative simulation using multiple sequences.

Statistical science, pages 457–472.

Gilks, W. R., Richardson, S., and Spiegelhalter, D. (1995). Markov chain Monte Carlo in practice.

CRC press.

88

Gosselin, F. (2011). A new calibrated bayesian internal goodness-of-fit method: Sampled posterior

p-values as simple and general p-values that allow double use of the data. PloS one, 6(3):e14770.

Hall, C. B., Derby, C., LeValley, A., Katz, M. J., Verghese, J., and Lipton, R. B. (2007). Educa-

tion delays accelerated decline on a memory test in persons who develop dementia. Neurology,

69(17):1657–1664.

Hall, C. B., Lipton, R. B., Sliwinski, M., and Stewart, W. F. (2000). A change-point model for

estimating the onset of cognitive decline in preclinical alzheimer’s disease. Statistics in Medicine,

19:1555–1566.

Hall, C. B., Ying, J., Kuo, L., Sliwinski, M., Buschke, H., Katz, M., and Lipton, R. B. (2001).

Estimation of bivariate measurements having different change points, with application to cognitive

ageing. Statistics in medicine, 20(24):3695–3714.

Hannay, H. J. and Levin, H. S. (1985). Selective reminding test: an examination of the equivalence

of four forms. Journal of Clinical and Experimental Neuropsychology, 7(3):251–263.

Hastings, W. K. (1970). Monte carlo sampling methods using markov chains and their applications.

Biometrika, 57(1):97–109.

Hebert, L. E., Scherr, P. A., Bienias, J. L., Bennett, D. A., and Evans, D. A. (2003). Alzheimer

disease in the us population: prevalence estimates using the 2000 census. Archives of neurology,

60(8):1119–1122.

Holmes, C. C. and Held, L. (2006). Bayesian auxiliary variable models for binary and multinomial

regression. Bayesian analysis, 1(1):145–168.

Jacqmin-Gadda, H., Commenges, D., and Dartigues, J. (2006). Random changepoint model for joint

modeling of cognitive decline and dementia. Biometrics, 62(1):254–260.

Johnson, N. L., Kotz, S., and Balakrishnan, N. (1995). Continuous univariate distributions, vol. 2.

Johnson, V. E. (2004). A bayesian 𝜒2 test for goodness-of-fit. The Annals of Statistics, 32(6):2361–

2384.

Johnson, V. E. (2007). Bayesian model assessment using pivotal quantities. Bayesian Analysis,

2(4):719–733.

Kass, R. E. and Raftery, A. E. (1995). Bayes factors. Journal of the american statistical association,

90(430):773–795.

Katzman, R., Aronson, M., Fuld, P., Kawas, C., Brown, T., Morgenstern, H., Frishman, W., Gidez,

L., Eder, H., and Ooi, W. L. (1989). Development of dementing illnesses in an 80-year-old volunteer

cohort. Annals of neurology, 25(4):317–324.

89

Katzman, R., Terry, R., DeTeresa, R., Brown, T., Davies, P., Fuld, P., Renbing, X., and Peck, A.

(1988). Clinical, pathological, and neurochemical changes in dementia: a subgroup with preserved

mental status and numerous neocortical plaques. Annals of neurology, 23(2):138–144.

Kotz, S., Balakrishnan, N., and Johnson, N. L. (2004). Continuous multivariate distributions, Volume

1: Models and applications, volume 1. John wiley & sons.

Launer, L. J., Masaki, K., Petrovitch, H., Foley, D., and Havlik, R. J. (1995). The association between

midlife blood pressure levels and late-life cognitive function: the honolulu-asia aging study. Jama,

274(23):1846–1851.

Little, R. J. A. and Rubin, D. B. (1983). On jointly estimating parameters and missing data by

maximizing the complete-data likelihood. The American Statistician, 37(3):218–220.

Lunn, D., Jackson, C., Best, N., Thomas, A., and Spiegelhalter, D. (2012). The BUGS book: A

practical introduction to Bayesian analysis. CRC press.

Lunn, D. J., Thomas, A., Best, N., and Spiegelhalter, D. (2000). Winbugs-a bayesian modelling

framework: concepts, structure, and extensibility. Statistics and computing, 10(4):325–337.

McClearn, G. E., Johansson, B., Berg, S., Pedersen, N. L., Ahern, F., Petrill, S. A., and Plomin, R.

(1997). Substantial genetic influence on cognitive abilities in twins 80 or more years old. Science,

276(5318):1560–1563.

McCulloch, C. E. and Neuhaus, J. M. (2001). Generalized linear mixed models. Wiley Online Library.

McKhann, G., Drachman, D., Folstein, M., Katzman, R., Price, D., and Stadlan, E. M. (1984).

Clinical diagnosis of alzheimer’s disease report of the nincds-adrda work group* under the auspices

of department of health and human services task force on alzheimer’s disease. Neurology, 34(7):939–

939.

McLachlan, G. and Peel, D. (2004). Finite mixture models. John Wiley & Sons.

Muggeo, V. M. R. (2003). Estimating regression models with unknown break-points. Statistics in

medicine, 22(19):3055–3071.

Neal, R. M. (1997). Markov chain monte carlo methods based on slicing the density function.

Technical Report 9722, The University of Toronto.

Neal, R. M. (2003). Slice sampling. Annals of statistics, pages 705–741.

Neal, R. M. (2011). Mcmc using hamiltonian dynamics. Handbook of Markov Chain Monte Carlo,

2(11).

Nelder, J. A. and Wedderburn, R. W. M. (1972). Generalized linear models. Journal of the Royal

Statistical Society Series A., 135(3):370–384.

Oeppen, J. and Vaupel, J. W. (2002). Broken limits to life expectancy. Science, 296(5570):1029–1031.

90

Paula, G. A. (2004). Modelos de regressao: com apoio computacional. IME-USP Sao Paulo.

Pinheiro, J. C. and Bates, D. M. (1995). Approximations to the log-likelihood function in the

nonlinear mixed-effects model. Journal of computational and Graphical Statistics, 4(1):12–35.

Plummer, M. (2016). rjags: Bayesian Graphical Models using MCMC. R package version 4-6.

Plummer, M. et al. (2003). Jags: A program for analysis of bayesian graphical models using gibbs

sampling. In Proceedings of the 3rd international workshop on distributed statistical computing,

volume 124, page 125. Vienna, Austria.

Prentice, R. (1986). Binary regression using an extended beta-binomial distribution, with discus-

sion of correlation induced by covariate measurement errors. Journal of the American Statistical

Association, 81(394):321–327.

Ridout, M. S., Demetrio, C. G. B., and Firth, D. (1999). Estimating intraclass correlation for binary

data. Biometrics, 55(1):137–148.

Ripley, B. D. (2009). Stochastic simulation, volume 316. John Wiley & Sons.

Robert, C. P. (2004). Monte carlo methods. Wiley Online Library.

Robert, C. P. (2007). The Bayesian choice: from decision-theoretic foundations to computational

implementation. Springer Science & Business Media.

Scarmeas, N. and Stern, Y. (2004). Cognitive reserve: implications for diagnosis and prevention of

alzheimer’s disease. Current neurology and neuroscience reports, 4(5):374–380.

Schall, R. (1991). Estimation in generalized linear models with random effects. Biometrika, 78(4):719–

727.

Schneider, J. A., Wilson, R. S., Bienias, J. L., Evans, D. A., and Bennett, D. A. (2004). Cerebral

infarctions and the likelihood of dementia from alzheimer disease pathology. Neurology, 62(7):1148–

1155.

Schwarz, G. (1978). Estimating the dimension of a model. The annals of statistics, 6(2):461–464.

Seber, G. A. F. and Wild, C. J. (1989). Nonlinear regression. New York: John Wiley and Sons.

Spiegelhalter, D., Best, N. G., Carlin, B. P., and van der Linde, A. (2002). Bayesian measures of model

complexity and fit. Journal of the Royal Statistical Society: Series B (Statistical Methodology),

64(4):583–639.

Staff, R. T., Murray, A. D., Deary, I. J., and Whalley, L. J. (2004). What provides cerebral reserve?

Brain, 127(5):1191–1199.

Swihart, B. J., Caffo, B., James, B. D., Strand, M., Schwartz, B. S., and Punjabi, N. M. (2010).

Lasagna plots: a saucy alternative to spaghetti plots. Epidemiology (Cambridge, Mass.), 21(5):621.

91

Tan, M. T., Tian, G., and Ng, K. W. (2009). Bayesian missing data problems: EM, data augmentation

and noniterative computation. CRC Press.

Tanner, M. A. and Wong, W. H. (1987). The calculation of posterior distributions by data augmen-

tation. Journal of the American statistical Association, 82(398):528–540.

Teng, E. L., Hasegawa, K., Homma, A., Imai, Y., Larson, E., Graves, A., Sugimoto, K., Yamaguchi,

T., Sasaki, H., Chiu, D., et al. (1994). The cognitive abilities screening instrument (casi): a

practical test for cross-cultural epidemiological studies of dementia. International Psychogeriatrics,

6(1):45–58.

Tishler, A. and Zang, I. (1981). A new maximum likelihood algorithm for piecewise regression.

Journal of the American Statistical Association, 76(376):980–987.

Toms, J. D. and Lesperance, M. L. (2003). Piecewise regression: a tool for identifying ecological

thresholds. Ecology, 84(8):2034–2041.

van den Hout, A., Muniz-Terrera, G., and Matthews, F. E. (2011). Smooth random change point

models. Statistics in medicine, 30(6):599–610.

van den Hout, A., Muniz-Terrera, G., and Matthews, F. E. (2013). Change point models for cog-

nitive tests using semi-parametric maximum likelihood. Computational statistics & data analysis,

57(1):684–698.

Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S. Springer, New York,

fourth edition. ISBN 0-387-95457-0.

Williams, D. A. (1982). Extra-binomial variation in logistic linear models. Applied statistics, pages

144–148.

Wilson, R. S., Barnes, L. L., Krueger, K. R., Hoganson, G., Bienias, J. L., and Bennett, D. A. (2005).

Early and late life cognitive activity and cognitive systems in old age. Journal of the International

Neuropsychological Society, 11(4):400–407.

Wolfinger, R. and O’connell, M. (1993). Generalized linear mixed models a pseudo-likelihood appro-

ach. Journal of statistical Computation and Simulation, 48(3-4):233–243.

Yu, B. and Ghosh, P. (2010). Joint modeling for cognitive trajectory and risk of dementia in the

presence of death. Biometrics, 66(1):294–300.

Zellner, A. (1971). An introduction to bayesian inference in econometrics. Technical report.

Zhang, J. L. (2014). Comparative investigation of three bayesian p values. Computational Statistics

& Data Analysis, 79:277–291.

92

Apendice A

Exemplo questionario MMSE

Mini-Mental State Examination (MMSE)

Patient’s Name: Date:

Instructions: Score one point for each correct response within each question or activity.

MaximumScore

Patient’sScore

Questions

5 “What is the year? Season? Date? Day? Month?”

5 “Where are we now? State? County? Town/city? Hospital? Floor?”

3

The examiner names three unrelated objects clearly and slowly, thenthe instructor asks the patient to name all three of them. The patient’sresponse is used for scoring. The examiner repeats them until patientlearns all of them, if possible.

5“I would like you to count backward from 100 by sevens.” (93, 86, 79,72, 65, …)Alternative: “Spell WORLD backwards.” (D-L-R-O-W)

3 “Earlier I told you the names of three things. Can you tell me whatthose were?”

2 Show the patient two simple objects, such as a wristwatch and a pencil,and ask the patient to name them.

1 “Repeat the phrase: ‘No ifs, ands, or buts.’”

3 “Take the paper in your right hand, fold it in half, and put it on the floor.”(The examiner gives the patient a piece of blank paper.)

1 “Please read this and do what it says.” (Written instruction is “Closeyour eyes.”)

1 “Make up and write a sentence about anything.” (This sentence mustcontain a noun and a verb.)

1

“Please copy this picture.” (The examiner gives the patient a blankpiece of paper and asks him/her to draw the symbol below. All 10angles must be present and two must intersect.)

30 TOTAL

93

Apendice B

Algoritmos de simulacao

Saıda: Um ponto da distribuicao objetivo ℎ(𝑥)/∫ℎ(𝑥)𝑑𝑥.

Valores iniciais: 𝑥(0)

Inıcio𝑡← 0;novo = 0;Enquanto novo ← 0 faca

𝑥* ∼ 𝑔(𝑥*|𝑥(𝑡));

𝑎← min{1, ℎ(𝑥*)𝑔(𝑥(𝑡)|𝑥*)

ℎ(𝑥(𝑡))𝑔(𝑥*|𝑥(𝑡))

};

𝑈 ∼ Uniforme(0, 1);Se 𝑈 ≤ 𝑎 entao

𝑥(𝑡+1) ← 𝑥*;novo ← 1;

Retorna 𝑥(𝑡+1);

Senao𝑥(𝑡+1) ← 𝑥(𝑡);𝑡← 𝑡+ 1;

Fim

Algoritmo B.1: Algoritmo Metropolis-Hastings.

94

Saıda: Amostras de tamanho 𝑀 de cada parametro 𝜃𝑘,∀𝑘 ∈ {1, . . . , 𝑑}.Valores iniciais: (𝜃

(0)1 , . . . , 𝜃

(0)𝑑 ), 𝑀

Inıcio𝑡← 0;Enquanto 𝑡 ≤𝑀 faca

𝜃(𝑡+1)1 ∼ 𝜋(𝜃1|𝜃(𝑡)2 , . . . , 𝜃

(𝑡)𝑑 ,𝑦);

𝜃(𝑡+1)2 ∼ 𝜋(𝜃2|𝜃(𝑡+1)

1 , 𝜃(𝑡)3 , . . . , 𝜃

(𝑡)𝑑 ,𝑦);

...𝜃(𝑡+1)𝑑 ∼ 𝜋(𝜃𝑑|𝜃(𝑡+1)

1 , . . . , 𝜃(𝑡+1)𝑑−1 ,𝑦);

𝑡← 𝑡+ 1;

Fim

Algoritmo B.2: Amostrador de Gibbs.

Saıda: Um ponto da densidade de interesse ℎ(𝑥)/∫ℎ(𝑥)𝑑𝑥.

Valores iniciais: 𝑥(0), 𝑤// 𝑤 determina o tamanho da vizinhanca. Pode-se usar a distancia media entre

valores ja simulados de ℎ(𝑥).Inıcio

𝑍 ∼ Uniforme(0, ℎ(𝑥(0)));𝑈 ∼ Uniforme(0, 1);

𝐿← 𝑥(0) − 𝑤𝑈 ;𝑅← 𝐿+ 𝑤;Enquanto 𝑍 < ℎ(𝐿) ou 𝑍 > ℎ(𝑅) faca

𝑉 ∼ Uniforme(0, 1);Se 𝑉 < 1/2 entao

𝐿← 𝐿− (𝑅− 𝐿)Senao

𝑅← 𝑅 + (𝑅− 𝐿)𝐼 ← (𝐿,𝑅);𝑥* ∼ Uniforme(𝐼);Retorna 𝑥*;

Fim

Algoritmo B.3: Slice sampling com procedimento doubling.

95

Saıda: Amostras de tamanho 𝑀 para os parametros 𝛽, 𝑏1, . . . , 𝑏𝑛 e DValores iniciais: 𝛽(0), 𝑏

(0)1 , . . . , 𝑏

(0)𝑛 ,D(0), 𝑀

// O ındice 1 indica que a condicional completa em quest~ao e de uma

distribuic~ao Normal (𝑞𝛽 + 𝑛𝑞𝑏)-variada, enquanto 2 indica uma distribuic~ao

Inversa Wishart. O vetor de medias e matriz de covariancias para o

primeiro caso, assim como a matriz de locac~ao e o parametro de escala da

Inversa Wishart mudam de acordo com a especificac~ao dos efeitos fixos e

aleatorios.

Inıcio𝑡← 0;Defina 𝐿, (𝑚𝑙, 𝑠

2𝑙 , 𝑟𝑙),∀𝑙 ∈ {1, . . . , 𝐿} com base em 𝐾, segundo Fruhwirth-Schnatter et al.

(2009).

Defina valores iniciais para as variaveis auxiliares {𝑦*(0)𝑖𝑗 , 𝑅(0)𝑖𝑗 : 𝑗 = 1, . . . , 𝑛𝑖; 𝑖 = 1, . . . , 𝑛.}


(𝛽(𝑡+1)′, 𝑏(𝑡+1)′1 , . . . , 𝑏

(𝑡+1)′𝑛 )′ ∼ 𝜋(𝛽, 𝑏1, . . . , 𝑏𝑛|𝑦*(𝑡),𝑅(𝑡),𝑦)1;

D(𝑡+1) ∼ 𝜋(D|𝛽(𝑡+1), 𝑏(𝑡+1)1 , . . . , 𝑏

(𝑡+1)𝑛 ,𝑦*(𝑡),𝑅(𝑡),𝑦)2;

𝑖← 1;𝑗 ← 1;Enquanto 𝑖 ≤ 𝑛 e 𝑗 ≤ 𝑛𝑖 faca

𝜆𝑖𝑗 = exp(𝑥′𝑖𝑗𝛽

(𝑡+1) + 𝑧′𝑖𝑗𝑏

(𝑡+1)𝑖 );

Se 𝑦𝑖𝑗 = 𝐾 entao𝑉𝑖𝑗 ← 0

Senao𝑉𝑖𝑗 ∼ Gamma(𝐾 − 𝑦𝑖𝑗, 1)

𝑈𝑖𝑗 ∼ Gamma(𝐾, 1);

𝑦*(𝑡+1)𝑖𝑗 ← −log

(𝑈𝑖𝑗

1+𝜆𝑖𝑗+

𝑉𝑖𝑗

𝜆𝑖𝑗

);

𝑟*𝑙 ←𝑟𝑙𝑠𝑙exp

{1

2𝑠2𝑙

(𝑦*(𝑡+1)𝑖𝑗 − 𝑥′

𝑖𝑗𝛽(𝑡+1) − 𝑧′

𝑖𝑗𝑏(𝑡+1)𝑖 −𝑚𝑙

)2}, 𝑙 ∈ {1, . . . , 𝐿};

𝑟*𝑙 ← 𝑟*𝑙 /(∑

𝑙 𝑟*𝑙

), 𝑙 ∈ {1, . . . , 𝐿};

𝑅(𝑡+1)𝑖𝑗 ∼ Multinomial(1, 𝑟*1, . . . , 𝑟

*𝐿);

𝑡← 𝑡+ 1;

Fim

Algoritmo B.4: Amostrador de Gibbs com atualizacao por blocos para modelo Binomial comligacao logito e distribuicoes gaussianas das priori ’s dos efeitos fixos e aleatorios.

96

Apendice C

Rush Memory and Aging Project

C.1 Graficos analise descritiva

0

10

20

30

Não SimDiagnóstico Doença de Alzheimer

Esc

ore

MM

SE

(a)

0

10

20

30

Não SimDiagnóstico Dano Cognitivo Moderado

Esc

ore

MM

SE

(b)

0

10

20

30

Ensino Fundamental

Ensino Médio

Graduação Pós Graduação

Nível Educacional

Esc

ore

MM

SE

(c)

0

10

20

30

Feminino MasculinoGênero

Esc

ore

MM

SE

(d)

0

10

20

30

Americano nativo

Asiático Branco Negro

Etnia

Esc

ore

MM

SE

(e)

Figura C.1: Box-plots da variavel resposta escore mmse de acordo com as covariaveis categoricas.Segundo legenda da Tabela 5.1, (a) - ad; (b) - mci; (c) - educ; (d) - sexo; (e) - etnia.

97

Corr:

−0.134

Corr:

0.607

Corr:

0.567

Corr:

−0.0458

Corr:

0.416

Corr:

0.403

Corr:

0.4

Corr:

0.289

Corr:

0.0966

Corr:0.629

Corr:

0.733

Corr:

0.247

Corr:

0.189

Corr:0.643

Corr:

0.618

Corr:

0.764

Corr:

0.127

Corr:

0.0516

Corr:0.579

Corr:

0.56

Corr:

0.644

Corr:

0.629

Corr:

0.352

Corr:

0.224

Corr:0.629

Corr:

0.611

Corr:

0.725

Corr:

0.658

Corr:

0.535

Corr:

0.293

Corr:

0.285

Corr:0.715

Corr:

0.594

Corr:

0.702

Corr:

0.671

Corr:0.767

Corr:

−0.327

Corr:

0.439

Corr:

0.434

Corr:0.665

Corr:

0.583

Corr:

0.674

Corr:

0.618

Corr:0.737

Corr:0.715

t19 t18 t17 t16 t15 t14 t13 t12 t11 t10t19

t18t17

t16t15

t14t13

t12t11

t10

Figura C.2: Diagonal principal: densidades suavizadas dos escores mmse para tempos ate a morte diferentes, 𝑡 ∈ {−19, . . . ,−10}. Graficosda parte triangular inferior: dispersao entre escores para tempos cruzados. Informacoes da parte triangular superior: correlacoes entre escorespara tempos cruzados.

98

Corr:

0.754

Corr:

0.762

Corr:

0.797

Corr:

0.732

Corr:

0.757

Corr:

0.821

Corr:

0.671

Corr:

0.749

Corr:

0.771

Corr:0.826

Corr:

0.574

Corr:

0.66

Corr:

0.688

Corr:0.761

Corr:

0.829

Corr:

0.596

Corr:

0.67

Corr:

0.678

Corr:0.752

Corr:

0.779

Corr:

0.851

Corr:

0.532

Corr:

0.58

Corr:

0.615

Corr:0.661

Corr:

0.719

Corr:

0.749

Corr:

0.874

Corr:

0.395

Corr:

0.541

Corr:

0.519

Corr:0.611

Corr:

0.646

Corr:

0.702

Corr:

0.792

Corr:0.869

Corr:

0.481

Corr:

0.536

Corr:

0.446

Corr:0.506

Corr:

0.604

Corr:

0.577

Corr:

0.706

Corr:0.77

Corr:0.823

t9 t8 t7 t6 t5 t4 t3 t2 t1 t0t9

t8t7

t6t5

t4t3

t2t1

t0

Figura C.3: Diagonal principal: densidades suavizadas dos escores mmse para tempos ate a morte diferentes, 𝑡 ∈ {−9, . . . ,−0}. Graficos daparte triangular inferior: dispersao entre escores para tempos cruzados. Informacoes da parte triangular superior: correlacoes entre escores paratempos cruzados.

99

C.2 Material suplementar dos ajustes

Tabela C.1: Mediana, bandas inferior (Inf) e superior (Sup) de credibilidade 95% para cadeias finaisdo modelo com distribuicao Binomial, preditores dados por (5.3.2) e (5.3.3). Os ajustes sao feitoscomℳlogito : ℎ(𝑥) = log(𝑥/(1− 𝑥)), enquantoℳcloglog : ℎ(𝑥) = log(−log(1− 𝑥)).

ℳ𝑙𝑜𝑔𝑖𝑡𝑜 ℳ𝑐𝑙𝑜𝑔𝑙𝑜𝑔

Parametro Inf(95%) Mediana Sup(95%) Inf(95%) Mediana Sup(95%)

𝛽1 (Intercepto) 1,618 1,977 2,336 1,613 1,976 2,343

𝛽2 (min(𝑡𝑖𝑗, 𝜏𝑖)) -0,082 -0,069 -0,055 -0,082 -0,068 -0,054

𝛽3 ((𝑡𝑖𝑗 − 𝜏𝑖)+) -1,452 -1,307 -1,191 -1,467 -1.333 -1.223

𝛽4 (Alzheimer) -2,183 -2,025 -1,879 -2,193 -2,038 -1,886

𝛽5 (Demencia moderada) -0,349 -0,236 -0,130 -0,345 -0,233 -0,116

𝛽6 (Ensino Medio) 0,138 0,499 0,850 0,128 0,494 0,851

𝛽7 (Graduacao) 0,386 0,721 1,054 0,357 0,713 1,060

𝛽8 (Pos-Graduacao) 0,556 0,888 1,209 0,529 0,883 1,237

𝛽9 (Sexo masculino) -0,084 0,019 0,116 -0,089 0,015 0,115

𝛽10 (Negro) -0,258 -0,072 0,107 -0,266 -0,079 0,118

𝛽11 (Americano nativo) -1,106 -0,210 0,767 -1,088 -0,196 0,737

𝛽12 (Asiatico) -1,570 -0,667 0,172 -1,517 -0,666 0,143

𝛽13 (Alzheimer × tempo) -0,172 -0,151 -0,131 -0,174 -0,154 -0,133

𝜆1 (Intercepto) -3,921 -3,141 -2,488 -3,924 -3,117 -2,534

𝜆2 (Alzheimer) 2,396 3,077 3,859 2,432 3,031 3,808

𝜎𝑏1 0,934 0,997 1,062 0,941 1,005 1,066

𝜎𝑏2 0,087 0,097 0,108 0,088 0,098 0,108

𝜌 0,638 0,700 0,749 0,646 0,703 0,751

𝜎𝜏 2,646 2,931 3,245 2,597 2,904 3,232

𝜇𝜏 -0,625 -0,139 -0,006 -0,633 -0,137 -0,005

100

ρ

0.60 0.70 0.80

04

814

β1

1.5 2.0 2.5

0.0

1.0

2.0

β2

−0.10 −0.07 −0.04

020

40

β3

−1.6 −1.4 −1.2

02

46

β4

−2.4 −2.2 −2.0 −1.8

02

4

β5

−0.4 −0.2 0.0

02

46

β6

0.0 0.5 1.0

0.0

1.0

2.0

β7

0.0 0.5 1.0 1.5

0.0

1.0

2.0

β8

0.5 1.0 1.5

0.0

1.0

2.0

β9

−0.20 −0.16 −0.12

020

λ1

−5.0 −4.0 −3.0 −2.00.0

0.6

λ2

1.5 2.5 3.5 4.5

0.0

0.6

σb1

0.85 0.95 1.05 1.15

04

812

σb2

0.08 0.10 0.12

030

60

στ

2.4 2.8 3.2 3.6

0.0

1.5

µτ

−1.5 −1.0 −0.5 0.0

02

4

ρ

700000 740000 780000

0.6

00.7

5

β1

700000 740000 780000

1.4

2.0

2.6

β2

700000 740000 780000

−0.0

9−

0.0

5

β3

700000 740000 780000

−1.5

−1.2

β4

700000 740000 780000

−2.3

−2.0

β5

700000 740000 780000

−0.4

−0.1

β6

700000 740000 780000

0.0

0.6

β7

700000 740000 780000

0.2

0.8

β8

700000 740000 780000

0.4

1.0

1.6

β9

700000 740000 780000

−0.1

9−

0.1

4

λ1

700000 740000 780000

−5.0

−3.5

λ2

700000 740000 780000

2.0

3.5

σb1

700000 740000 780000

0.9

01.0

5

σb2

700000 740000 780000

0.0

80

0.1

05

στ

700000 740000 780000

2.6

3.2

µτ

700000 740000 780000

−1.4

−0.6

Figura C.4: Nas primeiras 4 linhas de graficos, densidades a posteriori e nas ultimas 4 linhas, historicodas cadeias a posteriori do modeloℳ𝑏𝑖𝑛.

Documents

Eric Krishna Peres Barbosa - repositorio.unicamp.br€¦ · Eric Krishna Peres Barbosa Modelos de mistura para dados longitudinais de habilidade cognitiva em idosos Disserta¸c˜ao