68
Universidade Federal do Rio de Janeiro Instituto de Matem´ atica Departamento de M´ etodos Estat´ ısticos Abordagem Bayesiana em Misturas Finitas de Distribui¸ oes Assim´ etricas Autor: Marcus Gerardus Lavagnole Nascimento Orientador: Carlos Antonio Abanto-Valle Rio de Janeiro Dezembro de 2017

Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Embed Size (px)

Citation preview

Page 1: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Universidade Federal do Rio de Janeiro

Instituto de Matematica

Departamento de Metodos Estatısticos

Abordagem Bayesiana em Misturas Finitas deDistribuicoes Assimetricas

Autor: Marcus Gerardus Lavagnole Nascimento

Orientador: Carlos Antonio Abanto-Valle

Rio de Janeiro

Dezembro de 2017

Page 2: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Abordagem Bayesiana em Misturas Finitas de Distribuicoes Assimetricas

Marcus Gerardus Lavagnole Nascimento

Dissertacao de mestrado submetida ao Instituto de Ma-

tematica da Universidade Federal do Rio de Janeiro como

parte dos requisitos necessarios para obtencao do tıtulo

de Mestre em Estatıstica.

Orientador: Carlos Antonio Abanto-Valle

Rio de Janeiro, 11 de dezembro de 2017.

Page 3: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Abordagem Bayesiana em Misturas Finitas de Distribuicoes

Assimetricas

Marcus Gerardus Lavagnole Nascimento

Orientador: Carlos Antonio Abanto-Valle

Dissertacao de mestrado submetida ao Instituto de Matematica da Universidade

Federal do Rio de Janeiro como parte dos requisitos necessarios para obtencao do tıtulo

de Mestre em Estatıstica.

Aprovada por:

Rio de Janeiro, 11 de dezembro de 2017.

Page 4: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

CIP - Catalogação na Publicação

Elaborado pelo Sistema de Geração Automática da UFRJ com osdados fornecidos pelo(a) autor(a).

N244aNascimento , Marcus Gerardus Lavagnole Abordagem bayesiana em misturas finitas dedistribuições assimétricas / Marcus GerardusLavagnole Nascimento . -- Rio de Janeiro, 2017. 67 f.

Orientador: Carlos Antonio Abanto-Valle. Dissertação (mestrado) - Universidade Federal doRio de Janeiro, Instituto de Matemática, Programade Pós-Graduação em Estatística, 2017.

1. Misturas finitas. 2. Distribuiçõesassimétricas. 3. Inferência bayesiana. I. AbantoValle, Carlos Antonio, orient. II. Título.

3

Page 5: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Universidade Federal do Rio de Janeiro

Abordagem Bayesiana em Misturas Finitas de Distribuicoes Assimetricas

Marcus Gerardus Lavagnole Nascimento

2017

Page 6: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

AGRADECIMENTOS

Ao meu orientador, Carlos Antonio Abanto-Valle;

Aos meus pais, Leobaldo Silveira Nascimento e

Maria Christina Lavagnole;

As minhas irmas, Hanna Lavagnole Nascimento e

Rebecca Lavagnole Nascimento;

E a minha companheira e amiga, Rebecca de Oli-

veira Souza.

Page 7: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

RESUMO

Abordagem Bayesiana em Misturas Finitas de Distribuicoes Assimetricas

Marcus Gerardus Lavagnole Nascimento

Orientador: Carlos Antonio Abanto-Valle

Resumo da dissertacao de mestrado submetida ao Instituto de Matematica da Uni-

versidade Federal do Rio de Janeiro como parte dos requisitos necessarios para obtencao

do tıtulo de Mestre em Estatıstica.

Neste trabalho, modelos de misturas finitas de misturas de escala skew -normal (FM-SMSN)

e de misturas de regressoes com base em misturas de escala skew -normal sao introduzidos com o

objetivo de lidar simultaneamente com dados que apresentem comportamentos assimetricos, caudas

pesadas e heterogeneidade. Uma metodologia bayesiana baseada no princıpio de ampliacao de dados

e elaborada e um eficiente algoritmo Monte Carlo via cadeias de Markov (MCMC) e desenvolvido.

Estes procedimentos sao discutidos com enfase em misturas finitas das distribuicoes skew -normal,

skew -t e skew -slash.

Palavras-chave: Misturas Finitas, Distribuicoes Assimetricas, Inferencia Bayesiana.

Page 8: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

ABSTRACT

Finite Mixtures of Skewed Distributions: a Bayesian Approach

Marcus Gerardus Lavagnole Nascimento

Advisor: Carlos Antonio Abanto-Valle

Abstract da dissertacao de mestrado submetida ao Instituto de Matematica da Uni-

versidade Federal do Rio de Janeiro como parte dos requisitos necessarios para obtencao

do tıtulo de Mestre em Estatıstica.

In this work, finite mixtures of scale mixtures of skew-normal (FM-SMSN) distributions and

mixture regression based on scale mixtures of skew-normal (SMSN-MRM) are introduced to deal

simultaneously with asymmetric behavior, heavy tails and heterogeneity present in some data sets.

A Bayesian methodology based on the data augmentation principle is derived and an efficient

Markov-chain Monte Carlo (MCMC) algorithm is developed. These procedures are discussed with

emphasis on finite mixtures of skew-normal, skew-t and skew-slash distributions.

Key-words: Finite Mixtures, Skewed Distributions, Bayesian inference.

Page 9: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Sumario

1 Introducao 13

1.1 Propostas do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2 Organizacao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Elementos de Inferencia Bayesiana 17

2.1 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.1.1 Estimacao Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.1.2 Estimacao Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2 Metodos de Monte Carlo via cadeias de Markov . . . . . . . . . . . . . . . . . . . . . 20

2.2.1 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.2 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3 Criterios de Selecao de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3.1 Criterio de Informacao de Akaike - AIC . . . . . . . . . . . . . . . . . . . . . 22

2.3.2 Criterio de Informacao Bayesiano - BIC . . . . . . . . . . . . . . . . . . . . . 23

3 Preliminares 25

3.1 Definicoes Basicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2 Identificabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2.1 Invariancia com relacao a mudanca na etiqueta das componentes . . . . . . . 27

3.2.2 Excesso de componentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.3 Ampliacao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

8

Page 10: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

3.4 Label Switching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.4.1 Algoritmo KL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.5 Misturas de Escala Skew -Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.5.1 Distribuicao Skew -Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.5.2 Distribuicoes de Misturas de Escala Skew -Normal . . . . . . . . . . . . . . . 32

3.5.3 Reparametrizacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4 Misturas Finitas de Misturas de Escala Skew-Normal 35

4.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.2 O Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.3 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.4 Estudo com Dados Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.4.1 Caso Univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.4.2 Caso Multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.5 Aplicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.5.1 Indice de Massa Corporea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.5.2 Indicadores Suıcos de Fertilidade e Socioeconomicos (1888) . . . . . . . . . . 44

4.6 Consideracoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

A Apendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

A.1 Distribuicoes condicionais completas para os modelos de misturas finitas de

misturas de escala skew -normal . . . . . . . . . . . . . . . . . . . . . . . . . . 48

A.2 Distribuicoes condicionais completas para os modelos de misturas finitas de

misturas de escala skew -normal multivariada . . . . . . . . . . . . . . . . . . 50

5 Misturas de Regressoes com base em Misturas de Escala Skew-Normal 52

5.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.2 O Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.3 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.4 Estudo com dados Artificais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

9

Page 11: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

5.5 Aplicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.6 Consideracoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

B Apendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

B.1 Distribuicoes condicionais completas para os modelos de misturas de re-

gressoes com base em misturas de escala skew -normal . . . . . . . . . . . . . 60

6 Conclusoes e Perspectivas 62

10

Page 12: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Lista de Figuras

4.1 Histograma das observacoes de IMC com ajuste dos modelos FM-SN, FM-ST e FM-

SSL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.2 Histograma das amostras a posteriori dos parametros de assimetria da primeira

componente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.3 Ajuste dos modelos FM-SN, FM-ST e FM-SSL aos dados de indicadores suıcos. . . . 47

4.4 Histograma das amostras a posteriori dos graus de liberdade da segunda componente. 48

5.1 Scatterplot e histograma dos dados de percepcao musical. . . . . . . . . . . . . . . . 58

11

Page 13: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Lista de Tabelas

4.1 Resultados para os ajustes dos modelos FM-MESN aos dados artificiais univariados. 40

4.2 Resultados para os ajustes dos modelos FM-MESN aos dados artificiais bivariados. . 41

4.3 Resultados para os ajustes dos modelos FM-MESN aos dados de IMC. . . . . . . . . 43

4.4 Resultados para os ajustes dos modelos FM-MESN aos dados de indicadores suıcos. 46

5.1 Resultados para os ajustes dos modelos MESN-MRM aos dados artificiais. . . . . . . 57

5.2 Resultados para os ajustes dos modelos MESN-MRM aos dados de percepcao musical. 59

12

Page 14: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Capıtulo 1

Introducao

Modelos de misturas finitas possuem um amplo campo de aplicacao e sao estudados em diferen-

tes areas de pesquisa cientıfica, por exemplo, redes neurais (Zhang et al., 2013), processamento

de imagens (Bouguila et al., 2004), genetica (Fu et al., 2011) e ciencias sociais (da Paz et al.,

2017). Esta classe de modelos compoe uma poderosa ferramenta em contextos nos quais o conjunto

de dados apresenta heterogeneidade e quando se deseja aproximar densidades de probabilidades

complexas. A vista disso, muitos modelos estatısticos envolvem misturas finitas de distribuicoes

independentemente de qual seja o conteudo sob investigacao.

Concisamente, problemas nos quais misturas finitas de distribuicoes despontam naturalmente

sao tais que uma populacao composta por K subgrupos, misturada aleatoriamente e proporcional-

mente aos pesos η1, . . . , ηK dos grupos, e considerada. Seja Y uma variavel aleatoria de interesse

associada a uma populacao com tais caracterısticas, devido a heterogeneidade, Y possui diferentes

distribuicoes de probabilidade para cada grupo. Usualmente, sao assumidas distribuicoes na mesma

famılia parametrica p(y|θ), todavia, o parametro θ varia entre os grupos.

Seja S uma variavel aleatoria discreta contendo a informacao sobre em qual grupo a observacao

y da variavel aleatoria Y encontra-se. A partir de amostras aleatorias de tal populacao, pode-se

reportar nao somente as observacoes da variavel aleatoria Y, mas tambem o grupo identificador

S. A probabilidade de amostrar-se do grupo identificado como k e igual a ηk, ademais, condicional

em S, a variavel aleatoria Y segue a distribuicao p(y|θk) com θk sendo parametro especıfico para

13

Page 15: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

o grupo k. Portanto, a densidade conjunta e dada por

p(y,S) = p(y|S)p(S) = p(y|θk)ηk.

Modelos de misturas finitas de distribuicoes surgem em contextos nos quais nao e possıvel

reportar o indicador de grupo S, ou seja, observa-se apenas realizacoes da variavel aleatoria Y. Por

conseguinte, a densidade marginal p(y) e descrita pela seguinte mistura de densidades,

p(y) =

K∑k=1

p(y,S) = η1p(y|θ1) + . . .+ ηKp(y|θK). (1.1)

1.1 Propostas do Trabalho

Introduzido um conceito geral sobre como problemas relativos a misturas finitas de distribuicoes

aparecem, segue-se para a apresentacao das propostas que serao desenvolvidas ao longo deste traba-

lho. Basicamente, esta dissertacao esta fundamentada em duas classes de modelos complementares:

1 Modelos de misturas finitas de misturas de escala skew -normal,

2 Modelos de misturas de regressoes com base em misturas de escala skew -normal.

A primeira proposta surge a partir das metodologias propostas por Fruhwirth-Schnatter and

Pyne (2010), Basso et al. (2010) e Cabral et al. (2012). Fruhwirth-Schnatter and Pyne (2010) desen-

volvem uma metodologia bayesiana para misturas finitas das distribuicoes skew -normal e skew -t

univariadas e multivariadas a partir do princıpio de ampliacao de dados e do uso de metodos

de simulacao estocastica, mais especificamente, dos metodos Monte Carlo via Cadeias de Markov

(MCMC, abreviacao do ingles de Markov chain Monte Carlo), para amostrar da distribuicao poste-

riori conjunta. Alem disso, o modelo resultante e expresso a partir da representacao estocastica em

termos de modelos de efeitos aleatorios (Azzalini, 1986; Henze, 1986) e da representacao hierarquica

introduzida por Diebolt and Robert (1994) dos modelos de misturas finitas.

Com o intuito de modelar adequadamente conjuntos de dados oriundos de uma classe ou di-

versas classes com observacoes assimetricas, Lin, Lee and Yen (2007) e Lin, Lee and Hsieh (2007)

propoem uma metodologia para estimacao por maxima verossimilhanca de modelos de misturas fi-

nitas da skew -normal e skew -t com base em algoritmos do tipo EM (Dempster et al., 1977). Basso

14

Page 16: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

et al. (2010) e Cabral et al. (2012), por sua vez, estendem essas ideias para modelos de misturas

finitas baseados em misturas de escala skew -normal (Branco and Dey, 2001, MESN). A primeira

proposta a ser apresentada neste trabalho, consiste, portanto, no desenvolvimento, sob uma pers-

pectiva bayesiana, de modelos de misturas finitas de misturas de escala skew -normal univariada e

multivariada. Em outras palavras, sera proposta uma extensao do trabalho desenvolvido por Basso

et al. (2010) e Cabral et al. (2012) a partir das ideias apresentadas por Fruhwirth-Schnatter and

Pyne (2010).

Em um grande numero de aplicacoes, no entanto, o pesquisador esta tambem interessado em

entender a relacao entre observacoes de uma variavel aleatoria Y e um conjunto de variaveis ex-

plicativas ou covariaveis (x1, . . . , xp). Neste contexto, os modelos de misturas finitas de regressoes

possibilitam investigar a associacao entre variaveis oriundas de diferentes grupos homogeneos e

desconhecidos. Esta classe de modelos e amplamente utilizada em areas como marketing (DeSarbo

and Cron, 1988; DeSarbo et al., 1992) e economia (Cosslett and Lee, 1985; Hamilton, 1989). Em

estudo recente, Zeller et al. (2016) introduz os modelos de misturas de regressoes com base em

misturas de escala skew -normal como uma forma atrativa de lidar com assimetria e caudas pesa-

das. A segunda proposta consiste, portanto, no desenvolvimento de uma metodologia bayesiana

para o trabalho apresentado por Zeller et al. (2016). Assim como na primeira proposta, as ideias

apresentadas por Fruhwirth-Schnatter and Pyne (2010) serao utilizadas.

1.2 Organizacao do Trabalho

Esta dissertacao de mestrado esta dividida em mais cinco capıtulos. No capıtulo 2, um breve

resumo sobre os principais elementos de inferencia bayesiana a serem utilizados neste trabalho e

feito. Dessa forma, topicos como estimacao pontual e estimacao intervalar sao levantados, alem dos

metodos de Monte Carlo via cadeias de Markov. Por ultimo, alguns criterios de selecao de modelos

sao apresentados.

O capıtulo 3 consiste na apresentacao dos dois grandes conteudos que sao trabalhados nesta

dissertacao: misturas finitas e misturas de escala skew -normal. Inicialmente, definicoes basicas

para modelos de misturas finitas sao expostas. Na sequencia, questoes importantes no contexto

15

Page 17: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

de misturas sao levantadas, dessa forma, temas como identificabilidade, ampliacao de dados e label

switching sao trabalhados. Por fim, a atencao e totalmente voltada para a famılia de distribuicoes

MESN, tanto para variaveis univariadas quanto para multivariadas.

No capıtulo 4, os modelos de misturas finitas de misturas de escala skew -normal serao estudados.

Para tal, uma descricao dos modelos e feita e todo desenvolvimento de inferencia bayesiana e

realizado. Posteriormente, um estudo com dados simulados para os casos univariado e multivariados

e implementado. Em seguida, dois conjuntos de dados sao analisados, dados de ındices de massa

corporea e dados de indicadores suıcos de fetilidade e socioeconomicos.

Por sua vez, o capıtulo 5 lida com os modelos de misturas de regressoes com base em misturas de

escala skew -normal. O mesmo segue uma estrutura semelhante a apresentada no capıtulo anterior,

no entanto, neste, o conjunto de dados a ser trabalhado refere-se a percepcao musical. Finalizando,

as conclusoes e as perspectivas futuras sao apresentadas no capıtulo 6.

16

Page 18: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Capıtulo 2

Elementos de Inferencia Bayesiana

Este capıtulo tem como objetivo abordar topicos de inferencia bayesiana relevantes para o desen-

volvimento desta dissertacao. Assim, a secao 2.1 introduz conceitos basicos de inferencia bayesiana

e questoes relacionadas com o problema de estimacao pontual e intervalar. A secao 2.2 descreve os

metodos de Monte Carlo via cadeias de Markov com foco nos algoritmos de Metropolis-Hastings e

amostrador de Gibbs. Finalmente, a secao 2.3 fornece uma breve revisao dos criterios de selecao de

modelos AIC e BIC. Para maiores detalhes, ver Gamerman and Lopes (2006) e Gamerman et al.

(2014).

2.1 Inferencia Bayesiana

Sob a otica bayesiana, para uma quantidade de interesse θ desconhecida, a incerteza associada a esta

e representada atraves de modelos probabilısticos. Dessa forma, e natural que diferentes analistas

tenham diferentes graus de incerteza sobre θ e traduzam esta incerteza de maneiras distintas.

A vista disso, nao ha distincao entre as quantidades observaveis e os parametros de um modelo

estatıstico, sao todos considerados quantidades aleatorias. Por conseguinte, os procedimentos de

inferencia bayesiana sao caracterizados por utlizar como fonte de informacao para estimacao ou

tomada de decisao sobre θ nao somente o observavel y da variavel aleatoria Y, mas tambem

informacoes externas aos conjuntos de dados observados.

17

Page 19: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Seja θ um vetor de parametros de interesse desconhecido e Θ um espaco parametrico tal que

θ ∈ Θ. Entao, antes do levantamento das observacoes, o analista e capaz de sumarizar seu co-

nhecimento previo sobre as chances de θ em relacao ao espaco Θ, atraves de uma distribuicao de

probabilidade, denominada distribuicao a priori, π(θ), responsavel por descrever as incertezas e

crencas do pesquisador.

A funcao de verossimilhanca, denotada por L(θ; y), descreve toda informacao procedente do

conjunto de dados. Ressalta-se que a funcao de verossimilhanca possui a mesma expressao p(y|θ)

que define o modelo probabilıstico, no entanto, sao objetos matematicos dissemelhantes. Em outras

palavras, o processo de estimacao ou tomada de decisao passa a conjecturar p(y|θ) como funcao

de θ desconhecido e condicional ao vetor de observacoes y.

Uma vez que os dados y contem informacao acerca de θ, e possıvel utilizar as observacoes para

atualizar o conhecimento sobre o parametro, determinando a distribuicao condicional de θ dado y,

a qual denomina-se distribuicao a posteriori de θ e denota-se como π(θ|y). Dessa, forma, atraves

do Teorema de Bayes, tem-se que

π(θ|y) =p(y|θ)π(θ)

p(y), na qual p(y) =

∫p(y|θ)π(θ) dθ. (2.1)

De outro lado, como p(y) nao depende do parametro, e considerada constante em relacao a θ, logo

π(θ|y) ∝ p(y|θ)π(θ). (2.2)

2.1.1 Estimacao Pontual

Considera-se um bom estimador para um parametro aquele no qual o erro e proximo de zero com

alta probabilidade, ou seja, um bom estimador e uma funcao dos dados a qual esperamos estar

proxima do real valor do parametro. A estimacao pontual consiste em calcular uma estimativa θ

para o parametro θ a partir da amostra e de fontes adicionais de informacao sobre o parametro ou

vetor parametrico.

Assume-se, portanto, para cada vetor de parametros θ ∈ Θ e para cada possıvel valor do vetor

de estimativas a ∈ Θ, existir uma funcao L(θ,a) responsavel por medir a perda associada ao se

estimar o verdadeiro valor de θ. Suponha agora que π(θ|y) seja a distribuicao a posteriori de

18

Page 20: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

θ e deseja-se estimar o valor do parametro ao se observar os dados de uma amostra aleatoria.

Considerando que o analista escolhe o vetor de estimativas pontuais a, sua perda esperada e dada

pela equacao

E[L(θ,a)] =

∫ΘL(θ,a)p(θ|y)dθ. (2.3)

Uma regra de decisao a∗ e otima se apresentar risco mınimo, ou seja, R(a∗) < R(a), ∀a. Essa

regra e denominada regra de Bayes e seu risco e chamado de risco de Bayes. Por sua vez, os

estimadores a∗ obtidos atraves da minimizacao do risco esperado a posteriori sao conhecidos como

estimadores de Bayes. As funcoes perda mais comumente utilizadas e seus respectivos estimadores

sao:

• Funcao perda quadratica: L(θ,a) = (θ − a)′(θ − a);

Media a posteriori: θ = E[θ|y]

• Funcao perda absoluta: L(θ,a) = ||(θ − a)||;

Mediana a posteriori: θ tal que∫ θ−∞ π(θ|y)dθ = 0.5

• Funcao perda 0-1: L(θ,a) =

k, se ||(θ − a)|| > ε

0, se ||(θ − a)|| ≤ ε, na qual, usualmente, assume-se k = 1;

Moda a posteriori: θ tal que π(θ|y) = supθ∈Θπ(θ|y)

2.1.2 Estimacao Intervalar

Realizar uma estimacao pontual, em muitos casos, pode nao ser o adequado, isto deve-se ao fato

de toda informacao estar sendo resumida por um unico valor. Descrever a incerteza associada a

uma estimativa referente ao parametro de interesse e tambem um topico importante na atividade

do analista. Vincular as estimativas pontuais aos seus graus de precisao e, portanto, de grande

relevancia em estudos parametricos. Neste contexto, a distribuicao a posteriori desempenha papel

expressivo, pois, atraves desta, pode-se encontrar um intervalo para θ no qual ha maior concentracao

de massa de probabilidade.

19

Page 21: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Definicao 1. Seja θ uma quantidade desconhecida definida em Θ. Uma regiao C ∈ Θ e um

intervalo 100(1−α)% de credibilidade para θ se P (θ ∈ C|y) > 1−α. Neste caso, 1−α e chamado

nıvel de credibilidade.

Definicao 2. Um intervalo 100(1−α)% de credibilidade de maxima densidade a posteriori (HPD,

abreviacao do ingles de High Posterior Density) para θ e o intervalo 100(1−α)% de credibilidade C

dado por C = θ ∈ Θ : p(θ|y) > k(α) no qual k(α) e a maior constante tal que P (θ ∈ C|y) > 1−α.

2.2 Metodos de Monte Carlo via cadeias de Markov

Os metodos de Monte Carlo via cadeias de Markov (MCMC) compoem um poderoso ferramental

para geracao de amostras de distribuicoes com grau de complexidade nao trivial, mas cuja funcao

densidade de probabilidade seja conhecida, exceto, talvez, a menos da constante de normalizacao.

Esses metodos sao importantes e podem ser aplicados em diversos problemas estatısticos, especial-

mente, em modelagem bayesiana.

Considere uma sequencia de variaveis aleatorias θ(t) que variam em intervalos equidistantes t,

t = 1, 2, . . . , T , na qual θ(0) representa alguma condicao inicial. A distribuicao de θ(t+1) depende

apenas de θ(t), ou seja, e gerada condicionalmente da distribuicao p(θ(t+1)|θ(t)). Denomina-se

cadeias de Markov, o processo estocastico gerador dessa sequencia de variaveis aleatorias. A con-

vergencia da distribuicao de θ(t) para uma distribuicao estacionaria esta relacionada a tres propri-

edades da cadeia: ser irredutıvel, aperiodica e positiva recorrente. Esta ultima garante que se θ(t)

e gerado a partir de uma distribuicao estacionaria, entao θ(t+1),θ(t+2), . . . ,θ(T ) tambem o serao.

2.2.1 Metropolis-Hastings

Seja θ um vetor parametrico tal que θ ∈ Θ. Suponha que deseja-se gerar uma sequencia θ(0),

θ(1), . . . ,θ(T ) com distribuicao limite p(θ) a partir de uma cadeia de Markov irredutıvel e aperiodica

com funcao de transicao q : Θ → [0,+∞). Usualmente, costuma-se fazer referencia a funcao de

transicao q como densidade proposta. O algoritmo de Metropolis-Hastings utiliza, por conseguinte,

a ideia de que um valor e gerado a partir de uma densidade proposta e aceito com uma dada

20

Page 22: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

probabilidade. O algoritmo de Metropolis-Hastings, portanto, gera sucessivas amostras a partir

dos passos descritos abaixo:

Algoritmo 1. Algoritmo de Metropolis-Hastings.

1. Arbitrar um valor inicial para θ, denotado por θ(0);

2. Gerar θprop ∼ q(θ | θ(t−1));

3. Aceita-se o ponto gerado no passo anterior com probabilidade:

α = min1, p(θprop)

p(θ(t−1))

q(θ(t−1)|θprop)q(θprop|θ(t−1))

4. Gerar u ∼ U(0, 1);

5. Se α > u, entao θ(t) = θprop, caso contrario, θ(t) = θ(t−1);

6. Repetir os passos 2 a 5 um numero T suficientemente grande de vezes ate que a convergencia

seja obtida.

2.2.2 Amostrador de Gibbs

Considera-se a distribuicao a posteriori π(θ|y) = π(θ1, θ2, . . . , θd|y) como sendo a de interesse

(alvo). Denominando a distribuicao πj(θj |θ1, . . . , θj−1, θj+1, . . . , θd,y) como condicional completa

de θj e tomando tal distribuicao como proporcional ao produto entre funcao de verossimilhanca

e a distribuicao a priori, obtem-se πj(θj |θ1, . . . , θj−1, θj+1, . . . , θd,y) ∝ p(y,θ) para todo j. O

amostrador de Gibbs, como caso particular do algoritmo de Metropolis-Hastings, e, portanto, capaz

de gerar sucessivas amostras das distribuicoes condicionais completas da seguinte forma:

Algoritmo 2. Amostrador de Gibbs.

1. Arbitrar um valor inicial para cada θj, definindo θ(0) = (θ(0)1 , ..., θ

(0)d ).

21

Page 23: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

2. Obter um novo valor para θ(t) = (θ(t)1 , ..., θ

(t)d ) pela geracao sucessiva das distribuicoes condi-

cionais completas:

θ(t)1 ∼ π1(θ1|θ(t−1)

2 , ..., θ(t−1)d ),

θ(t)2 ∼ π2(θ2|θ(t)

1 , θ(t−1)3 , θ

(t−1)4 ..., θ

(t−1)d ),

...

θ(t)d ∼ πd(θd|θ

(t)1 , ..., θ

(t)d−1)

3. Repetir o passo 2 um numero T suficientemente grande de vezes ate que a convergencia seja

obtida.

2.3 Criterios de Selecao de Modelos

Os criterios de selecao de modelos descritos nesta secao podem ser utilizados em diferentes aplicacoes,

desde a comparacao entre modelos, como tambem determinacao do numero K de componentes em

contextos de misturas finitas. Vale ressaltar que esses criterios nao devem ser empregados como

regra de decisao, mas como uma ferramenta balizadora que traz evidencias sobre qual modelo

pode ser preferıvel em detrimento de outros. Para uma discussao mais detalhada a respeito desses

metodos e outros, ver McLachlan and Peel (2000).

2.3.1 Criterio de Informacao de Akaike - AIC

Seja yi, i = 1, . . . , n, uma amostra aleatoria da variavel Yi. Criterios de informacao para selecao

de modelos podem ser construıdos a partir da log-verossimilhanca e de uma correcao de vies, isto

e,

logL(θ; y)− b(F ), (2.4)

na qual θ e uma estimativa pontual para o parametro θ, F e a verdadeira funcao de distribuicao e

b(F ) e o vies calculado da seguinte forma

b(F ) = EF

[1

n

n∑i=1

logf(yi|θ)−∫· · ·∫logf(y1, . . . ,yn|θ)dF (y1, . . . ,yn)

]. (2.5)

22

Page 24: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

A ideia, portanto, e escolher o modelo mais adequado segundo criterio que maximize a relacao

presente na equacao (2.4).

Na literatura, entretando, o criterio de informacao e usualmente formado pelo dobro do negativo

da diferenca descrita em (2.4), ou seja,

−2logL(θ; y) + C. (2.6)

Dessa forma, o primeiro termo da relacao presente na equacao (2.6) e responsavel por mensurar a

falta de ajuste do modelo. O segundo termo, por sua vez, consiste numa penalizacao dada de acordo

com a complexidade do modelo. Portanto, o objetivo agora e selecionar o modelo que minimize tal

criterio. Akaike (1974) mostra que b(F ) e assintoticamente igual a d, onde d representa o numero

total de parametros do modelo. Por conseguinte, o criterio de informacao de Akaike seleciona o

modelo que minimiza

−2logL(θ; y) + 2d. (2.7)

2.3.2 Criterio de Informacao Bayesiano - BIC

Seja M o modelo considerado e θ ∈ Θ o parametro deste. Considere a seguinte verossimilhanca

obtida a partir da integracao no espaco de parametros condicional ao modelo M :

p(y|M) =

∫p(y|M,θ)π(θ|M)dθ

=

∫exp [log(p(θ; y))] dθ, (2.8)

na qual p(y|M,θ) representa a verossimilhanca do modelo M e π(θ|M) a probabilidade a priori

de θ. Aproximando a integral (2.8) atraves de uma serie de Taylor de segunda ordem em torno do

ponto θ = θ, na qual θ e a moda a posteriori satisfazendo ∂log(p(θ; y))/∂θ = 0, obtem-se

log(p(θ; y)) ≈ log(p(θ; y))− 1

2(θ − θ)TH(θ)(θ − θ), (2.9)

onde H(θ) e a matriz hessiana de log(p(θ; y)) calculada em θ. Os termos de primeira ordem da

serie se anulam ja que θ e a moda. Substituindo a relacao (2.9) em (2.8), observa-se, a menos de

23

Page 25: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

uma constante normalizadora, a densidade de uma normal com media θ e matriz de covariancias

H(θ), ou seja,

p(y|M) = exp[log(p(θ; y))

] ∫exp

(−1

2(θ − θ)TH(θ)(θ − θ)

)dθ

= p(θ; y)(2π)d/2|H(θ)|−1/2. (2.10)

Portanto a log-verossimilhanca e aproximada por

log(p(y|M)) ≈ log(L(θ; y)) + log(π(θ))− 1

2log|H(θ)|+ 1

2d log(2π). (2.11)

Uma variacao da equacao (2.11) consiste em substituir θ pelo estimador de maxima verossimi-

lhanca θ e a matriz hessiana pela matriz de informacao de Fisher

log(p(y|M)) ≈ log(L(θ; y)) + log(π(θ))− 1

2log|I(θ,y)|+ 1

2d log(2π). (2.12)

Essa aproximacao assume que a priori e muito difusa e seu efeito pode ser ignorado. Dessa forma,

o criterio de informacao bayesiano de Schwarz (1978) e obtido ignorando os termos de primeira

ordem em (2.12) e observando que |I(θ,y)| = O(n8), logo,

BIC = −2logL(θ) + d log(n). (2.13)

24

Page 26: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Capıtulo 3

Preliminares

Este capıtulo tem como objetivo abordar os dois topicos mais relevantes para o desenvolvimento

desta dissertacao: misturas finitas e misturas de escala skew -normal. Para tal intuito, as secoes

3.1 a 3.4 sao voltadas para introducao de alguns conceitos basicos de misturas finitas, entre eles,

os problemas de identificabilidade e de label switching, alem do princıpio ampliacao de dados no

contexto de misturas finitas. Na secao 3.5, por sua vez, sao abordados brevemente topicos referentes

as misturas de escala skew -normal. Para maiores detalhes acerca de misturas finitas ver Fruhwirth-

Schnatter (2006) e Branco and Dey (2001) para pormenores sobre misturas de escala skew -normal.

3.1 Definicoes Basicas

A variavel aleatoria Y e dita proveniente de uma distribuicao de mistura finita se a funcao densidade

de probabilidade p(y) segue a forma de uma densidade de mistura para todo y ∈ Y, isto e,

p(y) = η1p1(y) + . . .+ ηKpK(y), (3.1)

na qual pk(y) e funcao densidade de probabilidade para todo k = 1, . . . ,K, onde K e o numero

de componentes da mistura e os parametros η1, . . . , ηK sao os pesos. Uma unica densidade pk(y)

e denominada densidade da componente e o vetor η = (η1, . . . , ηK) e intitulado vetor de pesos. O

vetor η assume valores no simplex unitario EK tal que EK ⊂ (<+)K , definido pela seguinte restricao

ηK ≥ 0, η1 + . . .+ ηK = 1. (3.2)

25

Page 27: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Assume-se, geralmente, que todas densidades das componentes tem origem na mesma famılia

de distribuicoes parametricas T (θ) com densidade p(y|θ) indexada ao parametro θ ∈ Θ, logo

p(y|ϑ) = η1p(y|θ1) + . . .+ ηKp(y|θK). (3.3)

A funcao densidade p(y|ϑ) da mistura, portanto, e indexada ao vetor parametrico ϑ = (θ1, . . . ,θK ,η)

definido no espaco parametrico ΘK = ΘK ×EK . Isto posto, considera-se que a distribuicao de mis-

turas finitas e irrestrita no sentido que nao sao impostas restricoes sob os parametros θ1, . . . ,θK e

η nao possui restricoes a menos das presentes na equacao (3.2).

3.2 Identificabilidade

Definicao 3. Seja o parametro ϑ definido no espaco parametrico Θ. Uma famılia de distribuicoes

parametricas, indexada pelo parametro ϑ e definida sobre o espaco amostral Y, e dita identificavel

se para quaisquer parametros ϑ e ϑ∗ em Θ que definam a mesma lei de probabilidade em Y, entao

ϑ e ϑ∗ sao identicos.

Considerando a definicao acima, em termos das correspondentes funcoes densidade de proba-

bilidade p(y|ϑ) e p(y|ϑ∗), isto significa que se as densidades sao identicas para quase todo y ∈ Y,

entao os parametros ϑ e ϑ∗ necessitam ser identicos, isto e,

p(y|ϑ) = p(y|ϑ∗) para quase todo y ∈ Y → ϑ = ϑ∗. (3.4)

Caso para quaisquer parametros ϑ e ϑ∗ distintos e definidos em Θ, as funcoes densidade de proba-

bilidade p(y|ϑ) e p(y|ϑ∗) sao identicas para quase todo y ∈ Y, entao esta famılia de distribuicoes

e nao identificavel. Logo, qualquer subconjunto U(ϑ) em Θ, definido como

U(ϑ) = ϑ∗ ∈ Θ : p(y|ϑ∗) = p(y|ϑ), para quase todo y ∈ Y, (3.5)

contendo mais de um ponto em Θ e denominado conjunto nao identificavel.

No contexto de modelos de misturas finitas, e possıvel destacar duas causas principais para nao

identificabilidade: nao identificabilidade devido ao fato da distribuicao da mistura ser invariante

com relacao a mudanca na etiqueta das componentes e nao identificabilidade em casos de excesso

de componentes.

26

Page 28: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

3.2.1 Invariancia com relacao a mudanca na etiqueta das componentes

Considere uma distribuicao de mistura finita com K componentes como definida em (3.3). Existem

s = 1, . . . ,K! equivalentes arranjos para essas componentes, os quais podem ser descritos pelas

permutacoes ρs : 1, . . . ,K → 1, . . . ,K, ρs(k) correspondente a cada valor k ∈ 1, . . . ,K.

Seja ϑ = (θ1, . . . ,θK , η1, . . . , ηK) um ponto arbitrario no espaco parametrico ΘK = ΘK × EK ,

defina UP (ϑ) ⊂ ΘK tal que

UP (ϑ) =K!⋃s=1

ϑ∗ ∈ ΘK : ϑ∗ = (θρs(1), . . . ,θρs(K), ηρs(1), . . . , ηρs(K)). (3.6)

Verifica-se que qualquer ponto ϑ∗ ∈ UP (ϑ) gera uma mesma distribuicao de mistura que ϑ, isto e,

p(y|ϑ) = η1p(y|θ1) + . . .+ ηKp(y|θK) (3.7)

= ηρs(1)p(y|θρs(1)) + . . .+ ηρs(K)p(y|θρs(K)) = p(y|ϑ∗). (3.8)

Portanto, para cada ϑ ∈ ΘK no qual pelo menos dois vetores parametricos θk e θl sao diferentes

em pelo menos um elemento, UP (ϑ) e um conjunto nao identificavel em ΘK .

3.2.2 Excesso de componentes

Considere uma distribuicao de mistura finita com K − 1 componentes como definida em (3.3).

Seja ϑK−1 = (θ(K−1)1 , . . . ,θ

(K−1)K−1 , η

(K−1)1 , . . . , η

(K−1)K−1 ) um ponto arbitrario no espaco parametrico

ΘK−1 = ΘK−1 × EK−1, defina UZ(ϑ) ⊂ ΘK = ΘK × EK tal que

UZ(ϑK−1) =K⋃k=1

(K−1)!⋃s=1

ϑ ∈ ΘK : ηk = 0,θk ∈ Θ, (3.9)

(θ1, . . . ,θk−1,θk, . . . ,θK) = (θ(K−1)ρs(1) , . . . ,θ

(K−1)ρs(K) ), (3.10)

(η1, . . . , ηk−1, ηk, . . . , ηK) = (η(K−1)ρs(1) , . . . , η

(K−1)ρs(K) ). (3.11)

Logo, UZ(ϑK−1) contem misturas com K componentes, sendo uma destas nula e as demais K − 1,

definidas por ϑK−1.

Conclui-se, portanto, que o conjunto UZ(ϑK−1) e nao identificavel no espaco parametrico Θ ja

que contem uma infinidade de parametros ϑ capazes de gerar a mesma distribuicao de mistura, ou

27

Page 29: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

seja,

p(y|ϑ) =K∑

j=1,j 6=kηjp(y|θj) =

K∑j=1

η(K−1)j p(y|θ(K−1)

j ). (3.12)

De fato, o conjunto UZ(ϑK−1) integra um conjunto UZ(ϑK−1) ∪ UE(ϑK−1) nao identificavel

ainda maior. A vista disso, defina

UE(ϑK−1) =K−1⋃k=1

(K−1)!⋃s=1

ϑ ∈ ΘK : ηk + ηK = η(K−1)ρs(k) ,θK = θ

(K−1)ρs(k) , (3.13)

(θ1, . . . , . . . ,θK−1) = (θ(K−1)ρs(1) , . . . ,θ

(K−1)ρs(K−1)), (3.14)

(η1, . . . , ηk−1, ηk+1, . . . , ηK) = (η(K−1)ρs(1) , . . . , η

(K−1)ρs(k−1), η

(K−1)ρs(k+1), . . . , η

(K−1)ρs(K−1)), (3.15)

conjunto contendo misturas com K componentes, no qual duas densidades de componentes sao

iguais e obtidas a partir da mistura definida por ϑK−1 atraves da separacao de uma componente

em duas. Novamente, UE(ϑK−1) e nao identificavel no espaco parametrico Θ ja que contem um

infinidade de parametros ϑ capazes de gerar a mesma distribuicao de mistura, ou seja,

p(y|ϑ) =K−1∑

j=1,j 6=kηjp(y|θj) + (ηk + ηK)p(y|θk) =

K−1∑j=1

η(K−1)j p(y|θ(K−1)

j ). (3.16)

3.3 Ampliacao de Dados

Seja S = (S1, . . . ,Sn) o vetor de alocacoes, isto e, o vetor contendo a informacao sobre em qual

grupo a observacao yi, i = 1, . . . , n, da variavel aleatoria Yi encontra-se. Considere, portanto,

Si = (Si1, . . . , SiK)> uma variavel indicadora na qual

Sik =

1, se Yi pertence a componente k

0, caso contrario

(3.17)

e∑K

k=1 Sik = 1. Dessa forma, condicional ao vetor de pesos η, as variaveis latentes S1, . . . ,Sn sao

independentes com densidade multinomial

p(Si|η) = ηSi11 ηSi2

2 . . . (1− η1 − · · · − ηK−1)SiK . (3.18)

28

Page 30: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Alem disso, a densidade conjunta de Y = (Y1, . . . ,Yn) e S = (S1, . . . ,Sn) e dada por

p(y, s|ϑ) =K∏k=1

n∏i=1

[ηkp(yi|θk)]Sik . (3.19)

Isto posto, sendo o vetor de alocacoes S nao observavel, portanto, desconhecido, segundo

Dempster et al. (1977), o modelo de misturas finitas pode ser visto como um problema de da-

dos incompletos atraves da introducao da variavel latente S. Como descrito em Tanner and Wong

(1987), em vista dessa tecnica de ampliacao de dados, condicional no vetor de alocacoes S, a

estimacao dos parametros pode ser executada independentemente para cada θk e para os pesos η.

3.4 Label Switching

Introduzido por Redner and Walker (1984) no contexto de modelos de misturas finitas, o termo label

switching faz referencia a invariancia da funcao de verossimilhanca quanto a mudanca na estiqueta

das componentes da mistura. Considerando processos de estimacao por maxima verossimilhanca,

nos quais busca-se encontrar os argumentos maximos correspondentes na funcao de verossimilhanca,

a questao de label switching nao e um objeto de interesse. Sob o ponto de vista bayesiano, no

entanto, trata-se de um topico relevante, ja que as etiquetas das categorias nao observadas mudam

durante o processo de amostragem da distribuicao a posteriori da mistura.

Portanto, sob a otica bayesiana, se a informacao a priori nao possibilita a discriminacao das

componentes da mistura, as distribuicoes a posteriori serao invariantes com relacao a todas per-

mutacoes possıveis de etiquetas. Consequentemente, os estimadores ergodicos obtidos atraves de

metodos de Monte Carlo via cadeias de Markov e gerados a partir de amostras das distribuicoes a

posteriori nao terao significado. Diante de tal desafio, a abordagem mais usual e impor restricoes

de ordem artificiais nos parametros do modelo, entretanto, escolhas distantes da realidade podem

implicar em resultados insatisfatorios.

Dessa forma, algoritmos mais sofisticados estao reportados na literatura. Stephens (2000), por

exemplo, mede a similaridade da distribuicao a posteriori do vetor de alocacoes atraves da funcao

perda de Kullback-Leibler. Yao and Lindsay (2009) propoe um algoritmo que usa cada amostra

do MCMC como um ponto inicial e etiqueta a amostra baseado na moda a posteriori para a qual

29

Page 31: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

o algoritmo convergiu. Papastamoulis and Iliopoulos (2010) sugere uma classe de equivalencia

representativa para reduzir distribuicoes a posteriori simetricas em assimetricas. Neste trabalho,

optou-se por utilizar o metodo proposto por Stephens (2000).

3.4.1 Algoritmo KL

Suponha que se deseja utilizar o modelo de misturas finitas para separar as observacoes em K

grupos e como indicativo sobre a incerteza associada neste processo de separacao. Um caminho

natural para tal e reportar uma matriz Q = (qik), i = 1, . . . , n e k = 1, . . . ,K, na qual qik representa

a probabilidade de que a observacao i pertenca ao grupo k, logo∑K

k=1 qik = 1. Interpretando as

linhas de Q como vetores independentes de probabilidade, entao Q corresponde a distribuicao da

separacao dos dados em K grupos.

Considere que P (ϑ) denota a matriz construıda a partir das probabilidades de classificacao

(pij(ϑ)) na qual

pij(ϑ) = Pr(Si = j|yi,ϑ) =f(yi|θj)Pr(Si = j|ϑ)∑Kk=1 f(yi|θk)Pr(Si = k|ϑ)

. (3.20)

Uma opcao natural para medir a perda ao reportar Q quando os verdadeiros valores para os

parametros sao ϑ se da atraves da divergencia de Kullback-Leibler entre a distribuicao verdadeira

P (ϑ) e a distribuicao Q:

L0(Q;ϑ) =K∑

k1=1

· · ·K∑

kn=1

p1k1(ϑ) . . . pnk1(ϑ) log

[p1k1(ϑ) . . . pnk1(ϑ)

q1k1 . . . qnkn

](3.21)

=n∑i=1

K∑k=1

pik(ϑ) log

[pik(ϑ)

qik

]. (3.22)

Algoritmo 3. Algoritmo KL.

1 Escolher valores iniciais para ρS(1), . . . , ρS(T ) (permutacoes identidade por exemplo), T

numero de iteracoes do MCMC descontado o perıodo de aquecimento;

2 Encontrar Q = (qik) que minimize:

T∑t=1

n∑i=1

K∑k=1

pik

(t)ρS(t)

]log

pik[ϑ

(t)ρS(t)

]qik

; (3.23)

30

Page 32: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

3 Para t = 1, . . . , T , encontrar ρS(t) que minimize:

n∑i=1

K∑k=1

pik

(t)ρS(t)

]log

pik[ϑ

(t)ρS(t)

]qik

; (3.24)

3 Repetir os passos 2 e 3 ate que um ponto fixo seja alcancado.

E possıvel mostrar que o passo 1 e atingido para qik = 1T

∑Tt=1 pij

(t)ρS(t)

]. Alem disso, o passo

2 e mais facilmente atingido examinando todas K! possibilidades para cada ρS(t).

3.5 Misturas de Escala Skew-Normal

Nesta secao, a classe de distribuicoes de misturas de escala skew -normal (Branco and Dey, 2001,

MESN) e introduzida. Primeiramente, a distribuicao skew -normal e descrita e, entao, uma versao

multivariada e derivada. Em um segundo momento, com base na representacao estocastica, a classe

de distribuicoes MESN e apresentada, com destaque para as distribuicoes skew -t e skew -slash. Por

fim, uma reparametrizacao e definida.

3.5.1 Distribuicao Skew-Normal

Seguindo a definicao estabelicida por Azzalini (1986), uma variavel aleatoria Z segue uma distri-

buicao skew -normal, Z ∼ SN(µ, σ2, λ), se sua funcao densidade de probabilidade e dada por

fZ(z) =2

σφ

(z − µσ

(z − µσ

)), z ∈ <, (3.25)

onde φ(·) e Φ(·) sao, respectivamente, a funcao densidade de probabilidade (fdp) e a funcao de

distribuicao acumulada (fda) da normal padrao. Ademais, (µ, σ2, λ) ∈ <×<+×< sao os parametros

de locacao, escala e assimetria respectivamente.

Lema 1. Uma variavel aleatoria Z ∼ SN(µ, σ2, λ) possui representacao estocastica dada por

Z = µ+ σδW + σ√

1− δ2ε, (3.26)

onde W ∼ TN[0,∞)(0, 1) e ε ∼ N(0, 1) sao independentes e δ = λ/(√

1 + λ2). TNA(·, ·) e N(·, ·)

denotam a normal truncada no intervalo A e a distribuicao normal respectivamente.

31

Page 33: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Azzalini and Dalla Valle (1996) propoe uma versao multivariada da distribuicao skew -normal

por meio de uma generalizacao da representacao estocastica descrita pela equacao (3.26). Seja

V = (V1, . . . , Vq)′ ∈ <q tal que Vj = δjW +

√1− δ2εj , j = 1, . . . , q, onde W ∼ NT[0,+∞)(0, 1) e

ε = (ε1, . . . , εq)′ ∼ Nq(0,Σε) sao independentes e δj ∈ (−1, 1). Nq(·, ·) denote a distribuicao normal

multivariada. Logo, a transformacao Z = µ + σV com parametro de locacao µ = (µ1, . . . , µq)′ ∈

<q e matrix escala diagonal σ =Diag(σ1, . . . , σq), σj > 0, e imediatamente associada a seguinte

representacao estocastica

Zj = µj + σjδjW + σj

√1− δ2

j εj . (3.27)

A distribuicao resultante e denominada distribuicao skew -normal multivariada basica, Z ∼

SNq(µ,Σ,λ), com densidade

fZ(z) = 2φq(z− µ; Σ)Φ(λ′σ−1(z− µ)), (3.28)

onde φq(·) e a funcao distribuicao de probabilidade da normal padrao multivariada. E possıvel

relacionar λ e Σ aos parametros δ = (δ1, . . . , δq)′, σ e Σε na representacao estocastica (3.27)

atraves de

Σ = σΣσ, λ =1√

1− δ′δΣ−1δ, (3.29)

na qual Σ = ∆Σε∆+δδ′

e ∆ =Diag(√

1− δ21 , . . . ,

√1− δ2

q ). Alem disso, Σjj = (1− δ2j )(Σε)jj +

δ2j = 1, entao Σjj = ω2

j , consequentemente, Σ e a matriz de correlacao.

Considerandos os parametros (µ,Σ,λ), os parametros (δ,σ,Σε) na representacao estocastica

(3.27) sao obtidos atraves de

δ =1

1 + λ′Σλ

Σλ, Σε = ∆−1Σ∆−1 − λλ′, (3.30)

onde Σ = σ−1Σσ−1, σ =Diag(Σ)1/2 matriz diagonal obtida a partir dos elementos da diagonal de

Σ, λ = (λ1, . . . , λ1) na qual λj = δj/√

1− δj e ∆ como previamente definido.

3.5.2 Distribuicoes de Misturas de Escala Skew-Normal

Seja Z uma variavel aleatoria tal que Z ∼ SN(0, σ2, λ). Uma variavel aleatoria Y e da classe de

distribuicoes de misturas de escala skew -normal, Y ∼MESN(µ, σ2, λ,H), se puder ser escrita da

32

Page 34: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

seguinte forma

Y = µ+ k1/2(U)Z, (3.31)

onde µ, k(·) e U sao, respectivamente, o parametro de locacao, uma funcao peso positiva e uma

variavel aletoria com funcao de distribuicao acumulada H(·;ν) e funcao densidade de probabilidade

h(·;ν) na qual ν e um escalar ou vetor de parametros indexados pela distribuicao de U .

Lema 2. Uma variavel aleatoria Y ∼ MESN(µ, σ2, λ,H) possui representacao estocastica dada

por

Y = µ+ σδk1/2(U)W + k1/2(U)σ√

1− δ2ε, (3.32)

onde W ∼ TN[0,+∞)(0, 1) e ε ∼ N(0, 1) sao independentes e δ = λ/(√

1 + λ2).

Proposicao 1. Seja Y uma variavel aleatoria tal que Y ∼MESN(µ, σ2, λ,H) e seja U ∼ H um

fator misturador de escala aleatorio, entao

E[Y ] = µ+

√2

πm1∆, if E[U−1/2] <∞ (3.33)

V ar[Y ] = m2σ2 − 2

πm2

1∆2, if E[U−1] <∞, (3.34)

onde ∆ = σδ and mj = E[U−j/2].

Uma variavel aleatoria Y pertence a classe de distribuicoes de misturas de escala skew -normal

multivariada, Y ∼MESNq(µ,Σ,λ, H), se puder ser escrita como

Y = µ+ k1/2(U)Z, (3.35)

onde Z ∼ SNq(0,Σ,λ).

Ao longo deste trabalho, a metodologia desenvolvida esta restrita aos casos em que k(U) = U−1.

Como mencionado anteriormente, a classe de distribuicoes MESN engloba uma famılia de distri-

buicoes assimetricas e de caudas pesadas, incluindo as distribuicoes skew -normal, skew -t e skew -

slash, as quais sao obtidas, respectivamente, escolhendo as variaveis de mistura como: U = 1,

U ∼ G(ν2 ,ν2 ) e U ∼ Be(ν, 1), onde G(·, ·) e Be(·, ·) indicam as distribuicoes gama e beta respecti-

vamente.

33

Page 35: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

3.5.3 Reparametrizacao

Seguindo Fruhwirth-Schnatter and Pyne (2010), com o intuito de obter condicionais completas

de forma fechada na secoes seguintes, uma parametrizacao em termos de θ∗ = (µ, ψ, τ2, ν) sera

aplicada para as distribuicoes de misturas de escala skew -normal, dessa forma, a representacao

estocastica dada pela equacao (3.32) e reescrita como

Y = µ+ ψk1/2(U)W + k1/2(U)τε, (3.36)

onde ψ = σδ e τ2 = σ2(1− δ2). O vetor parametrico original θ = (µ, σ2, λ, ν) pode ser recuperado

atraves de

λ =ψ

τ, σ2 = τ2 + ψ2. (3.37)

Introduzindo o novo vetor parametrico θ∗ = (µ,ψ,Ω, ν), e igualmente possıvel encontrar uma

representacao semelhante para o caso de distribuicoes de misturas de escala skew -normal multiva-

riada:

Y = µ+ψW + ε, (3.38)

onde ψ = (ψ1, . . . , ψp)′, ψj = σjδj , Ω = Σ − ψψ′ , ε ∼ Np(0, k

1/2(U)Ω) e W |U = u ∼

TN[0,+∞)(0, k1/2(u)). O vetor parametrico original θ = (µ,Σ,λ, ν) e recuperado atraves de

Σ = Ω +ψψ′, λ =

1√1−ψ′Σ−1ψ

σΣ−1ψ, (3.39)

lembrando que σ =Diag(Σ)1/2 e a matriz diagonal obtida a partir dos elementos da diagonal de Σ.

34

Page 36: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Capıtulo 4

Misturas Finitas de Misturas de

Escala Skew-Normal

4.1 Introducao

Este capıtulo e dedicado ao desenvolvimento e implementacao da primeira proposta deste trabalho.

Para tal efeito, a secao 4.2 introduz a especificacao do modelo de misturas finitas de misturas

de escala skew -normal (FM-MESN), a secao 4.3 descreve todo o arcabouco bayesiano necessario.

Posteriormente, a secao 4.4 apresenta uma analise com dados artificiais. Finalmente, na secao 4.5

sao apresentadas duas aplicacoes: uma univariada e outra bivariada, focando, em ambos casos, nos

modelos de misturas finitas de skew -normal (FM-SN), de misturas finitas de skew -t (FM-ST) e de

misturas finitas de skew -slash (FM-SSL). Por ultimo, na secao 4.6, algumas consideracoes finais

sao levantadas.

4.2 O Modelo

Considere um modelo de misturas finitas comK componentes (K > 1) no qual o conjunto y1, . . . ,yn

tem origem numa mistura de distribuicoes MESNq dada por

f(yi|ϑ,η) =K∑k=1

ηkg(yi|θ∗k), (4.1)

35

Page 37: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

onde ηk > 0, k = 1, . . . ,K,∑K

k=1 ηk = 1 e g(·|θ∗k) denota a fdp de uma MESNq(θ∗k). Tambem, ϑ e

η denotam os parametros desconhecidos, onde ϑ = (θ∗1, . . . ,θ∗K) e η = (η1, . . . , ηK). De acordo com

a reparametrizacao introduzida na subsecao 3.5.3, θ∗k = (µk, ψk, τ2k , νk) ou θ∗k = (µk,ψk,Ωk, νk)

sao os parametros especıficos da componente k para q = 1 ou q ≥ 2 respectivamente. No contexto

de misturas, tal modelo fornece uma base flexıvel de ajuste em amostras coletadas a partir de

populacoes que apresentem heterogeneidade nao observada, alem de assimetria e caudas pesadas.

A partir da introducao do vetor de alocacoes S = (S1, . . . ,Sn) como descrito na subsecao 3.3 e

da estrutura hierarquica que surge com a representacao estocastica e com as variaveis latentes W =

(W1, . . . ,Wn) e U = (U1, . . . , Un), uma variavel aleatoria Yi pertencente a k-esima componente

de um modelo de misturas finitas de misturas de escala skew -normal pode ser escrita da seguinte

forma

Yi|θ∗k, wi, ui, Sik = 1 ∼ Np(µk +ψkwi, u−1i Ωk),

Wi|ui, Sik = 1 ∼ TN[0,+∞)(0, u−1i ), (4.2)

Ui|Sik = 1, νk ∼ h(·;νk).

Portanto, a densidade conjunta de Y e as variaveis latentes S, W e U e

f(y, s,w,u|ϑ,η) =

K∏k=1

[ n∏i=1

[ηkf(yi|θ∗k, wi, ui)f(wi|ui)f(ui|νk)]Sik

]p(s | η). (4.3)

4.3 Inferencia Bayesiana

Na implementacao de uma analise bayesiana, o primeiro passo consiste em selecionar as distribuicoes

a priori. Em modelos de misturas finitas de distribuicoes, e necessaria uma atencao especial nessas

escolhas ja que nao e possıvel optar por prioris improprias, pois as mesmas implicam em densidades

a posteriori tambem improprias (Fruhwirth-Schnatter, 2006). Adicionalmente, como notado por

Jennison (1997), e recomendavel evitar ser tao “nao informativo quanto possıvel”, escolhendo prioris

vagas, porque o numero de componentes e altamente influenciado por tais escolhas. A fim de

contornar esses problemas, como em Fruhwirth-Schnatter and Pyne (2010), foi adotada a estrutura

de prioris hierarquicas, introduzidas por Richardson and Green (1997) para misturas de normais,

com o intuito de reduzir a sensibilidade do modelo quanto a escolha das prioris.

36

Page 38: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Dessa forma, tomando uma componente k arbitraria da mistura, o seguinte conjunto de pri-

oris foi especificado: η ∼ D(e0, . . . , e0), (µk, ψk)|τ2k ∼ N2(b0, τ

2kB0), τ2

k |C0 ∼ IG(c0, C0) e C0 ∼

G(g0, G0), onde e0, b0 ∈ <2, B0 ∈ <2×2, c0, g0 e G0 sao hiperparametros conhecidos, D(·, . . . , ·)

e IG(·, ·) indicam as distribuicoes dirichlet e gama inversa respectivamente. Considerando o caso

multivariado, extensoes da prioris anteriores foram escolhidas: η ∼ D(e0, . . . , e0), (µk,ψk)|Ωk ∼

N2×q(b0,B0,Ωk), Ωk|C0 ∼ IW (c0, C0), C0 = diag(ζ1, . . . , ζp), e ζj ∼ G(g0, G0), j = 1, . . . , q, onde

e0, b0 ∈ <2×q, B0 ∈ <2×2, c0, g0 e G0 sao hiperparametros conhecidos, Np×q(·, ·, ·) e IW (·, ·) deno-

tam as distribuicoes matriz normal e Wishart inversa respectivamente. Por fim, para os parametros

νk, as prioris νk ∼ G(1,∞)(α, γ) e νk ∼ G(1,40)(α, γ), nas quais α e γ sao hiperparametros conhecidos

e GA(·, ·) denota a gama truncada no intervalo A, foram especificadas para os modelos FM-ST e

FM-SSL respectivamente.

A distribuicao conjunta a posteriori dos parametros e das variaveis latentes nao observadas

pode ser escrita como

p(ϑ,η,w,u, s|y) ∝

K∏k=1

[ n∏i=1

[ηkf(yi|θ∗k, wi, ui)f(wi|ui)f(ui|νk)]Sik

]p(θ∗k)

p(s | η)p(η), (4.4)

onde p(θ∗k) = p(µk,ψk|Ωk)p(Ωk|C0)p(C0)p(νk). Como descrito na secao 3.3, condicional no vetor

de alocacoes S, a estimacao dos parametros pode ser executada independentemente para cada

componente parametrica θ∗k e para distribuicao dos pesos. Consequentemente, as distribuicoes

condicionais completas dos parametros e das variaveis latentes para um modelo de misturas finitas

37

Page 39: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

de MESN sao escritas da seguinte forma:

p(η|s) ∝ p(s|η)p(η) (4.5)

p(wi|Sik = 1, · · · ) ∝ [f(yi|θ∗k, wi, ui)f(wi|ui)]Sik , (4.6)

p(ui|Sik = 1, · · · ) ∝ [f(yi|θ∗k, wi, ui)f(wi|ui)f(ui|νk)]Sik , (4.7)

p(µk,ψk| · · · ) ∝∏

i:Sik=1

f(yi|θ∗k, wi, ui)p(µk,ψk|Ωk), (4.8)

p(Ωk| · · · ) ∝∏

i:Sik=1

f(yi|θ∗k, wi, ui)p(Ωk|C0), (4.9)

p(C0| · · · ) ∝K∏k=1

p(Ωk|C0)p(C0), (4.10)

p(νk| · · · ) ∝∏

i:Sik=1

f(ui|νk)p(νk). (4.11)

Detalhes adicionais sobre as distribuicoes condicionais completas estao disponıveis no Apendice A.1

e Apendice A.2.

Com o intuito de tornar a analise bayesiana factıvel quanto a estimacao dos parametros na

classe de modelos FM-MESN, amostras aleatorias das distribuicoes a posteriori de (ϑ,η,w,u, s)

dado y sao extraıdas atraves de metodos de simulacao de Monte Carlo via Cadeias de Markov. O

algoritmo 4 descreve o processo de amostragem a partir das distribuicoes condicionais completas

dos parametros e das variaveis latentes nao observadas. Pos processado o MCMC, com o objetivo

de tratar o problema de label switching, o algoritmo Kullback-Leibler introduzido por Stephens

(2000) e aplicado.

Algoritmo 4. MCMC para misturas finitas de misturas de escala skew-normal.

1 Inicializar t = 1 e estipular os valores para S(0), (θ∗(0)1 , . . . ,θ

∗(0)K ), η(0), w(0) e u(0);

2 Simulacao dos parametros condicionados na classificacao S(t−1):

2.1 Gerar η(t) a partir de p(η|s(t−1));

2.2 Gerar as variaveis latentes w(t)i e u

(t)i de cada componente, i = 1, . . . , n, a partir das

condicionais completas (4.6)-(4.7) e os parametros µ∗(t)k ,ψ

∗(t)k ,Ω

∗(t)k , ν

∗(t)k , k = 1, . . . ,K,

a partir das condicionais completas (4.8)-(4.11).

38

Page 40: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

3 Gerar S(t)i independentemente para cada i = 1, . . . , n a partir de

Pr(Si = j|xi,ϑ) =g(xi|θ∗j )Pr(Si = j|ϑ)∑Kk=1 g(xi|θ∗k)Pr(Si = k|ϑ)

. (4.12)

4 Fazer t = t+ 1 e repetir os 2, 3 e 4 ate a convergencia ser atingida.

4.4 Estudo com Dados Artificiais

A fim de verificar a efetividade do processo de inferencia e algoritmo propostos, um estudo com

dados artificiais e realizado. Com este proposito, amostras dos modelos de misturas finitas de

skew -normal (FM-SN), skew -t (FM-ST) e skew -slash (FM-SSL) sao artificialmente geradas e entao

e verificado se a metodologia adotada e capaz de recuperar o modelo original. Dois estudos serao

de fato propostos, um para o caso univariado e outro para o caso multivariado, no qual serao

trabalhados dados bivariados.

4.4.1 Caso Univariado

Neste caso, um modelo de misturas finitas com K = 2 componentes sera considerado e uma

amostra de 300 observacoes sera tomada. Para o modelo de misturas finitas de skew -normal, os

valores simulados sao (µ1, µ2) = (2,−2), (σ21, σ

22) = (9, 25), (λ1, λ2) = (5,−5) e (η1, η2) = (0.6, 0.4).

Para os modelos de misturas finitas de skew -t e skew -slash, os valores anteriores sao contemplados

e (ν1, ν2) = (8, 4) e adicionado.

O conjunto de hiperparametros das prioris descritas na secao 4.3 consiste em: e0 = 4, b0 = (0, 0),

B0 = Diag(100, 100), c0 = 2.5, g0 = 0.5 + (r − 1)/2, r = 2, G0 = g0(ρSx)−1, ρ = 0.5, no qual

Sx e a variancia amostral. Para os modelos de misturas finitas de skew -t e skew -slash, α = 2 e

γ = 0.1 sao especificados (Juarez and Steel, 2010). Uma simulacao do algoritmo MCMC 4 com

50000 iteracoes foi gerada, as primeiras 10000 foram descartadas como perıodo de aquecimento e,

entao, as 40000 seguintes foram salvas. Com o objetivo de reduzir a autocorrelacao entre valores

sucessivos da cadeia simulada, um espacamento de tamanho 40 foi exigido. Por fim, as estimativas

a posteriori foram realizadas com base numa amostra de tamanho 1000.

39

Page 41: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Tabela 4.1: Resultados para os ajustes dos modelos FM-MESN aos dados artificiais univariados.

ParametrosFM-SN FM-ST FM-SSL

VERDADEIRO 95% VERDADEIRO 95% VERDADEIRO 95%

µ1 2 (1.641,2.195) 2 (1.474,2.318) 2 (1.636,2.442)

µ2 -2 (-2.679,-1.642) -2 (-2.652,-1.633) -2 (-1.998,-0.853)

σ21 9 (6.246,10.486) 9 (4.956,12.648) 9 (6.354,12.537)

σ22 25 (17.850,32.395) 25 (13.463,37.211) 25 (22.548,47.374)

λ1 5 (2.858,8.188) 5 (1.832,6.808) 5 (1.839,7.189)

λ2 -5 (-10.558,-3.350) -5 (-13.614,-3.203) -5 (-12.811,-4.044)

η1 0.6 (0.546,0.654) 0.6 (0.539,0.649) 0.6 (0.538,0.646)

η2 0.4 (0.346,0.453) 0.4 (0.350,0.460) 0.4 (0.353,0.461)

ν1 - - 8 (2.765,19.149) 8 (2.029,26.644)

ν2 - - 4 (1.784,6.846) 4 (1.811,23.300)

A tabela 4.1 resume os resultados obtidos. Esta consiste nos valores ja enumerados anteri-

ormente e no intervalo de credibilidade de maxima densidade a posteriori (HPD, abreviacao do

ingles de high posterior density) a 95%. E possıvel verificar que os intervalos contem os valores

verdadeiros, como conclusao, assume-se que o procedimento desenvolvido e capaz de recuperar os

parametros dos modelos originais.

4.4.2 Caso Multivariado

Novamente, um modelo de misturas finitas com K = 2 componentes sera considerado e uma

amostra de 300 observacoes sera tomada. Para o modelo de misturas finitas de skew -normal mul-

tivariada, (µ11, µ21) = (2,−2), (µ21, µ22) = (2,−2), (Σ1,11,Σ2,11) = (9, 16), (Σ1,12,Σ2,12) = (0, 5),

(Σ1,22,Σ2,22) = (4, 25), (λ11, λ21) = (5,−5), (λ12, λ22) = (5,−5) and (η1, η2) = (0.6, 0.4). Como no

caso univariado, para os modelos de misturas finitas de skew -t e skew -slash, os valores anteriores

sao contemplados e (ν1, ν2) = (8, 4) e adicionado.

O conjunto de hiperparametros das prioris descritas na secao 4.3 consiste em: e0 = 4, b0 =

(0, 0, 0, 0), B0 = Diag(100, 100), c0 = 3, g0 = 0.01 e G0 = 0.01. Para os modelos de misturas finitas

de skew -t e skew -slash, α = 2 e γ = 0.1 sao especificados (Juarez and Steel, 2010). Uma simulacao

do algoritmo MCMC 4 com 50000 iteracoes foi gerada, as primeiras 10000 foram descartadas como

perıodo de aquecimento e, entao, as 40000 seguintes foram salvas. Com o objetivo de reduzir a

40

Page 42: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Tabela 4.2: Resultados para os ajustes dos modelos FM-MESN aos dados artificiais bivariados.

ParametrosFM-SN FM-ST FM-SSL

VERDADEIRO 95% VERDADEIRO 95% VERDADEIRO 95%

µ11 2 (1.299,2.620) 2 (1.670,3.038) 2 (1.084,2.570)

µ12 2 (1.677,2.603) 2 (1.390,2.437) 2 (1.635,2.739)

µ21 -2 (-3.301,-1.105) -2 (-2.145,-0.178) -2 (-2.565,-0.442)

µ22 -2 (-3.064,-0.836) -2 (-4.292,-1.272) -2 (-3.623,-0.960)

λ11 5 (2.164,6.328) 5 (1.936,6.474) 5 (2.233,5.560)

λ12 5 (2.338,6.773) 5 (1.806,6.433) 5 (1.868,5.351)

λ21 -5 (-6.666,-1.465) -5 (-16.256,-4.041) -5 (-9.072,-2.397)

λ22 -5 (-8.531,-2.294) -5 (-10.998,-1.844) -5 (-6.748,-1.702)

Σ1,11 9 (6.486,12.050) 9 (4.980,10.022) 9 (6.441,13.101)

Σ1,12 0 (-1.414,0.539) 0 (-0.837,1.294) 0 (-1.741,0.334)

Σ1,22 4 (3.296,6.134) 4 (2.968,6.162) 4 (2.890,5.971)

Σ2,11 16 (10.961,23.874) 16 (13.729,34.315) 16 (13.879,33.041)

Σ2,12 5 (0.680,10.760) 5 (2.348,14.733) 5 (0.159,11.008)

Σ2,22 25 (16.563,36.986) 25 (14.466,43.108) 25 (13.033,32.327)

η1 0.6 (0.545,0.648) 0.6 (0.543,0.651) 0.6 (0.544,0.651)

η2 0.4 (0.351,0.454) 0.4 (0.348,0.456) 0.4 (0.348,0.455)

ν1 - - 8 (6.567,31.171) 8 (3.118,26.116)

ν2 - - 4 (2.356,9.128) 4 (2.499,23.330)

autocorrelacao entre valores sucessivos da cadeia simulada, um espacamento de tamanho 40 foi

exigido. Por fim, as estimativas a posteriori foram realizadas com base numa amostra de tamanho

1000.

A tabela 4.2 resume os resultados obtidos e, como na secao anterior, contem os valores valores

verdadeiros e os intervalos de credibilidade de maxima densidade a posteriori a 95%. Como no caso

univariado, os intervalos contem os valores verdadeiros e, entao, assume-se que o procedimento

desenvolvido e capaz de recuperar os parametros dos modelos originais.

4.5 Aplicacao

Uma vez realizada a aplicacao dos metodos desenvolvidos para dados artificiais, o proximo passo

e aplicar a metodologia a conjuntos de dados reais. Para tal, dois conjuntos conhecidos no con-

41

Page 43: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

texto de misturas finitas serao analisados. O primeiro, como aplicacao dos modelos univariados

propostos, consiste em ındices de massa corporea (IMC) de uma amostra coletada para estudos nos

Estados Unidos da America. O segundo, como aplicacao dos modelos multivariados, sao dados de

indicadores suıcos socioeconomicos e de fertilidade no ano de 1888.

4.5.1 Indice de Massa Corporea

Nesta aplicacao, o ındice de massa corporea (IMC) de homens com idade entre 18 e 80 anos e

analisado. Este conjunto de dados esta presente em diversos estudos no tema de misturas finitas

como Lin, Lee and Hsieh (2007), Lin, Lee and Yen (2007) e Basso et al. (2010) e tem origem no

exame nacional de saude e nutricao, realizado pelo Centro Nacional para Estatısticas de Saude

(NCHS, abreviacao do ingles de National Center for Health Statistics) vinculado ao Centro para

Controle de Doencas (CDC, abreviacao do ingles de Center for Disease Control) nos Estados

Unidos da America. O IMC, expresso em kg/m2, e a razao entre a massa corporal em kilogramas

e a altura ao quadrado em metros quadrados e e conhecido como uma medida padrao de sobrepeso

e obesidade.

A amostra original consiste em 4579 observacoes de IMC, no entanto, como em Lin, Lee and

Hsieh (2007), Lin, Lee and Yen (2007) e Basso et al. (2010), mirando uma melhor exploracao

das caracterısticas das misturas, sao considerados apenas aqueles participantes com peso entre

[39.50kg, 70.00kg] e [95.01kg, 196.80kg]. Em consequencia, a amostra permanecente e composta por

dois subgrupos: o primeiro formado por 1069 participantes e o segundo, por 1054 participantes.

Isto posto, os modelos univariados FM-SN, FM-ST e FM-SSL serao ajustados aos dados con-

textualizados acima. O conjunto de hiperparametros das prioris foi definido como: e0 = 4,

b0 = (0, 0, 0, 0), B0 = Diag(100, 100), c0 = 3, g0 = 0.01 and G0 = 0.01. Para os modelos de

misturas finitas de misturas de escala skew -normal, α = 2 and γ = 0.1 (Juarez and Steel, 2010)

foram especificados. Assim como nos estudos simulados, 50000 iteracoes do algoritmo MCMC 4

foram geradas, sendo as primeiras 10000 descartadas como perıodo de aquecimento e, entao, as

40000 seguintes salvas. Com o objetivo de reduzir a autocorrelacao entre valores sucessivos da

cadeia simulada, um espacamento de tamanho 40 foi exigido. Por fim, as estimativas a posteriori

42

Page 44: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Tabela 4.3: Resultados para os ajustes dos modelos FM-MESN aos dados de IMC.

ParametrosFM-SN FM-ST FM-SSL

MODA 95% MODA 95% MODA 95%

µ1 21.102 (19.952,22.706) 20.711 (19.732,21.939) 20.695 (19.940,21.600)

µ2 28.296 (27.692,28.732) 29.107 (28.585,29.715) 28.775 (28.292,29.332)

σ21 5.578 (4.484,8.426) 5.705 (4.508,9.434) 5.732 (4.186,8.138)

σ22 64.000 (57.248,71.870) 39.810 (31.529,49.980) 35.927 (27.002,45.219)

λ1 0.305 (-0.601,1.166) 0.647 (-0.251,1.292) 0.605 (0.030,1.159)

λ2 3.286 (2.284,4.131) 2.377 (1.659,3.289) 2.904 (2.178,3.768)

η1 0.484 (0.453,0.513) 0.491 (0.463,0.516) 0.487 (0.463,0.516)

η2 0.516 (0.487,0.547) 0.509 (0.484,0.537) 0.513 (0.484,0.537)

ν1 - - 31.914 (12.671,78.699) 8.840 (3.450,31.672)

ν2 - - 7.050 (4.538,12.265) 2.588 (1.786,3.804)

BIC 13808.20 13790.21 13790.62

AIC 13768.63 13739.34 13739.74

foram realizadas com base numa amostra de tamanho 1000.

A tabela 4.3 contem as estimativas dos parametros com base no maximo a posteriori e os

intervalos de credibilidade de maxima densidade a posteriori a 95% para os modelos sob analise:

FM-SN, FM-ST and FM-SSL. Adicionalmente, foram computados o AIC e BIC como criterios de

comparacao de modelos. Os valores obtidos para os criterios apontam que o modelo FM-ST possui

melhor ajuste, seguido pelo modelo FM-SSL. Um ponto interessante a ser destacado e que esses

resultados estao em linha com os apresentados por Basso et al. (2010), ja que os autores chegaram

a conclusoes semelhantes quanto aos modelos FM-ST e FM-SSL.

A figura 4.1 apresenta uma comparacao grafica entre os tres modelos sob analise neste capıtulo

quando aplicados a estimacao de densidades. Em prol de uma melhor visualizacao, os ajustes

resultantes foram sobrepostos em um unico conjuntos de eixos. Analisando a figura, sao observados

indıcios que apontam para os modelos FM-MESN com caudas pesadas (FM-ST e FM-SSL) em

detrimento do modelo FM-SN. Sob este ponto de vista, e possıvel dizer que ambas as analises, a

baseada em criterios de comparacao de modelos e a grafica, apontam para os modelos FM-MESN

com caudas pesadas como os que possuem resultados mais satisfatorios.

Tambem na figura 4.1, uma analise visual indica que a primeira componente apresenta um

43

Page 45: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

BMI

Den

sity

20 30 40 50 60

0.00

0.04

0.08

FM−SNFM−STFM−SSL

Figura 4.1: Histograma das observacoes de IMC com ajuste dos modelos FM-SN, FM-ST e FM-SSL.

comportamento proximo do simetrico. Reafirmando os resultados postos na tabela 4.3, a figura

4.2 ilustra muito bem a observacao anterior no sentido que para os modelos FM-SN e FM-ST os

intervalos de credibilidade para os parametros de assimetria da primeira componente contem o 0

e, para o modelo FM-SSL, a banda inferior do intervalo de credibilidade esta muito proxima de 0.

Outro ponto interessante que vale ser destacado e que, a partir da analise visual, apenas a segunda

componente aparenta possuir caudas pesadas e essas caracterısticas sao claramente confirmadas

pelos dados apresentados na tabela 4.3. Em comparacao com Basso et al. (2010), estimar um grau

de liberdade especıfico para cada componente e uma vantagem da metodologia desenvolvida neste

trabalho, ja que Basso et al. (2010) estima apenas um grau de liberdade para todo conjunto de

componentes.

4.5.2 Indicadores Suıcos de Fertilidade e Socioeconomicos (1888)

Como aplicacao dos modelos multivariados propostos nesta dissertacao, os dados de indicadores

suıcos de fertilidade e socieconomicos (Mosteller and Tukey, 1977) e estudado. Em 1888, a Suıca

estava entrando em um perıodo conhecido como transicao demografica, isto e, os altos nıveis de

fertilidade, tıpicos de paıses subdesenvolvidos, estavam comecando a decrescer e a expectativa de

44

Page 46: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

FM−SN

λ1

Den

sity

−1.0 −0.5 0.0 0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

FM−ST

λ1

Den

sity

−0.5 0.0 0.5 1.0 1.5

0.0

0.4

0.8

FM−SSL

λ1

Den

sity

0.0 0.5 1.0 1.5

0.0

0.4

0.8

1.2

Figura 4.2: Histograma das amostras a posteriori dos parametros de assimetria da primeira com-

ponente.

vida, por sua vez, estava aumentando. O conjunto de dados consiste em 47 observacoes, equivalentes

as 47 regioes da parte francesa do paıs, de 6 variaveis: fertilidade, homens envolvidos na agricultura

como ocupacao, alistados com altos graus nos exames militares, educacao alem da escola primaria

por alistados, catolicos (como oposto de prostestantes) e mortalidade infantil, cada uma dessas em

percentual. Para a presente analise as variaveis homens envolvidos na agricultura como ocupacao

e catolicos (como oposto de prostestantes) foram escolhidas.

Considerando o processo de estimacao para os modelos FM-SN, FM-ST e FM-SSL, o conjunto

de hiperparametros das prioris foi definido como: e0 = 4, b0 = (0, 0, 0, 0), B0 = Diag(100, 100),

c0 = 3, g0 = 0.01 e G0 = 0.01. Para os modelos de misturas finitas de misturas de escala skew -

normal, α = 2 and γ = 0.1 (Juarez and Steel, 2010) foram especificados. Cerca de 20000 iteracoes

do algoritmo MCMC 4 foram geradas, sendo as primeiras 10000 descartadas como perıodo de

aquecimento e, entao, as 10000 seguintes salvas. Com o objetivo de reduzir a autocorrelacao entre

valores sucessivos da cadeia simulada, um espacamento de tamanho 10 foi exigido. Por fim, as

estimativas a posteriori foram realizadas com base numa amostra de tamanho 1000.

Assim como no caso univariado, a tabela 4.4 contem, para os modelos sob analise, as estimatiti-

vas dos parametros com base no maximo a posteriori e seus respectivos intervalos de credibilidade

de maxima densidade a posteriori a 95%. Alem disso, o AIC e o BIC foram computados com a fini-

lidade de viabilizar a comparacao de modelos. Os critetios de comparacao de modelos indicam que

o modelo FM-SSL possui o pior desempenho. Considerando o BIC, os modelos FM-SN e FM-ST

apresentam desempenhos similares, entretanto, se o AIC e considerado, o modelo FM-ST aparenta

45

Page 47: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Tabela 4.4: Resultados para os ajustes dos modelos FM-MESN aos dados de indicadores suıcos.

ParametrosFM-SN FM-ST FM-SSL

MODA 95% MODA 95% MODA 95%

µ11 87.427 (29.045,97.647) 87.532 (30.860,97.672) 87.5 (35.483,98.778)

µ12 100.141 (86.866,103.712) 100.184 (89.077,104.662) 99.955 (91.209,105.221)

µ21 49.072 (38.395,59.599) 56.897 (45.339,71.240) 51.827 (41.029,63.883)

µ22 0.507 (-3.021,2.518) 1.523 (-1.360,2.794) 1.247 (-1.994,2.729)

λ11 -6.775 (-15.933,15.315) -6.72 (-19.682,11.932) -6.826 (-18.640,8.252)

λ12 0.583 (-1.808,3.072) 0.964 (-2.205,5.249) 0.871 (-1.051,3.963)

λ21 0.221 (-2.503,1.699) -0.192 (-4.419,1.602) 0.15 (-2.264,1.466)

λ22 12.997 (4.774,23.096) 8.789 (1.477,21.359) 10.969 (4.081,23.088)

Σ1,11 872.294 (274.968,2223.432) 847.312 (281.735,2525.836) 808.065 (197.624,2090.774)

Σ1,12 157.049 (27.186,469.581) 152.911 (8.761,497.579) 149.423 (18.688,439.377)

Σ1,22 35.119 (12.862,117.271) 33.963 (11.165,125.440) 33.818 (11.531,114.803)

Σ2,11 450.877 (261.462,824.438) 379.221 (164.541,811.044) 261.514 (104.777,590.160)

Σ2,12 -176.923 (-405.683,23.018) -89.898 (-346.656,-1.259) -60.531 (-254.649,21.754)

Σ2,22 345.604 (224.073,581.244) 79.389 (23.646,420.725) 63.344 (23.241,444.708)

η1 0.363 (0.229,0.485) 0.367 (0.227,0.491) 0.368 (0.246,0.494)

η2 0.637 (0.515,0.771) 0.633 (0.509,0.773) 0.632 (0.506,0.754)

ν1 - - 11.842 (1.304,46.481) 14.783 (3.757,37.219)

ν2 - - 2.759 (1.017,20.992) 2.683 (1.000,28.920)

BIC 829.86 829.68 842.84

AIC 802.11 798.23 811.39

46

Page 48: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

possuir o melhor ajuste para os dados.

20 40 60 80 100

020

6010

0

FM−SN

Agriculture

Cat

holic

20 40 60 80 100

020

6010

0

FM−ST

Agriculture

Cat

holic

20 40 60 80 100

020

6010

0

FM−SSL

Agriculture

Cat

holic

Figura 4.3: Ajuste dos modelos FM-SN, FM-ST e FM-SSL aos dados de indicadores suıcos.

A figura 4.3 permite a visualizacao dos resultados obtidos atraves da metodologia desenvolvida.

Analisando a mesma, nota-se que apenas a segunda componente aparenta possuir caudas pesadas.

Ilustrando os resultados introduzidos atraves da tabela 4.4, a figura 4.4 reforca esta percepcao

dado que os intervalos de credibilidade da segunda componente estao em intervalos que consideram

valores muito menores que os intervalos para os graus de liberdade da primeira componente.

4.6 Consideracoes

Neste capıtulo, foram introduzidas as misturas finitas de misturas de escala skew -normal tanto

para o caso univariado quanto para o multivariado. Com o intuito de verificar a capacidade dos

metodos apresentados recuperarem modelos originais, ajustes com dados artificiais univariados e

bivariados foram realizados. Posteriormente, ajustes com dados reais tambem nos casos univariados

47

Page 49: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

ν1

Den

sity

0 20 60

0.00

0.02

ν2

0 10 30

0.00

0.10

FM−ST

ν1

Den

sity

0 10 30

0.00

0.02

0.04

ν2

0 10 30

0.00

0.06

0.12

FM−SSL

Figura 4.4: Histograma das amostras a posteriori dos graus de liberdade da segunda componente.

e bivariados foram implementados. A partir dos resultados, foi possıvel verificar a utilidade da

metodologia e tambem os benefıcios gerados pela maior flexibilidade da abordagem deste trabalho

em comparacao a Basso et al. (2010). Esta menor rigidez na modelagem permite uma maior

exploracao das caracterısticas de cada componente.

A Apendice

A.1 Distribuicoes condicionais completas para os modelos de misturas finitas

de misturas de escala skew-normal

Considerando o modelo FM-SN e assumindo que Fn×2 = (1 w), para cada k = 1, . . . ,K, a matriz

Fk ∈ <Nk×2, Nk =∑n

i=1 Sik, e construıda. Similarmente, a matriz de observacoes yk ∈ <Nk×p e

formada. Logo, pelo teorema de Bayes, as condicionais completas sao

η|s ∼ D(e0 +N1, . . . , e0 +NK);

(µk, ψk)|s,y,w, τ2k ∼ N2(bk,Bk);

Bk =(

1τ2k

B−10 + 1

τ2k(F′kFk)

)−1

bk = B(

1τ2k

B−10 b0 + 1

τ2k(F′kyk)

) τ2

k |s,y,w, C0, µk, ψk ∼ IG(ck, Ck);

48

Page 50: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

ck = c0 + Nk2 + 1

2

Ck = C0 +(yk−Fkβk)

′(yk−Fkβk)+(βk−b0)

′B−1

0 (βk−b0)2

C0|τ21 , . . . , τ

2K ∼ G(g,G).

g = g0 +Kc0

G = G0 +∑K

k=11τ2k

onde βk = (µk ψk)′. Considerando a variavel latente W

Wi|Sik = 1, yi, µk, ψk, τ2k ∼ TN[0,+∞)(a,A);

a = (yi−µk)ψk

τ2k+ψ2k

A =τ2k

τ2k+ψ2k

Para os modelos FM-ST e FM-SSL, as condicionais completas assumem formato muito se-

melhante, a diferenca consiste em substituir F por Fwn×2 = (

√u√

uw) e y, por yw =√

uy.

Considerando agora a variavel latente W

Wi|Sik = 1, yi, ui, µk, ψk, τ2k ∼ TN[0,+∞)(a,A/ui).

Por ultimo, para a variavel latente U e para os parametros νk

Skew-T

Ui|Sik = 1, yi, wi, νk, µk, ψk, τ2k ∼ G

(νk2 + 1, νk2 + (yi−µk−ψkwi)

2

2τ2+

w2i

2

);

Skew-Slash

Ui|Sik = 1, yi, wi, νk, µk, ψk, τ2k ∼ G(0,1)

(νk + 1, (yi−µk−ψkwi)

2

2τ2+

w2i

2

);

νk|s,u ∼ G(1,40)(α+Nk, γ −∑

i:Sik=1 ui)

Para os graus de liberdade da skew -t nao e possıvel encontrar condicionais completas de forma

fechada, entao um passo Metropolis-Hastings e necessario. Para amostrar de νk, k = 1, . . . ,K,

uma proposta passeio aleatorio log normal e utilizada

log(νnewk − 1) ∼ N(log(νk − 1), cνk) (4.13)

49

Page 51: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

com parametro cνk adaptativo (Shaby and Wells, 2010). A proposta e deslocada do 0, pois e

aconselhavel evitar valores proximos de 0 para νk, ver Fernandez and Steel (1999).

A.2 Distribuicoes condicionais completas para os modelos de misturas finitas

de misturas de escala skew-normal multivariada

Considerando o modelo FM-SN e assumindo que Fn×2 = (1 w), para cada k = 1, . . . ,K, a Fk ∈

<Nk×2, Nk =∑n

i=1 Sik, e construıda. Similarmente, a matriz de observacoes yk ∈ <Nk×p e formada.

Logo, pelo teorema de Bayes, as condicionais completas sao

η|s ∼ D(e0 +N1, . . . , e0 +NK);

(µk,ψk)|s,y,w,Ωk ∼ N2×p(bk,Bk,Ωk);

Bk =(B−1

0 + F′kFk

)−1

bk = B(B−1

0 b0 + F′kyk

) Ωk|s,y,w, C0,µk,ψk ∼ IW (ck, Ck);

ck = c0 +Nk + p

Ck = C0 + (yk − Fkβk)′(yk − Fkβk) + (βk − b0)

′B−1

0 (βk − b0)

ζj |Ω1, . . . ,ΩK ∼ G(g,G), j = 1, . . . , p.

g = g0 +K c02

G = G0 + 12

∑Kk=1 Ω−1

k,jj

onde βk = (µk ψk)′. Considerando agora a variavel latente W

Wi|Sik = 1,yi,µk,ψk,Ωk ∼ TN[0,+∞)(a,A);

A = 1

1+ψ′Ω−1

k ψk

a = ((yi − µk)Ω−1k ψk)A.

50

Page 52: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Como no caso univariado, para os modelos FM-ST e FM-SSL, F e substituıdo por Fwn×2 =

(√

u√

uw), y, por yw =√

uy e para variavel latente W,

Wi|Sik = 1,yi, ui,µk,ψk,Ωk ∼ TN[0,+∞)(a,A/ui).

Considerando a variavel latente U e os parametros νk,

Skew-T

Ui|Sik = 1,yi, wi, νk,µk,ψk,Ωk ∼ G(νk2 + 1, νk2 +

(yi−µk−ψkwi)′Ω−1

k (yi−µk−ψkwi)2 +

w2i

2

);

Skew-Slash

Ui|Sik = 1,yi, wi, νk,µk,ψk,Ωk ∼ G(0,1)

(νk + 1,

(yi−µk−ψkwi)′Ω−1

k (yi−µk−ψkwi)2 +

w2i

2

);

νk|s,u ∼ G(1,40)(α+Nk, γ −∑

i:Sik=1 ui)

Como anteriormente, para os graus de liberdade da skew -t nao e possıvel encontrar condicionais

completas de forma fechada, logo a abordagem adotada no caso univariado tambem e valida neste

caso.

51

Page 53: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Capıtulo 5

Misturas de Regressoes com base em

Misturas de Escala Skew-Normal

5.1 Introducao

Este capıtulo e dedicado ao desenvolvimento e implementacao da segunda proposta deste trabalho.

Com este objetivo, a secao 5.2 introduz o modelo de misturas de regressoes com base em misturas

de escala skew -normal (MESN-MRM). A secao 5.3 apresenta todo arcabouco bayesiano necessario.

Posteriormente, na secao 5.4, um exemplo com dados artificiais e apresentado e, na secao 5.5,

uma aplicacao com dados reais e apresentada com enfase nos modelos de misturas de regressoes

com erros skew -normal (SN-MRM), de misturas de regressoes com erros skew -t (ST-MRM) e de

misturas de regressoes com erros skew -slash (SSL-MRM). Finalmente, na secao 5.6 apresenta-se

uma discussao do capıtulo.

5.2 O Modelo

Seja y = (y1, . . . , yn)T uma amostra aleatoria de um modelo de misturas com K componentes

(K > 1) e x = (xT1 , . . . ,xTn )T uma matrix de planejamento na qual xi e um vetor p-dimensional de

covariaveis. Segundo Zeller et al. (2016), um modelo de misturas de regressoes com erros aleatorios

52

Page 54: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

seguindo distribuicoes de misturas de escala skew -normal (MESN-MRM) e definido como

f(yi|xi,ϑ,η) =

K∑k=1

ηkg(yi|xi,θ∗k), (5.1)

onde ηk ≥ 0, k = 1, . . . ,K, e∑K

k=1 ηk = 1. Seguindo a reparametrizacao apresentada na secao

3.5.3, θ∗k = (βk, ψk, τ2k , νk), βk vetor p-dimensional, sera considerado o vetor parametrico es-

pecıfico para a componente k, logo, g(·|xi,θ∗k) denota a funcao densidade de probabilidade de

uma MESN(xiβk + µk, ψk, τ2k , νk). Adicionalmente, ϑ e η denotam os parametros desconhecidos

nos quais ϑ = (θ∗1, . . . ,θ∗K) e η = (η1, . . . , ηK).

Assim como no desenvolvimento do modelo FM-MESN descrito na secao 4.2, com a introducao

do vetor de alocacoes S = (S1, . . . ,Sn) e da estrutura hierarquica que surge com a representacao

estocastica e com as variaveis latentes W = (W1, . . . ,Wn) e U = (U1, . . . , Un), da mesma forma uma

variavel aleatoria Yi pertencente a k-esima componente de um modelo de misturas de regressoes

com base em misturas de escala skew -normal pode ser escrito como a seguir

Yi|Sik = 1,xi, wi, ui,θ∗k ∼ N(xiβk + µk + ψkwi, u

−1i τ2

k ),

Wi|Sik = 1, ui ∼ TN[0,+∞)(0, u−1i ), (5.2)

Ui|Sik = 1, νk ∼ h(·; νk),

onde µk = −√

2πm1,kψk, correspondendo a um modelo de regressao com media 0 e, portanto, a

uma regressao na qual todos parametros sao comparaveis. Concluindo, a densidade conjunta de Y

e da variaveis latentes S, W e U e

f(y, s,w,u|x,ϑ,η) =K∏k=1

[n∏i=1

[ηkf(yi|θ∗k,xi, wi, ui)f(wi|ui)f(ui|νk)]Sik

]p(s|η). (5.3)

5.3 Inferencia Bayesiana

Em modelos MESN-MRM, as dificuldades mencionadas na secao 4.3 com relacao a selecao de prioris

em modelos FM-MESN tambem aparecem, ou seja, a opcao por prioris improprias tambem quase

sempre implicara em densidades a posteriori improprias (Fruhwirth-Schnatter, 2006) e, como notado

por Jennison (1997), tambem e recomendavel evitar ser tao “nao informativo quanto possıvel”,

53

Page 55: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

escolhendo prioris vagas, ja que o numero de componentes e altamente influenciado por tais escolhas.

Dessa forma, uma vez mais, como em Fruhwirth-Schnatter and Pyne (2010), foi adotada a estrutura

de prioris hierarquicas introduzidas por Richardson and Green (1997) para misturas de normais

com o intuito de reduzir a sensibilidade do modelo quanto a escolha das prioris.

Portanto, um caminho natural na especificacao de prioris para o vetor de parametros θ∗k =

(βk, ψk, τ2k , νk) especıfico de uma componente arbitraria k foi optar por distribuicoes semelhantes

as apresentadas na secao 4.3. A vista disso, o conjunto de prioris foi determinado como: η ∼

D(e0, . . . , e0), (βk, ψk)|τ2k ∼ Np+1(b0, τ

2kB0), τ2

k |C0 ∼ IG(c0, C0) e C0 ∼ G(g0, G0), onde e0, b0 ∈

<2, B0 ∈ <2×2, c0, g0 e G0 sao hiperparametros conhecidos. Considerando as prioris para os

parametros νk, p(νk) ∝ νk/(νk + d)31(2,∞)(νk) (Juarez and Steel, 2010) e νk ∼ G(2,40)(α, γ), onde

α and γ sao hiperparametros conhecidos, foram especificadas para os modelos ST-MRM and SSL-

MRM respectivamente.

A distribuicao conjunta a posteriori dos parametros e das variaveis latentes nao observadas

pode ser escrita como

p(ϑ,η,w,u, s|y,x) ∝

K∏k=1

[ n∏i=1

[ηkf(yi|θ∗k,xi, wi, ui)f(wi|ui)f(ui|νk)]Sik

]p(θ∗k)

p(s | η)p(η),(5.4)

onde p(θ∗k) = p(βk, ψk|τ2k )p(τ2

k |C0)p(C0)p(νk). Como descrito na secao 3.3, condicional no vetor

de alocacoes S, a estimacao dos parametros pode ser executada independentemente para cada

componente parametrica θ∗k e para distribuicao dos pessos. Desta maneira, uma estrutura similar

a encontrada no modelo FM-MESN aparece, logo, as distribuicoes condicionais completas dos

54

Page 56: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

parametros e das variaveis latentes para um modelo MESN-MRM sao escritas da seguinte forma:

p(η|s) ∝ p(s|η)p(η) (5.5)

p(wi|Sik = 1, · · · ) ∝ [f(yi|θ∗k,xi, wi, ui)f(wi|ui)]Sik , (5.6)

p(ui|Sik = 1, · · · ) ∝ [f(yi|θ∗k,xi, wi, ui)f(wi|ui)f(ui|νk)]Sik , (5.7)

p(βk, ψk| · · · ) ∝∏

i:Sik=1

f(yi|θ∗k,xi, wi, ui)p(βk, ψk|τ2k ), (5.8)

p(τ2k | · · · ) ∝

∏i:Sik=1

f(yi|θ∗k,xi, wi, ui)p(τ2k |C0), (5.9)

p(C0| · · · ) ∝K∏k=1

p(τ2k |C0)p(C0), (5.10)

p(νk| · · · ) ∝∏

i:Sik=1

f(ui|νk)p(νk). (5.11)

Detalhes adicionais sobre as distribuicoes condicionais completas estao disponıveis no Apendice

B.1.

Definidas as distribuicoes a priori e calculadas as distribuicoes condicionais completas, o passo

seguinte e desenvolver metodos computacionais que viabilizem a estimacao dos parametros na classe

de modelos MESN-MRM. Para tal, fez-se uso de metodos de simulacao de Monte Carlo via Cadeias

de Markov a fim de coletar amostras aleatorias das distribuicoes a posteriori de (ϑ,η,w,u, s) dado

(y,x). Neste caso, como temos uma estrutura muito parecida com a apresentada na secao 4.3, o

algoritmo 5 que descreve o processo de amostragem a partir das distribuicoes condicionais completas

dos parametros e das variaveis latentes nao observadas e uma adaptacao do apresentado naquela

secao. Alem disso, novamente, pos processado o MCMC, com o objetivo de tratar o problema de

label switching, o algoritmo Kullback-Leibler introduzido por Stephens (2000) e aplicado.

Algoritmo 5. MCMC para misturas de regressoes com base em misturas de escala skew-normal.

1 Inicializar t = 1 e estipular os valores para S(0), (θ∗(0)1 , . . . ,θ

∗(0)K ), η(0), w(0) e u(0);

2 Simulacao dos parametros condicionados na classificacao S(t−1):

2.1 Gerar η(t) a partir de p(η|s(t−1));

55

Page 57: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

2.2 Gerar as variaveis latentes w(t)i e u

(t)i de cada componente, i = 1, . . . , n, a partir das

condicionais completas (5.6)-(5.7) e os parametros β∗(t)k ,ψ

∗(t)k ,Ω

∗(t)k , ν

∗(t)k , k = 1, . . . ,K,

a partir das condicionais completas (5.8)-(5.11).

3 Gerar S(t)i independentemente para cada i = 1, . . . , n a partir de

Pr(Si = j|yi,xi,ϑ) =g(yi|xi,θ∗k)Pr(Si = j|ϑ)∑Kk=1 g(yi|xi,θ∗k)Pr(Si = k|ϑ)

. (5.12)

4 Fazer t = t+ 1 e repetir os 2, 3 e 4 ate a convergencia ser atingida.

5.4 Estudo com dados Artificais

Assim como no capıtulo 4, a fim de verificar a efetividade do processo de inferencia e algoritmo

propostos para a classe de modelos MESN-MRM, um estudo com dados artificiais e realizado.

Neste caso, serao considerados K = 2 componentes e uma amostra de 300 observacoes e obtida.

Considerando o modelo de misturas de regressoes com erros skew -normal, os valores simulados sao

β1 = (2.5, 3.5, 5.5),β2 = (5.5, 8, 10), (σ21, σ

22) = (25, 9), (λ1, λ2) = (−5, 5) e (η1, η2) = (0.33, 0.67).

Para os modelos de misturas regressoes com erros skew -t e skew -slash, os valores anteriores sao

contemplados e (ν1, ν2) = (4, 8) e adicionado.

O conjunto de hiperparametros das prioris descritas na secao 5.3 e especificado como: e0 = 4,

b0 = (0, 0, 0, 0), B0 = Diag(100, 100, 100, 100), c0 = 0.01, g0 = 0.01, G0 = 0.01. Para os modelos

de misturas de regressoes com erros skew -t e skew -slash, d = 4/(1+√

4) e α = 6 e γ = 0.8 foram as

opcoes. Uma simulacao do algoritmo MCMC 5 com 20000 iteracoes foi gerada, as primeiras 10000

foram descartadas como perıodo de aquecimento e, entao, as 10000 seguintes foram salvas. Com o

objetivo de reduzir a autocorrelacao entre valores sucessivos da cadeia simulada, um espacamento

de tamanho 10 foi exigido. Por fim, as estimativas a posteriori foram realizadas com base numa

amostra de tamanho 1000.

A tabela 5.1 resume os resultados obtidos. Esta consiste nos valores ja enumerados anterior-

mente e no intervalo de credibilidade de maxima densidade a posteriori a 95%. E possıvel verificar

que, com excecao dos interceptos, os intervalos contem os valores verdadeiros. Como nao ha grande

56

Page 58: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Tabela 5.1: Resultados para os ajustes dos modelos MESN-MRM aos dados artificiais.

ParametrosSN-MRM ST-MRM SSL-MRM

VERDADEIRO 95% VERDADEIRO 95% VERDADEIRO 95%

β0,1 2.5 (-2.4540,-0.0986) 2.5 (-3.4705,-0.4637) 2.5 (-2.2272,0.7993)

β1,1 3.5 (3.1342,3.6775) 3.5 (2.8665,3.6772) 3.5 (3.3135,3.9248)

β2,1 5.5 (5.3665,5.6312) 5.5 (5.325,5.6368) 5.5 (5.3561,5.628)

β0,2 5.5 (7.6876,8.5351) 5.5 (7.6581,8.7399) 5.5 (6.3089,8.0414)

β1,2 8 (7.8891,8.0998) 8 (7.8942,8.1577) 8 (8.0131,8.2881)

β2,2 10.5 (10.4228,10.5446) 10.5 (10.4458,10.5662) 10.5 (10.4318,10.5547)

σ21 25 (19.8584,34.8395) 25 (8.929,39.0853) 25 (11.8714,31.3592)

σ22 9 (7.4043,11.5610) 9 (7.0011,14.9767) 9 (6.7187,12.6818)

λ1 -5 (-9.9433,-2.4925) -5 (-5.7752,-0.0464) -5 (-8.643,-1.6835)

λ2 5 (2.7854,6.8041) 5 (2.3295,6.3948) 5 (2.4896,6.289)

η1 0.33 (0.2933,0.39745) 0.33 (0.2934,0.4017) 0.33 (0.2838,0.3904)

η2 0.67 (0.6025,0.7066) 0.67 (0.5983,0.7066) 0.67 (0.6096,0.7162)

ν1 - - 4 (2.0062,12.7159) 4 (2.4291,13.224)

ν2 - - 8 (3.2104,64.7966) 8 (2.7437,13.1084)

preocupacao com o intercepto neste caso, e possıvel assumir que o procedimento desenvolvido e

capaz de recuperar os parametros dos modelos originais.

5.5 Aplicacao

Como em Zeller et al. (2016), os metodos propostos neste capıtulo sao aplicados em um conjunto

de dados que investiga a percepcao de tons musicais. Com o fim de explorar as hipoteses do

intervalo de memoria e de correspondencia parcial, Cohen (1984) planejou um experimento no qual

tons fundamentais adicionados de frequencias maiores eletronicamente geradas foram tocados para

musicos treinados. Essas frequencias foram determinadas por um disturbio equivalente aos padroes

usualmente encontrados nos instrumentos de gravacao tradicionais. Ao musico, foi pedido que

tocasse um tom ajustado no intervalo entre uma nota musical e outra. Por fim, uma amostra com

150 observacoes correspondentes a razao entre o tom ajustado e o tom fundamental foi coletada .

O conjunto de dados descrito acima foi analisado em diferentes artigos que exploravam a classe

de modelos de misturas de regressoes lineares (DeVeaux, 1989; Viele and Tong, 2002; Hunter and

57

Page 59: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Young, 2012). Mais recentemente, Yao et al. (2014) ajustou um modelo de mistura de regressoes

robusto utilizando a distribuicao T-Student. A figura 5.1, ilustra claramente duas tendencias sepa-

radas, as quais estao relacionadas as hipoteses levantadas por Cohen (1984) e sao um indicativo que

os modelos de misturas de regressoes integram uma alternativa natural para o problema. Tambem

na figura 5.1, um histograma dos dados e apresentado a fim de permitir uma visualizacao do padrao

nao normal das observacoes. Esta constatacao corrobora com a aplicacao dos modelos MESN-MRM,

mais especificamente, dos modelos de mistura de regressoes skew -normal (SN-MRM), de mistura

de regressoes skew -t (ST-MRM) e de mistura de regressoes skew -slash (SSL-MRM).

1.5 2.0 2.5 3.0

1.5

2.0

2.5

3.0

3.5

Actual tone ratio

Per

ceiv

ed to

ne r

atio

Perceived tone ratio

Den

sity

1.5 2.0 2.5 3.0 3.5

0.0

1.0

2.0

Figura 5.1: Scatterplot e histograma dos dados de percepcao musical.

Com relacao ao processo de estimacao para os modelos SN-MRM, ST-MRM and SSL-MRM,

os seguinte hiperparametros foram especificados para as prioris: e0 = 4, b0 = (0, 0, 0), B0 =

Diag(100, 100, 100), c0 = 0.01, g0 = 0.01, G0 = 0.01. Para o modelo ST-MRM, d = 4/(1 +√

4) foi

escolhido e, para o modelo SSL-MRM, α = 6 e γ = 0.8 foram especificadas. Dessa forma, 50000

iteracoes do algoritmo MCMC 5 foram geradas, sendo as primeiras 10000 descartadas como perıodo

de aquecimento e, entao, as 40000 seguintes salvas. Com o objetivo de reduzir a autocorrelacao

entre valores sucessivos da cadeia simulada, um espacamento de tamanho 40 foi exigido. Por fim,

as estimativas a posteriori foram realizadas com base numa amostra de tamanho 1000.

A tabela 5.2 contem as estimatitivas dos parametros com base no maximo a posteriori e os

intervalos de credibilidade de maxima densidade a posteriori a 95% para os modelos sob analise.

58

Page 60: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Tabela 5.2: Resultados para os ajustes dos modelos MESN-MRM aos dados de percepcao musical.

ParametrosSN-MRM ST-MRM SSL-MRM

MODA 95% MODA 95% MODA 95%

β0,1 1.9036 (1.8564,1.9604) 1.9313 (1.8793,1.9907) 1.9118 (1.8653,1.9713)

β1,1 0.0450 (0.0226,0.0670) 0.0375 (0.0177,0.0643) 0.0457 (0.0203,0.0637)

β0,2 -0.0055 (-0.2553,0.2119) 0.0167 (-0.0276,0.0804) 0.0150 (-0.1491,0.1450)

β1,2 0.9829 (0.8950,1.0981) 0.9879 (0.9625,1.0096) 0.9757 (0.9129,1.0440)

σ21 0.0028 (0.0020,0.0043) 0.0023 (0.0014,0.0037) 0.0024 (0.0017,0.0038)

σ22 0.0239 (0.0143,0.0546) 0.0008 (0.0003,0.0021) 0.0085 (0.0025,0.0271)

λ1 0.0840 (-0.8727,0.7990) -0.0269 (-0.6846,0.5915) 0.0480 (-0.7889,0.7278)

λ2 0.5222 (-1.7761,1.9262) -0.3730 (-1.2133,0.3347) -1.8254 (-3.4831,0.7764)

η1 0.7026 (0.6208,0.7955) 0.5675 (0.4507,0.6549) 0.6426 (0.5379,0.7520)

η2 0.2974 (0.2045,0.3792) 0.4325 (0.3451,0.5493) 0.3574 (0.2480,0.4621)

ν1 - - 5.4843 (2.0016,29.6809) 7.9826 (3.2876,14.2028)

ν2 - - 2.1196 (2,0000,2.7728) 3.0652 (2.0005,7.4982)

BIC -232.4607 -302.4382 -240.5561

AIC -259.5565 -335.5551 -273.673

Adicionalmente, foram computados o AIC e BIC como criterios de comparacao de modelos. Os

valores obtidos para os criterios apontam que o modelo ST-MRM possui melhor ajuste, seguido

pelo modelo SSL-MRM.

De maneira geral, os resultados apresentados estao em linha com os obtidos por Zeller et al.

(2016), isto e, a metodologia proposta neste capıtulo aponta para os mesmos modelos como os

de melhor ajuste e as estimativas dos parametros sao proximas em ambos trabalhos. A principal

diferenca entre os resultados esta no fato de que Zeller et al. (2016) impoe a estimacao de um grau

de liberdade para todas as componentes das misturas, enquanto esta restricao nao e aqui posta.

Um outro ponto interessante e que, em Zeller et al. (2016), os parametros de assimetria parecem

ser significativos para pelo menos uma das componentes da mistura, fato que nao se repete nos

resultados obtidos nesta secao. Esta diferenca pode ter origem no fato de os modelos apresentados

neste capıtulo serem mais flexıveis, ou seja, ao longo do processo de estimacao nenhuma restricao

e feita.

59

Page 61: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

5.6 Consideracoes

Neste capıtulo, os modelos de misturas de regressoes com base em misturas de escala skew -normal

foram desenvolvidos. Com o intuito de verificar a capacidade dos metodos apresentados recupera-

rem modelos originais, ajustes com dados artificiais foram realizados. Posteriormente, ajustes com

dados reais foram implementados. A partir dos resultados, foi possıvel tracar uma comparacao com

Zeller et al. (2016) e verificou-se que a maior flexibilidade da abordagem proposta neste trabalho,

principalmente, quanto a estimacao dos parametros ν, pode gerar difencas tambem nas estimativas

dos parametros de assimetria.

B Apendice

B.1 Distribuicoes condicionais completas para os modelos de misturas de re-

gressoes com base em misturas de escala skew-normal

Considerando o modelo SN-MRM e assumindo que Fn×(p+1) = (x w), para cada k = 1, . . . ,K,

a matriz Fk ∈ <Nk×(p+1), Nk =∑n

i=1 Sik, e construıda. Similarmente, a matriz de observacoes

yk ∈ <Nk×1 e formada. Logo, pelo teorema de Bayes, as condicionais completas sao

η|s ∼ D(e0 +N1, . . . , e0 +NK);

(βk, ψk)|s,y,w, τ2k ∼ Np+1(bk,Bk);

Bk =(

1τ2k

B−10 + 1

τ2k(F′kFk)

)−1

bk = B(

1τ2k

B−10 b0 + 1

τ2k(F′k(yk − µk))

) τ2

k |s,y,w, C0,βk, ψk ∼ IG(ck, Ck);

ck = c0 + Nk2 + 1

2

Ck = C0 +(yk−Fkβ

∗k−µk)

′(yk−Fkβ

∗k−µk)+(β∗k−b0)

′B−1

0 (β∗k−b0)2

C0|τ21 , . . . , τ

2K ∼ G(g,G).

60

Page 62: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

g = g0 +Kc0

G = G0 +∑K

k=11τ2k

onde β∗k = (βk ψk)′. Considerando a variavel latente W

Wi|Sik = 1, yi,βk, ψk, τ2k ∼ TN[0,+∞)(a,A);

a =(yi−xiβk−µk)ψk

τ2k+ψ2k

A =τ2k

τ2k+ψ2k

Para os modelos ST-MRM e SSL-MRM, as condicionais completas assumem formato muito

semelhante, a diferenca consiste em substituir F por Fwn×2 = (

√ux√

uw) e y, por yw =√

uy.

Considerando agora a variavel latente W

Wi|Sik = 1, yi, ui,βk, ψk, τ2k ∼ TN[0,+∞)(a,A/ui).

Por ultimo, para a variavel latente U e para os parametros νk

Skew-T

Ui|Sik = 1, yi, wi, νk,βk, ψk, τ2k ∼ G

(νk2 + 1, νk2 +

(yi−µk−xiβk−ψkwi)2

2τ2+

w2i

2

);

Skew-Slash

Ui|Sik = 1, yi, wi, νk,βk, ψk, τ2k ∼ G(0,1)

(νk + 1,

(yi−µk−xiβk−ψkwi)2

2τ2+

w2i

2

);

νk|s,u ∼ G(2,40)(α+Nk, γ −∑

i:Sik=1 ui)

Para os graus de liberdade da skew-t nao e possıvel encontrar condicionais completas de forma

fechada, entao um passo Metropolis-Hastings e necessario. Para amostrar de νk, k = 1, . . . ,K,

uma proposta passeio aleatorio log normal e utilizada

log(νnewk − 2) ∼ N(log(νk − 2), cνk) (5.13)

com parametro cνk adaptativo (Shaby and Wells, 2010). A proposta e deslocada do 0, pois e

aconselhavel evitar valores proximos de 0 para νk, ver Fernandez and Steel (1999).

61

Page 63: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Capıtulo 6

Conclusoes e Perspectivas

Este trabalho teve por objetivo propor modelos que explorassem conjuntamente a flexibilidade de

misturas finitas e de misturas de escala skew -normal (MESN) com o intuito de propiciar uma mode-

lagem que acomodasse simultaneamente multimodalidade, assimetria, caudas pesadas e tambem a

presenca de variaveis explicativas ou covariaveis. Considerando que as distribuicoes da classe MESN

contemplam, como casos particulas, as distribuicoes skew -normal, skew -t, skew -slash e outras, a

metodologia desenvolvida nesta dissertacao mostra possuir grande aplicabilidade em inumeros con-

textos e possibilita a estimacao de densidades complexas alem de lidar com problemas de classi-

ficacao de observacoes.

De maneira geral, este trabalho consistiu em estender as propostas de Basso et al. (2010), Cabral

et al. (2012) e Zeller et al. (2016) e desenvolver, sob a otica bayesiana, algoritmos MCMC simples

de serem implementados e que permitam que o processo de estimacao dos parametros seja eficiente

e eficaz. Para tal, utilizou-se como base as ideias apresentadas por Fruhwirth-Schnatter and Pyne

(2010), no qual fez-se uso das tecnicas de ampliacao de dados, da representacao hierarquica do

modelo e uma reparametrizacao que possibilita que condicionais completas de forma fechada sejam

encontradas.

Como perspectiva de trabalhos futuros, pode-se propor uma processo de inferencia completa-

mente bayesiano, isto e, um processo no qual o numero de componentes K tambem e um parametro

do modelo. Nesta direcao o algoritmo MCMC com saltos reversıveis introduzido por Richardson

62

Page 64: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

and Green (1997) no contexto de misturas surge como uma boa alternativa. Alem desta, buscar

extensoes multivariadas para os modelos MESN-MRM seria um caminho natural a ser seguido

como perspectiva de trabalho futuro.

Neste sentido, estendendo o modelo apresentado pela equacao (5.1), seja y = (y1, . . . , yn)T ,

yi vetor q-dimensional, uma amostra aleatoria de um modelo de misturas com K componentes

(K > 1) e x = (xT1 , . . . ,xTn )T uma matrix de planejamento na qual xi e um vetor p-dimensional de

covariaveis. Um modelo de misturas de regressoes com erros aleatorios seguindo distribuicoes de

misturas de escala skew -normal multivariada e definido como

f(yi|xi,ϑ,η) =K∑k=1

ηkg(yi|xi,θ∗k), (6.1)

na qual ηk ≥ 0, k = 1, . . . ,K, e∑K

k=1 ηk = 1. Seguindo a reparametrizacao apresentada na secao

3.5.3, θ∗k = (µk,ψk,Ωk, νk), βk matriz de dimensao p × q, sera considerado o vetor parametrico

especıfico para a componente k, logo, g(·|xi,θ∗k) denota a funcao densidade de probabilidade de

uma MESNq(xiβk +µk,ψk,Ω, νk). Adicionalmente, ϑ e η denotam parametros desconhecidos nos

quais ϑ = (θ∗1, . . . ,θ∗K) e η = (η1, . . . , ηK).

63

Page 65: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Referencias Bibliograficas

Akaike, H. (1974), “A new look at the statistical model identification,” IEEE Transactions on

Automatic Control, 19, 716–723.

Azzalini, A. (1986), “Further results on a class of distributions which includes the normal ones,”

Statistica, 46, 199–208.

Azzalini, A., and Dalla Valle, A. (1996), “The multivariate skew normal distribution,” Biometrika,

83, 715–726.

Basso, R. M., Lachos, V. H., Cabral, C. R. B., and Gosh, P. (2010), “Robust mixture modeling based

on scale mixtures of skew-normal distributions,” Computational Statistics and Data Analysis,

54, 2926–2941.

Bouguila, N., Ziou, D., and Vaillancourt, J. (2004), “Unsupervised learning of a finite mixture

model based on the Dirichlet distribution and its application,” IEEE Transactions on Image

Processing, 13, 1533–1543.

Branco, M. D., and Dey, D. K. (2001), “A general class of multivariate skew-elliptical distributions,”

Journal of Multivariate Analysis, 79, 99–113.

Cabral, C. R. B., Lachos, V. H., and Prates, M. O. (2012), “Multivariate mixture modeling using

skew-normal independent distributions,” Computational Statistics and Data Analysis, 56, 126–

142.

Cohen, E. A. (1984), “Some Effects of Inharmonic Partials on Interval Perception,” Music Percep-

tion, 1, 323–349.

64

Page 66: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Cosslett, S. R., and Lee, L. F. (1985), “Serial correlation in latent discrete variable models,” Journal

of Econometrics, 27, 79–97.

da Paz, R. F., Bazan, J. L., and Milan, L. A. (2017), “Bayesian estimation for a mixture of

simplex distributions with an unknown number of components: HDI analysis in Brazil,” Journal

of Applied Statistics, 44, 1630–1643.

Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977), “Maximum likelihood from incomplete

data via the EM algorithm,” Journal of the Royal Statistical Society, Series B, 39, 1–38.

DeSarbo, W. S., and Cron, W. L. (1988), “A maximum likelihood methodology for clusterwise

linear regression,” Journal of Classification, 5, 249–282.

DeSarbo, W. S., Wedel, M., Vriens, M., and Ramaswamy, V. (1992), “Latent class metric conjoint

analysis,” Marketing Letters, 3, 273–288.

DeVeaux, R. D. (1989), “Mixtures of linear regressions,” Computational Statistics and Data Analy-

sis, 8, 227–245.

Diebolt, J., and Robert, C. P. (1994), “Estimation of finite mixture distributions through Bayesian

sampling,” Journal of the Royal Statistical Society, Series B, 56, 363–375.

Fernandez, C., and Steel, M. F. J. (1999), “Multivariate student-t regression models: Pitfalls and

inference,” Biometrika, 86, 153–167.

Fruhwirth-Schnatter, S. (2006), Finite Mixture and Markov Switching Models, 1 edn, New York:

Springer.

Fruhwirth-Schnatter, S., and Pyne, S. (2010), “Bayesian inference for finite mixtures of univariate

and multivariate skew-normal and skew-t distributions,” Biostatistics, 11, 317–336.

Fu, R., Dey, D. K., and Holsinger, K. E. (2011), “A Beta-Mixture Model for Assessing Genetic

Population Structure,” Biometrics, 67, 1073–1082.

Gamerman, D., and Lopes, H. F. (2006), Markov Chain Monte Carlo: Stochastic Simulation for

Bayesian Inference, 2 edn, London: Chapman & Hall.

65

Page 67: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Gamerman, D., Migon, H. S., and Louzada, F. (2014), Statistical Inference: an Integrated Approach,

2 edn, London: Chapman & Hall.

Hamilton, J. D. (1989), “A new approach to the economic analysis of nonstationary time series and

the business cycle,” Econometrica, 57, 357–384.

Henze, N. (1986), “A probabilistic representation of the skew-normal distribution,” Scandinavian

Journal of Statistics, 13, 271–275.

Hunter, D. R., and Young, D. S. (2012), “Semiparametric mixtures of regressions,” Journal of

Nonparametric Statistics, 24, 19–38.

Jennison, C. (1997), “Discussion of the paper by Richardson and Green,” Journal of the Royal

Statistical Society, Series B, 59, 778–779.

Juarez, M. A., and Steel, M. F. J. (2010), “Model-based clustering of non-Gaussian panel data

based on skew-t distributions,” Journal of Business & Economic Statistics, 28, 52–66.

Lin, T., Lee, J., and Hsieh, W. (2007), “Robust mixture modelling using the skew t distribution,”

Statistics and Computing, 17, 81–92.

Lin, T., Lee, J., and Yen, S. (2007), “Finite mixture modelling using the skew normal distribution,”

Statistica Sinica, 17, 909–927.

McLachlan, G. J., and Peel, G. J. (2000), Finite Mixture Models, 1 edn, New Jersey: John Wiley

and Sons.

Mosteller, F., and Tukey, J. W. (1977), Data Analysis and Regression: A Second Course in Statis-

tics, 1 edn, Reading: Addison-Wesley.

Papastamoulis, P., and Iliopoulos, G. (2010), “An Artificial Allocations Based Solution to the Label

Switching Problem in Bayesian Analysis of Mixtures of Distributions,” Journal of Computational

and Graphical Statistics, 19, 313–331.

Redner, R. A., and Walker, H. (1984), “Mixture densities, maximum likelihood and the EM algo-

rithm,” SIAM Review, 26, 195–239.

66

Page 68: Abordagem Bayesiana em Misturas Finitas de Distribui˘c~oes ... · tes areas de pesquisa cient ca, por exemplo, redes neurais (Zhang et al.,2013), processamento de imagens (Bouguila

Richardson, S., and Green, P. J. (1997), “On Bayesian analysis of mixtures with an unknown

number of components,” Journal of the Royal Statistical Society, Series B, 59, 731–792.

Schwarz, G. (1978), “Estimating the dimension of a model,” Annals of Statistics, 6, 461–464.

Shaby, B. A., and Wells, M. T. (2010), Exploring an Adaptive Metropolis Algorithm,, Technical

report, Duke University, Department of Statistical Science.

Stephens, M. (2000), “Dealing with label switching in mixture models,” Journal of the Royal

Statistical Society, Series B, 62, 795–809.

Tanner, M. A., and Wong, W. H. (1987), “The calculation of posterior distributions by data

augmentation,” Journal of the American Statistical Association, 82, 528–540.

Viele, K., and Tong, B. (2002), “Modeling with mixtures of linear regressions,” Statistics and

Computing, 12, 315–330.

Yao, W., and Lindsay, B. G. (2009), “Bayesian Mixture Labeling by Highest Posterior Density,”

Journal of the American Statistical Association, 104, 758–767.

Yao, W., Wei, Y., and Yu, C. (2014), “Robust mixture regression using the t-distribution,” Com-

putational Statistics and Data Analysis, 71, 116–127.

Zeller, C. B., Cabral, C. R. B., and Lachos, V. H. (2016), “Robust mixture regression modeling

based on scale mixtures of skew-normal distributions,” TEST, 25, 375–396.

Zhang, H., Wu, Q. M. J., and Nguyen, T. M. (2013), “Incorporating Mean Template Into Finite

Mixture Model for Image Segmentation,” IEEE Transactions on Neural Networks and Learning

Systems, 24, 328–335.

67