Upload
phungthuan
View
224
Download
0
Embed Size (px)
Citation preview
Universidade Federal do Rio de Janeiro
Instituto de Matematica
Departamento de Metodos Estatısticos
Abordagem Bayesiana em Misturas Finitas deDistribuicoes Assimetricas
Autor: Marcus Gerardus Lavagnole Nascimento
Orientador: Carlos Antonio Abanto-Valle
Rio de Janeiro
Dezembro de 2017
Abordagem Bayesiana em Misturas Finitas de Distribuicoes Assimetricas
Marcus Gerardus Lavagnole Nascimento
Dissertacao de mestrado submetida ao Instituto de Ma-
tematica da Universidade Federal do Rio de Janeiro como
parte dos requisitos necessarios para obtencao do tıtulo
de Mestre em Estatıstica.
Orientador: Carlos Antonio Abanto-Valle
Rio de Janeiro, 11 de dezembro de 2017.
Abordagem Bayesiana em Misturas Finitas de Distribuicoes
Assimetricas
Marcus Gerardus Lavagnole Nascimento
Orientador: Carlos Antonio Abanto-Valle
Dissertacao de mestrado submetida ao Instituto de Matematica da Universidade
Federal do Rio de Janeiro como parte dos requisitos necessarios para obtencao do tıtulo
de Mestre em Estatıstica.
Aprovada por:
Rio de Janeiro, 11 de dezembro de 2017.
CIP - Catalogação na Publicação
Elaborado pelo Sistema de Geração Automática da UFRJ com osdados fornecidos pelo(a) autor(a).
N244aNascimento , Marcus Gerardus Lavagnole Abordagem bayesiana em misturas finitas dedistribuições assimétricas / Marcus GerardusLavagnole Nascimento . -- Rio de Janeiro, 2017. 67 f.
Orientador: Carlos Antonio Abanto-Valle. Dissertação (mestrado) - Universidade Federal doRio de Janeiro, Instituto de Matemática, Programade Pós-Graduação em Estatística, 2017.
1. Misturas finitas. 2. Distribuiçõesassimétricas. 3. Inferência bayesiana. I. AbantoValle, Carlos Antonio, orient. II. Título.
3
Universidade Federal do Rio de Janeiro
Abordagem Bayesiana em Misturas Finitas de Distribuicoes Assimetricas
Marcus Gerardus Lavagnole Nascimento
2017
AGRADECIMENTOS
Ao meu orientador, Carlos Antonio Abanto-Valle;
Aos meus pais, Leobaldo Silveira Nascimento e
Maria Christina Lavagnole;
As minhas irmas, Hanna Lavagnole Nascimento e
Rebecca Lavagnole Nascimento;
E a minha companheira e amiga, Rebecca de Oli-
veira Souza.
RESUMO
Abordagem Bayesiana em Misturas Finitas de Distribuicoes Assimetricas
Marcus Gerardus Lavagnole Nascimento
Orientador: Carlos Antonio Abanto-Valle
Resumo da dissertacao de mestrado submetida ao Instituto de Matematica da Uni-
versidade Federal do Rio de Janeiro como parte dos requisitos necessarios para obtencao
do tıtulo de Mestre em Estatıstica.
Neste trabalho, modelos de misturas finitas de misturas de escala skew -normal (FM-SMSN)
e de misturas de regressoes com base em misturas de escala skew -normal sao introduzidos com o
objetivo de lidar simultaneamente com dados que apresentem comportamentos assimetricos, caudas
pesadas e heterogeneidade. Uma metodologia bayesiana baseada no princıpio de ampliacao de dados
e elaborada e um eficiente algoritmo Monte Carlo via cadeias de Markov (MCMC) e desenvolvido.
Estes procedimentos sao discutidos com enfase em misturas finitas das distribuicoes skew -normal,
skew -t e skew -slash.
Palavras-chave: Misturas Finitas, Distribuicoes Assimetricas, Inferencia Bayesiana.
ABSTRACT
Finite Mixtures of Skewed Distributions: a Bayesian Approach
Marcus Gerardus Lavagnole Nascimento
Advisor: Carlos Antonio Abanto-Valle
Abstract da dissertacao de mestrado submetida ao Instituto de Matematica da Uni-
versidade Federal do Rio de Janeiro como parte dos requisitos necessarios para obtencao
do tıtulo de Mestre em Estatıstica.
In this work, finite mixtures of scale mixtures of skew-normal (FM-SMSN) distributions and
mixture regression based on scale mixtures of skew-normal (SMSN-MRM) are introduced to deal
simultaneously with asymmetric behavior, heavy tails and heterogeneity present in some data sets.
A Bayesian methodology based on the data augmentation principle is derived and an efficient
Markov-chain Monte Carlo (MCMC) algorithm is developed. These procedures are discussed with
emphasis on finite mixtures of skew-normal, skew-t and skew-slash distributions.
Key-words: Finite Mixtures, Skewed Distributions, Bayesian inference.
Sumario
1 Introducao 13
1.1 Propostas do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Organizacao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 Elementos de Inferencia Bayesiana 17
2.1 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Estimacao Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Estimacao Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Metodos de Monte Carlo via cadeias de Markov . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Criterios de Selecao de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1 Criterio de Informacao de Akaike - AIC . . . . . . . . . . . . . . . . . . . . . 22
2.3.2 Criterio de Informacao Bayesiano - BIC . . . . . . . . . . . . . . . . . . . . . 23
3 Preliminares 25
3.1 Definicoes Basicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Identificabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Invariancia com relacao a mudanca na etiqueta das componentes . . . . . . . 27
3.2.2 Excesso de componentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Ampliacao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
8
3.4 Label Switching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4.1 Algoritmo KL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5 Misturas de Escala Skew -Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5.1 Distribuicao Skew -Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5.2 Distribuicoes de Misturas de Escala Skew -Normal . . . . . . . . . . . . . . . 32
3.5.3 Reparametrizacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Misturas Finitas de Misturas de Escala Skew-Normal 35
4.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 O Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.4 Estudo com Dados Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.4.1 Caso Univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.4.2 Caso Multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.5 Aplicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.5.1 Indice de Massa Corporea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5.2 Indicadores Suıcos de Fertilidade e Socioeconomicos (1888) . . . . . . . . . . 44
4.6 Consideracoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
A Apendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
A.1 Distribuicoes condicionais completas para os modelos de misturas finitas de
misturas de escala skew -normal . . . . . . . . . . . . . . . . . . . . . . . . . . 48
A.2 Distribuicoes condicionais completas para os modelos de misturas finitas de
misturas de escala skew -normal multivariada . . . . . . . . . . . . . . . . . . 50
5 Misturas de Regressoes com base em Misturas de Escala Skew-Normal 52
5.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 O Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.3 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4 Estudo com dados Artificais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
9
5.5 Aplicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.6 Consideracoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
B Apendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
B.1 Distribuicoes condicionais completas para os modelos de misturas de re-
gressoes com base em misturas de escala skew -normal . . . . . . . . . . . . . 60
6 Conclusoes e Perspectivas 62
10
Lista de Figuras
4.1 Histograma das observacoes de IMC com ajuste dos modelos FM-SN, FM-ST e FM-
SSL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2 Histograma das amostras a posteriori dos parametros de assimetria da primeira
componente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3 Ajuste dos modelos FM-SN, FM-ST e FM-SSL aos dados de indicadores suıcos. . . . 47
4.4 Histograma das amostras a posteriori dos graus de liberdade da segunda componente. 48
5.1 Scatterplot e histograma dos dados de percepcao musical. . . . . . . . . . . . . . . . 58
11
Lista de Tabelas
4.1 Resultados para os ajustes dos modelos FM-MESN aos dados artificiais univariados. 40
4.2 Resultados para os ajustes dos modelos FM-MESN aos dados artificiais bivariados. . 41
4.3 Resultados para os ajustes dos modelos FM-MESN aos dados de IMC. . . . . . . . . 43
4.4 Resultados para os ajustes dos modelos FM-MESN aos dados de indicadores suıcos. 46
5.1 Resultados para os ajustes dos modelos MESN-MRM aos dados artificiais. . . . . . . 57
5.2 Resultados para os ajustes dos modelos MESN-MRM aos dados de percepcao musical. 59
12
Capıtulo 1
Introducao
Modelos de misturas finitas possuem um amplo campo de aplicacao e sao estudados em diferen-
tes areas de pesquisa cientıfica, por exemplo, redes neurais (Zhang et al., 2013), processamento
de imagens (Bouguila et al., 2004), genetica (Fu et al., 2011) e ciencias sociais (da Paz et al.,
2017). Esta classe de modelos compoe uma poderosa ferramenta em contextos nos quais o conjunto
de dados apresenta heterogeneidade e quando se deseja aproximar densidades de probabilidades
complexas. A vista disso, muitos modelos estatısticos envolvem misturas finitas de distribuicoes
independentemente de qual seja o conteudo sob investigacao.
Concisamente, problemas nos quais misturas finitas de distribuicoes despontam naturalmente
sao tais que uma populacao composta por K subgrupos, misturada aleatoriamente e proporcional-
mente aos pesos η1, . . . , ηK dos grupos, e considerada. Seja Y uma variavel aleatoria de interesse
associada a uma populacao com tais caracterısticas, devido a heterogeneidade, Y possui diferentes
distribuicoes de probabilidade para cada grupo. Usualmente, sao assumidas distribuicoes na mesma
famılia parametrica p(y|θ), todavia, o parametro θ varia entre os grupos.
Seja S uma variavel aleatoria discreta contendo a informacao sobre em qual grupo a observacao
y da variavel aleatoria Y encontra-se. A partir de amostras aleatorias de tal populacao, pode-se
reportar nao somente as observacoes da variavel aleatoria Y, mas tambem o grupo identificador
S. A probabilidade de amostrar-se do grupo identificado como k e igual a ηk, ademais, condicional
em S, a variavel aleatoria Y segue a distribuicao p(y|θk) com θk sendo parametro especıfico para
13
o grupo k. Portanto, a densidade conjunta e dada por
p(y,S) = p(y|S)p(S) = p(y|θk)ηk.
Modelos de misturas finitas de distribuicoes surgem em contextos nos quais nao e possıvel
reportar o indicador de grupo S, ou seja, observa-se apenas realizacoes da variavel aleatoria Y. Por
conseguinte, a densidade marginal p(y) e descrita pela seguinte mistura de densidades,
p(y) =
K∑k=1
p(y,S) = η1p(y|θ1) + . . .+ ηKp(y|θK). (1.1)
1.1 Propostas do Trabalho
Introduzido um conceito geral sobre como problemas relativos a misturas finitas de distribuicoes
aparecem, segue-se para a apresentacao das propostas que serao desenvolvidas ao longo deste traba-
lho. Basicamente, esta dissertacao esta fundamentada em duas classes de modelos complementares:
1 Modelos de misturas finitas de misturas de escala skew -normal,
2 Modelos de misturas de regressoes com base em misturas de escala skew -normal.
A primeira proposta surge a partir das metodologias propostas por Fruhwirth-Schnatter and
Pyne (2010), Basso et al. (2010) e Cabral et al. (2012). Fruhwirth-Schnatter and Pyne (2010) desen-
volvem uma metodologia bayesiana para misturas finitas das distribuicoes skew -normal e skew -t
univariadas e multivariadas a partir do princıpio de ampliacao de dados e do uso de metodos
de simulacao estocastica, mais especificamente, dos metodos Monte Carlo via Cadeias de Markov
(MCMC, abreviacao do ingles de Markov chain Monte Carlo), para amostrar da distribuicao poste-
riori conjunta. Alem disso, o modelo resultante e expresso a partir da representacao estocastica em
termos de modelos de efeitos aleatorios (Azzalini, 1986; Henze, 1986) e da representacao hierarquica
introduzida por Diebolt and Robert (1994) dos modelos de misturas finitas.
Com o intuito de modelar adequadamente conjuntos de dados oriundos de uma classe ou di-
versas classes com observacoes assimetricas, Lin, Lee and Yen (2007) e Lin, Lee and Hsieh (2007)
propoem uma metodologia para estimacao por maxima verossimilhanca de modelos de misturas fi-
nitas da skew -normal e skew -t com base em algoritmos do tipo EM (Dempster et al., 1977). Basso
14
et al. (2010) e Cabral et al. (2012), por sua vez, estendem essas ideias para modelos de misturas
finitas baseados em misturas de escala skew -normal (Branco and Dey, 2001, MESN). A primeira
proposta a ser apresentada neste trabalho, consiste, portanto, no desenvolvimento, sob uma pers-
pectiva bayesiana, de modelos de misturas finitas de misturas de escala skew -normal univariada e
multivariada. Em outras palavras, sera proposta uma extensao do trabalho desenvolvido por Basso
et al. (2010) e Cabral et al. (2012) a partir das ideias apresentadas por Fruhwirth-Schnatter and
Pyne (2010).
Em um grande numero de aplicacoes, no entanto, o pesquisador esta tambem interessado em
entender a relacao entre observacoes de uma variavel aleatoria Y e um conjunto de variaveis ex-
plicativas ou covariaveis (x1, . . . , xp). Neste contexto, os modelos de misturas finitas de regressoes
possibilitam investigar a associacao entre variaveis oriundas de diferentes grupos homogeneos e
desconhecidos. Esta classe de modelos e amplamente utilizada em areas como marketing (DeSarbo
and Cron, 1988; DeSarbo et al., 1992) e economia (Cosslett and Lee, 1985; Hamilton, 1989). Em
estudo recente, Zeller et al. (2016) introduz os modelos de misturas de regressoes com base em
misturas de escala skew -normal como uma forma atrativa de lidar com assimetria e caudas pesa-
das. A segunda proposta consiste, portanto, no desenvolvimento de uma metodologia bayesiana
para o trabalho apresentado por Zeller et al. (2016). Assim como na primeira proposta, as ideias
apresentadas por Fruhwirth-Schnatter and Pyne (2010) serao utilizadas.
1.2 Organizacao do Trabalho
Esta dissertacao de mestrado esta dividida em mais cinco capıtulos. No capıtulo 2, um breve
resumo sobre os principais elementos de inferencia bayesiana a serem utilizados neste trabalho e
feito. Dessa forma, topicos como estimacao pontual e estimacao intervalar sao levantados, alem dos
metodos de Monte Carlo via cadeias de Markov. Por ultimo, alguns criterios de selecao de modelos
sao apresentados.
O capıtulo 3 consiste na apresentacao dos dois grandes conteudos que sao trabalhados nesta
dissertacao: misturas finitas e misturas de escala skew -normal. Inicialmente, definicoes basicas
para modelos de misturas finitas sao expostas. Na sequencia, questoes importantes no contexto
15
de misturas sao levantadas, dessa forma, temas como identificabilidade, ampliacao de dados e label
switching sao trabalhados. Por fim, a atencao e totalmente voltada para a famılia de distribuicoes
MESN, tanto para variaveis univariadas quanto para multivariadas.
No capıtulo 4, os modelos de misturas finitas de misturas de escala skew -normal serao estudados.
Para tal, uma descricao dos modelos e feita e todo desenvolvimento de inferencia bayesiana e
realizado. Posteriormente, um estudo com dados simulados para os casos univariado e multivariados
e implementado. Em seguida, dois conjuntos de dados sao analisados, dados de ındices de massa
corporea e dados de indicadores suıcos de fetilidade e socioeconomicos.
Por sua vez, o capıtulo 5 lida com os modelos de misturas de regressoes com base em misturas de
escala skew -normal. O mesmo segue uma estrutura semelhante a apresentada no capıtulo anterior,
no entanto, neste, o conjunto de dados a ser trabalhado refere-se a percepcao musical. Finalizando,
as conclusoes e as perspectivas futuras sao apresentadas no capıtulo 6.
16
Capıtulo 2
Elementos de Inferencia Bayesiana
Este capıtulo tem como objetivo abordar topicos de inferencia bayesiana relevantes para o desen-
volvimento desta dissertacao. Assim, a secao 2.1 introduz conceitos basicos de inferencia bayesiana
e questoes relacionadas com o problema de estimacao pontual e intervalar. A secao 2.2 descreve os
metodos de Monte Carlo via cadeias de Markov com foco nos algoritmos de Metropolis-Hastings e
amostrador de Gibbs. Finalmente, a secao 2.3 fornece uma breve revisao dos criterios de selecao de
modelos AIC e BIC. Para maiores detalhes, ver Gamerman and Lopes (2006) e Gamerman et al.
(2014).
2.1 Inferencia Bayesiana
Sob a otica bayesiana, para uma quantidade de interesse θ desconhecida, a incerteza associada a esta
e representada atraves de modelos probabilısticos. Dessa forma, e natural que diferentes analistas
tenham diferentes graus de incerteza sobre θ e traduzam esta incerteza de maneiras distintas.
A vista disso, nao ha distincao entre as quantidades observaveis e os parametros de um modelo
estatıstico, sao todos considerados quantidades aleatorias. Por conseguinte, os procedimentos de
inferencia bayesiana sao caracterizados por utlizar como fonte de informacao para estimacao ou
tomada de decisao sobre θ nao somente o observavel y da variavel aleatoria Y, mas tambem
informacoes externas aos conjuntos de dados observados.
17
Seja θ um vetor de parametros de interesse desconhecido e Θ um espaco parametrico tal que
θ ∈ Θ. Entao, antes do levantamento das observacoes, o analista e capaz de sumarizar seu co-
nhecimento previo sobre as chances de θ em relacao ao espaco Θ, atraves de uma distribuicao de
probabilidade, denominada distribuicao a priori, π(θ), responsavel por descrever as incertezas e
crencas do pesquisador.
A funcao de verossimilhanca, denotada por L(θ; y), descreve toda informacao procedente do
conjunto de dados. Ressalta-se que a funcao de verossimilhanca possui a mesma expressao p(y|θ)
que define o modelo probabilıstico, no entanto, sao objetos matematicos dissemelhantes. Em outras
palavras, o processo de estimacao ou tomada de decisao passa a conjecturar p(y|θ) como funcao
de θ desconhecido e condicional ao vetor de observacoes y.
Uma vez que os dados y contem informacao acerca de θ, e possıvel utilizar as observacoes para
atualizar o conhecimento sobre o parametro, determinando a distribuicao condicional de θ dado y,
a qual denomina-se distribuicao a posteriori de θ e denota-se como π(θ|y). Dessa, forma, atraves
do Teorema de Bayes, tem-se que
π(θ|y) =p(y|θ)π(θ)
p(y), na qual p(y) =
∫p(y|θ)π(θ) dθ. (2.1)
De outro lado, como p(y) nao depende do parametro, e considerada constante em relacao a θ, logo
π(θ|y) ∝ p(y|θ)π(θ). (2.2)
2.1.1 Estimacao Pontual
Considera-se um bom estimador para um parametro aquele no qual o erro e proximo de zero com
alta probabilidade, ou seja, um bom estimador e uma funcao dos dados a qual esperamos estar
proxima do real valor do parametro. A estimacao pontual consiste em calcular uma estimativa θ
para o parametro θ a partir da amostra e de fontes adicionais de informacao sobre o parametro ou
vetor parametrico.
Assume-se, portanto, para cada vetor de parametros θ ∈ Θ e para cada possıvel valor do vetor
de estimativas a ∈ Θ, existir uma funcao L(θ,a) responsavel por medir a perda associada ao se
estimar o verdadeiro valor de θ. Suponha agora que π(θ|y) seja a distribuicao a posteriori de
18
θ e deseja-se estimar o valor do parametro ao se observar os dados de uma amostra aleatoria.
Considerando que o analista escolhe o vetor de estimativas pontuais a, sua perda esperada e dada
pela equacao
E[L(θ,a)] =
∫ΘL(θ,a)p(θ|y)dθ. (2.3)
Uma regra de decisao a∗ e otima se apresentar risco mınimo, ou seja, R(a∗) < R(a), ∀a. Essa
regra e denominada regra de Bayes e seu risco e chamado de risco de Bayes. Por sua vez, os
estimadores a∗ obtidos atraves da minimizacao do risco esperado a posteriori sao conhecidos como
estimadores de Bayes. As funcoes perda mais comumente utilizadas e seus respectivos estimadores
sao:
• Funcao perda quadratica: L(θ,a) = (θ − a)′(θ − a);
Media a posteriori: θ = E[θ|y]
• Funcao perda absoluta: L(θ,a) = ||(θ − a)||;
Mediana a posteriori: θ tal que∫ θ−∞ π(θ|y)dθ = 0.5
• Funcao perda 0-1: L(θ,a) =
k, se ||(θ − a)|| > ε
0, se ||(θ − a)|| ≤ ε, na qual, usualmente, assume-se k = 1;
Moda a posteriori: θ tal que π(θ|y) = supθ∈Θπ(θ|y)
2.1.2 Estimacao Intervalar
Realizar uma estimacao pontual, em muitos casos, pode nao ser o adequado, isto deve-se ao fato
de toda informacao estar sendo resumida por um unico valor. Descrever a incerteza associada a
uma estimativa referente ao parametro de interesse e tambem um topico importante na atividade
do analista. Vincular as estimativas pontuais aos seus graus de precisao e, portanto, de grande
relevancia em estudos parametricos. Neste contexto, a distribuicao a posteriori desempenha papel
expressivo, pois, atraves desta, pode-se encontrar um intervalo para θ no qual ha maior concentracao
de massa de probabilidade.
19
Definicao 1. Seja θ uma quantidade desconhecida definida em Θ. Uma regiao C ∈ Θ e um
intervalo 100(1−α)% de credibilidade para θ se P (θ ∈ C|y) > 1−α. Neste caso, 1−α e chamado
nıvel de credibilidade.
Definicao 2. Um intervalo 100(1−α)% de credibilidade de maxima densidade a posteriori (HPD,
abreviacao do ingles de High Posterior Density) para θ e o intervalo 100(1−α)% de credibilidade C
dado por C = θ ∈ Θ : p(θ|y) > k(α) no qual k(α) e a maior constante tal que P (θ ∈ C|y) > 1−α.
2.2 Metodos de Monte Carlo via cadeias de Markov
Os metodos de Monte Carlo via cadeias de Markov (MCMC) compoem um poderoso ferramental
para geracao de amostras de distribuicoes com grau de complexidade nao trivial, mas cuja funcao
densidade de probabilidade seja conhecida, exceto, talvez, a menos da constante de normalizacao.
Esses metodos sao importantes e podem ser aplicados em diversos problemas estatısticos, especial-
mente, em modelagem bayesiana.
Considere uma sequencia de variaveis aleatorias θ(t) que variam em intervalos equidistantes t,
t = 1, 2, . . . , T , na qual θ(0) representa alguma condicao inicial. A distribuicao de θ(t+1) depende
apenas de θ(t), ou seja, e gerada condicionalmente da distribuicao p(θ(t+1)|θ(t)). Denomina-se
cadeias de Markov, o processo estocastico gerador dessa sequencia de variaveis aleatorias. A con-
vergencia da distribuicao de θ(t) para uma distribuicao estacionaria esta relacionada a tres propri-
edades da cadeia: ser irredutıvel, aperiodica e positiva recorrente. Esta ultima garante que se θ(t)
e gerado a partir de uma distribuicao estacionaria, entao θ(t+1),θ(t+2), . . . ,θ(T ) tambem o serao.
2.2.1 Metropolis-Hastings
Seja θ um vetor parametrico tal que θ ∈ Θ. Suponha que deseja-se gerar uma sequencia θ(0),
θ(1), . . . ,θ(T ) com distribuicao limite p(θ) a partir de uma cadeia de Markov irredutıvel e aperiodica
com funcao de transicao q : Θ → [0,+∞). Usualmente, costuma-se fazer referencia a funcao de
transicao q como densidade proposta. O algoritmo de Metropolis-Hastings utiliza, por conseguinte,
a ideia de que um valor e gerado a partir de uma densidade proposta e aceito com uma dada
20
probabilidade. O algoritmo de Metropolis-Hastings, portanto, gera sucessivas amostras a partir
dos passos descritos abaixo:
Algoritmo 1. Algoritmo de Metropolis-Hastings.
1. Arbitrar um valor inicial para θ, denotado por θ(0);
2. Gerar θprop ∼ q(θ | θ(t−1));
3. Aceita-se o ponto gerado no passo anterior com probabilidade:
α = min1, p(θprop)
p(θ(t−1))
q(θ(t−1)|θprop)q(θprop|θ(t−1))
4. Gerar u ∼ U(0, 1);
5. Se α > u, entao θ(t) = θprop, caso contrario, θ(t) = θ(t−1);
6. Repetir os passos 2 a 5 um numero T suficientemente grande de vezes ate que a convergencia
seja obtida.
2.2.2 Amostrador de Gibbs
Considera-se a distribuicao a posteriori π(θ|y) = π(θ1, θ2, . . . , θd|y) como sendo a de interesse
(alvo). Denominando a distribuicao πj(θj |θ1, . . . , θj−1, θj+1, . . . , θd,y) como condicional completa
de θj e tomando tal distribuicao como proporcional ao produto entre funcao de verossimilhanca
e a distribuicao a priori, obtem-se πj(θj |θ1, . . . , θj−1, θj+1, . . . , θd,y) ∝ p(y,θ) para todo j. O
amostrador de Gibbs, como caso particular do algoritmo de Metropolis-Hastings, e, portanto, capaz
de gerar sucessivas amostras das distribuicoes condicionais completas da seguinte forma:
Algoritmo 2. Amostrador de Gibbs.
1. Arbitrar um valor inicial para cada θj, definindo θ(0) = (θ(0)1 , ..., θ
(0)d ).
21
2. Obter um novo valor para θ(t) = (θ(t)1 , ..., θ
(t)d ) pela geracao sucessiva das distribuicoes condi-
cionais completas:
θ(t)1 ∼ π1(θ1|θ(t−1)
2 , ..., θ(t−1)d ),
θ(t)2 ∼ π2(θ2|θ(t)
1 , θ(t−1)3 , θ
(t−1)4 ..., θ
(t−1)d ),
...
θ(t)d ∼ πd(θd|θ
(t)1 , ..., θ
(t)d−1)
3. Repetir o passo 2 um numero T suficientemente grande de vezes ate que a convergencia seja
obtida.
2.3 Criterios de Selecao de Modelos
Os criterios de selecao de modelos descritos nesta secao podem ser utilizados em diferentes aplicacoes,
desde a comparacao entre modelos, como tambem determinacao do numero K de componentes em
contextos de misturas finitas. Vale ressaltar que esses criterios nao devem ser empregados como
regra de decisao, mas como uma ferramenta balizadora que traz evidencias sobre qual modelo
pode ser preferıvel em detrimento de outros. Para uma discussao mais detalhada a respeito desses
metodos e outros, ver McLachlan and Peel (2000).
2.3.1 Criterio de Informacao de Akaike - AIC
Seja yi, i = 1, . . . , n, uma amostra aleatoria da variavel Yi. Criterios de informacao para selecao
de modelos podem ser construıdos a partir da log-verossimilhanca e de uma correcao de vies, isto
e,
logL(θ; y)− b(F ), (2.4)
na qual θ e uma estimativa pontual para o parametro θ, F e a verdadeira funcao de distribuicao e
b(F ) e o vies calculado da seguinte forma
b(F ) = EF
[1
n
n∑i=1
logf(yi|θ)−∫· · ·∫logf(y1, . . . ,yn|θ)dF (y1, . . . ,yn)
]. (2.5)
22
A ideia, portanto, e escolher o modelo mais adequado segundo criterio que maximize a relacao
presente na equacao (2.4).
Na literatura, entretando, o criterio de informacao e usualmente formado pelo dobro do negativo
da diferenca descrita em (2.4), ou seja,
−2logL(θ; y) + C. (2.6)
Dessa forma, o primeiro termo da relacao presente na equacao (2.6) e responsavel por mensurar a
falta de ajuste do modelo. O segundo termo, por sua vez, consiste numa penalizacao dada de acordo
com a complexidade do modelo. Portanto, o objetivo agora e selecionar o modelo que minimize tal
criterio. Akaike (1974) mostra que b(F ) e assintoticamente igual a d, onde d representa o numero
total de parametros do modelo. Por conseguinte, o criterio de informacao de Akaike seleciona o
modelo que minimiza
−2logL(θ; y) + 2d. (2.7)
2.3.2 Criterio de Informacao Bayesiano - BIC
Seja M o modelo considerado e θ ∈ Θ o parametro deste. Considere a seguinte verossimilhanca
obtida a partir da integracao no espaco de parametros condicional ao modelo M :
p(y|M) =
∫p(y|M,θ)π(θ|M)dθ
=
∫exp [log(p(θ; y))] dθ, (2.8)
na qual p(y|M,θ) representa a verossimilhanca do modelo M e π(θ|M) a probabilidade a priori
de θ. Aproximando a integral (2.8) atraves de uma serie de Taylor de segunda ordem em torno do
ponto θ = θ, na qual θ e a moda a posteriori satisfazendo ∂log(p(θ; y))/∂θ = 0, obtem-se
log(p(θ; y)) ≈ log(p(θ; y))− 1
2(θ − θ)TH(θ)(θ − θ), (2.9)
onde H(θ) e a matriz hessiana de log(p(θ; y)) calculada em θ. Os termos de primeira ordem da
serie se anulam ja que θ e a moda. Substituindo a relacao (2.9) em (2.8), observa-se, a menos de
23
uma constante normalizadora, a densidade de uma normal com media θ e matriz de covariancias
H(θ), ou seja,
p(y|M) = exp[log(p(θ; y))
] ∫exp
(−1
2(θ − θ)TH(θ)(θ − θ)
)dθ
= p(θ; y)(2π)d/2|H(θ)|−1/2. (2.10)
Portanto a log-verossimilhanca e aproximada por
log(p(y|M)) ≈ log(L(θ; y)) + log(π(θ))− 1
2log|H(θ)|+ 1
2d log(2π). (2.11)
Uma variacao da equacao (2.11) consiste em substituir θ pelo estimador de maxima verossimi-
lhanca θ e a matriz hessiana pela matriz de informacao de Fisher
log(p(y|M)) ≈ log(L(θ; y)) + log(π(θ))− 1
2log|I(θ,y)|+ 1
2d log(2π). (2.12)
Essa aproximacao assume que a priori e muito difusa e seu efeito pode ser ignorado. Dessa forma,
o criterio de informacao bayesiano de Schwarz (1978) e obtido ignorando os termos de primeira
ordem em (2.12) e observando que |I(θ,y)| = O(n8), logo,
BIC = −2logL(θ) + d log(n). (2.13)
24
Capıtulo 3
Preliminares
Este capıtulo tem como objetivo abordar os dois topicos mais relevantes para o desenvolvimento
desta dissertacao: misturas finitas e misturas de escala skew -normal. Para tal intuito, as secoes
3.1 a 3.4 sao voltadas para introducao de alguns conceitos basicos de misturas finitas, entre eles,
os problemas de identificabilidade e de label switching, alem do princıpio ampliacao de dados no
contexto de misturas finitas. Na secao 3.5, por sua vez, sao abordados brevemente topicos referentes
as misturas de escala skew -normal. Para maiores detalhes acerca de misturas finitas ver Fruhwirth-
Schnatter (2006) e Branco and Dey (2001) para pormenores sobre misturas de escala skew -normal.
3.1 Definicoes Basicas
A variavel aleatoria Y e dita proveniente de uma distribuicao de mistura finita se a funcao densidade
de probabilidade p(y) segue a forma de uma densidade de mistura para todo y ∈ Y, isto e,
p(y) = η1p1(y) + . . .+ ηKpK(y), (3.1)
na qual pk(y) e funcao densidade de probabilidade para todo k = 1, . . . ,K, onde K e o numero
de componentes da mistura e os parametros η1, . . . , ηK sao os pesos. Uma unica densidade pk(y)
e denominada densidade da componente e o vetor η = (η1, . . . , ηK) e intitulado vetor de pesos. O
vetor η assume valores no simplex unitario EK tal que EK ⊂ (<+)K , definido pela seguinte restricao
ηK ≥ 0, η1 + . . .+ ηK = 1. (3.2)
25
Assume-se, geralmente, que todas densidades das componentes tem origem na mesma famılia
de distribuicoes parametricas T (θ) com densidade p(y|θ) indexada ao parametro θ ∈ Θ, logo
p(y|ϑ) = η1p(y|θ1) + . . .+ ηKp(y|θK). (3.3)
A funcao densidade p(y|ϑ) da mistura, portanto, e indexada ao vetor parametrico ϑ = (θ1, . . . ,θK ,η)
definido no espaco parametrico ΘK = ΘK ×EK . Isto posto, considera-se que a distribuicao de mis-
turas finitas e irrestrita no sentido que nao sao impostas restricoes sob os parametros θ1, . . . ,θK e
η nao possui restricoes a menos das presentes na equacao (3.2).
3.2 Identificabilidade
Definicao 3. Seja o parametro ϑ definido no espaco parametrico Θ. Uma famılia de distribuicoes
parametricas, indexada pelo parametro ϑ e definida sobre o espaco amostral Y, e dita identificavel
se para quaisquer parametros ϑ e ϑ∗ em Θ que definam a mesma lei de probabilidade em Y, entao
ϑ e ϑ∗ sao identicos.
Considerando a definicao acima, em termos das correspondentes funcoes densidade de proba-
bilidade p(y|ϑ) e p(y|ϑ∗), isto significa que se as densidades sao identicas para quase todo y ∈ Y,
entao os parametros ϑ e ϑ∗ necessitam ser identicos, isto e,
p(y|ϑ) = p(y|ϑ∗) para quase todo y ∈ Y → ϑ = ϑ∗. (3.4)
Caso para quaisquer parametros ϑ e ϑ∗ distintos e definidos em Θ, as funcoes densidade de proba-
bilidade p(y|ϑ) e p(y|ϑ∗) sao identicas para quase todo y ∈ Y, entao esta famılia de distribuicoes
e nao identificavel. Logo, qualquer subconjunto U(ϑ) em Θ, definido como
U(ϑ) = ϑ∗ ∈ Θ : p(y|ϑ∗) = p(y|ϑ), para quase todo y ∈ Y, (3.5)
contendo mais de um ponto em Θ e denominado conjunto nao identificavel.
No contexto de modelos de misturas finitas, e possıvel destacar duas causas principais para nao
identificabilidade: nao identificabilidade devido ao fato da distribuicao da mistura ser invariante
com relacao a mudanca na etiqueta das componentes e nao identificabilidade em casos de excesso
de componentes.
26
3.2.1 Invariancia com relacao a mudanca na etiqueta das componentes
Considere uma distribuicao de mistura finita com K componentes como definida em (3.3). Existem
s = 1, . . . ,K! equivalentes arranjos para essas componentes, os quais podem ser descritos pelas
permutacoes ρs : 1, . . . ,K → 1, . . . ,K, ρs(k) correspondente a cada valor k ∈ 1, . . . ,K.
Seja ϑ = (θ1, . . . ,θK , η1, . . . , ηK) um ponto arbitrario no espaco parametrico ΘK = ΘK × EK ,
defina UP (ϑ) ⊂ ΘK tal que
UP (ϑ) =K!⋃s=1
ϑ∗ ∈ ΘK : ϑ∗ = (θρs(1), . . . ,θρs(K), ηρs(1), . . . , ηρs(K)). (3.6)
Verifica-se que qualquer ponto ϑ∗ ∈ UP (ϑ) gera uma mesma distribuicao de mistura que ϑ, isto e,
p(y|ϑ) = η1p(y|θ1) + . . .+ ηKp(y|θK) (3.7)
= ηρs(1)p(y|θρs(1)) + . . .+ ηρs(K)p(y|θρs(K)) = p(y|ϑ∗). (3.8)
Portanto, para cada ϑ ∈ ΘK no qual pelo menos dois vetores parametricos θk e θl sao diferentes
em pelo menos um elemento, UP (ϑ) e um conjunto nao identificavel em ΘK .
3.2.2 Excesso de componentes
Considere uma distribuicao de mistura finita com K − 1 componentes como definida em (3.3).
Seja ϑK−1 = (θ(K−1)1 , . . . ,θ
(K−1)K−1 , η
(K−1)1 , . . . , η
(K−1)K−1 ) um ponto arbitrario no espaco parametrico
ΘK−1 = ΘK−1 × EK−1, defina UZ(ϑ) ⊂ ΘK = ΘK × EK tal que
UZ(ϑK−1) =K⋃k=1
(K−1)!⋃s=1
ϑ ∈ ΘK : ηk = 0,θk ∈ Θ, (3.9)
(θ1, . . . ,θk−1,θk, . . . ,θK) = (θ(K−1)ρs(1) , . . . ,θ
(K−1)ρs(K) ), (3.10)
(η1, . . . , ηk−1, ηk, . . . , ηK) = (η(K−1)ρs(1) , . . . , η
(K−1)ρs(K) ). (3.11)
Logo, UZ(ϑK−1) contem misturas com K componentes, sendo uma destas nula e as demais K − 1,
definidas por ϑK−1.
Conclui-se, portanto, que o conjunto UZ(ϑK−1) e nao identificavel no espaco parametrico Θ ja
que contem uma infinidade de parametros ϑ capazes de gerar a mesma distribuicao de mistura, ou
27
seja,
p(y|ϑ) =K∑
j=1,j 6=kηjp(y|θj) =
K∑j=1
η(K−1)j p(y|θ(K−1)
j ). (3.12)
De fato, o conjunto UZ(ϑK−1) integra um conjunto UZ(ϑK−1) ∪ UE(ϑK−1) nao identificavel
ainda maior. A vista disso, defina
UE(ϑK−1) =K−1⋃k=1
(K−1)!⋃s=1
ϑ ∈ ΘK : ηk + ηK = η(K−1)ρs(k) ,θK = θ
(K−1)ρs(k) , (3.13)
(θ1, . . . , . . . ,θK−1) = (θ(K−1)ρs(1) , . . . ,θ
(K−1)ρs(K−1)), (3.14)
(η1, . . . , ηk−1, ηk+1, . . . , ηK) = (η(K−1)ρs(1) , . . . , η
(K−1)ρs(k−1), η
(K−1)ρs(k+1), . . . , η
(K−1)ρs(K−1)), (3.15)
conjunto contendo misturas com K componentes, no qual duas densidades de componentes sao
iguais e obtidas a partir da mistura definida por ϑK−1 atraves da separacao de uma componente
em duas. Novamente, UE(ϑK−1) e nao identificavel no espaco parametrico Θ ja que contem um
infinidade de parametros ϑ capazes de gerar a mesma distribuicao de mistura, ou seja,
p(y|ϑ) =K−1∑
j=1,j 6=kηjp(y|θj) + (ηk + ηK)p(y|θk) =
K−1∑j=1
η(K−1)j p(y|θ(K−1)
j ). (3.16)
3.3 Ampliacao de Dados
Seja S = (S1, . . . ,Sn) o vetor de alocacoes, isto e, o vetor contendo a informacao sobre em qual
grupo a observacao yi, i = 1, . . . , n, da variavel aleatoria Yi encontra-se. Considere, portanto,
Si = (Si1, . . . , SiK)> uma variavel indicadora na qual
Sik =
1, se Yi pertence a componente k
0, caso contrario
(3.17)
e∑K
k=1 Sik = 1. Dessa forma, condicional ao vetor de pesos η, as variaveis latentes S1, . . . ,Sn sao
independentes com densidade multinomial
p(Si|η) = ηSi11 ηSi2
2 . . . (1− η1 − · · · − ηK−1)SiK . (3.18)
28
Alem disso, a densidade conjunta de Y = (Y1, . . . ,Yn) e S = (S1, . . . ,Sn) e dada por
p(y, s|ϑ) =K∏k=1
n∏i=1
[ηkp(yi|θk)]Sik . (3.19)
Isto posto, sendo o vetor de alocacoes S nao observavel, portanto, desconhecido, segundo
Dempster et al. (1977), o modelo de misturas finitas pode ser visto como um problema de da-
dos incompletos atraves da introducao da variavel latente S. Como descrito em Tanner and Wong
(1987), em vista dessa tecnica de ampliacao de dados, condicional no vetor de alocacoes S, a
estimacao dos parametros pode ser executada independentemente para cada θk e para os pesos η.
3.4 Label Switching
Introduzido por Redner and Walker (1984) no contexto de modelos de misturas finitas, o termo label
switching faz referencia a invariancia da funcao de verossimilhanca quanto a mudanca na estiqueta
das componentes da mistura. Considerando processos de estimacao por maxima verossimilhanca,
nos quais busca-se encontrar os argumentos maximos correspondentes na funcao de verossimilhanca,
a questao de label switching nao e um objeto de interesse. Sob o ponto de vista bayesiano, no
entanto, trata-se de um topico relevante, ja que as etiquetas das categorias nao observadas mudam
durante o processo de amostragem da distribuicao a posteriori da mistura.
Portanto, sob a otica bayesiana, se a informacao a priori nao possibilita a discriminacao das
componentes da mistura, as distribuicoes a posteriori serao invariantes com relacao a todas per-
mutacoes possıveis de etiquetas. Consequentemente, os estimadores ergodicos obtidos atraves de
metodos de Monte Carlo via cadeias de Markov e gerados a partir de amostras das distribuicoes a
posteriori nao terao significado. Diante de tal desafio, a abordagem mais usual e impor restricoes
de ordem artificiais nos parametros do modelo, entretanto, escolhas distantes da realidade podem
implicar em resultados insatisfatorios.
Dessa forma, algoritmos mais sofisticados estao reportados na literatura. Stephens (2000), por
exemplo, mede a similaridade da distribuicao a posteriori do vetor de alocacoes atraves da funcao
perda de Kullback-Leibler. Yao and Lindsay (2009) propoe um algoritmo que usa cada amostra
do MCMC como um ponto inicial e etiqueta a amostra baseado na moda a posteriori para a qual
29
o algoritmo convergiu. Papastamoulis and Iliopoulos (2010) sugere uma classe de equivalencia
representativa para reduzir distribuicoes a posteriori simetricas em assimetricas. Neste trabalho,
optou-se por utilizar o metodo proposto por Stephens (2000).
3.4.1 Algoritmo KL
Suponha que se deseja utilizar o modelo de misturas finitas para separar as observacoes em K
grupos e como indicativo sobre a incerteza associada neste processo de separacao. Um caminho
natural para tal e reportar uma matriz Q = (qik), i = 1, . . . , n e k = 1, . . . ,K, na qual qik representa
a probabilidade de que a observacao i pertenca ao grupo k, logo∑K
k=1 qik = 1. Interpretando as
linhas de Q como vetores independentes de probabilidade, entao Q corresponde a distribuicao da
separacao dos dados em K grupos.
Considere que P (ϑ) denota a matriz construıda a partir das probabilidades de classificacao
(pij(ϑ)) na qual
pij(ϑ) = Pr(Si = j|yi,ϑ) =f(yi|θj)Pr(Si = j|ϑ)∑Kk=1 f(yi|θk)Pr(Si = k|ϑ)
. (3.20)
Uma opcao natural para medir a perda ao reportar Q quando os verdadeiros valores para os
parametros sao ϑ se da atraves da divergencia de Kullback-Leibler entre a distribuicao verdadeira
P (ϑ) e a distribuicao Q:
L0(Q;ϑ) =K∑
k1=1
· · ·K∑
kn=1
p1k1(ϑ) . . . pnk1(ϑ) log
[p1k1(ϑ) . . . pnk1(ϑ)
q1k1 . . . qnkn
](3.21)
=n∑i=1
K∑k=1
pik(ϑ) log
[pik(ϑ)
qik
]. (3.22)
Algoritmo 3. Algoritmo KL.
1 Escolher valores iniciais para ρS(1), . . . , ρS(T ) (permutacoes identidade por exemplo), T
numero de iteracoes do MCMC descontado o perıodo de aquecimento;
2 Encontrar Q = (qik) que minimize:
T∑t=1
n∑i=1
K∑k=1
pik
[ϑ
(t)ρS(t)
]log
pik[ϑ
(t)ρS(t)
]qik
; (3.23)
30
3 Para t = 1, . . . , T , encontrar ρS(t) que minimize:
n∑i=1
K∑k=1
pik
[ϑ
(t)ρS(t)
]log
pik[ϑ
(t)ρS(t)
]qik
; (3.24)
3 Repetir os passos 2 e 3 ate que um ponto fixo seja alcancado.
E possıvel mostrar que o passo 1 e atingido para qik = 1T
∑Tt=1 pij
[ϑ
(t)ρS(t)
]. Alem disso, o passo
2 e mais facilmente atingido examinando todas K! possibilidades para cada ρS(t).
3.5 Misturas de Escala Skew-Normal
Nesta secao, a classe de distribuicoes de misturas de escala skew -normal (Branco and Dey, 2001,
MESN) e introduzida. Primeiramente, a distribuicao skew -normal e descrita e, entao, uma versao
multivariada e derivada. Em um segundo momento, com base na representacao estocastica, a classe
de distribuicoes MESN e apresentada, com destaque para as distribuicoes skew -t e skew -slash. Por
fim, uma reparametrizacao e definida.
3.5.1 Distribuicao Skew-Normal
Seguindo a definicao estabelicida por Azzalini (1986), uma variavel aleatoria Z segue uma distri-
buicao skew -normal, Z ∼ SN(µ, σ2, λ), se sua funcao densidade de probabilidade e dada por
fZ(z) =2
σφ
(z − µσ
)Φ
(λ
(z − µσ
)), z ∈ <, (3.25)
onde φ(·) e Φ(·) sao, respectivamente, a funcao densidade de probabilidade (fdp) e a funcao de
distribuicao acumulada (fda) da normal padrao. Ademais, (µ, σ2, λ) ∈ <×<+×< sao os parametros
de locacao, escala e assimetria respectivamente.
Lema 1. Uma variavel aleatoria Z ∼ SN(µ, σ2, λ) possui representacao estocastica dada por
Z = µ+ σδW + σ√
1− δ2ε, (3.26)
onde W ∼ TN[0,∞)(0, 1) e ε ∼ N(0, 1) sao independentes e δ = λ/(√
1 + λ2). TNA(·, ·) e N(·, ·)
denotam a normal truncada no intervalo A e a distribuicao normal respectivamente.
31
Azzalini and Dalla Valle (1996) propoe uma versao multivariada da distribuicao skew -normal
por meio de uma generalizacao da representacao estocastica descrita pela equacao (3.26). Seja
V = (V1, . . . , Vq)′ ∈ <q tal que Vj = δjW +
√1− δ2εj , j = 1, . . . , q, onde W ∼ NT[0,+∞)(0, 1) e
ε = (ε1, . . . , εq)′ ∼ Nq(0,Σε) sao independentes e δj ∈ (−1, 1). Nq(·, ·) denote a distribuicao normal
multivariada. Logo, a transformacao Z = µ + σV com parametro de locacao µ = (µ1, . . . , µq)′ ∈
<q e matrix escala diagonal σ =Diag(σ1, . . . , σq), σj > 0, e imediatamente associada a seguinte
representacao estocastica
Zj = µj + σjδjW + σj
√1− δ2
j εj . (3.27)
A distribuicao resultante e denominada distribuicao skew -normal multivariada basica, Z ∼
SNq(µ,Σ,λ), com densidade
fZ(z) = 2φq(z− µ; Σ)Φ(λ′σ−1(z− µ)), (3.28)
onde φq(·) e a funcao distribuicao de probabilidade da normal padrao multivariada. E possıvel
relacionar λ e Σ aos parametros δ = (δ1, . . . , δq)′, σ e Σε na representacao estocastica (3.27)
atraves de
Σ = σΣσ, λ =1√
1− δ′δΣ−1δ, (3.29)
na qual Σ = ∆Σε∆+δδ′
e ∆ =Diag(√
1− δ21 , . . . ,
√1− δ2
q ). Alem disso, Σjj = (1− δ2j )(Σε)jj +
δ2j = 1, entao Σjj = ω2
j , consequentemente, Σ e a matriz de correlacao.
Considerandos os parametros (µ,Σ,λ), os parametros (δ,σ,Σε) na representacao estocastica
(3.27) sao obtidos atraves de
δ =1
1 + λ′Σλ
Σλ, Σε = ∆−1Σ∆−1 − λλ′, (3.30)
onde Σ = σ−1Σσ−1, σ =Diag(Σ)1/2 matriz diagonal obtida a partir dos elementos da diagonal de
Σ, λ = (λ1, . . . , λ1) na qual λj = δj/√
1− δj e ∆ como previamente definido.
3.5.2 Distribuicoes de Misturas de Escala Skew-Normal
Seja Z uma variavel aleatoria tal que Z ∼ SN(0, σ2, λ). Uma variavel aleatoria Y e da classe de
distribuicoes de misturas de escala skew -normal, Y ∼MESN(µ, σ2, λ,H), se puder ser escrita da
32
seguinte forma
Y = µ+ k1/2(U)Z, (3.31)
onde µ, k(·) e U sao, respectivamente, o parametro de locacao, uma funcao peso positiva e uma
variavel aletoria com funcao de distribuicao acumulada H(·;ν) e funcao densidade de probabilidade
h(·;ν) na qual ν e um escalar ou vetor de parametros indexados pela distribuicao de U .
Lema 2. Uma variavel aleatoria Y ∼ MESN(µ, σ2, λ,H) possui representacao estocastica dada
por
Y = µ+ σδk1/2(U)W + k1/2(U)σ√
1− δ2ε, (3.32)
onde W ∼ TN[0,+∞)(0, 1) e ε ∼ N(0, 1) sao independentes e δ = λ/(√
1 + λ2).
Proposicao 1. Seja Y uma variavel aleatoria tal que Y ∼MESN(µ, σ2, λ,H) e seja U ∼ H um
fator misturador de escala aleatorio, entao
E[Y ] = µ+
√2
πm1∆, if E[U−1/2] <∞ (3.33)
V ar[Y ] = m2σ2 − 2
πm2
1∆2, if E[U−1] <∞, (3.34)
onde ∆ = σδ and mj = E[U−j/2].
Uma variavel aleatoria Y pertence a classe de distribuicoes de misturas de escala skew -normal
multivariada, Y ∼MESNq(µ,Σ,λ, H), se puder ser escrita como
Y = µ+ k1/2(U)Z, (3.35)
onde Z ∼ SNq(0,Σ,λ).
Ao longo deste trabalho, a metodologia desenvolvida esta restrita aos casos em que k(U) = U−1.
Como mencionado anteriormente, a classe de distribuicoes MESN engloba uma famılia de distri-
buicoes assimetricas e de caudas pesadas, incluindo as distribuicoes skew -normal, skew -t e skew -
slash, as quais sao obtidas, respectivamente, escolhendo as variaveis de mistura como: U = 1,
U ∼ G(ν2 ,ν2 ) e U ∼ Be(ν, 1), onde G(·, ·) e Be(·, ·) indicam as distribuicoes gama e beta respecti-
vamente.
33
3.5.3 Reparametrizacao
Seguindo Fruhwirth-Schnatter and Pyne (2010), com o intuito de obter condicionais completas
de forma fechada na secoes seguintes, uma parametrizacao em termos de θ∗ = (µ, ψ, τ2, ν) sera
aplicada para as distribuicoes de misturas de escala skew -normal, dessa forma, a representacao
estocastica dada pela equacao (3.32) e reescrita como
Y = µ+ ψk1/2(U)W + k1/2(U)τε, (3.36)
onde ψ = σδ e τ2 = σ2(1− δ2). O vetor parametrico original θ = (µ, σ2, λ, ν) pode ser recuperado
atraves de
λ =ψ
τ, σ2 = τ2 + ψ2. (3.37)
Introduzindo o novo vetor parametrico θ∗ = (µ,ψ,Ω, ν), e igualmente possıvel encontrar uma
representacao semelhante para o caso de distribuicoes de misturas de escala skew -normal multiva-
riada:
Y = µ+ψW + ε, (3.38)
onde ψ = (ψ1, . . . , ψp)′, ψj = σjδj , Ω = Σ − ψψ′ , ε ∼ Np(0, k
1/2(U)Ω) e W |U = u ∼
TN[0,+∞)(0, k1/2(u)). O vetor parametrico original θ = (µ,Σ,λ, ν) e recuperado atraves de
Σ = Ω +ψψ′, λ =
1√1−ψ′Σ−1ψ
σΣ−1ψ, (3.39)
lembrando que σ =Diag(Σ)1/2 e a matriz diagonal obtida a partir dos elementos da diagonal de Σ.
34
Capıtulo 4
Misturas Finitas de Misturas de
Escala Skew-Normal
4.1 Introducao
Este capıtulo e dedicado ao desenvolvimento e implementacao da primeira proposta deste trabalho.
Para tal efeito, a secao 4.2 introduz a especificacao do modelo de misturas finitas de misturas
de escala skew -normal (FM-MESN), a secao 4.3 descreve todo o arcabouco bayesiano necessario.
Posteriormente, a secao 4.4 apresenta uma analise com dados artificiais. Finalmente, na secao 4.5
sao apresentadas duas aplicacoes: uma univariada e outra bivariada, focando, em ambos casos, nos
modelos de misturas finitas de skew -normal (FM-SN), de misturas finitas de skew -t (FM-ST) e de
misturas finitas de skew -slash (FM-SSL). Por ultimo, na secao 4.6, algumas consideracoes finais
sao levantadas.
4.2 O Modelo
Considere um modelo de misturas finitas comK componentes (K > 1) no qual o conjunto y1, . . . ,yn
tem origem numa mistura de distribuicoes MESNq dada por
f(yi|ϑ,η) =K∑k=1
ηkg(yi|θ∗k), (4.1)
35
onde ηk > 0, k = 1, . . . ,K,∑K
k=1 ηk = 1 e g(·|θ∗k) denota a fdp de uma MESNq(θ∗k). Tambem, ϑ e
η denotam os parametros desconhecidos, onde ϑ = (θ∗1, . . . ,θ∗K) e η = (η1, . . . , ηK). De acordo com
a reparametrizacao introduzida na subsecao 3.5.3, θ∗k = (µk, ψk, τ2k , νk) ou θ∗k = (µk,ψk,Ωk, νk)
sao os parametros especıficos da componente k para q = 1 ou q ≥ 2 respectivamente. No contexto
de misturas, tal modelo fornece uma base flexıvel de ajuste em amostras coletadas a partir de
populacoes que apresentem heterogeneidade nao observada, alem de assimetria e caudas pesadas.
A partir da introducao do vetor de alocacoes S = (S1, . . . ,Sn) como descrito na subsecao 3.3 e
da estrutura hierarquica que surge com a representacao estocastica e com as variaveis latentes W =
(W1, . . . ,Wn) e U = (U1, . . . , Un), uma variavel aleatoria Yi pertencente a k-esima componente
de um modelo de misturas finitas de misturas de escala skew -normal pode ser escrita da seguinte
forma
Yi|θ∗k, wi, ui, Sik = 1 ∼ Np(µk +ψkwi, u−1i Ωk),
Wi|ui, Sik = 1 ∼ TN[0,+∞)(0, u−1i ), (4.2)
Ui|Sik = 1, νk ∼ h(·;νk).
Portanto, a densidade conjunta de Y e as variaveis latentes S, W e U e
f(y, s,w,u|ϑ,η) =
K∏k=1
[ n∏i=1
[ηkf(yi|θ∗k, wi, ui)f(wi|ui)f(ui|νk)]Sik
]p(s | η). (4.3)
4.3 Inferencia Bayesiana
Na implementacao de uma analise bayesiana, o primeiro passo consiste em selecionar as distribuicoes
a priori. Em modelos de misturas finitas de distribuicoes, e necessaria uma atencao especial nessas
escolhas ja que nao e possıvel optar por prioris improprias, pois as mesmas implicam em densidades
a posteriori tambem improprias (Fruhwirth-Schnatter, 2006). Adicionalmente, como notado por
Jennison (1997), e recomendavel evitar ser tao “nao informativo quanto possıvel”, escolhendo prioris
vagas, porque o numero de componentes e altamente influenciado por tais escolhas. A fim de
contornar esses problemas, como em Fruhwirth-Schnatter and Pyne (2010), foi adotada a estrutura
de prioris hierarquicas, introduzidas por Richardson and Green (1997) para misturas de normais,
com o intuito de reduzir a sensibilidade do modelo quanto a escolha das prioris.
36
Dessa forma, tomando uma componente k arbitraria da mistura, o seguinte conjunto de pri-
oris foi especificado: η ∼ D(e0, . . . , e0), (µk, ψk)|τ2k ∼ N2(b0, τ
2kB0), τ2
k |C0 ∼ IG(c0, C0) e C0 ∼
G(g0, G0), onde e0, b0 ∈ <2, B0 ∈ <2×2, c0, g0 e G0 sao hiperparametros conhecidos, D(·, . . . , ·)
e IG(·, ·) indicam as distribuicoes dirichlet e gama inversa respectivamente. Considerando o caso
multivariado, extensoes da prioris anteriores foram escolhidas: η ∼ D(e0, . . . , e0), (µk,ψk)|Ωk ∼
N2×q(b0,B0,Ωk), Ωk|C0 ∼ IW (c0, C0), C0 = diag(ζ1, . . . , ζp), e ζj ∼ G(g0, G0), j = 1, . . . , q, onde
e0, b0 ∈ <2×q, B0 ∈ <2×2, c0, g0 e G0 sao hiperparametros conhecidos, Np×q(·, ·, ·) e IW (·, ·) deno-
tam as distribuicoes matriz normal e Wishart inversa respectivamente. Por fim, para os parametros
νk, as prioris νk ∼ G(1,∞)(α, γ) e νk ∼ G(1,40)(α, γ), nas quais α e γ sao hiperparametros conhecidos
e GA(·, ·) denota a gama truncada no intervalo A, foram especificadas para os modelos FM-ST e
FM-SSL respectivamente.
A distribuicao conjunta a posteriori dos parametros e das variaveis latentes nao observadas
pode ser escrita como
p(ϑ,η,w,u, s|y) ∝
K∏k=1
[ n∏i=1
[ηkf(yi|θ∗k, wi, ui)f(wi|ui)f(ui|νk)]Sik
]p(θ∗k)
p(s | η)p(η), (4.4)
onde p(θ∗k) = p(µk,ψk|Ωk)p(Ωk|C0)p(C0)p(νk). Como descrito na secao 3.3, condicional no vetor
de alocacoes S, a estimacao dos parametros pode ser executada independentemente para cada
componente parametrica θ∗k e para distribuicao dos pesos. Consequentemente, as distribuicoes
condicionais completas dos parametros e das variaveis latentes para um modelo de misturas finitas
37
de MESN sao escritas da seguinte forma:
p(η|s) ∝ p(s|η)p(η) (4.5)
p(wi|Sik = 1, · · · ) ∝ [f(yi|θ∗k, wi, ui)f(wi|ui)]Sik , (4.6)
p(ui|Sik = 1, · · · ) ∝ [f(yi|θ∗k, wi, ui)f(wi|ui)f(ui|νk)]Sik , (4.7)
p(µk,ψk| · · · ) ∝∏
i:Sik=1
f(yi|θ∗k, wi, ui)p(µk,ψk|Ωk), (4.8)
p(Ωk| · · · ) ∝∏
i:Sik=1
f(yi|θ∗k, wi, ui)p(Ωk|C0), (4.9)
p(C0| · · · ) ∝K∏k=1
p(Ωk|C0)p(C0), (4.10)
p(νk| · · · ) ∝∏
i:Sik=1
f(ui|νk)p(νk). (4.11)
Detalhes adicionais sobre as distribuicoes condicionais completas estao disponıveis no Apendice A.1
e Apendice A.2.
Com o intuito de tornar a analise bayesiana factıvel quanto a estimacao dos parametros na
classe de modelos FM-MESN, amostras aleatorias das distribuicoes a posteriori de (ϑ,η,w,u, s)
dado y sao extraıdas atraves de metodos de simulacao de Monte Carlo via Cadeias de Markov. O
algoritmo 4 descreve o processo de amostragem a partir das distribuicoes condicionais completas
dos parametros e das variaveis latentes nao observadas. Pos processado o MCMC, com o objetivo
de tratar o problema de label switching, o algoritmo Kullback-Leibler introduzido por Stephens
(2000) e aplicado.
Algoritmo 4. MCMC para misturas finitas de misturas de escala skew-normal.
1 Inicializar t = 1 e estipular os valores para S(0), (θ∗(0)1 , . . . ,θ
∗(0)K ), η(0), w(0) e u(0);
2 Simulacao dos parametros condicionados na classificacao S(t−1):
2.1 Gerar η(t) a partir de p(η|s(t−1));
2.2 Gerar as variaveis latentes w(t)i e u
(t)i de cada componente, i = 1, . . . , n, a partir das
condicionais completas (4.6)-(4.7) e os parametros µ∗(t)k ,ψ
∗(t)k ,Ω
∗(t)k , ν
∗(t)k , k = 1, . . . ,K,
a partir das condicionais completas (4.8)-(4.11).
38
3 Gerar S(t)i independentemente para cada i = 1, . . . , n a partir de
Pr(Si = j|xi,ϑ) =g(xi|θ∗j )Pr(Si = j|ϑ)∑Kk=1 g(xi|θ∗k)Pr(Si = k|ϑ)
. (4.12)
4 Fazer t = t+ 1 e repetir os 2, 3 e 4 ate a convergencia ser atingida.
4.4 Estudo com Dados Artificiais
A fim de verificar a efetividade do processo de inferencia e algoritmo propostos, um estudo com
dados artificiais e realizado. Com este proposito, amostras dos modelos de misturas finitas de
skew -normal (FM-SN), skew -t (FM-ST) e skew -slash (FM-SSL) sao artificialmente geradas e entao
e verificado se a metodologia adotada e capaz de recuperar o modelo original. Dois estudos serao
de fato propostos, um para o caso univariado e outro para o caso multivariado, no qual serao
trabalhados dados bivariados.
4.4.1 Caso Univariado
Neste caso, um modelo de misturas finitas com K = 2 componentes sera considerado e uma
amostra de 300 observacoes sera tomada. Para o modelo de misturas finitas de skew -normal, os
valores simulados sao (µ1, µ2) = (2,−2), (σ21, σ
22) = (9, 25), (λ1, λ2) = (5,−5) e (η1, η2) = (0.6, 0.4).
Para os modelos de misturas finitas de skew -t e skew -slash, os valores anteriores sao contemplados
e (ν1, ν2) = (8, 4) e adicionado.
O conjunto de hiperparametros das prioris descritas na secao 4.3 consiste em: e0 = 4, b0 = (0, 0),
B0 = Diag(100, 100), c0 = 2.5, g0 = 0.5 + (r − 1)/2, r = 2, G0 = g0(ρSx)−1, ρ = 0.5, no qual
Sx e a variancia amostral. Para os modelos de misturas finitas de skew -t e skew -slash, α = 2 e
γ = 0.1 sao especificados (Juarez and Steel, 2010). Uma simulacao do algoritmo MCMC 4 com
50000 iteracoes foi gerada, as primeiras 10000 foram descartadas como perıodo de aquecimento e,
entao, as 40000 seguintes foram salvas. Com o objetivo de reduzir a autocorrelacao entre valores
sucessivos da cadeia simulada, um espacamento de tamanho 40 foi exigido. Por fim, as estimativas
a posteriori foram realizadas com base numa amostra de tamanho 1000.
39
Tabela 4.1: Resultados para os ajustes dos modelos FM-MESN aos dados artificiais univariados.
ParametrosFM-SN FM-ST FM-SSL
VERDADEIRO 95% VERDADEIRO 95% VERDADEIRO 95%
µ1 2 (1.641,2.195) 2 (1.474,2.318) 2 (1.636,2.442)
µ2 -2 (-2.679,-1.642) -2 (-2.652,-1.633) -2 (-1.998,-0.853)
σ21 9 (6.246,10.486) 9 (4.956,12.648) 9 (6.354,12.537)
σ22 25 (17.850,32.395) 25 (13.463,37.211) 25 (22.548,47.374)
λ1 5 (2.858,8.188) 5 (1.832,6.808) 5 (1.839,7.189)
λ2 -5 (-10.558,-3.350) -5 (-13.614,-3.203) -5 (-12.811,-4.044)
η1 0.6 (0.546,0.654) 0.6 (0.539,0.649) 0.6 (0.538,0.646)
η2 0.4 (0.346,0.453) 0.4 (0.350,0.460) 0.4 (0.353,0.461)
ν1 - - 8 (2.765,19.149) 8 (2.029,26.644)
ν2 - - 4 (1.784,6.846) 4 (1.811,23.300)
A tabela 4.1 resume os resultados obtidos. Esta consiste nos valores ja enumerados anteri-
ormente e no intervalo de credibilidade de maxima densidade a posteriori (HPD, abreviacao do
ingles de high posterior density) a 95%. E possıvel verificar que os intervalos contem os valores
verdadeiros, como conclusao, assume-se que o procedimento desenvolvido e capaz de recuperar os
parametros dos modelos originais.
4.4.2 Caso Multivariado
Novamente, um modelo de misturas finitas com K = 2 componentes sera considerado e uma
amostra de 300 observacoes sera tomada. Para o modelo de misturas finitas de skew -normal mul-
tivariada, (µ11, µ21) = (2,−2), (µ21, µ22) = (2,−2), (Σ1,11,Σ2,11) = (9, 16), (Σ1,12,Σ2,12) = (0, 5),
(Σ1,22,Σ2,22) = (4, 25), (λ11, λ21) = (5,−5), (λ12, λ22) = (5,−5) and (η1, η2) = (0.6, 0.4). Como no
caso univariado, para os modelos de misturas finitas de skew -t e skew -slash, os valores anteriores
sao contemplados e (ν1, ν2) = (8, 4) e adicionado.
O conjunto de hiperparametros das prioris descritas na secao 4.3 consiste em: e0 = 4, b0 =
(0, 0, 0, 0), B0 = Diag(100, 100), c0 = 3, g0 = 0.01 e G0 = 0.01. Para os modelos de misturas finitas
de skew -t e skew -slash, α = 2 e γ = 0.1 sao especificados (Juarez and Steel, 2010). Uma simulacao
do algoritmo MCMC 4 com 50000 iteracoes foi gerada, as primeiras 10000 foram descartadas como
perıodo de aquecimento e, entao, as 40000 seguintes foram salvas. Com o objetivo de reduzir a
40
Tabela 4.2: Resultados para os ajustes dos modelos FM-MESN aos dados artificiais bivariados.
ParametrosFM-SN FM-ST FM-SSL
VERDADEIRO 95% VERDADEIRO 95% VERDADEIRO 95%
µ11 2 (1.299,2.620) 2 (1.670,3.038) 2 (1.084,2.570)
µ12 2 (1.677,2.603) 2 (1.390,2.437) 2 (1.635,2.739)
µ21 -2 (-3.301,-1.105) -2 (-2.145,-0.178) -2 (-2.565,-0.442)
µ22 -2 (-3.064,-0.836) -2 (-4.292,-1.272) -2 (-3.623,-0.960)
λ11 5 (2.164,6.328) 5 (1.936,6.474) 5 (2.233,5.560)
λ12 5 (2.338,6.773) 5 (1.806,6.433) 5 (1.868,5.351)
λ21 -5 (-6.666,-1.465) -5 (-16.256,-4.041) -5 (-9.072,-2.397)
λ22 -5 (-8.531,-2.294) -5 (-10.998,-1.844) -5 (-6.748,-1.702)
Σ1,11 9 (6.486,12.050) 9 (4.980,10.022) 9 (6.441,13.101)
Σ1,12 0 (-1.414,0.539) 0 (-0.837,1.294) 0 (-1.741,0.334)
Σ1,22 4 (3.296,6.134) 4 (2.968,6.162) 4 (2.890,5.971)
Σ2,11 16 (10.961,23.874) 16 (13.729,34.315) 16 (13.879,33.041)
Σ2,12 5 (0.680,10.760) 5 (2.348,14.733) 5 (0.159,11.008)
Σ2,22 25 (16.563,36.986) 25 (14.466,43.108) 25 (13.033,32.327)
η1 0.6 (0.545,0.648) 0.6 (0.543,0.651) 0.6 (0.544,0.651)
η2 0.4 (0.351,0.454) 0.4 (0.348,0.456) 0.4 (0.348,0.455)
ν1 - - 8 (6.567,31.171) 8 (3.118,26.116)
ν2 - - 4 (2.356,9.128) 4 (2.499,23.330)
autocorrelacao entre valores sucessivos da cadeia simulada, um espacamento de tamanho 40 foi
exigido. Por fim, as estimativas a posteriori foram realizadas com base numa amostra de tamanho
1000.
A tabela 4.2 resume os resultados obtidos e, como na secao anterior, contem os valores valores
verdadeiros e os intervalos de credibilidade de maxima densidade a posteriori a 95%. Como no caso
univariado, os intervalos contem os valores verdadeiros e, entao, assume-se que o procedimento
desenvolvido e capaz de recuperar os parametros dos modelos originais.
4.5 Aplicacao
Uma vez realizada a aplicacao dos metodos desenvolvidos para dados artificiais, o proximo passo
e aplicar a metodologia a conjuntos de dados reais. Para tal, dois conjuntos conhecidos no con-
41
texto de misturas finitas serao analisados. O primeiro, como aplicacao dos modelos univariados
propostos, consiste em ındices de massa corporea (IMC) de uma amostra coletada para estudos nos
Estados Unidos da America. O segundo, como aplicacao dos modelos multivariados, sao dados de
indicadores suıcos socioeconomicos e de fertilidade no ano de 1888.
4.5.1 Indice de Massa Corporea
Nesta aplicacao, o ındice de massa corporea (IMC) de homens com idade entre 18 e 80 anos e
analisado. Este conjunto de dados esta presente em diversos estudos no tema de misturas finitas
como Lin, Lee and Hsieh (2007), Lin, Lee and Yen (2007) e Basso et al. (2010) e tem origem no
exame nacional de saude e nutricao, realizado pelo Centro Nacional para Estatısticas de Saude
(NCHS, abreviacao do ingles de National Center for Health Statistics) vinculado ao Centro para
Controle de Doencas (CDC, abreviacao do ingles de Center for Disease Control) nos Estados
Unidos da America. O IMC, expresso em kg/m2, e a razao entre a massa corporal em kilogramas
e a altura ao quadrado em metros quadrados e e conhecido como uma medida padrao de sobrepeso
e obesidade.
A amostra original consiste em 4579 observacoes de IMC, no entanto, como em Lin, Lee and
Hsieh (2007), Lin, Lee and Yen (2007) e Basso et al. (2010), mirando uma melhor exploracao
das caracterısticas das misturas, sao considerados apenas aqueles participantes com peso entre
[39.50kg, 70.00kg] e [95.01kg, 196.80kg]. Em consequencia, a amostra permanecente e composta por
dois subgrupos: o primeiro formado por 1069 participantes e o segundo, por 1054 participantes.
Isto posto, os modelos univariados FM-SN, FM-ST e FM-SSL serao ajustados aos dados con-
textualizados acima. O conjunto de hiperparametros das prioris foi definido como: e0 = 4,
b0 = (0, 0, 0, 0), B0 = Diag(100, 100), c0 = 3, g0 = 0.01 and G0 = 0.01. Para os modelos de
misturas finitas de misturas de escala skew -normal, α = 2 and γ = 0.1 (Juarez and Steel, 2010)
foram especificados. Assim como nos estudos simulados, 50000 iteracoes do algoritmo MCMC 4
foram geradas, sendo as primeiras 10000 descartadas como perıodo de aquecimento e, entao, as
40000 seguintes salvas. Com o objetivo de reduzir a autocorrelacao entre valores sucessivos da
cadeia simulada, um espacamento de tamanho 40 foi exigido. Por fim, as estimativas a posteriori
42
Tabela 4.3: Resultados para os ajustes dos modelos FM-MESN aos dados de IMC.
ParametrosFM-SN FM-ST FM-SSL
MODA 95% MODA 95% MODA 95%
µ1 21.102 (19.952,22.706) 20.711 (19.732,21.939) 20.695 (19.940,21.600)
µ2 28.296 (27.692,28.732) 29.107 (28.585,29.715) 28.775 (28.292,29.332)
σ21 5.578 (4.484,8.426) 5.705 (4.508,9.434) 5.732 (4.186,8.138)
σ22 64.000 (57.248,71.870) 39.810 (31.529,49.980) 35.927 (27.002,45.219)
λ1 0.305 (-0.601,1.166) 0.647 (-0.251,1.292) 0.605 (0.030,1.159)
λ2 3.286 (2.284,4.131) 2.377 (1.659,3.289) 2.904 (2.178,3.768)
η1 0.484 (0.453,0.513) 0.491 (0.463,0.516) 0.487 (0.463,0.516)
η2 0.516 (0.487,0.547) 0.509 (0.484,0.537) 0.513 (0.484,0.537)
ν1 - - 31.914 (12.671,78.699) 8.840 (3.450,31.672)
ν2 - - 7.050 (4.538,12.265) 2.588 (1.786,3.804)
BIC 13808.20 13790.21 13790.62
AIC 13768.63 13739.34 13739.74
foram realizadas com base numa amostra de tamanho 1000.
A tabela 4.3 contem as estimativas dos parametros com base no maximo a posteriori e os
intervalos de credibilidade de maxima densidade a posteriori a 95% para os modelos sob analise:
FM-SN, FM-ST and FM-SSL. Adicionalmente, foram computados o AIC e BIC como criterios de
comparacao de modelos. Os valores obtidos para os criterios apontam que o modelo FM-ST possui
melhor ajuste, seguido pelo modelo FM-SSL. Um ponto interessante a ser destacado e que esses
resultados estao em linha com os apresentados por Basso et al. (2010), ja que os autores chegaram
a conclusoes semelhantes quanto aos modelos FM-ST e FM-SSL.
A figura 4.1 apresenta uma comparacao grafica entre os tres modelos sob analise neste capıtulo
quando aplicados a estimacao de densidades. Em prol de uma melhor visualizacao, os ajustes
resultantes foram sobrepostos em um unico conjuntos de eixos. Analisando a figura, sao observados
indıcios que apontam para os modelos FM-MESN com caudas pesadas (FM-ST e FM-SSL) em
detrimento do modelo FM-SN. Sob este ponto de vista, e possıvel dizer que ambas as analises, a
baseada em criterios de comparacao de modelos e a grafica, apontam para os modelos FM-MESN
com caudas pesadas como os que possuem resultados mais satisfatorios.
Tambem na figura 4.1, uma analise visual indica que a primeira componente apresenta um
43
BMI
Den
sity
20 30 40 50 60
0.00
0.04
0.08
FM−SNFM−STFM−SSL
Figura 4.1: Histograma das observacoes de IMC com ajuste dos modelos FM-SN, FM-ST e FM-SSL.
comportamento proximo do simetrico. Reafirmando os resultados postos na tabela 4.3, a figura
4.2 ilustra muito bem a observacao anterior no sentido que para os modelos FM-SN e FM-ST os
intervalos de credibilidade para os parametros de assimetria da primeira componente contem o 0
e, para o modelo FM-SSL, a banda inferior do intervalo de credibilidade esta muito proxima de 0.
Outro ponto interessante que vale ser destacado e que, a partir da analise visual, apenas a segunda
componente aparenta possuir caudas pesadas e essas caracterısticas sao claramente confirmadas
pelos dados apresentados na tabela 4.3. Em comparacao com Basso et al. (2010), estimar um grau
de liberdade especıfico para cada componente e uma vantagem da metodologia desenvolvida neste
trabalho, ja que Basso et al. (2010) estima apenas um grau de liberdade para todo conjunto de
componentes.
4.5.2 Indicadores Suıcos de Fertilidade e Socioeconomicos (1888)
Como aplicacao dos modelos multivariados propostos nesta dissertacao, os dados de indicadores
suıcos de fertilidade e socieconomicos (Mosteller and Tukey, 1977) e estudado. Em 1888, a Suıca
estava entrando em um perıodo conhecido como transicao demografica, isto e, os altos nıveis de
fertilidade, tıpicos de paıses subdesenvolvidos, estavam comecando a decrescer e a expectativa de
44
FM−SN
λ1
Den
sity
−1.0 −0.5 0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
FM−ST
λ1
Den
sity
−0.5 0.0 0.5 1.0 1.5
0.0
0.4
0.8
FM−SSL
λ1
Den
sity
0.0 0.5 1.0 1.5
0.0
0.4
0.8
1.2
Figura 4.2: Histograma das amostras a posteriori dos parametros de assimetria da primeira com-
ponente.
vida, por sua vez, estava aumentando. O conjunto de dados consiste em 47 observacoes, equivalentes
as 47 regioes da parte francesa do paıs, de 6 variaveis: fertilidade, homens envolvidos na agricultura
como ocupacao, alistados com altos graus nos exames militares, educacao alem da escola primaria
por alistados, catolicos (como oposto de prostestantes) e mortalidade infantil, cada uma dessas em
percentual. Para a presente analise as variaveis homens envolvidos na agricultura como ocupacao
e catolicos (como oposto de prostestantes) foram escolhidas.
Considerando o processo de estimacao para os modelos FM-SN, FM-ST e FM-SSL, o conjunto
de hiperparametros das prioris foi definido como: e0 = 4, b0 = (0, 0, 0, 0), B0 = Diag(100, 100),
c0 = 3, g0 = 0.01 e G0 = 0.01. Para os modelos de misturas finitas de misturas de escala skew -
normal, α = 2 and γ = 0.1 (Juarez and Steel, 2010) foram especificados. Cerca de 20000 iteracoes
do algoritmo MCMC 4 foram geradas, sendo as primeiras 10000 descartadas como perıodo de
aquecimento e, entao, as 10000 seguintes salvas. Com o objetivo de reduzir a autocorrelacao entre
valores sucessivos da cadeia simulada, um espacamento de tamanho 10 foi exigido. Por fim, as
estimativas a posteriori foram realizadas com base numa amostra de tamanho 1000.
Assim como no caso univariado, a tabela 4.4 contem, para os modelos sob analise, as estimatiti-
vas dos parametros com base no maximo a posteriori e seus respectivos intervalos de credibilidade
de maxima densidade a posteriori a 95%. Alem disso, o AIC e o BIC foram computados com a fini-
lidade de viabilizar a comparacao de modelos. Os critetios de comparacao de modelos indicam que
o modelo FM-SSL possui o pior desempenho. Considerando o BIC, os modelos FM-SN e FM-ST
apresentam desempenhos similares, entretanto, se o AIC e considerado, o modelo FM-ST aparenta
45
Tabela 4.4: Resultados para os ajustes dos modelos FM-MESN aos dados de indicadores suıcos.
ParametrosFM-SN FM-ST FM-SSL
MODA 95% MODA 95% MODA 95%
µ11 87.427 (29.045,97.647) 87.532 (30.860,97.672) 87.5 (35.483,98.778)
µ12 100.141 (86.866,103.712) 100.184 (89.077,104.662) 99.955 (91.209,105.221)
µ21 49.072 (38.395,59.599) 56.897 (45.339,71.240) 51.827 (41.029,63.883)
µ22 0.507 (-3.021,2.518) 1.523 (-1.360,2.794) 1.247 (-1.994,2.729)
λ11 -6.775 (-15.933,15.315) -6.72 (-19.682,11.932) -6.826 (-18.640,8.252)
λ12 0.583 (-1.808,3.072) 0.964 (-2.205,5.249) 0.871 (-1.051,3.963)
λ21 0.221 (-2.503,1.699) -0.192 (-4.419,1.602) 0.15 (-2.264,1.466)
λ22 12.997 (4.774,23.096) 8.789 (1.477,21.359) 10.969 (4.081,23.088)
Σ1,11 872.294 (274.968,2223.432) 847.312 (281.735,2525.836) 808.065 (197.624,2090.774)
Σ1,12 157.049 (27.186,469.581) 152.911 (8.761,497.579) 149.423 (18.688,439.377)
Σ1,22 35.119 (12.862,117.271) 33.963 (11.165,125.440) 33.818 (11.531,114.803)
Σ2,11 450.877 (261.462,824.438) 379.221 (164.541,811.044) 261.514 (104.777,590.160)
Σ2,12 -176.923 (-405.683,23.018) -89.898 (-346.656,-1.259) -60.531 (-254.649,21.754)
Σ2,22 345.604 (224.073,581.244) 79.389 (23.646,420.725) 63.344 (23.241,444.708)
η1 0.363 (0.229,0.485) 0.367 (0.227,0.491) 0.368 (0.246,0.494)
η2 0.637 (0.515,0.771) 0.633 (0.509,0.773) 0.632 (0.506,0.754)
ν1 - - 11.842 (1.304,46.481) 14.783 (3.757,37.219)
ν2 - - 2.759 (1.017,20.992) 2.683 (1.000,28.920)
BIC 829.86 829.68 842.84
AIC 802.11 798.23 811.39
46
possuir o melhor ajuste para os dados.
20 40 60 80 100
020
6010
0
FM−SN
Agriculture
Cat
holic
20 40 60 80 100
020
6010
0
FM−ST
Agriculture
Cat
holic
20 40 60 80 100
020
6010
0
FM−SSL
Agriculture
Cat
holic
Figura 4.3: Ajuste dos modelos FM-SN, FM-ST e FM-SSL aos dados de indicadores suıcos.
A figura 4.3 permite a visualizacao dos resultados obtidos atraves da metodologia desenvolvida.
Analisando a mesma, nota-se que apenas a segunda componente aparenta possuir caudas pesadas.
Ilustrando os resultados introduzidos atraves da tabela 4.4, a figura 4.4 reforca esta percepcao
dado que os intervalos de credibilidade da segunda componente estao em intervalos que consideram
valores muito menores que os intervalos para os graus de liberdade da primeira componente.
4.6 Consideracoes
Neste capıtulo, foram introduzidas as misturas finitas de misturas de escala skew -normal tanto
para o caso univariado quanto para o multivariado. Com o intuito de verificar a capacidade dos
metodos apresentados recuperarem modelos originais, ajustes com dados artificiais univariados e
bivariados foram realizados. Posteriormente, ajustes com dados reais tambem nos casos univariados
47
ν1
Den
sity
0 20 60
0.00
0.02
ν2
0 10 30
0.00
0.10
FM−ST
ν1
Den
sity
0 10 30
0.00
0.02
0.04
ν2
0 10 30
0.00
0.06
0.12
FM−SSL
Figura 4.4: Histograma das amostras a posteriori dos graus de liberdade da segunda componente.
e bivariados foram implementados. A partir dos resultados, foi possıvel verificar a utilidade da
metodologia e tambem os benefıcios gerados pela maior flexibilidade da abordagem deste trabalho
em comparacao a Basso et al. (2010). Esta menor rigidez na modelagem permite uma maior
exploracao das caracterısticas de cada componente.
A Apendice
A.1 Distribuicoes condicionais completas para os modelos de misturas finitas
de misturas de escala skew-normal
Considerando o modelo FM-SN e assumindo que Fn×2 = (1 w), para cada k = 1, . . . ,K, a matriz
Fk ∈ <Nk×2, Nk =∑n
i=1 Sik, e construıda. Similarmente, a matriz de observacoes yk ∈ <Nk×p e
formada. Logo, pelo teorema de Bayes, as condicionais completas sao
η|s ∼ D(e0 +N1, . . . , e0 +NK);
(µk, ψk)|s,y,w, τ2k ∼ N2(bk,Bk);
Bk =(
1τ2k
B−10 + 1
τ2k(F′kFk)
)−1
bk = B(
1τ2k
B−10 b0 + 1
τ2k(F′kyk)
) τ2
k |s,y,w, C0, µk, ψk ∼ IG(ck, Ck);
48
ck = c0 + Nk2 + 1
2
Ck = C0 +(yk−Fkβk)
′(yk−Fkβk)+(βk−b0)
′B−1
0 (βk−b0)2
C0|τ21 , . . . , τ
2K ∼ G(g,G).
g = g0 +Kc0
G = G0 +∑K
k=11τ2k
onde βk = (µk ψk)′. Considerando a variavel latente W
Wi|Sik = 1, yi, µk, ψk, τ2k ∼ TN[0,+∞)(a,A);
a = (yi−µk)ψk
τ2k+ψ2k
A =τ2k
τ2k+ψ2k
Para os modelos FM-ST e FM-SSL, as condicionais completas assumem formato muito se-
melhante, a diferenca consiste em substituir F por Fwn×2 = (
√u√
uw) e y, por yw =√
uy.
Considerando agora a variavel latente W
Wi|Sik = 1, yi, ui, µk, ψk, τ2k ∼ TN[0,+∞)(a,A/ui).
Por ultimo, para a variavel latente U e para os parametros νk
Skew-T
Ui|Sik = 1, yi, wi, νk, µk, ψk, τ2k ∼ G
(νk2 + 1, νk2 + (yi−µk−ψkwi)
2
2τ2+
w2i
2
);
Skew-Slash
Ui|Sik = 1, yi, wi, νk, µk, ψk, τ2k ∼ G(0,1)
(νk + 1, (yi−µk−ψkwi)
2
2τ2+
w2i
2
);
νk|s,u ∼ G(1,40)(α+Nk, γ −∑
i:Sik=1 ui)
Para os graus de liberdade da skew -t nao e possıvel encontrar condicionais completas de forma
fechada, entao um passo Metropolis-Hastings e necessario. Para amostrar de νk, k = 1, . . . ,K,
uma proposta passeio aleatorio log normal e utilizada
log(νnewk − 1) ∼ N(log(νk − 1), cνk) (4.13)
49
com parametro cνk adaptativo (Shaby and Wells, 2010). A proposta e deslocada do 0, pois e
aconselhavel evitar valores proximos de 0 para νk, ver Fernandez and Steel (1999).
A.2 Distribuicoes condicionais completas para os modelos de misturas finitas
de misturas de escala skew-normal multivariada
Considerando o modelo FM-SN e assumindo que Fn×2 = (1 w), para cada k = 1, . . . ,K, a Fk ∈
<Nk×2, Nk =∑n
i=1 Sik, e construıda. Similarmente, a matriz de observacoes yk ∈ <Nk×p e formada.
Logo, pelo teorema de Bayes, as condicionais completas sao
η|s ∼ D(e0 +N1, . . . , e0 +NK);
(µk,ψk)|s,y,w,Ωk ∼ N2×p(bk,Bk,Ωk);
Bk =(B−1
0 + F′kFk
)−1
bk = B(B−1
0 b0 + F′kyk
) Ωk|s,y,w, C0,µk,ψk ∼ IW (ck, Ck);
ck = c0 +Nk + p
Ck = C0 + (yk − Fkβk)′(yk − Fkβk) + (βk − b0)
′B−1
0 (βk − b0)
ζj |Ω1, . . . ,ΩK ∼ G(g,G), j = 1, . . . , p.
g = g0 +K c02
G = G0 + 12
∑Kk=1 Ω−1
k,jj
onde βk = (µk ψk)′. Considerando agora a variavel latente W
Wi|Sik = 1,yi,µk,ψk,Ωk ∼ TN[0,+∞)(a,A);
A = 1
1+ψ′Ω−1
k ψk
a = ((yi − µk)Ω−1k ψk)A.
50
Como no caso univariado, para os modelos FM-ST e FM-SSL, F e substituıdo por Fwn×2 =
(√
u√
uw), y, por yw =√
uy e para variavel latente W,
Wi|Sik = 1,yi, ui,µk,ψk,Ωk ∼ TN[0,+∞)(a,A/ui).
Considerando a variavel latente U e os parametros νk,
Skew-T
Ui|Sik = 1,yi, wi, νk,µk,ψk,Ωk ∼ G(νk2 + 1, νk2 +
(yi−µk−ψkwi)′Ω−1
k (yi−µk−ψkwi)2 +
w2i
2
);
Skew-Slash
Ui|Sik = 1,yi, wi, νk,µk,ψk,Ωk ∼ G(0,1)
(νk + 1,
(yi−µk−ψkwi)′Ω−1
k (yi−µk−ψkwi)2 +
w2i
2
);
νk|s,u ∼ G(1,40)(α+Nk, γ −∑
i:Sik=1 ui)
Como anteriormente, para os graus de liberdade da skew -t nao e possıvel encontrar condicionais
completas de forma fechada, logo a abordagem adotada no caso univariado tambem e valida neste
caso.
51
Capıtulo 5
Misturas de Regressoes com base em
Misturas de Escala Skew-Normal
5.1 Introducao
Este capıtulo e dedicado ao desenvolvimento e implementacao da segunda proposta deste trabalho.
Com este objetivo, a secao 5.2 introduz o modelo de misturas de regressoes com base em misturas
de escala skew -normal (MESN-MRM). A secao 5.3 apresenta todo arcabouco bayesiano necessario.
Posteriormente, na secao 5.4, um exemplo com dados artificiais e apresentado e, na secao 5.5,
uma aplicacao com dados reais e apresentada com enfase nos modelos de misturas de regressoes
com erros skew -normal (SN-MRM), de misturas de regressoes com erros skew -t (ST-MRM) e de
misturas de regressoes com erros skew -slash (SSL-MRM). Finalmente, na secao 5.6 apresenta-se
uma discussao do capıtulo.
5.2 O Modelo
Seja y = (y1, . . . , yn)T uma amostra aleatoria de um modelo de misturas com K componentes
(K > 1) e x = (xT1 , . . . ,xTn )T uma matrix de planejamento na qual xi e um vetor p-dimensional de
covariaveis. Segundo Zeller et al. (2016), um modelo de misturas de regressoes com erros aleatorios
52
seguindo distribuicoes de misturas de escala skew -normal (MESN-MRM) e definido como
f(yi|xi,ϑ,η) =
K∑k=1
ηkg(yi|xi,θ∗k), (5.1)
onde ηk ≥ 0, k = 1, . . . ,K, e∑K
k=1 ηk = 1. Seguindo a reparametrizacao apresentada na secao
3.5.3, θ∗k = (βk, ψk, τ2k , νk), βk vetor p-dimensional, sera considerado o vetor parametrico es-
pecıfico para a componente k, logo, g(·|xi,θ∗k) denota a funcao densidade de probabilidade de
uma MESN(xiβk + µk, ψk, τ2k , νk). Adicionalmente, ϑ e η denotam os parametros desconhecidos
nos quais ϑ = (θ∗1, . . . ,θ∗K) e η = (η1, . . . , ηK).
Assim como no desenvolvimento do modelo FM-MESN descrito na secao 4.2, com a introducao
do vetor de alocacoes S = (S1, . . . ,Sn) e da estrutura hierarquica que surge com a representacao
estocastica e com as variaveis latentes W = (W1, . . . ,Wn) e U = (U1, . . . , Un), da mesma forma uma
variavel aleatoria Yi pertencente a k-esima componente de um modelo de misturas de regressoes
com base em misturas de escala skew -normal pode ser escrito como a seguir
Yi|Sik = 1,xi, wi, ui,θ∗k ∼ N(xiβk + µk + ψkwi, u
−1i τ2
k ),
Wi|Sik = 1, ui ∼ TN[0,+∞)(0, u−1i ), (5.2)
Ui|Sik = 1, νk ∼ h(·; νk),
onde µk = −√
2πm1,kψk, correspondendo a um modelo de regressao com media 0 e, portanto, a
uma regressao na qual todos parametros sao comparaveis. Concluindo, a densidade conjunta de Y
e da variaveis latentes S, W e U e
f(y, s,w,u|x,ϑ,η) =K∏k=1
[n∏i=1
[ηkf(yi|θ∗k,xi, wi, ui)f(wi|ui)f(ui|νk)]Sik
]p(s|η). (5.3)
5.3 Inferencia Bayesiana
Em modelos MESN-MRM, as dificuldades mencionadas na secao 4.3 com relacao a selecao de prioris
em modelos FM-MESN tambem aparecem, ou seja, a opcao por prioris improprias tambem quase
sempre implicara em densidades a posteriori improprias (Fruhwirth-Schnatter, 2006) e, como notado
por Jennison (1997), tambem e recomendavel evitar ser tao “nao informativo quanto possıvel”,
53
escolhendo prioris vagas, ja que o numero de componentes e altamente influenciado por tais escolhas.
Dessa forma, uma vez mais, como em Fruhwirth-Schnatter and Pyne (2010), foi adotada a estrutura
de prioris hierarquicas introduzidas por Richardson and Green (1997) para misturas de normais
com o intuito de reduzir a sensibilidade do modelo quanto a escolha das prioris.
Portanto, um caminho natural na especificacao de prioris para o vetor de parametros θ∗k =
(βk, ψk, τ2k , νk) especıfico de uma componente arbitraria k foi optar por distribuicoes semelhantes
as apresentadas na secao 4.3. A vista disso, o conjunto de prioris foi determinado como: η ∼
D(e0, . . . , e0), (βk, ψk)|τ2k ∼ Np+1(b0, τ
2kB0), τ2
k |C0 ∼ IG(c0, C0) e C0 ∼ G(g0, G0), onde e0, b0 ∈
<2, B0 ∈ <2×2, c0, g0 e G0 sao hiperparametros conhecidos. Considerando as prioris para os
parametros νk, p(νk) ∝ νk/(νk + d)31(2,∞)(νk) (Juarez and Steel, 2010) e νk ∼ G(2,40)(α, γ), onde
α and γ sao hiperparametros conhecidos, foram especificadas para os modelos ST-MRM and SSL-
MRM respectivamente.
A distribuicao conjunta a posteriori dos parametros e das variaveis latentes nao observadas
pode ser escrita como
p(ϑ,η,w,u, s|y,x) ∝
K∏k=1
[ n∏i=1
[ηkf(yi|θ∗k,xi, wi, ui)f(wi|ui)f(ui|νk)]Sik
]p(θ∗k)
p(s | η)p(η),(5.4)
onde p(θ∗k) = p(βk, ψk|τ2k )p(τ2
k |C0)p(C0)p(νk). Como descrito na secao 3.3, condicional no vetor
de alocacoes S, a estimacao dos parametros pode ser executada independentemente para cada
componente parametrica θ∗k e para distribuicao dos pessos. Desta maneira, uma estrutura similar
a encontrada no modelo FM-MESN aparece, logo, as distribuicoes condicionais completas dos
54
parametros e das variaveis latentes para um modelo MESN-MRM sao escritas da seguinte forma:
p(η|s) ∝ p(s|η)p(η) (5.5)
p(wi|Sik = 1, · · · ) ∝ [f(yi|θ∗k,xi, wi, ui)f(wi|ui)]Sik , (5.6)
p(ui|Sik = 1, · · · ) ∝ [f(yi|θ∗k,xi, wi, ui)f(wi|ui)f(ui|νk)]Sik , (5.7)
p(βk, ψk| · · · ) ∝∏
i:Sik=1
f(yi|θ∗k,xi, wi, ui)p(βk, ψk|τ2k ), (5.8)
p(τ2k | · · · ) ∝
∏i:Sik=1
f(yi|θ∗k,xi, wi, ui)p(τ2k |C0), (5.9)
p(C0| · · · ) ∝K∏k=1
p(τ2k |C0)p(C0), (5.10)
p(νk| · · · ) ∝∏
i:Sik=1
f(ui|νk)p(νk). (5.11)
Detalhes adicionais sobre as distribuicoes condicionais completas estao disponıveis no Apendice
B.1.
Definidas as distribuicoes a priori e calculadas as distribuicoes condicionais completas, o passo
seguinte e desenvolver metodos computacionais que viabilizem a estimacao dos parametros na classe
de modelos MESN-MRM. Para tal, fez-se uso de metodos de simulacao de Monte Carlo via Cadeias
de Markov a fim de coletar amostras aleatorias das distribuicoes a posteriori de (ϑ,η,w,u, s) dado
(y,x). Neste caso, como temos uma estrutura muito parecida com a apresentada na secao 4.3, o
algoritmo 5 que descreve o processo de amostragem a partir das distribuicoes condicionais completas
dos parametros e das variaveis latentes nao observadas e uma adaptacao do apresentado naquela
secao. Alem disso, novamente, pos processado o MCMC, com o objetivo de tratar o problema de
label switching, o algoritmo Kullback-Leibler introduzido por Stephens (2000) e aplicado.
Algoritmo 5. MCMC para misturas de regressoes com base em misturas de escala skew-normal.
1 Inicializar t = 1 e estipular os valores para S(0), (θ∗(0)1 , . . . ,θ
∗(0)K ), η(0), w(0) e u(0);
2 Simulacao dos parametros condicionados na classificacao S(t−1):
2.1 Gerar η(t) a partir de p(η|s(t−1));
55
2.2 Gerar as variaveis latentes w(t)i e u
(t)i de cada componente, i = 1, . . . , n, a partir das
condicionais completas (5.6)-(5.7) e os parametros β∗(t)k ,ψ
∗(t)k ,Ω
∗(t)k , ν
∗(t)k , k = 1, . . . ,K,
a partir das condicionais completas (5.8)-(5.11).
3 Gerar S(t)i independentemente para cada i = 1, . . . , n a partir de
Pr(Si = j|yi,xi,ϑ) =g(yi|xi,θ∗k)Pr(Si = j|ϑ)∑Kk=1 g(yi|xi,θ∗k)Pr(Si = k|ϑ)
. (5.12)
4 Fazer t = t+ 1 e repetir os 2, 3 e 4 ate a convergencia ser atingida.
5.4 Estudo com dados Artificais
Assim como no capıtulo 4, a fim de verificar a efetividade do processo de inferencia e algoritmo
propostos para a classe de modelos MESN-MRM, um estudo com dados artificiais e realizado.
Neste caso, serao considerados K = 2 componentes e uma amostra de 300 observacoes e obtida.
Considerando o modelo de misturas de regressoes com erros skew -normal, os valores simulados sao
β1 = (2.5, 3.5, 5.5),β2 = (5.5, 8, 10), (σ21, σ
22) = (25, 9), (λ1, λ2) = (−5, 5) e (η1, η2) = (0.33, 0.67).
Para os modelos de misturas regressoes com erros skew -t e skew -slash, os valores anteriores sao
contemplados e (ν1, ν2) = (4, 8) e adicionado.
O conjunto de hiperparametros das prioris descritas na secao 5.3 e especificado como: e0 = 4,
b0 = (0, 0, 0, 0), B0 = Diag(100, 100, 100, 100), c0 = 0.01, g0 = 0.01, G0 = 0.01. Para os modelos
de misturas de regressoes com erros skew -t e skew -slash, d = 4/(1+√
4) e α = 6 e γ = 0.8 foram as
opcoes. Uma simulacao do algoritmo MCMC 5 com 20000 iteracoes foi gerada, as primeiras 10000
foram descartadas como perıodo de aquecimento e, entao, as 10000 seguintes foram salvas. Com o
objetivo de reduzir a autocorrelacao entre valores sucessivos da cadeia simulada, um espacamento
de tamanho 10 foi exigido. Por fim, as estimativas a posteriori foram realizadas com base numa
amostra de tamanho 1000.
A tabela 5.1 resume os resultados obtidos. Esta consiste nos valores ja enumerados anterior-
mente e no intervalo de credibilidade de maxima densidade a posteriori a 95%. E possıvel verificar
que, com excecao dos interceptos, os intervalos contem os valores verdadeiros. Como nao ha grande
56
Tabela 5.1: Resultados para os ajustes dos modelos MESN-MRM aos dados artificiais.
ParametrosSN-MRM ST-MRM SSL-MRM
VERDADEIRO 95% VERDADEIRO 95% VERDADEIRO 95%
β0,1 2.5 (-2.4540,-0.0986) 2.5 (-3.4705,-0.4637) 2.5 (-2.2272,0.7993)
β1,1 3.5 (3.1342,3.6775) 3.5 (2.8665,3.6772) 3.5 (3.3135,3.9248)
β2,1 5.5 (5.3665,5.6312) 5.5 (5.325,5.6368) 5.5 (5.3561,5.628)
β0,2 5.5 (7.6876,8.5351) 5.5 (7.6581,8.7399) 5.5 (6.3089,8.0414)
β1,2 8 (7.8891,8.0998) 8 (7.8942,8.1577) 8 (8.0131,8.2881)
β2,2 10.5 (10.4228,10.5446) 10.5 (10.4458,10.5662) 10.5 (10.4318,10.5547)
σ21 25 (19.8584,34.8395) 25 (8.929,39.0853) 25 (11.8714,31.3592)
σ22 9 (7.4043,11.5610) 9 (7.0011,14.9767) 9 (6.7187,12.6818)
λ1 -5 (-9.9433,-2.4925) -5 (-5.7752,-0.0464) -5 (-8.643,-1.6835)
λ2 5 (2.7854,6.8041) 5 (2.3295,6.3948) 5 (2.4896,6.289)
η1 0.33 (0.2933,0.39745) 0.33 (0.2934,0.4017) 0.33 (0.2838,0.3904)
η2 0.67 (0.6025,0.7066) 0.67 (0.5983,0.7066) 0.67 (0.6096,0.7162)
ν1 - - 4 (2.0062,12.7159) 4 (2.4291,13.224)
ν2 - - 8 (3.2104,64.7966) 8 (2.7437,13.1084)
preocupacao com o intercepto neste caso, e possıvel assumir que o procedimento desenvolvido e
capaz de recuperar os parametros dos modelos originais.
5.5 Aplicacao
Como em Zeller et al. (2016), os metodos propostos neste capıtulo sao aplicados em um conjunto
de dados que investiga a percepcao de tons musicais. Com o fim de explorar as hipoteses do
intervalo de memoria e de correspondencia parcial, Cohen (1984) planejou um experimento no qual
tons fundamentais adicionados de frequencias maiores eletronicamente geradas foram tocados para
musicos treinados. Essas frequencias foram determinadas por um disturbio equivalente aos padroes
usualmente encontrados nos instrumentos de gravacao tradicionais. Ao musico, foi pedido que
tocasse um tom ajustado no intervalo entre uma nota musical e outra. Por fim, uma amostra com
150 observacoes correspondentes a razao entre o tom ajustado e o tom fundamental foi coletada .
O conjunto de dados descrito acima foi analisado em diferentes artigos que exploravam a classe
de modelos de misturas de regressoes lineares (DeVeaux, 1989; Viele and Tong, 2002; Hunter and
57
Young, 2012). Mais recentemente, Yao et al. (2014) ajustou um modelo de mistura de regressoes
robusto utilizando a distribuicao T-Student. A figura 5.1, ilustra claramente duas tendencias sepa-
radas, as quais estao relacionadas as hipoteses levantadas por Cohen (1984) e sao um indicativo que
os modelos de misturas de regressoes integram uma alternativa natural para o problema. Tambem
na figura 5.1, um histograma dos dados e apresentado a fim de permitir uma visualizacao do padrao
nao normal das observacoes. Esta constatacao corrobora com a aplicacao dos modelos MESN-MRM,
mais especificamente, dos modelos de mistura de regressoes skew -normal (SN-MRM), de mistura
de regressoes skew -t (ST-MRM) e de mistura de regressoes skew -slash (SSL-MRM).
1.5 2.0 2.5 3.0
1.5
2.0
2.5
3.0
3.5
Actual tone ratio
Per
ceiv
ed to
ne r
atio
Perceived tone ratio
Den
sity
1.5 2.0 2.5 3.0 3.5
0.0
1.0
2.0
Figura 5.1: Scatterplot e histograma dos dados de percepcao musical.
Com relacao ao processo de estimacao para os modelos SN-MRM, ST-MRM and SSL-MRM,
os seguinte hiperparametros foram especificados para as prioris: e0 = 4, b0 = (0, 0, 0), B0 =
Diag(100, 100, 100), c0 = 0.01, g0 = 0.01, G0 = 0.01. Para o modelo ST-MRM, d = 4/(1 +√
4) foi
escolhido e, para o modelo SSL-MRM, α = 6 e γ = 0.8 foram especificadas. Dessa forma, 50000
iteracoes do algoritmo MCMC 5 foram geradas, sendo as primeiras 10000 descartadas como perıodo
de aquecimento e, entao, as 40000 seguintes salvas. Com o objetivo de reduzir a autocorrelacao
entre valores sucessivos da cadeia simulada, um espacamento de tamanho 40 foi exigido. Por fim,
as estimativas a posteriori foram realizadas com base numa amostra de tamanho 1000.
A tabela 5.2 contem as estimatitivas dos parametros com base no maximo a posteriori e os
intervalos de credibilidade de maxima densidade a posteriori a 95% para os modelos sob analise.
58
Tabela 5.2: Resultados para os ajustes dos modelos MESN-MRM aos dados de percepcao musical.
ParametrosSN-MRM ST-MRM SSL-MRM
MODA 95% MODA 95% MODA 95%
β0,1 1.9036 (1.8564,1.9604) 1.9313 (1.8793,1.9907) 1.9118 (1.8653,1.9713)
β1,1 0.0450 (0.0226,0.0670) 0.0375 (0.0177,0.0643) 0.0457 (0.0203,0.0637)
β0,2 -0.0055 (-0.2553,0.2119) 0.0167 (-0.0276,0.0804) 0.0150 (-0.1491,0.1450)
β1,2 0.9829 (0.8950,1.0981) 0.9879 (0.9625,1.0096) 0.9757 (0.9129,1.0440)
σ21 0.0028 (0.0020,0.0043) 0.0023 (0.0014,0.0037) 0.0024 (0.0017,0.0038)
σ22 0.0239 (0.0143,0.0546) 0.0008 (0.0003,0.0021) 0.0085 (0.0025,0.0271)
λ1 0.0840 (-0.8727,0.7990) -0.0269 (-0.6846,0.5915) 0.0480 (-0.7889,0.7278)
λ2 0.5222 (-1.7761,1.9262) -0.3730 (-1.2133,0.3347) -1.8254 (-3.4831,0.7764)
η1 0.7026 (0.6208,0.7955) 0.5675 (0.4507,0.6549) 0.6426 (0.5379,0.7520)
η2 0.2974 (0.2045,0.3792) 0.4325 (0.3451,0.5493) 0.3574 (0.2480,0.4621)
ν1 - - 5.4843 (2.0016,29.6809) 7.9826 (3.2876,14.2028)
ν2 - - 2.1196 (2,0000,2.7728) 3.0652 (2.0005,7.4982)
BIC -232.4607 -302.4382 -240.5561
AIC -259.5565 -335.5551 -273.673
Adicionalmente, foram computados o AIC e BIC como criterios de comparacao de modelos. Os
valores obtidos para os criterios apontam que o modelo ST-MRM possui melhor ajuste, seguido
pelo modelo SSL-MRM.
De maneira geral, os resultados apresentados estao em linha com os obtidos por Zeller et al.
(2016), isto e, a metodologia proposta neste capıtulo aponta para os mesmos modelos como os
de melhor ajuste e as estimativas dos parametros sao proximas em ambos trabalhos. A principal
diferenca entre os resultados esta no fato de que Zeller et al. (2016) impoe a estimacao de um grau
de liberdade para todas as componentes das misturas, enquanto esta restricao nao e aqui posta.
Um outro ponto interessante e que, em Zeller et al. (2016), os parametros de assimetria parecem
ser significativos para pelo menos uma das componentes da mistura, fato que nao se repete nos
resultados obtidos nesta secao. Esta diferenca pode ter origem no fato de os modelos apresentados
neste capıtulo serem mais flexıveis, ou seja, ao longo do processo de estimacao nenhuma restricao
e feita.
59
5.6 Consideracoes
Neste capıtulo, os modelos de misturas de regressoes com base em misturas de escala skew -normal
foram desenvolvidos. Com o intuito de verificar a capacidade dos metodos apresentados recupera-
rem modelos originais, ajustes com dados artificiais foram realizados. Posteriormente, ajustes com
dados reais foram implementados. A partir dos resultados, foi possıvel tracar uma comparacao com
Zeller et al. (2016) e verificou-se que a maior flexibilidade da abordagem proposta neste trabalho,
principalmente, quanto a estimacao dos parametros ν, pode gerar difencas tambem nas estimativas
dos parametros de assimetria.
B Apendice
B.1 Distribuicoes condicionais completas para os modelos de misturas de re-
gressoes com base em misturas de escala skew-normal
Considerando o modelo SN-MRM e assumindo que Fn×(p+1) = (x w), para cada k = 1, . . . ,K,
a matriz Fk ∈ <Nk×(p+1), Nk =∑n
i=1 Sik, e construıda. Similarmente, a matriz de observacoes
yk ∈ <Nk×1 e formada. Logo, pelo teorema de Bayes, as condicionais completas sao
η|s ∼ D(e0 +N1, . . . , e0 +NK);
(βk, ψk)|s,y,w, τ2k ∼ Np+1(bk,Bk);
Bk =(
1τ2k
B−10 + 1
τ2k(F′kFk)
)−1
bk = B(
1τ2k
B−10 b0 + 1
τ2k(F′k(yk − µk))
) τ2
k |s,y,w, C0,βk, ψk ∼ IG(ck, Ck);
ck = c0 + Nk2 + 1
2
Ck = C0 +(yk−Fkβ
∗k−µk)
′(yk−Fkβ
∗k−µk)+(β∗k−b0)
′B−1
0 (β∗k−b0)2
C0|τ21 , . . . , τ
2K ∼ G(g,G).
60
g = g0 +Kc0
G = G0 +∑K
k=11τ2k
onde β∗k = (βk ψk)′. Considerando a variavel latente W
Wi|Sik = 1, yi,βk, ψk, τ2k ∼ TN[0,+∞)(a,A);
a =(yi−xiβk−µk)ψk
τ2k+ψ2k
A =τ2k
τ2k+ψ2k
Para os modelos ST-MRM e SSL-MRM, as condicionais completas assumem formato muito
semelhante, a diferenca consiste em substituir F por Fwn×2 = (
√ux√
uw) e y, por yw =√
uy.
Considerando agora a variavel latente W
Wi|Sik = 1, yi, ui,βk, ψk, τ2k ∼ TN[0,+∞)(a,A/ui).
Por ultimo, para a variavel latente U e para os parametros νk
Skew-T
Ui|Sik = 1, yi, wi, νk,βk, ψk, τ2k ∼ G
(νk2 + 1, νk2 +
(yi−µk−xiβk−ψkwi)2
2τ2+
w2i
2
);
Skew-Slash
Ui|Sik = 1, yi, wi, νk,βk, ψk, τ2k ∼ G(0,1)
(νk + 1,
(yi−µk−xiβk−ψkwi)2
2τ2+
w2i
2
);
νk|s,u ∼ G(2,40)(α+Nk, γ −∑
i:Sik=1 ui)
Para os graus de liberdade da skew-t nao e possıvel encontrar condicionais completas de forma
fechada, entao um passo Metropolis-Hastings e necessario. Para amostrar de νk, k = 1, . . . ,K,
uma proposta passeio aleatorio log normal e utilizada
log(νnewk − 2) ∼ N(log(νk − 2), cνk) (5.13)
com parametro cνk adaptativo (Shaby and Wells, 2010). A proposta e deslocada do 0, pois e
aconselhavel evitar valores proximos de 0 para νk, ver Fernandez and Steel (1999).
61
Capıtulo 6
Conclusoes e Perspectivas
Este trabalho teve por objetivo propor modelos que explorassem conjuntamente a flexibilidade de
misturas finitas e de misturas de escala skew -normal (MESN) com o intuito de propiciar uma mode-
lagem que acomodasse simultaneamente multimodalidade, assimetria, caudas pesadas e tambem a
presenca de variaveis explicativas ou covariaveis. Considerando que as distribuicoes da classe MESN
contemplam, como casos particulas, as distribuicoes skew -normal, skew -t, skew -slash e outras, a
metodologia desenvolvida nesta dissertacao mostra possuir grande aplicabilidade em inumeros con-
textos e possibilita a estimacao de densidades complexas alem de lidar com problemas de classi-
ficacao de observacoes.
De maneira geral, este trabalho consistiu em estender as propostas de Basso et al. (2010), Cabral
et al. (2012) e Zeller et al. (2016) e desenvolver, sob a otica bayesiana, algoritmos MCMC simples
de serem implementados e que permitam que o processo de estimacao dos parametros seja eficiente
e eficaz. Para tal, utilizou-se como base as ideias apresentadas por Fruhwirth-Schnatter and Pyne
(2010), no qual fez-se uso das tecnicas de ampliacao de dados, da representacao hierarquica do
modelo e uma reparametrizacao que possibilita que condicionais completas de forma fechada sejam
encontradas.
Como perspectiva de trabalhos futuros, pode-se propor uma processo de inferencia completa-
mente bayesiano, isto e, um processo no qual o numero de componentes K tambem e um parametro
do modelo. Nesta direcao o algoritmo MCMC com saltos reversıveis introduzido por Richardson
62
and Green (1997) no contexto de misturas surge como uma boa alternativa. Alem desta, buscar
extensoes multivariadas para os modelos MESN-MRM seria um caminho natural a ser seguido
como perspectiva de trabalho futuro.
Neste sentido, estendendo o modelo apresentado pela equacao (5.1), seja y = (y1, . . . , yn)T ,
yi vetor q-dimensional, uma amostra aleatoria de um modelo de misturas com K componentes
(K > 1) e x = (xT1 , . . . ,xTn )T uma matrix de planejamento na qual xi e um vetor p-dimensional de
covariaveis. Um modelo de misturas de regressoes com erros aleatorios seguindo distribuicoes de
misturas de escala skew -normal multivariada e definido como
f(yi|xi,ϑ,η) =K∑k=1
ηkg(yi|xi,θ∗k), (6.1)
na qual ηk ≥ 0, k = 1, . . . ,K, e∑K
k=1 ηk = 1. Seguindo a reparametrizacao apresentada na secao
3.5.3, θ∗k = (µk,ψk,Ωk, νk), βk matriz de dimensao p × q, sera considerado o vetor parametrico
especıfico para a componente k, logo, g(·|xi,θ∗k) denota a funcao densidade de probabilidade de
uma MESNq(xiβk +µk,ψk,Ω, νk). Adicionalmente, ϑ e η denotam parametros desconhecidos nos
quais ϑ = (θ∗1, . . . ,θ∗K) e η = (η1, . . . , ηK).
63
Referencias Bibliograficas
Akaike, H. (1974), “A new look at the statistical model identification,” IEEE Transactions on
Automatic Control, 19, 716–723.
Azzalini, A. (1986), “Further results on a class of distributions which includes the normal ones,”
Statistica, 46, 199–208.
Azzalini, A., and Dalla Valle, A. (1996), “The multivariate skew normal distribution,” Biometrika,
83, 715–726.
Basso, R. M., Lachos, V. H., Cabral, C. R. B., and Gosh, P. (2010), “Robust mixture modeling based
on scale mixtures of skew-normal distributions,” Computational Statistics and Data Analysis,
54, 2926–2941.
Bouguila, N., Ziou, D., and Vaillancourt, J. (2004), “Unsupervised learning of a finite mixture
model based on the Dirichlet distribution and its application,” IEEE Transactions on Image
Processing, 13, 1533–1543.
Branco, M. D., and Dey, D. K. (2001), “A general class of multivariate skew-elliptical distributions,”
Journal of Multivariate Analysis, 79, 99–113.
Cabral, C. R. B., Lachos, V. H., and Prates, M. O. (2012), “Multivariate mixture modeling using
skew-normal independent distributions,” Computational Statistics and Data Analysis, 56, 126–
142.
Cohen, E. A. (1984), “Some Effects of Inharmonic Partials on Interval Perception,” Music Percep-
tion, 1, 323–349.
64
Cosslett, S. R., and Lee, L. F. (1985), “Serial correlation in latent discrete variable models,” Journal
of Econometrics, 27, 79–97.
da Paz, R. F., Bazan, J. L., and Milan, L. A. (2017), “Bayesian estimation for a mixture of
simplex distributions with an unknown number of components: HDI analysis in Brazil,” Journal
of Applied Statistics, 44, 1630–1643.
Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977), “Maximum likelihood from incomplete
data via the EM algorithm,” Journal of the Royal Statistical Society, Series B, 39, 1–38.
DeSarbo, W. S., and Cron, W. L. (1988), “A maximum likelihood methodology for clusterwise
linear regression,” Journal of Classification, 5, 249–282.
DeSarbo, W. S., Wedel, M., Vriens, M., and Ramaswamy, V. (1992), “Latent class metric conjoint
analysis,” Marketing Letters, 3, 273–288.
DeVeaux, R. D. (1989), “Mixtures of linear regressions,” Computational Statistics and Data Analy-
sis, 8, 227–245.
Diebolt, J., and Robert, C. P. (1994), “Estimation of finite mixture distributions through Bayesian
sampling,” Journal of the Royal Statistical Society, Series B, 56, 363–375.
Fernandez, C., and Steel, M. F. J. (1999), “Multivariate student-t regression models: Pitfalls and
inference,” Biometrika, 86, 153–167.
Fruhwirth-Schnatter, S. (2006), Finite Mixture and Markov Switching Models, 1 edn, New York:
Springer.
Fruhwirth-Schnatter, S., and Pyne, S. (2010), “Bayesian inference for finite mixtures of univariate
and multivariate skew-normal and skew-t distributions,” Biostatistics, 11, 317–336.
Fu, R., Dey, D. K., and Holsinger, K. E. (2011), “A Beta-Mixture Model for Assessing Genetic
Population Structure,” Biometrics, 67, 1073–1082.
Gamerman, D., and Lopes, H. F. (2006), Markov Chain Monte Carlo: Stochastic Simulation for
Bayesian Inference, 2 edn, London: Chapman & Hall.
65
Gamerman, D., Migon, H. S., and Louzada, F. (2014), Statistical Inference: an Integrated Approach,
2 edn, London: Chapman & Hall.
Hamilton, J. D. (1989), “A new approach to the economic analysis of nonstationary time series and
the business cycle,” Econometrica, 57, 357–384.
Henze, N. (1986), “A probabilistic representation of the skew-normal distribution,” Scandinavian
Journal of Statistics, 13, 271–275.
Hunter, D. R., and Young, D. S. (2012), “Semiparametric mixtures of regressions,” Journal of
Nonparametric Statistics, 24, 19–38.
Jennison, C. (1997), “Discussion of the paper by Richardson and Green,” Journal of the Royal
Statistical Society, Series B, 59, 778–779.
Juarez, M. A., and Steel, M. F. J. (2010), “Model-based clustering of non-Gaussian panel data
based on skew-t distributions,” Journal of Business & Economic Statistics, 28, 52–66.
Lin, T., Lee, J., and Hsieh, W. (2007), “Robust mixture modelling using the skew t distribution,”
Statistics and Computing, 17, 81–92.
Lin, T., Lee, J., and Yen, S. (2007), “Finite mixture modelling using the skew normal distribution,”
Statistica Sinica, 17, 909–927.
McLachlan, G. J., and Peel, G. J. (2000), Finite Mixture Models, 1 edn, New Jersey: John Wiley
and Sons.
Mosteller, F., and Tukey, J. W. (1977), Data Analysis and Regression: A Second Course in Statis-
tics, 1 edn, Reading: Addison-Wesley.
Papastamoulis, P., and Iliopoulos, G. (2010), “An Artificial Allocations Based Solution to the Label
Switching Problem in Bayesian Analysis of Mixtures of Distributions,” Journal of Computational
and Graphical Statistics, 19, 313–331.
Redner, R. A., and Walker, H. (1984), “Mixture densities, maximum likelihood and the EM algo-
rithm,” SIAM Review, 26, 195–239.
66
Richardson, S., and Green, P. J. (1997), “On Bayesian analysis of mixtures with an unknown
number of components,” Journal of the Royal Statistical Society, Series B, 59, 731–792.
Schwarz, G. (1978), “Estimating the dimension of a model,” Annals of Statistics, 6, 461–464.
Shaby, B. A., and Wells, M. T. (2010), Exploring an Adaptive Metropolis Algorithm,, Technical
report, Duke University, Department of Statistical Science.
Stephens, M. (2000), “Dealing with label switching in mixture models,” Journal of the Royal
Statistical Society, Series B, 62, 795–809.
Tanner, M. A., and Wong, W. H. (1987), “The calculation of posterior distributions by data
augmentation,” Journal of the American Statistical Association, 82, 528–540.
Viele, K., and Tong, B. (2002), “Modeling with mixtures of linear regressions,” Statistics and
Computing, 12, 315–330.
Yao, W., and Lindsay, B. G. (2009), “Bayesian Mixture Labeling by Highest Posterior Density,”
Journal of the American Statistical Association, 104, 758–767.
Yao, W., Wei, Y., and Yu, C. (2014), “Robust mixture regression using the t-distribution,” Com-
putational Statistics and Data Analysis, 71, 116–127.
Zeller, C. B., Cabral, C. R. B., and Lachos, V. H. (2016), “Robust mixture regression modeling
based on scale mixtures of skew-normal distributions,” TEST, 25, 375–396.
Zhang, H., Wu, Q. M. J., and Nguyen, T. M. (2013), “Incorporating Mean Template Into Finite
Mixture Model for Image Segmentation,” IEEE Transactions on Neural Networks and Learning
Systems, 24, 328–335.
67