Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
ESTUDO E APLICACOES DO METODO DE AGRUPAMENTO
BASEADO NO MODELO
PATRICIA BATISTA LEAL
Orientadora: Prof.a Dra. Viviana Giampaoli
Area de concentracao: Estatıstica Aplicada
Dissertacao submetida como requerimento parcial para obtencao do graude Mestre em Estatıstica pela Universidade Federal de Pernambuco
Recife, 2004
Agradecimentos
A Deus, por me conceder a graca de concluir mais uma etapa da minha vida.
A minha famılia que sempre me incentivou, em especial a minha mae.
Agradeco, de forma especial, a minha orientadora Viviana Giampaoli pela seguranca,
disponibilidade, paciencia e incentivo.
A professora Cristina, por estar sempre disposta a me ajudar, por sua alegria.
A Lindomberg, por seu amor, por acreditar em mim, pelo seu incentivo e compreensao.
A Gilmar, meu amigo, meu irmao, pela amizade incondicional.
A Michelli, minha querida amiga, pela amizade, pelo apoio, por saber que posso contar
com ela sempre.
A Horacio, pela amizade e pelas vezes que sempre se dispos a me ajudar quando precisei.
A Silvia, minha irma de coracao, pela amizade, pelo companheirismo e pelos momentos
felizes que dividimos.
A Gilson, por sua amizade, por saber transmitir alegria e calma.
A Moises, que nos meus momentos de dificuldade sempre aparecia disposto a me ajudar.
A minha turma de mestrado, que se tornou uma famılia: Sılvia, Gilson, Moises, Bar-
tolomeu, Felipe, Tatiene, Tarciana, Raydonal, Joao Marcelo e Keila. Juntos dividimos nossas
saudades, angustias, apreensoes, nosso sucesso, nossas experiencias e principalmente nossas
alegria.
Aos meus colegas de mestrado Michelli, Diana, Carla, Patrıcia Leone, Amanda, Heraclito,
Sandra Pinheiro, Tatiane, Andreia, Sandra Rego, Lenaldo, Cherubino, Fernando, Sılvia,
Gecy, Andre, Junior e Cristina Morais.
Aos professores do Programa de Mestrado em Estatıstica, pela competencia e atencao.
A Valeria Bittencourt, pela competencia, organizacao, atencao e amizade.
Aos funcionarios do departamento de estatıstica, Adriana, Cıcero e Antonio, pela aten-
cao.
Aos colegas de graduacao, Lindomberg, Michelli, Horacio, Diana e Juliana.
Aos professores do Departamento de Matematica e Estatıstica da Universidade Federal
do Estado da Paraıba, em especial aos professores Francisco Morais, Luiz Mendes e Vandik
Estevam.
iii
A Michelli, Horacio, Diana, Lenaldo, Renata, Avelita e Katia, pela convivencia pacıfica
e harmoniosa.
A CAPES, pelo apoio financeiro.
iv
Resumo
Analise de agrupamento e um termo generico que abrange varios metodos numericos
para estudar dados multivariados com o intuito de classificar as observacoes em grupos
homogeneos.
Neste trabalho se apresenta uma sıntese dos metodos de agrupamento existentes e se rea-
liza uma descricao detalhada de um metodo particular de agrupamento hierarquico aglome-
rativo baseado em modelos que considera um criterio bayesiano para a determinacao do
melhor modelo e dos possıveis grupos existentes.
Duas aplicacoes desta metodologia foram realizadas. A primeira utilizando o banco de
dados do Instituto de Pesquisa Economica e Aplicada que contem informacoes sobre financas
publicas. A segunda com o banco de dados do Sistema Unico de Saude relacionadas a area
de saude.Na realizacao das duas foram utilizados os municıpios de Pernambuco visando uma
classificacao dos mesmos verificando os grupos mais homogeneos, os municıpios com valores
extremos para cada variavel. E apresentada tambem uma discussao dos resultados obtidos.
iii
Abstract
Cluster analysis are a generic term for a variety of numerical methods to study multi-
variate data with the purpose of classifying in especific groups homogeneous observations.
In this work we present the synthesis of the existing methodologies. A particular method is
detailed: model-based clustering for the determination of the best model and the possible
existing groups is utilized an Bayesian criterion. Two different applications of this method-
ology are carried with data of the Instituto de Pesquisa Economica Aplicada and of Sistema
Unico de Saude. The first database contains information on public finances and health of
the boroughs of Pernambuco.
iv
Indice
1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Conceitos Basicos de Analise de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3
2.1 Medidas de Similaridade e Dissimilaridade para Variaveis Quantitativas . . . . . . . . . . . 5
2.1.1 Para Variaveis de Escala Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.2 Para Variaveis de Razao Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Medidas de Similaridade e Dissimilaridade para Variaveis Qualitativas . . . . . . . . . . . . . 7
Para Variaveis Binarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Medida de Coincidencia Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
Medida de Concordancia Positiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8
2.3 Metodos de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Metodos de Particao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Metodo das K-Medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.2 Metodos Hierarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Metodo do Centroide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10
Metodo da Ligacao Simples ou do Vizinho Mais Proximo . . . . . . . . . . . . . . . . . . .10
Metodo da Ligacao Completa ou do Vizinho Mais Distante . . . . . . . . . . . . . . . . .10
Metodo de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11
3 Metodo de Agrupamento Baseado no Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1 Densidade de Mistura Finita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12
3.2 O Algoritmo EM para Modelos de Mistura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13
3.3 Selecao do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4 Agrupamentos Hierarquicos Baseados nos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.5 Combinando Aglomeracao Hierarquica, EM, e Fator de Bayes . . . . . . . . . . . . . . . . . . . . 18
3.6 Modelando as Pertubacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18
3.7 Vantagens e Limitacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8 Dados Nao Gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4 Aplicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.1 Resultado do Agrupamento com os Dados do IPEA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
v
4.2 Resultado do agrupamento com os dados do SUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Conclusoes Gerais dos Agrupamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
¦ Apendice A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
¦ Apendice B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
¦ Apendice C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
¦ Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .57
vi
Capıtulo 1
Introducao
O estudo da classificacao de objetos contidos em grandes conjuntos de dados reunidos
em grupos, segundo alguma(s) caracterıstica(s) de interesse, e caracterizado como analise de
agrupamento. Esta necessidade existe ha muito tempo em varias areas do conhecimento. No
seculo XVIII, Linnaeus e Sauvages realizaram uma extensa classificacao de animais, plantas,
minerais, e enfermidades (ver Holman, 1985). Em ciencias sociais, por exemplo, existe a
necessidade de classificar as pessoas com respeito as suas preferencias e seu comportamento.
Em marketing, identificar segmentos do mercado, isto e, grupos de costumes com necessi-
dades semelhantes. Mais exemplos poderiam ser dados em geografia (grupos de regioes),
medicina (tipos especıficos de cancer), quımica (classificacao de componentes), historia (gru-
pos de achados arqueologicos), genetica, processamento de imagens e muito mais. Como
podemos perceber a analise de agrupamento e um assunto com muitas aplicacoes praticas
e sua abordagem nao se limita apenas a periodicos estatısticos mas tambem a periodicos
nas areas ja citadas. Alem disso, a analise de agrupamento pode ser usada nao apenas para
identificar uma estrutura ja presente nos dados, mas tambem para impor uma estrutura mais
ou menos homogenea num conjunto de dados que deve ser dividido, de maneira correta, em
grupos.
O objetivo desta dissertacao e trabalhar com o agrupamento hierarquico baseado em
modelos, que fundamenta-se na suposicao que as observacoes sao geradas de uma mistura
de probabilidades subjacentes. Foi utilizado o pacote MCLUST que foi escrito em Fortran
e possui interface para o S-Plus e tambem para o R, ver Fraley e Raftery (2002a). O
MCLUST e um pacote para agrupamento baseado em modelos e implementa algoritmos de
agrupamento hierarquico para modelos de mistura Gaussiana. Nele sao incluıdas funcoes que
combinam agrupamento hierarquico, o algoritmo EM e o Criterio de Informacao Bayesiano
(BIC) em uma estrategia tanto para agrupamento quanto para a analise discriminante. O
MCLUST pode ser obtido em um dos enderecos abaixo:
http : //www.stat.washington.edu/mclust
ou
http : //lib.stat.cmu.edu/S/mclust.
1
A plataforma computacional utilizada e o pacote estatıstico R. O programa R e uma
versao gratuita do programa S-PLUS e e baseado na linguagem de programacao S; ver Cribari-
Neto & Zarkos (1999) e Venables & Ripley (2002). Uma vantagem dessa plataforma e sua
flexibilidade em permitir a criacao de novas funcoes e a possibilidade de modificacoes de
muitas funcoes internas. Este programa pode ser obtido em versoes Windows, Linux, Unix
e Macintosh da pagina http://www.r-project.org.
O presente trabalho esta organizado em mais 3 capıtulos alem desta introducao. No
capıtulo 2 e citada a classificacao das variaveis e as suas correspondentes medidas de simi-
laridade e dissimilaridade. Tambem e apresentada uma sıntese dos metodos de agrupamento
existentes. No capıtulo 3 e feita uma revisao das densidades de mistura finita, o algoritmo
EM e o agrupamento hierarquico baseado nos modelos. No capıtulo 4 encontra-se uma
aplicacao deste metodo objetivando agrupar os municıpios do estado de Pernambuco usando
os bancos de dados do Instituto de Pesquisa Economica e Aplicada (IPEA) e do Sistema
Unico de Saude (SUS).
2
Capıtulo 2
Conceitos Basicos de Analise de Agrupamento
O resultado de uma analise de agrupamento deve ser um conjunto de grupos que po-
dem ser consistentemente descritos atraves de suas caracterısticas, atributos e outras pro-
priedades. Estas caracterısticas sao descritas pelas variaveis utilizadas no estudo. Assim, um
dos fatores que mais influencia os resultados neste tipo de analise e a escolha das variaveis.
Aquelas variaveis que assumem praticamente o mesmo valor para todos os objetos sao pouco
discriminatorias, e sua inclusao contribuiria muito pouco para a determinacao da estrutura do
agrupamento. Em contrapartida, a inclusao de variaveis com grande poder de discriminacao
porem irrelevantes ao problema pode mascarar os grupos e levar a resultados equivocados.
Alem disso e desejavel que unidades ou objetos de estudo sejam comparaveis segundo o
significado de cada uma das variaveis. Em geral, o numero de variaveis medidas e grande
dificultando a analise. Deve-se entao procurar diminuir seu numero de forma que sua selecao
leve em consideracao tanto a sua relevancia como seu poder de discriminacao face ao prob-
lema em estudo. Primeiro e necessario identificar quais sao os tipos das variaveis que estao
sendo avaliadas para que se possa escolher uma medida adequada para definir a distancia en-
tre os objetos. A posteriori se escolhera o metodo de agrupamento apropriado para cada tipo
de variavel. Neste capıtulo apresentaremos uma classificacao das variaveis, considerando-as
em dois tipos: quantitativas e qualitativas e as medidas de similaridade e dissimilaridade
associadas. Apresentaremos tambem uma sıntese dos metodos de agrupamentos existentes.
Variaveis Quantitativas - Sao aquelas que podem ser expressas em termos numericos.
Em geral sao as resultantes de medicoes, enumeracoes ou contagens. Podem ser classificadas
em contınuas e discretas.
Variaveis Discretas - Quando so podem assumir determinados valores num certo inter-
valo, podendo ser associadas ao conjunto dos numeros inteiros, ou seja, seus possıveis valores
formam um conjunto finito ou enumeravel. Em geral, estes numeros inteiros sao resultantes
de um processo de contagem, como por exemplo: o numero de bacterias, a quantidade de
pacientes atendidos diariamente num hospital, etc.
Variaveis Contınuas - Sao aquelas que podem assumir qualquer valor num certo intervalo
de medida, podendo ser associada ao conjunto dos numeros reais, ou seja, seus valores
possıveis formam um conjunto nao enumeravel. Entre outras, enquadram-se nesta categoria
3
as medidas de tempo, comprimento, espessura, area, volume, peso e velocidade. As variaveis
contınuas podem pertencer a dois tipos de escala:
a) Intervalar - Sao medidas contınuas em uma escala linear. Neste nıvel o zero da escala
e relativo. Como exemplo temos as escalas termo metricas e o fuso horario.
b) Razao - Essa escala e muito parecida com a intervalar exceto pelo valor do zero visto
que neste caso o zero e um valor absoluto.
Variaveis Qualitativas - Quando o resultado da observacao e apresentado na forma
de qualidade ou atributo. Nesses casos, as variaveis podem ser classificadas em nominais ou
ordinais.
Variaveis Nominais - Quando puderem ser reunidas em categorias ou especies com
identicos atributos. Aqui se incluem, por exemplo, os agrupamentos por sexo, area de
estudo, desempenho, cor, raca, nacionalidade e religiao. Podem ser de dois tipos: binomiais
(ou dicotomicas) e policotomicas, a saber:
a) Binarias - Possuem apenas dois resultados possıveis, que podem ser codificados como
0 ou 1, e podem ser caracterizadas de duas formas: simetricas e assimetricas. No primeiro
tipo as categorias possuem a mesma importancia e portanto recebem o mesmo peso. Por
exemplo, a variavel sexo. No segundo tipo os resultados tem pesos de importancia diferentes.
Por convencao o codigo para o resultado mais importante e 1 e o 0 para o resultado menos
significativo. Normalmente 1 representa a presenca de algum atributo ja o 0 sua ausencia.
b) Policotomicas - Possuem mais que dois resultados possıveis, por exemplo religiao.
Variaveis ordinais sao do tipo policotomicas.
Variaveis Ordinais - Sao variaveis que tem nıveis ordenados, por exemplo, classe so-
cial (baixa, media, alta), grau de instrucao (ensino: fundamental, medio, superior). Estas
variaveis tem suas categorias ordenadas, porem a distancia absoluta entre cada uma das
categorias e desconhecida.
As tecnicas existentes na analise de agrupamento utilizam algum tipo de criterio para
medir a distancia entre dois objetos ou quantificar o quanto eles sao parecidos. Esta distancia
pode ser classificada em duas categorias: medidas de similaridade ou dissimilaridade, deno-
tadas por s(i, j) e d(i, j), respectivamente. Na primeira distancia temos que, quanto maior
o seu valor mais parecidos sao os objetos. Ja na segunda, quanto maior o valor observado
menos parecidos sao os objetos. Da medida de similaridade e possıvel construir uma de
dissimilaridade e vice-versa. A seguir sao apresentadas algumas dessas medidas.
4
2.1 Medidas de Similaridade e Dissimilaridade para Variaveis Quantitativas
O conjunto de dados pode ser organizado numa matriz n×p, onde as linhas correspondem
aos objetos e as colunas correspondem as variaveis. Quando a l-esima medida do i-esimo
objeto e denotada por xil (onde i = 1, . . . , n e l = 1, . . . , p) a matriz e denotada da seguinte
forma
variaveis
objetos
x11 · · · x1l · · · x1p...
......
xi1 · · · xil · · · xip...
......
xn1 · · · xnl · · · xnp
.
Um fato importante a ser considerado, em algumas situacoes e que mudando a unidade
de medida pode-se levar a estruturas de agrupamentos muito diferentes. Para evitar este tipo
de problema deve-se padronizar os dados originais convertendo-os em variaveis adimensionais
zil =xil −ml
sl,
onde
ml =1
n(x1l + x2l + · · ·+ xnl),
e
sl =1
n{| x1l −ml | + | x2l −ml | + · · ·+ | xnl −ml |}.
A vantagem de se usar sl no denominador e que o valor do zil nao sera muito afetado
com a existencia de valores extremos.
Por construcao o zil tem valor medio igual a zero e seu desvio medio absoluto e igual a 1.
Quando se utiliza a padronizacao os dados originais sao desprezados e passa-se a trabalhar
com uma nova matriz de dados, a saber:
variaveis
objetos
z11 · · · z1l · · · z1p...
......
zi1 · · · zil · · · zip...
......
zn1 · · · znl · · · znp
.
5
As metricas que sao calculadas na analise de agrupamento satisfazem os seguintes re-
querimentos matematicos de uma funcao de distancia:
(1) d(i, j) ≥ 0;
(2) d(i, i) = 0;
(3) d(i, j) = d(j, i);
(4) d(i, j) ≤ d(i, h) + d(h, j);
onde i, j, e h sao os ındices indicadores dos objetos. A condicao (1) diz que as distancias
sao numeros nao negativos; a (2) que a distancia de um objeto a ele mesmo e zero, a (3)
e a propriedade de simetria da funcao distancia e, a condicao (4) e chamada Desigualdade
Triangular. Note que d(i, j) = 0 nao implica necessariamente que i = j, o que pode ocorrer,
por exemplo, e que dois elementos diferentes possuem a mesma medida para a variavel em
estudo.
2.1.1 Para Variaveis de Escala Intervalar
A medida mais conhecida para indicar a proximidade entre os objetos i e j e a distancia
Euclidiana:
d(i, j) =
[ p∑
l=1
(xil − xjl)2
]1/2
.
Outra metrica bem conhecida e a distancia de Manhattan, definida por
d(i, j) =
p∑
l=1
| xil − xjl | .
Uma generalizacao da distancia Euclidiana e da metrica Manhattan e a distancia de
Minkowski dada por
d(i, j) =
[ p∑
l=1
| xil − xjl |q]1/q
,
onde q e um numero real igual ou maior que 1. Tambem e chamada metrica Lq e possui a
metrica Euclidiana (q = 2) e Manhattan (q = 1) como casos especiais.
Existem situacoes onde se faz necessario trabalhar com a distancia Euclidiana Ponde-
rada, a saber
d(i, j) =
[ p∑
l=1
ωl(xil − xjl)2
]1/2
,
onde ωl e o peso que cada variavel recebe de acordo com sua importancia relativa ao proble-
ma.
6
2.1.2 Para Variaveis de Razao Intervalar
Uma das maneiras de se calcular uma medida de dissimilaridade para este tipo de variavel
e usar uma transformacao logaritmica, e trata-la como sendo uma variavel de escala inter-
valar. Notemos que isto e factıvel se nao existem observacoes nulas.
Existe uma quantidade consideravel de medidas de similaridade e dissimilaridade para
variaveis quantitativas que surgem a partir do objetivo de moldar situacoes especiais de
interesse do pesquisador. Em Cormack (1971), encontra-se uma revisao dessas medidas e,
as principais delas sao mostradas no Quadro 1.
Quadro 1. Principais medidas de similaridades e dissimilaridades para variaveisquantitativas.
Nome Expressao
Distancia de Minkowsky1 d(i, j)[ ∑p
l=1 ωl | xil − xjl |l]1/l
Coeficiente de Similaridade de Cattel s(i, j) = 2(p− 23 )−d2
2(p− 23 )+d2
Coeficiente de Canberra d(i, j) = 1p
∑pl=1
|xil−xjl|xil+xjl
Coeficiente de Bray-Curtis d(i, j) = Σ|xil−xjl|pΣ(xil+xjl)
Coeficiente de Sokal e Sneath d(i, j) ={
1p
∑( (xil−xjl)(xil+xjl)
)2}1/2
1 os ωk’s representam as ponderacoes para as variaveis
p representa o numero de variaveis
d a dimensao dos dados
2.2 Medidas de Similaridade e Dissimilaridade para Variaveis Qualitativas
E comum se usar variaveis qualitativas na busca de identificar objetos semelhantes, surge
daı a necessidade de medidas que definam o grau de proximidade ou de afastamento entre
os objetos segundo variaveis desse tipo.
Na matriz de dados os valores observados destas variaveis sao codificados por zero ou um;
Como ja foi dito anteriormente o valor 1 representa a presenca de algum atributo, enquanto
0 a sua ausencia. Algumas vezes estas variaveis sao tratadas como se fossem de escala
intervalar, ou seja, se aplicando a distancia Euclidiana ou distancia de Manhattan. Outra
possibilidade e calcular uma matriz de dissimilaridade (ou similaridade) de dados binarios
e entao simplesmente aplica-los num algoritmo de agrupamento que opera com esta matriz.
Suponhamos que consideremos dois objetos i, j e
Objeto j
0 1
Objeto i0 a b a+b
1 c d c+d
a+c b+d p
7
onde a e d representam o numero de variaveis que assumiram o valor 0 e 1 respectivamente
para os dois objetos, b e o numero de variaveis onde as caracterısticas estudadas se apre-
sentam no objeto j e nao se apresentam no objeto i, c e o numero de variaveis onde as
caracterısticas estudadas se apresentam no objeto i e nao se apresentam no objeto j. Ob-
viamente p e o numero total de variaveis. Quando ocorre dados faltantes troca-se o p pelo
numero de variaveis que sao avaliadas para i e j simultaneamente. A partir desta notacao
definiremos as medidas de similaridade.
Medida de Coincidencia Simples
Esta e uma das medidas de similaridades mais utilizadas, a saber
s(i, j) =a + d
a + b + c + d,
onde 0 ≤ s(i, j) ≤ 1. Logo, quanto mais proximo de 1 o resultado se encontrar maior
similaridade entre os objetos.
Medida de Concordancia Positiva
Um dos coeficientes mais usados quando se deseja medir a similaridade baseando-se
apenas na presenca de determinada caracterıstica e nao na ausencia e o coeficiente de Jaccard
s(i, j) =a
a + b + c.
Tentando ressaltar propriedades especıficas criou-se uma serie de coeficientes, que sao
derivados dos anteriores. Esses coeficientes, apresentados no trabalho de Romesburg (1984),
estao descritos na Quadro 2.
Quadro 2. Coeficientes de semelhanca para variaveis binarias.
Nome Expressao Intervalo de Variacao
Distancia Binaria de Sokal(
b+ca+b+c+d
)1/2
[0,1]
Rogers e Tanimoto a+da+2(b+c)+d [0,1]
Sokal e Sneath 2(a+d)2(a+d)+b+c [0,1]
Russel e Rao aa+b+c+d [0,1]
Sorenson 2a2a+b+c [0,1]
Ochiai a[(a+b)(a+c)]1/2 [0,1]
Russel e Rao aa+b+c+d [0,1]
Baroni-Urbani-Buser a+(ad)1/2
a+b+c+(ad)1/2 [0,1]
Haman (a+d)−(b+c)a+b+c+d [-1,1]
Yule ad−bcad+bc [-1,1]
8
2.3 Metodos de Agrupamento
A partir da definicao de distancias entre os objetos pode-se entao proceder o agrupa-
mento dos mesmos. A analise de agrupamento pode ser realizada a partir de uma variedade
de tecnicas e algoritmos matematicos. Estes algoritmos, de maneira geral, podem ser classi-
ficados em dois tipos: algoritmos de particao e algoritmos hierarquicos (Banfield e Raftery,
1993). Uma sıntese destes metodos e apresentada a seguir.
2.3.1 Metodos de Particao
Os algoritmos de particao descrevem um metodo em que o conjunto de dados e parti-
cionado em um numero predeterminado de grupos, k. Verificar todas as possıveis particoes e
na maioria das vezes inviavel, portanto o processo tende a investigar algumas delas visando
encontrar aquela que torne otimo um criterio de adequacidade da particao ou aquela que
seja quase otima.
Os algoritmos de particao diferem um do outro pela escolha de um ou mais dos seguintes
procedimentos:
(a) Metodo de iniciar os agrupamentos;
(b) Metodo de designar objetos aos agrupamentos iniciais;
(c) Metodo de redesignar um ou mais objetos ja alocados para outros agrupamentos.
Metodo das k-Medias
O algoritmo das k-medias alterna entre calcular os centroides baseados nos atuais mem-
bros dos grupos e designar as observacoes aos grupos baseados nos novos centroides. O
centroide de cada grupo e a media das coordenadas do vetor de observacoes de seus membros
e as observacoes sao designadas para os grupos cujo centroide esta mais proximo, baseando-
se num criterio de mınimos quadrados. O uso de mınimos quadrados para este metodo de
k-medias e adequado visto que e menos resistente a valores extremos que o metodo baseado
nos medoides PAM (partitioning around medoids), que esta baseado na soma das dissimi-
laridades no lugar da soma das distancias euclidianas ao quadrado. Para mais detalhes ver
Kaufman e Rousseeuw (1990).
O metodo das k-medias e um dos mais conhecidos metodos de particao . Numa versao
mais simples e composto dos seguintes passos:
1. Os dados sao separados em k grupos iniciais.
2. Designar cada objeto ao grupo cujo centro esta mais proximo dele. A distancia
Euclidiana e utilizada para realizar este calculo estando as observacoes padronizadas ou nao.
3. Repetir o passo 2 ate nao ocorrer mais deslocamentos das observacoes.
Uma forma diferente de utiliza-lo e especificando k centros iniciais dos k grupos prede-
9
terminados e entao realizar o passo 2.
2.3.2 Metodos Hierarquicos
As tecnicas hierarquicas podem ser classificadas em aglomerativas ou divisivas. Metodos
hierarquicos aglomerativos iniciam considerando que cada um dos n objetos representam um
grupo e segue unindo os mais similares, formando assim novos grupos, ate que todos os obje-
tos facam parte de um mesmo grupo. Ja os metodos divisivos partem de um unico grupo que
vai sendo dividido sucessivamente ate que o numero de subgrupos formados coincida com o
numero de objetos. O que caracteriza estes processos e que a reuniao de dois agrupamen-
tos numa certa etapa produzem um dos agrupamentos da etapa superior, caracterizando o
processo hierarquico. Os processos aglomerativos sao mais utilizados do que metodos divi-
sivos. Classificacoes hierarquicas produzidas tanto pelos metodos divisivos ou aglomerativos
podem ser representadas por um diagrama bidimensional conhecido como dendograma. A
seguir sao apresentados alguns algoritmos hierarquicos.
Metodo do Centroide
Este processo e o mais direto dentre os algoritmos hierarquicos. A distancia entre os
grupos neste metodo e definida pela distancia entre os seus centros. A uniao entre os grupos
e realizada por aqueles que possuem a menor distancia entre si. A maior dificuldade desta
tecnica e ter que recalcular os centros dos grupos a cada uniao realizada.
Metodo da Ligacao Simples ou do Vizinho Mais Proximo
Neste metodo a distancia entre dois grupos e definida pelos dois elementos mais parecidos,
isto e, entre as medidas de similaridade e dissimilaridade entre os objetos de um grupo e do
outro e escolhida a de maior valor como a medida entre os dois grupos. Portanto, a distancia
entre os grupos X e Y e definida como
d(X, Y ) = min{d(i, j) : i ∈ X e j ∈ Y }
no caso de dissimilaridades, e
s(X, Y ) = max{s(i, j) : i ∈ X e j ∈ Y }
no caso de similaridades.
Metodo da Ligacao Completa ou do Vizinho Mais Distante
De forma contraria ao metodo anterior a similaridade e dissimilaridade entre dois grupos
e definida pelos objetos de cada grupo que menos se parecem, ou seja, no caso de dissimi-
laridades a distancia entre os grupos X e Y e calculada da seguinte forma
d(X, Y ) = max{d(i, j) : i ∈ X e j ∈ Y }10
ja a similaridade
s(X,Y ) = min{s(i, j) : i ∈ X e j ∈ Y }.Convem ressaltar que a uniao entre os grupos ainda sera feita com os mais parecidos, isto e,
aqueles que possuirem a menor distancia.
Metodo de Ward
Ward (1963) propos um procedimento de agrupamento que busca formar particoes,
Pn, . . . , P1, ate o ponto que minimize a perda de informacao associada com cada agru-
pamento. Ward define esta perda como a soma do quadrado dos erros.
Por fim vale a pena destacar que das tecnicas hierarquicas s metodos divisivos tem
a mesma potencialidade que os aglomerativos, porem caso se pretenda obter um grande
numero de grupos e preferıvel se utilizar os metodos divisivos ja que nos aglomerativos isto
so e obtido depois de um grande numero de unioes de pequenos grupos.
Os algoritmos aglomerativos sao geralmente classificados em monoteicos e politeicos. No
monoteico a divisao de um grupo em dois e realizada baseando-se apenas em uma variavel.
Denominado como MONA (Monothetic Analysis) e e descrito no capıtulo 7 de Kaufman
e Rousseaw (1990). Os politeicos consideram p variaveis simultaneamente para fazer a
particao. Podemos citar como exemplo o algoritmo DIANA tambem descrito em Kaufman
e Rousseaw (1990).
No proximo capıtulo apresentamos um metodo hierarquico particular: o chamado metodo
de agrupamento baseado em modelos.
11
Capıtulo 3
Metodo de Agrupamento Baseado no Modelo
Como ja foi mencionado nos capıtulos anteriores, na analise de agrupamento existem
varios metodos para a formacao dos grupos das observacoes , dentre eles aqueles envolvendo
o agrupamento hierarquico. Uma das propostas deste tipo e o agrupamento baseado no
modelo (model-based clustering) que esta fundamentado na suposicao que as observacoes
sao geradas de uma mistura de probabilidades subjacentes (ver por exemplo, Bock 1996,
1998a, 1998b).
Modelos de mistura finita tem sido estudados no contexto de agrupamento. Neles cada
componente da distribuicao de probabilidade corresponde a um grupo. Os problemas de
determinar o numero de grupos e da escolha do agrupamento apropriado podem ser resolvi-
dos com a escolha de um modelo estatıstico. Apresentaremos os metodos de agrupamento
hierarquico baseados na verossimilhanca e no algoritmo EM para a estimacao por maxima
verossimilhanca de mistura de distribuicoes normais multivariadas, sendo estas propostas
complementares. O agrupamento hierarquico baseado em modelos produz razoaveis particoes
mesmo quando e iniciado sem nenhuma informacao sobre os grupos. A inicializacao do al-
goritmo EM e um ponto crıtico. Entao e possıvel iniciar a iteracao do algoritmo EM com
as particoes obtidas a partir do agrupamento basedo nos modelos, isto e, na verossimilhanca
da classificacao .
Neste capıtulo faremos uma revisao das densidades de mistura finita, apresentaremos o
algoritmo EM para modelos de mistura e o agrupamento hierarquico baseado nos modelos.
3.1 Densidades de Mistura Finita
Sejam y1, . . . , yn observacoes independentes multivariadas. A verossimilhanca para um
modelo de mistura com G componentes e
LM(θ1, . . . , θG; τ1 . . . , τG | y) =n∏
i=1
G∑
k=1
τkf(yi | θk), (3.1)
onde fk e θk sao as densidades e os parametros, respectivamente, da k-esima componente na
mistura , e τk e a probabilidade de uma observacao pertencer a k-esima componente, τk ≥ 0
e∑G
k=1 τk = 1, com y = (y1, . . . , yn)T .
12
Misturas finitas fornecem modelos adequados para analise de agrupamento se assumimos
que cada grupo de observacoes tem origem em populacoes, cada uma com uma distribuicao
de probabilidade diferente. Esta pode pertencer a mesma famılia de distribuicoes mas diferir
nos valores dos parametros. Um caso particular muito utilizado e quando fk e a densidade
normal multivariada φk, parametrizada pelo vetor de media µk e a matriz de covariancia Σk:
φk(yi | µk, Σk) ≡exp{−1
2(yi − µk)T Σ−1
k (yi − µk)}√| 2πΣk |
.
Dados gerados por misturas de densidades normais multivariadas tem como caracterıstica
grupos centrados nas medias µk. Notemos que a densidade aumenta para os pontos proximos
da media. As superfıcies correspondentes a densidades constantes sao de forma elipsoidal. As
caracterısticas geometricas dos grupos: a forma, o volume e a orientacao , sao determinados
pela matriz de covariancia Σk que tambem pode ser parametrizada impondo restricoes ao
longo dos grupos. Podemos citar como exemplos: Σk = λI, onde a distribuicao de todos os
grupos e esferica e possuem o mesmo tamanho; Σk = Σ em que a matriz de covariancia e
constante ao longo dos grupos, todos possuem a mesma geometria mas nao necessariamente
sao esfericos (Friedman e Rubin, 1967); e Σk sem restricao onde cada grupo pode ter uma
geometria diferente (Scott e Symons, 1971).
Banfield e Raftery (1993) desenvolveram criterios mais gerais para agrupamentos que
permitem variar algumas caracterısticas da distribuicao do grupo (orientacao, tamanho e
forma) entre os grupos, enquanto forca outras a serem a mesma. O que eles propuseram
foi uma reparametrizacao da matriz de covariancia Σk em termos da decomposicao dos seus
autovalores da forma
Σk = DkΛkDTk , (3.2)
onde Dk e a matriz ortogonal de autovetores e Λk e uma matriz diagonal com os autovalores
de Σk na diagonal. A orientacao das principais componentes de Σk e determinada por
Dk, enquanto Λk especifica o tamanho e forma do contorno da densidade. Descrevemos
Λk = λkAk, onde λk e o primeiro autovalor de Σk, Ak = diag{α1k, . . . , αpk}, e 1 = α1k ≥α2k ≥ · · · ≥ αpk > 0. Assim Dk determina a orientacao do k-esimo grupo, λk seu tamanho,
e Ak sua forma. Pelo tamanho medimos o volume ocupado pelo grupo no p-espaco em vez
do numero de elementos contidos nele. Se os αjk’s sao de magnitudes semelhantes, entao
o k-esimo grupo tendera a ser hiperesferico, enquanto se α2k << 1, ele estara concentrado
sobre uma linha e se α3k << 1 ele estara concentrado sobre um plano 2-dimensional no
p-espaco e assim sucessivamente.
13
3.2 O Algoritmo EM para Modelos de Mistura
O algoritmo EM foi originalmente proposto por Dempster, Laird e Rubin (1977) como
um metodo geral para se obter a estimacao de maxima verossimilhanca dos parametros em
problemas com dados imcompletos. Seu uso para a estimacao em modelos de mistura foi
estudado em detalhes por McLachlan e Basford (1988) e Roeder e Walker (1984).
Os dados podem ser considerados como n observacoes multivariadas xi, recuperadas
por (yi, zi) onde yi e observado e zi e a parte nao observada. Sendo as xi independentes e
identicamente distribuidas (iid) com funcao de densidade f com parametro θ, assim temos
que a verossimilhanca para dados completos e
Lc(xi | θ) =n∏
i=1
f(xi | θ). (3.3)
Alem disso, se a probabilidade de uma variavel em particular ser nao observada depender
apenas dos dados observados y e nao de z, obtemos a verossimilhanca dos dados observados,
Lo(yi | θ), integrando z sob (3.3),
Lo(y | θ) =
∫Lc(x | θ)dz. (3.4)
O estimador de maxima verossimilhanca (EMV) de θ baseado nos dados observados maximiza
(3.4).
No algoritmo EM para modelos de mistura, os dados completos sao considerados como
sendo xi = (yi, zi), onde zi = (zi1, . . . , ziG) e a parte nao observada dos dados
zik =
{1, se xi pertence ao grupo k,
0, caso contrario.(3.5)
Os zi sao considerados iid segundo uma distribuicao multinomial extraıda de alguma das
G categorias com probabilidades z1, . . . , zG e, a densidade de uma observacao yi dado zi e
dada por∏G
k=1 fk(yi | θk)zik . O logaritmo da verossimilhanca dos dados completos e:
l(θk, τk, zik | x) =n∑
i=1
G∑
k=1
ziklog[τkfk(yi | θk)]. (3.6)
O termo EM foi utilizado porque cada iteracao deste algoritmo consiste de dois passos:
o passo E e o passo M. O passo E, da esperanca, calcula zik = E(zik | yi, θ1, . . . , θG) que
e a esperanca condicional dada a observacao yi e o vetor de parametros de yi pertencer ao
k-esimo grupo que para os modelos de mistura e calculada da seguinte forma
zik ←τkfk(yi | θk)
ΣGj=1τjfj(yi | θj)
.
14
O passo M, da maximizacao, onde sao determinados os parametros que maximizam a log-
verosimilhanca (3.6) em termos de τk e θk com os valores fixos de zik dados pelos valores
obtidos no passo E, (zik calculada no passo E anterior). Os valores z∗ik de zik no maximo de
(3.1) e a probabilidade condicional estimada de que a i-esima observacao pertenca ao grupo
k. A maxima verossimilhanca da classificacao da i-esima observacao e tal que (1−maxk z∗ik)e uma medida da incerteza da classificacao (Bensmail et. al, 1997). A parte nao observada
dos dados envolve valores que sao faltantes devido a falta de resposta e/ou quantidades que
sao introduzidas para reformular o problema para EM. Sob certas condicoes de regularidade,
EM pode ser demonstrado convergir para um maximo local da verossimilhanca dos dados
observados (exemplos podem ser verificados em Dempster, Laird e Rubin, 1977; Boyles,
1983; Wu, 1983; McLachlan e Krishnan, 1997, Seild et al., 2000; Karlis e Xekalaki, 2003;
Biernacki et. al, 2003). Embora essas condicoes nem sempre sejam asseguradas na pratica,
o algoritmo EM tem sido muito usado para estimacao da verossimilhanca maxima para
modelos de mistura, com bons resultados, (ver por exemplo, Celeux e Govaert, 1993).
Entre as vantagens deste algoritmo podemos citar:
• Facilmente implementado ja que se baseia em resultados de dados completos.
• Numericamente estavel, a sucessao de iteracoes converge, quase sempre, para um
maximo local do logaritmo da funcao de verossimilhanca.
As principais crıticas que podem ser destacadas ao algoritmo sao :
• O algoritmo pode ter problemas de convergencia quando a covariancia associada com
uma ou mais componentes e singular. Tambem pode falhar ou dar resultados imprecisos
se um ou mais grupos contem poucas observacoes (isto acontece se existem demasiadas
componentes na mistura) ou se as observacoes dos grupos estao concentradas num subespaco
linear de dimensao menor que os dados.
• O passo E pode ser analiticamente intratavel em alguns problemas. Nestas situacoes
pode ser utilizada uma aproximacao via Monte Carlo.
3.3 Selecao do Modelo
Na analise de agrupamento existem duas questoes importantes a serem consideradas:
a selecao do metodo de agrupamento e a determinacao do numero de grupos. Na mode-
lagem de mistura estas questoes reduzem-se a selecao de modelos ja que cada combinacao
de um numero de grupos e um metodo de agrupamento equivalem a um modelo estatıstico.
Utilizando um modelo mais complexo, um numero menor de grupos podera ser suficiente,
no entanto escolhendo um modelo mais simples existira talvez a necessidade de um numero
maior de grupos para ajustar os dados adequadamente. Uma das vantagens desta tecnica e o
15
uso do fator de Bayes para a escolha do melhor modelo (ver Kass e Raftery, 1995; Giampaoli
e Singer, 2003).
Consideremos varios modelos, M1, . . . , MK , com probabilidades a priori p(Mk), k =
1, . . . , K, respectivamente, entao pelo teorema de Bayes a probabilidade a posteriori do mo-
delo Mk dado que foram observados os dados D, P (Mk | D), e proporcional a probabilidade
do modelo Mk multiplicada pela probabilidade a priori do modelo, a saber
p(Mk | D) ∝ p(D | Mk)p(Mk), (3.7)
onde p(D | Mk) e a chamada verossimilhanca integrada do modelo Mk e e obtida por
p(D | Mk) =
∫p(D | θk,Mk)p(θk | Mk)dθk, (3.8)
sendo p(θk | Mk) a chamada distribuicao a priori de θk, vetor parametrico do modelo Mk.
Uma proposta bayesiana para selecionar o modelo e escolher aquele com maior probabilidade
a posteriori, logo se as probabilidades a priori de cada modelo P (Mk) sao as mesmas, entao
por (3.7), basta considerar as verossimilhancas integradas P (D | Mk). Para se comparar
dois modelos, como por exemplo M1 e M2, o fator de Bayes e definido como a razao de duas
verossimilhancas integradas
B12 =p(D | M1)
p(D | M2).
Se B12 > 1 o modelo M1 e escolhido em detrimento ao M2, caso contrario e escolhido o
modelo M2. No entanto, a maior dificuldade para se usar o fator de Bayes e o calculo das inte-
grais envolvidas em (3.8). Na maioria dos casos estas sao realizadas atraves de aproximacoes
numericas. Fraley e Raftery (2002b) supoem que os modelos sao igualmente provaveis e
propoem uma aproximacao baseada no criterio de informacao bayesiana (Bayesian Informa-
tion Criterio ou BIC) proposto por Schwarz (1978):
2 log p(D | Mk) ≈ 2 log p(D | θk,Mk)− vk log(n) = BICk,
onde vk e o numero de parametros independentes a serem estimados no modelo Mk e θk
e o estimador de maxima verossimilhanca (EMV) de θk. O valor alto para o BIC de um
determinado modelo indica forte evidencia a favor deste. Geralmente diferencas maiores
que 10 entre os BIC’s de dois modelos e considerada uma forte evidencia a favor de um
deles. Como os modelos de misturas finitas nao satisfazem condicoes de regularidade, esta
aproximacao nao e valida para esta situacao. Porem, varias aplicacoes de agrupamentos
baseados nos modelos que consideram o criterio BIC para a selecao do modelo apresentam
bons resultados (ver, Fraley e Raftery, 2002b, Stanford e Raftery, 2000).
16
3.4 Agrupamentos Hierarquicos Baseados nos Modelos
Sejam x1, . . . , xn as observacoes e fk(xi | θk) a densidade da observacao xi da k-esima
componente que tem θk como seu parametro e G o numero de componentes da mistura. Uma
das maneiras de se formular o modelo para a composicao dos grupos e atraves da escolha de
θ e τ que maximizem a chamada verossimilhanca de classificacao
L(θ, γ) =n∏
i=1
fγi(xi | θγi), (3.9)
onde γi sao indicadores da unica classificacao de cada observacao , se γi = k entao xi
pertence a k-esima componente. Na verossimilhanca (3.1) cada componente da mistura
esta ponderada pela probabilidade de que cada observacao pertenca a cada componente.
A presenca do indicador γi na verossimilhanca de classificacao (3.9) faz com que nao seja
possıvel se obter a maximizacao exata.
Quando a fk(x; θ) e uma densidade normal multivariada (µk, Σk) conforme McLachlan
et. al, 2003 e Biernacki et. al, 2003, a verossimilhanca de classificacao assume a seguinte
forma
L(θ, γ) = constG∏
k=1
∏
i∈Ek
| Σk |−1/2 exp{−1
2(xi − µk)
T Σ−1k (xi − µk)} (3.10)
onde Ek = {i : γi = k}. O estimador de maxima verossimilhanca (EMV) de µk e xk =
n−1k Σi∈Ek
xi, onde nk e o numero de elementos em Ek. Substituindo µk pelo seu EMV em
(3.10) e calculando a log-verossimilhanca obtemos
l(θ, γ) = const− 1
2ΣG
k=1{tr(WkΣ−1k ) + nk log | Σk |}, (3.11)
onde Wk e a matriz produto cruzado da amostra para o k-esimo grupo, a saber
Wk = Σi∈Ek(xi − xk)(xi − xk)
T .
Note que Wk/nk e o EMV de Σk.
Banfield e Raftery (1993) citam o seguinte:
• Se Σj = α2I (k = 1, . . . , G) entao a log-verossimilhanca em (3.10) e maximizada pela
escolha do γ que minimiza tr(W ), onde W = ΣGk=1Wk.
• Se Σk = Σ (k = 1, . . . , G) entao a log-verossimilhanca em (3.10) e maximizada pela escolha
do γ que minimiza det(W ).
• Se Σk nao e restrita entao a log-verossimilhanca em (3.10) e maximizada pela escolha do
γ que minimiza∏G
k=1[det(Wk/nk)]nk .
17
A diferenca entre o procedimento da verossimilhanca de classificacao e a formulacao
de mistura finita e que o ultimo assume que os xi vem de uma distribuicao de mistura,
cujos parametros sao estimados e entao os membros dos grupos sao determinados pelos
valores maximos das probabilidades a posteriori estimadas. Em contrapartida, na proposta
de verossimilhanca de classificacao assume-se que os xi sao originarios de uma distribuicao
unica fγi(xi, θγi) que e determinada pelo parametro desconhecido γi. A associacao de grupos
e entao estimada diretamente pelos γi que maximizam a verossimilhanca de classificacao.
3.5 Combinando Aglomeracao Hierarquica, EM, e Fator de Bayes
No agrupamento aglomerativo, cada etapa onde os grupos sao unidos corresponde a
um unico numero de grupos e uma unica particao dos dados. Uma determinada particao
pode ser transformada em uma variavel indicadora do tipo (3.5), que pode ser entao usada
na probabilidade condicional no passo M do algoritmo EM para estimacao dos parametros,
inicializando uma iteracao no EM. Combinando isto com a selecao do modelo via BIC resulta
na estrategia de agrupamento detalhada abaixo:
• Determinar um numero maximo de grupos (M), e um conjunto de modelos de mistura
a serem analisados.
• Realizar a aglomeracao hierarquica visando maximizar aproximadamente a verossi-
lhanca de classificacao para cada modelo e obter a classificacao correspondente para todos
os possıveis numeros de grupos ate M .
• Implementar o algoritmo EM para cada modelo de mistura e cada numero de grupos
2, . . . , M , iniciando com a classificacao e aglomeracao hierarquica.
• Calcular o BIC de um determinado caso de cada modelo e para o modelo de mistura
com os parametros otimos de EM para 2, . . . ,M , grupos.
A escolha do melhor modelo associado a um numero de grupos sera direcionada para o
modelo cujo BIC obteve valor maximo. Um conjunto de modelos apropriados para a reali-
zacao do agrupamento dos dados em geral, na pratica e aquele formado pela parametrizacao
de misturas normais multivariadas atraves da decomposicao dos autovalores como em (3.2).
Com estes modelos o calculo pode ser reduzido fazendo aglomeracao hierarquica apenas para
um dos modelos, por exemplo quando a matriz de covariancia nao possui restricao, usando
as particoes resultantes como valores iniciais do EM com alguma outra parametrizacao (ver
Fraley e Raftery, 2000b).
3.6 Modelando as pertubacoes
A estrategia para analise de agrupamento baseada no modelo descrita ate agora nao
18
e diretamente aplicada a dados definidos como perturbacoes. No entanto o modelo pode
ser modificado de forma que o algoritmo EM trabalhe de maneira satisfatoria com uma
identificacao inicial do que e uma observacao e uma pertubacao. A pertubacao e considerada
como proveniente de um processo de razao constante de Poisson, resultando assim a seguinte
mistura de verossimilhanca
LM(θ1, . . . , θG; τ1 . . . , τG | y) =n∏
i=1
[τ0
V+
G∑
k=1
τkf(yi | θ)],
onde V e o hipervolume da regiao dos dados, τk ≥ 0, e∑G
k=0 τk = 1. Alternativamente pontos
extremos isolados podem ser tratados por amostragem iterativa (ver, Fayyad e Smith, 1996)
na qual pontos com baixa probabilidade sao retiradas do grupo, e o processo e reiterado ate
que todas as observacoes restantes tenham alta probabilidade. Outra alternativa e trabalhar
com as pertubacoes modelando as misturas via distribuicao t (ver Peel and McLachlan,
2000).
Quando nos deparamos com um conjunto de dados contendo uma grande quantidade de
pertubacoes devemos modificar o metodo de agrupamento baseado no modelo da seguinte
forma:
• Obter inicialmente uma classificacao de cada observacao como sendo uma pertubacao
ou nao. Um metodo possıvel para isto inclui o metodo Voronoı (Allard e Fraley, 1997) e um
metodo do vizinho mais proximo (Byers e Raftery, 1998).
• Aplicar um metodo de agrupamento hierarquico para os dados sem as perturbacoes.
• Aplicar o algoritmo EM baseado no modelo Gaussiano com a inclusao de termos
definidos como pertubacoes para todo o conjunto de dados. Valores iniciais para zik sao
formados pelo aumento das variaveis indicadoras do passo do agrupamento hierarquico com
uma linha de zeros para cada observacao inicialmente avaliada como sendo pertubacoes , e
uma coluna de variaveis indicadoras dando o resultado do passo em que foram retiradas as
perturbacoes . Um exemplo pode ser visto em Fraley e Raftery, (2000b).
3.7 Vantagens e limitacoes
Os metodos de agrupando baseados em modelos de mistura normais multivariadas descri-
tos por Fraley e Raftery (2000b) tem sido usado com sucesso em varias aplicacoes tais como
a deteccao de minas e falhas sısmicas (Dasgupta e Raftery, 1998), identificacao de falhas de
imagens (Campbell et. al, 1997), e a classificacao de dados astronomicos (Mukherjee et. al,
1998). Contudo, o uso destes metodos sem qualquer modificacao podera ser limitado para
dados nao normais, de alta dimensao ou para um grande conjunto de dados.
19
3.8 Dados nao gaussianos
Misturas finitas com componentes normais multivariadas tem sido muito utilizadas para
modelos de dados multivariados contınuos. Uma das vantagens destas misturas e sua con-
veniencia computacional. Eles podem ser facilmente ajustados diretamente pela maxima
verossimilhanca ou via algoritmo EM. No entanto, em algumas situacoes o uso de compo-
nentes normais pode ser inadequado ja que podem tornar o modelo de mistura inviavel.
Visando solucionar este problema Peel e McLachlan (2000) consideraram como uma alter-
nativa adequada misturas de distribuicoes t multivariadas.
Uma componente nao-Gaussiana pode ser frequentemente aproximada por varias Gaus-
sianas (ver, Dasgusta e Raftery, 1998; e Fraley e Raftery, 1998). Suponha que um compo-
nente esta concentrado sobre uma curva nao-linear, isto pode ser possıvel realizando uma
aproximacao linear por partes que pode ser representada por varios grupos gaussianos, cada
um concentrado sobre um subespaco linear. Uma proposta para solucionar o caso quando
os grupos estao concentrados em torno de curvas nao lineares em vez de linhas e modelar
as curvas usando o conceito de curvas principais (Hastie e Stuetzle, 1989). O agrupamento
sobre curvas principais foi proposto e desenvolvido por Banfield e Raftery (1992) e Stanford
e Raftery (2000). Banfield e Raftery (1993) tambem sugeriram alguns criterios para algumas
situacoes nao -Gaussianas.
20
Capıtulo 4
Aplicacao
Para aplicar a tecnica de agrupamento hierarquico baseada no modelo, utilizando o
pacote MCLUST ja citado, foram utilizadas variaveis de tipo contınuas onde nao ocorreram
falta de informacoes das variaveis, em nenhum dos elementos a serem agrupados.
Na presente aplicacao objetiva-se agrupar os municıpios de Pernambuco, e, para isso
foram obtidos dados oficiais do IPEA e do SUS do ano de 2001. O IPEADATA e uma base
de dados macroeconomicos sobre o Brasil organizada, pelo Instituto de Pesquisa Economica
Aplicada (IPEA). Contem mais de 5000 series sendo 2500 de uso publico com acesso gratui-
to na Internet abrangendo os seguintes temas: Balanco de Pagamentos, Cambio, Comercio
Exterior, Consumo e Vendas, Contas Nacionais, Economia Internacional, Emprego, Financas
Publicas, Indicadores Sociais, Juros, Moeda e Credito, Populacao, Precos, Producao , Salario
e Renda. O Departamento de Informatica do Sistema Unico de Saude (SUS), DATASUS,
tem como missao prover os orgaos do SUS de sistemas de informacao e suporte de informatica
necessarios ao processo de planejamento, operacao e controle do SUS, atraves da manutencao
de bases de dados nacionais, apoio e consultoria na implantacao de sistemas e coordenacao
das atividades de informatica inerentes ao funcionamento integrado dos mesmos. Suas prin-
cipais linhas de atuacao sao: manutencao das bases nacionais do Sistema de Informacoes
de Saude; desenvolvimento e disseminacao de sistemas de informacao de saude; desenvolvi-
mento, selecao e disseminacao de tecnologias de informatica para a saude, adequadas ao
paıs; consultoria para a elaboracao de sistemas do planejamento, controle e operacao do
SUS; suporte tecnico para informatizacao dos sistemas de interesse do SUS, em todos os
nıveis; normatizacao de procedimentos, softwares e de ambientes de informatica para o SUS;
apoio a capacitacao das secretarias estaduais e municipais de saude para a absorcao dos
sistemas de informacoes no seu nıvel de competencia; incentivo a formacao de uma rede para
intercambio e disseminacao de informacoes de interesse do SUS via Internet, BBS e outras
formas complementares. No banco do IPEA no ano de 2001 faltam informacoes para 31
dos municıpios do estado de Pernambuco, dos quais 17,no banco do SUS, tambem nao sao
fornecidas informacoes , portanto estes municıpios nao foram considerados e estao listados
no Apendice C. O municıpio do Recife nao foi considerado para podermos ter uma melhor
classificacao ja que este municıpio apresenta valores das variaveis bem distintos dos demais
levando-os a ficarem em um mesmo grupo. Estes dados estao disponıveis na internet nos
21
enderecos: www.ipeadata.gov.br e www.datasus.gov.br respectivamente. No apendice A
e B estao as saıdas para o agrupamento realizado com o banco de dados do IPEA e do SUS,
respectivamente,
Nos Quadros 1 e 2 encontram-se descritas as variaveis que foram retiradas do arquivo de
dados do IPEA e do SUS, respectivamente.
Quadro 1. Variaveis referentes ao banco de dados do IPEA - 2001.
Codigo Variavel
V1 Desp. Municipais por Funcao de Saude e Saneamento - Anual - R$V2 Desp. Municipais por Funcao de Transporte - Anual - R$V3 Desp. Municipais por Funcao Legislativa - Anual - R$V4 Investimento Municipal - Anual - R$V5 Impostos Municipais Total - Anual - R$V6 IPTU - Anual - R$V7 ISS - Anual - R$V8 Outras Receitas Correntes Municipais - Anual - R$V9 Transferencias para os Municıpios Referentes ICMS - Anual - R$V10 Transferencia para os Municıpios referentes ao IPVA - Anual - R$V11 Transferencias Correntes de Tributos Estaduais Para os Munıpios - Anual - R$V12 Receita Corrente Municipal - Anual - R$V13 Outros Impostos Municipais - Anual - R$V14 Outras Transferencias Correntes para os Municıpios - Anual - R$V15 Receita Municipal com Transferencias Correntes Total - Anual - R$V16 Total das Despesas Municipais por Funcao - Anual - R$V17 Receita Orcamentaria Municipal - Anual - R$V18 Receita Tributaria Municipal - Anual - R$V19 Receita Municipal de Capital - Anual - R$V20 Taxas Municipais Total - Anual - R$V21 Transferencia para os Municıpios referentes ao IPVA - Anual - R$V22 Populacao
Quadro 2. Variaveis referentes ao banco de dados do SUS. - 2001
Codigo Variavel
V23 Despesas Total com Saude - Anual - R$V24 Despesa de Recursos Proprios - Anual - R$V25 Receita de Impostos e Transferencias Constitucionais e Legais - Anual - R$V26 Transferencias SUS - Anual - R$V27 Despesa Pessoal - Anual - R$
A tecnica de agrupamento apresentada no capıtulo anterior foi aplicada para os dois
bancos separadamente, visando comparar assim as diferencas obtidas nos agrupamentos.
Para tanto foram feitos agrupamentos para diferentes casos: considerando as variaveis na
22
sua forma original (dados brutos) usando a populacao como uma variavel (DBCP); utilizando
o quantitativo monetario percapita (QMP) e utilizando os dados originais sem a populacao
como variavel (DBSP). Nos apendices A e B estao as saıdas do pacote MCLUST para
agrupamente dos tres casos considerados, para os bancos do IPEA e do SUS, respectivamente.
Os modelos considerados nos agrupamentos se referem a distribuicao dos dados levando
em consideracao a parametrizacao da matriz de covariancia, seu volume, forma e a orientacao
da distribuicao para os grupos. No Quadro 3 estao todos os modelos que foram considerados
nesta aplicacao. O numero maximo de grupos a ser testado foi 9, ja que a medida que o
numero de grupos aumentava o BIC apresentava um decrescimo para os modelos em questao.
Quadro 3. Modelos considerados para agrupar os municıpios.
Codigo Distribuicao Volume Forma Orientacao
EII Esferica igual igual NAVII Esferica variavel igual NAEEI Diagonal igual igual eixos de coordenadasVEI Diagonal variavel igual eixos de coordenadasEVI Diagonal igual variavel eixos de coordenadasVVI Diagonal variavel variavel eixos de coordenadasEEE Elipsoidal igual igual igualVVV Elipsoidal variavel variavel variavelEEV Elipsoidal igual igual variavelVEV Elipsoidal variavel igual igual
4.1 Resultado do agrupamento com os dados do IPEA
A princıpio foi realizada uma analise exploratoria dos dados visando identificar dados
faltantes, observacoes discrepantes bem como algumas medidas de locacao. O Quadro 4
apresenta um resumo das variaveis de interesse deste banco. Podemos destacar uma grande
dispersao relativa nas variaveis principalmente em V6 e V20, cujos coeficientes de variacao
sao respectivamente 440% e 410%. Dentre as 22 variaveis, 9 apresentam dados faltantes.
Percebemos tambem assimetria positiva na distribuicao de todas as variaveis ja que os valores
das medias sao maiores do que das medianas.
Para o agrupamento foram escolhidas as variaveis que nao possuiam dados faltantes por
ser esta uma restricao do metodo. Para o caso, se considerou como melhor modelo aquele que
apresentou um valor maximo de BIC. No Quadro 5 e apresentado qual e o melhor modelo
com seu respectivo BIC, a incerteza associada a cada modelo, o numero de grupos resultantes
e o numero de elementos de cada grupo. Deste quadro podemos observar que para o caso em
que se considerou os dados brutos com a populacao como variavel (DBCP), o melhor modelo
23
foi VEV, se constituiram 4 grupos nao havendo uma concentracao dos municıpios em um
determinado grupo. Ao retirar a populacao (DBSP), o agrupamento se manteve semelhante
no numero de grupos e no modelo, VEV, no entanto ocorreu uma concentracao de 66%
dos municıpios no grupo 1. Com os valores percapita (QMP), os municıpios formaram 6
grupos sendo o modelo agora o EEE, concentrando os municıpios no grupo 1. Dentre os
tres agrupamentos o que apresentou a menor incerteza foi aquele com os dados brutos sem
a populacao e foi este o considerado como melhor.
Os grupos resultantes deste melhor agrupamento sao apresentados de forma ilustrativa
no Mapa 1, onde 0 significa que o municıpio nao foi considerado no agrupamento. Neste mapa
podemos constatar que os agrupamentos nao dependem das regioes geograficas. Algumas
medidas descritivas de cada uma das variaveis nos 4 grupos sao apresentadas nos Quadros
6, 7 e 8. Nos Graficos de 1 a 12 estao ilustrados os diagramas box-plot de cada variavel, em
cada grupo. Os municıpios com valores extremos nestes graficos estao a seguir em ordem
crescente de valores.
Variavel V1 - grupo 2: Cabo de Santo Agostinho, Petrolina, Camaragibe; grupo 3: Santa
Cruz do Capibaribe.
Variavel V4 - grupo 1: Belem de Maria, Lagoa de Ouro, Rio Formoso, Betania, Jatoba,
grupo 2: Petrolina.
Variavel V5 - grupo 1: Afogados da Ingazeira, grupo 2: Petrolina, Ipojuca, Caruaru, Olinda,
grupo 4: Salgueiro.
Variavel V7 - grupo 1: Lagoa Grande, grupo 2: Petrolina, Olinda, grupo 3: Santa Maria da
Boa Vista. Salgueiro.
Variavel V9 - grupo 1 Amaraji, Itacuruba, Jatoba, Joaquim Nabuco, Lagoa do Itaenga, Rio
Formoso, grupo 2: Cabo de Santo Agostinho, grupo 4: Vicencia.
Variavel V11 - grupo 1: Amaraji, Itacuruba, Jatoba, Lagoa do Itaenga, Maraial, Rio For-
moso, grupo 2: Paulista, Cabo de Santo Agostinho grupo 4: Vicencia.
Variavel V12 - grupo 1: Rio Formoso, grupo 2: Petrolina, Caruaru, Paulista, Cabo de Santo
Agostinho.
Variavel V14 - grupo 1: Rio Formoso, grupo 2: Caruaru, Paulista, Petrolina, Cabo de Santo
Agostinho, Camaragibe. grupo 3: Santa Maria da Boa Vista.
Variavel V15 - grupo 1: Rio Formoso, grupo 2: Petrolina, Paulista, Cabo de Santo Agostinho,
grupo 4: Cha Grande.
Variavel V16 - grupo 1: Rio Formoso, grupo 2: Caruaru, Paulista, Petrolina, Cabo de Santo
Agostinho.
Variavel V17 - grupo 1: Rio Formoso, grupo 2: Caruaru, Petrolina, Olinda, Paulista, Cabo
de Santo Agostinho.
24
Variavel V18 - grupo 1: Sertania, grupo 2: Paulista, Caruaru, Olinda, grupo 4: Salgueiro.
Os resultados apresentados nos Quadros 6, 7 e 8 revelam que ao realizar o agrupamento os
grupos gerados apresentam, como era esperado, uma menor dispersao em todas as variaveis.
Atraves dos diagramas box-plot percebemos que o grupo 1 agrega 101 municıpios com os
menores valores para todas as variaveis, e que existem alguns valores extremos especialmente
nas variaveis V4, V7, V9 e V11. Estas apresentam tambem os maiores coeficientes de
variacao, 62%, 62%, 136% e 130%, respectivamente.
Os grupos 3 e 4 sao bastante semelhantes quanto a grandeza das variaveis, com o grupo
3 apresentando valores um pouco maiores para quase todas as variaveis. A presenca de
valores extremos nao e muito frequente nestes grupos. Os diagramas box-plot referidos
revelaram uma certa homogeneidade dos valores de cada uma das variaveis nos grupos 1,
3 e 4 constatada pelo baixo valor dos coeficientes de variacao. No entanto, os resultados
para o grupo 2 demonstram uma grande heterogeneidade entre os 28 municıpios para todas
as variaveis, com valores medios superiores ao restante dos grupos. Vale a pena destacar
que neste grupo 2 os municıpios que possuem valores extremos em quase todas as variaveis
sao: Cabo de Santo Agostinho, Camaragibe, Caruaru, Olinda, Paulista e Petrolina, ainda
contribuindo para a maior assimetria positiva de todas as variaveis identificamos: Agrestina,
Araripina, Belo Jardim, Bezerros, Floresta, Garanhuns, Goiana, Gravata, Iati, Igarassu,
Ipojuca, Itapissuma, Joao Alfredo, Moreno, Nazare da Mata, Ouricuri, Palmares, Pesqueira,
Petrolandia, Petrolina, Pombos, Serra Talhada e Vitoria de Santo Antao.
25
Quad
ro4.
Est
atıs
tica
sba
sica
sdo
banc
ode
dado
sdo
IPE
Apa
raas
vari
avei
sde
inte
ress
e.
Var
iave
isM
edid
as
MIN
xM
dM
AX
D.P
.C
.V.(%
)N
A’s
1
V1
6173
8,44
2290
692,
0915
3496
9,73
2714
9473
,93
3301
601,
2114
40
V2
100,
3118
4034
,25
7697
7,56
4101
641,
2344
8174
,88
244
19V
392
84,0
645
3109
,07
2729
12,7
446
5527
2,67
6481
07,8
514
310
V4
1173
92,5
094
0381
,30
5725
91,4
010
5390
35,8
012
5128
1,80
130
0V
511
874,
0047
9037
,16
8679
4,52
1687
9165
,12
1699
933,
5635
50
V6
680,
9514
8385
,03
1106
5,43
6722
104,
0465
2292
,61
440
3V
788
98,1
329
9038
,82
5991
6,66
9126
363,
7296
9749
,16
296
0V
820
3,00
5946
18,0
816
2748
,96
1458
4624
,62
1504
578,
3325
31
V9
5380
5,14
1963
574,
5846
2722
,00
3271
2585
,34
4269
084,
2121
70
V10
2220
,75
1432
22,4
228
304,
7240
1971
8,11
4306
49,6
730
11
V11
5623
3,38
2105
860,
9148
771,
0033
1578
63,3
645
2844
5,40
215
0V
1223
0914
6,00
1085
4135
,00
6758
938,
0084
0566
67,0
013
3817
40,0
012
30
V13
57,3
035
689,
1354
35,5
010
3069
7,36
1145
83,7
832
15
V14
3282
69,7
031
6496
1,90
2300
852,
1025
7200
43,9
035
6420
8,90
113
0V
1521
6822
1,00
9582
754,
0063
7375
1,00
6424
3472
,00
1035
8728
,00
108
0V
1619
8538
8,00
1021
0274
,00
6496
946,
0077
4900
57,0
012
0610
09,0
011
80
V17
2309
146,
0011
0851
09,0
069
8945
4,00
8452
2332
,00
1371
3404
,00
124
0V
1812
396,
0068
0648
,98
1099
52,4
725
6208
00,5
124
8609
4,63
365
0V
1914
6,10
2896
65,0
012
2415
,20
5875
747,
0066
8195
,00
231
31V
2023
,00
2042
82,1
723
873,
9287
4163
5,39
8375
22,5
341
02
V21
2220
,75
1432
22,4
228
304,
7240
1971
8,11
4306
49,6
730
11
V22
3734
3418
220
219
3720
1447
920,
6714
00
1Q
uanti
dade
de
dados
falt
ante
s.
26
Quadro 5. Resumo dos agrupamentos feitos com o banco de dados do IPEA.
Variaveis Grupos Elementos por grupos Melhor modelo Incerteza BIC
DBCP 4 28-12-52-61 VEV 0, 20 −55084, 10DBSP 4 101-28-12-12 VEV 0, 18 −52286, 60QMP 6 123-7-11-4-4-4 EEE 0, 49 −15045, 07
Quadro 6. Estatısticas basicas para as variaveis V1, V4, V5 e V7 dos quatro gruposgerados no agrupamento feito com os dados brutos sem a populacao.
Variaveis MedidasGRUPOS
1 2 3 4
V1
MIN 61738,44 1895395,00 2055919,60 1752494,00x 1178084,01 6127572,00 2670821,30 2322293,50
Md. 1082855,72 3469824,00 2607071,8 2361601,60MAX 2557790,28 27149474,00 3962421,50 3062664,90D.P. 530338,10 6337313,00 502439,90 490141,20
C.V.(%) 45 103 20 21
V4
MIN 117392,50 150255,20 499731,50 393588,70x 520507,40 2365875,90 1142163,30 946384,70
Md. 422596,20 1716617,10 966319,60 917112,70MAX 1547356,00 10539035,80 2535403,00 1673352,40D.P. 321243,90 2320206,50 705548,00 387227,80
C.V.(%) 62 98 62 41
V5
MIN 11874,00 56763,94 99000,88 28323,51x 70303,90 2161354,30 306960,16 165879,18
Md. 59976,49 484633,13 290717,20 156252,09MAX 216350,80 16879165,12 539357,00 410293,77D.P. 40245,29 3553780,69 175341,96 96304,13
C.V.(%) 57 164 57 58
V7
MIN 11874,00 17221,37 50515,50 8898,13x 53494,76 1316496,11 182325,90 108347,28
Md. 46234,00 415106,00 161358,20 129596,00MAX 176578,40 9126363,72 464745,40 161800,18D.P. 33326,45 1990570,15 112265,90 55363,61
C.V.(%) 62 151 62 51MIN = mınimo valor da variavelMAX = maximo valor da variavelx = mediaMd = medianaD.P. = Desvio PadraoC.V.(%) = Coeficiente de Variacao
27
Quadro 7. Estatısticas basicas para as variaveis V9, V11, V12 e V14 dos quatro gruposgerados no agrupamento feito com os dados brutos sem a populacao.
Variaveis MedidasGRUPOS
1 2 3 4
V9
MIN 53805,14 255454,70 989695,60 235184,30x 518052,19 7470018,50 2370967,10 874293,00
Md. 253384,00 5359958,90 2466888,80 763779,60MAX 4214883,23 32712585,30 3592514,00 2699302,20D.P. 706625,07 7770987,40 888852,80 663874,80
C.V.(%) 136 104 37 76
V11
MIN 56233,38 266394,60 1088430,90 268835,00x 545421,86 8032495,10 2555200,40 961403,70
Md. 285876,61 5627116,00 2643970,50 857423,20MAX 4261448,92 33157863,40 4000138,00 2774718,90D.P. 710088,64 8175970,30 900778,50 691573,70
C.V.(%) 130 101 35 72
V12
MIN 2309146,00 6477675,00 11859454,60 9485208,00x 5614184,00 28871229,00 12984599,90 10786701,00
Md. 5336812,00 17651915,00 13117764,70 10424094,00MAX 1112089,00 84056667,00 14532415,00 12743742,00D.P. 1849458,00 23523400,00 780995,50 1071953,00
C.V.(%) 33 81 6 10
V14
MIN 328269,70 581350,60 2339589,00 2435391,30x 1806790,10 7296419,10 3998999,00 4122136,40
Md. 1775021,20 5472468,80 3736965,00 4331817,10MAX 4012242,70 25720043,90 7100816,00 5124993,90D.P. 805756,00 6550243,70 1246424,00 791895,10
C.V.(%) 46 90 31 19
28
Quadro 8. Estatısticas basicas para as variaveis V15, V16, V17 e V18, dos quatro gruposgerados no agrupamento feito com os dados brutos sem a populacao.
Variaveis MedidasGRUPOS
1 2 3 4
V15
MIN 2168221,00 5921654,00 10283881,50 8525766,50x 5315340,00 23789924,00 12070202,80 9862644,30
Md. 5106857,00 15804656,00 12238374,20 9940203,00MAX 10769602,00 64243472,00 13553396,00 10697133,70D.P. 1757668,00 17662328,00 896029,30 552155,80
C.V.(%) 33 74 7 6
V16
MIN 1985388,00 7437533,00 11782654,20 9037860,00x 5421486,00 26178236,00 2763614,80 10703993,00
Md. 5351160,00 16544266,00 12587807,80 10575369,00MAX 10787213,00 77490057,00 14000749,00 12069495,00D.P. 1899886,00 21252997,00 742720,30 1036181,00
C.V.(%) 35 81 6 10
V17
MIN 2309146,00 6477675,00 11859455,00 9522307,00x 5748216,00 29528918,00 13114836,00 10938680,00
Md. 5487164,00 17971452,00 13267954,00 10473488,00MAX 11191283,00 84522332,00 14659055,00 13023108,00D.P. 1861184,00 24163563,00 776707,00 1194828,00
C.V.(%) 32 82 6 11
V18
MIN 12396,00 56763,94 111138,20 107504,90x 92231,21 3081889,34 479532,30 231387,60
Md. 77741,76 821515,08 531402,30 180652,50MAX 322639,22 25620800,51 798600,20 590362,30D.P. 56487,22 5231346,47 252460,70 137701,30
C.V.(%) 61 170 53 60
29
Grafico 1. BoxPlot de V1 (Despesas Municipais por Funcao de Saude e Saneamento), por grupo.
1 2 3 4
0.0
e+00
1.0
e+07
2.0
e+07
Grafico 2. BoxPlot de V4 (Investimento Municipal), por grupo.
1 2 3 4
0 e
+00
4 e
+06
8 e
+06
30
Grafico 3. BoxPlot de V5 (Impostos Municipais), por grupo.
1 2 3 4
0.0
e+00
5.0
e+06
1.0
e+07
1.5
e+07
Grafico 4. BoxPlot de V7 (ISS), por grupo.
1 2 3 4
0 e
+00
2 e
+06
4 e
+06
6 e
+06
8 e
+06
31
Grafico 5. BoxPlot de V9 (Transferencias para os Municıpios Referentes ICMS), por grupo.
1 2 3 4
0.0
e+00
1.0
e+07
2.0
e+07
3.0
e+07
Grafico 6. BoxPlot de V11 (Transferencias Correntes de Tributos Estaduais para os municıpios), porgrupo.
1 2 3 4
0.0
e+00
1.0
e+07
2.0
e+07
3.0
e+07
32
Grafico 7. BoxPlot de V12 (Receitas Correntes Municipais), por grupo.
1 2 3 4
0 e
+00
2 e
+07
4 e
+07
6 e
+07
8 e
+07
Grafico 8. BoxPlot de V14 (Outras Transferencias Correntes para os municıpios), por grupo.
1 2 3 4
0.0
e+00
1.0
e+07
2.0
e+07
33
Grafico 9. BoxPlot de V15 (Receita Municipal com Transferencias Correntes), por grupo.
1 2 3 40 e
+00
2 e
+07
4 e
+07
6 e
+07
Grafico 10. BoxPlot de V16 (Totais de Despesas Municipais por Funcao), por grupo.
1 2 3 4
0 e
+00
2 e
+07
4 e
+07
6 e
+07
8 e
+07
34
Grafico 11. BoxPlot de V17 (Receita Orcamentaria Municipal), por grupo.
1 2 3 4
0 e
+00
2 e
+07
4 e
+07
6 e
+07
8 e
+07
Grafico 12. BoxPlot de V18 (Receita Tributaria Municipal), por grupo.
1 2 3 4
0.0
e+00
1.0
e+07
2.0
e+07
35
4.2 Resultado do Agrupamento com o Banco de Dados do SUS
Realizada a analise exploratoria para este banco, ver Quadro 9, verificamos que nenhuma
das variaveis apresenta dados faltantes, no entanto para este banco tambem existe uma
grande dispersao relativa nas variaveis, especialmente em V23 e V26, cujos coeficientes de
variacao sao 153% e 181% respectivamente.
Na maioria dos agrupamentos realizados observou-se que a inclusao da variavel 24 (Des-
pesa de Recursos Proprios) acarreta o agrupameno de todos os municıpios em um so grupo.
Por este motivo esta variavel foi retirada e todos os agrupamentos refeitos. Considerando
as 3 situacoes ja mencionadas: DBCP, DBSP e QMP, foram testados todos os modelos
existentes no Quadro 3, ja referido variando a quantidade de grupos de 1 a 9. Para cada
situacao, os melhores modelos foram aqueles que obtiveram maior BIC. O resumo destes
resultados e encontrado no Quadro 10. Para DBCP os dados foram agregados em 7 grupos,
com VEI como melhor modelo, ja retirando a populacao os grupos foram reduzidos a cinco
tendo como modelo VEE, este numero de grupos se mantem com os dados percapita, no
entanto o melhor modelo agora e o EEE. Comparando os valores de incerteza verifica-se
que a menor incerteza refere-se a situacao em que foram utilizados os dados brutos sem
populacao, tal como ocorreu no agrupamento com os dados do IPEA. Este agrupamento em
especial e apresentado de forma ilustrativa no Mapa 2. Tambem e apresentada no Quadro
11 e nos Graficos 13 a 16, uma descricao das variaveis dos cinco grupos resultantes deste
agrupamento.
Notemos que nos grupos 1 e 2 se concentram a maioria dos municıpios. O grupo 3 e
o que contem apenas tres municıpios: Cabo de Santo Agostinho, Caruaru e Paulista. No
grupo 4 encontram-se Bezerros, Camaragibe, Ipojuca, Olinda e Petrolina. E no grupo 5:
Garanhuns, Goiana, Igarassu e Vitoria de Santo Antao . Analisando os box-plot verifica-
se que no grupo 1 se concentraram as cidades que possuem os menores valores para todas
as variaveis, apresentando pouca dispersao em todas as variaveis visto que o coeficiente de
variacao e relativamente baixo, atingindo no maximo 55% para a variavel V27. Nos graficos
13, 14, 15 e 16 sao mostrados os municıpios com valores extremos nas variaveis. Na variavel
V23 no grupo 2 se observam valores extremos em Petrolandia, Pesqueira, Belo Jardim. Na
variavel V25 nao existe nenhum. Na V26 no grupo 2 temos Belo Jardim, Gravata, Moreno,
Pesqueira. Na V26 tambem no grupo 2 Belo Jardim e Pesqueira. Por ultimo na V27 temos
valores extremos nos grupos 2 com Belo Jardim e Pesqueira, e no grupo 4 com Olinda.
Os grupos 1, 2, e 5 , do ponto de vista da grandeza absoluta das variaveis podem ser
considerados ordenados e com maior homogeneidade que os outros dois grupos. No grupo 4 e
notada uma dispersao maior das variaveis. Este grupo quase nao apresenta valores extremos,
37
enquanto o grupo 2 apresenta “outliers” em quase todas as variaveis.
Quadro 9. Estatısticas basicas do banco de dados do SUS para as variaveis de interesse.
VariaveisMedidas
MIN x Md MAX D.P. C.V.(%) NA’s
V23 374432,50 2454921,70 1606725,50 27061697,60 3766902,80 153 0V24 -863488,50 1019651,70 677026,50 9668601,00 1283994,60 126 0V25 1851422,00 7176914,00 4280536,00 58778965,00 9222992,00 128 0V26 126750,60 1435270,00 822010,20 20791694,80 2601470,70 181 0V27 19942,20 1014424,10 609100,00 9907205,20 1386923,90 137 0
Quadro 10. Resumo dos agrupamentos feitos com o banco de dados do DATASUS.
Variaveis Grupos Elementos por grupo Melhor Modelo Incerteza BIC
DBCP 7 33-41-12-14-13-34-6 VEI 0,48 -21401,74DBSP 5 83-58-3-5-4 VEE 0,45 -18218,64QMP 5 24-14-112-2-1 EEE 0,57 -5554,88
38
Quadro 11. Estatısticas basicas para as variaveis V23, V25, V26 e V27, dos cinco grupos geradosno agrupamento feito com os dados brutos sem a populacao .
Variaveis MedidasGRUPOS
1 2 3 4 5
V23
MIN 374432,50 889164,30 11854257,00 5185099,00 3239346,00
x 1088290,10 2439917,60 14353090,00 16921611,00 4023100,00
Md. 964137,40 2402400,00 15193892,00 20136225,00 3934632,00
MAX 2122563,00 5338360,70 16011122,00 27061698,00 4983787,00
D.V 433576,10 842784,60 2202292,00 10648344,00 746114,00
C.V.(%) 40 34 15 63 19
V25
MIN 1851422,00 2971203,00 43411967,00 7904743,00 19418695,40
x 3462793,00 7132513,00 50659385,00 33232209,00 19707775,20
Md. 3359050,00 6360685,00 49787224,00 33250604,00 19689772,20
MAX 5905157,00 14455033,00 58778965,00 56842386,00 20032861,00
D.P. 1046496,00 2870301,00 7720534,00 18782105,00 285151,40
C.V.(%) 30 40 15 57 1
V26
MIN 144742,50 126750,60 7244652,00 2733264,00 1542384,50
x 568417,90 1345009,40 8606083,00 11712061,00 2507129,90
Md. 468910,10 1308360,50 9028973,00 14143734,00 2635597,80
MAX 1295459,30 3027239,30 9544624,00 20791695,00 3214939,30
D.P. 290176,80 630975,70 1206895,00 7825231,00 700899,10
C.V.(%) 51 47 14 67 28
V27
MIN 19942,20 138982,10 3135593,00 1991020,00 2061062,00
x 503281,20 1028864,80 6619307,00 4776660,00 2504794,50
Md. 429913,70 901430,10 6815123,00 4196088,00 2358190,90
MAX 1131755,80 3081784,60 9907205,00 9869278,00 3241734,10
D.P. 277966,40 698764,40 3390050,00 3116378,00 510931,40
C.V.(%) 55 68 51 65 20
39
Grafico 13. BoxPlot de V23 (Despesas Total de Saude), por grupo.
1 2 3 4 5
0.0
e+00
1.0
e+07
2.0
e+07
Grafico 14. BoxPlot de V25 (Receita de Impostos e Transferencias Constitucionais e Legais), porgrupo.
1 2 3 4 50 e
+00
2 e
+07
4 e
+07
6 e
+07
40
Grafico 15. BoxPlot de V26 (Transferencias SUS), por grupo.
1 2 3 4 5
0.0
e+00
5.0
e+06
1.0
e+07
1.5
e+07
2.0
e+07
Grafico 16. BoxPlot de V27 (Despesa Pessoal), por grupo.
1 2 3 4 5
0 e
+00
4 e
+06
8 e
+06
41
4.3 Conclusoes Gerais dos Agrupamentos
Para ter presente o tamanho dos municıpios em termos da quantidade de habitantes a
ordem decrescente dos 10 maiores municıpios estudados em relacao a populacao e: Olinda
(372014), Paulista (268282), Caruaru (258176), Petrolina (225199), Cabo de Santo Agostinho
(156004), Camaragibe (132215), Garanhuns (119336), Vitoria de Santo Antao (118894),
Igarassu (83424) e Goiana (71940). Considerando a variavel despesas municipais por funcao
legislativa em ordem decrescente se observaram os municıpios de: Paulista (4655272,67),
Cabo de Santo Agostinho (4421681,98), Petrolina (3013918,79), Caruaru (2831987,38) e
Olinda (2398801,76).
Ao comparar os dois agrupamentos verificamos que os grupos 3, 4 e 5 formados com o
banco de dados do SUS estao contidos no grupo 2 para o banco de dados do IPEA. Este grupo
possui os maiores coeficientes de variacao para quase todas as variaveis. Comportamento
semelhante apresenta o grupo 4 dos dados do SUS. O que e interessante perceber e que os
valores extremos do grupo 2 do IPEA fazem parte dos grupos 3 e 4, ja descritos, do SUS.
O grupo 4 do SUS apresenta valor extremo apenas para o municıpio de Olinda na variavel
V27 (Despesa Pessoal).
No grafico 16 observamos que o grupo 3 apresenta na variavel V27 coeficiente de variacao
superior aos demais. Isto se deve porque os municıpios que fazem parte deste grupo: Cabo
de Santo Agostinho, Caruaru e Paulista possuem Despesa de Pessoal bem distintas.
Cabo de Santo Agostinho e um municıpio que apresenta valores extremos em 8 variaveis
analizadas com o banco de IPEA, apresentando os maiores valores extremos para as variaveis
V9 (Transferencias correntes de tributos estaduais para os municıpios), V12 (Receitas cor-
rentes municipais), V14 (Outras transferencias correntes para os municıpios), V15 (Receita
municipal com transferencias correntes), V16 (Total de despesas municipais por funcao), V17
(Receita orcamentaria municipal) e sendo o menor valor extremo dos valores observados para
V1 (Despesas municipais por saude e saneamento). Note que este municıpio encontra-se no
grupo 3 para as variaveis consideradas com o banco de dados do SUS, que e o grupo com a
maior Despesa com Pessoal.
Camaragibe destaca-se por ser o municıpio com maior valor de V1 (Despesa municipal
por funcao de saude e saneamento).
Caruaru e um municıpio com valores extremos para V5 (Impostos municipais), V12
(Receitas correntes municipais), V14 (Outras receitas correntes para os municıpios), V16
(Total de despesas municipais), V17 (Receita orcamentaria municipal).
Petrolina e o unico municıpio com valor extremo na Variavel Investimentos municipais,
apresenta-se tambem com valor extremo em V1 (Despesas municipais por funcoes de saude
43
e saneamento), V5 (Impostos municipais), V7 (ISS), V12 (Receita corrente municipal), V14
(Outras transferencias correntes para os municıpios), V15 e V16.
Paulista apresenta valor extremo para as variaveis V11, V12, V14, V15, V16, V17, V18
e forma parte do Grupo 3 para as variaveis do SUS.
Olinda e o maior valor extremo dos valores observados de V5 (Impostos municipais)
e V7 (ISS), e V18 (Receita tributaria municipal) e de V27 (Despesas com Pessoal), sendo
equivalente a Caruaru.
Notemos que Ipojuca e Bezerros municıpios menores em termos de quantidade de habi-
tantes (ordem 18 e 19, respectivamente) aparecem no mesmo grupo (grupo 4) que municıpios
maiores como Olinda.
Belo Jardim e Pesqueira (municıpios na ordem 14 e 20 em termos de numero de habi-
tantes) e aparecem com valores extremos na variavel V23 (Despesa total de saude), V26
(Transferencia do SUS) e V27 (Despesa com Pessoal).
De uma forma geral, analisando comparativamente os resultados dos agrupamentos pode-
se destacar os seguintes pontos:
• A incerteza calculada com o banco de dados do IPEA e sempre menor do que aquela
calculada com os dados do SUS muito provavelmente devido ao fato de que o banco de dados
do IPEA contem mais variaveis do que o do SUS.
• Tanto para o banco do IPEA quanto para o banco do SUS o agrupamento realizado com
as variaveis monetarias per capita (QMP), reproduziram a maior incerteza muito provavel-
mente pelo fato de que ao diminuir a variancia de todas as variaveis os municıpios ficaram
“mais parecidos” ficando mais difıcil a classificacao.
• Para os agrupamentos realizados com DBCP e DBSP a incerteza com os dados do
IPEA e cerca da metade da incerteza calculada com os dados do SUS.
44
Apendice A
Saıdas referentes ao banco de dados do IPEA.
• Dados brutos com a populacao como variavel.
> dados<-matrix(scan("C:/Usuarios/PatriciaLeal/grupos1/dados_ipea.txt", 0), ncol=13,byrow=TRUE)
Read 1989 items> bic<-EMclust(dados)> bic
BIC:EII VII EEI VEI EVI VVI EEE
1 -68570.78 -68570.78 -65028.92 -65028.92 -65028.92 -65028.92 -57840.202 -65761.11 -64076.50 -62763.48 -60193.18 -63334.20 -59734.40 -57786.493 -64766.82 -62214.64 -62383.99 -58479.13 -62235.23 -58219.40 -57701.114 -64062.85 -61263.33 -62454.06 -57830.99 -62361.55 -57654.25 -57899.135 -63979.71 -60723.81 -61941.64 -57539.70 -61901.57 -57386.58 -57968.606 -63960.51 -60506.01 -61982.95 -57290.59 -62035.98 -57139.55 -58014.027 -64000.47 -60090.23 -62052.54 -57214.11 -62183.15 -57149.25 -58085.228 -64068.84 -60081.47 -62119.48 -57139.50 -62362.75 -57028.27 -57684.409 -64140.81 -59983.33 -62192.62 -57209.66 -62498.55 -57011.03 -57686.96
EEV VEV VVV1 -57840.20 -57840.20 -57840.22 -58245.97 -58005.72 NA3 -57226.12 -55230.39 NA4 -57418.16 -55084.10 NA5 -57678.94 -55522.59 NA6 -58032.77 -55778.58 NA7 -58280.74 -56580.38 NA8 -58267.04 -56555.56 NA9 -58929.86 -56895.02 NA
> sum<-summary(bic,dados)> sum
classification table:
1 2 3 428 12 52 61
uncertainty (quartiles):0% 25% 50% 75% 100%
0.000000e+00 2.131939e-11 1.517217e-08 4.854766e-05 1.993063e-01
best BIC values:VEV,4 VEV,3 VVI,9
-55084.10 -55230.39 -57011.03
best model: ellipsoidal, equal shape
45
> sum$classification[1] 4 3 1 4 4 3 2 4 4 3 1 2 3 4 1 4 1 4 2 4 2 3 4 3 1 1 4 4 4 3 1 4 4 3 3 3 1 3
2 4 4 3 4 4 4 4 4 4 3 3 3 1 3 1 4 1 3 1 4 3[61] 1 3 3 3 1 4 4 4 1 4 3 3 4 4 4 3 4 4 3 4 4 3 4 4 2 4 3 4 3 4 1 4 1 3 3 4 1 3
4 3 3 4 2 1 4 1 1 1 3 1 4 4 3 4 4 3 3 1 3 3[121] 3 3 2 3 1 3 2 4 4 4 4 3 1 3 4 2 3 2 4 4 3 1 4 3 3 4 3 3 4 3 2 1 4
• Dados divididos pela populacao .
> dadosd<-dados/dados[,13]> dadosd<-dadosd[,-13]> bic<-EMclust(dadosd)> bic
BIC:EII VII EEI VEI EVI VVI EEE
1 -22013.26 -22013.26 -19511.78 -19511.78 -19511.78 -19511.78 -15207.512 -20372.47 -19733.35 -18756.33 -17571.87 -18685.51 -17513.64 -15101.873 -19363.20 -18866.17 -18522.69 -17063.54 -18030.75 -17001.38 -15072.704 -18773.11 -18409.22 -18496.78 -16815.63 -17875.01 -16763.91 -15058.355 -18496.48 -18095.95 -18366.04 -16720.62 -17823.65 -16634.88 -15064.546 -18483.55 -18066.76 -18235.69 -16575.05 -17788.92 -16534.75 -15045.077 -18131.88 -17724.08 -18281.84 -16594.99 -17819.95 -16460.37 -15047.928 -18093.90 -17680.93 -18347.49 -16407.39 -17914.02 -16334.77 -15048.059 -18051.99 -17658.91 -18342.51 -16288.68 -17938.03 -16341.94 -15094.51
EEV VEV VVV1 -15207.51 -15207.51 -15207.512 -15123.27 -15046.51 NA3 -15349.83 -15092.62 NA4 -15463.83 -15084.62 NA5 -15718.47 -15555.85 NA6 -15941.66 -15787.67 NA7 -15933.80 -15754.57 NA8 -16285.74 -15926.90 NA9 -16564.14 -16170.43 NA
> sum<-summary(bic,dadosd)> sum
classification table:
1 2 3 4 5 6123 7 11 4 4 4
uncertainty (quartiles):0% 25% 50% 75% 100%
0.000000e+00 1.877472e-06 1.317952e-05 3.518385e-04 4.867641e-01
best BIC values:EEE,6 EEE,7 VEV,2
-15045.07 -15047.92 -15046.51
best model: elliposidal, equal variance
46
> sum$classification[1] 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 2 1 1 1 1 1 1 1 1 1 3 1 1 1 1 2 1 1 1 1 1 1 1
1 1 2 1 1 1 1 1 3 1 1 1 1 3 1 3 1 1 2 1 4 1[61] 1 5 1 1 6 6 1 1 6 1 1 1 3 1 1 1 1 1 1 1 4 1 3 1 1 1 1 1 1 1 3 1 5 1 5 1 1 1
1 5 1 1 1 1 1 1 6 3 1 3 1 1 1 1 1 1 4 1 1 1[121] 1 1 1 1 3 1 1 1 1 1 1 1 1 1 1 1 4 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1
• Dados brutos sem populacao .
> dados<-dados[,-13]> bic<-EMclust(dados)> bic
BIC:EII VII EEI VEI EVI VVI EEE
1 -63443.45 -63443.45 -61287.82 -61287.82 -61287.82 -61287.82 -54804.302 -60854.66 -59309.42 -59179.11 -56753.52 -59661.70 -56346.54 -54748.063 -59948.58 -57598.79 -58838.21 -55189.82 -58381.77 -54929.90 -54514.804 -59303.48 -56753.40 -58481.23 -54610.55 -58192.15 -54450.72 -54730.965 -59233.77 -56286.34 -58475.36 -54335.17 -57752.77 -54292.51 -54638.426 -59219.92 -55865.84 -58540.52 -54139.93 -57871.57 -54042.50 -54699.487 -59284.83 -55680.60 -58582.27 -54064.40 -58712.78 -54086.33 -54478.658 -59324.86 -55542.45 -58647.23 -53976.25 -58838.68 -54083.71 -54880.279 -59389.56 -55494.04 -58713.59 -53991.63 -58247.23 -54005.57 -54523.94
EEV VEV VVV1 -54804.30 -54804.30 -54804.32 -55097.21 -54946.47 NA3 -53903.20 -55083.34 NA4 -54340.95 -52286.60 NA5 -54509.18 -52414.95 NA6 -54712.86 -52596.94 NA7 -54769.54 -52845.96 NA8 -55055.19 -53090.37 NA9 -55085.98 -53258.90 NA
> sum<-summary(bic,dados)> sum
classification table:
1 2 3 4101 28 12 12
uncertainty (quartiles):0% 25% 50% 75% 100%
0.000000e+00 5.644374e-13 1.242073e-11 8.278280e-10 1.849429e-01
best BIC values:VEV,4 VEV,5 EEV,3
-52286.60 -52414.95 -53903.20
best model: ellipsoidal, equal shape
47
> sum$classification[1] 1 1 2 3 4 1 3 1 1 1 2 3 1 1 2 1 2 4 4 4 3 1 4 1 4 2 1 1 1 1 2 1 1 1 1 1 2 1
3 1 4 1 1 1 1 1 1 1 1 1 1 2 1 2 1 2 1 2 2 1[61] 2 1 1 1 2 1 1 1 2 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 3 1 1 1 1 1 2 2 2 1 1 2 2 1
4 1 1 1 3 2 1 2 2 2 1 2 1 1 1 1 1 1 1 4 1 1[121] 1 1 3 1 3 1 4 4 1 1 1 1 2 1 1 3 1 3 1 1 1 3 1 1 1 1 1 1 1 1 4 2 1
48
Apendice B
Saıdas referentes ao banco de dados do SUS.
• Dados brutos com a populacao como variavel.
> dados<-matrix(scan("C:/Usuarios/PatriciaLeal/grupos1/datasus/dados_datasus.txt", 0), ncol=6, byrow=TRUE)
Read 918 items> dados<-dados[,-3]> bic<-EMclust(dados)> bic
BIC:EII VII EEI VEI EVI VVI EEE
1 -25684.11 -25684.11 -23907.66 -23907.66 -23907.66 -23907.66 -22529.852 -24635.11 -23872.75 -22915.19 -22254.16 -22908.67 -22267.09 -22374.953 -24402.05 -23319.91 -22771.45 -21718.08 -22776.54 -21735.75 -22316.094 -24290.53 -22993.06 -22754.57 -21528.75 -22800.15 -21590.58 -22091.495 -24319.84 -22951.25 -22776.17 -21446.38 -22844.42 -21496.04 -22099.966 -24339.25 -22974.76 -22806.34 -21457.33 -22899.50 -21529.98 -22130.167 -24369.45 -22873.44 -22836.53 -21401.74 -22954.94 -21546.71 -22160.348 -24399.63 -22887.82 -22866.72 -21414.26 -23010.14 -21567.11 -22190.539 -24429.84 -22737.76 -22896.92 -21426.14 -23065.36 -21564.41 -22167.80
EEV VEV VVV1 -22529.85 -22529.85 -22529.852 -22255.37 -22185.94 NA3 -22319.84 -22195.92 NA4 -22344.83 -22234.27 NA5 -22137.57 -22284.25 NA6 -22011.38 -22317.31 NA7 -22043.19 -22327.79 NA8 -22199.58 -22378.31 NA9 -22235.79 -22407.41 NA
> sum<-summary(bic,dados)> sum
classification table:
1 2 3 4 5 6 733 41 12 14 13 34 6
uncertainty (quartiles):0% 25% 50% 75% 100%
0.000000000 0.000150767 0.002772467 0.029394500 0.480085993
best BIC values:VEI,7 VEI,8 VVI,5
-21401.74 -21414.26 -21496.04
best model: diagonal, equal shape
49
> sum$classification[1] 2 6 2 3 2 1 3 2 2 1 4 4 1 6 5 6 5 2 3 2 3 1 5 1 4 7 2 6 2 1 7 6 2 6 6 1
7 6 4 1 2 2 6 2 2 2 6 2 2 1 2 4 6 5 2 5 1 5 2 2[61] 5 1 1 1 5 6 3 6 4 6 6 6 6 2 6 1 1 1 1 2 2 6 3 2 4 2 6 6 6 6 5 3 7 2 6 4
4 1 2 1 2 2 4 7 6 5 5 7 1 2 1 2 1 2 2 1 1 4 6 6[121] 1 1 5 1 3 1 3 3 2 6 2 6 4 2 2 3 1 4 6 2 1 4 2 6 6 6 6 1 1 2 3 5 1>
• Dados sem a populacao .
> dadospop<-dados[,-2]> bic<-EMclust(dadospop)> bic
BIC:EII VII EEI VEI EVI VVI EEE
1 -20598.61 -20598.61 -18831.02 -18831.02 -18831.02 -18831.02 -18118.322 -19770.19 -19156.43 -18105.93 -17570.00 -18097.78 -17581.00 -17899.373 -19485.86 -18731.86 -18024.08 -17192.58 -17921.98 -17216.01 -17777.474 -19362.82 -18686.00 -17846.08 -17053.70 -17939.26 -17214.74 -17772.855 -19217.10 -18671.41 -17791.05 NA -17869.84 -17190.07 -17798.046 -19214.89 -18431.00 -17801.10 NA -17911.49 -17108.47 -17804.847 -19239.98 -18398.21 -17825.35 NA -17937.56 -17212.25 -17803.078 -19248.30 -18397.72 -17850.35 -17083.94 -17982.03 -17173.03 -17828.269 -19273.93 -18413.97 -17867.88 -17072.97 -18027.27 -17198.56 -17853.41
EEV VEV VVV1 -18118.32 -18118.32 -18118.322 -17963.08 -17151.77 NA3 -17750.45 -17736.04 NA4 -17754.45 -17183.92 NA5 -17525.45 -17010.92 NA6 -17452.06 -17191.82 NA7 -17360.39 -17197.35 NA8 -17378.67 -17226.29 NA9 -17425.44 -17248.46 NA
> sum<-summary(bic,dadospop)> sum
classification table:
1 2 3 4 583 58 3 5 4
uncertainty (quartiles):0% 25% 50% 75% 100%
0.0000000000 0.0003670508 0.0025044388 0.0198050353 0.4505122688
best BIC values:VEV,5 VEV,6 VEI,6
-18218.64 -18246.17 -18251.34
best model: ellipsoidal, equal shape
50
> sum$classification[1] 2 2 2 2 2 1 2 1 1 1 2 2 1 1 2 1 4 2 2 2 2 1 2 1 2 3 2 1 2 1 4 1 1 2 1 1
3 1 2 1 2 1 1 1 1 2 1 1 1 1 2 2 1 5 1 5 1 2 2 2[61] 5 1 1 1 4 2 2 1 2 1 1 1 1 1 2 1 1 1 1 2 2 1 2 1 2 1 1 1 1 2 2 2 4 1 1 2
2 1 1 1 2 1 2 3 1 2 2 4 1 1 1 1 1 1 2 1 1 2 1 1[121] 1 1 2 1 2 1 2 2 2 1 2 1 2 1 1 2 1 2 1 2 1 2 1 1 1 1 1 1 1 2 2 5 1>
• Dados divididos pela populacao .
> dadosd<-dados/dados[,1]> dadosd<-dados[,-1]> bic<-EMclust(dadosd)> bic
BIC:EII VII EEI VEI EVI VVI EEE
1 -20684.84 -20684.84 -20166.55 -20166.55 -20166.55 -20166.55 -19108.502 -19858.01 -19271.37 -19365.89 -18821.61 -19355.10 -18832.50 -18900.933 -19760.02 -18850.39 -19199.51 -18437.25 -19257.98 -18454.73 -18742.844 -19490.89 -18808.21 -19012.30 -18456.15 -19246.50 -18448.80 -18689.825 -19308.93 -18807.55 -19000.86 -18312.89 -19127.25 -18474.60 -18682.706 -19304.89 -18570.59 -18988.86 -18251.34 -19133.61 -18406.95 -18696.027 -19321.12 -18576.82 -19011.83 -18283.33 -19152.64 -18436.95 -18716.068 -19343.36 -18550.40 -19024.51 -18303.68 -19191.27 -18449.50 -18715.249 -19367.88 -18552.67 -19049.71 -18312.83 -19244.24 -18417.59 -18711.96
EEV VEV VVV1 -19108.50 -19108.50 -19108.502 -18787.85 -18344.30 -18328.353 -18700.13 -18377.88 NA4 -18588.52 -18386.25 NA5 -18591.63 -18218.64 NA6 -18591.76 -18246.17 NA7 -18778.44 -18282.93 NA8 -18593.21 -18330.49 NA9 -18602.77 -18373.81 NA
> sum<-summary(bic,dadosd)> sum
classification table:
1 2 3 4 524 14 112 2 1
uncertainty (quartiles):0% 25% 50% 75% 100%
0.000000e+00 3.206902e-05 4.005178e-04 5.704239e-03 5.746276e-01
best BIC values:EEE,5 EEE,9 VVV,2
-5554.879 -5580.390 -5589.363
51
best model: elliposidal, equal variance
> sum$classification[1] 3 1 3 3 3 3 3 3 3 3 3 3 3 2 3 3 3 1 3 3 3 1 3 3 3 2 1 3 3 3 4 3 3 1 3 1
3 3 1 2 1 3 2 3 3 3 3 3 3 3 1 2 3 3 3 3 1 3 2 3[61] 3 3 3 2 2 5 3 3 2 3 3 3 2 3 1 1 3 3 3 3 4 3 1 3 3 3 3 1 1 1 3 3 3 3 3 3
3 3 3 1 1 3 3 3 3 3 2 1 3 3 3 3 3 3 2 3 1 3 3 3[121] 3 3 3 3 3 3 3 3 1 3 3 3 3 3 3 3 2 3 3 1 1 3 3 3 3 2 3 3 3 1 3 3 3
52
Apendice C
• Municıpios que nao fizeram parte do agrupamento.
Abreu e LimaAracoiabaBarreirosBelem de Sao FranciscoBrejinhoCalumbiCamutangaCarpinaCedroCondadoEscadaFernando de NoronhaGameleiraIbirajubaIlha de ItamaracaIpubiItaıbaJaboatao dos GuararapesManariRecifeRibeiraoSanta TerezinhaSao Benedito do SulSao Jose da Coroa GrandeSao Jose do EgitoSao Loureno da MataTabiraTacaimboTamandareTerra NovaTracunhaemTrindade
• Municıpios que fizeram parte do agrupamento e seus respectivos grupos para o bancodo IPEA e do SUS.
IPEA SUS Municıpios2 2 Afogados da Ingazeira2 2 Afranio2 2 Agrestina2 2 Agua Preta2 2 Aguas Belas4 1 Alagoinha3 2 Aliana4 1 Altinho2 1 Amaraji4 1 Angelim1 2 Araripina1 2 Arcoverde
53
4 1 Barra de Guabiraba5 1 Belem de Maria1 2 Belo Jardim2 1 Betania6 4 Bezerros2 2 Bodoco3 2 Bom Conselho2 2 Bom Jardim2 2 Bonito4 1 Brejao2 2 Brejo da Madre de Deus4 1 Buenos Aires3 2 Buıque1 3 Cabo de Santo Agostinho2 2 Cabrobo4 1 Cachoeirinha4 2 Caetes4 1 Calcado1 4 Camaragibe2 1 Camocim de Sao Felix2 1 Canhotinho2 2 Capoeiras4 1 Carnaıba4 1 Carnaubeira da Penha1 3 Caruaru4 1 Casinhas2 2 Catende4 1 Cha de Alegria2 2 Cha Grande2 1 Correntes4 1 Cortes4 1 Cumaru2 1 Cupira2 2 Custodia2 1 Dormentes4 1 Exu4 1 Feira Nova4 1 Ferreiros4 2 Flores6 2 Floresta4 1 Frei Miguelinho1 5 Garanhuns4 1 Gloria do Goita1 5 Goiana4 1 Granito1 2 Gravata1 2 Iati4 2 Ibimirim1 5 Igarassu2 1 Iguaraci4 1 Inaja4 1 Ingazeira1 4 Ipojuca
54
4 2 Itacuruba4 2 Itambe2 1 Itapetim3 2 Itapissuma4 1 Itaquitinga4 1 Jaqueira4 1 Jatauba5 1 Jatoba4 1 Joao Alfredo4 2 Joaquim Nabuco4 1 Jucati4 1 Jupi2 1 Jurema4 1 Lagoa do Carro2 2 Lagoa do Itaenga2 2 Lagoa do Ouro4 1 Lagoa dos Gatos5 2 Lagoa Grande2 1 Lajedo1 2 Limoeiro2 1 Macaparana4 1 Machados4 1 Maraial4 1 Mirandiba4 2 Moreilandia6 2 Moreno2 2 Nazare da Mata1 4 Olinda4 1 Orobo2 1 Oroco6 2 Ouricuri1 2 Palmares4 1 Palmeirina2 1 Panelas2 1 Paranatama4 2 Parnamirim2 1 Passira1 2 Paudalho1 3 Paulista4 1 Pedra6 2 Pesqueira1 2 Petrolandia1 4 Petrolina4 1 Pocao1 1 Pombos4 1 Primavera4 1 Quipapa4 1 Quixaba2 1 Riacho das Almas2 2 Rio Formoso4 1 Saire2 1 Salgadinho1 2 Salgueiro
55
4 1 Saloa4 1 Sanharo4 1 Santa Cruz4 1 Santa Cruz da Baixa Verde1 2 Santa Cruz do Capibaribe4 1 Santa Filomena1 2 Santa Maria da Boa Vista4 1 Santa Maria do Cambuca2 2 Sao Bento do Una2 2 Sao Caitano4 2 Sao Joao2 1 Sao Joaquim do Monte4 2 Sao Jose do Belmonte4 1 Sao Vicente Ferrer1 2 Serra Talhada5 1 Serrita2 1 Sertania2 2 Sirinhaem2 1 Solidao3 2 Surubim2 1 Tacaratu4 2 Taquaritinga do Norte4 1 Terezinha6 2 Timbauba2 1 Toritama4 1 Triunfo4 1 Tupanatinga4 1 Tuparetama4 1 Venturosa4 1 Verdejante4 1 Vertente do Lerio4 2 Vertentes2 2 Vicencia1 5 Vitoria de Santo Antao4 1 Xexeu
56
REFERENCIAS
[1] Allard, D. and Fraley, C.(1997). Nonparametric maximum likelihood estimation of fea-tures in spatial point processes using Voronoı tessellation. Journal of the AmericanStatistical Association, 92, 1485-1493. (disponıvel como relatorio tecnico no. 293R emhttp://www.stat.washington.edu/www/research/reports).
[2] Banfield, J. D. and A. E. Raftery (1992). Ice floe identification in satellite imagesusing mathematical morphology and clustering about principle curves. Journal of theAmerican Statistical Association, 87, 7-16.
[3] Banfield, J.D. and Raftery, A. E. (1993). Model-based Gaussian and non-Gaussianclustering. Biometrics, 49:803-821.
[4] Bensmail, H. and G. Celeux, A. E. Raftery, and C.P. Robert (1997). Inference in model-based cluster analysis. Statistics and Computing, 7, 1-10.
[5] Biernacki, C., Celeux, G., Govaert, G. (2003). Choosing starting values for the EMalgorithm for getting the highest likelihood in multivariate Gaussian mixtures. Compu-tational Statistics & Data Analysis, 41
[6] Bock, H. H. (1996). Probabilistic models in cluster analysis. Computational Statisticsand Data Analysis, 23, 5-28.
[7] Bock, H. H. (1998a). Probabilistic approaches in cluster analysis. Bulletin of the Inter-national Statistical Institute, 57, 603-606.
[8] Bock, H. H. (1998b). Probabilistic aspects in classification. In C. Hayashi, K. Yajima,H. H. Bock, N. Oshumi, Y. Tanaka, and Y. Baba (Eds.), Data science, classification andrelated methods, pp. 3-21. Springer-Verlag.
[9] Boyles, R. A. (1983). On the convergence of the EM algorithm. Journal of the RoyalStatistical Society, Series B, 45, 47-50.
[10] Byers, S. D. and A. E. Raftery (1998). Nearest neighbor clutter removal for estimatingfeatures in spatial point processes. Journal of the American Statistical Association 93,577-584.
[11] Campbell, J. G., C. Fraley, F. Murtagh, and A. E. Raftery (1997). Linear flaw detectionin woven textiles using model-based clustering. Pattern Recognition Letters, 18, 1539-1548.
[12] Celeux, G. and Govaert (1993). Comparison of the mixture and the classification maxi-mum likelihood in cluster amalysis. Journal of Statistical Computation and Simulation,47, 127-146.
[13] Cormack, R. M. (1971). A Review of Classifications. JRSS, A, 134, 321-367.[14] Cribari-Neto, F. & Zarkos, S.G. (1999). R: yet another econometric programming envi-
ronment. Journal of Applied Econometrics, 14, 319–329.[15] Dasgupta, A. and A. E. Raftery (1998). Detecting features in spatial point processes
with clutter via model-based clustering. Journal of the American Statistical Association93, 294-474.
[16] Dempster, A.P.,N.M. Laird, and D.B.Rubin (1977). Maximum likelihood for incompletedata via the EM algorithm (with discussion). Journal of the Royal Statistical Society,Series B, 39, 1-38
[17] Fayyad, U. and Smyth (1996). From massive data sets to science catalogs: applications
57
and challenges. In J. Kettenring and D. Pregibon (Eds.), Statistics and Massive DataSets: Report to the Committee on Applied and Theoretical Statistics. National ResearchCouncil.
[18] Fraley, C. and A. E. Raftery (1998). How many clusters? Which clustering method?Answers via model-based cluster analysis. The Computer Journal, 41, 578-588.
[19] Fraley, C. and Raftery, A. E., (2002a). MCLUST: Software for Model-Based Clustering,Density Estimation and Discriminant Analysis. Technical Report 415, Department ofStatistics, University of Washington.
[20] Fraley, C. and Raftery, A. E., (2002b). Model-based clustering, discriminant analysis,and density estimation. Journal of the American Statistical Association, 97, 611-631.
[21] Friedman, H.P. and J.Rubin (1967). One some invariant criteria for grouping data.Journal of the American Statistical Association, 62, 1159-1178.
[22] Giampaoli, V. and Singer, J. (2004). Bayes factor for comparing the mean diastolicpressure of hypertense individuals. A ser publicado no Journal of Data Science.
[23] Hastie, T. and W. Stuetzle (1989). Principal curves. Journal of the American StatisticalAssociation, 84, 502-516.
[24] Holman, E. W. (1985), Evolutionary and psychological effects in pre-evolutionary clas-sifications, J. Classification, 2, 29-39.
[25] Karlis, D., Xekalaki, E. (2003), Choosing initial values for the EM algorithm for finitemixtures. Special issue on mixtures. Computational Statistics & Data Analysis, 41
[26] Kass, R. E. and Raftery, A. E. (1995). Bayes Factor. Journal of the American StatisticalAssociation, 90 ; 773-795.
[27] Kaufman. L. and Rousseeuw P.J. (1990). Finding Groups in Data. An Introduction toCluster Analysis. Wiley-Interscience. New York.
[28] McLachlan, G. J. and K. E. Basford (1988). Mixture Models: Inference and Applicationsto Clustering. Marcel Dekker
[29] McLachlan, G. J. and T. Krishnan (1997). The EM Algorithm and Extensions. Wiley.[30] McLachlan, G. J., Peel, D., Bean, R. W. (2003). Modelling high-dimensional data by
mixtures of factor analyzers. Special issue on mixtures. Comput. Statist. Data Anal.,41
[31] Mukherjee, S., E. D. Feigelson, G. J. Babu, F. Murtagh, C. Fraley, and A. E. Raftery(1998). Three types of gamma ray bursts. The Astrophysical Journal, 508, 314-327.
[32] Peel, D. and McLachlan, G. J. (1999). User’s Guinde to EMMIX: Version 1.3http://www.maths.uq.edu.au/ gim/emmix/emmix.html.
[33] Peel, D. and G. J. McLachlan (2000). Robust mixture modeling using the t-distribution.Statistics and Computing (to appear).
[34] Roeder, R. A., and Walker, H. F. (1984), “Mixture Densities Maximum Likelihood andthe EM Algorithm”, SIAM Review, 26, 195-239.
[35] Romesburg, H. C. (1984). Cluster Analysis for Researches. Lifetime Learning Publica-tions California.
[36] Schwarz, G. (1978). Estimating the dimension of a model. The Annals os Statistics, 6,461-464.
[37] Scott, A.J. and M.J.Symons (1971). Clustering methods based on likelihood ratio crite-ria. Biometrics. 27, 387-397.
[38] Seild, W., Mosler, K., Alker, M. (2000). A cautionary note on likelihood ratio tests inmixture models. Ann. Inst. Statist. Math. 52, 481-487.9
58
[39] Stanford, D. and A. E. Raftery (2000). Principal curve clustering with noise. IEEETransactions on Pattern Analysis and Machine Intelligence, 22, 601-609.
[40] Venables, W.N. & Ripley, B.D. (2002). Modern Applied Statistics with S, 4a ed. NewYork: Springer-Verlag.
[41] Ward, J. H. (1963). Hierarchical groupings to optimize an objective function. Journalof American Statistical Association, 58, 234-244.
[42] Wu, C. F. J. (1983). On convergence properties of the EM algorithm. The Annals ofStatistics 11, 95-103.
59