de diferentes estruturas de correlação nos ... · PDF fileeXT = ++ex ex ex, o CI associado é dado por . Os CI são chamados de , ip=1,...,. Ao passo que os coeficientes e i podem

Embed Size (px)

Citation preview

  • Cincia e Natura

    ISSN: 0100-8307

    [email protected]

    Universidade Federal de Santa Maria

    Brasil

    da Silva, Augusto Maciel; Ramalho De Morais, Augusto; Cirillo, Marcelo Angelo

    Efeito de diferentes estruturas de correlao nos ngulos formados entre componentes

    principais e interpretveis em amostras com presena de pontos discrepantes

    Cincia e Natura, vol. 35, nm. 2, 2013, pp. 95-105

    Universidade Federal de Santa Maria

    Santa Maria, Brasil

    Disponvel em: http://www.redalyc.org/articulo.oa?id=467546171011

    Como citar este artigo

    Nmero completo

    Mais artigos

    Home da revista no Redalyc

    Sistema de Informao Cientfica

    Rede de Revistas Cientficas da Amrica Latina, Caribe , Espanha e Portugal

    Projeto acadmico sem fins lucrativos desenvolvido no mbito da iniciativa Acesso Aberto

    http://www.redalyc.org/revista.oa?id=4675http://www.redalyc.org/revista.oa?id=4675http://www.redalyc.org/articulo.oa?id=467546171011http://www.redalyc.org/comocitar.oa?id=467546171011http://www.redalyc.org/fasciculo.oa?id=4675&numero=46171http://www.redalyc.org/articulo.oa?id=467546171011http://www.redalyc.org/revista.oa?id=4675http://www.redalyc.org

  • DOI: http://dx.doi.org/10.5902/2179-460X856Revista do Centro do Cincias Naturais e Exatas - UFSMCincia e Natura, Santa Maria, ISSN: 2179-460X, v. 35 n. 2 dezembro, 2013, p. 095-104

    Efeito de diferentes estruturas de correlao nos ngulos formados entre componentes principais e interpretveis em amostras com presena de

    pontos discrepantesEffect of different correlation structures in angles formed between principal and

    interpretable components in samples witch presences of outliers

    Augusto Maciel da Silva1, Augusto Ramalho De Morais2, Marcelo Angelo Cirillo3

    1Universidade Federal de Santa Maria, 2Universidade Federal de Lavras, Lavras, Minas Gerais, 3Universidade Federal de Lavras, Lavras, Minas Gerais.

    Resumo

    Anlise de Componentes Principais (ACP) tem como objetivo descrever a estrutura de covarincias de um vetor aleatrio utilizando combinaes

    lineares das variveis originais. Em algumas situaes, os coeficientes dos Componentes Principais (CP) podem no ser facilmente interpretados

    devido ao nmero de variveis ou presena de pontos discrepantes. Assim foram introduzidos os Componentes Interpretveis (CI), os quais so

    avaliados atravs do ngulo formado entre os mesmos e os Componentes Principais. O presente trabalho tem como objetivo avaliar os efeitos de

    diferentes estruturas de correlao via Simulao de Monte Carlo e estatstica circular na distribuio dos ngulos formados entre os componentes

    em amostras com e sem contaminao. Foi verificado que as estruturas de correlao atuam de forma diferente nos ngulos, sendo a estrutura de

    Simetria Composta a que apresenta menores mdias angulares para os primeiros componentes em situaes de maior coeficiente de correlao. Foi

    verificado tambm que a contaminao da amostra no atua diretamente na magnitude dos valores esperados dos ngulos.

    Palavras-chave: estatstica circular, simulao de Monte Carlo, direo mdia, pontos discrepantes.

    Abstract

    The principal component analysis aims to explain the variance structure of a random vector consisting of p variables, using linear combinations of

    the original variables. In some situations, the coefficients of the principal components may not be easily interpreted because the number of variables

    or the presence of outliers. Thus were introduced interpretable components, which are measured by the angle formed between the Principal and

    Interpretable Component. This paper aims to evaluate the effects of different correlation structures via Monte Carlo simulation and circular statistics

    on the angles formed between the components in samples with and without contamination. It was found that the structures act differently on the

    angles, and the CS structure which has the smallest expected angle for the first components in situations of higher correlation coefficient. Still, it

    was found that the contamination of the sample does not act directly on the magnitude of the expected values of the angles.

    Keywords: Circular Statistics, Monte Carlo Simulation, Mean Direction, Contamination.

    Recebido em: 2013-08-26, Aceito em: 2013-11-24

  • 96 SILVA, MORAIS E CIRILLO | Efeito de diferentes estruturas...

    1. Introduo

    Anlises estatsticas envolvendo muitas vari-veis tm interpretaes nem tanto triviais, podendo assumir um alto grau de complexidade. As variveis envolvidas em determinado processo podem frequen-temente apresentar algum tipo de relao entre si. As tcnicas de anlise multivariada permitem a utilizao de modelos mais simplificados, que explorem entre outras caractersticas, estas possveis relaes.

    A anlise de Componentes Principais tem por caracterstica explicar a estrutura de varincia e cova-rincia de um conjunto de variveis atravs de poucas combinaes lineares destas variveis. Assim, pode-se citar dois objetivos que so a reduo da dimensio-nalidade dos dados e a interpretao (JOHNSON e WICHERN, 2007), sendo a garantia da explicao da variabilidade pela reduo da dimenso, o objetivo mais comumente observado na anlise.

    Apesar da facilidade de aplicao da tcnica de Componentes Principais (CP), estes podem apresentar coeficientes de difcil interpretao. Assim, Chipman e Gu (2005) introduziram algumas restries aos com-ponentes de forma a torn-los mais interpretveis, restringindo os coeficientes a um nmero reduzido e obtendo assim os chamados Componentes Inter-pretveis (CI). Outros estudos sobre interpretao de componentes podem ser encontrados em Vines (2000) e mais recentemente em Enki et al. (2013), que considera a interpretabilidade dos componentes conjuntamente com anlise de agrupamentos.

    A avaliao dos CI pode ser feita atravs da obteno do ngulo entre o eixo formado pelo CI e o eixo formado pelo CP, que deve ser o menor possvel, a fim de garantir a representatividade. Dessa forma torna-se necessrio o conhecimento desses ngulos, que formam um conjunto de dados circulares.

    Dados circulares ocorrem em vrios campos do conhecimento, como biologia, meteorologia, medicina, anlise de imagens, astronomia (MARDIA, 1972). Uma observao circular pode ser definida como um ponto em um crculo de raio unitrio ou um vetor unitrio indicando uma direo. A periodicidade dos dados circulares os caracteriza de forma diferente de obser-vaes na reta, sendo necessrias algumas restries ao se trabalhar com esse tipo de dados, que possuem definies apropriadas de medidas de posio bem como modelos probabilsticos adequados, que so tratados pela estatstica circular (FISHER, 1993).

    Os dados circulares esto sujeitos aos mesmos fenmenos que os dados lineares, como por exem-plo, ocorrncia de pontos discrepantes. A ocorrncia de pontos discrepantes em dados lineares tem sido amplamente pesquisada envolvendo os mais diversos modelos, como pode ser observado em Silva e Cirillo (2009) em estudo sobre estimadores robustos em modelos binomiais sob contaminao com excesso

    de zeros, fonte causadora de pontos discrepantes. Em se tratando de ocorrncia de pontos discrepantes em dados circulares, alguns mtodos de anlise so tratados por Ibrahim (2013) e Collet (1980), propondo testes para a identificao de observaes discrepantes em dados provenientes da distribuio Von-Mises, que apropriada a dados circulares (MARDIA, 1972).

    Particularmente em casos multivariados, Filzmoser et al.(2008) propuseram um mtodo com-putacional para se identificar tais pontos em altas dimenses. Computacionalmente podem-se obter amostras multivariadas com pontos discrepantes, atravs de variveis com distribuio normal multivariada contaminada (JOHNSON, 1987), sendo necessrio para tal estabelecer diferentes vetores de mdias e matrizes de correlao ou covarincias para as variveis. Um estudo sobre matrizes de covarincias e utilizao de diferentes graus de correlao entre as variveis pode ser encontrado em Cirillo et al. (2006).

    De acordo com Diggle et al. (2002) e Diggle (1988), uma matriz de correlao deve apresentar flexibilidade para englobar diferentes variaes entre as variveis, tais como: fontes de variao devida aos efeitos aleatrios; variao explicada por correlao serial, em que se espera que as observaes mais prximas sejam fortemente correlacionadas e ainda variao devido a erros de medida. Para tal, no pro-cesso de simulao foram utilizadas duas estruturas que assumem correlaes diferentes entre as variveis e uma estrutura que assume a mesma correlao entre as variveis, afim de que se possa observar possveis diferenas nos ngulos em tais situaes.

    Dessa forma, este trabalho tem como objetivo avaliar computacionalmente a influncia de diferentes estruturas de correlao na distribuio dos ngulos formados entre os Componentes Principais e Interpre-tveis provenientes de dados na ausncia e presena de pontos discrepantes. Foram consideradas ainda, variaes nos coeficientes de correlao nas proba-bilidades de mistura utilizadas na contaminao e tambm diferentes tamanhos amostrais. Outro aspecto a ser observado a difuso da estatstica circular para obteno dos valores esperados dos ngulos obtidos entre os componentes no processo de simulao, bem como meios de representao grfica desses ngulos.

    2. Conceitos preliminares

    Para um melhor entendimento e compreenso do trabalho, sero apresentados nesta seo alguns conceitos e notaes referentes obteno da direo mdia angular, distribuio normal assimtrica mul-tivariada, mistura de distribuies e Componentes Interpretveis. Estes conceitos so essenciais para a estruturao do processo de simulao.

  • 97Cincia e Natura, Santa Maria, v.