Ferreira (1996) - Análise Multivariada

  • View
    332

  • Download
    0

Embed Size (px)

Text of Ferreira (1996) - Análise Multivariada

MINISTRIO DA EDUCAO E DO DESPORTO UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CINCIAS EXATAS

ANLISE MULTIVARIADA

Daniel Furtado Ferreira

LAVRAS, MG 1996

ii

SUMRIO 1. Aspectos da anlise multivariada 1.1. Introduo 1.2. Aplicao das tcnicas multivariadas 1.3. Organizao de dados 1.4. Distncias 1.5. Exerccios

Pg. 1 1 3 5 15 24

2. lgebra vetorial e matricial 2.1. Introduo 2.2. Elementos de lgebra vetorial 2.3. Elementos de lgebra matricial 2.4. Exerccios

25 25 26 34 82

3. Amostragem multivariada 3.1. Introduo 3.2. Geometria amostral 3.3. Amostras aleatrias e esperanas do vetor de mdia e da matriz de covarincia amostral. 3.4. Varincia generalizada 3.5. Varincia generalizada de variveis generalizadas 3.6. Outra generalizao da varincia 3.7. Exerccios

89 89 90 101 104 113 116 117

iii

4. Distribuio normal multivariada 4.1. Introduo 4.2. Pressuposies das anlises multivariadas 4.3. Densidade normal multivariada e suas propriedades 4.4. Distribuio normal bivariada 4.5. Distribuio amostral de X e S 4.6. Distribuies amostral derivada da distribuio normal multivariada 4.7. Verificando a normalidade 4.8. Exerccios

119 119 120 121 125 133

138 143 169

5. Inferncias sobre o vetor mdia 5.1. Introduo 5.2. Inferncias sobre mdia de uma populao normal 5.3. Regio de confiana e comparaes simultneas de componentes de mdia 5.4. Inferncias sobre propores de grandes amostras 5.5. Comparaes pareadas 5.6. Comparaes de vetores de mdias de duas populaes 5.7. Exerccios

171 171 171 177 190 192 199 215

6. Anlise de varincia multivariada 6.1. Introduo 6.2. Delineamento de classificao simples

219 219 220

iv

6.3. Intervalos de confiana simultneos para o efeito de tratamentos 6.4. Exerccios

230 232

7. Componentes principais 7.1. Introduo 7.2. Componentes principais populacionais 7.3. Componentes principais amostrais 7.4. Grficos dos componentes principais 7.5. Inferncias para grandes amostras 7.6. Exerccios

233 233 234 250 256 259 282

8. Anlise de agrupamento 8.1. Introduo 8.2. Medidas de parecena (similaridades e dissimilaridades) 8.3. Agrupamentos 8.4. Exerccios

285 285 286 296 308

9. Anlise de fatores 9.1. Introduo 9.2. Modelo de fatores ortogonais 9.3. Estimao de cargas fatoriais 9.4. Rotao fatorial 9.5. Teste da falta de ajuste do modelo fatorial

309 309 310 316 342 346

v

9.6. Escores fatoriais 9.7. Exerccios

349 354

10. Anlise de correlao cannica 10.1. Introduo 10.2. Variveis cannicas e correlao cannica populacionais 10.3. Variveis e correlaes cannicas amostrais 10.4. Inferncias para grandes amostras 10.5. Exerccios 11. Referencias bibliogrficas Apndices ndice remissivo

355 355 356 371 380 386 389 395 397

||[1.1. Introduo

Aspectos da anlise multivariada

1

]||

Nos trabalhos cientficos, o problema de se inferir, a partir de dados mensurados pelo pesquisador, sobre os processos ou fenmenos fsicos, biolgicos ou sociais, que no se pode diretamente observar, uma realidade constante. A pesquisa cientfica se constitui num processo interativo de aprendizado. Para explicao de um fenmeno, o pesquisador em geral coleta e analisa dados de acordo com uma hiptese. Por outro lado, a anlise destes mesmos dados coletados de amostragem ou experimentao geralmente sugere modificaes da explicao do fenmeno, alm disso, devido complexidade destes fenmenos, o pesquisador deve coletar observaes de diferentes variveis. Neste contexto, a inferncia estatstica realizada de acordo com o paradigma hipottico-dedutivo (Bock, 1975). Devido aos fenmenos serem estudados a partir de dados coletados ou mensurados em muitas variveis, os mtodos estatsticos delineados para obter informaes a partir destes conjuntos de informaes, so denominados de mtodos de anlises multivariados. A necessidade de compreenso das relaes

1. Aspectos da anlise multivariada

2

entre as diversas variveis faz com que as anlises multivariadas sejam complexas ou at mesmo difceis. O objetivo do presente material apresentar a utilidade das tcnicas multivariada de uma forma clara, usando exemplos ilustrativos e evitando o mximo de possvel de clculo. Sendo assim, os objetivos gerais, para os quais a anlise multivariada conduz so: a. reduo de dados ou simplificao estrutural: o fenmeno sob estudo representado da maneira mais simples possvel, sem sacrificar informaes valiosas e tornando as interpretaes mais simples;

b. ordenao e agrupamento: agrupamento de objetos (tratamentos) ou variveis similares, baseados em dados amostrais ou experimentais;

c. investigao da dependncia entre variveis: estudos das relaes estruturais entre variveis muitas vezes de interesse do pesquisador;

d. predio: relaes entre variveis devem ser determinadas para o propsito de predio de uma ou mais varivel com base na observao de outras variveis;

e. construo e teste de hipteses.

Os modelos multivariados possuem em geral, um propsito atravs do qual o pesquisador pode testar ou inferir a respeito de uma hiptese sobre um

Ferreira, D.F. Estatstica multivariada

3

determinado fenmeno. No entanto a sua utilizao adequada depende do bom conhecimento das tcnicas e das suas limitaes. A frase utilizada por Marriott (1974) descreve bem este fato: No h mgica com os mtodos numricos, e que apesar de serem uma importante ferramenta para anlise e interpretao de dados, no devem ser utilizados como mquinas automticas de encher lingia, transformando massas numricas em pacotes de fatos cientficos.

1.2. Aplicao de tcnicas multivariadas

As tcnicas estatsticas constituem se uma parte integral da pesquisa cientfica e em particular as tcnicas multivariadas tem sido regularmente aplicada em vrias investigaes cientficas nas reas de biologia, fsica, sociologia e cincias mdicas. Parece, neste instante, ser apropriado descrever as situaes em que as tcnicas multivariadas tm um grande valor.

Medicina

Nos estudos onde as reaes de pacientes a um determinado tratamento so mensuradas em algumas variveis e possuem difcil diagnstico, as tcnicas multivariadas podem ser usadas para construir uma medida de resposta simples ao tratamento, na qual preservada a maior parte da informao da amostra e das mltiplas variveis respostas. Em outras situaes as tcnicas

1. Aspectos da anlise multivariada

4

multivariadas podem ser usadas tambm quando a classificao de um paciente, baseada nos sintomas medidos em algumas variveis, difcil de ser realizada. Neste caso, uma tcnica multivariada de classificao, em que se cria uma funo que pode ser usada para separar as pessoas doentes das no doentes, pode ser implementada.

Sociologia

Em alguns estudos o inter-relacionamento e o agrupamento de indivduos, cidades ou estados em grupos homogneos em relao mobilidade, nmero de estrangeiros nascidos e de segunda gerao em determinado pas necessria em alguns estudos sociolgicos. As tcnicas de anlise multivariada, conhecidas como anlise de agrupamento (Cluster analysis), pode ser empregada com esta finalidade.

Biologia

No melhoramento de plantas necessrio, aps o final de uma gerao, selecionar aquelas plantas que sero os genitores da prxima gerao. a seleo deve ser realizada de maneira que a prxima gerao seja melhorada em relao resposta mdia de uma srie de caractersticas da gerao anterior. O objetivo do melhorista consiste em maximizar o ganho gentico em um espao

Ferreira, D.F. Estatstica multivariada

5

mnimo de tempo. As anlises multivariadas podem ser usadas para converter uma srie de caractersticas para um ndice, na qual a seleo e escolha dos pais possam ser feitas. Em algumas situaes se deseja a separao de algumas espcies, e as tcnicas multivariadas tm sido utilizadas com esta finalidade. Uma funo construda e os seus valores so usados para esta separao.

1.3. Organizao de dados

Atravs deste material pretende-se tratar das anlises realizadas em muitas caractersticas ou variveis. Essas medidas, muitas vezes chamadas de dados, devem ser organizadas e apresentadas em vrias formas. Por exemplo, a utilizao de grficos e arranjos tabulares so importantes auxiliares nas anlises de dados. Por outro lado, nmeros que resumem, ou seja, que descrevem quantitativamente certas caractersticas, so essenciais para a interpretao de os dados amostrais ou experimentais.

Arranjos

Os dados multivariados so provenientes de uma pesquisa em determinada rea em que so selecionadas p 1 variveis ou caractersticas para

1. Aspectos da anlise multivariada

6

serem mensuradas. As medidas so tomadas em cada unidade da amostra ou do experimento. A representao destes dados feita com a notao xjk para indicar um valor particular da j-sima unidade amostral ou experimental e da k-sima varivel mensurada. Conseqente, estas medidas de p variveis em n unidades amostrais ou experimentais, podem ser representadas conforme o arranjo apresentado na Tabela 1.1.

Tabela 1.1. Representao de dados atravs da notao xjk para indicar um valor particular da k-sima varivel mensurada na j-sima unidade amostral ou experimental. VariveisUnidades amostrais ou experimentais

1 X11 X21 . . . Xj1 . . . Xn1

2 ... X12... X22... . . . Xj2... . . . Xn2...

k ... X1k... X2k... . . . Xjk... . . . Xnk...

p X1p X2p . . . Xjp . . . Xnp

1 2 . . . j . . . n

Ferreira, D.F. Estatstica multivariada

7

Estes

valores,

apresentados

na

Tabela

1.1,

podem

ser

representados em um arranjo retangular, denominado de X, com n linhas e p colunas, da seguinte forma:

x11 x 21 X = x j1 xn1

x12 x22 x j2 xn