multivariada - ufla

  • View
    70

  • Download
    0

Embed Size (px)

Text of multivariada - ufla

  • MINISTRIO DA EDUCAO E DO DESPORTO UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CINCIAS EXATAS

    ANLISE MULTIVARIADA

    Daniel Furtado Ferreira

    LAVRAS, MG

    1996

  • ii

    SUMRIO Pg.

    1. Aspectos da anlise multivariada 1

    1.1. Introduo 1

    1.2. Aplicao das tcnicas multivariadas 3

    1.3. Organizao de dados 5

    1.4. Distncias 15

    1.5. Exerccios 24

    2. lgebra vetorial e matricial 25

    2.1. Introduo 25

    2.2. Elementos de lgebra vetorial 26

    2.3. Elementos de lgebra matricial 34

    2.4. Exerccios 82

    3. Amostragem multivariada 89

    3.1. Introduo 89

    3.2. Geometria amostral 90

    3.3. Amostras aleatrias e esperanas do vetor de mdia e da matriz de covarincia amostral. 101

    3.4. Varincia generalizada 104

    3.5. Varincia generalizada de variveis generalizadas 113

    3.6. Outra generalizao da varincia 116

    3.7. Exerccios 117

  • iii

    4. Distribuio normal multivariada 119

    4.1. Introduo 119

    4.2. Pressuposies das anlises multivariadas 120

    4.3. Densidade normal multivariada e suas propriedades 121

    4.4. Distribuio normal bivariada 125

    4.5. Distribuio amostral de X e S 133

    4.6. Distribuies amostral derivada da distribuio normal multivariada 138

    4.7. Verificando a normalidade 143

    4.8. Exerccios 169

    5. Inferncias sobre o vetor mdia 171

    5.1. Introduo 171

    5.2. Inferncias sobre mdia de uma populao normal 171

    5.3. Regio de confiana e comparaes simultneas de componentes de mdia 177

    5.4. Inferncias sobre propores de grandes amostras 190

    5.5. Comparaes pareadas 192

    5.6. Comparaes de vetores de mdias de duas populaes 199

    5.7. Exerccios 215

    6. Anlise de varincia multivariada 219

    6.1. Introduo 219

    6.2. Delineamento de classificao simples 220

  • iv

    6.3. Intervalos de confiana simultneos para o efeito de tratamentos 230

    6.4. Exerccios 232

    7. Componentes principais 233

    7.1. Introduo 233

    7.2. Componentes principais populacionais 234

    7.3. Componentes principais amostrais 250

    7.4. Grficos dos componentes principais 256

    7.5. Inferncias para grandes amostras 259

    7.6. Exerccios 282

    8. Anlise de agrupamento 285

    8.1. Introduo 285

    8.2. Medidas de parecena (similaridades e dissimilaridades) 286

    8.3. Agrupamentos 296

    8.4. Exerccios 308

    9. Anlise de fatores 309

    9.1. Introduo 309

    9.2. Modelo de fatores ortogonais 310

    9.3. Estimao de cargas fatoriais 316

    9.4. Rotao fatorial 342

    9.5. Teste da falta de ajuste do modelo fatorial 346

  • v

    9.6. Escores fatoriais 349

    9.7. Exerccios 354

    10. Anlise de correlao cannica 355

    10.1. Introduo 355

    10.2. Variveis cannicas e correlao cannica populacionais 356

    10.3. Variveis e correlaes cannicas amostrais 371

    10.4. Inferncias para grandes amostras 380

    10.5. Exerccios 386

    11. Referencias bibliogrficas 389

    Apndices 395

    ndice remissivo 397

  • ||[ ]||Aspectos da anlise multivariada

    1

    1.1. Introduo

    Nos trabalhos cientficos, o problema de se inferir, a partir de dados

    mensurados pelo pesquisador, sobre os processos ou fenmenos fsicos,

    biolgicos ou sociais, que no se pode diretamente observar, uma realidade

    constante. A pesquisa cientfica se constitui num processo interativo de

    aprendizado. Para explicao de um fenmeno, o pesquisador em geral coleta e

    analisa dados de acordo com uma hiptese. Por outro lado, a anlise destes

    mesmos dados coletados de amostragem ou experimentao geralmente sugere

    modificaes da explicao do fenmeno, alm disso, devido complexidade

    destes fenmenos, o pesquisador deve coletar observaes de diferentes

    variveis. Neste contexto, a inferncia estatstica realizada de acordo com o

    paradigma hipottico-dedutivo (Bock, 1975).

    Devido aos fenmenos serem estudados a partir de dados coletados

    ou mensurados em muitas variveis, os mtodos estatsticos delineados para

    obter informaes a partir destes conjuntos de informaes, so denominados de

    mtodos de anlises multivariados. A necessidade de compreenso das relaes

  • 1. Aspectos da anlise multivariada 2

    entre as diversas variveis faz com que as anlises multivariadas sejam

    complexas ou at mesmo difceis. O objetivo do presente material apresentar a

    utilidade das tcnicas multivariada de uma forma clara, usando exemplos

    ilustrativos e evitando o mximo de possvel de clculo.

    Sendo assim, os objetivos gerais, para os quais a anlise

    multivariada conduz so:

    a. reduo de dados ou simplificao estrutural: o fenmeno sob estudo

    representado da maneira mais simples possvel, sem sacrificar

    informaes valiosas e tornando as interpretaes mais simples;

    b. ordenao e agrupamento: agrupamento de objetos (tratamentos) ou

    variveis similares, baseados em dados amostrais ou experimentais;

    c. investigao da dependncia entre variveis: estudos das relaes

    estruturais entre variveis muitas vezes de interesse do pesquisador;

    d. predio: relaes entre variveis devem ser determinadas para o

    propsito de predio de uma ou mais varivel com base na observao

    de outras variveis;

    e. construo e teste de hipteses.

    Os modelos multivariados possuem em geral, um propsito atravs

    do qual o pesquisador pode testar ou inferir a respeito de uma hiptese sobre um

  • Ferreira, D.F. Estatstica multivariada 3

    determinado fenmeno. No entanto a sua utilizao adequada depende do bom

    conhecimento das tcnicas e das suas limitaes. A frase utilizada por Marriott

    (1974) descreve bem este fato: No h mgica com os mtodos numricos, e que

    apesar de serem uma importante ferramenta para anlise e interpretao de

    dados, no devem ser utilizados como mquinas automticas de encher lingia,

    transformando massas numricas em pacotes de fatos cientficos.

    1.2. Aplicao de tcnicas multivariadas

    As tcnicas estatsticas constituem se uma parte integral da pesquisa

    cientfica e em particular as tcnicas multivariadas tem sido regularmente aplicada

    em vrias investigaes cientficas nas reas de biologia, fsica, sociologia e

    cincias mdicas. Parece, neste instante, ser apropriado descrever as situaes

    em que as tcnicas multivariadas tm um grande valor.

    Medicina

    Nos estudos onde as reaes de pacientes a um determinado

    tratamento so mensuradas em algumas variveis e possuem difcil diagnstico,

    as tcnicas multivariadas podem ser usadas para construir uma medida de

    resposta simples ao tratamento, na qual preservada a maior parte da informao

    da amostra e das mltiplas variveis respostas. Em outras situaes as tcnicas

  • 1. Aspectos da anlise multivariada 4

    multivariadas podem ser usadas tambm quando a classificao de um paciente,

    baseada nos sintomas medidos em algumas variveis, difcil de ser realizada.

    Neste caso, uma tcnica multivariada de classificao, em que se cria uma funo

    que pode ser usada para separar as pessoas doentes das no doentes, pode ser

    implementada.

    Sociologia

    Em alguns estudos o inter-relacionamento e o agrupamento de

    indivduos, cidades ou estados em grupos homogneos em relao mobilidade,

    nmero de estrangeiros nascidos e de segunda gerao em determinado pas

    necessria em alguns estudos sociolgicos. As tcnicas de anlise multivariada,

    conhecidas como anlise de agrupamento (Cluster analysis), pode ser empregada

    com esta finalidade.

    Biologia

    No melhoramento de plantas necessrio, aps o final de uma

    gerao, selecionar aquelas plantas que sero os genitores da prxima gerao. a

    seleo deve ser realizada de maneira que a prxima gerao seja melhorada em

    relao resposta mdia de uma srie de caractersticas da gerao anterior. O

    objetivo do melhorista consiste em maximizar o ganho gentico em um espao

  • Ferreira, D.F. Estatstica multivariada 5

    mnimo de tempo. As anlises multivariadas podem ser usadas para converter

    uma srie de caractersticas para um ndice, na qual a seleo e escolha dos pais

    possam ser feitas.

    Em algumas situaes se deseja a separao de algumas espcies,

    e as tcnicas multivariadas tm sido utilizadas com esta finalidade. Uma funo

    construda e os seus valores so usados para esta separao.

    1.3. Organizao de dados

    Atravs deste material pretende-se tratar das anlises realizadas em

    muitas caractersticas ou variveis. Essas medidas, muitas vezes chamadas de

    dados, devem ser organizadas e apresentadas em vrias formas. Por exemplo, a

    utilizao de grficos e arranjos tabulares so importantes auxiliares nas anlises

    de dados. Por outro lado, nmeros que resumem, ou seja, que descrevem

    quantitativamente certas caractersticas, so essenciais para a interpretao de os

    dados amostrais ou experimentais.

    Arranjos

    Os dados multivariados so provenientes de uma pesquisa em

    determinada rea em que so selecionadas p 1 variveis ou caractersticas para

  • 1. Aspectos da anlise multivariada 6

    serem mensuradas. As medidas so tomadas em cada unidade da amostra ou do

    experimento. A representao destes dados feita com a notao xjk para indicar

    um valor particular da j-sima unidade amostral ou experimental e da k-sima

    varivel mensurada. Conseqente, estas medidas de p variveis em n unidades

    amostrais ou experimentais, podem ser representadas