Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Introdução à análise de dados agronômicos
Anderson R Silva
Programa de Pós-Graduação em Estatística e Experimentação AgronômicaESALQ/USP
29 e 30 de julho de 2013
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Dia 2 - Conteúdo
1 Introdução à estatística multivariada
2 Análise exploratória
3 Inferências para vetores de médias
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Dados multivariados
• Estrutura: n observações tomadas de p variáveis resposta.
• É imprescindível a presença de correlação entre as respostas.
• Divide-se em: análise exploratória ou de simpli�cação (ACP, AF ...) e técnicasde inferência (teste T2, MANOVA, ...).
Obs.: regressão múltipla não signi�ca regressão multivariada!
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Análise exploratória
• Grande apelo prático.
• Divide-se basicamente em: métodos grá�cos e métodos matemáticos deredução dimensional.
• Muitas vezes dispensam procedimentos inferenciais!
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Métodos grá�cos
Três métodos grá�cos bastante úteis são:
• Draftsman
• Faces de Cherno�1
• Grá�co de estrelas2
1 Pacote R: �TeachingDemos�2 Pacote R: �graphics�
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Exemplo 1
Considere dados de 20 acessos de alho cujas seguintes variáveis foram mensuradas:diâmetro, comprimento, peso médio do bulbo e área foliar.Visualmente, é possível caracterizar os acessos?
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Técnicas de redução dimensional
• Solução para o problema de representar muitas (digamos >10) variáveis.
• Construção de variáveis índices, da forma:
Z = a1X1 + a2X2 + ...+ apXp
• São exemplos: componentes principais, análise de fatores, análisediscriminante, escalonamento multidimensional, etc.
• Em geral, objetiva-se representar os n objetos com os valores de 2 ou 3variáveis índices com a menor perda possível da informação das p variáveis.
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
ACP
• Provavelmente o mais simples e mais utilizado dos métodos multivariados.
• O objetivo é, a partir de p variáveis resposta, construir p variáveis índices(chamados componentes principais) que sejam não correlacionadas e quedescrevam a variação dos dados.
• A falta de correlação signi�ca que os dados estão medindo diferentesdimensões dos dados.
• A ordem de importância dos componentes principais (Z) é tal que:
Var(Z1) ≥ Var(Z2) ≥ ... ≥ Var(Zp)
sendo Var(Zj) = λj , o autovalor do j-ésimo componente principal.
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Procedimento da ACP
Seja X (n × p) a matriz de dados. O primeiro componente principal é a seguintecombinação linear:
Z1 = a11X1 + a12X2 + ...+ a1pXp
sujeito à norma:a211 + a212 + ...+ a21p = 1
Analogamente, o segundo componente principal é:
Z2 = a21X1 + a22X2 + ...+ a2pXp
também sujeito a mesma norma, e assim por diante.
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Procedimento da ACP
O problema consiste em determinar os coe�cientes a que constituem os autovetoresdos CP's. Os cálculos são baseados na matriz R de correlações entre as p variáveis(ou na matriz S de covariâncias), a partir da equação característica:
(R − λj I )aj = 0
Os escores dos CP's são obtidos por:
Z j = Xaj
A proporção da variância total de X que é explicada pelo j-ésimo CP é de�nida por:
Var(Zj)
Var .total(X )=
λj∑pj λj
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Interpretando uma ACP
A interpretação dos CP's deve ser feita em termos das magnitudes dos coe�cientesa, isto é, do seu autovetor.É esperado que, quando a análise tenha sido bem suscedida, os 2 ou 3 primeirosCP's expliquem conjuntamente 80 ou 90% da variação dos dados (não é umaregra!).Quando se realiza a análise a partir da matriz de correlações, outro critério éescolher áqueles componentes cujo autovalor é maior que 1.Os escores dos CP's retidos podem ser plotados em grá�cos 2 ou 3D para o estudodas relações entre os n indivíduos.
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Exemplo 2
Utilize os dados de alho (Exemplo 1) para realizar a ACP a partir da matriz decorrelações.
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
MANOVA: Análise de variância multivariada
• ANOVA aplicada simultaneamente à todas as variáveis resposta.
• No caso univariado decompoe-se somas de quadrados, no caso multivariado oprocedimento é análogo, com a diferença que a variabilidade é computada edecomposta em matrizes de somas de quadrados e produtos cruzados
(MSQPC).
Por exemplo, para 3 variáveis resposta tem-se a seguinte matriz de MSQPC:SQtotal(y1) aSPtotal(y1, y2)SPtotal(y1, y3)
SPtotal(y2, y1) aSQtotal(y2)SPtotal(y2, y3)SPtotal(y3, y1) aSPtotal(y3, y2)SQtotal(y3)
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
MANOVA: Análise de variância multivariada
Modelo estatístico de um experimento em DIC:
Y ij = µ+ t i + εij
Exigências semelhantes ao caso univariado são feitas.
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Tabela da MANOVA
FV GL MSQPCTratamento t − 1 B
Resíduo n − t W
Total n − 1 T
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Hipótese em teste
H0 : µ1 = µ2 = ... = µt
No caso univariado a estatística F é usada para testar H0. No multivariado, quatroestatísticas são comumente usadas.
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Estatísticas teste
• Lambda de Wilks
• Maior raiz de Roy
• Traço de Pillai
• Traço de Lawley-Hotelling
Para todas elas, aproximações pela distribuição F são feitas para testar H0
apresentada.Embora o lambda de Wilks seja bastante popular, nenhuma delas pode serconsiderada como a melhor.
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Maior raiz de Roy
Aproximação pela estatística F
F =ν2ν1λ1
d→ F (ν1, ν2)
em queν1 = max(p, t − 1),ν2 = n − t − ν1 − 1,λ1 é o maior autovalor da matriz W−1
B.
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Exemplo 3
Descrição do experimento:
• Tratamento: 6 cultivares de alho
• 4 repetições
• Delineamento: inteiramente ao acaso
• Respostas: diâmetro, comprimento, peso médio do bulbo e área foliar.
Há diferenças signi�cativas entre os vetores de médias de tratamentos.
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Função discriminante
Dada uma MANOVA para p variáveis resposta (Y1,Y2, ...,Yp), uma funçãodiscriminante canônica ou variável canônica, uma combinação linear das variáveisresposta da forma
Z = a1Y1 + a2Y2 + ...+ apYp
Introdução àanálise dedados
agronômicos
Anderson RSilva
Introdução àestatísticamultivariada
Análiseexploratória
Inferênciaspara vetoresde médias
Testes post-hoc via função discriminante
Quando a variável canônica retém grande parte da proporção, digamos 70 ou 80%,uma análise de variância univariada pode ser realizada utilizando os valores dessavariável e o quadrado médio do resíduo para realizar testes de médias.