Upload
internet
View
108
Download
0
Embed Size (px)
Citation preview
VALIDAÇÃO CRUZADA EM ANÁLISE BASEADA EM MODELO DE EFEITOS PRINCIPAIS ADITIVOS E INTERAÇÃO
MULTIPLICATIVA (AMMI)
Carlos Tadeu dos Santos Dias
Escola Superior de Agricultura “Luiz de Queiroz” /
ESALQ / USP
Escola Superior de Agricultura “Luiz de Queiroz” /
ESALQ / USP
Departamento de Ciências Exatas
Departamento de Ciências Exatas
IntroduçãoIntrodução
Interação Genótipo/Ambiente (GxE)
Adaptação específica de genótipos em ambientes
Métodos estatísticos tradicionais
-Análise conjunta de ensaios multiambientes
-Regressão linear simples e múltipla (Eberhart & Russel, 1966) – Não é informativa se a linearidade falha
Métodos multivariados
-PCA (Análise de Componentes Principais)
-Análise de Agrupamento
-AMMI
AMMI ANOVA e PCA
Procedimento AMMIProcedimento AMMI
Modela efeitos principais e interação de uma forma
sequencial
• Efeitos principais são estimados usando mínimos quadrados
Incorpora componentes aditivosaditivos e multiplicativosmultiplicativos em uma
análise de mínimos quadrados integrada e poderosa
• PCA É conduzida via decomposição em valores singulares
(DVS) aplicado á matriz residual de interação.
Procedimento AMMIProcedimento AMMI
Problema Geral
Número de componentes multiplicativos a ser retido no
modelo (com o objetivo de adequadamente explicar o
padrão na interação)
Problema Específico
Propostas: Mandel (1961, 1969, 1971), Gollob (1968), Gauch &
Zobel (1988), Cornelius (1993), Piepho (1994 and 1995). Fisher e
Mackenzie (1923).Todas consideram a proporção de variância
acumulada pelos componentes.
Validação-Cruzada – como uma metodologia preditiva.
Otimizar o processo de validação cruzada
ObjetivoObjetivo
Sumário do modelo AMMI
Sumário da metodologia disponível para selecionar
o número de componentes multiplicativos no modelo
Descrever dois métodos baseados no procedimento
leave-one-out que otimiza o processo de validação cruzada
O modelo AMMIO modelo AMMI
Supor n genótipos em p ambientes com r repetições.
A média de cada combinação
modelada por
)r/,0(NID
ij
para
m
1kijjkikkjiij
2
egy
interaçãoativos MultiplicsComponenteaditivos sComponente
)r/,0(NID
ij
para
m
1kijjkikkjiij
2
egy
interaçãoativos MultiplicsComponenteaditivos sComponente
O modelo AMMIO modelo AMMI
Estimativas:
Os resíduos dessa matriz constituem a matriz de interação:
ji eeg, ji eeg, De uma ANOVA da matriz nYp
yyyyegyyeyygyˆ jiijijjjii
termos da interação multiplicativa DVS da matriz nGEp
O modelo AMMIO modelo AMMI
é um resíduo adicional.
através do k-ésimo valor singular de GE
os resíduos dessa matriz constituem a matriz do vetor
…singular
os resíduos dessa matriz constituem a matriz do vetor
…singular
através do j-ésimo elemento do vetor singular associado
com k=1,2,…,s = min{n-1, p-1}, s é o posto de
GE. Se k varia até s o modelo produz um ajuste
exato aos dados. Consequentemente k varia até m
(m<s), e as estimativas são obtidas dos primeiros m
termos da DVS da matriz GE.
'k
k
O modelo AMMIO modelo AMMI
Correspondência entre DVS e PCA
:raiz quadrada do k-ésimo maior autovalor da matriz (GE) (GE)’ ou (GE)’(GE)
:é o i-ésimo elemento do autovetor de (GE)(GE)’ associado
com2kik
:é o j-ésimo elemento do autovetor de (GE)’(GE) associado com
2k
(DVS)
Partição ortogonalGE
''222
'111GE sss
O modelo AMMIO modelo AMMI
fornece a proporção da variância devido a interação GxE no k-ésimo componente.
representam pesos para o genótipo i e ambiente j naquele componente da interação, respectivamente.
devido GE ser por construção uma matriz de desvios centrada na média e com média nula.
2k
e
e 2s
1kλ SS(GxE)
k
por quê?
Assim a interação do genótipo i com o ambiente j é descrito por
descartando o ruído dado por
m
k jkikk1
s
mk jkikk1
Análise AMMIAnálise AMMI
Análise AMMIAnálise AMMI
Avaliação Preditiva Usando Validação CruzadaAvaliação Preditiva Usando Validação Cruzada
Em geral, ao melhorista de plantas interessa predizer o
comportamento de um genótipo.
Critérios de avaliação:
(Ajustado-via teste F)
POS-DICTIVO x Modelo PREDITIVO
(Predições)
Para fazer Predições: Métodos que são essencialmente data-based e livres de distribuições teóricas terão maior generalidades
Tais métodos envolvem reamostragem de um determinado conjunto de dados, usando técnicas tais como jacknife, bootstrap e validação cruzada (Avaliação preditiva)
y111
y112
…
y11r
y121
…
y12r etc.
Aleatoriamente
dividida em
dois subgrupos
(i) Dados para o ajuste do AMMI
(ii) Dados para
validação
Avaliação Preditiva Usando Validação CruzadaAvaliação Preditiva Usando Validação Cruzada
As respostas são preditas para uma família de modelos AMMI (’s m) e esses são comparados com os respectivos dados de validação, calculando as diferenças entre esses valores.
2( )RMSPD
np
mij ijij
y y
2( )RMSPD
np
mij ijij
y y
Avaliação Preditiva Usando Validação CruzadaAvaliação Preditiva Usando Validação Cruzada
Root Mean Square
Predictive Difference
dados1 = padrão + ruído1
dados = padrão + ruído
dados2 = padrão + ruído2
Assumimos que
Métodos “Leave-one-out”Métodos “Leave-one-out”
Para o que segue, queremos predizer o elemento xij da
matriz X por meio do modelo
m
1k ijjkikkij εvudx
n
i
p
j ijmij xxmPRESS
1 1
2)ˆ()(
no qual predizemos o valor de xij (i=1,…,n;j=1,…,p)
para cada possível escolha de m, e medir a discrepância
entre o valor atual e predito.
mijx
Krzanowski (1982)
Entretanto, para evitar viés, o valor xij não deve ser usados nos
cálculos de . Assim, apelo a alguma forma de validação cruzada é
indicada.
mijx
- O algoritmo para validação cruzada
).d,...,ddiag(D),v(V),u(UVDUX
),d,...,ddiag(D),v(V),u(UVDUX
1)(p1ststT
j)(
p1ststTi)(
~~~
e~~~~com
~~~eecom
Agora considere o preditor
))(~~(ˆ
1 ttjtm
t itmij dvdux
Note: é feito o máximo uso dos outros elementos de X.
Métodos “Leave-one-out”Métodos “Leave-one-out”
obtenha o resíduo da validação cruzada,
e aproxime a submatriz
Gabriel (2002)
- Toma uma mistura de regressão e aproximação de uma
matriz de posto-inferior como base para predição.
- O algoritmo para validação cruzada
(1) Para uma matriz X (n x p), use a partição
11\.
.11xX
Xx
x
1
T1
TUDVX
m
1k
T(k)k(k)11\ vdu
Então prediga x11 por1.
1.11x xUVDxT
1T
111111 xxe
Métodos “Leave-one-out”Métodos “Leave-one-out”
Métodos “Leave-one-out”Métodos “Leave-one-out”
(2)Similarmente, obtêm-se os valores ajustados
e os resíduos para todos outros
elementos, xij, i=1,…n;j=1,…,m;(i,j)(1,1). Cada
um irá requerer uma diferente partição de X.
ijxijijij xxe
(3) Esses resíduos e valores ajustados podem ser
resumidos por PRESS(m)/np e
j)i,|x,Corr(xPRECORR(m) ijij
Métodos “Leave-one-out”Métodos “Leave-one-out”
Com cada método, a escolha de m pode ser baseada em uma apropriada função de PRESS(m)/np.
Dr: número de GL restante após ajustar o m-ésimo componente. D1=(n-1)p,
Dr=Dr-1-(n+p-(m-1)2), r=2,3,…,(n-1).
Krzanowski sugere o uso da estatística
Dm: número de GL required para ajustar o m-ésimo
componente. Dm=n+p-2m
Wm : representa o incremento na informação preditiva fornecida pelo m-ésimo componente, dividido pela informação preditiva média em cada um dos componentes restantes.
Métodos “Leave-one-out”Métodos “Leave-one-out”
rD
PRESS(m)
mD
PRESS(m)1)PRESS(mmW
Tabela 1- Dados de vinte amostras solo e cinco variáveis (Kendall, 1980, p.20, baseado em Krzanowski, 1988).
Exemplo ilustrativoExemplo ilustrativo
Eastment-Krzanowski Gabriel ________________________ _________________________m PRESS_m PRECORR W PRESS_m PRECORR W___________________________________________________________1 4.36 .9963 27.78 8.08 .9932 13.602 2.23 .9981 2.14 7.45 .9937 0.183 2.14 .9982 0.05 5.60 .9952 0.454 2.13 .9982 0.00 0.21 .9998 10.20
Eastment-Krzanowski Gabriel ________________________ _________________________m PRESS_m PRECORR W PRESS_m PRECORR W___________________________________________________________1 4.36 .9963 27.78 8.08 .9932 13.602 2.23 .9981 2.14 7.45 .9937 0.183 2.14 .9982 0.05 5.60 .9952 0.454 2.13 .9982 0.00 0.21 .9998 10.20
Tabela 2 - Dados de quarenta afídeos e dezenove variáveis (Jeffers, 1967, baseado em Krzanowski, 1987).
Exemplo ilustrativoExemplo ilustrativo
____________________________________Eastment-Krzanowski Gabriel__________________________ ___________________________
m PRESS_m PRECORR W PRESS_m PRECORR W________________________________________________________________1 0.4500 .9799 29.04 0.4240 .9810 31.562 0.3391 .9849 3.71 0.2883 .9871 5.343 0.3389 .9849 0.00 0.2934 .9869 -0.184 0.2865 .9874 1.85 0.2957 .9868 -0.07 18 0.2601 .9886 -0.00 0.5778 .9744 0.03 ________________________________________________________________
Tabela 3 - Análise de efeitos principais aditivos e interação multiplicativa dos dados de Hernández e Crossa (2000), para a análise dos cinco primeiros componentes principal de interação (IPCA).
Exemplo ilustrativoExemplo ilustrativo
Fonte de variação Soma de Quadrados F Fgollob_________________________________________________________Bloco 0.2001 2 0.63
Tratamento 108.8393 47 14.65**
Genótipos (G) 42.7587 7 38.65**
Anos (E) 49.1997 5 62.27**
Interação (GxE) 16.8809 35 3.05**_________________________________________________________
IPCA 1 7.2428 11 4.16**
IPCA 2 5.4232 9 3.81**
IPCA 3 2.9696 7 2.68*
IPCA 4 1.1906 5 1.50
IPCA 5 0.0545 3 0.11_________________________________________________________Resíduo 14.8543 94_________________________________________________________Total 123.8939 143
Tabela 4- Dados (produção média de grãos) de um ensaio de variedades de trigo oito genótipos testados durante seis anos (1990-1995).
Exemplo ilustrativoExemplo ilustrativo
Fonte de variação Soma de quadrados GLCornelius FCornelius_________________________________________________________Bloco - - -Tratamentos - - -Genótipos (G) - - -Anos (E) - - -Interação (GxE) - - -_________________________________________________________IPCA 1 9.6379 24 2.54**IPCA 2 4.2147 15 1.78*IPCA 3 1.2451 8 0.98IPCA 4 0.0545 3 0.12IPCA 5 - - -_________________________________________________________
Resíduo 14.8543 94_________________________________________________________Total 123.8939 143
Tabela 5- Análise de validação cruzada e métodos “leave-one-out” para os dados Hernandéz e Crossa (2000).
Exemplo ilustrativoExemplo ilustrativo
Teste F distribucional indicou: dois componentes
DiscussãoDiscussão
Validação cruzada por aleatorização: três componentes
Leave-one-out: um componente
Como avaliar estas diferenças?
Métodos baseados no teste F dependem pesadamente das
suposições distribucional (normalidade dos dados e
validade das distribuições F para os quadrados médio) o
que pode não ser apropriado em muitos casos.
DiscussãoDiscussão
O teste F pode apresentar recomendações conflitantes
para um particular conjunto de dados.
O teste F seleciona muitos componentes de interação.
Parece que um método de validação cruzada baseado em dados deve ser mais apropriado.
DiscussãoDiscussão
Validação cruzada por aleatorização tem uma grande
parte dos dados que fica fora do conjunto de validação.
Métodos “Leave-one-out” faz o mais eficiente uso dos
dados e resulta em modelos mais parsimoniosos (AMMI 1)
CORNELIUS, P.L. 1993. Statistical tests and retention of terms in the additive main effects and multiplicative interaction model for cultivar trials. Crop Sci. 33:1186–1193
EBERHART, S.A.; RUSSELL, W.A. Stability parameters for comparing varieties. Crop Science,v.6, n.1, p.36-40, 1966
FISHER, R.A. and MACKENZIE,W.A. (1923). The manurial response of different potato varieties. Journal of Agricultural Science, xiii. 311-320
GAUCH J´UNIOR, H.G.; ZOBEL, R.W. Predictive ans postdictive sucess of statistical analysis of yield trials. Theoretical and Applied Genetics, New York, v.76, p.1-10, 1988
MANDEL, J. Non-additivity in two-way analysis of variance. Journal of the American Statistical Association, v.56, p.878-888, 1961
MANDEL, J. The partitioning of interactions in analysis of variance. Journal of Research of the National Bureau of Standards , Series B, Washington, v.73, p.309-328, 1969
MANDEL, J. A new analysis of variance model for non-adittive data. Technometrics, Alexandria,
v.13, n.1, p.1-18, 1971
Referências bibliográficasReferências bibliográficas
PIEPHO, H.P. 1994. Best linear unbiased prediction (BLUP) for regional yield trials: a comparison to additive main effects and multiplicative interaction (AMMI) analysis. Theor. Appl. Genet. 89:647–654
PIEPHO, H.P. 1995. Robustness of statistical test for multiplicativeterms in additive main effects and multiplicativeinteraction model for cultivar trial. Theor. Appl. Genet. 90:438–443