VALIDAÇÃO CRUZADA EM ANÁLISE BASEADA EM MODELO DE EFEITOS PRINCIPAIS ADITIVOS E INTERAÇÃO MULTIPLICATIVA (AMMI) Carlos Tadeu dos Santos Dias Escola Superior

VALIDAÇÃO CRUZADA EM ANÁLISE BASEADA EM MODELO DE EFEITOS PRINCIPAIS ADITIVOS E INTERAÇÃO

MULTIPLICATIVA (AMMI)

Carlos Tadeu dos Santos Dias

Escola Superior de Agricultura “Luiz de Queiroz” /

ESALQ / USP

Escola Superior de Agricultura “Luiz de Queiroz” /

ESALQ / USP

Departamento de Ciências Exatas

Departamento de Ciências Exatas

IntroduçãoIntrodução

Interação Genótipo/Ambiente (GxE)

Adaptação específica de genótipos em ambientes

Métodos estatísticos tradicionais

-Análise conjunta de ensaios multiambientes

-Regressão linear simples e múltipla (Eberhart & Russel, 1966) – Não é informativa se a linearidade falha

Métodos multivariados

-PCA (Análise de Componentes Principais)

-Análise de Agrupamento

-AMMI

AMMI ANOVA e PCA

Procedimento AMMIProcedimento AMMI

Modela efeitos principais e interação de uma forma

sequencial

• Efeitos principais são estimados usando mínimos quadrados

Incorpora componentes aditivosaditivos e multiplicativosmultiplicativos em uma

análise de mínimos quadrados integrada e poderosa

• PCA É conduzida via decomposição em valores singulares

(DVS) aplicado á matriz residual de interação.

Procedimento AMMIProcedimento AMMI

Problema Geral

Número de componentes multiplicativos a ser retido no

modelo (com o objetivo de adequadamente explicar o

padrão na interação)

Problema Específico

Propostas: Mandel (1961, 1969, 1971), Gollob (1968), Gauch &

Zobel (1988), Cornelius (1993), Piepho (1994 and 1995). Fisher e

Mackenzie (1923).Todas consideram a proporção de variância

acumulada pelos componentes.

Validação-Cruzada – como uma metodologia preditiva.

Otimizar o processo de validação cruzada

ObjetivoObjetivo

Sumário do modelo AMMI

Sumário da metodologia disponível para selecionar

o número de componentes multiplicativos no modelo

Descrever dois métodos baseados no procedimento

leave-one-out que otimiza o processo de validação cruzada

O modelo AMMIO modelo AMMI

Supor n genótipos em p ambientes com r repetições.

A média de cada combinação

modelada por

)r/,0(NID

ij

para

m

1kijjkikkjiij

2

egy

interaçãoativos MultiplicsComponenteaditivos sComponente

)r/,0(NID

ij

para

m

1kijjkikkjiij

2

egy

interaçãoativos MultiplicsComponenteaditivos sComponente


Estimativas:

Os resíduos dessa matriz constituem a matriz de interação:

ji eeg, ji eeg, De uma ANOVA da matriz nYp

yyyyegyyeyygyˆ jiijijjjii

termos da interação multiplicativa DVS da matriz nGEp


é um resíduo adicional.

através do k-ésimo valor singular de GE

os resíduos dessa matriz constituem a matriz do vetor

…singular

os resíduos dessa matriz constituem a matriz do vetor

…singular

através do j-ésimo elemento do vetor singular associado

com k=1,2,…,s = min{n-1, p-1}, s é o posto de

GE. Se k varia até s o modelo produz um ajuste

exato aos dados. Consequentemente k varia até m

(m<s), e as estimativas são obtidas dos primeiros m

termos da DVS da matriz GE.

'k

k


Correspondência entre DVS e PCA

:raiz quadrada do k-ésimo maior autovalor da matriz (GE) (GE)’ ou (GE)’(GE)

:é o i-ésimo elemento do autovetor de (GE)(GE)’ associado

com2kik

:é o j-ésimo elemento do autovetor de (GE)’(GE) associado com

2k

(DVS)

Partição ortogonalGE

''222

'111GE sss


fornece a proporção da variância devido a interação GxE no k-ésimo componente.

representam pesos para o genótipo i e ambiente j naquele componente da interação, respectivamente.

devido GE ser por construção uma matriz de desvios centrada na média e com média nula.

2k

e

e 2s

1kλ SS(GxE)

k

por quê?

Assim a interação do genótipo i com o ambiente j é descrito por

descartando o ruído dado por

m

k jkikk1

s

mk jkikk1

Análise AMMIAnálise AMMI

Análise AMMIAnálise AMMI

Avaliação Preditiva Usando Validação CruzadaAvaliação Preditiva Usando Validação Cruzada

Em geral, ao melhorista de plantas interessa predizer o

comportamento de um genótipo.

Critérios de avaliação:

(Ajustado-via teste F)

POS-DICTIVO x Modelo PREDITIVO

(Predições)

Para fazer Predições: Métodos que são essencialmente data-based e livres de distribuições teóricas terão maior generalidades

Tais métodos envolvem reamostragem de um determinado conjunto de dados, usando técnicas tais como jacknife, bootstrap e validação cruzada (Avaliação preditiva)

y111

y112

…

y11r

y121

…

y12r etc.

Aleatoriamente

dividida em

dois subgrupos

(i) Dados para o ajuste do AMMI

(ii) Dados para

validação


As respostas são preditas para uma família de modelos AMMI (’s m) e esses são comparados com os respectivos dados de validação, calculando as diferenças entre esses valores.

2( )RMSPD

np

mij ijij

y y

2( )RMSPD

np

mij ijij

y y


Root Mean Square

Predictive Difference

dados1 = padrão + ruído1

dados = padrão + ruído

dados2 = padrão + ruído2

Assumimos que

Métodos “Leave-one-out”Métodos “Leave-one-out”

Para o que segue, queremos predizer o elemento xij da

matriz X por meio do modelo

m

1k ijjkikkij εvudx

n

i

p

j ijmij xxmPRESS

1 1

2)ˆ()(

no qual predizemos o valor de xij (i=1,…,n;j=1,…,p)

para cada possível escolha de m, e medir a discrepância

entre o valor atual e predito.

mijx

Krzanowski (1982)

Entretanto, para evitar viés, o valor xij não deve ser usados nos

cálculos de . Assim, apelo a alguma forma de validação cruzada é

indicada.

mijx

- O algoritmo para validação cruzada

).d,...,ddiag(D),v(V),u(UVDUX

),d,...,ddiag(D),v(V),u(UVDUX

1)(p1ststT

j)(

p1ststTi)(

~~~

e~~~~com

~~~eecom

Agora considere o preditor

))(~~(ˆ

1 ttjtm

t itmij dvdux

Note: é feito o máximo uso dos outros elementos de X.


obtenha o resíduo da validação cruzada,

e aproxime a submatriz

Gabriel (2002)

- Toma uma mistura de regressão e aproximação de uma

matriz de posto-inferior como base para predição.

- O algoritmo para validação cruzada

(1) Para uma matriz X (n x p), use a partição

11\.

.11xX

Xx

x

1

T1

TUDVX

m

1k

T(k)k(k)11\ vdu

Então prediga x11 por1.

1.11x xUVDxT

1T

111111 xxe



(2)Similarmente, obtêm-se os valores ajustados

e os resíduos para todos outros

elementos, xij, i=1,…n;j=1,…,m;(i,j)(1,1). Cada

um irá requerer uma diferente partição de X.

ijxijijij xxe

(3) Esses resíduos e valores ajustados podem ser

resumidos por PRESS(m)/np e

j)i,|x,Corr(xPRECORR(m) ijij


Com cada método, a escolha de m pode ser baseada em uma apropriada função de PRESS(m)/np.

Dr: número de GL restante após ajustar o m-ésimo componente. D1=(n-1)p,

Dr=Dr-1-(n+p-(m-1)2), r=2,3,…,(n-1).

Krzanowski sugere o uso da estatística

Dm: número de GL required para ajustar o m-ésimo

componente. Dm=n+p-2m

Wm : representa o incremento na informação preditiva fornecida pelo m-ésimo componente, dividido pela informação preditiva média em cada um dos componentes restantes.


rD

PRESS(m)

mD

PRESS(m)1)PRESS(mmW

Tabela 1- Dados de vinte amostras solo e cinco variáveis (Kendall, 1980, p.20, baseado em Krzanowski, 1988).

Exemplo ilustrativoExemplo ilustrativo

Eastment-Krzanowski Gabriel ________________________ _________________________m PRESS_m PRECORR W PRESS_m PRECORR W___________________________________________________________1 4.36 .9963 27.78 8.08 .9932 13.602 2.23 .9981 2.14 7.45 .9937 0.183 2.14 .9982 0.05 5.60 .9952 0.454 2.13 .9982 0.00 0.21 .9998 10.20

Eastment-Krzanowski Gabriel ________________________ _________________________m PRESS_m PRECORR W PRESS_m PRECORR W___________________________________________________________1 4.36 .9963 27.78 8.08 .9932 13.602 2.23 .9981 2.14 7.45 .9937 0.183 2.14 .9982 0.05 5.60 .9952 0.454 2.13 .9982 0.00 0.21 .9998 10.20

Tabela 2 - Dados de quarenta afídeos e dezenove variáveis (Jeffers, 1967, baseado em Krzanowski, 1987).


____________________________________Eastment-Krzanowski Gabriel__________________________ ___________________________

m PRESS_m PRECORR W PRESS_m PRECORR W________________________________________________________________1 0.4500 .9799 29.04 0.4240 .9810 31.562 0.3391 .9849 3.71 0.2883 .9871 5.343 0.3389 .9849 0.00 0.2934 .9869 -0.184 0.2865 .9874 1.85 0.2957 .9868 -0.07 18 0.2601 .9886 -0.00 0.5778 .9744 0.03 ________________________________________________________________

Tabela 3 - Análise de efeitos principais aditivos e interação multiplicativa dos dados de Hernández e Crossa (2000), para a análise dos cinco primeiros componentes principal de interação (IPCA).


Fonte de variação Soma de Quadrados F Fgollob_________________________________________________________Bloco 0.2001 2 0.63

Tratamento 108.8393 47 14.65**

Genótipos (G) 42.7587 7 38.65**

Anos (E) 49.1997 5 62.27**

Interação (GxE) 16.8809 35 3.05**_________________________________________________________

IPCA 1 7.2428 11 4.16**

IPCA 2 5.4232 9 3.81**

IPCA 3 2.9696 7 2.68*

IPCA 4 1.1906 5 1.50

IPCA 5 0.0545 3 0.11_________________________________________________________Resíduo 14.8543 94_________________________________________________________Total 123.8939 143

Tabela 4- Dados (produção média de grãos) de um ensaio de variedades de trigo oito genótipos testados durante seis anos (1990-1995).


Fonte de variação Soma de quadrados GLCornelius FCornelius_________________________________________________________Bloco - - -Tratamentos - - -Genótipos (G) - - -Anos (E) - - -Interação (GxE) - - -_________________________________________________________IPCA 1 9.6379 24 2.54**IPCA 2 4.2147 15 1.78*IPCA 3 1.2451 8 0.98IPCA 4 0.0545 3 0.12IPCA 5 - - -_________________________________________________________

Resíduo 14.8543 94_________________________________________________________Total 123.8939 143

Tabela 5- Análise de validação cruzada e métodos “leave-one-out” para os dados Hernandéz e Crossa (2000).


Teste F distribucional indicou: dois componentes

DiscussãoDiscussão

Validação cruzada por aleatorização: três componentes

Leave-one-out: um componente

Como avaliar estas diferenças?

Métodos baseados no teste F dependem pesadamente das

suposições distribucional (normalidade dos dados e

validade das distribuições F para os quadrados médio) o

que pode não ser apropriado em muitos casos.


O teste F pode apresentar recomendações conflitantes

para um particular conjunto de dados.

O teste F seleciona muitos componentes de interação.

Parece que um método de validação cruzada baseado em dados deve ser mais apropriado.


Validação cruzada por aleatorização tem uma grande

parte dos dados que fica fora do conjunto de validação.

Métodos “Leave-one-out” faz o mais eficiente uso dos

dados e resulta em modelos mais parsimoniosos (AMMI 1)

CORNELIUS, P.L. 1993. Statistical tests and retention of terms in the additive main effects and multiplicative interaction model for cultivar trials. Crop Sci. 33:1186–1193

EBERHART, S.A.; RUSSELL, W.A. Stability parameters for comparing varieties. Crop Science,v.6, n.1, p.36-40, 1966

FISHER, R.A. and MACKENZIE,W.A. (1923). The manurial response of different potato varieties. Journal of Agricultural Science, xiii. 311-320

GAUCH J´UNIOR, H.G.; ZOBEL, R.W. Predictive ans postdictive sucess of statistical analysis of yield trials. Theoretical and Applied Genetics, New York, v.76, p.1-10, 1988

MANDEL, J. Non-additivity in two-way analysis of variance. Journal of the American Statistical Association, v.56, p.878-888, 1961

MANDEL, J. The partitioning of interactions in analysis of variance. Journal of Research of the National Bureau of Standards , Series B, Washington, v.73, p.309-328, 1969

MANDEL, J. A new analysis of variance model for non-adittive data. Technometrics, Alexandria,

v.13, n.1, p.1-18, 1971

Referências bibliográficasReferências bibliográficas

PIEPHO, H.P. 1994. Best linear unbiased prediction (BLUP) for regional yield trials: a comparison to additive main effects and multiplicative interaction (AMMI) analysis. Theor. Appl. Genet. 89:647–654

PIEPHO, H.P. 1995. Robustness of statistical test for multiplicativeterms in additive main effects and multiplicativeinteraction model for cultivar trial. Theor. Appl. Genet. 90:438–443

Documents

VALIDAÇÃO CRUZADA EM ANÁLISE BASEADA EM MODELO DE EFEITOS PRINCIPAIS ADITIVOS E INTERAÇÃO MULTIPLICATIVA (AMMI) Carlos Tadeu dos Santos Dias Escola Superior