DISSERTAÇÃO Análise de fatores para ensaios multiambientes ...repositorio.ufla.br/bitstream/1/4291/1/DISSERTAÇÃO_Análise de... · Aná lise de fatores para ensaios multiambientes

Embed Size (px)

Citation preview

JOEL JORGE NUVUNGA

ANLISE DE FATORES PARA ENSAIOS

MULTIAMBIENTES SOB DIFERENTES

NVEIS DE DESBALANCEAMENTO USANDO

MODELOS MISTOS

LAVRAS-MG

2014

JOEL JORGE NUVUNGA

ANLISE DE FATORES PARA ENSAIOS MULTIAMBIENTES SOB

DIFERENTES NVEIS DE DESBALANCEAMENTO USANDO

MODELOS MISTOS

Dissertao apresentada Universidade Federal de Lavras como parte das exigncias do Programa de Ps-Graduao em Estatstica e Experimentao Agropecuria, rea de concentrao em Estatstica e Experimentao Agropecuria, para obteno do ttulo de Mestre.

Orientador

Dr. Renato Ribeiro de Lima

Coorientador

Dr. Marcio Balestre

LAVRAS-MG

2014

Nuvunga, Joel Jorge. Anlise de fatores para ensaios multiambientes sob diferentes nveis de desbalanceamento usando modelos mistos / Joel Jorge Nuvunga. Lavras : UFLA, 2014.

81 p. : il. Dissertao (mestrado) Universidade Federal de Lavras, 2014. Orientador: Renato Ribeiro de Lima. Bibliografia. 1. Interao gentipo-ambiente. 2. Varincia no estruturada. 3.

Adaptabilidade. 4. Estabilidade. 5. Fator analtico. I. Universidade Federal de Lavras. II. Ttulo.

CDD 519.535

Ficha Catalogrfica Elaborada pela Coordenadoria de Produtos e Servios da Biblioteca Universitria da UFLA

JOEL JORGE NUVUNGA

ANLISE DE FATORES PARA ENSAIOS MULTIAMBIENTES SOB

DIFERENTES NVEIS DE DESBALANCEAMENTO USANDO

MODELOS MISTOS

Dissertao apresentada Universidade Federal de Lavras como parte das exigncias do Programa de Ps-Graduao em Estatstica e Experimentao Agropecuria, rea de concentrao em Estatstica e Experimentao Agropecuria, para obteno do ttulo de Mestre.

Aprovada em 20 de Fevereiro de 2014.

Dr. Jlio Slvio de Souza Bueno Filho UFLA

Dr. Jos Arton Rodrigues Nunes UFLA

Dr. Marcio Balestre UFLA

Dr. Renato Ribeiro de Lima

Orientador

LAVRAS-MG

2014

Aos meus pais,

Jorge Nuvunga (In memoriam) e

Tahate Cossa,

que me ensinaram a importncia dos estudos

e em todos os momentos de dificuldade,

sempre me aconselharam.

Aos meus irmos exemplos de perseverana,

solidariedade e pela companhia constante, amizade,

pacincia e amor.

DEDICO

AGRADECIMENTOS

Universidade Federal de Lavras (UFLA) e ao Departamento de Cincias

Exatas (DEX), pela oportunidade concedida para a realizao do mestrado;

Aos meus orientadores, o Prof. Dr. Renato Ribeiro de Lima e Mrcio Balastre,

por ajudarem nos meus primeiros passos no Mestrado, pelo conhecimento

compartilhado, confiana no meu trabalho e apoio;

Ao Professor Doutor Carvalho Carlos Ecole, pelo apoio incondicional para esta

conquista e ao Doutor Manuel Amane pelo incentivo para continuar com os

estudos;

Aos Profs. Drs. Jlio Slvio de Sousa Bueno Filho, Daniel Ferreira Furtado, Jos

Airton Rodrigues Nunes, Joo Domingos Scalon, serei eternamente agradecido

pela pacincia, pelos ensinamentos e pela valiosa colaborao. Aos professores

do Departamento de Cincias Exatas da DEX/UFLA, obrigada pela amizade e

contribuio na minha formao;

Aos meus colegas do Mestrado, pelo constante apoio e amizade, a todos vocs

que fizeram parte deste meu aprendizado e de uma forma muito especial.

Agradeo a: Luciano Oliveira, Carlos Pereira, Andrezza Kellen, Fernando

Ribeiro, Carlos Muianga, Rafael Lemos, e Adriano Carvalho;

Aos meus irmos; Rita, Elisar, Marta, Alfredo, Matias, Jorge, Rute, Aida, Lcia

e Maria, pela amizade e companheirismo de toda vida;

A todos moambicanos em Lavras com os quais compartilhei os melhores

momentos e, em especial aos amigos Mateus Come e Chadreque Nhanengue,

pelo convvio e pacincia nos dois anos do Mestrado;

A Joaquim Uate, Edmundo Caetano, Bartolomeu Tanguene e Gilda Aparecida,

pela amizade e convivncia, durante minha estadia em Lavras;

Ao Momade lvaro, Noimilto Mindo, Bacar, Ldia e a todos que colaboraram

direta e indiretamente para esta conquista;

Ao Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq) e

Ministrio de Cincia e Tecnologia de Moambique (MCT) pelo apoio

financeiro.

RESUMO

Em ensaios de mltiplos ambientes comum a presena de dados desbalanceados, heterogeneidade de varincias e covarincias de resduos, que podem dificultar o trabalho de seleo do melhorista. Alm disso, a declarao de que um gentipo estvel, pode muitas vezes causar dvidas. Com o objetivo de avaliar as alternativas para o estudo da interao GE sob diferentes nveis de desbalanceamento, para este trabalho foram testados trs nveis de desbalanceamento em um conjunto de dados reais, adotando-se um modelo misto com varincia no estruturada (UN) e a validao cruzada para validar gentipos estveis. Foram considerados dados provenientes de ensaios multiambientes com 55 hbridos de milho, avaliados nos anos 2005 e 2006. As anlises foram feitas em dois estgios: no primeiro, os componentes de varincia foram estimados pelo mtodo da mxima verossimilhana restrita adotando o modelo mito, via algoritmo EM, enquanto que no segundo estgio aplicou-se a anlise FA (fator analtica) com objetivo de obter escores fatorais e a posio relativa de cada gentipo no biplot. Realizaram-se desbalanceamentos aleatrios nos dados, considerando nveis de 10%, 30% e 50% de parcelas perdidas e, em seguida, os escores foram reestimados utilizando o modelo FA. Os resultados mostraram que a anlise FA robusta na anlise de dados multiambientes (MET) sob diferentes nveis de perdas aleatrias nas parcelas, o que inclui os casos em que nem todos os gentipos so testados em todos os ambientes. Desbalanceamentos de 10%, 30% e 50% apresentaram valores mdios da correlao de 0,7; 0,6 e 0,56. De maneira geral, os gentipos considerados estveis no biplot apresentaram menor erro quadrtico de predio e menores elipses preditivas. Assim, os resultados permitem inferir que a soma de quadrados dos erros de predio PRESS poderia ser utilizada como alternativa para avaliar o desempenho de gentipos considerados estveis no biplot. Esse resultado se confirmou pela amplitude das elipses de predio, que foram menores nesses gentipos. Verificou-se que a anlise de fatores usando modelo misto robusta sob os diferentes nveis de desbalanceamento, com valores de correlao variando de mdio a alto, dependendo do nvel de perda estabelecido. Assim, no h dvidas quanto ao potencial desse tipo de anlise para avaliao da estabilidade no melhoramento de plantas. Palavras-chave: Interao GxE. Varincia no estruturada. Adaptabilidade. Estabilidade. Fator analtico.

ABSTRACT

It is common the presence of unbalanced data, and heterogeneity of residuals variances and covariances, which may become the work of plant breeders more difficult, mainly when it was considered multi-environment trials. Furthermore, the affirmation that a genotype is stable, under these conditions, may not be correct. However, aiming to evaluate the alternatives to study the genotype environment interaction (GE), under different unbalanced levels, it was carried out this study in which were assumed three different unbalanced levels on a real dataset, and it was adopted a mixed model with unstructured variance to analyse and to validate stable genotypes by using cross-validation. It was considered data from multi environment trials with 55 maize hybrids, assessed between 2005 and 2006. analyses were carried out in two stages: (i) the components of variance were estimated by considering restricted maximum likelihood method, using EM algorithm; and (ii) it was applied the factor analytic multiplicative mixed (FA) aiming to obtain factorial scores and relative position of each genotype in a biplot. Different unbalanced conditions were randomly performed by considering 10%, 30% and 50% of missed experimental units. Thus, the scores were estimated in different unbalanced conditions by using the FA-based analysis.. The results indicated that the FA-based analysis is robust to analyse data from multi environment trials (MET), under different levels of unbalancing, including cases in which not all genotypes are evaluated in all environments. Unbalancing of 10%, 30% and 50% showed correlation average of 0.7, 0.6, and 0.56, respectively. In general, genotypes which were considered stable in the biplot presented the lowest prediction square error and the smallest predictive ellipses. With these results, it is inferred that the Residuals The prediction error sum of squares (PRESS) could be an alternative method to evaluate the performance of genotypes considered stable in the biplot,what it was confirmed by the amplitude of the predictive ellipses. Furthermore, the factor analytic multiplicative mixed model analysis is robust under different unbalanced levels, with values of correlation raging from medium to high, depending on the established level of losses. Therefore, this type of analysis is proper and has potential to use in the assessing stability in programs of plant breeding.

Keywords: Interaction genotype environment. Unstructured variance. Adaptability. Stability. Factor analytic multiplicative mixed model.

SUMRIO 1 INTRODUO .......................................................................................... 6

1.1 Objetivo Geral ............................................................................................ 8

1.2 Objetivos Especficos ................................................................................. 9

2 REVISO DE LITERATURA ............................................................... 10

2.1 Modelos mistos multivariados (MMM) ................................................. 10

2.2 Anlise de fatores (AF) ............................................................................ 13

2.3 Efeitos de gentipos fixos ou aleatrios .................................................. 15

2.4 Predio dos efeitos aleatrios (G e GxE) .............................................. 17

2.5 Interao Gentipo x Ambiente (G x E) ................................................ 19

2.6 Estrutura Fator Analtica........................................................................ 34

2. 7 Seleo dos modelos FAMM ................................................................... 38

2.10 Tcnica da elipse de confiana ................................................................ 43

2.11 Elipses de confiana para predio ........................................................ 44

3 MATERIAL E MTODOS ..................................................................... 48

3.1 Material..................................................................................................... 48

3.2 Mtodos ..................................................................................................... 49

4 RESULTADOS E DISCUSSO ............................................................. 57

4.1 Resultados ................................................................................................. 57

4.1.1 Diagnsticos do modelo sob diferentes nveis de desbalanceamento e validao cruzada. .................................................................................. 61

4.2 Regies de confiana para a predio dos escores ................................ 65

4.2 Discusso ................................................................................................... 68

4.2.1 Estrutura da matriz de varincias e covarincias................................. 69

4.2.2 Estruturas de erro .................................................................................... 70

4.2.3 Diagnsticos do modelo sob diferentes nveis de desbalanceamento e validao cruzada. .................................................................................. 71

5 CONCLUSO ......................................................................................... 73

REFERNCIAS ..................................................................................... 74

6

1 INTRODUO

A identificao de gentipos com alta produtividade e estabilidade de

produo e ampla adaptabilidade aos mais variados ambientes um dos

principais objetivos dos programas do melhoramento gentico. Entretanto, essa

seleo afetada pela interao G x E. Existem diferentes metodologias

destinadas avaliao da interao G x E, em que a escolha de um mtodo

depende dos dados experimentais, especialmente do nmero de ambientes

disponveis, da preciso requerida e do tipo de informao desejada. Alm disso,

existem mtodos alternativos e complementares que podem ser utilizados

conjuntamente (CRUZ; REGAZZI; CARNEIRO, 2004).

Uma das metodologias utilizadas na avaliao da interao G x E

baseada em anlise multiplicativa, que explora a resposta dos gentipos em

ambientes especficos, descrevendo a interao G x E de uma forma mais

criteriosa (RESENDE, 2004). A vantagem dos mtodos multiplicativos reside na

possibilidade de agrupamento de ambientes e gentipos semelhantes, permitindo

tambm a identificao dos gentipos com maior potencial em cada subgrupo de

ambientes, por meio do grfico biplot.

Nos mtodos multiplicativos, os dados MET (multiambientes) so

frequentemente analisados em duas etapas: na primeira, os efeitos dos gentipos

so estimados separadamente para cada ensaio e, na segunda so combinados

para formar os dados para uma anlise geral. A abordagem de dois estgios

uma aproximao anlise conjunta dos dados brutos de todos os ensaios. Se

existe uma heterogeneidade de varincia do erro entre os ensaios e ou repetio

desigual nos ensaios, essa aproximao pode ser ruim. Uma alternativa o uso

do modelo misto, com efeitos principais de gentipos e ambientes (pelo menos

um dos quais aleatrio) e interao G x E aleatria (PATTERSON et al.,

1977). Essa interao geralmente assumida como um conjunto de efeitos

aleatrios independentes com varincias constantes. Porm, a validade dessas

suposies questionvel. Segundo Smith, Cullis e Thompson (2001), muitos

autores, incluindo Patterson e Nabugoomu (1992), reconhecem a possibilidade

7

da existncia da heterogeneidade de varincia. Nesse contexto, modelos que

contemplem essa heterogeneidade de varincia para interao G x E e

relaxamento da suposio de independncia podem ser necessrios.

Dentre os mtodos propostos destacam-se o uso de dois modelos mistos

multiplicativos: AMMI - additive main effects and multiplicative interactions e

FAMM - factor analytic multiplicative mixed models. Dentre esses modelos, o

que vem sendo mais utilizado na anlise de dados de MET so os modelos

mistos multiplicativos de fator analtico (que consideram aleatrios os efeitos

dos gentipos e interao G x E). Esses modelos foram propostos por Piepho

(1997) e, mais tarde, foram designados FAMM (ou simplesmente FA) por

Resende e Thompson (2004). Os modelos FA foram propostos em detrimento

aos AMMI devido ao fato desses ltimos apresentarem pelo menos cinco

grandes limitaes: consideram os efeitos de gentipo e de G x E como fixos;

so adequados apenas para dados balanceados; no consideram a variao

espacial dentro dos ensaios; no consideram a heterogeneidade de varincia

entre ensaios e no consideram os diferentes nmeros de repeties nos ensaios.

No entanto, estas so caractersticas geralmente encontradas em experimentos

de campo. Por essas razes, o FAMM com efeitos aleatrios de gentipo e de G

x E, conceitualmente e funcionalmente superior ao AMMI.

Kelly et al. (2007), Piepho (1998) e Smith, Cullis e Thompson (2001,

2005), mostraram a superioridade dos modelos FAMM, no estudo da interao

G x E. Contudo, os estudos propostos por estes autores limitaram-se a comparar

modelos e estrutura da matriz de varincias e covarincias genticas, na presena

de heterogeneidade de varincias. Apesar de terem demonstrado que esses

modelos so adequados para estudo da interao G x E na presena de

desbalanceamento dos dados (nem todos os gentipos cultivados em todos

locais), nenhum desses estudos avaliou a robustez do modelo FA na presena de

alto ndice de desbalanceamento (por perda de parcelas, gentipo ou bloco).

Recentemente Crossa et al. (2011b) verificara a robustez dos modelos FA na

presena de desbalanceamentos, sem, contudo testar diferentes nveis de perda.

8

Apesar do grande atrativo dessa tcnica no melhoramento de plantas,

uma das dificuldades encontradas por pesquisadores na adoo dos modelos FA

refere-se a sua implementao computacional, pois os pacotes disponveis, no

exploram o modelo de regresso em que assenta o modelo FA (SMITH;

CULLIS; THOMPSON, 2001). Por conseguinte, as equaes do modelo misto

so relativamente densas, reduzindo seriamente a velocidade computacional das

anlises para conjuntos de dados com um grande nmero de ambientes ou

quando se ajusta a varincia de modelos fator analticos com vrios fatores

(THOMPSON et al., 2003). Visando melhorar a estabilidade computacional,

Thompson et al. (2003) sugeriram a aplicao de matrizes esparsas na estrutura

FA, porm, sua implementao tambm computacionalmente intensiva como

pode ser observado nos doze passos propostos pelos autores. O outro problema

prtico com o modelo FA a ocorrncia frequente dos casos Heywood, onde

alguns parmetros da estrutura FA tornam-se nulos ou negativos, o que pode

prejudicar a anlise (SILVA; DUTKOWSKI, 2006; SMITH; CULLIS;

THOMPSON, 2001; THOMPSON et al., 2003). Nesse sentido, uma das formas

de confirmar as estabilidades de gentipos descritas em biplots em seria por

meio de validao cruzada (LAVORANTI, 2003; YANG et al., 2009) utilizando

a estatstica da soma de quadrados dos erros de predio (PRESS). Uma vez que

nessa abordagem o desbalanceamento no destri a estrutura de interao como

verificado em anlises bootstrap de AMMI ou GGE (LAVORANTI, 2003;

YAN, 2010; YANG et al., 2009), a preciso das elipses de confiana obtidas na

validao cruzada tem interpretao gentica direta em termos de estabilidade,

ou seja, quanto menos sensvel o desempenho de gentipo em relao a sua

perda em ambientes contrastantes, mas estvel podemos considerar esse

gentipo.

1.1 Objetivo Geral

Avaliar o desempenho da anlise MET (multiambientes) no estudo da interao

G x E sob os diferentes nveis de desbalanceamento (por perda de parcelas)

usando modelo misto multivariado.

9

1.2 Objetivos Especficos

a) Aplicar o modelo misto multivariado com o propsito de analisar a

estrutura da matriz de varincias e covarincias das e interaes

gentipo x ambiente na presena de dados balanceados e

desbalanceados;

b) Aplicar a estrutura fator analtico (FA) como forma de avaliar a

estabilidade e adaptabilidade dos gentipos;

c) Determinar regies de confiana de predio dos escores genotpicos

(blups) nos diferentes nveis de desbalanceamento.

10

2 REVISO DE LITERATURA

Nesta seo, apresentada uma reviso de literatura, que visa a abordar

os conceitos, bsicos sobre a anlise de fatores, modelos mistos, interao

gentipo por ambiente, mtodos de estudo do gentipo por ambiente e mtodos

de validao cruzada.

2.1 Modelos mistos multivariados (MMM)

O modelo misto multivariado uma extenso do modelo linear

multivariado. Isto significa que o modelo pode ser estimado adicionando um

componente aleatrio, assumindo que cada um dos elementos de Y tem uma

correlao sistemtica com a parte linear do modelo.

A anlise simultnea de vrios caracteres visando estimar a estrutura de

covarincia ou correlao e tambm a predio de valores genticos para fins de

seleo realizada de maneira eficiente pelo procedimento REML/BLUP

(multitrait) multivariado ou pela anlise multivariada no estruturada. Nesse

caso, o modelo multivariado especificado de forma a contemplar a covarincia

ambiental existente entre os caracteres (RESENDE, 2002, 2007).

Os modelos multivariados destinam-se avaliao de indivduos,

simultaneamente para dois ou mais caracteres e apresentam grande relevncia no

contexto de seleo envolvendo agregados genotpicos.

A combinao de tcnicas de anlise multivariada com os modelos

mistos importante para a anlise de mltiplos caracteres, mltiplos

experimentos e, em alguns casos, medidas repetidas. Dentre as tcnicas

multivariadas, a anlise de fatores tem se destacado, se mostrando muito

eficiente na anlise de dados MET quando associada aos modelos mistos.

A tcnica de anlise de fatores associada ao modelo misto designada

FAMM (factor analytic mixed multiplicative mixed) que mais indicada para

anlise de mltiplos experimentos. A anlise de fatores enfatiza a atribuio da

covarincia entre variveis a fatores comuns. Isto relevante quando as

11

variveis referem-se a ambientes ou experimentos e todos os ambientes so

alvos da anlise e no apenas aqueles que mais contribuem para a variao total.

Por outro lado, a covarincia ou correlao entre ambientes, atribudas a fatores

comuns considera a similaridade e dissimilaridade entre ambientes, o que uma

propriedade interessante nesse contexto (RESENDE; THOMPSON, 2004).

Definio do modelo

O modelo para uma anlise multivariada se assemelha a empilhar

modelos univariados para cada um dos caracteres (MRODE; THOMPSON,

2005). Por exemplo, considere uma anlise multivariada para dois caracteres,

com o modelo para cada caracterstica dada em (1), isto , para um carter

(ambiente 1):

1 1 1 1 1 1y X b Z u e= + + : (1)

E para o ambiente 2:

2 2 2 2 2 2y X b Z u e= + + (2)

em que:

iy vetor de observaes para o caractere i, ib vetor de efeitos fixos para do

ambiente i, i = vetor dos efeitos aleatrios de gentipo para o ambiente i, i

vetor de efeitos residuais aleatrios para o ambiente i, e iX e iZ so matrizes de

incidncia relativas para os efeitos fixos e efeitos aleatrios do gentipo,

respectivamente, para o ambiente i.

Se os gentipos so ordenados dentro de cada ambiente, o modelo de

anlise multivariada para os dois ambientes pode ser escrito como:

1 1 1 11 1

2 22 2 2 2

0 00 0

y b u eX ZX Zy b u e

= + + (3)

assumido que:

12

1 11 12

2 21 22

11 121

21 222

0 00 0

0 00 0

u I Iu I I

VarR ReR Re

s ss s

=

, (4)

em que ijsI so elementos de G-matriz de varincias e covarincias genticas,

11s = varincia gentica aditiva para efeitos diretos para o ambiente 1; 12s =

21s = covarincia gentica aditiva entre os dois ambientes, 22s = varincia

gentica aditiva para efeitos diretos para o ambiente 2; a matriz identidade e,

= matriz de varincia e covarincia para os efeitos residuais.

As equaes do modelo misto multivariado (MMM) so da mesma

forma como as do caso univariado, e estas so os seguintes:

1 1 1

1 1 1 1

X R X X R Z X R ybuZ R X Z R Z G Z R y

- - -

- - - -

+

= , (5)

em que:

1

2

00X

XX

= ; 1

2

00Z

ZZ

= ; 1

2

b

bb

=

e 1

2

u

uu =

.

Escrevendo as equaes para cada um dos ambientes no modelo

separadamente, o MME

torna-se:

1 11 1 1 11 21 11 1 1 12 2 1 11 1 1 12 2 1

22 12 1 2 22 2 2 12 1 2 22 2 2

1 11 1 1 12 2 1 11 1 11 1 12 2 12 1 2 21 1 2 22 2 1 21 1 21 2 22 2 22 2

X R y X R yX R X X R X X R Z X R Z bXX R X X R X X R Z X R Z b

Z R X Z R X Z R Z I Z R Z I uX R X Z R X Z R Z I Z R Z I u

s ss s

+

= + + + +

12 1 2 22 2

1 11 1 1 12 2 2 21 1 2 22 2

(6)R y X R yZ R y Z R yX R y Z R y

+ + +

E a soluo dada por:

1 1 11 1 1 11 21 11 1 1 12 2 1 11 1 1 12 21

2 12 1 2 22 2 2 12 1 2 22 22 1 11 1 1 12 2 1 11 1 11 1 12 2 121 2 21 1 2 22 2 1 21 1 21 2 22 2 222

X R y X R yX R X X R X X R Z X R ZbX R X X R X X R Z X R ZbZ R X Z R X Z R Z I Z R Z IuX R X Z R X Z R Z I Z R Z Iu

s ss s

- +

= + + + +

2 12 1 2 22 2 1 11 1 1 12 2 2 21 1 2 22 2

(7)X R y X R yZ R y Z R yX R y Z R y

+ + +

13

Deve-se notar que, se R12, R21, e 12s = 21s so ajustados para zero, as matrizes

nas equaes acima reduzem ao habitual modelo em que se realizam anlises de

um nico ambiente (modelo univariado) j que os dois ambientes tornam-se no

correlacionados (MRODE; THOMPSON, 2005).

2.2 Anlise de fatores (AF)

A anlise de fatores ou anlise fatorial um nome genrico dado a uma

classe de mtodos estatsticos multivariados cujo propsito principal definir a

estrutura subjacente e explicar o comportamento de um nmero relativamente

grande de variveis observadas, em termos de um nmero relativamente

pequeno de variveis latentes ou fatores em uma matriz de dados (HAIR

JUNIOR et al., 2005). Em termos gerais, a anlise de fatores aborda o problema

de analisar a estrutura das inter-relaes (correlaes) entre um grande nmero

de variveis, definindo um conjunto de dimenses latentes comuns, chamado de

fatores. Com a anlise fatorial, o pesquisador pode primeiro identificar as

dimenses separadas da estrutura, e ento determinar o grau em que cada

varivel explicada por cada dimenso. Uma vez que essas dimenses e a

explicao de cada varivel estejam determinadas, os principais objetivos da

anlise fatorial so conseguidos, isto , a reduo ou resumo de dados e o estudo

da variao em uma quantidade de variveis originais usando um nmero menor

de fatores (JOHNSON; WICHERN, 2007).

Os fatores podem ser no correlacionados (fatores ortogonais) ou

correlacionados (fatores oblquos). As variveis so agrupadas por meio de suas

correlaes, ou seja, aquelas pertencentes a um mesmo grupo sero fortemente

correlacionadas entre si, mas pouco correlacionadas com as variveis de outro

grupo. Cada grupo de variveis representar um fator (JOHNSON; WICHERN,

2007).

Seja Z um vetor de variveis aleatrias, com matriz de covarincia ,

pode-se representar o modelo fatorial como:

14

Z=+ +f , (8)

em que

: representa o vetor de mdias;

: matriz qxm de cargas fatoriais;

f : vetor 1mx de fatores comuns;

: o vetor 1qx de varincias especficas;

Na forma mais comum de anlise fatorial, as colunas de so

ortogonais, ou seja, 0 jg g = para i j , em que ig a i-sima coluna de .

Da que os elementos de f so no correlacionados. Alm disso, os fatores

comuns so assumidos ter varincia unitria, isto , ( )Var I=f . As colunas

ig so determinadas como os autovetores correspondentes de , escalado pela

raiz quadrada dos respectivos autovalores. No entanto, no nico e

frequentemente alvo de uma transformao ortogonal para se obter cargas

fatoriais interpretveis, ao invs daqueles derivados a partir dos autovetores.

Finalmente, os fatores especficos (erros) id so assumidos como distribudos de

forma independente com varincias heterogneas iy , sendo os vetores f e

no correlacionados. Isso d a matriz de covarincia de Z sob o modelo de FA:

FA( ) =+Var =Z , (9)

em que

i = diag( ) uma matriz diagonal de varincias especficas. Isto implica que

todas as covarincias entre os nveis de Z so devidos aos fatores comuns,

enquanto que os fatores especficos explicam a variao adicional de elementos

individuais de Z (MEYER, 2009). Para m fatores comuns, este descreve

( 1) / 2q q +

elementos de FAS por meio de ( 1) / 2p q mq m m= + - -

parmetros, que consistem em q varincias especficas iy e (2 1) / 2m q m- +

15

elementos de e os restantes ( 1) / 2m m- elementos determinados por

restries de ortogonalidade.

Para valores pequenos de m , um modelo FA oferece uma maneira

parcimoniosa de modelar as covarincias entre um considervel nmero de

variveis. Como p no pode exceder o nmero de parmetros no caso no

estruturado, o nmero de fatores comuns ( 1) / 2q q + que podem ser definidos

restrito.

Se todas as varincias especficas iy so diferentes de zero, o nmero

mnimo de caractersticas para as quais imposta uma estrutura FA para reduo

no nmero de parmetros q = 4. A estrutura FA para a varincia de Z mais

apropriada se todos os caracteres q envolvidos so correlacionados de forma

relativamente uniforme. Nesse caso, um pequeno nmero de fatores,

geralmente suficiente para modelar as covarincias entre os elementos de Z . O

modelo FA inclui muitas estruturas de covarincia corriqueiramente utilizadas

para modelar problemas de interao G x E em casos especiais. O mais simples

cenrio a estrutura de simetria composta, ou seja, 2 11 Is y= + , que um

modelo de FA com um nico fator comum e 1s= (onde 1 refere-se a um

vetor com todos os elementos igual um) e varincias especfica iguais y para

todas as variveis (MEYER, 2009). Jennrich e Schluchte (1986) propuseram

uma estrutura FA como opo para modelar as covarincias de dados entre

medidas repetidas e exemplos tpicos em que tal modelo seja adequado so

aquelas em que as mesmas medidas so tomadas em diferentes circunstncias

(como diferentes locais para interao G X E).

2.3 Efeitos de gentipos fixos ou aleatrios

A classificao dos efeitos de gentipo em fixo ou aleatrio interfere

diretamente na definio do modelo e, consequentemente, na utilizao de

diferentes funes para ranquear os gentipos. Embora a distino entre as duas

16

abordagens (fixos vs aleatrio) possa parecer sutil e at mesmo semntica, eles

levam diferentes modelos lineares e, portanto, diferentes funes dos dados

que so utilizados para classificar os gentipos. Isto resulta em diferentes

propriedades dos critrios de classificao entre as abordagens- aleatrias e fixas

(WHITE; HODGE, 1989).

Se gentipos so tomados como fixos as suas mdias sero estimadas

usando os melhores estimadores lineares no viesados (BLUEs) baseados em

mnimos quadrados generalizados e caso sejam considerados aleatrios sero

usados melhores preditores lineares no viesados (BLUPs) (FISCHER et al.,

2009; HENDERSON, 1984; SEARLE; CASELLA; MCCULLOCH, 1992).

A suposio de que efeitos de gentipos sejam aleatrios tem sido

debatida na literatura. Um argumento, contra, essa suposio que os gentipos

geralmente no so uma amostra aleatria de uma populao definida, j que,

gentipos em teste so o resultado de um processo de seleo. Embora, na

maioria dos casos isto seja verdade pode-se considerar que os gentipos em teste

so uma amostra aleatria de alguma populao hipottica de gentipos que

poderiam ter surgido como um resultado do processo de seleo levando aos

gentipos atualmente disponveis (PIEPHO; MHRING, 2006, 2010).

Se os efeitos de gentipos so tomados como aleatrios ou como fixos

depende da finalidade da anlise (SMITH; CULLIS; THOMPSON, 2001, 2005)

e sobre a forma como os gentipos foram gerados. Se o interesse for na

estimativa da mdia de gentipos, so tomados como fixo. Se o foco est em

predizer o valor gentico potencial dos gentipos em futuros experimentos, estes

podem ser considerados como aleatrios de uma populao base (FISCHER et

al., 2009; HENDERSON, 1984; RESENDE, 2007).

No melhoramento de plantas a predio de valores genticos de

interesse, mas devido seleo, e assegurar condies ideais a populao-base

como, cruzamentos ao acaso, equilbrio de ligao e falta de endogamia, ela no

existe (FISCHER et al., 2009; PIEPHO et al., 2008). At agora, os melhoristas

de plantas, muitas vezes vem tratando gentipos como um efeito fixo, ignorando

todas as covarincias entre os gentipos oriundos de descendncias ou processo

de avaliao. Assumindo gentipos como efeitos aleatrios, possvel obter

17

predies dos gentipos e dos efeitos da interao aleatria GxE. Alm da

separao de efeitos genticos em aditivos e no aditivos (PIEPHO; MHRING,

2010). A desvantagem de tomar o efeito gentico como aleatrio a exigncia

de se estimar um componente de varincia. Se h pouca informao para estimar

o componente de varincia, tanto a estimativa de componentes de varincia e os

BLUPs so incertos. Assim, Searle, Casella e McCulloch (1992) propuseram a

considerar os efeitos como aleatrios, se o nmero de gentipos for grande.

Eeuwijk (1995) sugeriu ter pelo menos dez graus de liberdade para estimar os

componentes de varincia.

2.4 Predio dos efeitos aleatrios (G e GxE)

A predio de uma observao futura um problema que tem sido

extensivamente estudado.

Os valores genticos so variveis aleatrias no observveis, preditas a

partir dos valores fenotpicos observveis, comumente usados nos programas de

melhoramento de plantas. A sua predio, que pode ser feita de forma pontual

ou intervalar, deve ser precisa e acurada, pois aumentam os ganhos pretendidos,

diminuindo as possibilidades de erro na seleo (PINTO JNIOR, 2004). A

predio pontual fornece os valores genticos preditos, ao passo que a intervalar

inclui os intervalos de confiana dos valores e dos ganhos genticos, propiciando

uma recomendao mais segura dos indivduos envolvidos e, portanto, deve ser

preferencial (RESENDE, 2002).

Os valores genticos preditos, entretanto, no so iguais aos valores

genticos verdadeiros dos indivduos. Conforme Vleck, Pollak e Oltenacu

(1987), a proximidade entre esses dois pode ser avaliada com base na estatstica

denominada acurcia, a qual se refere correlao entre os valores genticos

preditos e verdadeiros dos indivduos.

Resende (2002) argumenta que o sucesso do melhoramento gentico

depende da adoo de procedimentos de seleo acurados, e que a estruturao

dos mesmos baseia-se na estimao dos componentes de variao e predio dos

18

valores genticos visando avaliao gentica dos candidatos a seleo. O

procedimento timo de predio de valores genticos e seleo. usado no

melhoramento de espcies o BLUP (Best Linear Unbiesed Prediction) para

dados balanceados e desbalanceados. O BLUP ajusta os dados para efeitos

ambientais identificveis e simultaneamente prediz os valores genticos dos

indivduos. Pois os BLUPs so calculados com base na verdadeira forma para a

matriz de varincia e covarincias gentica.

A seleo geralmente exercida em vrios caracteres. No melhoramento

animal, a fim de evitar o vis devido seleo, comum realizar as anlises

utilizando modelo misto multicaracter (multitrait mixed model) (HENDERSON;

QUAAS, 1976; MRODE, 1996; PIEPHO et al., 2008). Neste contexto, para a

predio dos efeitos aleatrios, tm-se usado o BLUP Multicaracter

(multivariado) por apresentar vantagem quando os caracteres so altamente

correlacionados. Entretanto, essa abordagem apresenta a desvantagem de poder

tornar as equaes do modelo misto muito extensas.

No melhoramento vegetal a abordagem multivariada tem sido utilizada

com culturas perenes, sendo muito raro no melhoramento de culturas anuais

(PIEPHO et al., 2008). Simeo et al. (2002) utilizaram BLUP multivariado

considerando ambientes como caracteres diferentes em erva-mate (Ilex

paraguariensis). O BLUP multivariado considera adequadamente a questo da

interao G x E e heterogeneidade de varincias, permitindo tambm explorar as

diferentes herdabilidades entre os ambientes.

Embora o modelo misto multivariado seja o procedimento mais

recomendando para lidar com heterogeneidade de varincias e interao G x E,

uma possvel heterogeneidade de varincia entre blocos dentro de locais no

levada em considerao. Este fato pode conduzir seleo de maior nmero de

indivduos nos blocos, mais variveis fenotipicamente, o que incorreto quando

na verdade a herdabilidade nesses blocos no superior (RESENDE, 2007).

Na prtica, os componentes de varincia devem ser estimados com a

maior preciso possvel, empregando-se o procedimento padro no contexto dos

modelos lineares mistos, que o da mxima verossimilhana restrita (REML),

19

conforme Searle, Casella e McCulloch (1992). Tal procedimento permite a

seleo de indivduos com os maiores valores genticos, independentemente de

sua procedncia, sendo esta a estratgia mais plausvel em termos seletivos, em

detrimento da seleo de procedncias (RESENDE, 2007).

O impacto da escolha do modelo na predio dos efeitos G x E tem sido

considerado por Crossa et al. (2006), Kelly et al. (2007) e Piepho (1998), onde

as tcnicas de validao cruzada em cinco conjuntos de dados MET foram

utilizados para comparar BLUPs baseado em uma gama de modelos, em termos

da sua preciso preditiva para "preencher" as clulas na tabela G x E. Os

modelos considerados incluem fator analtico (FA), e modelos de varincia no

estruturadas (UN). Kelly et al. (2007) e Piepho (1998) concluram que a preciso

de previso BLUPs a partir dos modelos de FA foi superior do modelo

uniforme, mas os resultados tambm parecem indicar que eles so geralmente

inferiores dos modelos de varincia no-estruturada. Note-se que para o

modelo FA no Piepho (1998), uma varincia comum foi assumida pela falta

ajuste, enquanto Smith, Cullis e Thompson (2001) permitiu uma separao (a

chamada especificao) de varincia para cada ensaio.

2.5 Interao Gentipo x Ambiente (G x E)

Os experimentos multi-locais ou multiambientes (MET) so um tipo

especial de experimentos, muito usados em melhoramento gentico de plantas,

nos quais alguns gentipos so avaliados em diferentes locais. Nesses estudos

comum encontrar-se uma resposta diferenciada na resposta dos gentipos aos

diferentes ambientes, que recebe o nome de interao gentipo x ambientes ou G

x E.

Na presena da interao, os resultados das avaliaes podem variar de

um ambiente para o outro, ocasionando mudanas na posio relativa dos

gentipos ou mesmo na magnitude das suas diferenas.

Para Santos (2009) e Vencovsky e Barriga (1992) muito importante o

conhecimento da interao G x E, seja do tipo gentipos x locais ou gentipos x

20

anos ou outros, pois estes orientam o planejamento e adoo de estratgias do

melhoramento e recomendao de cultivares, alm de ser determinante na

estabilidade fenotpica dos gentipos para uma regio.

O conhecimento da interao G x E de extrema importncia nos

programas de melhoramento, pois o seu conhecimento permite a seleo de

gentipos com ampla adaptao ou especfica, escolher o local da seleo e

determinar o nmero ideal de ambientes e gentipos para seleo (FOX;

CROSSA; ROMAGOSA, 1997; SANTOS, 2009).

a) A interao G x E

O carter de um indivduo o conjunto de informaes biolgicas que o

identifica. As diferentes manifestaes de um dado carter definem o fentipo

(F). O fentipo por sua vez, influenciado pelo gentipo (G), que a

constituio gentica de um indivduo, e pelo ambiente (E) que pode ser

definido como o conjunto das condies que afetam o crescimento e

desenvolvimento do organismo (RAMALHO et al., 2012).

O F funo do G, do E e da interao G x E. Esse ltimo componente

ocorre devido diferenciao do comportamento dos gentipos nos vrios

ambientes de cultivo.

No processo de avaliao e desenvolvimento de cultivares, o

conhecimento da interao G x E de grande importncia para a seleo e/ou

indicao dos cultivares para os diferentes ambientes de cultivo.

A existncia ou no da interao G x E est representada nas Figuras 1,

2 e 3, onde esto exemplificadas quatro situaes de respostas das cultivares as

condies ambientais. Na Figura 1 os gentipos apresentam desempenhos

relativos semelhantes nos dois ambientes (E1 e E2). Portanto, no h interao e

a recomendao do melhor gentipo a mesma para os dois ambientes.

21

Figura 1 Comportamento de dois gentipos (G1 e G2) em duas condies

ambientais (E1 e E2) com ausncia de interao

Na Figura 2 o desempenho relativo dos dois gentipos (G1 e G2)

diferente nos dois ambientes, pois o G1 tem resposta mais acentuada melhoria

do ambiente, considerando-se o E2 melhor do que El. Neste caso ocorre

interao. No entanto, no um grande problema, porque a classificao dos

gentipos nos dois ambientes no alterada e, por esta razo, denominada de

interao simples. Os dois gentipos podero ser recomendados para os dois

ambientes ou ser recomendado somente o melhor gentipo no caso de a

diferena ser suficientemente grande para tal.

Figura 2 Comportamento de dois gentipos (G1 e G2) em duas condies ambientais (E1 e E2) com interao simples ou quantitativa

Na Figura 3 (a e b) observa-se uma inverso de comportamento das

cultivares nos dois ambientes. O G1 foi superior no El e inferior no E2 (figura

3a). Esta corresponde a uma situao de interao complexa (cruzada ou

22

qualitativa), onde normalmente, existe um gentipo mais adaptado para cada

ambiente especfico. Nessa Figura 3 pode-se observar que o G1 mais indicado

para o El e o G2 para o E2.

(a) (b)

Figura 3 Comportamento de dois gentipos (G1 e G2) em duas condies ambientais (E1 e E2) com interao cruzada ou qualitativa

As respostas diferenciadas dos gentipos s variaes ambientais tais

como, oscilao de temperatura, altitude, ocorrncia de doenas, tipo e

fertilidade do solo, entre outras, so atribudas s diferentes constituies

genotpicas de cada material, que conferem maior ou menor adaptabilidade e

estabilidade de produo.

Quando se consideram vrios gentipos avaliados em vrios ambientes,

a combinao de situaes como as das Figuras 1, 2 e 3 formam um emaranhado

de situaes, difcil de ser interpretado, exigindo mtodos adequados de anlise

da interao G x E.

Existe uma concordncia geral entre melhoristas de plantas de que a

interao G x E tem um importante significado para a obteno de variedades

superiores. Porque a existncia da mesma produz uma barreira de dificuldades

aos melhoristas na identificao de gentipos superiores, tanto no processo de

23

seleo, quanto no processo de recomendao de cultivares. Essa interao

indica que o comportamento dos gentipos nos experimentos depende

principalmente das condies ambientais a que so submetidos. Assim, a

resposta obtida de um gentipo, em comparao a outro, varivel, sendo que

essas variaes se apresentam devido mudana de ambientes (ARAJO;

DIAS, 2006).

b) Adaptabilidade e estabilidade

A presena da interao G x E interfere de forma intensa nos programas

de melhoramento, pois em uma situao ideal as cultivares deveriam possuir

adaptabilidade a vrios ambientes e terem boa estabilidade. Porm, o fator

interao faz com que, na maioria das vezes, as cultivares sejam indicadas a

ambientes especficos, por possurem maior adaptabilidade em algumas

condies ambientais (CAMPBELL; JONES, 2005). O termo adaptabilidade

refere-se capacidade dos gentipos responderem de forma positiva ao estmulo

do ambiente, enquanto a estabilidade refere-se capacidade dos gentipos

desempenharem um comportamento previsvel em funo do estmulo do

ambiente (CRUZ; REGAZZI; CARNEIRO, 2004).

A conduo de experimentos em vrios locais necessria para a

quantificao da interao G x E. Os estudos dos parmetros de adaptabilidade e

estabilidade fenotpica dos gentipos tm sido de grande contribuio nesse

aspecto, pois fornecem informaes sobre o comportamento de cada gentipo

em vrias condies ambientais (CRUZ; REGAZZI; CARNEIRO, 2004).

Diferentes metodologias para avaliar a adaptabilidade e a estabilidade

tm sido desenvolvidas e/ou aprimoradas. Tais procedimentos se baseiam em

anlises de varincia, regresso linear, regresso no linear, anlise multivariada

e estatstica no paramtrica (CROSSA, 1990).

Na prtica, os programas de melhoramento gentico envolvem, pelo

menos, trs etapas: escolha dos parentais que daro origem populao base;

24

seleo das prognies superiores dessa populao; e sua avaliao em um grande

nmero de ambientes.

Quando se avaliam materiais geneticamente distintos, em uma srie de

ambientes, o componente interao G x E aparece, normalmente, afetando o

ganho com a seleo (MAIA et al., 2009).

Adaptaes especficas de gentipos a ambientes, de acordo com Gauch

e Zobel (1996), podem fazer a diferena entre uma boa e uma excelente cultivar.

Pela mesma razo, sob o ponto de vista de recursos genticos, a explorao

dessa interao interessante para manter a variabilidade gentica da espcie.

Contudo, para que seja possvel tirar proveito desses efeitos positivos, de acordo

com Duarte e Zimmermam (1995), preciso se dispor de metodologias

estatsticas adequadas para se estimar e explorar a interao, permitindo, assim,

recomendaes regionalizadas.

Resende (2004) salienta que um modelo multivariado, considerando-se

todos os locais simultaneamente, adequado para a seleo, tendo como alvo a

produtividade mdia ao longo de todos os ambientes. No entanto, para o mesmo

autor, um modelo mais completo pode permitir inferncias adicionais, tais como:

seleo de gentipos especficos para cada local; seleo de gentipos estveis

por meio dos locais; seleo de gentipos responsivos (com alta adaptabilidade)

melhoria do ambiente; e seleo pelos trs atributos (produtividade,

estabilidade e adaptabilidade). Simultaneamente, esse tipo de seleo pode ser

realizado pelo mtodo da mdia harmnica da performance relativa dos valores

genticos (MHPRVG), que classifica os efeitos genotpicos como aleatrios e,

portanto, fornece estabilidade e adaptabilidade genotpica e no fenotpica.

Existem atualmente vrias metodologias de anlise de adaptabilidade e

estabilidade citadas na literatura. Cargnelutti Filho et al. (2009) classificaram

essas metodologias em:

1) as que so baseadas em anlise de varincia e do informao sobre a

estabilidade dos gentipos avaliados;

25

2) aquelas que usam a regresso linear e informam sobre a

adaptabilidade e a estabilidade dos gentipos;

3) as que se baseiam na regresso bissegmentada no-linear e linear;

4) as de estatsticas no-paramtricas, e

5) as que analisam os efeitos principais aditivos e a interao

multiplicativa (AMMI).

Todas elas do informaes importantes. No entanto, so limitadas

quando se tem dados desbalanceados, delineamentos experimentais no

ortogonais e heterogeneidade de varincias entre os locais onde so conduzidos

os ensaios (RESENDE, 2004).

d) Mtodos estatsticos para estudo da interao G x E

A existncia de interao G x E tm sido reconhecidas h muito tempo

de acordo com Freeman e Perkins (1971), sendo a referncia mais antiga feita

por Fisher e Mackenzie em 1923. Desde ento, muitos trabalhos tm sido feitos

para anlises estatsticas da interao gentipos x ambientes, seja por

estatsticos, agrnomos, melhoristas e geneticistas (ARAJO; DIAS, 2006).

A anlise de varincia conjunta o mtodo mais comum para identificar

a existncia de interao G x E a partir de ensaios MET. Se a interao G x E for

significativa, um ou mais dos vrios mtodos paramedir estabilidade de

gentipos pode ser usado para identificar gentipos estveis.

Existem vrios mtodos para a anlise da interao G x E, os quais

podem ser classificados em quatro grupos: a anlise de componentes de

varincia, anlise de estabilidade, mtodos multivariados e mtodos qualitativos.

A seguir sero descritos alguns desses mtodos.

i. Anlise de varincia convencional

A anlise conjunta de experimentos de grande interesse, em

especial, para os melhoristas, porque as estimativas de componentes de

26

varincia em experimentos conduzidos em nico ambiente costumam ser

superestimadas, pois o fator ambiente costuma influenciar nesses casos.

Desta forma vrios autores vm destacando a importncia do estudo do

componente da interao G x E (CROSSA, 1990).

Para avaliar a importncia e a magnitude das interaes podem ser

utilizados mtodos de anlise de varincia. Uma das formas seria a anlise

de varincia conjunta em blocos casualizados.

A anlise de varincia conjunta dos dados observados (ijky ), que

pode ser o rendimento do gentipo i no ambiente j no bloco k, executada

considerando-se o modelo estatstico:

( ) ( )ijk k j i j ij ijky b g e gem e= + + + + + , (10)

em que

m : uma constante inerente a cada observao;

( )k jb : o efeito do k-simo bloco dentro j-simo ambiente;

ig : o efeito do i-simo gentipo;

je : o efeito do j-simo ambiente;

( )ijge : o efeito da interao do i-simo gentipo com o j-simo

ambiente;

ijke : erro experimental associado ao i-simo gentipo, no j-simo

ambiente e no k-simo bloco, com 2~ (0; )ijk Ne s .

A interao no aditiva, conforme definido em (16) implica que o valor

esperado do i-simo gentipo no ambiente j (Yij) depende no apenas dos nveis

de G separadamente, mas tambm na combinao particular de nveis de G e E

(CROSSA, 1990).

A principal limitao dessa anlise que as varincias dos erros nos

ambientes devem ser homogneas para testar diferenas genotpicas. Se as

varincias dos erros so heterogneas, essa anlise est sujeita a crticas, como a

27

de que o teste F dos quadrados mdios de G x E contra as variaes de erro

apresenta vis para resultados significativos (CROSSA, 1990).

Um teste correto para a significncia realizado ponderando-se cada

gentipo com o inverso da sua varincia residual estimada. Essa anlise

ponderada atribui menos pesos para ambientes que tm um quadrado mdio

residual elevado. Uma desvantagem da anlise ponderada que os pesos podem

ser correlacionados com as respostas do rendimento no ambiente. Assim, pode

ocorrer, por exemplo, que ambientes com rendimento elevado apresentem maior

varincia do erro e ambientes com baixos rendimentos apresentem varincias de

erro reduzidas, o que pode mascarar o verdadeiro desempenho de alguns

gentipos em certos ambientes (CROSSA, 1990).

Uma das principais deficincias da anlise de varincia conjunta de

ensaios multi-locais que ela no explora qualquer estrutura subjacente dentro

da observao no-aditiva G x E (CROSSA, 1990).

Com a anlise de varincia no se consegue determinar o padro de

resposta de gentipos e ambientes. As valiosas informaes contidas nos (G-1)

(E-1) graus de liberdade so perdidas, principalmente se for feita sem uma

anlise mais aprofundada.

A anlise de varincia dos ensaios multi-locais til para estimar

componentes de varincia relacionadas com diferentes fontes de variao,

incluindo gentipos e G x E.

Em geral, a metodologia de componentes de varincia importante em

ensaios multi-locais, desde erros na mensurao do desempenho produtivo de

um gentipo que surgem em grande parte da interao G x E. Portanto, o

conhecimento da magnitude dessa interao necessrio para: (a) obter

estimativas eficientes dos efeitos genotpicos e (b) determinar recurso ideal

alocar, como o nmero de parcelas e os locais a serem includos em estudos

futuros.

28

ii. Metodologia AMMI (additive main effects and multiplicative

interaction)

O mtodo AMMI surge com a finalidade de estudar detalhadamente as

interaes (G x E) por meio da decomposio ortogonal da soma de quadrados

das interaes, fato que o torna vantajoso se comparado aos mtodos

tradicionais. Alm disso, esse mtodo apresenta uma boa capacidade preditiva.

A anlise AMMI uma combinao de mtodos univariados (anlise de

varincia) com mtodos multivariados (anlise de componentes principais e

decomposio por valores singulares). Nesse modelo, por meio de uma anlise

grfica, em biplot, busca-se identificar, simultaneamente, padres de interao

para gentipos e ambientes.

Esta combina em um nico modelo, componentes aditivos para os

efeitos principais de gentipos ig e de ambientes je , e componentes

multiplicativos ij(ge) para os efeitos da interao (ZOBEL; WRIGHT;

GAUCH, 1988).

Assim, a resposta mdia de um gentipo i num ambiente j dada por:

n

ij i j n ik jk ij ijk=1

y =+g +e + + + ; 1, 2,e ... 1, 2,...i G e j E= = , (11)

ijcom (ge) modelado por:

1

n

k ik jk ij

k

l g a d=

+ , (12)

em que

ijy : a mdia da produo do gentipo i no ambiente j,

m : uma constante inerente a cada observao;

ig : o efeito do gentipo i;

je o efeito do ambiente j,

nl : o n-simo valor singular de ge (escalar);

29

Logo, ikg e jka so os elementos relacionados ao gentipo i e ao

ambiente j dos vetores singulares k e k, respectivamente.

O ndice k (k= 1,2,..., n); em que:

{ } 1, 1 ,p min G E= - - (13)

o posto de ge, tomado at n no somatrio (n

30

k : a raiz quadrada do k-simo autovalor das matrizes (GE)(GE) e

(GE)(GE) (de iguais autovalores no nulos) 2kl o k-simo autovalor;

ik: o i-simo elemento (relacionado ao gentipo i) do k-simo

autovetor de (GE)(GE) associado a 2kl ; e jk: o j-simo elemento

(relacionado ao ambiente j) do k-simo autovetor de (GE)(GE) associado a 2kl .

Note-se que o termo (ge)ij (interao no modelo tradicional) agora

descrito como uma soma de p parcelas, cada uma resultante da multiplicao de

k , expresso na mesma unidade de Yij, por um efeito genotpico (ik) e um efeito

ambiental ( jka ), ambos adimensionais. O termo kl traz uma informao

relativa variao devida interao G x E, na k-sima parcela. De forma que a

soma das p parcelas recompem toda a variao ( 2

1

p

GxE k

k

SQ l=

= ). Os efeitos

ik e jk representam pesos para o gentipo i e para o ambiente j, naquela

parcela da interao 2kl .

Entretanto, pela abordagem AMMI no se busca recuperar toda a SQG x

E, mas apenas a parcela mais fortemente determinada por gentipos e ambientes

(linhas e colunas da matriz GE), ou seja: o padro (parte determinstica ou

sistemtica). Assim, a interao do gentipo i com o

ambiente j descrita por: 1

n

k ik jk

k

l g a= , descartando-se o resduo adicional ij

dado por: 1

p

k ik jk

k n

l g a= + .

Como em ACP (Anlise de Componentes Principais), estes eixos

captam, sucessivamente, pores cada vez menores da variao presente na

matriz GE ( 2 2 21 2 ... pl l l ). Por isso, o mtodo AMMI visto como um

31

procedimento capaz de separar padro e rudo na anlise da 1

:n

GxE k ik jk

k

SQ l g a=

e 1

p

k ik jk

k n

l g a= + , respectivamente (DUARTE; VENCOVSKY, 1999).

iii. Anlise de fatores sob modelos multiplicativos mistos (FAMM)

A anlise de grupos de experimentos ou de experimentos conduzidos em

mltiplos ambientes (MET) tem sido tradicionalmente baseada em modelos

simples, os quais assumem homogeneidade de varincia residual entre os

experimentos, independncia de erros dentro de ensaio, efeitos da interao G x

E como um grupo de efeitos aleatrios independentes.

A modelagem de efeitos da interao G x E para ensaios multi-

ambientes (METs) dentro de uma estrutura de modelo misto agora uma prtica

comum em muitos programas de melhoramento de plantas.

O modelo misto tradicional dado por:

y = Xb + Zu + e , (16)

em que

y : vetor de observaes;

b : vetor dos efeitos fixos, com matriz de incidncia X;

u : vetor dos efeitos aleatrios, com matriz de incidncia Z, ~u N(0, )

e : vetor de erros aleatrios, ~ ( , )e 0 R .

O modelo fator de analtico (FA) uma forma parcimoniosa usada para

aproximar a forma totalmente no estruturada da matriz de varincia-covarincia

gentica ( ) no modelo de dados MET (KELLY et al., 2007).

Uma extenso dos modelos mistos para incorporar a anlise de fatores

(modelo misto fator analtico) (FAMM) pode ser escrito como:

32

[ ]y=Xb+Z Lf+ +e , (17)

com [ ]u= Lf+ ,

em que

gL = I a matriz de cargas fatoriais;

f o vetor de escores fatoriais para os indivduos nos ambientes;

o vetor de erros representando a falta de ajuste do modelo fatorial.

Sob esse modelo, a matriz de covarincia gentica dada por

=+ , (18)

em que

=VD V , (19)

aD a matriz diagonal dos m autovalores e V a matriz dos autovetores.

Escolhendo-se V e Da referentes apenas dimenso m esse modelo misto

reduzido e ajusta somente os m fatores. Na tcnica FAMM, a estrutura de

covarincia simplificada para

p p= + , (20)

em que:2

p : a matriz dos carregamentos dos fatores nas variveis;

: a matriz diagonal de varincias especficas ( )iVar d (RESENDE;

THOMPSON, 2004).

A metodologia de modelos mistos padro pode ser usada para estimar

autovalores e autovetores diretamente sem a necessidade de se estimar

completa. A principal diferena para o modelo multivariado misto tradicional

refere-se ao fato de que os parmetros a serem estimados fazem parte da matriz

de incidncia dos efeitos genticos aleatrios. Como a distribuio de ] g[ I f

singular, isto conduz estimao sob posto reduzido, restries devem ser

33

impostas aos parmetros do modelo fator analtico (RESENDE, 2007). Uma

maior aplicao dos modelos fator analticos mistos na anlise de

experimentos multi-ambientes no estudo da interao G x E (j discutido em

2.6), e torna-se melhor nessa anlise por reunir em um s mtodo os

procedimentos de anlise multivariada, anlise de adaptabilidade e estabilidade e

modelos mistos.

Uma caracterstica fundamental do modelo de FA para os dados MET

a capacidade de generalizao da estrutura de varincia associado para efeitos G

x E, seja no ambiente ou na dimenso do gentipo. O modelo de varincia mais

geral, e, por conseguinte, o modelo que ir proporcionar o melhor ajuste (no

sentido de probabilidade) para os dados, uma matriz no-estruturada (SMITH;

CULLIS; THOMPSON, 2005).

Smith, Cullis e Thompson (2001) utilizam o modelo FA neste contexto

em que a anlise foi motivada pela abordagem da gentica quantitativa para

interao G x E, como explicado no Falconer e Mackay (1996). Falconer e

Mackay (1996) em Smith, Cullis e Thompson (2005) afirmam que

o conceito de correlao gentica pode ser aplicado soluo de alguns problemas relacionados com a interao gentipo e ambiente [...] um carter medido em dois ambientes diferentes deve ser considerado no como um personagem, mas como dois [...] Se a correlao gentica entre eles elevada, o desempenho em dois ambientes diferentes representa quase o mesmo carcter [...] Se for baixa, ento os caracteres so, em grande medida diferente.

Assim, Smith, Cullis e Thompson (2001) utilizam um modelo de FA

para aproximar uma matriz no-estruturada para a dimenso do ambiente de

( )(isto , a matriz de varincias e covarincias entre ambientes) (SMITH;

CULLIS; THOMPSON, 2005). Kelly et al. (2007), utilizando a abordagem de

Smith, Cullis e Thompson (2001, 2005), demonstraram que o modelo FA

geralmente o melhor modelo para o ajuste de uma srie de conjuntos de dados

em estudos iniciais de um programa de melhoramento. Alm disso, demonstram

a superioridade do modelo de FA em conseguir o objetivo mais comum de

MET, nomeadamente a seleo de gentipos superiores, por meio do uso dos

34

melhores preditores lineares no viesados (BLUPs) de efeitos de gentipo em

cada ambiente, considerados individualmente ou como uma mdia ponderada

entre ambientes.

Os modelos FAMM propiciam uma abordagem realstica completa para

anlise de dados de mltiplos experimentos.

Apesar de as recomendaes de Piepho (1997, 1998) e Smith, Cullis e

Thompson (2001), os modelos de FA no so amplamente utilizados fora da

Austrlia para a anlise regular de dados MET (KELLY et al., 2007).

2.6 Estrutura Fator Analtica

Um mtodo associado avaliao de vrios tratamentos ou gentipos e

vrios ambientes dado em (10).

O efeito da constante fixo, o efeito do ambiente pode ser considerado

fixo ou aleatrio e os demais efeitos so considerados como aleatrios. Um

modelo referente aos efeitos aleatrios em cada ambiente pode ser representado

por:

ijk ij j ijkY g em e= + + + (21)

em que:

m : uma constante inerente a cada observao;

ijg : o efeito do i-simo gentipo;

je : o efeito do j-simo ambiente;

ijke : erro experimental associado ao i-simo gentipo, no j-simo

ambiente e no k-simo bloco, com 2~ (0; )ijk Ne s .

Na anlise de experimentos multi-ambientes (MET), o uso da anlise de

fatores pode propiciar uma classe de estruturas para a matriz de varincia e

covarincia G0 , associada aos efeitos gij. O modelo de anlise postulado em

termos de efeitos genotpicos no observveis em diferentes ambientes:

35

1

k

ij jr ir ij

r

g fl d=

= + , (22)

em que

gij : efeito do gentipo i no ambiente j;

jrl : carregamento do fator r no ambiente j;

irf : escore para o gentipo i no fator r;

ijd : erro representando a falta de ajuste do modelo.

O modelo FA apresentado com base em Resende e Thompson (2004) e

Smith, Cullis e Thompson (2001, 2005). Aplicado a G gentipos e E ambientes,

o modelo de fator analtico postula dependncia em um conjunto de fatores

hipotticos aleatrios ( 1) , ( 1... )gxrf r k s= < . Em notao vetorial, o modelo de

anlise de fatores para estes efeitos em diferentes ambientes :

1 1( ) ... ( )s g k g ku I f I fl l d= + + + (23)

Onde:

( 1)sxrl : Cargas ou pesos dos fatores nos ambientes; ( ) 1gs xd : vetor de resduos ou a falta de ajuste para o modelo (tambm

chamado de vetor de fatores especfico).

De um modo compacto, o modelo :

1( )s gu I fl d= + (24)

em que :

( )1[ ... ]

sxkkl lL =

( 1) 1 2( , ... )

gkxkf f f f=

A distribuio conjunta de f e d dada por:

36

00~ , ,0 0k g

g

I IfN

Id Y

em que:

1( ... )pdiag y yY = ;

iy varincia especfica para o i-simo ensaio.

A matriz de varincia para efeitos de gentipos nos ambientes dada por

var( ) ( ) var( )( var( ) ( )s g g gu I f I Id= L L + = LL +Y (25)

O modelo para efeitos de gentipos em cada ambiente conduz a um

modelo de G em que:

2

1

k

g ij jr j

i

s l y=

= + : varincia genotpica em ambiente j;

1

k

g ij jr j r

i

s l l=

= : covarincia genotpica entre ambientes j e j ';

2 2 1/2

1 1 1

/ [( )( )]k k k

g ij jr j r jr j j r j

i i i

r l l l y l y= = =

= + + : correlao

genotpica entre os ambientes j e j '

A equao (24) para su tem a forma de uma regresso (aleatria) em k

covariveis ambiental 1... kl l , na qual todas as regresses passam pela origem.

Pode ser mais apropriado para permitir que o intercepto (no-zero) separado

para cada gentipo. Isto equivalente ao modelo com efeitos de gentipos

principais, gu e um modelo fator analtico k para interao G x E. Em seguida, a

expresso de gu torna-se:

( ) ( ) ( ) 1 I 1 +g f (26)g s g s g gu g ge I g I d= + = L + .

Vetor g tem mdia zero e varincia 2g Id ou

2gd A , onde A uma

matriz de correlao gentica ou de parantesco. O modelo pode ser escrito

como:

37

( ) ( ) ( )0 1 I f f f + (27)g gg g s gg gI Iu s d d= L L++ = em que:

( 1)

0 0[ 1 ]; / ; ( ) (28)s kg g s g gf g f f fs s

+L = L = =

Assim estimao BLUEs dos efeitos fixos dada por:

1 1 1 ( ) b X V X X V y- - -= (29)

em que 1 1V ZR Z- -= +S partindo de (10).

Para o modelo fator-analtico, os BLUPs dos escores dos f e resduos

para cada ambiente podem ser obtidos em termos de gu como:

1[ ( ) ]g gf I u-= L LL +Y f [ ([ ([ ( g gug gg g (30)

1[ ( ) ]g gI ud-= Y LL +Y [ (d = [ ([ ( g gug gg g (31)

Assim, o modelo com efeitos principais de gentipos e um modelo de

fator analtico de ordem k para interaes G x E um caso especial de um

modelo fator analtico de ordem (k +1) efeitos de gentipos de anlise em cada

ambiente, em que as primeiras cargas so restringidas a ser iguais. A

caracterstica que distingue as equaes para g, dos problemas de padro e de

regresso aleatria multivariada que ambas as co-variveis e os coeficientes de

regresso so desconhecidos e, por conseguinte, deve ser calculado a partir dos

dados. O modelo ento multiplicativo de coeficientes genotpicos e ambientais

(conhecido como cargas e escores fatoriais, respectivamente). Aqui reside a

analogia com modelos AMMI. No entanto, uma diferena fundamental que o

modelo multiplicativo na equao para sg acomoda efeitos aleatrios, enquanto

AMMI um modelo de efeitos fixos. Modelos FAMM so tambm chamados

AMMI aleatrios (RESENDE, 2007).

38

2. 7 Seleo dos modelos FAMM

O objetivo do modelo fator-analtico para efeitos G E explicar as

covarincias genticas entre os E ambientes em termos de um nmero muito

menor de k fatores (desconhecido) 1,..., kf f .

Segundo Resende e Thompson (2004) e Smith, Cullis e Thompson

(2001) a adequao dos modelos FAMM de vrias ordens k pode ser

formalmente testado, uma vez que so ajustados via abordagem de modelos

mistos. O modelo com k fatores, denotada FAK, hierrquico dentro do modelo

com k+1 fatores. Modelos, incluindo o efeito principal do gentipo (g) so

intermedirios entre os modelos de anlise de fator de ordem k (FAK) e de

ordem FAK +1. Modelo FA1+g intermdio entre os modelos FA1 e FA2.

Testes de razo de mxima verossimilhana restrita (REMLLRT) podem ser

utilizados para a comparao de tais modelos. Outras abordagens para testar o

ajuste de modelos de fatores analticos envolvem comparaes com a matriz de

covarincia no estruturada, o qual muito difcil de obter, com um grande

nmero de ambientes (MARDIA et al., 1988).

2.8 Algoritmos utilizados na estimao de componentes de varincia em

modelos FAMM utilizando REML

No modelo proposto por Smith, Cullis e Thompson (2001), dado em

(28), para calcular as estimativas dos efeitos fixos e aleatrios, exigem-se

estimativas dos parmetros e R. Em termos do modelo fator-analtico, os

parmetros de varincia associados so e . As estimativas dos

componentes de varincia, so obtidas utilizando o mtodo de REML

(PATTERSON; THOMPSON, 1971). Smith, Cullis e Thompson (2001) usaram

um algoritmo de escores conhecido como o algoritmo Informao Mdia (AI)

(GILMOUR; THOMPSON; CULLIS, 1995) para a obteno dos componentes

de varincia FA. Este um algoritmo de escores de Fisher modificado, no qual

39

a matriz de informao esperada substituda por uma mdia aproximada das

matrizes de informao observadas e esperadas. O software mais utilizado para

estimao dos parmetros de varincia, via mxima verossimilhana restrita

(REML), desses modelos o pacote ASReml (GILMOUR et al., 2002).

Em termos de componentes de varincia FA, a implementao original

no pacote ASReml em l baseou-se no algoritmo proposto por Smith, Cullis e

Thompson (2001), que no explora o modelo de regresso em que acomoda o

modelo FA. Por conseguinte, as equaes do modelo misto so relativamente

densas, reduzindo seriamente a velocidade computacional das anlises para

conjuntos de dados com um grande nmero de ambientes ou quando se ajusta a

varincia de modelos fator analticos com vrios fatores (THOMPSON et al.,

2003).

O outro problema prtico com o modelo FA a ocorrncia frequente dos

casos Heywood (SMITH; CULLIS; THOMPSON, 2001). Nestes casos, uma ou

mais varincia especficas tendem a zero, o que implica que a matriz de

varincias para os efeitos de interao gentipo x ambiente de posto

incompleto (doravante denominado de posto reduzido (varincia) do modelo).

Esse problema ocorre s vezes em aplicaes multivariados e difcil garantir

que as estimativas REML dos parmetros de varincia dos modelos de varincia

complexos, tais como o modelo de varincia desestruturada, permaneam dentro

do espao paramtrico. No caso desestruturado pode haver uma vantagem na

montagem de um modelo de varincia que envolve uma matriz que no de

posto completo, por meio da decomposio de Cholesky. Isto equivalente ao

modelo de varincia de posto reduzido para os gentipos em cada ambiente

(THOMPSON et al., 2003).

Para resolver os problemas encontrados na implementao dos modelos

com estrutura FA, Thompson et al. (2003) propuseram o uso do algoritmo AI

modificado para a estimativas REML de posto reduzido (RR) ou os

componentes de varincia FA.

40

2.8.1 Alternativas de estimao computacional do modelo FA

Teoricamente, um modelo com estrutura de matriz e covarincia no

estruturada (UN) seria o modelo de varincia mais completo para encaixar os

efeitos de n procedncias em cada um dos q ensaios considerados, pois est trata

os vrios locais como se fossem diferentes caracteres. No entanto, o nmero de

parmetros a ser estimado na matriz UN ( 1) / 2q q + e assim o processo de

estimao pode se tornar instvel com o aumento de q devido a uma super

parametrizao do modelo (SILVA et al., 2009; SMITH; CULLIS;

THOMPSON, 2001; THOMPSON et al., 2003). Esse modelo contempla tanto a

heterogeneidade de varincias quanto a covarincia entre locais. No entanto,

essa modelagem a mais complexa possvel e, com grande nmero de

ambientes, impraticvel devido necessidade de estimao de um grande

nmero de parmetros e a dificuldade de convergncia da anlise (RESENDE,

2007).

Silva et al. (2009) no verificaram a convergncia do modelo quando

usaram a matriz de covarincia UN completa para anlise univariada de cada

caractere. No entanto, na busca de modelos parcimoniosos para modelar os

efeitos de ug fizeram uma anlise conjunta (multivariada) de todos os caracteres

usando um modelo multiplicativo associado com a anlise fatorial com uma

aproximao forma UN onde verificaram a convergncia do modelo usando o

algoritmo AI (de informao-mdia). Apesar de garantir a convergncia usando

o procedimento proposto, o algoritmo AI pode conduzir a um modelo FA que

no de posto completo o que impe a restrio de que os elementos da matriz

de varincia especficas estejam dentro de espao paramtrico, que pode levar a

problemas de convergncia. Os mesmos autores verificaram que o algoritmo

proposto por Thompson et al. (2003) solucionou esses problemas, ajustando-se

diretamente a estrutura FA sem necessidade de aproximar a forma da matriz UN.

A abordagem do processo de estimao no modelo fator analtico

descrita em Smith, Cullis e Thompson (2001) so computacionalmente

intensivos. Um algoritmo alternativo que utiliza mtodos de matrizes esparsas

41

dado em Thompson et al. (2003). Este algoritmo foi proposto para reduzir o

tempo de computao. Ele tambm acomoda casos em que algumas (ou todas)

as varincias especficas precisam ser condicionadas a assumirem o valor zero,

conduzindo assim a uma estrutura de varincia que no seja de posto completo.

Segundo Smith, Cullis e Thompson (2002), as pesquisas em modelos fator-

analtico deveriam focar em alternativas para o algoritmo AI, em particular, no

EM (DEMPSTER; LAIRD; RUBIN, 1977) e mtodo de esperana-maximizao

com parmetros estendidos (PX-EM) (LIU; RUBIN; WU, 1998). Contudo, as

mesmas continuam sendo conduzidas usando esse algoritmo.

2.9 Dados faltantes (missing data)

Segundo McKnight et al. (2007, p. 2), de um modo geral, o termo

dados faltantes significa que est faltando algum tipo de informao sobre o

fenmeno em que estamos interessados. Normalmente, so observaes que

deveriam ter sido feitas, mas no foram por algum motivo. Quando isso

acontece, a capacidade de entender a natureza do fenmeno pode ser reduzida e

o impacto nos resultados dos estudos nem sempre so conhecidos, tornando-se

difcil extrair um conhecimento til a partir dos dados analisados (MCKNIGHT

et al., 2007; VERONEZE; FRANA; ZUBEN, 2011).

Litle e Rubin (2002) distinguem trs tipos de padres de dados faltantes:

falta informativa ou faltantes no ao acaso (MNAR- missing or missing not at

random), faltantes ao acaso (MAR- missing at random) e faltantes

completamente ao acaso (MCAR- missing completely at random).

MCAR- nesta situao, as observaes faltantes no so diferentes das

no faltantes em termos da anlise realizada. Neste caso, os faltantes surgiram de

maneira aleatria e, portanto, o nico problema gerado pelos dados faltantes a

perda de poder da anlise a ser realizada;

MAR- neste caso, os dados faltantes dependem das variveis

preenchidas e, portanto, podem ser totalmente explicadas pelas demais variveis

42

presentes no banco de dados. Logo, ao realizar o tratamento dos dados faltantes

de forma que sejam consideradas as informaes que causam os faltantes,

possvel realizar uma anlise no viesada. Neste, os dados faltantes so causados

por alguma varivel observada, disponvel para anlise e correlacionada com a

varivel que possui dados faltantes (GRAHAM et al., 1995).

MNAR- nesta situao os faltantes so gerados de forma no

mensurvel, ou seja, eles dependem de eventos que o pesquisador no consegue

observar e controlar. Este o caso mais grave, em que para tratamento dos dados

faltantes, em alguns casos, so necessrias tcnicas mais complicadas.

Os dados a partir de um indivduo podem ser subdivididos em dados

observados e ausentes. Se um padro de dados perdidos depende dos dados

observados, mas no sobre os dados em falta, o padro de dados em falta

MAR. Se depender de dados observados e perdidos informativo. Se for

independente, tanto dos dados observados e no observados, MCAR. MCAR

e, com a premissa adicional de seperabilidade, o padro MAR ignorada se

REML usado (FISCHER et al., 2009; VERBEKE; MOLENBERGHS, 2000).

Durante a seleo, os gentipos recm-criados so adicionados,

enquanto gentipos selecionados so descartados. Portanto, os dados de

melhoramento de plantas so quase sempre selecionados e desbalanceados. Isto

resulta em dados faltantes o que complica a anlise, por exemplo, na estimao

da Heredabilidade (FISCHER et al., 2009; PIEPHO; MHRING, 2007).

No melhoramento de plantas, o padro de dados em falta muitas vezes

informativo, devido falta de informao para decises de seleo ou falta de

informaes de pedigree. Os melhoristas costumam usar informaes de

pedigree durante concepo dos seus experimentos. comum que os gentipos

da mesma linhagem sejam testados no mesmo ensaio, muitas vezes lado a lado.

Se os testes de um conjunto de gentipos no foram realizados em cada local, a

informao pedigree influencia o padro de dados faltantes. Piepho e Mhring

(2006) mostraram que os dados em falta, devido seleo, podem ser ignorados,

se todos os dados utilizados para a seleo esto disponveis e so includos na

anlise.

43

2.10 Tcnica da elipse de confiana

Segundo Schofield e Breach (1972), elipse de confiana uma forma

conveniente de expressar graficamente a incerteza posicional de um ponto, e

sendo absoluta, fornece a medida de incerteza relativa do ponto analisado em

relao ao ponto fixo em estudo.

Esta tcnica do grfico da elipse de confiana mais utilizada para

verificar a compatibilidade entre os laboratrios, e baseada do mtodo de

Youden (CHUI et al., 2004). O planejamento experimental para a construo da

elipse de confiana prev a distribuio de um par de amostras semelhantes, no

necessariamente de concentraes iguais, porm de concentraes prximas. A

elipse construda para cada eixo simulado e representado por um ponto. As

retas que passam pelas mdias dos escores, em x (resultados relativos a uma das

simulaes) e em y (resultados relativos a outro escore fatorial), dividem o

diagrama em quadrantes. Pontos encontrados nos quadrantes; superior direito e

inferior esquerdo representam os escores que podem estar incorrendo em erros

sistemticos. Na prtica, quando somente erros aleatrios esto presentes, os

pontos devem estar distribudos de modo uniforme em todos os quadrantes. Se

os pontos se encontrarem mais concentrados nos quadrantes superior direito e

inferior esquerdo, isto interpretado como evidncia de ocorrncia de erros

sistemticos, ou seja, os escores tendem a obter valores altos ou baixos, em

ambas as amostras do par.

A elipse de confiana traada de tal modo que qualquer ponto tem a

mesma probabilidade de estar dentro da elipse e, em geral, estabelecido o grau

de 95% de confiana. Geralmente os pontos se situam dentro de uma elipse, cujo

eixo maior faz um ngulo de aproximadamente 450 com o eixo da horizontal.

Portanto a inclinao maior da elipse est prxima de +1 e a do eixo menor, de -

1. A disperso dos pontos ao longo do eixo maior est associada aos erros

sistemticos, enquanto que ao longo do eixo menor est associada aos erros

aleatrios (CHUI et al., 2004).

44

No caso em que os erros aleatrios podem ser considerados iguais, a

elipse estar posicionada no grfico com seu eixo maior a 45 em relao ao

eixo das abcissas. A disperso em torno do eixo menor da elipse representa

apenas os erros aleatrios, enquanto que a disperso ao longo do eixo maior

representa os erros sistemticos. Quando os erros aleatrios so ambos

pequenos, mas no necessariamente iguais em relao aos erros sistemticos, a

elipse de confiana apresentar-se- orientada com seu eixo maior a

aproximadamente 45, em relao ao eixo das abcissas, porm, com uma forma

mais alongada. Se os erros aleatrios das duas amostras forem bem diferentes, e

o erro sistemtico de uma delas se aproximar do erro aleatrio, a elipse de

confiana poder ter seu eixo maior entre 30 e 90, em relao ao eixo das

abcissas. Dependendo dos valores atribudos aos erros sistemticos e aos erros

aleatrios, o eixo maior pode at apresentar-se na horizontal, ou seja, a 0 com

relao ao eixo das abcissas (CHUI et al., 2004).

2.11 Elipses de confiana para predio

Vrias so as vantagens estatsticas e biolgicas dos modelos AMMI e

SREG (Sites Regression Analysis) mistos, como a capacidade de incorporar

informaes e flexibilidade para lidar com dados desbalanceados, sem a

necessidade de imputao dos dados em falta e heterogeneidade de varincia na

anlise de MET. No entanto, eles apresentam uma limitao pois no est claro

como regies de confiana assintticas paramtricas, construdas para modelos

de efeitos fixos (GOWER; DENIS, 1996), podem ser estendidas para modelos

de efeitos mistos (CROSSA et al., 2011a). Alm da teoria assinttica, regies de

confiana para os parmetros de interao do modelo AMMI tem sido propostas

utilizando procedimentos bootstrap (LAVORANTI, 2003; YANG et al., 2009) e

inferncia Bayesiana (CROSSA et al., 2011a). Entretanto, na literatura sobre a

anlise fatorial no encontramos nada formal escrito sobre inferncia para

escores fatorais. Crossa (2012) reconhece ser difcil propor intervalos de

confiana para os escores fatoriais. Neste contexto as elipses de confiana para

45

predio podem ser teis para representar as regies de confiana dos escores

fatoriais.

Uma elipse de confiana para predio uma regio de confiana para

predizer uma nova observao na populao. Tambm mostra onde uma

porcentagem especificada dos dados dever ficar.

Seja y e S a mdia e a matriz de covarincias de uma amostra aleatria

de tamanho n de uma distribuio normal bivariada com mdia y e 2 2S .

Considerando 2 1y como uma varivel aleatria bivariada para uma nova

observao e observando que a varivel 21

( ) ~ (0, (1 ) )y y Nn

- + S

independente de S , tem-se que uma elipse de confiana a 100(1 )%a- para

predio dada pela equao:

12, 2

2( 1)( 1)( ) ( ) (1 )

( 2) nn n

y y y y Fn n

a- -- +

- - = --

(35)

Segundo Dias (2012), a famlia de elipses gerada por diferentes valores

crticos F tem um centro comum, que a mdia amostral, e eixos maior e menor

comuns. Graficamente as elipses indicam a correlao entre as variveis.

Quando os eixos das variveis so padronizados (dividindo as variveis pelos

seus respectivos desvios padro), a razo dos dois comprimentos dos eixos (em

distncias Euclidianas) reflete a magnitude da correlao entre as duas variveis.

2.12 Validao cruzada

A validao cruzada uma tcnica para avaliar a capacidade de

generalizao de um modelo a partir de um conjunto de dados. Esta tcnica

amplamente empregada em problemas onde o objetivo da modelagem a

predio. Busca-se ento estimar o quo acurado este modelo na prtica, ou

seja, o seu desempenho para um novo conjunto de dados.

46

O conceito central das tcnicas de validao cruzada o particionamento

do conjunto de dados em subconjuntos mutuamente exclusivos, e

posteriormente, utilizar alguns desses subconjuntos para a estimao dos

parmetros do modelo (dados de treinamento) e outros subconjuntos (dados de

validao ou de teste) empregado na validao do modelo.

Diversas formas de realizar a validao cruzada foram sugeridas, sendo

as trs mais utilizadas o mtodo: holdout, k-fold e leave-one-out.

Para todos os mtodos de particionamento, citados acima e apresentados a

seguir, a acurcia final do modelo estimado obtido por:

,1 1

1 1( )

i i

v v

f y y i i

i i

Ac y yv v

e= =

= = - (32)

onde v o nmero de dados de validao e ,i iy ye o resduo dado pela

diferena entre o valor real da sada i e o valor predito. Com isso, pos