14
Análise de Covariância Paulo Henrique S. Guimarães Introdução Um dos grandes desafios de qualquer pesquisar no estudo de qualquer experimento é obter estimativas das médias dos tratamentos avaliados com a maior precisão possível. Uma maior precisão pode ser conseguida utilizando-se um maior número de repetições, porém isto nem sempre é viável, por questões econômicas, físicas e geralmente há um limite do número de repetições que podem ser utilizadas. Uma segunda alternativa para reduzir o erro padrão da média que é dado pelo desvio padrão amostral dividido pela raiz quadrada do número de repetições, é tentar diminuir o desvio padrão do resíduo ou erro experimental. Este, por sua vez, depende de uma série de fatores, como por exemplo, a heterogeneidade do solo, devido a problemas de adubação, fertilidade, irrigação, dentre vários outros. Uma parte deste erro é inerente à variabilidade entre parcelas, que pode ser reduzida pelo controle local. Entretanto, mesmo utilizando delineamentos que possibilitam um eficiente controle local, não é possível eliminá-lo por completo. Nesta situação esta heterogeneidade vai contribuir para aumentar a variância do

Análise de Covariância

Embed Size (px)

Citation preview

Page 1: Análise de Covariância

Análise de Covariância

Paulo Henrique S. Guimarães

Introdução

Um dos grandes desafios de qualquer pesquisar no estudo de qualquer

experimento é obter estimativas das médias dos tratamentos avaliados com a maior

precisão possível. Uma maior precisão pode ser conseguida utilizando-se um maior

número de repetições, porém isto nem sempre é viável, por questões econômicas, físicas

e geralmente há um limite do número de repetições que podem ser utilizadas. Uma

segunda alternativa para reduzir o erro padrão da média que é dado pelo desvio padrão

amostral dividido pela raiz quadrada do número de repetições, é tentar diminuir o desvio

padrão do resíduo ou erro experimental. Este, por sua vez, depende de uma série de

fatores, como por exemplo, a heterogeneidade do solo, devido a problemas de adubação,

fertilidade, irrigação, dentre vários outros. Uma parte deste erro é inerente à

variabilidade entre parcelas, que pode ser reduzida pelo controle local. Entretanto,

mesmo utilizando delineamentos que possibilitam um eficiente controle local, não é

possível eliminá-lo por completo. Nesta situação esta heterogeneidade vai contribuir

para aumentar a variância do erro e, consequentemente a precisão do experimento

conduzido será comprometida.

Uma alternativa interessante para tentar amenizar o problema da falta de

precisão do experimento poderia ser a utilização da covariância para tentar diminuí-lo,

por intermédio do ajustamento das médias em função das pequenas diferenças que

acontecem em certos fatores dentro do bloco. Para isto, é necessário medir a variável

adicional (denominada aqui de covariável) que pode estar linearmente relacionada à

variável de interesse do pesquisador no presente experimento. Desta forma é possível

proceder a uma análise de covariância ou ANCOVA, em que na maioria das suas

aplicações é o controle do erro experimental e ajustamento de médias dos tratamentos.

Page 2: Análise de Covariância

Análise de Covariância

A análise de covariância é uma técnica que tem por finalidade utilizar uma ou

mais variáveis auxiliares ou covariáveis (X) para complementar o controle local ou até

mesmo substituí-lo em alguns casos. Por exemplo, em um experimento de competição

de inseticidas para controle de uma praga de determinada cultura, podemos formar os

blocos de acordo com a infestação inicial das diferentes parcelas. As vezes não se

consegue formar blocos homogêneos e, então, pode-se utilizar os dados de infestação

inicial de cada parcela como uma variável auxiliar (covariável) na interpretação dos

dados de produção final.

A ANCOVA é usada para testar efeitos principais e de interações de variáveis

categóricas sobre uma variável dependente contínua, mediante controle dos efeitos de

outras variáveis contínuas (covariáveis) sobre a variável dependente. A estratégia da

ANCOVA consiste em gerar um modelo de regressão usando as covariáveis para

predizer a variável dependente e uma análise de variância sobre os resíduos da

regressão, para checar se as variáveis categóricas continuam significativamente

relacionadas à variável dependente, após remoção da variação devida às covariáveis

(WILDT e OLLI, 1978).

Nos modelos lineares quando as variáveis independentes são quantitativas, os

modelos lineares são denominados modelos de regressão; quando são qualitativas,

denominam-se modelos de análise de variância (ANOVA). Já quando existem varáveis

independentes quantitativas e qualitativas, os modelos são denominados modelos de

covariância (ANCOVA). O modelo de covariância é, na verdade, uma combinação das

técnicas de análise de variância e de análise de regressão.

Os modelos de covariância é uma instância dos modelos lineares em que

variáveis explicativas podem ser de natureza quantitativa e qualitativa. Os modelos de

covariância também devem atender a algumas suposições, tais como os modelos de

regressão tradicionais; são elas: (i) os erros devem ser aproximadamente normais e com

variância constante (homocedásticos); e (ii) o relacionamento entre as variáveis deve ser

linear. Deve-se, também, proceder com uma análise cuidadosa de outliers (ou valores

atípicos) com vistas a sua remoção do banco de dados, já que estes podem distorcer o

modelo final.

Page 3: Análise de Covariância

A análise de covariância será útil na condução de experimentos quando ajustar

médias de tratamentos para o valor que deveria ser obtido se caso não tivessem ocorrido

diferenças no valor da covariável e também na redução do erro experimental, o que

consequentemente implicaria no aumento da precisão para a comparação entre médias

dos tratamentos.

É importante ressaltar que a covariância só poderá ser usada se a covariável não

for afetada pelos tratamentos que estão sendo aplicados. Contudo, se for um

experimento de avaliação de níveis de fertilizantes utilizando apenas uma cultivar e

havendo diferenças na ocorrência do patógeno, é porque são devidas ao acaso. Neste

caso, pode-se reduzir a contribuição desta diferença via uma análise de covariância.

Steel e Torrie (1980) levantaram algumas suposições acerca do uso da análise de

covariância, em que citaram:

Os x’s são fixos, medidos sem o erro e independente dos tratamentos. Isto

implica que as inferências obtidas só se aplicam aqueles valores de x observados

naquele experimento. Eles devem ter sido obtidos com uma boa precisão. A condição de

independência dos tratamentos exige que os valores de x obtidos não sejam afetados

pelos tratamentos, como já mencionado várias vezes. A análise de variância do caráter x

fornece informação a este respeito;

A regressão de x e y, após a remoção das diferenças entre blocos e tratamentos, é

linear e independente dos tratamentos e blocos. Esta suposição implica que o efeito de x

é no sentido de aumentar ou de diminuir o valor de y por uma constante (b) multiplicada

pelo desvio . Assume-se, assim, que a regressão de x em y é estável. Isto fica

claro, pois não é colocado nenhum subscrito em b para se referir a um bloco ou

tratamento específico;

O resíduo é normalmente distribuído com média zero e variância comum. Esta

suposição é necessária para que a validade dos testes estatísticos seja confirmada.

Para exemplificar tudo que já foi dito acima e melhor entendimento dos

conceitos será apresentado uma aplicação da ANCOVA.

Aplicação – Análise de Covariância

Considere o exemplo de um ensaio de controle de pragas do feijoeiro, realizado

pelo engenheiro agrônomo João Ferreira Amaral citado por Pimentel - Gomes (2009).

Page 4: Análise de Covariância

Neste experimento, com 8 blocos casualizados, foram utilizados 5 tratamentos:

testemunha, Disyston, Ekatin, Keltane e Diazinon. Além da produção Y, em g/parcela,

determinou-se o número de plantas (stand) de cada parcela (X), como se vê na Tabela 1.

Código Latex – Está no final

Tabela 1 – Dados de produção (Y) e de número de plantas por parcela (X), em

ensaio de feijoeiro.

Testemunha Disyston Ekatin Keltane Diazinon Totais de blocos

1° bloco X 9 7 9 6 8 39

1° bloco Y 74 58 118 41 95 386

2° bloco X 9 8 9 9 8 43

2° bloco Y 51 67 48 38 41 245

3° bloco X 8 5 9 8 9 39

3° bloco Y 95 40 49 77 39 300

4° bloco X 9 8 9 9 9 44

4° bloco Y 62 58 64 92 114 390

5° bloco X 9 6 8 7 6 36

5° bloco Y 60 29 67 57 35 248

6° bloco X 9 8 8 7 8 40

6° bloco Y 47 64 51 77 49 288

7° bloco X 6 9 8 8 9 40

7° bloco Y 14 55 15 59 39 182

8° bloco X 8 8 9 8 9 42

8° bloco Y 19 47 29 32 100 227

Totais de tratamentos de X X 67 59 69 62 66 323

Totais de tratamentos de Y Y 422 418 441 473 512 2266

Código Latex está no outro arquivo.

Page 5: Análise de Covariância

Tabela 2 – Modelo de análise de Covariância entre as variáveis independentes x e

dependente y, considerando o delineamento em blocos casualizados.

FV GL

SP

xx

SP

xy

SP

Yy GL QMy

Blocos r - 1 Bxx Bxy Byy

Tratamentos t - 1 Txx Txy Tyy

Erro (r – 1) (t – 1) Exx Exy Eyy (r – 1) (t – 1) – 1 (1) Eyy - (Exy)/ Sxx

Tratamentos +

Erro ajustado

r(t – 1) Sxx Sxy Syy

r(t – 1) – 1

(2) Syy – (Sxy)/ Sxx

Trat. ajustado t – 1 (1) – (2)

O modelo estatístico a ser adotado nesta análise é:

, em que:

é a produção Y (feijão) – variável dependente, obtida no tratamento i e

bloco j;

é o efeito do tratamento (i = 1,2,3,4,5);

é o efeito de bloco j (j = 1,2, ..., 8);

é o coeficiente de regressão linear entre x e y;

é o número de plantas (feijões), variável independente, obtida no tratamento

i e bloco j;

é a média da variável independente x;

é o erro experimental.

Veja que no modelo, em relação ao que seria utilizado sem a covariância, isto é,

com b = 0, foi acrescentado somente . Este componente na análise sem

covariância é incluído no erro, diminuindo a precisão. Com a covariância,

especialmente quando há grande variação na covariável e os dois caracteres x e y estão

Page 6: Análise de Covariância

associados , reduz-se a estimativa do componente , melhorando a precisão

experimental.

Para começar a análise do experimento do controle de pragas do feijoeiro, pode-

se proceder da forma usual. Porém é preciso fazer cálculos análogos para os produtos

XY e para a variável X. Logo se tem:

Para tratamentos tem-se:

Page 7: Análise de Covariância

Calculando as estimativas do coeficiente de regressão (b estimado) e coeficiente

de correlação (r).

Soma de quadrados da regressão linear:

Soma de quadrados do resíduo ajustada para a regressão:

O quadrado residual é dado por:

Page 8: Análise de Covariância

Portanto:

A soma de quadrados (ajustada) para tratamentos será então:

com 4 graus de liberdade. O quadrado médio (ajustado) para tratamentos será:

FV

Somas de quadrados e produtos

GL SQ QM FGL y2 xy x2

Blocos 7 7.675,50 44,25 9,18

27 12.599,59 466,65

Tratamentos 4 776,10 12,43 8,16

Resíduo 28 15.931,50 302,37 27,44

Page 9: Análise de Covariância

Total 39 24.383,10 359,05 44,78

Trat. + Resíduo

Trat.(ajustado)

32 16.707,60 314,80 35,60 31

4

13.923,92

1.324,33 331,08

0,709

QMT(x) = 8,16 / 4 = 2,04.

Verifica-se, pois, não foi significativo o efeito de tratamentos, mesmo com o uso

da covariância, embora este tenha dado um valor de F mais elevado do que se obteria se

a aplicação (0,709 em lugar de 0,487).

As médias ajustadas para os tratamentos, encontradas pela fórmula

foram:

Tratamentos

Médias de tratamentos

Originais Ajustadas

Testemunha 52,250 7,375 59,96

Disyston 55,125 8,625 49,06

Ekatin 59,125 7,750 62,71

Keltane 64,000 8,250 62,07

Diazinon 52,750 8,375 49,44

O ajustamento das médias de tratamentos de acordo com os valores de X (stand)

só se justifica, em geral, se as diferenças de stand não são devidas aos próprios

tratamentos. Isto pode ser verificado por intermédio de uma análise de variância dos

valores de X, como na tabela abaixo:

FV GL SQ QM F

Blocos 7 9,18 1,31

2,08Tratamentos 4 8,16 2,04

Resíduos 28 27,44 0,98

Page 10: Análise de Covariância

Verifica-se ao nível de 5% de probabilidade (F = 2,71), que não é significativo o

valor observado.

Considerações Finais

A análise de covariância, apesar não ser muito utilizada pelos pesquisadores,

pode ser bastante útil em análises em que se busca reduzir o efeito residual do

experimento, devido a alta variabilidade entre parcelas, além tentar sanar o problema da

falta de uniformidade nas condições experimentais.

Referências

COCHRAN, W. G. Analysis of covariance: its nature and uses. Biometrics, 13: 261 – 81, 1957.

KEMPTHORNE, WALTER T. Experimental design. Nova York: Macmillan, 1995.

PIMENTEL – GOMES, F. A estatística moderna na pesquisa agropecuária. 3°ed. Piracicaba, SP: Potafós, 1987.

RAMALHO, M. A P.; FERREIRA, D. F., OLIVEIRA, A. C. Experimentação em genética e melhoramento de plantas. Lavras: Editora UFLA, 2000. 303p.

Steel, R.G.D., and J.H. Torrie. 1980. Principles and Procedures of Statistics: A Biometrical Approach (2nd Ed.). McGraw-Hill Inc., New York.

WILDT, Albert R; AHTOLA, Olli. Analysis of covariance. Beverly Hills: SAGE, 1978 93 p. (Sage university papers. Series: Quantitative applications in the social sciences ; 12).