Upload
lykhue
View
219
Download
1
Embed Size (px)
Citation preview
UNIVERSIDADE ESTADUAL PAULISTA JLIO DE MESQUITA FILHO FACULDADE DE CINCIAS AGRRIAS E VETERINRIAS
CAMPUS DE JABOTICABAL
MATERIAL DIDATICO DO CURSO
ESTATISTICA EXPERIMENTAL: Com aplicaoes em R.
Medicina Veterinaria 2 Semetre de 2012
e-mail: [email protected]
mailto:[email protected]
2
CAPITULO 1. INTRODUO AO CURSO; MEDIDAS DE POSIO; MEDIDAS DE DISPERSO.
1. SMBOLOS: CONJUNTO DE DADOS E DA SOMATRIA.
Conjunto de dados: Considere uma varivel aleatria de interesse representada pela letra maiscula Y e os valores especficos assumidos por esta varivel aleatria pelas letras minsculas y. Para distinguir um valor do outro, utilizamos um subscrito i. Por exemplo, nyyy ,...,, 21 . Em geral, um valor tpico da varivel aleatria ser designado por yi e o valor final desta amostra por yn, sendo que n representa o tamanho da amostra. Uma notao compacta para representar a soma de todos os valores de uma varivel aleatria de interesse, por exemplo, Y,
n
n
ii yyyy +++=
=
...211
A letra grega (sigma) usada como smbolo da soma para a soma e yi para o valor da observao i, denominado de sinal de soma, ser usado extensivamente neste curso. Alguns exemplos e propriedades da somatria: A soma de n nmeros nyyy ,...,, 21 pode ser expressa por
n
n
ii yyyy +++=
=
...211
A soma dos quadrados de n nmeros nyyy ,...,, 21 :
222
2
1
2 ... nin
ii yyyy +++=
=
A soma dos produtos de dois conjuntos de n nmeros nxxx ,...,, 21 e nyyy ,...,, 21 :
nn
n
iii yxyxyxyx ...2211
1++=
=
Exemplo: Considere um conjunto de 3 nmeros: 1, 3 e 6. Os nmeros so simbolizados por: .63,1 321 === yeyy A soma e a soma dos quadrados destes nmeros so:
106311
=++==
n
iiy 46631
222
1
2 =++==
n
iiy
Considere outro conjunto de nmeros .54,2 321 === xexx A soma dos produtos de x e y :
44)6)(5()3)(4()1)(2(3
1=++=
=iii yx
As trs principais regras da adio so:
3
1. A soma da adio de dois conjuntos de nmeros igual adio das somas
= = =
+=+n
i
n
i
n
iiiii yxyx
1 1 1)(
2. A soma dos produtos de uma constante k e uma varivel Y igual ao produto da constante pela soma dos valores da varivel (yi)
==
=n
ii
n
ii ykyk
11
3. A soma de n constantes com valor k igual ao produto kn
knkkkkn
i=+++=
=
...1
Ateno: notem que o clculo da expresso =
+++=n
ini yyyy
1
222
21
2 ... ,
denominada de soma de quadrados diferente do clculo da
expresso =
+++=n
ini yyyy
1
221
2 )...()( , quadrado da soma.
Outras notaes:
y+ = =
+++=n
1in21i yyyy ... , e n
y
nyy
n
1ii
=+ ==
Notao com dois subescritos. Considere dois grupos de dados
1. grupo controle: { 5, 7, 5, 4 } , o qual representado por { }4,5,7,5 14131211 ==== yyyy ,
2. grupo tratado: { 7 , 9 , 6 , 9 , 8 } , o qual representado por
{ }8,9,6,9,7 2524232221 ===== yyyyy ,
sendo, i =1, 2, representando os grupos e j = 1, 2,..., ri representando as repeties dentro de cada grupo.
Calcular o valor da expresso i
2
1i
2r
1jij
r
yi
= =
)(
Exemplo de Tabela de dupla entrada. Qualquer observao representada por yij , sendo que, o ndice i refere-se s linhas (i=1, 2,..., k) e o ndice j refere-se s colunas (j=1, 2, ..., r).
4
Colunas Linhas 1 2 3 ... j ... r TOTAL MDIA 1 y11 y12 y13 ... ... ... y1r y1+
+1y 2 y21 y22 y23 ... ... ... y2r y2+ .2+y 3 y31 y32 y33 ... ... ... y3r y3+
+3y . . . i . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
... yij . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. yj+ . . .
.
.
.
+jy . . .
k yk1 yk2 yk3 ... ... ... ykr yk+ +ky
TOTAL y+1 Y+2 y+3 ... y+j ... y+r y++ MDIA
1+y 2.+y 3+y ... jy+ ... ry+ ++y
geralmdiaaysobservaeastodasdesomageraltotaloylinhasimaidamdiaaylinhasimaidatotaloy
colunasimajdamdiaaycolunasimajdatotaloy
ii
jj
===
=
++++
++
++
);(;;
;;
2. MEDIDAS DE TENDNCIA CENTRAL
Um dos aspectos mais importantes do estudo de um conjunto de dados a posio do valor central. Qualquer valor numrico que representa o centro de um conjunto de dados denominado de medida de locao ou medida de tendncia central. As duas medidas mais comumente utilizadas mdia aritmtica, ou simplesmente a mdia, e a mediana.
2.1. Mdia aritmtica. A mais familiar medida de tendncia central a mdia aritmtica. Ela a medida descritiva que a maioria das pessoas tem em mente quando elas falam de mdia. A mdia pode ser expressa como
ny
nyyy
n
yy n
n
ii
+= =+++
== ...211
Vamos supor que a varivel aleatria Y assume os seguintes valores, { 10, 54, 21, 33, 53 }, ento a mdia destes 5 valores dada por:
2345
1715
53332154105
yy
5
1ii
,==++++===
5
Propriedades da mdia; a) nica. Para um conjunto de dados existe uma e somente uma mdia aritmtica. b) Simplicidade. A mdia aritmtica fcil de ser entendida e fcil de ser calculada. c) Dado que toda observao do conjunto de dados entra no seu clculo, ela afetada por cada valor. Valores extremos tm influncia na mdia e, em algumas situaes podem ocorrer distores, o que pode torn-la uma medida indesejvel como medida de tendncia central.
2.2 MEDIANA. Uma alternativa mdia aritmtica como medida de tendncia central a mediana. A mediana de um conjunto de valores finitos o valor que ocupa a posio central dos dados ordenados, ou seja, aquele valor o qual divide o conjunto de dados em duas partes iguais tal que o nmero de valores iguais ou maiores que a mediana igual ao nmero de valores menores ou iguais que a mediana. Temos que considerar duas situaes:
=+
+==
+
+
)()(
)(~
)()(
)(
parnk2nseyy21
imparn1k2nseyy
1kk
1k
Exemplos: 1. Considere os dados 10, 54, 21, 33, 53 , com n=5 observaes, e a seqncia ordenada fica 10, 21, 33, 53, 54. A mediana calculada como sendo a observao que ocupa a 3 posio da seqncia ordenada, ou seja, 33yyy2ksejaou21nk1k2n 312 =====+= + )()(~,,/)( 2. Considere os dados 10, 54, 21, 33, 53, 55, e a seqncia ordenada fica 10, 21, 33, 53, 54, 55. Como o nmero de observaes par e a mediana calculada como sendo a mdia das observaes que ocupam a posio central, ou seja,
43533321
yy21yy
21y3ksejaou2nkk2n 43133
=+=
+=+==== +
)(
)()(~,,/)( )()()()(
Propriedades da mediana; a) nica. Assim como a mdia, para um conjunto de dados existe uma e somente uma mediana. b) Simplicidade. A mediana fcil de ser calculada.
6
c) Ela no drasticamente afetada por valores extremos, como a mdia.
2.3 Moda. A moda comumente definida como a observao mais freqente do conjunto de dados. Se todas as observaes so diferentes no existe moda; por outro lado um conjunto de dados pode ter mais de uma moda. Exemplo: considere o conjunto de dados {98, 102, 100, 100, 99, 97, 96, 95, 99, 100}, ento a moda mo = 100, e no conjunto de dados, abaixo, { 20, 21, 20, 20, 34, 22, 24, 27, 27, 27} existe duas modas 20 e 27 (bimodal). a)
b)
c)
d)
Figura 1.1 Distribuies de freqncia mostrando as medidas de tendncia central. Distribuies em a) e b) so simtricas, c) positivamente assimtrica, e d) negativamente assimtrica. As distribuies a), c), e d) so unimodal, e a distribuio b) bimodal. (Obter estes resultados usando o R).
3. MEDIDAS DE DISPERSO. Apesar das medidas de tendncia central fornecerem uma idia do comportamento de um conjunto de dados, elas podem esconder valiosas informaes. Essas medidas podem no ser suficientes para descrever ou discriminar diferentes conjunto de dados. Por exemplo, a Figura 3.1 mostra os polgonos de freqncia duas variveis que possuem a mesma mdia, mas diferentes valores de disperso. A varivel B, a qual tem maior variabilidade que a varivel A, mais espalhada. A disperso de um conjunto de dados se refere variedade que eles exibem. Uma medida de disperso fornece informao a respeito da quantidade de variabilidade presente no conjunto de dados.
7
Figura 3.1 Dois polgonos de freqncia com a mesma mdia, mas com diferentes quantidades de disperso. Se todos os valores do conjunto de dados so iguais, no existe disperso; se eles so diferentes, a disperso est presente nos dados. A quantidade de disperso pode ser pequena, quando os dados, embora diferentes, so muito prximos.
3.1 AMPLITUDE. A amplitude definida como a diferena entre o maior e o menor valor do conjunto de dados. O problema desta mediada que ela s leva em conta dois valores do conjunto de dados e, assim, seria mais conveniente considerarmos uma mediada que utilizasse todas as observaes do conjunto de dados. A primeira idia que ocorre considerar o desvio de cada observao em relao a um ponto de referncia e ento calcular a sua mdia. Se tomarmos a mdia aritmtica como este ponto de referncia, temos a seguinte situao: Seja o conjunto de dados yeyyy n21 ...,,, , a mdia destes dados. Definiremos por yyd ii = , os desvios destas observaes em relao sua mdia. Por exemplo, considere os dados
9ye6y5y4y 4321 ==== ,, . Assim temos:
369d066d165d264d
64
9654y
4321 ========
=+++
=
)(,)(,)(,)(
,
Reparem que a soma dos desvios igual a zero, ou seja,
0d4
1ii =
=
. Isto pode ser provado algebricamente, da seguinte forma,
= = = = = ==
=
=
======n
i
n
i
n
i
n
i
n
i
n
ii
n
ii
n
ii
iiii
n
ii yyn
ynyynyyyyyd
1 1 1 1 1 11
1
10)(
Portanto a soma destes desvios no seria nada informativa sobre a disperso dos dados. Definiremos ento, uma medida que utiliza o quadrado dos desvios em relao mdia.
8
3.2 VARINCIA E DESVIO-PADRO. A varincia de um conjunto de dados, definida como mdia dos desvios das observaes em relao mdia ao quadrado, ou seja,
1nyyyyyys
2n
22
212
+++
=)(...)()(
Para manter a mesma unidade dos dados originais, conveniente definirmos o desvio-padro como sendo a raiz quadrada positiva da varincia s2,
1nyyyyyys
2n
22
21
++
=)(...)()(
A varincia amostral frequentemente calculada usando-se a frmula mais rpida e prtica
=
=
+++
+++
=
=
=n
i
n
ii
i
nn
n
yy
n
nyyyyyy
ns
1
1
2
2
22122
221
2
)(
11
)...(...1
1
Exemplo: Os pesos (em pounds) de uma amostra aleatria de trutas em um lago so: 1,19; 0,93; 2,40; 1,71; 0,89; 1,74; 1,06; 1,16; 1,47; 1,15 A mdia aritmtica destes dados
.37,110
7,13)15,1...93,019,1(101 poundsy ==+++=
E a varincia
{ }2
2222
)(2187,0
)37,115,1(...)37,193,0()37,119,1(110
1
pounds
s
=
+++
=
Alternativamente, temos
.47,02187,0
,)(2187,010
70,1374,2091
10)15,1...93,019,1(15,1...93,019,1
1101
2
22222
poundss
epounds
s
==
=
=
=
+++
+++
=
(Obter estes resultados usando o R).
9
3.3 QUARTIS. Alguns quartis so definidos de modo anlogo mediana. Assim como a mediana divide o conjunto de dados em duas partes, os quartis dividem os dados em quatro partes. O segundo quartil, representado por Q2 igual mediana, ento yQ2 ~= . O primeiro quartil, Q1 definido como aquele valor do conjunto de dados tal que no mais que 25% dos dados tm valores menores que Q1 e no mais que 75% dos dados tm valor maior que Q1. O terceiro quartil, Q3, pode ser definido de maneira similar. Assim como a mediana, mais de uma observao pode satisfazer a definio dos quartis. As seguintes frmulas podem ser utilizadas para calcular o primeiro e o terceiro quartis de um conjunto de dados
ordenadaobservaosima4
1n3Q
ordenadaobservaosima4
1nQ
3
1
)( +=
+=
3.4 GRFICOS BOX-PLOT. O grfico tipo Box-plot um recurso visual til de comunicao da informao contida em conjunto de dados. O objetivo de um grfico tipo Box-Plot mostrar as principais caractersticas de um conjunto de dados. Para interpretar um grfico Box-Plot adequadamente, os valores devem ser visualizados como pontos de linha horizontal/vertical localizada no centro do grfico. Valores grandes correspondem a grandes pontos na horizontal/vertical. Existem trs componentes importantes no grfico Box-plot:
A caixa, a qual contm 50% dos valores, comea no primeiro quartil Q1 e termina no terceiro quartil, Q3.
As duas pontas (whiskers), se extendem acima e abaixo da caixa at a localizao da maior e da menor observao que esto dentro da distncia de 1.5 vezes o intervalo interquartil.
Os valores atpicos (outliers), so os valores fora das pontas.
Exemplo: Considere os dados a seguir, os quais se referem a peso (g) de tumores cancergenos extrados do abdome de 57 ces 68 63 42 27 30 36 28 32 79 27 22 23 24 25 44 65 43 25 74 51 36 42 28 31 28 25 45 12 57 51 12 32 49 38 42 27 31 50 38 21 16 24 69 47 23 22 43 27 49 28 23 19 46 30 43 49 12 O conjunto ordenado fica: 12 12 12 16 19 21 22 22 23 23 23 24 24 25 25 25 27 27 27 27 28 28 28 28 30 30 31 31 32 32 36 36 38 38 42 42 42 43 43 43 44 45 46 47 49 49 49 50 51 51 57 63 65 68 69 74 79
10
Assim, a menor e a maior observao 12 e 79, respectivamente. O nmero de observaes 57. O primeiro quartil a observao
25y5144
157Q 5141 ===+
= ),(. g,
e o terceiro quartil
546y5434
1573Q 5433 ,.)(
),( ===+
= g
(Obter estes resultados usando o R).
3.5 Medidas da forma da distribuio
As medidas da forma de uma distribuio so os coeficientes de assimetria (skewness) e curtosis (kurtosis). Assimetria uma medida da assimetria da distribuio de freqncia. Ela mostra se os desvios da mdia so maiores de um lado do que do outro lado da distribuio. Ela dada por
3
1)2)(1(=
=
n
i
i
syy
nnnass
Para uma distribuio simtrica o coeficiente de assimetria zero. Ela positiva quando a cauda da direita mais alongada e negativa quando a cauda da esquerda mais alongada.
a)
b)
Figura 3.3 Ilustraes da assimetria a) negativa e b) positiva
Curtosis uma medida da forma das caudas de uma distribuio. Ela dada por
)3)(2()1(3
)3)(2)(1()1( 24
1
+
= = nn
ns
yynnn
nnctn
i
i
Para variveis, tais como, peso, altura ou produo de leite, espera-se que a distribuio de freqncia seja simtrica em torno da mdia e tenha a forma de um sino. Estas so as distribuies normais. Se as observaes tm distribuio normal ento a curtosis igual a zero (ct = 0). Uma distribuio com curtosis positiva tem uma grande freqncia de observaes prximas da mdia e caudas finas. Uma distribuio com curtosis negativa tem as caudas mais grossas e uma baixa freqncia de dados perto da mdia. Abaixo esto estas estatsticas calculadas por meio do programa MiniTab V 13 juntamente com o grfico tipo BOX - PLOT
11
Estatstica descritiva : P_Tumor
Variable N Mean Median StDev SE Mean P_Tumor 57 36.72 32.00 15.87 2.10
Variavel Minimum Maximum Q1 Q3 P_Tumor 12.00 79.00 25.00 46.50
10 20 30 40 50 60 70 80Peso do Tumor
Boxplot da varivel Peso do Tumor
25,0 32,0 46,5
A caixa o Interv alo interquartil = Q3-Q2=21,5
observ ao atpica "outlier"
O exame desta Figura revela que 50% das observaes esto entre os valores 25 e 46.5, aproximadamente o primeiro (Q1) e o terceiro (Q3) quartis. A linha vertical dentro da caixa mostra o valor da mediana, Q2, a qual 32. A longa cauda a direita do grfico indica que a distribuio de peso de tumores levemente assimtrica direita. O asterisco indica que existe uma observao atpica neste conjunto de dados, observao cujo valor 79, com uma probabilidade de ocorrncia muito baixa. Outro resultado fornecido pelo MiniTab V13
7560453015
95% Confidence Interval for Mu
43383328
95% Confidence Interval for Median
Variable: P_Tumor
28.0000
13.3943
32.5097
Maximum3rd QuartileMedian1st QuartileMinimum
NKurtosisSkewnessVarianceStDevMean
P-Value:A-Squared:
42.0000
19.4626
40.9289
79.000046.500032.000025.000012.0000
570.1301840.761265
251.70615.865236.7193
0.0061.113
95% Confidence Interval for Median
95% Confidence Interval for Sigma
95% Confidence Interval for Mu
Anderson-Darling Normality Test
Descriptive Statistics
Esta sada mostra a relao entre o Histograma e o grfico BOX PLOT dos dados.
12
3.6 Coeficiente De Variao. O desvio-padro til como medida de variao dentro de um conjunto de dados. Quando desejamos comparar a disperso de dois conjuntos de dados, a comparao dos desvios-padres dos dois conjuntos de dados pode nos levar a concluses falsas. Pode acontecer que as duas variveis envolvidas esto medidas em unidades diferentes. Por exemplo, podemos estar interessados em saber se os nveis do soro de colesterol, medido em miligramas por 100 ml so mais variveis do que o peso corporal, medido em kilograma. O que necessrio nesta situao o uso de uma medida de variao relativa do que uma medida absoluta. Tal medida o COEFICIENTE DE VARIAO (CV), a qual expressa o desvio padro como uma porcentagem da mdia, e sua frmula
)%(100yscv = ,
a qual uma medida independente da unidade. Exemplo: considere os valores abaixo de mdia e desvio-padro de dois grupo de ces, identificados pelas suas idades
Amostra 1 Amostra 2 Grupo 10 anos 4 anos Peso mdio 145 80
Desvio-padro 10 10
Uma comparao dos seus respectivos desvios-padres leva a uma concluso de que as duas amostras tm a mesma variabilidade. Se calcularmos os coeficientes de variao, para o grupo 1
%,)( 9610014510cv ==
e para o grupo 2,
%,)( 5121008010cv == .
Comparando estes resultados temos uma impresso bem diferente. O grupo 2 tem uma variabilidade de 1,8 vezes maior em relao ao grupo 1. O coeficiente de variao muito til na comparao de resultados obtidos por diferentes pesquisadores que investigam a mesma varivel. Visto que o coeficiente de variao independente da unidade, ele til para comparar a variabilidade de duas ou mais variveis medidas em diferentes unidades.
13
4.ESTATSTICA EXPERIMENTAL
4.1 Introduo. Numa pesquisa cientfica o procedimento geral formular hipteses e verific-las diretamente ou por suas conseqncias. Para isto necessrio um conjunto de observaes e o planejamento de experimentos ento essencial para indicar o esquema sob o qual as hipteses possam ser verificadas com a utilizao de mtodos de anlise estatstica que dependem da maneira sob a qual as observaes foram obtidas. Portanto, planejamento de experimentos e anlise dos resultados esto intimamente ligados e devem ser utilizados em uma seqncia nas pesquisas cientficas das diversas reas do conhecimento. Isto pode ser visto por meio da seguinte representao grfica da circularidade do mtodo cientfico.
(2) Observaes (1) (3) Formulao de Hipteses Verificao das Hipteses formuladas (4) Desenvolvimento da Teoria
Fica evidente nesta ilustrao que as tcnicas de planejamento devem ser utilizadas entre as etapas (1) e (2) e os mtodos de anlise estatstica devem ser utilizados na etapa (3).
Desenvolvendo um pouco mais est idia podemos dizer que uma pesquisa cientfica estatisticamente planejada consiste nas seguintes etapas
1. Enunciado do problema com formulao de hipteses. 2. Escolha dos fatores (variveis independentes) que devem ser
includos no estudo. 3. Escolha da unidade experimental e da unidade de observao. 4. Escolha das variveis que sero medidas nas unidades de
observao. 5. Determinao das regras e procedimentos pelos quais os diferentes
tratamentos so atribudos s unidades experimentais (ou vice-versa).
6. Anlise estatstica dos resultados. 7. Relatrio final contendo concluses com medidas de preciso das
estimativas, interpretao dos resultados com possvel referncia a outras pesquisas similares e uma avaliao dos itens de 1 a 6 (desta pesquisa) com sugestes para possveis alteraes em pesquisas futuras.
Ilustraes destas etapas com exemplos.
14
1. Enunciado do problema. Como vimos uma pesquisa cientfica se inicia sempre com a
formulao de hipteses. Essas hipteses so primeiramente formuladas em termos cientficos dentro da rea de estudo (hiptese cientfica) e em seguida em termos estatsticos (hiptese estatstica) . Deve haver uma correspondncia perfeita entre as hipteses cientfica e estatstica para evitar ambigidade.
Portanto, no enunciado do problema, a hiptese cientfica deve ser formulada de maneira precisa e objetiva.
Exemplo:
Um pesquisador est interessado em estudar o efeito de vrios tipos de rao que diferem pela quantidade de potssio no ganho de peso de determinado tipo de animal.
Este objetivo pode ser atingido se planejarmos a pesquisa com uma das seguintes finalidades: a) comparar as mdias dos aumentos de peso obtidas com cada uma
das raes (igualdade das mdias); b) Estabelecer uma relao funcional entre o aumento do peso mdio e
a quantidade de potssio.
2. Escolha dos fatores e seus respectivos nveis.
No exemplo de 2.1, a varivel independente rao um fator e os tipos de raes so os nveis deste fator, ou tratamentos. Assim, em um experimento para se estudar o efeito de 4 raes e 3 suplementos no ganho de peso de animais, temos dois fatores: rao com quatro nveis e suplementos com 3 nveis. Podemos dizer que este experimento envolve 12 tratamentos, correspondentes s combinaes dos nveis dos dois fatores.
Pelo prprio conceito de fator, temos que em um experimento, a escolha dos fatores e seus respectivos nveis basicamente um problema do pesquisador. No entanto importante para o planejamento e anlise distinguirmos as duas situaes, descritas a seguir:
a) uma fazenda de inseminao adquiriu 5 touros de uma
determinada raa para a produo de smen, e est interessada em realizar um experimento para verificar se os cinco touros so homogneos quanto a produo de smen.
b) A mesma fazenda de inseminao est interessada em realizar
um experimento para verificar se a produo de smen de touros, de uma determinada raa, homognea. Como a populao de touros da fazenda muito grande o pesquisador decidiu realizar um experimento com uma amostra de touros (5 touros), mas as concluses devem ser estendidas para a populao de touros.
15
Na situao descrita em a) dizemos que o fator touro fixo e na
situao em b) o fator touro aleatrio. A diferena fundamental entre estes dois tipos de fatores , ento, que no caso de fatores fixos, as concluses se referem apenas aos nveis do fator que esto presentes no experimento. No caso de fatores aleatrios as concluses devem ser estendidas para a populao de nveis.
3. Escolha da unidade experimental.
Em um grande nmero de situaes prticas a unidade experimental
determinada pela prpria natureza do material experimental. Por exemplo, experimentos com animais, em geral a unidade experimental um animal. Em outras situaes a escolha de outras unidades experimentais no to evidente, exigindo do pesquisador juntamente com o estatstico algum estudo, no sentido de escolher a unidade experimental mais adequada. A escolha de uma unidade experimental, de um modo geral, deve ser orientada no sentido de minimizar o erro experimental, isto , as unidades devem ser as mais homogneas possveis, para, quando submetidas a dois tratamentos diferentes, seus efeitos, sejam facilmente detectados.
4. Escolha das variveis a serem medidas.
As medidas realizadas nas unidades experimentais aps terem sido
submetidas aos tratamentos constituem os valores da varivel dependente. A varivel dependente, em geral, pr-determinada pelo pesquisador, isto , ele sabe qual varivel que ele quer medir. O que constitui problema, s vezes, a maneira como a varivel medida, pois disto dependem a preciso das observaes, e a distribuio de probabilidade da varivel a qual essencial para a escolha do mtodo de anlise. Assim, por exemplo, se os valores de uma varivel so obtidos diretamente por meio de um aparelho de medida (rgua, termmetro, etc.) a preciso das observaes vai aumentar se, quando possvel, utilizarmos como observao a mdia de trs medidas da mesma unidade experimental. Com relao distribuio de probabilidade em muitas situaes as observaes no so obtidas diretamente e sim por expresses matemticas que as ligam a outros valores obtidos diretamente. Neste caso, a distribuio de probabilidade das observaes vai depender da distribuio de probabilidade da varivel obtida diretamente e da expresso matemtica que as relaciona.
Portanto, as variveis, necessariamente presentes em um experimento so: a varivel dependente, medida nas unidades experimentais, e o conjunto de fatores (variveis independentes) que determinam as condies sob as quais os valores da varivel dependente so obtidos.
Qualquer outra varivel que possa influir nos valores da varivel dependente deve ser mantida constante.
16
5. Regras segundo as quais os tratamentos so atribudos s unidades experimentais.
Nas discusses apresentadas em cada um dos itens anteriores a
colaborao da estatstica bem limitada exigindo-se a essencial colaborao do pesquisador. Porm, o assunto discutido neste item o que poderamos denominar de planejamento estatstico de experimento. Trata-se das regras que associam as unidades experimentais aos tratamentos e que praticamente determinam os diferentes planos experimentais. Lembramos, neste ponto os tratamentos so cada uma das combinaes entre os nveis de todos os fatores envolvidos no experimento.
Para que a metodologia estatstica possa ser aplicada aos resultados de um experimento necessrio que em alguma fase do experimento, o principio a ser obedecido o da repetio, segundo o qual devemos ter repeties do experimento para que possamos ter uma medida da variabilidade necessria aos testes da presena de efeitos de tratamentos ou a estimao desses efeitos.
ALEATORIZAO
Aleatorizao a designao dos tratamentos s unidades
experimentais, tal que estas tm a mesma chance (mesma probabilidade) de receber um tratamento. Sua funo assegurar estimativas no-viesadas das mdias dos tratamentos e do erro experimental. Nesta fase do planejamento de um experimento j sabemos quais fatores sero estudados e o nmero de nveis de cada fator que estaro presentes no experimento. Sabemos ainda qual a unidade experimental escolhida e a varivel dependente. Podemos imaginar que de um lado temos um conjunto
U de unidades experimentais, e de outro, T um conjunto de tratamentos, que podem ser as
combinaes dos nveis de todos os fatores envolvidos. Precisamos estabelecer esquemas que associam subconjuntos de elementos de U a cada elemento de T. Vamos apresentar o esquema mais simples. Para efeito de notao vamos supor que o conjunto U tem n elementos, o conjunto T tem a elementos, e o nmero de elementos de U submetidos ao tratamento Ti ni, com i=1, 2, ..., a, de tal modo
que =
=k
ii nn
1
.
O nmero de unidades experimentais ni para cada tratamento Ti determinado a partir de informaes sobre a variabilidade das unidades experimentais em termos da variabilidade da varivel dependente.
O plano completamente aleatorizado um esquema em que as unidades experimentais que vo ser submetidas a cada tratamento so escolhidas completamente ao acaso. Isto significa que cada unidade
17
experimental tem igual probabilidade de receber qualquer um dos tratamentos.
Por exemplo, um pesquisador quer realizar um experimento para estudar o efeito de um resduo industrial que adicionado em raes de animais. Ele suspeita que este resduo contenha uma substncia txica, cuja presena no organismo, produz um aumento relativo de alguns rgos, como o fgado, por exemplo. Aps uma entrevista com o pesquisador conseguimos as seguintes informaes
O experimento ir envolver um nico fator, rao, com trs nveis:
t1 - rao normal, sem resduo industrial (grupo controle; t2 - rao normal com o resduo tratado, e t3 - rao normal com resduo no tratado. Portanto, o conjunto T tem trs tratamentos
Um conjunto U, formado por um grupo de 18 camundongos todos, recm nascidos, com o mesmo peso inicial e homogneos com relao s caractersticas genticas gerais. Por isto foi decidido distribuir completamente ao acaso 6 animais para cada tratamento.
A varivel dependente (resposta) o peso relativo do fgado aps 90 dias do incio do experimento.
Uma maneira de se proceder ao sorteio a seguinte: enumera-se as unidades experimentais de 1 a 18. coloca-se os tratamentos em seqncia , por exemplo:
T1 T1 T1 T1 T1 T1 , T2 T2 T2 T2 T2 T2 , T3 T3 T3 T3 T3 T3 sorteia-se uma sequncia de 18 nmeros aleatrios. Pode-se
obter, por exemplo, a sequncia : 3, 1, 11, 15, 18, 16, 4, 5, 9, 12, 8, 7, 17, 14, 2, 6, 13, 10
Distribuio das unidades experimentais segundo os tratamentos
Trat. Repeties T1 u3 u1 u11 u15 u18 u16 T2 u4 u5 u9 u12 u8 u7 T3 u17 u14 u2 u6 u13 u10
Este plano experimental mais eficiente quanto maior for o grau de
homogenei dade entre as unidades experimentais em termos da varivel dependente. Se as unidades experimentais so heterogneas o nmero n de unidades experimentais necessrias para uma boa preciso pode ser muito grande. Algumas alteraes no planejamento descrito, tal como, a introduo de blocos, ou simplesmente a utilizao de uma co-varivel medida nas unidades experimentais, a qual correlacionada com varivel dependente, podem reduzir consideravelmente o erro experimental.
Observaes: 1) o plano experimental completamente aleatorizado no
depende do numero de fatores envolvidos e nem da maneira pela qual os fatores so combinados.
2) Existem alguns fatores que pela prpria natureza, impe restries na aleatorizao, porm para efeito de
18
anlise, o experimento considerado completamente aleatorizado.
PLANO EXPERIMENTAL EM BLOCOS.
Quando o conjunto U de unidades experimentais for muito
heterogneo (em termos da varivel independente), o plano experimental completamente aleatorizado torna-se pouco preciso, pois o erro experimental fica muito grande. Em algumas situaes dispomos de informaes segundo as quais, antes da realizao do experimento, possvel agruparmos as unidades experimentais mais ou menos homogneas, em que a o nmero de tratamentos envolvidos no experimento. Estes subconjuntos so denominados de blocos. Assim, a maior parte da heterogeneidade interna do conjunto U expressa pela heterogeneidade entre blocos. A distribuio das unidades experimentais entre os tratamentos obedece a uma restrio imposta pelos blocos, isto , as a unidades de cada bloco so distribudas aleatoriamente entre os tratamentos.
Na anlise de um experimento em blocos, alm dos fatores de interesse, deve-se levar em conta o fator experimental bloco, diminuindo desta forma o erro experimental. Quanto maior for a heterogeneidade entre blocos, maior a eficincia deste plano experimental em relao ao completamente aleatorizado. Exemplo: Um pesquisador deseja testar o efeito de trs tratamentos (T1, T2, T3 ) no ganho de peso de ovelhas . Antes do inicio do experimento as ovelhas foram pesadas e ordenadas de acordo com o peso e atribudas a 4 blocos. Em cada bloco tinham 3 animais aos quais os tratamentos foram sorteados. Portanto, 12 animais foram usados.
REPETIO Repetio significa que o mesmo tratamento aplicado sobre duas
ou mais unidades experimentais. Sua funo fornecer uma estimativa do erro experimental e dar uma medida mais precisa dos efeitos dos tratamentos. O nmero de repeties requeridas em um particular experimento depende da magnitude das diferenas que o pesquisador deseja testar e da variabilidade da varivel dependente em que se esta trabalhando.
LEITURAS RECOMENDADAS CAPITULO 1
VIEIRA, S. Estatstica experimental. 2.ed. So Paulo: Atlas: 1999. 185p.(Cap. 1). PETRIE, A.; WATSON, P. Estatstica em Cincia Animal e Veterinria. 2009.2 ed. Editora ROCA, So Paulo, 236p., 2009. SAMPAIO, I.B.M. Estatstica aplicada experimentao animal. Belo Horizonte: Fundao de Ensino e Pesquisa em Medicina Veterinria e Zootecnia, 1998. 221p. (Cap.1, 2 e 3)
19
KAPS, M.; LAMBERSON, W. Biostatistics for animal science. Oxfordshire: CABI Pubishing: 2007. 445p. (Cap. 12, 13). PETERNELLI, L. A.; Conhecendo o R: uma viso estatstica. 2. Ed. Viosa: Editora UFV, 2010, 185p.
20
CAPITULO 2. PLANEJAMENTO DE EXPERIMENTOS; PRINCPIOS BSICOS DA EXPERIMENTAO.
1. TESTES DE SIGNIFICNCIA Um dos principais objetivos da estatstica a tomada de decises a respeito da populao com base nas observaes de amostras.
AMOSTRAGEM
INFERNCIA ESTATSTICA POPULAO AMOSTRA
Ao tomarmos decises, conveniente a formulao de Hipteses relativas s populaes, as quais podem ser ou no verdadeiras. Exemplo: Um veterinrio est interessado em estudar o efeito de 4 tipos de raes que diferem pela quantidade de potssio no aumento de peso de coelhos.
osdistpesosdeaumentospropiciamraesAsHscontrolado nofatores adevidas so observadas diferenas quaisquer
seja,ou raes,as entrediferenaexisteNoH
1
0
int:
:
H0 denominada de hiptese de nulidade, a qual assume que no existe efeito dos tratamentos e H1 a contra hiptese.
TESTES DE HIPTESES OU TESTES DE SIGNIFICNCIA:
So os processos que nos permitem decidir se aceitamos ou rejeitamos uma determinada hiptese, ou se os valores observados na amostra diferem significativamente dos valores esperados (Populao)
MDIA POPULACIONAL
x MDIA AMOSTRAL
21
2. TIPOS DE ERROS NOS TESTES DE SIGNIFICNCIA
QUADRO RESUMO: condies sobre as quais os erros Tipo I e Tipo II podem ser cometidas
Condio da Hiptese nula
H0 Verdadeiro H0 Falsa Rejeio de H0 Erro Tipo I () Deciso correta No rejeio de H0 Deciso correta Erro Tipo II ()
Erro Tipo I: o erro cometido ao rejeitar H0, quando H0 verdadeira. Erro Tipo II: o erro cometido ao aceitar H0, quando ela falsa.
[ ] [ ]IITipoErroPITipoErroP == ; Esses dois erros esto de tal forma associados que, se diminuirmos a probabilidade de ocorrncia de um deles, automaticamente aumentamos a probabilidade de ocorrncia do outro. Em geral, controlamos somente o Erro Tipo I, por meio do nvel de significncia (da vem a denominao de Testes de Significncia) do teste representado por , o qual a probabilidade mxima com que nos sujeitamos a correr um risco de cometer um erro do Tipo I, ao testar a hiptese. Dado que rejeitar uma hiptese nula, (H0), verdadeira constitui um erro, parece razovel fixarmos esta probabilidade de rejeitar uma hiptese nula, (H0), verdadeira pequena, e de fato, isto que feito. Na prtica comum fixarmos = 0,05 (5%) ou = 0,01 (1%). Se, por exemplo, foi escolhido = 0,05, isto indica que temos 5 possibilidades em 100 de rejeitarmos a hiptese de nulidade (H0), quando na verdade ela deveria ser aceita, ou seja, existe uma confiana de 95% de que tenhamos tomado uma deciso correta, esta confiabilidade denominada grau de confiana do teste e representada por 1 - e expressa em porcentagem. Ns nunca saberemos qual tipo de erro estamos cometendo ao rejeitarmos ou ao no rejeitarmos uma hiptese nula (H0), dado que a verdadeira condio desconhecida. Se o teste nos leva deciso de rejeitar H0, podemos ficar tranqilos pelo fato de que fizemos pequeno e, portanto, a probabilidade de cometer o erro Tipo I bem pequena.
3.TESTE F PARA A ANLISE DE VARINCIA.
O teste F a razo entre duas varincias e usado para determinar se duas estimativas independentes da varincia podem ser assumidas como estimativas da mesma varincia. Na anlise de varincia, o teste F usado para testar a igualdade de mdias, isto , para responder a seguinte questo, razovel supor que as mdias dos tratamentos so amostras provenientes de populaes com mdias iguais? Considere o seguinte exemplo de clculo da estatstica F; vamos supor que de uma
Possvel ao
22
populao normal ),( 2N foram retiradas, aleatoriamente, 5 (n=5) amostras de tamanho 9 (r=9).
Calcule as mdias das 5 amostras e )19(
)(9
1
2
2
==i
i
i
yys
Estime 2 por meio da frmula 5
)...( 25212 sss ++= , a qual
uma mdia das varincias das amostras e ser denominada de variabilidade dentro das amostras ( 2Ds ).
Estime a varincia populacional das mdias 2y , por meio
das mdias das 5 amostras: 15
)(5
1
22
2
==
+++i
i
y
yys
De 2ys , estime novamente 2 , usando a relao
222
2 , yy rssourss == , denominada de variabilidade entre as
amostras ( 2Es ).
Calcule 22
D
Ec s
sF =
A estimativa de 2Es do numerador foi feita com base em n - 1 = 4 graus de liberdade (n o nmero de amostras) e a estimativa de 2Ds do denominador foi feita com base em n(r 1) = 5(9-1) = 40. A repetio deste procedimento amostral muitas vezes gera uma populao de valores de F, os quais quando colocados em um grfico de distribuio de freqncia tem o seguinte formato
O valor de F = 2,61 o valor acima do qual, 5% dos valores de F calculados tm valor acima dele. Este o valor para um nvel de 5% encontrado na Tabela F para 4 e 40 graus de liberdade (veja Tabela F). Dado que as estimativas da varincia utilizadas estatstica F so estimativas da mesma varincia 2 , espera-se que o valor de F seja
23
bem prximo de 1, a menos que um conjunto de amostras no usual foi retirado. Para qualquer conjunto de amostras retiradas de n = 5 e r = 9 a probabilidade (ou a chance) de um valor de F calculado ser maior ou igual a 2,61 0,05 (5%) ( 05,0]61,2[ =>FP ). As hipteses estatsticas que testamos quando aplicamos o teste F so
22
211
22
210
:
:
>
=
HH
A hiptese H0 estabelece que as duas varincias populacionais so iguais, o que equivale a admitir que as amostras foram retiradas da mesma populao. A hiptese H1 (contra hiptese, ou hiptese alternativa) estabelece que as varincias so provenientes de populaes diferentes e, mais ainda, a varincia da primeira maior que a varincia da segunda. Os valores de F so tabelados em funo dos graus de liberdade das estimativas de s2 do numerador (n1) e do denominador (n2) no clculo da estatstica F e para diferentes valores de nveis de significncia (5%, 1%, etc.). Tambm podem ser fornecidos por comandos do programa R.
5. REGRA DE DECISO. Todos os possveis valores que o teste estatstico pode assumir
so pontos no eixo horizontal do grfico da distribuio do teste estatstico e dividido em duas regies; uma regio constitui o que denominamos de regio de rejeio e a outra regio constitui o que denominamos de regio de no rejeio. Os valores do teste estatstico que formam a regio de rejeio so aqueles valores menos provveis de ocorrer se a hiptese nula verdadeira, enquanto que os valores da regio de aceitao so os mais provveis de ocorrer se a hiptese nula verdadeira. A regra de deciso nos diz para rejeitar H0 se o valor do teste estatstico calculado da amostra um dos valores que est na regio de rejeio e para no rejeitar H0 se o valor calculado do teste estatstico um dos valores que est na regio de no rejeio. O procedimento usual de teste de hipteses baseado na adoo de um critrio ou regra de deciso, de tal modo que = P(Erro tipo I) no exceda um valor pr-fixado. Porm, na maioria das vezes, a escolha de arbitrria. Um procedimento alternativo consiste em calcular o menor nvel de significncia para o qual a hiptese H0 rejeitada, com base nos resultados amostrais. Este valor, denominado de nvel descritivo do teste ou nvel mnimo de significncia do teste, ser denotado por valor de p ( p-value). Todos os modernos programas computacionais fornecem este valor nos testes estatsticos. A representao grfica a seguir mostra uma ilustrao da regra de deciso do teste F, visto anteriormente,
24
EXEMPLO: Amostras aleatrias simples e independentes, aps dois tipos de esforos, do nvel de glicose no plasma de ratos aps uma experincia traumtica forneceram os seguintes resultados: Esforo 1: 54 99 105 46 70 87 55 58 139 91 Esforo 2: 93 91 93 150 80 104 128 83 88 95 94 97 Estes dados fornecem suficiente evidncia para indicar que a varincia maior na populao de ratos submetidos ao esforo 1 do que nos ratos submetidos ao esforo 2. Quais as suposies necessrias para se aplicar o teste? Soluo:
As varincias amostrais so 9333852s21 ,= e 2424398s22 ,= ,
respectivamente. Suposies: Os dados constituem amostras aleatrias
independentes retiradas, cada uma, de uma populao com distribuio normal. (Esta a suposio geral que deve ser encontrada para que o teste seja vlido).
Hipteses estatsticas
22
211
22
210
:
:
>
=
HH
Clculo do Teste Estatstico
1417,22424,3989333,852
22
21 ===
ssFc
Distribuio do Teste Estatstico: quando H0 verdadeira a estatstica F tem distribuio F com n1 1 e n2 1 graus de liberdade, ou seja, )05,0,11,9(F .
Regio de no rejeio Regio de rejeio
25
Regra de Deciso: fazendo %5= , o valor crtico de 8962F 050119 ,),,,( = , ento, rejeita-se H0 se 8962Fc , . A
ilustrao grfica desta regra de deciso mostrada a seguir,
Deciso estatstica: no podemos rejeitar H0, dado que 2,14170.05)
ANLISE DE VARINCIA
Embora o teste F possa ser aplicado independentemente, a sua maior aplicao na anlise de varincia dos Delineamentos Experimentais. Vamos considerar os seguintes dados de Delineamento Inteiramente Casualizado, (DIC).
TRATAMENTOS
REPETIES 1 2 3 4
A 12,4 15,2 14,3 12,6 B 13,2 16,2 14,8 12,9 C 12,1 11,3 10,8 11,4 D 10,9 9,8 9,4 8,3
2T
2e +
Dentro de um mesmo tratamento o valor observado nas diferentes repeties no o mesmo, pois estes valores esto sujeitos variao ao acaso ( e
2 ). Quando passamos de um tratamento para outro, os dados tambm no so iguais, pois estes esto sujeitos a uma variao do acaso acrescida de uma variao devida ao efeito do tratamento, i.,
2T
2e +
Regio de no rejeio Regio de rejeio
2,896
2,1417
2e
26
QUADRO DA ANLISE DE VARINCIA DO DIC Considere os dados do exemplo anterior, onde tnhamos 4 tratamentos (k=4) e 4 repeties. A Tabela da Anlise de varincia fica sendo
Fonte de variao G.L. Soma de Quadrados Quadrado Mdio estatstica F TRAT.
k - 1 kr
yr
yk
i
i2
1
2 )( ++=
+ 1...
kTratQS
.Re..
...sMQ
TratMQ
RESDUO
n - k = = =
+k
i
r
j
k
i
iij r
yy1 1 1
22 )( kkr
sQS
.Re..
TOTAL
n - 1 = =
++k
i
r
jij kr
yy1 1
22 )(
Deste quadro notamos que o Quadrado mdio do resduo estima a variao casual (do resduo) 2
e . Enquanto que o quadrado mdio dos tratamentos estima a variao casual (resduo) acrescida de uma possvel varincia devido ao efeito dos tratamentos ( 2T
2e + ), ento
2
22
e
TeF
+=
Se no houver efeito dos tratamentos os dois quadrados mdios (Quadrado mdio dos tratamentos e quadrado mdio do resduo) estimam a mesma varincia, o que implica o valor de F 1,0, e qualquer diferena que ocorra entre os valores mdios dos tratamentos meramente casual.
6. TESTE t student.
Considere uma outra retirada de amostras repetidas de um determinado tamanho, por exemplo, r=5 de uma populao normal. Para cada amostra calcule a mdia y o desvio padro, s , o erro padro da mdia
ys e uma outra estatstica
yc s
yt =
Graficamente temos:
27
1
1
1
121
2
2
11
21
2
21
;5
;15
)(
...........................................................2
;5
;15
)(1
yMy
i
M
yy
i
sytss
yysMamostra
amostra
sytss
yysamostra
M
==
=
==
=
Organizando estes milhares de valores da estatstica t em distribuio de freqncia. Esta distribuio de freqncia ter a seguinte forma
Existe uma nica distribuio t para cada tamanho de amostra. Neste exemplo em que r=5 (tamanho 5), 2,5 % dos valores de t sero maiores ou iguais do que 2,776 e 2,5% sero menores do que -2,776. Os valores da estatstica t student so apresentados em tabelas (ver Tabela da distribuio t ). Por exemplo, para 10 graus de liberdade, o valor tabelado esperado para t com probabilidade de 0,01 (1%) 3,169. A distribuio t student converge rapidamente para a distribuio normal. Quanto maior for a amostra maior aproximao da distribuio t student com a distribuio normal. Quando os valores de
28
t so calculados em amostras de tamanho r=60, estes so bem prximos dos valores da distribuio normal.
7. REGRA DE DECISO
Todos os possveis valores que o teste estatstico pode assumir so pontos no eixo horizontal do grfico da distribuio do teste estatstico e dividido em duas regies; uma regio constitui o que denominamos de regio de rejeio e a outra regio constitui o que denominamos de regio de aceitao. Os valores do teste estatstico que formam a regio de rejeio so aqueles valores menos provveis de ocorrer se a hiptese nula verdadeira, enquanto que os valores da regio de aceitao so os mais provveis de ocorrer se a hiptese nula verdadeira. A regra de deciso nos diz para rejeitar H0 se o valor do teste estatstico calculado da amostra um dos valores que est na regio de rejeio e para no rejeitar H0 se o valor calculado do teste estatstico um dos valores que est na regio de aceitao. Em particular, no caso do teste t student a regra de deciso fica sendo: rejeita-se H0 se
),(2
1nc tt
.
Exemplo: Em um hospital veterinrio amostras de soro de amilase de 15 animais sadios e 22 animais hospitalizados foram colhidas. Os resultados da mdia e dos desvios-padres foram os seguintes:
mlunidadessmlunidadesymlunidadessmlunidadesy
/35,/96/40,/120
22
11
====
Neste exemplo, o erro padro amostral ys da frmula da estatstica t, ser substitudo pelo erro padro da mdia pooled, ou seja,
)1()1()1()1(
21
222
2112
++
=rr
srsrsP
29
Clculos: Suposies: os dados constituem duas amostras independentes,
cada uma, retirada de uma populao normal. As varincias populacionais so desconhecidas e assumidas iguais;
Hipteses: 211
210
HH
=
::
;
Teste estatstico:
2
2
1
22121 )()(
rs
rs
yytpp
c
+
=
;
Distribuio do teste estatstico: quando H0 for verdadeira, o teste segue uma distribuio t Student com r1 + r2 2 graus de liberdade;
Regra de deciso: Rejeita-se H0 se );(
22rr
c21
tt +
, neste
exemplo, 0302tc , ; Clculo do teste estatstico: primeiro o clculo da varincia
amostral
8817512
24
221450
151450
096120t
e13752114
35214014s
c
222p
,,
)(
)()(
==+
=
=++
=
Deciso estatstica: no se rejeita H0, visto que - 03028810302 ,,, 0,05).
LEITURAS RECOMENDADAS CAPITULO 2
VIEIRA, S. Estatstica experimental. 2.ed. So Paulo: Atlas: 1999. 185p.
SHCHLOTZHAUER, S. LITTELL, R. C. SAS System for elementary statistical analysis. 2.ed.Cary, NC: SAS Institute Inc.1999, 456p.
PEREZ, C.A., SALDIVA, C. D. Planejamento de experimentos. 5 SIMPSIO NACIONAL DE PROBABILIDADE E ESTATSTICA. 1981, 98p.
PETERNELLI, L. P., MELLO, M. P. Conhecendo o R: uma viso estatstica. Viosa, Ed. UFV, 2007, 181p.
30
CAPITULO 3. DELINEAMENTO INTEIRAMENTE CASUALIZADO
1. DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC).
O DIC mais simples dos delineamentos. Os tratamentos se distribuem ao acaso em todas as unidades experimentais e o nmero de repeties por tratamento pode ser igual ou diferente. O DIC muito utilizado para estudos de mtodos, tcnicas de trabalhos em laboratrio, ensaios de vegetao e em experimentos com animais. Para sua aplicao, h necessidade que o meio atue de forma uniforme em todas as unidades experimentais e que estas sejam facilmente identificadas para receber o tratamento. Vamos comear com um exemplo:
Em um estudo do efeito da glicose na liberao de insulina, 12 espcies de tecido pancretico idnticas foram subdivididas em trs grupos de 4 espcies cada uma. Trs nveis (baixo - tratamento 1, mdio tratamento - 2 e alto tratamento - 3) de concentraes de glicose foram aleatoriamente designados aos trs grupos, e cada espcie dentro de cada grupo foi tratado com o nvel de concentrao de glicose sorteado a eles. A quantidade de insulina liberada pelos tecidos pancreticos amostrados so as seguintes:
Tratamento Repeties 1 2 3 4
N de repeties
ri
Total
Mdia
Varincia
Nvel baixo (T1) Nvel mdio (T2)
Nvel alto (T3)
1,59 3,36 3,92
1,73 4,01 4,82
3,64 3,49 3,87
1,97 2,89 5,39
4 4 4
8,93 13,75 18,00
2,23 3,44 4,50
0,91 0,21 0,54
Total 12 40,68
Este um estudo experimental com 12 unidades experimentais (amostras de tecido pancretico) e k=3 tratamentos. Cada tratamento um nvel de fator simples: concentrao de glicose. Existem 4 repeties para cada tratamento.
31
Os dados, quantidade de insulina liberada pelo tecido pancretico podem ser considerados como trs amostras aleatrias, cada uma com r=4 repeties, ou de tamanho r=4 sorteadas de trs populaes. Dado que os tratamentos so designados s unidades experimentais completamente ao acaso, este delineamento denominado de DELINEAMENTO INTEIRAMENTE AO ACASO (DIC). Em geral, em um DIC, um nmero fixo de k tratamentos so sorteados s N unidades experimentais de tal forma que o i-simo tratamento sorteado a exatamente ri unidades experimentais. Assim, ri o nmero de repeties do i-simo tratamento e
Nrrrr k321 =++++ ... . No caso em que ri so iguais, i.., rrrrr k321 ===== ... , ento rkN = e o delineamento balanceado.
Notao:
Repeties Tratamento 1 2 3 ... j ... r Total Mdia 1 y11 y12 y13 ... ... ... y1r +1y +1y 2 y21 y22 y23 ... ... ... y2r +2y +2y 3 y31 y32 y33 ... ... ... y3r +2y +2y . . . i . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
... yij . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. k yk1 yk2 yk3 ... ... ... ykr +ky +ky N=rk
++y ++y
Convenes:
++ ii yey representam, respectivamente, o total e a mdia do i-simo tratamento, respectivamente,
++++ yey representam, respectivamente, o total geral (soma de todas as observaes) e a mdia geral de todas as observaes.
2. ANLISE DE VARINCIA (ANOVA).
O mtodo da anlise de varincia pode ser visto como uma extenso do teste t de student para amostras independentes. Como no teste t de amostras independentes, o mtodo da ANOVA compara uma medida da magnitude da variabilidade observada dentro das k amostras com uma medida da variabilidade entre as mdias das k amostras.
3. MODELO MATEMTICO DO DIC COM EFEITOS DE TRATAMENTOS FIXOS. O modelo associado ao DIC com efeitos fixos
ijiij ey ++= , sendo,
ijy a observao na unidade experimental que recebeu o i-simo tratamento na j-sima repetio;
32
a mdia geral comum a todas as observaes definida como
,N
rk
1iii
==
com i a mdia populacional do i-simo tratamento;
i o efeito do i-simo tratamento na varivel dependente Y e mede o afastamento da mdia i em relao a , isto , = ii ; e
ije um erro casual no observvel. Pela definio de e i acima, temos que este modelo possui a
restrio=
=k
1iii 0n i , pois, 0rrrr i
k
1iii
k
1iii
k
1ii ===
===
)( .
4. SUPOSIES ASSOCIADAS AO MODELO.
As suposies usualmente associadas aos componentes do modelo do DIC so que os ije so variveis aleatrias independentes e identicamente
distribudas com distribuio ),( 20N . Como os ijy so funes lineares dos
ije , das suposies sobre os erros decorre que: iiijyE =+=)( ; ;)( 2ijyVar = ijy so normalmente distribudos e independentes, ou, resumidamente
que ),(~ 2iij Ny . Portanto, estamos supondo que as observaes do experimento a ser analisado correspondem a amostras aleatrias de k populaes normais com a mesma varincia e que podem ou no ter mdias diferentes. A figura abaixo representa graficamente esse fato, considerando, no caso, trs tratamentos. 1 2 3 Figura: Ilustraes das suposies do modelo matemtico associado ao DIC com um fator fixo.
5. HIPTESES ESTATSTICAS. A Hiptese geral :
0H k210 ==== ...: , ou seja, vamos testar a no existncia de efeito do fator (tratamento).
1
2
3
33
6. PARTIO DA SOMA DE QUADRADOS.
Voltemos ao quadro de representao das observaes no DIC na pgina 30 Podemos identificar os seguintes desvios:
++ yy ij , como o desvio de uma observao em relao a mdia amostral geral;
+ iij yy , como o desvio da observao em relao mdia de seu grupo ou do i-simo tratamento;
+++ yy i , como o desvio da mdia do i-simo tratamento em relao mdia geral.
Consideremos a identidade
)()()( ++++++ += yyyyyy iiijij , a qual diz que a a variao de uma observaes em relao mdia geral amostral igual soma variao desta observao em relao mdia de seu grupo com a variao da mdia do i-simo tratamento em que se encontra esta observao em relao mdia geral amostral . Elevando-se ao quadrado os dois membros da identidade acima e somando em relao aos ndices i e j, obtemos:
2
1
2
1 1 1 1
2 )()()( +++== = = =
+++ += yyryyyy ik
ii
k
i
r
j
k
i
r
jiijij
i i
,
os duplos produtos so nulos. O termo
= =
++k
1i
r
1j
2ij
i
yy )( ,
denominado de Soma de Quadrados Total e vamos denot-lo por SQT.O nmero de graus de liberdade associado SQT kr - 1, ou N 1, pois temos N observaes e a restrio
= =
++ =k
1i
r
1jij
i
0yy )( .
A componente:
= =
+k
1i
r
1jiij
i
yy )( ,
denominada de Soma de Quadrados Residual, representada por SQR, e uma medida da homogeneidade interna dos tratamentos. Quanto mais prximas estiverem as observaes dentro de cada grupo (tratamento), menor a SQR. Notem que a magnitude da SQR no depende da diferena entre as mdias dos tratamentos. Considerando apenas o i-simo tratamento, temos que
=
+ir
1j
2iij yy )(
Possui ri 1 graus de liberdade. Assim, o nmero de graus de liberdade associado SQR :
34
=
==jk
1ii kNkkr1r )( .
A componente 2ik
1ii yyr )( +++
=
, mede a variabilidade entre as mdias dos tratamentos e por isso denominada de Soma de Quadrados Entre Tratamentos, representada por SQTr. Quanto mais diferentes entre si forem as mdias dos tratamentos, maior ser a SQTr. Desde que temos k tratamentos e a restrio de que
0yyr ik
1ii = +++
= )( , A SQTr possui k - 1 graus de liberdade. Com esta notao, podemos escrever que: SQT = SQR + SQTr.
7. QUADRADOS MDIOS.
Dividindo a SQR e SQTr pelos correspondentes graus de liberdade, obtemos, respectivamente o Quadrado Mdio Residual (QMR) e o Quadrado Mdio Entre Tratamentos (QMTr), isto ,
1kSQTrQMTre
kNSQRQMR
=
=
8. ESTATSTICA E REGIO CRTICA DO TESTE.
A estatstica para o teste
QMRQMTrFc = ,
a qual, deve ser prximo de 1 se H0 for verdadeira, enquanto que valores grandes dessa estatstica so uma indicao de que H0 falsa. A teoria nos assegura que Fc tem, sob H0 distribuio F Snedecor com (k -1) e (N k) graus de liberdade. Resumidamente, indicamos:
0KN1kc HsobFF ,~ ),( . Rejeitamos H0 para o nvel de significncia se
,),,( KN1kc FF > sendo, ),,( KN1kF o quantil de ordem )( 1 da distribuio F-Snedecor com (k -1) e (N k) graus de liberdade. Graficamente temos:
35
9. QUADRO DA ANLISE DE VARINCIA (ANOVA). Dispomos as expresses necessrias ao teste na Tabela abaixo denominada de Quadro de Anlise de Varincia (ANOVA). Fonte de g.l. SQ QM Fc variao
Entre Tratamentos
k - 1 N
Yr
Y 2r
1i i
2i
i )( ++=
+ 1kSQTrQMTr
= QMRQMTr
Resduo (dentro dos tratamentos)
N - k
= = =
+k
1i
r
1j
k
1i
2i2
ij rY
Y)(
kNSQRQMR
=
TOTAL
N - 1
= =
++k
1i
r
1j
22
ij NY
Y)(
Pode-se provar que:
2QMRE =)( , ou seja, QMR um estimador no viesado da varincia 2 ;
=
+=k
1ii
2
1krQMTrE
)()( , ou seja, QMTr um estimador no
viesado da varincia 2 se a hiptese 0H k210 ==== ...: verdadeira.
10. DETALHES COMPUTACIONAIS.
Apresentaremos alguns passos que facilitam os clculos das somas de quadrados da ANOVA.
Calcule a correo para a mdia N
yCM
2)( ++= ;
36
Calcule a Soma de Quadrados dos Totais (SQT)
CMySQTk
1i
r
1j
2ij
i
= = =
;
Calcule a Soma de Quadrados Entre os Tratamentos (SQTr)
CMr
YSQTr
ir
1i i
2i =
=
+ ;
Calcule a Soma de Quadrados Residual (SQR) pela diferena, isto , SQTrSQTSQR = ;
Calcule os Quadrados Mdios Entre os Tratamentos (QMTr) e o
Quadrado Mdio Residual (QMR) kN
SQRQMRe1k
SQTrQMTr
=
=
Calcule Fc para tratamentos QMRQMTrFc =
Notem que estas frmulas computacionais assumem que existe ri repeties para o i-simo tratamento; consequentemente, para um experimento balanceado com r repeties para cada tratamento, ri deve ser substitudo por r. Estas vrias soma de quadrados obtidas nestes cinco passos podem ser resumidas no quadro da ANOVA apresentado no item 8.
11. EXEMPLOS
EXEMPLO 1 Vamos considerar os dados apresentados no item 1. Desejamos testar a
hiptese nula jiparummenospeloparaH
H
ji1
3210
==
::
Os clculos para montarmos o quadro da ANOVA so: temos k = 3, r = 4, e N = 3x4 =12. Ento
Graus de liberdade:
9312kNs2131kTrat111121NTotal
=========
Re.;
91137126840CM
2
,),( ==
28151813718153CM395731591SQT 222 ,,,),(...),(),( ==+++=
30109113720148CM40018
47513
4938SQTr
222
,,,),(),(),( ==++=
98430102815SQTrSQTSQR ,,, ===
5509984QMRe155
23010QMTr ,,,, ====
319550984
QMRQMTrFc ,,
,===
37
O quadro da ANOVA para a varivel insulina liberada o seguinte:
Fonte de g.l. SQ QM Fc
variao Entre Tratamentos 2 10,30 5,15 9,31
Resduo
(dentro dos tratamentos)
9 4,98 0,55
TOTAL 11 15,28
Das tabelas das distribuies F, temos que
0228Fe2574F 0109205092 ,, ),,,(),,,( == . O valor Fc=9,31 maior do que estes valores tabelados, ento rejeitamos a hiptese nula H0 a um nvel
%,, 1ou010= de probabilidade (se significativo a 1%, logo tambm significativo a 5%).
Podemos concluir que, para um nvel de %,, 1ou010= , que a quantidade de insulina liberada diferente para pelo menos dois nveis de glicose.
38
Resolvendo o exemplo 1 no R
Resultado da anova no R pelos comandos bsicos
Outra forma de obter o quadro da ANOVA pelos comandos do pacote ExpDes
Resultados da anova pelo comando da pacote ExpDes
Podemos chegar a mesma concluso anteriormente, simplesmente analisando o valor de p (Pr>Fc, (p=0,006445)), o qual bem menor que 0,01, sem recorrer tabela F. Assim o teste significativo (p=0,006445), rejeitamos H0 e conclumos que a quantidade de insulina liberada diferente para pelo menos dois nveis de glicose.
Df Sum Sq Mean Sq F value Pr(>F) trat 2 10.2967 5.1483 9.3054 0.006445 ** Residuals 9 4.9794 0.5533 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
# # exemplo 1 da Aula 3 (DIC) pg 29 # # entrando com os dados insulina
39
O R armazena os valores da tabela da anova acima na forma matricial (2 x 5), ou seja, para obtermos, por exemplo, o valor da soma de quadrados dos tratamentos (SQTr), definimos o seguinte objeto
sqtr
40
24,815
67,12369,14003
07,4202==== QMReQMTr
89,16924,8
69,1400===
QmRQMTrFc
O quadro da ANOVA para a varivel peso (kg) o seguinte:
Fonte de g.l. SQ QM Fc variao Entre Tratamentos
3 4202,07 1400,69 169,89
Resduo (dentro dos tratamentos)
15 123,67 8,24
TOTAL 18 4325,75
Resolvendo no R
Resultados da anova pelos comandos bsicos do R
# # exemplo 2 da Aula 3 (DIC) pg 38 # # entrando com os dados de peso corporal pc
41
Resultados da anova pelos comandos do pacote ExpDes
Das tabelas das distribuies F, temos que 4175Fe2873F 010153050153 ,, ),,,(),,,( == . O valor Fc=169,89 maior que estes valores, ento, rejeitamos a hiptese nula H0 a um nvel %,, 1ou010= de probabilidade (se significativo a 1%, logo tambm significativo a 5%). Graficamente a regra de deciso fica
Podemos concluir que, para um nvel de %,, 1ou010= , que os pesos dos porcos so diferentes para pelo menos duas dietas. Ateno!!!!
Pode-se chegar a esta mesma concluso somente pelo valor de p da estatstica F calculada, o qual p = 8,45 e-12, bem menor que 0,001, portanto significativo a 0,1%. (Refazer este exemplo no R)
12 ESTIMADORES DE MNIMOS QUADRADOS. Nesta seo mostraremos os estimadores do modelo do DIC ijiij ey ++= . Estes estimadores so obtidos minimizando-se a expresso do erro deste modelo
= =
k
1i
r
1j
2ijij
i
yy )(
Em relao a ie , i=1, 2, ...k, sujeito a restrio =
=k
1iii 0r . Assim
procedendo, obtemos os estimadores de +++++ == yyey ii e de k21iy iii ...,,,, === + .
Para construir um intervalo de confiana para a mdia de cada tratamento, devemos notar que:
------------------------------------------------------------------------ Analysis of Variance Table ------------------------------------------------------------------------
DF SS MS Fc Pr>Fc Treatament 3 4202.1 1400.69 169.88 8.4501e-12 Residuals 15 123.7 8.24 Total 18 4325.7 ------------------------------------------------------------------------ CV = 3.68 % ------------------------------------------------------------------------
42
)(~ kn
i
ii t
rQMR
y
+ ,
i.., tem distribuio t Student com (n k) graus de liberdade. Um intervalo de confiana para i com um coeficiente de confiana )( 1 dado por
rsQMty1IC
kN2
iiRe);(
);( += ,
sendo, ),( kN
2
t
o quantil de ordem )( 21 da distribuio t Student com (n
k) graus de liberdade, os mesmos graus de liberdade do resduo da ANOVA. Como primeiro exemplo, vamos considerar os dados do experimento apresentado no item 11. As mdias destes dados so:
1379ygeralmdiaae2486
52431ye
351004
4401y 30695
50346y ; 62605
303,1y
4
321
,,,
;,,;,,,
===
======
+++
+++
do quadro da ANOVA temos o valor do QMR para calcular desvio
padro mdio para os tratamentos 1, 2 e 4
31155578
rQMR
i
,, == . Para o terceiro tratamento o erro padro
mdio 46145578
rQMR
i
,, ==
o valor de 13142t 150250 ,);,( = . Assim, os intervalos so:
3ipara461y4557813142y95IC
4e21ipara311y5557813142y95IC
iii
iii
===
===
++
++
,,,,%);(
,,,,,,%);(
Dieta 1 Dieta 2 Dieta 3 Dieta 4
iy 60,62 69,30 100,35 86,24
%),( 95IC i (59,31; 61,93)
(67,99; 70,61) (98,89; 101,81) (84,93; 87,55)
Problema: identificar quais as Dietas (tratamentos) que tiveram efeitos no nulos sobre o peso dos sunos. Como segundo exemplo, vamos considerar os dados do experimento apresentado no item 1, cujos clculos foram mostrados no item 10. As mdias destes dados so:
393y
e50440018y 443
47513y ; 232
48,93y 321
,
,,;,,,
=
======
++
+++ ;
43
do quadro da ANOVA temos os valores de SQR para calcular
372045530
rQMR ,, == ;
o valor de 2622t 90250 ,),,( = . Assim, os intervalos so:
8410y455302622y95IC iii ,,,%);( == ++
Nvel baixo de glicose
Nvel mdio de glicose
Nvel alto de glicose
iy 2,23 3,44 4,50
%),( 95IC i (1,389; 3,071) (2,599; 4,281) (3,659; 5,341) Problema: identificar quais os nveis de glicose (tratamentos) que tiveram efeitos no nulos sobre a liberao de insulina dos tecidos. Resolvendo no R 13 COEFICIENTES DE DETERMINAO (R2) E DE VARIAO (CV).
A parte da Soma de Quadrados Total (SQT), a variao total nas observaes , que pode ser explicada pelo modelo matemtico do DIC, denominada de coeficiente de determinao. Assim, o coeficiente de determinao para modelo do DIC, ijiij ey ++= , definido como
SQTSQTrR 2 = .
Pode ser verificado que 1R0 2 e que 1R 2 = quando toda variabilidade nas observaes esta sendo explicada pelo modelo matemtico do DIC. A variabilidade entre as unidades experimentais de experimentos envolvendo diferentes unidades de medidas e/ou tamanhos de parcelas pode ser comparada pelos coeficientes de variao, os quais expressam o desvio padro por unidade experimental como uma porcentagem da mdia geral do experimento, ou seja,
glr
44
100ySCV *
++
= .
Da ANOVA sabemos que QMRS = , da resulta que
100yQMRCV *
++
= .
Como exemplo vamos considerar os dados do experimento apresentado no item 1, cujos clculos foram mostrados no item 10. Neste exemplo temos:
674028153010
SQTSQTrRento3010SQTre2815SQT 2 ,
,,,,, =====
%,*,,* 8821100393550100
yQMRCV ===
++
Conclumos que 67,4% da variabilidade que existe nas observaes deste experimento so explicadas pelo modelo matemtico do DIC e que este experimento apresenta um coeficiente de variao de aproximadamente 22%. Resolvendo no R
14. CHECANDO AS VIOLAES DAS SUPOSIES DA ANOVA.
Falando de um modo geral, o teste F da ANOVA no muito sensvel s violaes da suposio de distribuio normal. Ele tambm moderadamente insensvel s violaes de varincias iguais, se os tamanhos das amostras so iguais e no muito pequenas em cada tratamento. Entretanto, varincias desiguais podem ter um efeito marcante no nvel do teste, especialmente se amostras pequenas esto associadas com tratamentos que tm as maiores varincias. Existe uma srie de procedimentos para se testar se as suposies da ANOVA so violados. Entre estes temos o teste de Anderson-Darling, teste de Shapiro-Wilks e teste de Kolmogorov-Smirnov, que testam a normalidade da populao. A igualdade das varincias (homocedasticidade) pode ser testada pelos testes de Bartlett e de Levene. Com o advento dos modernos computadores, mtodos grficos so ferramentas muito populares para checar as violaes das hipteses da ANOVA. Alguns destes mtodos grficos mais comumente usados para checar as suposies da ANOVA so baseados em grficos denominados grficos dos resduos.
Resduos. O resduo correspondente a uma observao ijy definido como:
+=== iijiijijijij yyyyye ,
# # calculo do CV # cv
45
ou seja, o resduo corresponde parte da observao que no foi explicada pelo modelo. Calculando os resduos correspondentes a todas as observaes de um experimento e analisando-os descritivamente de forma apropriada, podemos saber se as suposies da ANOVA esto sendo satisfeitas.
Grfico dos resduos para testar a normalidade. Tcnicas grficas para checar se uma amostra de resduos provenientes de uma populao normal incluem os grficos do Histograma, do Box Plot, etc. Outra importante tcnica o grfico q-q normal (quantile-quantile normal plot). O grfico q-q normal, um grfico entre os resduos e um conjunto de percentis devidamente escolhidos da normal padronizada. Sob a hiptese de normalidade este grfico q-q normal deve se aproximar de uma reta. Se o grfico sigmide uma indicao de que a populao tem as caudas pesadas ou leves. A assimetria indicada por grficos cncavos (assimetria a esquerda) e convexos (assimetria a direita). O primeiro passo na construo de um grfico q-q normal o clculo de
,
1Neresduosden
p ijij +
= a qual denominada de probabilidade emprica
acumulada, e est associada a todo ije , de tal forma que 1Nedeposto
p ijij += .
Por exemplo, a probabilidade emprica acumulada associada ao resduo, cujo posto o sexto (seu rank=6) em um conjunto de N=10 resduos p=6/11 = 0.545. O grfico q-q normal de um conjunto de resduos obtido com o grfico dos resduos ije vs
,)1( ijij pzq = Sendo que: z o valor critico de nvel de uma distribuio normal padronizada Exemplo: vamos considerar os dados apresentados no item 1. Vamos construir um grfico q-q normal para ver se a suposio de normalidade parece razovel para a quantidade de insulina liberada O Quadro abaixo apresenta os dados, o valor estimado pelo modelo, os resduos e os percentis associados: i j Yij Yest eij R(eij) Pij qij 1 1 1.59 2.23 -0.64 1 0.077 -1.426 1 2 1.73 2.23 -0.50 5 0.385 -0.293 1 3 3.64 2.23 1.41 12 0.923 1.426 1 4 1.97 2.23 -0.26 6 0.462 -0.097 2 1 3.36 3.44 -0.08 7 0.538 0.097 2 2 4.01 3.44 0.57 10 0.769 0.736 2 3 3.49 3.44 0.05 8 0.615 0.293 2 4 2.89 3.44 -0.55 4 0.308 -0.502 3 1 3.92 4.50 -0.58 3 0.231 -0.736 3 2 4.82 4.50 0.32 9 0.692 0.502 3 3 3.87 4.50 -0.63 2 0.154 -1.020 3 4 5.39 4.50 0.89 11 0.846 1.020
e o grfico q-q normal ( )ijij qxe fica sendo:
46
e os grficos do Histograma e do Box Plot dos resduos ficam:
Pelo grfico qq normal, pelo histograma e pelo Box-Plot razovel supor a normalidade para os dados de liberao de insulina. A seqncia de comandos no R que fornece os resultados acima so: Porm, estes recursos grficos no so quantitativos. necessrio um teste. O programa R fornece o teste de normalidade de Shapiro-Wilks , o qual testa as hipteses:
normaldistruiotemnoamostradapopulaoaHnormaldistruiotemamostradapopulaoaH
::
1
0
),0(:
),0(~:2
1
20
NtemnoeH
NeHou
ij
ij
residuo
47
No resultado fornecido pelo R e pelo valor de p (p=0,08657) associado a estatstica W de Shapiro-Wilks, no rejeitamos 0H , logo razovel supor a normalidade para os dados de liberao de insulina. Para o teste da homogeneidade da varincia o R fornece o teste de Bartlett, o qual testa as hipteses
jiHH
2j
2i1
23
22
210
==
::
Pelos resultados destes testes no rejeitamos 0H , o nvel mnimo de significncia do teste p=0,5299 (p>0,05). O teste no significativo. Conclumos, ento, que a homogeneidade das varincias uma suposio plausvel para os dados da liberao da insulina. Assim razovel supor que este conjunto de dados suporta as suposies bsicas de normalidade e homogeneidade da varincia para a correta aplicao da ANOVA. Abaixo esta os comandos no R que testam as suposies da normalidade e da homogeneidade das varincias no DIC
15. vantagens e desvantagens do DIC. As principais vantagens do DIC so:
fcil de ser planejado e flexvel quanto ao nmero de tratamento e de repeties tendo como nica limitao o nmero de unidades experimentais disponveis para o experimento;
o nmero de repeties pode variar de tratamento para tratamento, embora o desejvel ter o mesmo nmero de unidades experimentais em todos os tratamentos;
o DIC proporciona o nmero mximo de graus de liberdade para o resduo;
a anlise estatstica simples mesmo que se perca algumas unidades experimentais.
Algumas desvantagens so:
mais apropriado para um pequeno nmero de tratamentos e para um material experimental homogneo;
todas as fontes de variao no associadas aos tratamentos faro parte do resduo, podendo comprometer a preciso das anlises;
super-estima a varincia residual.
# teste de Shapiro-Wilks de normalidade shapiro.test(residuo) # teste de Bartlett da homogeneidade das varincias bartlett,test(insulina ~ trat)
Shapiro-Wilk normality test data: res W = 0.8796, p-value = 0.08657.
Bartlett test of homogeneity of variances data: insulina by trat Bartlett's K-squared = 1.27, df = 2, p-value = 0.5299
48
RESUMO. O DIC mais til onde no existe nenhuma fonte de variao identificvel entre as unidades experimentais, exceto s dos efeitos dos tratamentos. o mais flexvel com respeito ao arranjo fsico das unidades experimentais. Ele maximiza os graus de liberdade para a estimao da varincia por unidade experimental (erro experimental ou erro residual) e minimiza o valor da estatstica F requerido para a significncia estatstica. Resolvendo o exemplo 1 utilizando o pacote EXpDes no R Pacotes (packages) ou bibliotecas (library) so os nomes mais usados para designar conjuntos de funes, exemplos, e documentaes desenvolvidas para determinadas tarefas. Os comandos bsicos do R, por exemplo, esto em uma biblioteca, chamada, base. Existem inmeras bibliotecas, algumas j inclusas na instalao do R.
No R podem-se encontrar pacotes desenvolvidos pelos responsveis pelo R ou implementados por usurios.
LEITURAS RECOMENDADAS CAPITULO 3
VIEIRA, S. Anlise de Varincia. So Paulo, 2. ed., Atlas: 2006. 204p. VIEIRA, S. Estatstica Experimental. So Paulo, 2.ed., Atlas, 1999.
185p. SHCHLOTZHAUER, S. LITTELL, R. C. SAS System for elementary
statistical analysis. 2.ed.Cary, NC: SAS Institute Inc.1999, 456p.
SAMPAIO, I.B.M. Estatstica aplicada experimentao animal. Belo
Horizonte: Fundao de Ensino e Pesquisa em Medicina Veterinria e
Zootecnia, 3 ed. 2010. 264p.
PEREZ, P.A., SALDIVA, C. D. Planejamento de experimentos. 5
SIMPSIO NACIONAL DE PROBABILIDADE E ESTATSTICA. 1981, 98p.
PETERNELLI, A., MELLO, M. P. Conhecendo o R : uma viso estatstica. Viosa: Editora UFV, 2. ed. 2011, 185p.
CRAWLEY, M.J. The R Book. Wiley and Sons, Ltd, 2006, 949p. (pdf)
RIBEIRO JNIOR, P. J. R. Introduo ao Ambiente R (apostila disponvel em http://www.leg.ufpr.br/~paulojus/embrapa/Rembrapa/)
# executando a anlise de varincia pelo pacote ExpDes
install.packages("ExpDes") # Ateno! necessrio uma conexo com a internet
require(ExpDes) # requerendo o pacote ExpDes
49
CAPITULO 4. Testes de Comparao Mltiplas
1. TESTES DE COMPARAES MLTIPLAS
Os testes de comparaes mltiplas tambm, conhecidos como testes de comparaes de mdias, servem como um complemento ao teste F da anlise de varincia quando este significativo e so usados para detectar diferena entre mdias. Vejamos o exemplo a seguir
Exemplo 1. Em um experimento de alimentao de porcos, foram utilizados quatro raes (A, B, C e D), cada uma fornecida a 5 animais. Os ganhos de peso, kg, foram:
Raes A B C D 35 40 39 27 19 35 27 12 31 46 20 13 15 41 29 28 30 33 45 30
Calculando-se as somas de quadrados podemos construir o seguinte quadro de anlise de varincia:
Fonte de g.l. SQ QM Fc
variao Entre Tratamentos
(Raes) 3 823,75 274,58 3,99
Resduo
(dentro dos tratamentos - Raes)
16 1100,00 68,75
TOTAL 19 1923,75
Das tabelas das distribuies F, temos que
295Fe243F 010163050163 ,, ),,,(),,,( == . O valor Fc=3,99 maior que o valor do F tabelado a 5%, ento, rejeitamos a hiptese nula H0 a %5 de probabilidade.
Dvida: Qual a rao que tem o melhor desempenho no ganho de peso?
Para responder a questo, conheceremos alguns PROCEDIMENTOS DE COMPARAES DE MLTIPLAS ou MTODOS DE COMPARAES DE MDIAS, como por exemplo, os testes t-Student , Scheff, Tukey, Duncan, Dunnett e Bonferroni, dentre outros.
50
2. DEFINIES BSICAS INICIAIS.
Consideremos um experimento com k tratamentos, cujas mdias populacionais so K21 ...,,, e cujas estimativas k21 xxx ...,,, foram obtidas de amostras de tamanhos r1, r2, ..., rK.
Definio 1 Um contraste de mdias qualquer funo do tipo
kk2211 cccY +++= ... ,
com =
=+++=k
1ik21i 0cccc ... e i , a mdia do tratamento i=1, 2, ...,
k
Definio 2
Dizemos que dois contrastes so ortogonais se =
=k
1i i
ii 0rba
. Quando o
experimento balanceado (ri = r) a condio de ortogonalidade que a soma
dos produtos de seus coeficientes nula, i.., =
=k
1iii 0ba .
Quando um experimento envolve k tratamentos, podemos definir diversas comparaes entre as k mdias, mas somente (k 1) so ortogonais;
Nos contrastes envolvendo duas mdias podemos definir
21kk )( contrastes possveis, os quais no so ortogonais.
Supondo que os tratamentos tm varincia constante 2 e que uma estimativa no viesada desta varincia o QMR da ANOVA, tem-se que:
kn xcxcxcxcY ++++= 332211 um estimador no viesado do contraste kk2211 cccY +++= ... ;
i
2n
1i
2i
i
22n
22
21 r
cr
cccYV =
=+++= )()( e um estimador no
viesado i
n
1i
2i
i
2n
22
21 r
QMRcr
QMRcccYV =
=+++= )()( , se o
experimento balanceado r1= r2 = ...= rK =r, as expresses acima ficam, respectivamente,
rc
rcccYV
2n
1i
2i
22n
22
21
=
=+++= )()( e
rQMRc
rQMRcccYV
n
1i
2i
2n
22
21
=
=+++= )()(
51
Exemplo 2. Em um experimento dois antibiticos em duas dosagens cada um para a cura da mastite em bovinos. A varivel resposta tempo de cura em dias
Tratamento Descrio 1 Dose baixa da
droga A 2 Dose alta da
droga A 3 Dose baixa da
droga B 4 Dose alta da
droga B Podemos definir os seguintes contrastes:
43211Y += : compara as doses da droga A com as doses da droga B;
212Y = : compara as doses da droga A; 433Y = : compara as doses da droga B.
A afirmao de que o contraste Y1 nulo (Y1 = 0) o mesmo que afirmar
que: 22
queou 43214321
+
=+
+=+ ,, , ou ainda, que a
mdia dos tratamentos 1 e 2 igual mdia dos tratamentos 3 e 4. Para verificarmos se estes contrastes so ortogonais aconselhvel uma tabela com os coeficientes dos (k 1) contrastes e a partir da, verificar que a soma dos produtos dos coeficientes, aos pares, nula.
Contraste 1 2 3 4
1Y +1 +1 -1 -1
2Y +1 -1 0 0
3Y 0 0 +1 -1 Portanto estes contrastes so ortogonais 2 a dois e ortogonais entre si.
3. TESTE t - STUDENT
O teste t student pode ser utilizado para comparar mdias de tratamentos. Os requisitos bsicos para sua utilizao so:
as comparaes devem ser determinadas a priori, ou seja, antes de serem examinados os dados.
no existe limite para o nmero de contrastes envolvendo as mdias de tratamentos, porm, o nmero de contrastes ortogonais , no mximo, igual ao nmero de graus de liberdade dos tratamentos.
A ortogonalidade entre os contrastes de mdias garante independncia entre as concluses.
52
O objetivo testar a hiptese
0YH0YH
i1
i0
=
::
,
Usamos a estatstica ),(
1
2
~
)(
resglk
ii
ii tc
rQMR
Y
YV
Yt
=
== , a qual sob H0
verdadeira tem distribuio t-student com o mesmo nmero de graus de liberdade do resduo, no DIC ( n-k ). Para um valor fixado de nvel de significncia , devemos buscar o valor de t tabelado (arquivo Tab_tstudent, disponibilizado na pgina ou nos livros indicados na bibliografia) e compar-lo com o valor da estatstica tc , calculada para o contraste Yi e aplicar a regra de Deciso:
Se Tabeladoc tt rejeitamos H0 para um determinado valor de ,
geralmente 5% ou 1%, caso contrrio ( Tabeladoc tt < ), no rejeitamos H0.
(veja o esquema grfico desta regra de deciso apresentado no item 6 da 2 Aula).
Exemplo 2: Num experimento inteiramente casualizado com 4 tratamentos e 4 repeties, estudaram-se os efeitos de Bacitracina de zinco(BDZ) e Anti-stress sobre frangos de corte alimentados com raes base de sorgo, desde a fase inicial at a final. A resposta medida foi converso alimentar. Foram utilizados os seguintes tratamentos:
Tratamento Descrio Mdia(kg) 1 Concentrado Comercial + Milho 2,03 2 Concentrado Comercial + Sorgo 2,24 3 Concentrado Comercial + Sorgo +
BDZ 2,04
4 Concentrado Comercial + Sorgo + Anti-stress
2,22
Sabendo-se que da ANOVA o valor do 00443750QMR ,= , com 12 graus de liberdade. Pode - se estabelecer os contrastes de mdias dos tratamentos para cada componente do desdobramento:
Milho vs. sorgos, o qual expresso pela combinao linear 4321143211 xxxx3Yporestimado3Y == , ;
Sorgo vs. Sorgo + Aditivos, o qual expresso pela combinao linear 43224322 xxx2Yporestimado2Y == , ;
Bacitracina vs. Anti-stress, o qual expresso por 433433 xxYporetimadoY == , ;
53
A verificao se os contrastes so ortogonais pode ser feita facilmente no quadro abaixo: Contraste 1 2 3 4 IY
=
4
1I
2ic c
t
1Y +3 -1 -1 -1 -0,41 12 -3,55 (p=0,00198)
2Y 0 +2 -1 -1 0,22 6 2,70 (p=0,0097)
3Y 0 0 +1 -1 -0,18 2 -3,82 (p=0,0012) p< 0,01 significativo a 1% e a 5%; p< 0,05 significativo a 5% e p> 0,05 no-significativo a 5%.
O objetivo testar a hiptese 0YH0YH
i1
i0
=
::
, para i = 1,2,3.
Assim, para o contraste 1Y , temos que:
0YH0YH
11
10
=
::
0133012
400443750c
rQMRYV
e4102220422420323Y4
1i
2i1
1
,,)(
,),(),(),(),(
===
==
=
55301330
410
cr
QMRY
t4
1i
2i
1c ,,
,=
==
=
1792t 025012 ,),,( = . Como Tabc tt > , ento rejeitamos H0 (0,005
54
os animais tratados com o concentrado comercial + sorgo+BDZ tm uma converso alimentar melhor do que os animais tratados com concentrado comercial + sorgo+anti-stress.
4. TESTE DE SCHEFF.
O teste de Scheff pode testar qualquer contraste envolvendo mdias de tratamentos do tipo kk2211 cccY +++= ... definido a priori ou no, sendo baseado na estatstica S, definida como: Experimento balanceado
itodopararri =
;)1(
)()1(
1
2
),,1(
),,1(
=
==
k
i
iresglk
iresglk
rcQMRFk
YVFkS
Experimento desbalanceado jipararr ji
;)1(1
2
),,1( =
=k
i i
iresglk r
cQMRFkS
Sendo: k 1 o nmero de grau