158
UNIVERSIDADE ESTADUAL PAULISTA JÚLIO DE MESQUITA FILHO FACULDADE DE CIÊNCIAS AGRÁRIAS E VETERINÁRIAS CAMPUS DE JABOTICABAL MATERIAL DIDATICO DO CURSO ESTATISTICA EXPERIMENTAL: Com aplicaçoes em R. Medicina Veterinaria 2º Semetre de 2012 e-mail: [email protected]

UNIVERSIDADE ESTADUAL PAULISTA JÚLIO DE MESQUITA … · Medicina Veterinaria . 2º Semetre de 2012 . e-mail: [email protected] . 2 CAPITULO 1. ... de valores iguais ou maiores

  • Upload
    lykhue

  • View
    219

  • Download
    1

Embed Size (px)

Citation preview

  • UNIVERSIDADE ESTADUAL PAULISTA JLIO DE MESQUITA FILHO FACULDADE DE CINCIAS AGRRIAS E VETERINRIAS

    CAMPUS DE JABOTICABAL

    MATERIAL DIDATICO DO CURSO

    ESTATISTICA EXPERIMENTAL: Com aplicaoes em R.

    Medicina Veterinaria 2 Semetre de 2012

    e-mail: [email protected]

    mailto:[email protected]

  • 2

    CAPITULO 1. INTRODUO AO CURSO; MEDIDAS DE POSIO; MEDIDAS DE DISPERSO.

    1. SMBOLOS: CONJUNTO DE DADOS E DA SOMATRIA.

    Conjunto de dados: Considere uma varivel aleatria de interesse representada pela letra maiscula Y e os valores especficos assumidos por esta varivel aleatria pelas letras minsculas y. Para distinguir um valor do outro, utilizamos um subscrito i. Por exemplo, nyyy ,...,, 21 . Em geral, um valor tpico da varivel aleatria ser designado por yi e o valor final desta amostra por yn, sendo que n representa o tamanho da amostra. Uma notao compacta para representar a soma de todos os valores de uma varivel aleatria de interesse, por exemplo, Y,

    n

    n

    ii yyyy +++=

    =

    ...211

    A letra grega (sigma) usada como smbolo da soma para a soma e yi para o valor da observao i, denominado de sinal de soma, ser usado extensivamente neste curso. Alguns exemplos e propriedades da somatria: A soma de n nmeros nyyy ,...,, 21 pode ser expressa por

    n

    n

    ii yyyy +++=

    =

    ...211

    A soma dos quadrados de n nmeros nyyy ,...,, 21 :

    222

    2

    1

    2 ... nin

    ii yyyy +++=

    =

    A soma dos produtos de dois conjuntos de n nmeros nxxx ,...,, 21 e nyyy ,...,, 21 :

    nn

    n

    iii yxyxyxyx ...2211

    1++=

    =

    Exemplo: Considere um conjunto de 3 nmeros: 1, 3 e 6. Os nmeros so simbolizados por: .63,1 321 === yeyy A soma e a soma dos quadrados destes nmeros so:

    106311

    =++==

    n

    iiy 46631

    222

    1

    2 =++==

    n

    iiy

    Considere outro conjunto de nmeros .54,2 321 === xexx A soma dos produtos de x e y :

    44)6)(5()3)(4()1)(2(3

    1=++=

    =iii yx

    As trs principais regras da adio so:

  • 3

    1. A soma da adio de dois conjuntos de nmeros igual adio das somas

    = = =

    +=+n

    i

    n

    i

    n

    iiiii yxyx

    1 1 1)(

    2. A soma dos produtos de uma constante k e uma varivel Y igual ao produto da constante pela soma dos valores da varivel (yi)

    ==

    =n

    ii

    n

    ii ykyk

    11

    3. A soma de n constantes com valor k igual ao produto kn

    knkkkkn

    i=+++=

    =

    ...1

    Ateno: notem que o clculo da expresso =

    +++=n

    ini yyyy

    1

    222

    21

    2 ... ,

    denominada de soma de quadrados diferente do clculo da

    expresso =

    +++=n

    ini yyyy

    1

    221

    2 )...()( , quadrado da soma.

    Outras notaes:

    y+ = =

    +++=n

    1in21i yyyy ... , e n

    y

    nyy

    n

    1ii

    =+ ==

    Notao com dois subescritos. Considere dois grupos de dados

    1. grupo controle: { 5, 7, 5, 4 } , o qual representado por { }4,5,7,5 14131211 ==== yyyy ,

    2. grupo tratado: { 7 , 9 , 6 , 9 , 8 } , o qual representado por

    { }8,9,6,9,7 2524232221 ===== yyyyy ,

    sendo, i =1, 2, representando os grupos e j = 1, 2,..., ri representando as repeties dentro de cada grupo.

    Calcular o valor da expresso i

    2

    1i

    2r

    1jij

    r

    yi

    = =

    )(

    Exemplo de Tabela de dupla entrada. Qualquer observao representada por yij , sendo que, o ndice i refere-se s linhas (i=1, 2,..., k) e o ndice j refere-se s colunas (j=1, 2, ..., r).

  • 4

    Colunas Linhas 1 2 3 ... j ... r TOTAL MDIA 1 y11 y12 y13 ... ... ... y1r y1+

    +1y 2 y21 y22 y23 ... ... ... y2r y2+ .2+y 3 y31 y32 y33 ... ... ... y3r y3+

    +3y . . . i . . .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    ...

    ...

    ... yij . . .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    . yj+ . . .

    .

    .

    .

    +jy . . .

    k yk1 yk2 yk3 ... ... ... ykr yk+ +ky

    TOTAL y+1 Y+2 y+3 ... y+j ... y+r y++ MDIA

    1+y 2.+y 3+y ... jy+ ... ry+ ++y

    geralmdiaaysobservaeastodasdesomageraltotaloylinhasimaidamdiaaylinhasimaidatotaloy

    colunasimajdamdiaaycolunasimajdatotaloy

    ii

    jj

    ===

    =

    ++++

    ++

    ++

    );(;;

    ;;

    2. MEDIDAS DE TENDNCIA CENTRAL

    Um dos aspectos mais importantes do estudo de um conjunto de dados a posio do valor central. Qualquer valor numrico que representa o centro de um conjunto de dados denominado de medida de locao ou medida de tendncia central. As duas medidas mais comumente utilizadas mdia aritmtica, ou simplesmente a mdia, e a mediana.

    2.1. Mdia aritmtica. A mais familiar medida de tendncia central a mdia aritmtica. Ela a medida descritiva que a maioria das pessoas tem em mente quando elas falam de mdia. A mdia pode ser expressa como

    ny

    nyyy

    n

    yy n

    n

    ii

    += =+++

    == ...211

    Vamos supor que a varivel aleatria Y assume os seguintes valores, { 10, 54, 21, 33, 53 }, ento a mdia destes 5 valores dada por:

    2345

    1715

    53332154105

    yy

    5

    1ii

    ,==++++===

  • 5

    Propriedades da mdia; a) nica. Para um conjunto de dados existe uma e somente uma mdia aritmtica. b) Simplicidade. A mdia aritmtica fcil de ser entendida e fcil de ser calculada. c) Dado que toda observao do conjunto de dados entra no seu clculo, ela afetada por cada valor. Valores extremos tm influncia na mdia e, em algumas situaes podem ocorrer distores, o que pode torn-la uma medida indesejvel como medida de tendncia central.

    2.2 MEDIANA. Uma alternativa mdia aritmtica como medida de tendncia central a mediana. A mediana de um conjunto de valores finitos o valor que ocupa a posio central dos dados ordenados, ou seja, aquele valor o qual divide o conjunto de dados em duas partes iguais tal que o nmero de valores iguais ou maiores que a mediana igual ao nmero de valores menores ou iguais que a mediana. Temos que considerar duas situaes:

    =+

    +==

    +

    +

    )()(

    )(~

    )()(

    )(

    parnk2nseyy21

    imparn1k2nseyy

    1kk

    1k

    Exemplos: 1. Considere os dados 10, 54, 21, 33, 53 , com n=5 observaes, e a seqncia ordenada fica 10, 21, 33, 53, 54. A mediana calculada como sendo a observao que ocupa a 3 posio da seqncia ordenada, ou seja, 33yyy2ksejaou21nk1k2n 312 =====+= + )()(~,,/)( 2. Considere os dados 10, 54, 21, 33, 53, 55, e a seqncia ordenada fica 10, 21, 33, 53, 54, 55. Como o nmero de observaes par e a mediana calculada como sendo a mdia das observaes que ocupam a posio central, ou seja,

    43533321

    yy21yy

    21y3ksejaou2nkk2n 43133

    =+=

    +=+==== +

    )(

    )()(~,,/)( )()()()(

    Propriedades da mediana; a) nica. Assim como a mdia, para um conjunto de dados existe uma e somente uma mediana. b) Simplicidade. A mediana fcil de ser calculada.

  • 6

    c) Ela no drasticamente afetada por valores extremos, como a mdia.

    2.3 Moda. A moda comumente definida como a observao mais freqente do conjunto de dados. Se todas as observaes so diferentes no existe moda; por outro lado um conjunto de dados pode ter mais de uma moda. Exemplo: considere o conjunto de dados {98, 102, 100, 100, 99, 97, 96, 95, 99, 100}, ento a moda mo = 100, e no conjunto de dados, abaixo, { 20, 21, 20, 20, 34, 22, 24, 27, 27, 27} existe duas modas 20 e 27 (bimodal). a)

    b)

    c)

    d)

    Figura 1.1 Distribuies de freqncia mostrando as medidas de tendncia central. Distribuies em a) e b) so simtricas, c) positivamente assimtrica, e d) negativamente assimtrica. As distribuies a), c), e d) so unimodal, e a distribuio b) bimodal. (Obter estes resultados usando o R).

    3. MEDIDAS DE DISPERSO. Apesar das medidas de tendncia central fornecerem uma idia do comportamento de um conjunto de dados, elas podem esconder valiosas informaes. Essas medidas podem no ser suficientes para descrever ou discriminar diferentes conjunto de dados. Por exemplo, a Figura 3.1 mostra os polgonos de freqncia duas variveis que possuem a mesma mdia, mas diferentes valores de disperso. A varivel B, a qual tem maior variabilidade que a varivel A, mais espalhada. A disperso de um conjunto de dados se refere variedade que eles exibem. Uma medida de disperso fornece informao a respeito da quantidade de variabilidade presente no conjunto de dados.

  • 7

    Figura 3.1 Dois polgonos de freqncia com a mesma mdia, mas com diferentes quantidades de disperso. Se todos os valores do conjunto de dados so iguais, no existe disperso; se eles so diferentes, a disperso est presente nos dados. A quantidade de disperso pode ser pequena, quando os dados, embora diferentes, so muito prximos.

    3.1 AMPLITUDE. A amplitude definida como a diferena entre o maior e o menor valor do conjunto de dados. O problema desta mediada que ela s leva em conta dois valores do conjunto de dados e, assim, seria mais conveniente considerarmos uma mediada que utilizasse todas as observaes do conjunto de dados. A primeira idia que ocorre considerar o desvio de cada observao em relao a um ponto de referncia e ento calcular a sua mdia. Se tomarmos a mdia aritmtica como este ponto de referncia, temos a seguinte situao: Seja o conjunto de dados yeyyy n21 ...,,, , a mdia destes dados. Definiremos por yyd ii = , os desvios destas observaes em relao sua mdia. Por exemplo, considere os dados

    9ye6y5y4y 4321 ==== ,, . Assim temos:

    369d066d165d264d

    64

    9654y

    4321 ========

    =+++

    =

    )(,)(,)(,)(

    ,

    Reparem que a soma dos desvios igual a zero, ou seja,

    0d4

    1ii =

    =

    . Isto pode ser provado algebricamente, da seguinte forma,

    = = = = = ==

    =

    =

    ======n

    i

    n

    i

    n

    i

    n

    i

    n

    i

    n

    ii

    n

    ii

    n

    ii

    iiii

    n

    ii yyn

    ynyynyyyyyd

    1 1 1 1 1 11

    1

    10)(

    Portanto a soma destes desvios no seria nada informativa sobre a disperso dos dados. Definiremos ento, uma medida que utiliza o quadrado dos desvios em relao mdia.

  • 8

    3.2 VARINCIA E DESVIO-PADRO. A varincia de um conjunto de dados, definida como mdia dos desvios das observaes em relao mdia ao quadrado, ou seja,

    1nyyyyyys

    2n

    22

    212

    +++

    =)(...)()(

    Para manter a mesma unidade dos dados originais, conveniente definirmos o desvio-padro como sendo a raiz quadrada positiva da varincia s2,

    1nyyyyyys

    2n

    22

    21

    ++

    =)(...)()(

    A varincia amostral frequentemente calculada usando-se a frmula mais rpida e prtica

    =

    =

    +++

    +++

    =

    =

    =n

    i

    n

    ii

    i

    nn

    n

    yy

    n

    nyyyyyy

    ns

    1

    1

    2

    2

    22122

    221

    2

    )(

    11

    )...(...1

    1

    Exemplo: Os pesos (em pounds) de uma amostra aleatria de trutas em um lago so: 1,19; 0,93; 2,40; 1,71; 0,89; 1,74; 1,06; 1,16; 1,47; 1,15 A mdia aritmtica destes dados

    .37,110

    7,13)15,1...93,019,1(101 poundsy ==+++=

    E a varincia

    { }2

    2222

    )(2187,0

    )37,115,1(...)37,193,0()37,119,1(110

    1

    pounds

    s

    =

    +++

    =

    Alternativamente, temos

    .47,02187,0

    ,)(2187,010

    70,1374,2091

    10)15,1...93,019,1(15,1...93,019,1

    1101

    2

    22222

    poundss

    epounds

    s

    ==

    =

    =

    =

    +++

    +++

    =

    (Obter estes resultados usando o R).

  • 9

    3.3 QUARTIS. Alguns quartis so definidos de modo anlogo mediana. Assim como a mediana divide o conjunto de dados em duas partes, os quartis dividem os dados em quatro partes. O segundo quartil, representado por Q2 igual mediana, ento yQ2 ~= . O primeiro quartil, Q1 definido como aquele valor do conjunto de dados tal que no mais que 25% dos dados tm valores menores que Q1 e no mais que 75% dos dados tm valor maior que Q1. O terceiro quartil, Q3, pode ser definido de maneira similar. Assim como a mediana, mais de uma observao pode satisfazer a definio dos quartis. As seguintes frmulas podem ser utilizadas para calcular o primeiro e o terceiro quartis de um conjunto de dados

    ordenadaobservaosima4

    1n3Q

    ordenadaobservaosima4

    1nQ

    3

    1

    )( +=

    +=

    3.4 GRFICOS BOX-PLOT. O grfico tipo Box-plot um recurso visual til de comunicao da informao contida em conjunto de dados. O objetivo de um grfico tipo Box-Plot mostrar as principais caractersticas de um conjunto de dados. Para interpretar um grfico Box-Plot adequadamente, os valores devem ser visualizados como pontos de linha horizontal/vertical localizada no centro do grfico. Valores grandes correspondem a grandes pontos na horizontal/vertical. Existem trs componentes importantes no grfico Box-plot:

    A caixa, a qual contm 50% dos valores, comea no primeiro quartil Q1 e termina no terceiro quartil, Q3.

    As duas pontas (whiskers), se extendem acima e abaixo da caixa at a localizao da maior e da menor observao que esto dentro da distncia de 1.5 vezes o intervalo interquartil.

    Os valores atpicos (outliers), so os valores fora das pontas.

    Exemplo: Considere os dados a seguir, os quais se referem a peso (g) de tumores cancergenos extrados do abdome de 57 ces 68 63 42 27 30 36 28 32 79 27 22 23 24 25 44 65 43 25 74 51 36 42 28 31 28 25 45 12 57 51 12 32 49 38 42 27 31 50 38 21 16 24 69 47 23 22 43 27 49 28 23 19 46 30 43 49 12 O conjunto ordenado fica: 12 12 12 16 19 21 22 22 23 23 23 24 24 25 25 25 27 27 27 27 28 28 28 28 30 30 31 31 32 32 36 36 38 38 42 42 42 43 43 43 44 45 46 47 49 49 49 50 51 51 57 63 65 68 69 74 79

  • 10

    Assim, a menor e a maior observao 12 e 79, respectivamente. O nmero de observaes 57. O primeiro quartil a observao

    25y5144

    157Q 5141 ===+

    = ),(. g,

    e o terceiro quartil

    546y5434

    1573Q 5433 ,.)(

    ),( ===+

    = g

    (Obter estes resultados usando o R).

    3.5 Medidas da forma da distribuio

    As medidas da forma de uma distribuio so os coeficientes de assimetria (skewness) e curtosis (kurtosis). Assimetria uma medida da assimetria da distribuio de freqncia. Ela mostra se os desvios da mdia so maiores de um lado do que do outro lado da distribuio. Ela dada por

    3

    1)2)(1(=

    =

    n

    i

    i

    syy

    nnnass

    Para uma distribuio simtrica o coeficiente de assimetria zero. Ela positiva quando a cauda da direita mais alongada e negativa quando a cauda da esquerda mais alongada.

    a)

    b)

    Figura 3.3 Ilustraes da assimetria a) negativa e b) positiva

    Curtosis uma medida da forma das caudas de uma distribuio. Ela dada por

    )3)(2()1(3

    )3)(2)(1()1( 24

    1

    +

    = = nn

    ns

    yynnn

    nnctn

    i

    i

    Para variveis, tais como, peso, altura ou produo de leite, espera-se que a distribuio de freqncia seja simtrica em torno da mdia e tenha a forma de um sino. Estas so as distribuies normais. Se as observaes tm distribuio normal ento a curtosis igual a zero (ct = 0). Uma distribuio com curtosis positiva tem uma grande freqncia de observaes prximas da mdia e caudas finas. Uma distribuio com curtosis negativa tem as caudas mais grossas e uma baixa freqncia de dados perto da mdia. Abaixo esto estas estatsticas calculadas por meio do programa MiniTab V 13 juntamente com o grfico tipo BOX - PLOT

  • 11

    Estatstica descritiva : P_Tumor

    Variable N Mean Median StDev SE Mean P_Tumor 57 36.72 32.00 15.87 2.10

    Variavel Minimum Maximum Q1 Q3 P_Tumor 12.00 79.00 25.00 46.50

    10 20 30 40 50 60 70 80Peso do Tumor

    Boxplot da varivel Peso do Tumor

    25,0 32,0 46,5

    A caixa o Interv alo interquartil = Q3-Q2=21,5

    observ ao atpica "outlier"

    O exame desta Figura revela que 50% das observaes esto entre os valores 25 e 46.5, aproximadamente o primeiro (Q1) e o terceiro (Q3) quartis. A linha vertical dentro da caixa mostra o valor da mediana, Q2, a qual 32. A longa cauda a direita do grfico indica que a distribuio de peso de tumores levemente assimtrica direita. O asterisco indica que existe uma observao atpica neste conjunto de dados, observao cujo valor 79, com uma probabilidade de ocorrncia muito baixa. Outro resultado fornecido pelo MiniTab V13

    7560453015

    95% Confidence Interval for Mu

    43383328

    95% Confidence Interval for Median

    Variable: P_Tumor

    28.0000

    13.3943

    32.5097

    Maximum3rd QuartileMedian1st QuartileMinimum

    NKurtosisSkewnessVarianceStDevMean

    P-Value:A-Squared:

    42.0000

    19.4626

    40.9289

    79.000046.500032.000025.000012.0000

    570.1301840.761265

    251.70615.865236.7193

    0.0061.113

    95% Confidence Interval for Median

    95% Confidence Interval for Sigma

    95% Confidence Interval for Mu

    Anderson-Darling Normality Test

    Descriptive Statistics

    Esta sada mostra a relao entre o Histograma e o grfico BOX PLOT dos dados.

  • 12

    3.6 Coeficiente De Variao. O desvio-padro til como medida de variao dentro de um conjunto de dados. Quando desejamos comparar a disperso de dois conjuntos de dados, a comparao dos desvios-padres dos dois conjuntos de dados pode nos levar a concluses falsas. Pode acontecer que as duas variveis envolvidas esto medidas em unidades diferentes. Por exemplo, podemos estar interessados em saber se os nveis do soro de colesterol, medido em miligramas por 100 ml so mais variveis do que o peso corporal, medido em kilograma. O que necessrio nesta situao o uso de uma medida de variao relativa do que uma medida absoluta. Tal medida o COEFICIENTE DE VARIAO (CV), a qual expressa o desvio padro como uma porcentagem da mdia, e sua frmula

    )%(100yscv = ,

    a qual uma medida independente da unidade. Exemplo: considere os valores abaixo de mdia e desvio-padro de dois grupo de ces, identificados pelas suas idades

    Amostra 1 Amostra 2 Grupo 10 anos 4 anos Peso mdio 145 80

    Desvio-padro 10 10

    Uma comparao dos seus respectivos desvios-padres leva a uma concluso de que as duas amostras tm a mesma variabilidade. Se calcularmos os coeficientes de variao, para o grupo 1

    %,)( 9610014510cv ==

    e para o grupo 2,

    %,)( 5121008010cv == .

    Comparando estes resultados temos uma impresso bem diferente. O grupo 2 tem uma variabilidade de 1,8 vezes maior em relao ao grupo 1. O coeficiente de variao muito til na comparao de resultados obtidos por diferentes pesquisadores que investigam a mesma varivel. Visto que o coeficiente de variao independente da unidade, ele til para comparar a variabilidade de duas ou mais variveis medidas em diferentes unidades.

  • 13

    4.ESTATSTICA EXPERIMENTAL

    4.1 Introduo. Numa pesquisa cientfica o procedimento geral formular hipteses e verific-las diretamente ou por suas conseqncias. Para isto necessrio um conjunto de observaes e o planejamento de experimentos ento essencial para indicar o esquema sob o qual as hipteses possam ser verificadas com a utilizao de mtodos de anlise estatstica que dependem da maneira sob a qual as observaes foram obtidas. Portanto, planejamento de experimentos e anlise dos resultados esto intimamente ligados e devem ser utilizados em uma seqncia nas pesquisas cientficas das diversas reas do conhecimento. Isto pode ser visto por meio da seguinte representao grfica da circularidade do mtodo cientfico.

    (2) Observaes (1) (3) Formulao de Hipteses Verificao das Hipteses formuladas (4) Desenvolvimento da Teoria

    Fica evidente nesta ilustrao que as tcnicas de planejamento devem ser utilizadas entre as etapas (1) e (2) e os mtodos de anlise estatstica devem ser utilizados na etapa (3).

    Desenvolvendo um pouco mais est idia podemos dizer que uma pesquisa cientfica estatisticamente planejada consiste nas seguintes etapas

    1. Enunciado do problema com formulao de hipteses. 2. Escolha dos fatores (variveis independentes) que devem ser

    includos no estudo. 3. Escolha da unidade experimental e da unidade de observao. 4. Escolha das variveis que sero medidas nas unidades de

    observao. 5. Determinao das regras e procedimentos pelos quais os diferentes

    tratamentos so atribudos s unidades experimentais (ou vice-versa).

    6. Anlise estatstica dos resultados. 7. Relatrio final contendo concluses com medidas de preciso das

    estimativas, interpretao dos resultados com possvel referncia a outras pesquisas similares e uma avaliao dos itens de 1 a 6 (desta pesquisa) com sugestes para possveis alteraes em pesquisas futuras.

    Ilustraes destas etapas com exemplos.

  • 14

    1. Enunciado do problema. Como vimos uma pesquisa cientfica se inicia sempre com a

    formulao de hipteses. Essas hipteses so primeiramente formuladas em termos cientficos dentro da rea de estudo (hiptese cientfica) e em seguida em termos estatsticos (hiptese estatstica) . Deve haver uma correspondncia perfeita entre as hipteses cientfica e estatstica para evitar ambigidade.

    Portanto, no enunciado do problema, a hiptese cientfica deve ser formulada de maneira precisa e objetiva.

    Exemplo:

    Um pesquisador est interessado em estudar o efeito de vrios tipos de rao que diferem pela quantidade de potssio no ganho de peso de determinado tipo de animal.

    Este objetivo pode ser atingido se planejarmos a pesquisa com uma das seguintes finalidades: a) comparar as mdias dos aumentos de peso obtidas com cada uma

    das raes (igualdade das mdias); b) Estabelecer uma relao funcional entre o aumento do peso mdio e

    a quantidade de potssio.

    2. Escolha dos fatores e seus respectivos nveis.

    No exemplo de 2.1, a varivel independente rao um fator e os tipos de raes so os nveis deste fator, ou tratamentos. Assim, em um experimento para se estudar o efeito de 4 raes e 3 suplementos no ganho de peso de animais, temos dois fatores: rao com quatro nveis e suplementos com 3 nveis. Podemos dizer que este experimento envolve 12 tratamentos, correspondentes s combinaes dos nveis dos dois fatores.

    Pelo prprio conceito de fator, temos que em um experimento, a escolha dos fatores e seus respectivos nveis basicamente um problema do pesquisador. No entanto importante para o planejamento e anlise distinguirmos as duas situaes, descritas a seguir:

    a) uma fazenda de inseminao adquiriu 5 touros de uma

    determinada raa para a produo de smen, e est interessada em realizar um experimento para verificar se os cinco touros so homogneos quanto a produo de smen.

    b) A mesma fazenda de inseminao est interessada em realizar

    um experimento para verificar se a produo de smen de touros, de uma determinada raa, homognea. Como a populao de touros da fazenda muito grande o pesquisador decidiu realizar um experimento com uma amostra de touros (5 touros), mas as concluses devem ser estendidas para a populao de touros.

  • 15

    Na situao descrita em a) dizemos que o fator touro fixo e na

    situao em b) o fator touro aleatrio. A diferena fundamental entre estes dois tipos de fatores , ento, que no caso de fatores fixos, as concluses se referem apenas aos nveis do fator que esto presentes no experimento. No caso de fatores aleatrios as concluses devem ser estendidas para a populao de nveis.

    3. Escolha da unidade experimental.

    Em um grande nmero de situaes prticas a unidade experimental

    determinada pela prpria natureza do material experimental. Por exemplo, experimentos com animais, em geral a unidade experimental um animal. Em outras situaes a escolha de outras unidades experimentais no to evidente, exigindo do pesquisador juntamente com o estatstico algum estudo, no sentido de escolher a unidade experimental mais adequada. A escolha de uma unidade experimental, de um modo geral, deve ser orientada no sentido de minimizar o erro experimental, isto , as unidades devem ser as mais homogneas possveis, para, quando submetidas a dois tratamentos diferentes, seus efeitos, sejam facilmente detectados.

    4. Escolha das variveis a serem medidas.

    As medidas realizadas nas unidades experimentais aps terem sido

    submetidas aos tratamentos constituem os valores da varivel dependente. A varivel dependente, em geral, pr-determinada pelo pesquisador, isto , ele sabe qual varivel que ele quer medir. O que constitui problema, s vezes, a maneira como a varivel medida, pois disto dependem a preciso das observaes, e a distribuio de probabilidade da varivel a qual essencial para a escolha do mtodo de anlise. Assim, por exemplo, se os valores de uma varivel so obtidos diretamente por meio de um aparelho de medida (rgua, termmetro, etc.) a preciso das observaes vai aumentar se, quando possvel, utilizarmos como observao a mdia de trs medidas da mesma unidade experimental. Com relao distribuio de probabilidade em muitas situaes as observaes no so obtidas diretamente e sim por expresses matemticas que as ligam a outros valores obtidos diretamente. Neste caso, a distribuio de probabilidade das observaes vai depender da distribuio de probabilidade da varivel obtida diretamente e da expresso matemtica que as relaciona.

    Portanto, as variveis, necessariamente presentes em um experimento so: a varivel dependente, medida nas unidades experimentais, e o conjunto de fatores (variveis independentes) que determinam as condies sob as quais os valores da varivel dependente so obtidos.

    Qualquer outra varivel que possa influir nos valores da varivel dependente deve ser mantida constante.

  • 16

    5. Regras segundo as quais os tratamentos so atribudos s unidades experimentais.

    Nas discusses apresentadas em cada um dos itens anteriores a

    colaborao da estatstica bem limitada exigindo-se a essencial colaborao do pesquisador. Porm, o assunto discutido neste item o que poderamos denominar de planejamento estatstico de experimento. Trata-se das regras que associam as unidades experimentais aos tratamentos e que praticamente determinam os diferentes planos experimentais. Lembramos, neste ponto os tratamentos so cada uma das combinaes entre os nveis de todos os fatores envolvidos no experimento.

    Para que a metodologia estatstica possa ser aplicada aos resultados de um experimento necessrio que em alguma fase do experimento, o principio a ser obedecido o da repetio, segundo o qual devemos ter repeties do experimento para que possamos ter uma medida da variabilidade necessria aos testes da presena de efeitos de tratamentos ou a estimao desses efeitos.

    ALEATORIZAO

    Aleatorizao a designao dos tratamentos s unidades

    experimentais, tal que estas tm a mesma chance (mesma probabilidade) de receber um tratamento. Sua funo assegurar estimativas no-viesadas das mdias dos tratamentos e do erro experimental. Nesta fase do planejamento de um experimento j sabemos quais fatores sero estudados e o nmero de nveis de cada fator que estaro presentes no experimento. Sabemos ainda qual a unidade experimental escolhida e a varivel dependente. Podemos imaginar que de um lado temos um conjunto

    U de unidades experimentais, e de outro, T um conjunto de tratamentos, que podem ser as

    combinaes dos nveis de todos os fatores envolvidos. Precisamos estabelecer esquemas que associam subconjuntos de elementos de U a cada elemento de T. Vamos apresentar o esquema mais simples. Para efeito de notao vamos supor que o conjunto U tem n elementos, o conjunto T tem a elementos, e o nmero de elementos de U submetidos ao tratamento Ti ni, com i=1, 2, ..., a, de tal modo

    que =

    =k

    ii nn

    1

    .

    O nmero de unidades experimentais ni para cada tratamento Ti determinado a partir de informaes sobre a variabilidade das unidades experimentais em termos da variabilidade da varivel dependente.

    O plano completamente aleatorizado um esquema em que as unidades experimentais que vo ser submetidas a cada tratamento so escolhidas completamente ao acaso. Isto significa que cada unidade

  • 17

    experimental tem igual probabilidade de receber qualquer um dos tratamentos.

    Por exemplo, um pesquisador quer realizar um experimento para estudar o efeito de um resduo industrial que adicionado em raes de animais. Ele suspeita que este resduo contenha uma substncia txica, cuja presena no organismo, produz um aumento relativo de alguns rgos, como o fgado, por exemplo. Aps uma entrevista com o pesquisador conseguimos as seguintes informaes

    O experimento ir envolver um nico fator, rao, com trs nveis:

    t1 - rao normal, sem resduo industrial (grupo controle; t2 - rao normal com o resduo tratado, e t3 - rao normal com resduo no tratado. Portanto, o conjunto T tem trs tratamentos

    Um conjunto U, formado por um grupo de 18 camundongos todos, recm nascidos, com o mesmo peso inicial e homogneos com relao s caractersticas genticas gerais. Por isto foi decidido distribuir completamente ao acaso 6 animais para cada tratamento.

    A varivel dependente (resposta) o peso relativo do fgado aps 90 dias do incio do experimento.

    Uma maneira de se proceder ao sorteio a seguinte: enumera-se as unidades experimentais de 1 a 18. coloca-se os tratamentos em seqncia , por exemplo:

    T1 T1 T1 T1 T1 T1 , T2 T2 T2 T2 T2 T2 , T3 T3 T3 T3 T3 T3 sorteia-se uma sequncia de 18 nmeros aleatrios. Pode-se

    obter, por exemplo, a sequncia : 3, 1, 11, 15, 18, 16, 4, 5, 9, 12, 8, 7, 17, 14, 2, 6, 13, 10

    Distribuio das unidades experimentais segundo os tratamentos

    Trat. Repeties T1 u3 u1 u11 u15 u18 u16 T2 u4 u5 u9 u12 u8 u7 T3 u17 u14 u2 u6 u13 u10

    Este plano experimental mais eficiente quanto maior for o grau de

    homogenei dade entre as unidades experimentais em termos da varivel dependente. Se as unidades experimentais so heterogneas o nmero n de unidades experimentais necessrias para uma boa preciso pode ser muito grande. Algumas alteraes no planejamento descrito, tal como, a introduo de blocos, ou simplesmente a utilizao de uma co-varivel medida nas unidades experimentais, a qual correlacionada com varivel dependente, podem reduzir consideravelmente o erro experimental.

    Observaes: 1) o plano experimental completamente aleatorizado no

    depende do numero de fatores envolvidos e nem da maneira pela qual os fatores so combinados.

    2) Existem alguns fatores que pela prpria natureza, impe restries na aleatorizao, porm para efeito de

  • 18

    anlise, o experimento considerado completamente aleatorizado.

    PLANO EXPERIMENTAL EM BLOCOS.

    Quando o conjunto U de unidades experimentais for muito

    heterogneo (em termos da varivel independente), o plano experimental completamente aleatorizado torna-se pouco preciso, pois o erro experimental fica muito grande. Em algumas situaes dispomos de informaes segundo as quais, antes da realizao do experimento, possvel agruparmos as unidades experimentais mais ou menos homogneas, em que a o nmero de tratamentos envolvidos no experimento. Estes subconjuntos so denominados de blocos. Assim, a maior parte da heterogeneidade interna do conjunto U expressa pela heterogeneidade entre blocos. A distribuio das unidades experimentais entre os tratamentos obedece a uma restrio imposta pelos blocos, isto , as a unidades de cada bloco so distribudas aleatoriamente entre os tratamentos.

    Na anlise de um experimento em blocos, alm dos fatores de interesse, deve-se levar em conta o fator experimental bloco, diminuindo desta forma o erro experimental. Quanto maior for a heterogeneidade entre blocos, maior a eficincia deste plano experimental em relao ao completamente aleatorizado. Exemplo: Um pesquisador deseja testar o efeito de trs tratamentos (T1, T2, T3 ) no ganho de peso de ovelhas . Antes do inicio do experimento as ovelhas foram pesadas e ordenadas de acordo com o peso e atribudas a 4 blocos. Em cada bloco tinham 3 animais aos quais os tratamentos foram sorteados. Portanto, 12 animais foram usados.

    REPETIO Repetio significa que o mesmo tratamento aplicado sobre duas

    ou mais unidades experimentais. Sua funo fornecer uma estimativa do erro experimental e dar uma medida mais precisa dos efeitos dos tratamentos. O nmero de repeties requeridas em um particular experimento depende da magnitude das diferenas que o pesquisador deseja testar e da variabilidade da varivel dependente em que se esta trabalhando.

    LEITURAS RECOMENDADAS CAPITULO 1

    VIEIRA, S. Estatstica experimental. 2.ed. So Paulo: Atlas: 1999. 185p.(Cap. 1). PETRIE, A.; WATSON, P. Estatstica em Cincia Animal e Veterinria. 2009.2 ed. Editora ROCA, So Paulo, 236p., 2009. SAMPAIO, I.B.M. Estatstica aplicada experimentao animal. Belo Horizonte: Fundao de Ensino e Pesquisa em Medicina Veterinria e Zootecnia, 1998. 221p. (Cap.1, 2 e 3)

  • 19

    KAPS, M.; LAMBERSON, W. Biostatistics for animal science. Oxfordshire: CABI Pubishing: 2007. 445p. (Cap. 12, 13). PETERNELLI, L. A.; Conhecendo o R: uma viso estatstica. 2. Ed. Viosa: Editora UFV, 2010, 185p.

  • 20

    CAPITULO 2. PLANEJAMENTO DE EXPERIMENTOS; PRINCPIOS BSICOS DA EXPERIMENTAO.

    1. TESTES DE SIGNIFICNCIA Um dos principais objetivos da estatstica a tomada de decises a respeito da populao com base nas observaes de amostras.

    AMOSTRAGEM

    INFERNCIA ESTATSTICA POPULAO AMOSTRA

    Ao tomarmos decises, conveniente a formulao de Hipteses relativas s populaes, as quais podem ser ou no verdadeiras. Exemplo: Um veterinrio est interessado em estudar o efeito de 4 tipos de raes que diferem pela quantidade de potssio no aumento de peso de coelhos.

    osdistpesosdeaumentospropiciamraesAsHscontrolado nofatores adevidas so observadas diferenas quaisquer

    seja,ou raes,as entrediferenaexisteNoH

    1

    0

    int:

    :

    H0 denominada de hiptese de nulidade, a qual assume que no existe efeito dos tratamentos e H1 a contra hiptese.

    TESTES DE HIPTESES OU TESTES DE SIGNIFICNCIA:

    So os processos que nos permitem decidir se aceitamos ou rejeitamos uma determinada hiptese, ou se os valores observados na amostra diferem significativamente dos valores esperados (Populao)

    MDIA POPULACIONAL

    x MDIA AMOSTRAL

  • 21

    2. TIPOS DE ERROS NOS TESTES DE SIGNIFICNCIA

    QUADRO RESUMO: condies sobre as quais os erros Tipo I e Tipo II podem ser cometidas

    Condio da Hiptese nula

    H0 Verdadeiro H0 Falsa Rejeio de H0 Erro Tipo I () Deciso correta No rejeio de H0 Deciso correta Erro Tipo II ()

    Erro Tipo I: o erro cometido ao rejeitar H0, quando H0 verdadeira. Erro Tipo II: o erro cometido ao aceitar H0, quando ela falsa.

    [ ] [ ]IITipoErroPITipoErroP == ; Esses dois erros esto de tal forma associados que, se diminuirmos a probabilidade de ocorrncia de um deles, automaticamente aumentamos a probabilidade de ocorrncia do outro. Em geral, controlamos somente o Erro Tipo I, por meio do nvel de significncia (da vem a denominao de Testes de Significncia) do teste representado por , o qual a probabilidade mxima com que nos sujeitamos a correr um risco de cometer um erro do Tipo I, ao testar a hiptese. Dado que rejeitar uma hiptese nula, (H0), verdadeira constitui um erro, parece razovel fixarmos esta probabilidade de rejeitar uma hiptese nula, (H0), verdadeira pequena, e de fato, isto que feito. Na prtica comum fixarmos = 0,05 (5%) ou = 0,01 (1%). Se, por exemplo, foi escolhido = 0,05, isto indica que temos 5 possibilidades em 100 de rejeitarmos a hiptese de nulidade (H0), quando na verdade ela deveria ser aceita, ou seja, existe uma confiana de 95% de que tenhamos tomado uma deciso correta, esta confiabilidade denominada grau de confiana do teste e representada por 1 - e expressa em porcentagem. Ns nunca saberemos qual tipo de erro estamos cometendo ao rejeitarmos ou ao no rejeitarmos uma hiptese nula (H0), dado que a verdadeira condio desconhecida. Se o teste nos leva deciso de rejeitar H0, podemos ficar tranqilos pelo fato de que fizemos pequeno e, portanto, a probabilidade de cometer o erro Tipo I bem pequena.

    3.TESTE F PARA A ANLISE DE VARINCIA.

    O teste F a razo entre duas varincias e usado para determinar se duas estimativas independentes da varincia podem ser assumidas como estimativas da mesma varincia. Na anlise de varincia, o teste F usado para testar a igualdade de mdias, isto , para responder a seguinte questo, razovel supor que as mdias dos tratamentos so amostras provenientes de populaes com mdias iguais? Considere o seguinte exemplo de clculo da estatstica F; vamos supor que de uma

    Possvel ao

  • 22

    populao normal ),( 2N foram retiradas, aleatoriamente, 5 (n=5) amostras de tamanho 9 (r=9).

    Calcule as mdias das 5 amostras e )19(

    )(9

    1

    2

    2

    ==i

    i

    i

    yys

    Estime 2 por meio da frmula 5

    )...( 25212 sss ++= , a qual

    uma mdia das varincias das amostras e ser denominada de variabilidade dentro das amostras ( 2Ds ).

    Estime a varincia populacional das mdias 2y , por meio

    das mdias das 5 amostras: 15

    )(5

    1

    22

    2

    ==

    +++i

    i

    y

    yys

    De 2ys , estime novamente 2 , usando a relao

    222

    2 , yy rssourss == , denominada de variabilidade entre as

    amostras ( 2Es ).

    Calcule 22

    D

    Ec s

    sF =

    A estimativa de 2Es do numerador foi feita com base em n - 1 = 4 graus de liberdade (n o nmero de amostras) e a estimativa de 2Ds do denominador foi feita com base em n(r 1) = 5(9-1) = 40. A repetio deste procedimento amostral muitas vezes gera uma populao de valores de F, os quais quando colocados em um grfico de distribuio de freqncia tem o seguinte formato

    O valor de F = 2,61 o valor acima do qual, 5% dos valores de F calculados tm valor acima dele. Este o valor para um nvel de 5% encontrado na Tabela F para 4 e 40 graus de liberdade (veja Tabela F). Dado que as estimativas da varincia utilizadas estatstica F so estimativas da mesma varincia 2 , espera-se que o valor de F seja

  • 23

    bem prximo de 1, a menos que um conjunto de amostras no usual foi retirado. Para qualquer conjunto de amostras retiradas de n = 5 e r = 9 a probabilidade (ou a chance) de um valor de F calculado ser maior ou igual a 2,61 0,05 (5%) ( 05,0]61,2[ =>FP ). As hipteses estatsticas que testamos quando aplicamos o teste F so

    22

    211

    22

    210

    :

    :

    >

    =

    HH

    A hiptese H0 estabelece que as duas varincias populacionais so iguais, o que equivale a admitir que as amostras foram retiradas da mesma populao. A hiptese H1 (contra hiptese, ou hiptese alternativa) estabelece que as varincias so provenientes de populaes diferentes e, mais ainda, a varincia da primeira maior que a varincia da segunda. Os valores de F so tabelados em funo dos graus de liberdade das estimativas de s2 do numerador (n1) e do denominador (n2) no clculo da estatstica F e para diferentes valores de nveis de significncia (5%, 1%, etc.). Tambm podem ser fornecidos por comandos do programa R.

    5. REGRA DE DECISO. Todos os possveis valores que o teste estatstico pode assumir

    so pontos no eixo horizontal do grfico da distribuio do teste estatstico e dividido em duas regies; uma regio constitui o que denominamos de regio de rejeio e a outra regio constitui o que denominamos de regio de no rejeio. Os valores do teste estatstico que formam a regio de rejeio so aqueles valores menos provveis de ocorrer se a hiptese nula verdadeira, enquanto que os valores da regio de aceitao so os mais provveis de ocorrer se a hiptese nula verdadeira. A regra de deciso nos diz para rejeitar H0 se o valor do teste estatstico calculado da amostra um dos valores que est na regio de rejeio e para no rejeitar H0 se o valor calculado do teste estatstico um dos valores que est na regio de no rejeio. O procedimento usual de teste de hipteses baseado na adoo de um critrio ou regra de deciso, de tal modo que = P(Erro tipo I) no exceda um valor pr-fixado. Porm, na maioria das vezes, a escolha de arbitrria. Um procedimento alternativo consiste em calcular o menor nvel de significncia para o qual a hiptese H0 rejeitada, com base nos resultados amostrais. Este valor, denominado de nvel descritivo do teste ou nvel mnimo de significncia do teste, ser denotado por valor de p ( p-value). Todos os modernos programas computacionais fornecem este valor nos testes estatsticos. A representao grfica a seguir mostra uma ilustrao da regra de deciso do teste F, visto anteriormente,

  • 24

    EXEMPLO: Amostras aleatrias simples e independentes, aps dois tipos de esforos, do nvel de glicose no plasma de ratos aps uma experincia traumtica forneceram os seguintes resultados: Esforo 1: 54 99 105 46 70 87 55 58 139 91 Esforo 2: 93 91 93 150 80 104 128 83 88 95 94 97 Estes dados fornecem suficiente evidncia para indicar que a varincia maior na populao de ratos submetidos ao esforo 1 do que nos ratos submetidos ao esforo 2. Quais as suposies necessrias para se aplicar o teste? Soluo:

    As varincias amostrais so 9333852s21 ,= e 2424398s22 ,= ,

    respectivamente. Suposies: Os dados constituem amostras aleatrias

    independentes retiradas, cada uma, de uma populao com distribuio normal. (Esta a suposio geral que deve ser encontrada para que o teste seja vlido).

    Hipteses estatsticas

    22

    211

    22

    210

    :

    :

    >

    =

    HH

    Clculo do Teste Estatstico

    1417,22424,3989333,852

    22

    21 ===

    ssFc

    Distribuio do Teste Estatstico: quando H0 verdadeira a estatstica F tem distribuio F com n1 1 e n2 1 graus de liberdade, ou seja, )05,0,11,9(F .

    Regio de no rejeio Regio de rejeio

  • 25

    Regra de Deciso: fazendo %5= , o valor crtico de 8962F 050119 ,),,,( = , ento, rejeita-se H0 se 8962Fc , . A

    ilustrao grfica desta regra de deciso mostrada a seguir,

    Deciso estatstica: no podemos rejeitar H0, dado que 2,14170.05)

    ANLISE DE VARINCIA

    Embora o teste F possa ser aplicado independentemente, a sua maior aplicao na anlise de varincia dos Delineamentos Experimentais. Vamos considerar os seguintes dados de Delineamento Inteiramente Casualizado, (DIC).

    TRATAMENTOS

    REPETIES 1 2 3 4

    A 12,4 15,2 14,3 12,6 B 13,2 16,2 14,8 12,9 C 12,1 11,3 10,8 11,4 D 10,9 9,8 9,4 8,3

    2T

    2e +

    Dentro de um mesmo tratamento o valor observado nas diferentes repeties no o mesmo, pois estes valores esto sujeitos variao ao acaso ( e

    2 ). Quando passamos de um tratamento para outro, os dados tambm no so iguais, pois estes esto sujeitos a uma variao do acaso acrescida de uma variao devida ao efeito do tratamento, i.,

    2T

    2e +

    Regio de no rejeio Regio de rejeio

    2,896

    2,1417

    2e

  • 26

    QUADRO DA ANLISE DE VARINCIA DO DIC Considere os dados do exemplo anterior, onde tnhamos 4 tratamentos (k=4) e 4 repeties. A Tabela da Anlise de varincia fica sendo

    Fonte de variao G.L. Soma de Quadrados Quadrado Mdio estatstica F TRAT.

    k - 1 kr

    yr

    yk

    i

    i2

    1

    2 )( ++=

    + 1...

    kTratQS

    .Re..

    ...sMQ

    TratMQ

    RESDUO

    n - k = = =

    +k

    i

    r

    j

    k

    i

    iij r

    yy1 1 1

    22 )( kkr

    sQS

    .Re..

    TOTAL

    n - 1 = =

    ++k

    i

    r

    jij kr

    yy1 1

    22 )(

    Deste quadro notamos que o Quadrado mdio do resduo estima a variao casual (do resduo) 2

    e . Enquanto que o quadrado mdio dos tratamentos estima a variao casual (resduo) acrescida de uma possvel varincia devido ao efeito dos tratamentos ( 2T

    2e + ), ento

    2

    22

    e

    TeF

    +=

    Se no houver efeito dos tratamentos os dois quadrados mdios (Quadrado mdio dos tratamentos e quadrado mdio do resduo) estimam a mesma varincia, o que implica o valor de F 1,0, e qualquer diferena que ocorra entre os valores mdios dos tratamentos meramente casual.

    6. TESTE t student.

    Considere uma outra retirada de amostras repetidas de um determinado tamanho, por exemplo, r=5 de uma populao normal. Para cada amostra calcule a mdia y o desvio padro, s , o erro padro da mdia

    ys e uma outra estatstica

    yc s

    yt =

    Graficamente temos:

  • 27

    1

    1

    1

    121

    2

    2

    11

    21

    2

    21

    ;5

    ;15

    )(

    ...........................................................2

    ;5

    ;15

    )(1

    yMy

    i

    M

    yy

    i

    sytss

    yysMamostra

    amostra

    sytss

    yysamostra

    M

    ==

    =

    ==

    =

    Organizando estes milhares de valores da estatstica t em distribuio de freqncia. Esta distribuio de freqncia ter a seguinte forma

    Existe uma nica distribuio t para cada tamanho de amostra. Neste exemplo em que r=5 (tamanho 5), 2,5 % dos valores de t sero maiores ou iguais do que 2,776 e 2,5% sero menores do que -2,776. Os valores da estatstica t student so apresentados em tabelas (ver Tabela da distribuio t ). Por exemplo, para 10 graus de liberdade, o valor tabelado esperado para t com probabilidade de 0,01 (1%) 3,169. A distribuio t student converge rapidamente para a distribuio normal. Quanto maior for a amostra maior aproximao da distribuio t student com a distribuio normal. Quando os valores de

  • 28

    t so calculados em amostras de tamanho r=60, estes so bem prximos dos valores da distribuio normal.

    7. REGRA DE DECISO

    Todos os possveis valores que o teste estatstico pode assumir so pontos no eixo horizontal do grfico da distribuio do teste estatstico e dividido em duas regies; uma regio constitui o que denominamos de regio de rejeio e a outra regio constitui o que denominamos de regio de aceitao. Os valores do teste estatstico que formam a regio de rejeio so aqueles valores menos provveis de ocorrer se a hiptese nula verdadeira, enquanto que os valores da regio de aceitao so os mais provveis de ocorrer se a hiptese nula verdadeira. A regra de deciso nos diz para rejeitar H0 se o valor do teste estatstico calculado da amostra um dos valores que est na regio de rejeio e para no rejeitar H0 se o valor calculado do teste estatstico um dos valores que est na regio de aceitao. Em particular, no caso do teste t student a regra de deciso fica sendo: rejeita-se H0 se

    ),(2

    1nc tt

    .

    Exemplo: Em um hospital veterinrio amostras de soro de amilase de 15 animais sadios e 22 animais hospitalizados foram colhidas. Os resultados da mdia e dos desvios-padres foram os seguintes:

    mlunidadessmlunidadesymlunidadessmlunidadesy

    /35,/96/40,/120

    22

    11

    ====

    Neste exemplo, o erro padro amostral ys da frmula da estatstica t, ser substitudo pelo erro padro da mdia pooled, ou seja,

    )1()1()1()1(

    21

    222

    2112

    ++

    =rr

    srsrsP

  • 29

    Clculos: Suposies: os dados constituem duas amostras independentes,

    cada uma, retirada de uma populao normal. As varincias populacionais so desconhecidas e assumidas iguais;

    Hipteses: 211

    210

    HH

    =

    ::

    ;

    Teste estatstico:

    2

    2

    1

    22121 )()(

    rs

    rs

    yytpp

    c

    +

    =

    ;

    Distribuio do teste estatstico: quando H0 for verdadeira, o teste segue uma distribuio t Student com r1 + r2 2 graus de liberdade;

    Regra de deciso: Rejeita-se H0 se );(

    22rr

    c21

    tt +

    , neste

    exemplo, 0302tc , ; Clculo do teste estatstico: primeiro o clculo da varincia

    amostral

    8817512

    24

    221450

    151450

    096120t

    e13752114

    35214014s

    c

    222p

    ,,

    )(

    )()(

    ==+

    =

    =++

    =

    Deciso estatstica: no se rejeita H0, visto que - 03028810302 ,,, 0,05).

    LEITURAS RECOMENDADAS CAPITULO 2

    VIEIRA, S. Estatstica experimental. 2.ed. So Paulo: Atlas: 1999. 185p.

    SHCHLOTZHAUER, S. LITTELL, R. C. SAS System for elementary statistical analysis. 2.ed.Cary, NC: SAS Institute Inc.1999, 456p.

    PEREZ, C.A., SALDIVA, C. D. Planejamento de experimentos. 5 SIMPSIO NACIONAL DE PROBABILIDADE E ESTATSTICA. 1981, 98p.

    PETERNELLI, L. P., MELLO, M. P. Conhecendo o R: uma viso estatstica. Viosa, Ed. UFV, 2007, 181p.

  • 30

    CAPITULO 3. DELINEAMENTO INTEIRAMENTE CASUALIZADO

    1. DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC).

    O DIC mais simples dos delineamentos. Os tratamentos se distribuem ao acaso em todas as unidades experimentais e o nmero de repeties por tratamento pode ser igual ou diferente. O DIC muito utilizado para estudos de mtodos, tcnicas de trabalhos em laboratrio, ensaios de vegetao e em experimentos com animais. Para sua aplicao, h necessidade que o meio atue de forma uniforme em todas as unidades experimentais e que estas sejam facilmente identificadas para receber o tratamento. Vamos comear com um exemplo:

    Em um estudo do efeito da glicose na liberao de insulina, 12 espcies de tecido pancretico idnticas foram subdivididas em trs grupos de 4 espcies cada uma. Trs nveis (baixo - tratamento 1, mdio tratamento - 2 e alto tratamento - 3) de concentraes de glicose foram aleatoriamente designados aos trs grupos, e cada espcie dentro de cada grupo foi tratado com o nvel de concentrao de glicose sorteado a eles. A quantidade de insulina liberada pelos tecidos pancreticos amostrados so as seguintes:

    Tratamento Repeties 1 2 3 4

    N de repeties

    ri

    Total

    Mdia

    Varincia

    Nvel baixo (T1) Nvel mdio (T2)

    Nvel alto (T3)

    1,59 3,36 3,92

    1,73 4,01 4,82

    3,64 3,49 3,87

    1,97 2,89 5,39

    4 4 4

    8,93 13,75 18,00

    2,23 3,44 4,50

    0,91 0,21 0,54

    Total 12 40,68

    Este um estudo experimental com 12 unidades experimentais (amostras de tecido pancretico) e k=3 tratamentos. Cada tratamento um nvel de fator simples: concentrao de glicose. Existem 4 repeties para cada tratamento.

  • 31

    Os dados, quantidade de insulina liberada pelo tecido pancretico podem ser considerados como trs amostras aleatrias, cada uma com r=4 repeties, ou de tamanho r=4 sorteadas de trs populaes. Dado que os tratamentos so designados s unidades experimentais completamente ao acaso, este delineamento denominado de DELINEAMENTO INTEIRAMENTE AO ACASO (DIC). Em geral, em um DIC, um nmero fixo de k tratamentos so sorteados s N unidades experimentais de tal forma que o i-simo tratamento sorteado a exatamente ri unidades experimentais. Assim, ri o nmero de repeties do i-simo tratamento e

    Nrrrr k321 =++++ ... . No caso em que ri so iguais, i.., rrrrr k321 ===== ... , ento rkN = e o delineamento balanceado.

    Notao:

    Repeties Tratamento 1 2 3 ... j ... r Total Mdia 1 y11 y12 y13 ... ... ... y1r +1y +1y 2 y21 y22 y23 ... ... ... y2r +2y +2y 3 y31 y32 y33 ... ... ... y3r +2y +2y . . . i . . .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    ...

    ...

    ... yij . . .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    . k yk1 yk2 yk3 ... ... ... ykr +ky +ky N=rk

    ++y ++y

    Convenes:

    ++ ii yey representam, respectivamente, o total e a mdia do i-simo tratamento, respectivamente,

    ++++ yey representam, respectivamente, o total geral (soma de todas as observaes) e a mdia geral de todas as observaes.

    2. ANLISE DE VARINCIA (ANOVA).

    O mtodo da anlise de varincia pode ser visto como uma extenso do teste t de student para amostras independentes. Como no teste t de amostras independentes, o mtodo da ANOVA compara uma medida da magnitude da variabilidade observada dentro das k amostras com uma medida da variabilidade entre as mdias das k amostras.

    3. MODELO MATEMTICO DO DIC COM EFEITOS DE TRATAMENTOS FIXOS. O modelo associado ao DIC com efeitos fixos

    ijiij ey ++= , sendo,

    ijy a observao na unidade experimental que recebeu o i-simo tratamento na j-sima repetio;

  • 32

    a mdia geral comum a todas as observaes definida como

    ,N

    rk

    1iii

    ==

    com i a mdia populacional do i-simo tratamento;

    i o efeito do i-simo tratamento na varivel dependente Y e mede o afastamento da mdia i em relao a , isto , = ii ; e

    ije um erro casual no observvel. Pela definio de e i acima, temos que este modelo possui a

    restrio=

    =k

    1iii 0n i , pois, 0rrrr i

    k

    1iii

    k

    1iii

    k

    1ii ===

    ===

    )( .

    4. SUPOSIES ASSOCIADAS AO MODELO.

    As suposies usualmente associadas aos componentes do modelo do DIC so que os ije so variveis aleatrias independentes e identicamente

    distribudas com distribuio ),( 20N . Como os ijy so funes lineares dos

    ije , das suposies sobre os erros decorre que: iiijyE =+=)( ; ;)( 2ijyVar = ijy so normalmente distribudos e independentes, ou, resumidamente

    que ),(~ 2iij Ny . Portanto, estamos supondo que as observaes do experimento a ser analisado correspondem a amostras aleatrias de k populaes normais com a mesma varincia e que podem ou no ter mdias diferentes. A figura abaixo representa graficamente esse fato, considerando, no caso, trs tratamentos. 1 2 3 Figura: Ilustraes das suposies do modelo matemtico associado ao DIC com um fator fixo.

    5. HIPTESES ESTATSTICAS. A Hiptese geral :

    0H k210 ==== ...: , ou seja, vamos testar a no existncia de efeito do fator (tratamento).

    1

    2

    3

  • 33

    6. PARTIO DA SOMA DE QUADRADOS.

    Voltemos ao quadro de representao das observaes no DIC na pgina 30 Podemos identificar os seguintes desvios:

    ++ yy ij , como o desvio de uma observao em relao a mdia amostral geral;

    + iij yy , como o desvio da observao em relao mdia de seu grupo ou do i-simo tratamento;

    +++ yy i , como o desvio da mdia do i-simo tratamento em relao mdia geral.

    Consideremos a identidade

    )()()( ++++++ += yyyyyy iiijij , a qual diz que a a variao de uma observaes em relao mdia geral amostral igual soma variao desta observao em relao mdia de seu grupo com a variao da mdia do i-simo tratamento em que se encontra esta observao em relao mdia geral amostral . Elevando-se ao quadrado os dois membros da identidade acima e somando em relao aos ndices i e j, obtemos:

    2

    1

    2

    1 1 1 1

    2 )()()( +++== = = =

    +++ += yyryyyy ik

    ii

    k

    i

    r

    j

    k

    i

    r

    jiijij

    i i

    ,

    os duplos produtos so nulos. O termo

    = =

    ++k

    1i

    r

    1j

    2ij

    i

    yy )( ,

    denominado de Soma de Quadrados Total e vamos denot-lo por SQT.O nmero de graus de liberdade associado SQT kr - 1, ou N 1, pois temos N observaes e a restrio

    = =

    ++ =k

    1i

    r

    1jij

    i

    0yy )( .

    A componente:

    = =

    +k

    1i

    r

    1jiij

    i

    yy )( ,

    denominada de Soma de Quadrados Residual, representada por SQR, e uma medida da homogeneidade interna dos tratamentos. Quanto mais prximas estiverem as observaes dentro de cada grupo (tratamento), menor a SQR. Notem que a magnitude da SQR no depende da diferena entre as mdias dos tratamentos. Considerando apenas o i-simo tratamento, temos que

    =

    +ir

    1j

    2iij yy )(

    Possui ri 1 graus de liberdade. Assim, o nmero de graus de liberdade associado SQR :

  • 34

    =

    ==jk

    1ii kNkkr1r )( .

    A componente 2ik

    1ii yyr )( +++

    =

    , mede a variabilidade entre as mdias dos tratamentos e por isso denominada de Soma de Quadrados Entre Tratamentos, representada por SQTr. Quanto mais diferentes entre si forem as mdias dos tratamentos, maior ser a SQTr. Desde que temos k tratamentos e a restrio de que

    0yyr ik

    1ii = +++

    = )( , A SQTr possui k - 1 graus de liberdade. Com esta notao, podemos escrever que: SQT = SQR + SQTr.

    7. QUADRADOS MDIOS.

    Dividindo a SQR e SQTr pelos correspondentes graus de liberdade, obtemos, respectivamente o Quadrado Mdio Residual (QMR) e o Quadrado Mdio Entre Tratamentos (QMTr), isto ,

    1kSQTrQMTre

    kNSQRQMR

    =

    =

    8. ESTATSTICA E REGIO CRTICA DO TESTE.

    A estatstica para o teste

    QMRQMTrFc = ,

    a qual, deve ser prximo de 1 se H0 for verdadeira, enquanto que valores grandes dessa estatstica so uma indicao de que H0 falsa. A teoria nos assegura que Fc tem, sob H0 distribuio F Snedecor com (k -1) e (N k) graus de liberdade. Resumidamente, indicamos:

    0KN1kc HsobFF ,~ ),( . Rejeitamos H0 para o nvel de significncia se

    ,),,( KN1kc FF > sendo, ),,( KN1kF o quantil de ordem )( 1 da distribuio F-Snedecor com (k -1) e (N k) graus de liberdade. Graficamente temos:

  • 35

    9. QUADRO DA ANLISE DE VARINCIA (ANOVA). Dispomos as expresses necessrias ao teste na Tabela abaixo denominada de Quadro de Anlise de Varincia (ANOVA). Fonte de g.l. SQ QM Fc variao

    Entre Tratamentos

    k - 1 N

    Yr

    Y 2r

    1i i

    2i

    i )( ++=

    + 1kSQTrQMTr

    = QMRQMTr

    Resduo (dentro dos tratamentos)

    N - k

    = = =

    +k

    1i

    r

    1j

    k

    1i

    2i2

    ij rY

    Y)(

    kNSQRQMR

    =

    TOTAL

    N - 1

    = =

    ++k

    1i

    r

    1j

    22

    ij NY

    Y)(

    Pode-se provar que:

    2QMRE =)( , ou seja, QMR um estimador no viesado da varincia 2 ;

    =

    +=k

    1ii

    2

    1krQMTrE

    )()( , ou seja, QMTr um estimador no

    viesado da varincia 2 se a hiptese 0H k210 ==== ...: verdadeira.

    10. DETALHES COMPUTACIONAIS.

    Apresentaremos alguns passos que facilitam os clculos das somas de quadrados da ANOVA.

    Calcule a correo para a mdia N

    yCM

    2)( ++= ;

  • 36

    Calcule a Soma de Quadrados dos Totais (SQT)

    CMySQTk

    1i

    r

    1j

    2ij

    i

    = = =

    ;

    Calcule a Soma de Quadrados Entre os Tratamentos (SQTr)

    CMr

    YSQTr

    ir

    1i i

    2i =

    =

    + ;

    Calcule a Soma de Quadrados Residual (SQR) pela diferena, isto , SQTrSQTSQR = ;

    Calcule os Quadrados Mdios Entre os Tratamentos (QMTr) e o

    Quadrado Mdio Residual (QMR) kN

    SQRQMRe1k

    SQTrQMTr

    =

    =

    Calcule Fc para tratamentos QMRQMTrFc =

    Notem que estas frmulas computacionais assumem que existe ri repeties para o i-simo tratamento; consequentemente, para um experimento balanceado com r repeties para cada tratamento, ri deve ser substitudo por r. Estas vrias soma de quadrados obtidas nestes cinco passos podem ser resumidas no quadro da ANOVA apresentado no item 8.

    11. EXEMPLOS

    EXEMPLO 1 Vamos considerar os dados apresentados no item 1. Desejamos testar a

    hiptese nula jiparummenospeloparaH

    H

    ji1

    3210

    ==

    ::

    Os clculos para montarmos o quadro da ANOVA so: temos k = 3, r = 4, e N = 3x4 =12. Ento

    Graus de liberdade:

    9312kNs2131kTrat111121NTotal

    =========

    Re.;

    91137126840CM

    2

    ,),( ==

    28151813718153CM395731591SQT 222 ,,,),(...),(),( ==+++=

    30109113720148CM40018

    47513

    4938SQTr

    222

    ,,,),(),(),( ==++=

    98430102815SQTrSQTSQR ,,, ===

    5509984QMRe155

    23010QMTr ,,,, ====

    319550984

    QMRQMTrFc ,,

    ,===

  • 37

    O quadro da ANOVA para a varivel insulina liberada o seguinte:

    Fonte de g.l. SQ QM Fc

    variao Entre Tratamentos 2 10,30 5,15 9,31

    Resduo

    (dentro dos tratamentos)

    9 4,98 0,55

    TOTAL 11 15,28

    Das tabelas das distribuies F, temos que

    0228Fe2574F 0109205092 ,, ),,,(),,,( == . O valor Fc=9,31 maior do que estes valores tabelados, ento rejeitamos a hiptese nula H0 a um nvel

    %,, 1ou010= de probabilidade (se significativo a 1%, logo tambm significativo a 5%).

    Podemos concluir que, para um nvel de %,, 1ou010= , que a quantidade de insulina liberada diferente para pelo menos dois nveis de glicose.

  • 38

    Resolvendo o exemplo 1 no R

    Resultado da anova no R pelos comandos bsicos

    Outra forma de obter o quadro da ANOVA pelos comandos do pacote ExpDes

    Resultados da anova pelo comando da pacote ExpDes

    Podemos chegar a mesma concluso anteriormente, simplesmente analisando o valor de p (Pr>Fc, (p=0,006445)), o qual bem menor que 0,01, sem recorrer tabela F. Assim o teste significativo (p=0,006445), rejeitamos H0 e conclumos que a quantidade de insulina liberada diferente para pelo menos dois nveis de glicose.

    Df Sum Sq Mean Sq F value Pr(>F) trat 2 10.2967 5.1483 9.3054 0.006445 ** Residuals 9 4.9794 0.5533 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

    # # exemplo 1 da Aula 3 (DIC) pg 29 # # entrando com os dados insulina

  • 39

    O R armazena os valores da tabela da anova acima na forma matricial (2 x 5), ou seja, para obtermos, por exemplo, o valor da soma de quadrados dos tratamentos (SQTr), definimos o seguinte objeto

    sqtr

  • 40

    24,815

    67,12369,14003

    07,4202==== QMReQMTr

    89,16924,8

    69,1400===

    QmRQMTrFc

    O quadro da ANOVA para a varivel peso (kg) o seguinte:

    Fonte de g.l. SQ QM Fc variao Entre Tratamentos

    3 4202,07 1400,69 169,89

    Resduo (dentro dos tratamentos)

    15 123,67 8,24

    TOTAL 18 4325,75

    Resolvendo no R

    Resultados da anova pelos comandos bsicos do R

    # # exemplo 2 da Aula 3 (DIC) pg 38 # # entrando com os dados de peso corporal pc

  • 41

    Resultados da anova pelos comandos do pacote ExpDes

    Das tabelas das distribuies F, temos que 4175Fe2873F 010153050153 ,, ),,,(),,,( == . O valor Fc=169,89 maior que estes valores, ento, rejeitamos a hiptese nula H0 a um nvel %,, 1ou010= de probabilidade (se significativo a 1%, logo tambm significativo a 5%). Graficamente a regra de deciso fica

    Podemos concluir que, para um nvel de %,, 1ou010= , que os pesos dos porcos so diferentes para pelo menos duas dietas. Ateno!!!!

    Pode-se chegar a esta mesma concluso somente pelo valor de p da estatstica F calculada, o qual p = 8,45 e-12, bem menor que 0,001, portanto significativo a 0,1%. (Refazer este exemplo no R)

    12 ESTIMADORES DE MNIMOS QUADRADOS. Nesta seo mostraremos os estimadores do modelo do DIC ijiij ey ++= . Estes estimadores so obtidos minimizando-se a expresso do erro deste modelo

    = =

    k

    1i

    r

    1j

    2ijij

    i

    yy )(

    Em relao a ie , i=1, 2, ...k, sujeito a restrio =

    =k

    1iii 0r . Assim

    procedendo, obtemos os estimadores de +++++ == yyey ii e de k21iy iii ...,,,, === + .

    Para construir um intervalo de confiana para a mdia de cada tratamento, devemos notar que:

    ------------------------------------------------------------------------ Analysis of Variance Table ------------------------------------------------------------------------

    DF SS MS Fc Pr>Fc Treatament 3 4202.1 1400.69 169.88 8.4501e-12 Residuals 15 123.7 8.24 Total 18 4325.7 ------------------------------------------------------------------------ CV = 3.68 % ------------------------------------------------------------------------

  • 42

    )(~ kn

    i

    ii t

    rQMR

    y

    + ,

    i.., tem distribuio t Student com (n k) graus de liberdade. Um intervalo de confiana para i com um coeficiente de confiana )( 1 dado por

    rsQMty1IC

    kN2

    iiRe);(

    );( += ,

    sendo, ),( kN

    2

    t

    o quantil de ordem )( 21 da distribuio t Student com (n

    k) graus de liberdade, os mesmos graus de liberdade do resduo da ANOVA. Como primeiro exemplo, vamos considerar os dados do experimento apresentado no item 11. As mdias destes dados so:

    1379ygeralmdiaae2486

    52431ye

    351004

    4401y 30695

    50346y ; 62605

    303,1y

    4

    321

    ,,,

    ;,,;,,,

    ===

    ======

    +++

    +++

    do quadro da ANOVA temos o valor do QMR para calcular desvio

    padro mdio para os tratamentos 1, 2 e 4

    31155578

    rQMR

    i

    ,, == . Para o terceiro tratamento o erro padro

    mdio 46145578

    rQMR

    i

    ,, ==

    o valor de 13142t 150250 ,);,( = . Assim, os intervalos so:

    3ipara461y4557813142y95IC

    4e21ipara311y5557813142y95IC

    iii

    iii

    ===

    ===

    ++

    ++

    ,,,,%);(

    ,,,,,,%);(

    Dieta 1 Dieta 2 Dieta 3 Dieta 4

    iy 60,62 69,30 100,35 86,24

    %),( 95IC i (59,31; 61,93)

    (67,99; 70,61) (98,89; 101,81) (84,93; 87,55)

    Problema: identificar quais as Dietas (tratamentos) que tiveram efeitos no nulos sobre o peso dos sunos. Como segundo exemplo, vamos considerar os dados do experimento apresentado no item 1, cujos clculos foram mostrados no item 10. As mdias destes dados so:

    393y

    e50440018y 443

    47513y ; 232

    48,93y 321

    ,

    ,,;,,,

    =

    ======

    ++

    +++ ;

  • 43

    do quadro da ANOVA temos os valores de SQR para calcular

    372045530

    rQMR ,, == ;

    o valor de 2622t 90250 ,),,( = . Assim, os intervalos so:

    8410y455302622y95IC iii ,,,%);( == ++

    Nvel baixo de glicose

    Nvel mdio de glicose

    Nvel alto de glicose

    iy 2,23 3,44 4,50

    %),( 95IC i (1,389; 3,071) (2,599; 4,281) (3,659; 5,341) Problema: identificar quais os nveis de glicose (tratamentos) que tiveram efeitos no nulos sobre a liberao de insulina dos tecidos. Resolvendo no R 13 COEFICIENTES DE DETERMINAO (R2) E DE VARIAO (CV).

    A parte da Soma de Quadrados Total (SQT), a variao total nas observaes , que pode ser explicada pelo modelo matemtico do DIC, denominada de coeficiente de determinao. Assim, o coeficiente de determinao para modelo do DIC, ijiij ey ++= , definido como

    SQTSQTrR 2 = .

    Pode ser verificado que 1R0 2 e que 1R 2 = quando toda variabilidade nas observaes esta sendo explicada pelo modelo matemtico do DIC. A variabilidade entre as unidades experimentais de experimentos envolvendo diferentes unidades de medidas e/ou tamanhos de parcelas pode ser comparada pelos coeficientes de variao, os quais expressam o desvio padro por unidade experimental como uma porcentagem da mdia geral do experimento, ou seja,

    glr

  • 44

    100ySCV *

    ++

    = .

    Da ANOVA sabemos que QMRS = , da resulta que

    100yQMRCV *

    ++

    = .

    Como exemplo vamos considerar os dados do experimento apresentado no item 1, cujos clculos foram mostrados no item 10. Neste exemplo temos:

    674028153010

    SQTSQTrRento3010SQTre2815SQT 2 ,

    ,,,,, =====

    %,*,,* 8821100393550100

    yQMRCV ===

    ++

    Conclumos que 67,4% da variabilidade que existe nas observaes deste experimento so explicadas pelo modelo matemtico do DIC e que este experimento apresenta um coeficiente de variao de aproximadamente 22%. Resolvendo no R

    14. CHECANDO AS VIOLAES DAS SUPOSIES DA ANOVA.

    Falando de um modo geral, o teste F da ANOVA no muito sensvel s violaes da suposio de distribuio normal. Ele tambm moderadamente insensvel s violaes de varincias iguais, se os tamanhos das amostras so iguais e no muito pequenas em cada tratamento. Entretanto, varincias desiguais podem ter um efeito marcante no nvel do teste, especialmente se amostras pequenas esto associadas com tratamentos que tm as maiores varincias. Existe uma srie de procedimentos para se testar se as suposies da ANOVA so violados. Entre estes temos o teste de Anderson-Darling, teste de Shapiro-Wilks e teste de Kolmogorov-Smirnov, que testam a normalidade da populao. A igualdade das varincias (homocedasticidade) pode ser testada pelos testes de Bartlett e de Levene. Com o advento dos modernos computadores, mtodos grficos so ferramentas muito populares para checar as violaes das hipteses da ANOVA. Alguns destes mtodos grficos mais comumente usados para checar as suposies da ANOVA so baseados em grficos denominados grficos dos resduos.

    Resduos. O resduo correspondente a uma observao ijy definido como:

    +=== iijiijijijij yyyyye ,

    # # calculo do CV # cv

  • 45

    ou seja, o resduo corresponde parte da observao que no foi explicada pelo modelo. Calculando os resduos correspondentes a todas as observaes de um experimento e analisando-os descritivamente de forma apropriada, podemos saber se as suposies da ANOVA esto sendo satisfeitas.

    Grfico dos resduos para testar a normalidade. Tcnicas grficas para checar se uma amostra de resduos provenientes de uma populao normal incluem os grficos do Histograma, do Box Plot, etc. Outra importante tcnica o grfico q-q normal (quantile-quantile normal plot). O grfico q-q normal, um grfico entre os resduos e um conjunto de percentis devidamente escolhidos da normal padronizada. Sob a hiptese de normalidade este grfico q-q normal deve se aproximar de uma reta. Se o grfico sigmide uma indicao de que a populao tem as caudas pesadas ou leves. A assimetria indicada por grficos cncavos (assimetria a esquerda) e convexos (assimetria a direita). O primeiro passo na construo de um grfico q-q normal o clculo de

    ,

    1Neresduosden

    p ijij +

    = a qual denominada de probabilidade emprica

    acumulada, e est associada a todo ije , de tal forma que 1Nedeposto

    p ijij += .

    Por exemplo, a probabilidade emprica acumulada associada ao resduo, cujo posto o sexto (seu rank=6) em um conjunto de N=10 resduos p=6/11 = 0.545. O grfico q-q normal de um conjunto de resduos obtido com o grfico dos resduos ije vs

    ,)1( ijij pzq = Sendo que: z o valor critico de nvel de uma distribuio normal padronizada Exemplo: vamos considerar os dados apresentados no item 1. Vamos construir um grfico q-q normal para ver se a suposio de normalidade parece razovel para a quantidade de insulina liberada O Quadro abaixo apresenta os dados, o valor estimado pelo modelo, os resduos e os percentis associados: i j Yij Yest eij R(eij) Pij qij 1 1 1.59 2.23 -0.64 1 0.077 -1.426 1 2 1.73 2.23 -0.50 5 0.385 -0.293 1 3 3.64 2.23 1.41 12 0.923 1.426 1 4 1.97 2.23 -0.26 6 0.462 -0.097 2 1 3.36 3.44 -0.08 7 0.538 0.097 2 2 4.01 3.44 0.57 10 0.769 0.736 2 3 3.49 3.44 0.05 8 0.615 0.293 2 4 2.89 3.44 -0.55 4 0.308 -0.502 3 1 3.92 4.50 -0.58 3 0.231 -0.736 3 2 4.82 4.50 0.32 9 0.692 0.502 3 3 3.87 4.50 -0.63 2 0.154 -1.020 3 4 5.39 4.50 0.89 11 0.846 1.020

    e o grfico q-q normal ( )ijij qxe fica sendo:

  • 46

    e os grficos do Histograma e do Box Plot dos resduos ficam:

    Pelo grfico qq normal, pelo histograma e pelo Box-Plot razovel supor a normalidade para os dados de liberao de insulina. A seqncia de comandos no R que fornece os resultados acima so: Porm, estes recursos grficos no so quantitativos. necessrio um teste. O programa R fornece o teste de normalidade de Shapiro-Wilks , o qual testa as hipteses:

    normaldistruiotemnoamostradapopulaoaHnormaldistruiotemamostradapopulaoaH

    ::

    1

    0

    ),0(:

    ),0(~:2

    1

    20

    NtemnoeH

    NeHou

    ij

    ij

    residuo

  • 47

    No resultado fornecido pelo R e pelo valor de p (p=0,08657) associado a estatstica W de Shapiro-Wilks, no rejeitamos 0H , logo razovel supor a normalidade para os dados de liberao de insulina. Para o teste da homogeneidade da varincia o R fornece o teste de Bartlett, o qual testa as hipteses

    jiHH

    2j

    2i1

    23

    22

    210

    ==

    ::

    Pelos resultados destes testes no rejeitamos 0H , o nvel mnimo de significncia do teste p=0,5299 (p>0,05). O teste no significativo. Conclumos, ento, que a homogeneidade das varincias uma suposio plausvel para os dados da liberao da insulina. Assim razovel supor que este conjunto de dados suporta as suposies bsicas de normalidade e homogeneidade da varincia para a correta aplicao da ANOVA. Abaixo esta os comandos no R que testam as suposies da normalidade e da homogeneidade das varincias no DIC

    15. vantagens e desvantagens do DIC. As principais vantagens do DIC so:

    fcil de ser planejado e flexvel quanto ao nmero de tratamento e de repeties tendo como nica limitao o nmero de unidades experimentais disponveis para o experimento;

    o nmero de repeties pode variar de tratamento para tratamento, embora o desejvel ter o mesmo nmero de unidades experimentais em todos os tratamentos;

    o DIC proporciona o nmero mximo de graus de liberdade para o resduo;

    a anlise estatstica simples mesmo que se perca algumas unidades experimentais.

    Algumas desvantagens so:

    mais apropriado para um pequeno nmero de tratamentos e para um material experimental homogneo;

    todas as fontes de variao no associadas aos tratamentos faro parte do resduo, podendo comprometer a preciso das anlises;

    super-estima a varincia residual.

    # teste de Shapiro-Wilks de normalidade shapiro.test(residuo) # teste de Bartlett da homogeneidade das varincias bartlett,test(insulina ~ trat)

    Shapiro-Wilk normality test data: res W = 0.8796, p-value = 0.08657.

    Bartlett test of homogeneity of variances data: insulina by trat Bartlett's K-squared = 1.27, df = 2, p-value = 0.5299

  • 48

    RESUMO. O DIC mais til onde no existe nenhuma fonte de variao identificvel entre as unidades experimentais, exceto s dos efeitos dos tratamentos. o mais flexvel com respeito ao arranjo fsico das unidades experimentais. Ele maximiza os graus de liberdade para a estimao da varincia por unidade experimental (erro experimental ou erro residual) e minimiza o valor da estatstica F requerido para a significncia estatstica. Resolvendo o exemplo 1 utilizando o pacote EXpDes no R Pacotes (packages) ou bibliotecas (library) so os nomes mais usados para designar conjuntos de funes, exemplos, e documentaes desenvolvidas para determinadas tarefas. Os comandos bsicos do R, por exemplo, esto em uma biblioteca, chamada, base. Existem inmeras bibliotecas, algumas j inclusas na instalao do R.

    No R podem-se encontrar pacotes desenvolvidos pelos responsveis pelo R ou implementados por usurios.

    LEITURAS RECOMENDADAS CAPITULO 3

    VIEIRA, S. Anlise de Varincia. So Paulo, 2. ed., Atlas: 2006. 204p. VIEIRA, S. Estatstica Experimental. So Paulo, 2.ed., Atlas, 1999.

    185p. SHCHLOTZHAUER, S. LITTELL, R. C. SAS System for elementary

    statistical analysis. 2.ed.Cary, NC: SAS Institute Inc.1999, 456p.

    SAMPAIO, I.B.M. Estatstica aplicada experimentao animal. Belo

    Horizonte: Fundao de Ensino e Pesquisa em Medicina Veterinria e

    Zootecnia, 3 ed. 2010. 264p.

    PEREZ, P.A., SALDIVA, C. D. Planejamento de experimentos. 5

    SIMPSIO NACIONAL DE PROBABILIDADE E ESTATSTICA. 1981, 98p.

    PETERNELLI, A., MELLO, M. P. Conhecendo o R : uma viso estatstica. Viosa: Editora UFV, 2. ed. 2011, 185p.

    CRAWLEY, M.J. The R Book. Wiley and Sons, Ltd, 2006, 949p. (pdf)

    RIBEIRO JNIOR, P. J. R. Introduo ao Ambiente R (apostila disponvel em http://www.leg.ufpr.br/~paulojus/embrapa/Rembrapa/)

    # executando a anlise de varincia pelo pacote ExpDes

    install.packages("ExpDes") # Ateno! necessrio uma conexo com a internet

    require(ExpDes) # requerendo o pacote ExpDes

  • 49

    CAPITULO 4. Testes de Comparao Mltiplas

    1. TESTES DE COMPARAES MLTIPLAS

    Os testes de comparaes mltiplas tambm, conhecidos como testes de comparaes de mdias, servem como um complemento ao teste F da anlise de varincia quando este significativo e so usados para detectar diferena entre mdias. Vejamos o exemplo a seguir

    Exemplo 1. Em um experimento de alimentao de porcos, foram utilizados quatro raes (A, B, C e D), cada uma fornecida a 5 animais. Os ganhos de peso, kg, foram:

    Raes A B C D 35 40 39 27 19 35 27 12 31 46 20 13 15 41 29 28 30 33 45 30

    Calculando-se as somas de quadrados podemos construir o seguinte quadro de anlise de varincia:

    Fonte de g.l. SQ QM Fc

    variao Entre Tratamentos

    (Raes) 3 823,75 274,58 3,99

    Resduo

    (dentro dos tratamentos - Raes)

    16 1100,00 68,75

    TOTAL 19 1923,75

    Das tabelas das distribuies F, temos que

    295Fe243F 010163050163 ,, ),,,(),,,( == . O valor Fc=3,99 maior que o valor do F tabelado a 5%, ento, rejeitamos a hiptese nula H0 a %5 de probabilidade.

    Dvida: Qual a rao que tem o melhor desempenho no ganho de peso?

    Para responder a questo, conheceremos alguns PROCEDIMENTOS DE COMPARAES DE MLTIPLAS ou MTODOS DE COMPARAES DE MDIAS, como por exemplo, os testes t-Student , Scheff, Tukey, Duncan, Dunnett e Bonferroni, dentre outros.

  • 50

    2. DEFINIES BSICAS INICIAIS.

    Consideremos um experimento com k tratamentos, cujas mdias populacionais so K21 ...,,, e cujas estimativas k21 xxx ...,,, foram obtidas de amostras de tamanhos r1, r2, ..., rK.

    Definio 1 Um contraste de mdias qualquer funo do tipo

    kk2211 cccY +++= ... ,

    com =

    =+++=k

    1ik21i 0cccc ... e i , a mdia do tratamento i=1, 2, ...,

    k

    Definio 2

    Dizemos que dois contrastes so ortogonais se =

    =k

    1i i

    ii 0rba

    . Quando o

    experimento balanceado (ri = r) a condio de ortogonalidade que a soma

    dos produtos de seus coeficientes nula, i.., =

    =k

    1iii 0ba .

    Quando um experimento envolve k tratamentos, podemos definir diversas comparaes entre as k mdias, mas somente (k 1) so ortogonais;

    Nos contrastes envolvendo duas mdias podemos definir

    21kk )( contrastes possveis, os quais no so ortogonais.

    Supondo que os tratamentos tm varincia constante 2 e que uma estimativa no viesada desta varincia o QMR da ANOVA, tem-se que:

    kn xcxcxcxcY ++++= 332211 um estimador no viesado do contraste kk2211 cccY +++= ... ;

    i

    2n

    1i

    2i

    i

    22n

    22

    21 r

    cr

    cccYV =

    =+++= )()( e um estimador no

    viesado i

    n

    1i

    2i

    i

    2n

    22

    21 r

    QMRcr

    QMRcccYV =

    =+++= )()( , se o

    experimento balanceado r1= r2 = ...= rK =r, as expresses acima ficam, respectivamente,

    rc

    rcccYV

    2n

    1i

    2i

    22n

    22

    21

    =

    =+++= )()( e

    rQMRc

    rQMRcccYV

    n

    1i

    2i

    2n

    22

    21

    =

    =+++= )()(

  • 51

    Exemplo 2. Em um experimento dois antibiticos em duas dosagens cada um para a cura da mastite em bovinos. A varivel resposta tempo de cura em dias

    Tratamento Descrio 1 Dose baixa da

    droga A 2 Dose alta da

    droga A 3 Dose baixa da

    droga B 4 Dose alta da

    droga B Podemos definir os seguintes contrastes:

    43211Y += : compara as doses da droga A com as doses da droga B;

    212Y = : compara as doses da droga A; 433Y = : compara as doses da droga B.

    A afirmao de que o contraste Y1 nulo (Y1 = 0) o mesmo que afirmar

    que: 22

    queou 43214321

    +

    =+

    +=+ ,, , ou ainda, que a

    mdia dos tratamentos 1 e 2 igual mdia dos tratamentos 3 e 4. Para verificarmos se estes contrastes so ortogonais aconselhvel uma tabela com os coeficientes dos (k 1) contrastes e a partir da, verificar que a soma dos produtos dos coeficientes, aos pares, nula.

    Contraste 1 2 3 4

    1Y +1 +1 -1 -1

    2Y +1 -1 0 0

    3Y 0 0 +1 -1 Portanto estes contrastes so ortogonais 2 a dois e ortogonais entre si.

    3. TESTE t - STUDENT

    O teste t student pode ser utilizado para comparar mdias de tratamentos. Os requisitos bsicos para sua utilizao so:

    as comparaes devem ser determinadas a priori, ou seja, antes de serem examinados os dados.

    no existe limite para o nmero de contrastes envolvendo as mdias de tratamentos, porm, o nmero de contrastes ortogonais , no mximo, igual ao nmero de graus de liberdade dos tratamentos.

    A ortogonalidade entre os contrastes de mdias garante independncia entre as concluses.

  • 52

    O objetivo testar a hiptese

    0YH0YH

    i1

    i0

    =

    ::

    ,

    Usamos a estatstica ),(

    1

    2

    ~

    )(

    resglk

    ii

    ii tc

    rQMR

    Y

    YV

    Yt

    =

    == , a qual sob H0

    verdadeira tem distribuio t-student com o mesmo nmero de graus de liberdade do resduo, no DIC ( n-k ). Para um valor fixado de nvel de significncia , devemos buscar o valor de t tabelado (arquivo Tab_tstudent, disponibilizado na pgina ou nos livros indicados na bibliografia) e compar-lo com o valor da estatstica tc , calculada para o contraste Yi e aplicar a regra de Deciso:

    Se Tabeladoc tt rejeitamos H0 para um determinado valor de ,

    geralmente 5% ou 1%, caso contrrio ( Tabeladoc tt < ), no rejeitamos H0.

    (veja o esquema grfico desta regra de deciso apresentado no item 6 da 2 Aula).

    Exemplo 2: Num experimento inteiramente casualizado com 4 tratamentos e 4 repeties, estudaram-se os efeitos de Bacitracina de zinco(BDZ) e Anti-stress sobre frangos de corte alimentados com raes base de sorgo, desde a fase inicial at a final. A resposta medida foi converso alimentar. Foram utilizados os seguintes tratamentos:

    Tratamento Descrio Mdia(kg) 1 Concentrado Comercial + Milho 2,03 2 Concentrado Comercial + Sorgo 2,24 3 Concentrado Comercial + Sorgo +

    BDZ 2,04

    4 Concentrado Comercial + Sorgo + Anti-stress

    2,22

    Sabendo-se que da ANOVA o valor do 00443750QMR ,= , com 12 graus de liberdade. Pode - se estabelecer os contrastes de mdias dos tratamentos para cada componente do desdobramento:

    Milho vs. sorgos, o qual expresso pela combinao linear 4321143211 xxxx3Yporestimado3Y == , ;

    Sorgo vs. Sorgo + Aditivos, o qual expresso pela combinao linear 43224322 xxx2Yporestimado2Y == , ;

    Bacitracina vs. Anti-stress, o qual expresso por 433433 xxYporetimadoY == , ;

  • 53

    A verificao se os contrastes so ortogonais pode ser feita facilmente no quadro abaixo: Contraste 1 2 3 4 IY

    =

    4

    1I

    2ic c

    t

    1Y +3 -1 -1 -1 -0,41 12 -3,55 (p=0,00198)

    2Y 0 +2 -1 -1 0,22 6 2,70 (p=0,0097)

    3Y 0 0 +1 -1 -0,18 2 -3,82 (p=0,0012) p< 0,01 significativo a 1% e a 5%; p< 0,05 significativo a 5% e p> 0,05 no-significativo a 5%.

    O objetivo testar a hiptese 0YH0YH

    i1

    i0

    =

    ::

    , para i = 1,2,3.

    Assim, para o contraste 1Y , temos que:

    0YH0YH

    11

    10

    =

    ::

    0133012

    400443750c

    rQMRYV

    e4102220422420323Y4

    1i

    2i1

    1

    ,,)(

    ,),(),(),(),(

    ===

    ==

    =

    55301330

    410

    cr

    QMRY

    t4

    1i

    2i

    1c ,,

    ,=

    ==

    =

    1792t 025012 ,),,( = . Como Tabc tt > , ento rejeitamos H0 (0,005

  • 54

    os animais tratados com o concentrado comercial + sorgo+BDZ tm uma converso alimentar melhor do que os animais tratados com concentrado comercial + sorgo+anti-stress.

    4. TESTE DE SCHEFF.

    O teste de Scheff pode testar qualquer contraste envolvendo mdias de tratamentos do tipo kk2211 cccY +++= ... definido a priori ou no, sendo baseado na estatstica S, definida como: Experimento balanceado

    itodopararri =

    ;)1(

    )()1(

    1

    2

    ),,1(

    ),,1(

    =

    ==

    k

    i

    iresglk

    iresglk

    rcQMRFk

    YVFkS

    Experimento desbalanceado jipararr ji

    ;)1(1

    2

    ),,1( =

    =k

    i i

    iresglk r

    cQMRFkS

    Sendo: k 1 o nmero de grau