Aula de Qui-Quadrado

Embed Size (px)

Citation preview

  • 8/3/2019 Aula de Qui-Quadrado

    1/29

  • 8/3/2019 Aula de Qui-Quadrado

    2/29

    2

    1. Testes de Aderncia1. Testes de Aderncia

    Objetivo: Testar a adequabilidade de um modeloprobabilstico a um conjunto de dados observados

    Exemplo 1Exemplo 1: Gentica Equilbrio Hardy-Weinberg

    Aa Aa

    AA Aa aa

    Probabilidades:(Modelo terico)

    3 categorias: AA, Aa, aa

  • 8/3/2019 Aula de Qui-Quadrado

    3/29

    3

    Em uma certa populao, 100 descendentes foramestudados, fornecendo a tabela a seguir:

    100Total

    29aa

    45Aa

    26AA

    FreqnciaFreqncia

    observadaobservadaGentipoGentipo

    Objetivo: Verificar se o modelo gentico proposto adequado para essa populao

  • 8/3/2019 Aula de Qui-Quadrado

    4/29

    4

    Se o modelo Hardy-Weinberg for adequado, a freqnciafreqncia

    esperadaesperadade descendentes para o gentipo AA, dentre os100 indivduos, pode ser calculada por:

    14100 (AA) 100 25P = =

    12100 (Aa) 100 50P = =

    Da mesma forma, temos para o gentipo Aa,

    14100 (aa) 100 25P = =

    E para o gentipo aa,

  • 8/3/2019 Aula de Qui-Quadrado

    5/29

    5

    Podemos expandir a tabela de freqncias dadaanteriormente:

    10025

    50

    25

    FreqnciaFreqncia

    esperadaesperada

    100Total29aa

    45Aa

    26AA

    FreqnciaFreqncia

    observadaobservada

    GentipoGentipo

    Pergunta: Podemos afirmar que os valores

    observados esto suficientemente prximos dosvalores esperados, de tal forma que o modeloHardy-Weinberg adequado a esta populao?

  • 8/3/2019 Aula de Qui-Quadrado

    6/29

    6

    Considere uma tabela de freqncias, com k 2 categoriasde resultados:

    1. Testes de Aderncia1. Testes de Aderncia MetodologiaMetodologia

    O22

    O33

    Okk

    nTotal

    O11

    FreqnciaFreqncia

    ObservadaObservadaCategoriasCategorias

    em que OOii o total de indivduos observados nacategoria i, i =1,...,k.

    M M

  • 8/3/2019 Aula de Qui-Quadrado

    7/29

    7

    Seja pi a probabilidade associada categoria i, i=1,...,k.

    O objetivo do teste de aderncia testar as hipteses

    H: p1 = po1 , .... , pk= pok

    A : existe pelo menos uma diferena

    sendo ppooii a probabilidade especificada para a categoria i,

    i=1,...,k, fixada atravs do modelo probabilstico de interesse.fixada atravs do modelo probabilstico de interesse.

    Se EEii o total de indivduos esperados na categoria i,

    quando a hiptese H verdadeira, ento:Ei= n poi, i =1,...,k

  • 8/3/2019 Aula de Qui-Quadrado

    8/29

    8

    Expandindo a tabela de freqncias original, temos

    Quantificao da distncia entre as colunas de freqncias:

    n

    Ek

    E3

    E2E1

    FreqnciaFreqnciaesperadaesperada

    sobsob HH

    n

    Ok

    O3

    O2O1

    FreqnciaFreqncia

    observadaobservada

    2

    3

    k

    Total

    1

    CategoriasCategorias

    M M M

    =

    =

    k

    i i

    ii

    E

    EO

    1

    2)(2

  • 8/3/2019 Aula de Qui-Quadrado

    9/29

    9

    2

    2

    1( )

    k

    i i

    i i

    O EE

    =

    = Estatstica doteste de aderncia

    Supondo Hverdadeira,

    =

    =

    22 2

    1

    ( )~ ,

    ki i

    q

    i i

    O E

    E

    sendo que q = k - 1 representa o nmero de graus deliberdade.

    aproximadamente,

    ObsObs.: Este resultado vlido para n granden grandee para

    Ei 5, i= 1, ..., k.

    Em outras palavras, se H verdadeira, a v.a. 2 temdistribuio aproximada qui-quadrado com q graus deliberdade.

  • 8/3/2019 Aula de Qui-Quadrado

    10/29

    10

    Regra de deciso:

    2 2obs( ),qP P =

    Pode ser baseada no nvel descritivo P, neste caso

    P

    2obs

    Graficamente:

    Se, para fixado, obtemos P , rejeitamos a hiptese H.

    em que o valor calculado, a partir dos dados,usando a expresso apresentada para .

    2

    obs 2

  • 8/3/2019 Aula de Qui-Quadrado

    11/29

    11

    Exemplo (continuao): Gentica Equilbrio Hardy-Weinberg:

    Hipteses:H: O modelo proposto adequado a esta situaoA : O modelo no adequado a esta situao

    A tabela seguinte apresenta os valores observados eesperados (calculados anteriormente).

    De forma equivalente, podemos escrever:

    H: P(AA) = , P(Aa) = e P(aa) =

    A: ao menos uma das igualdades no se verifica

  • 8/3/2019 Aula de Qui-Quadrado

    12/29

    12

    Usando a distribuio de qui-quadrado com q =k-1 = 2 graus deliberdade, o nvel descritivo calculado por

    .22( 1,18) 0,5543P P = =

    100

    25

    5025

    Ei

    100Total

    29aa

    45Aa26AA

    OiGentipo

    Concluso: Para = 0,05, como P = 0,5543 > 0,05, norejeitamos a hiptese H, isto , essa populao segue o

    equilbrio Hardy-Weinberg.

    Clculo do valor da estatstica do teste ( k =3):

    1,180,640,500,0425

    25)(29

    50

    50)(45

    25

    25)(26)( 2223

    1

    2

    =++=

    =

    +

    +

    =

    =i

    ii2

    obs

    E

    EO

  • 8/3/2019 Aula de Qui-Quadrado

    13/29

    13

    O clculo do nvel descritivo Ppode ser feito noMINITAB, atravs dos comandos:

    MTB > cdf 1.18 k1;

    SUBC> chisquare 2.

    MTB > let k2 = 1 - k1

    MTB > print k2

    Data DisplayData DisplayK2 0.554327

    MTB >

    Nvel descritivo

  • 8/3/2019 Aula de Qui-Quadrado

    14/29

    14

    Exemplo 2Exemplo 2: Deseja-se verificar se o nmero de acidentes em

    uma estrada muda conforme o dia da semana. O nmero deacidentes observado para cada dia de uma semanaescolhida aleatoriamente foram:

    O que pode ser dito?

    35Dom

    20Sab30Sex

    15Qui

    10Qua10Ter

    20Seg

    No. deNo. deacidentesacidentes

    Dia daDia dasemanasemana

  • 8/3/2019 Aula de Qui-Quadrado

    15/29

    15

    Hipteses a serem testadas:

    H: O nmero de acidentes no muda conforme o dia da semana;A: Pelo menos um dos dias tem nmero diferente dos demais.

    Se pi representa a probabilidade de ocorrncia deacidentes no i-simo dia da semana,

    H: pi= 1/7 para todo i= 1,, 7A: pi 1/7 para pelo menos um valor de i.

    Total de acidentes na semana: n=140.Logo, se Hfor verdadeira,

    Ei= 140 x 1/7 = 20, i= 1,,7,

    ou seja, esperamos 20 acidentes por dia.

  • 8/3/2019 Aula de Qui-Quadrado

    16/29

    16

    35

    20

    3015

    10

    10

    20

    No. de acidentesobservados (Oi)

    20

    20

    2020

    20

    20

    20

    No. esperado deacidentes (Ei)

    Dom

    Sab

    SexQui

    Qua

    Ter

    Seg

    Dia dasemana

    Clculo da estatstica de qui-quadrado:

    27,5020

    20)(35

    20

    20)(20

    20

    20)(30

    20

    20)(15

    20

    20)(10

    20

    20)(10

    20

    20)(20)(

    222

    22227

    1

    2

    =

    +

    +

    +

    +

    +

    +

    =

    =i

    ii2

    obs

    E

    EO

  • 8/3/2019 Aula de Qui-Quadrado

    17/29

    17

    O nvel descritivo dado por26( 27,50)P P =

    e pode ser obtido no MINITAB por:

    MTB > cdf 27.50 k1;

    SUBC> chisquare 6.

    MTB > let k2 = 1 - k1

    MTB > print k2

    Data DisplayK2 0.000116680

    Logo, para = 0,05, segue que P = 0,0001 < e, assim,rejeitamos H, e conclumos que o nmero de acidentes no o mesmo em todos os dias da semana.

    Neste caso, temos2 2

    6~ , aproximadamente.

  • 8/3/2019 Aula de Qui-Quadrado

    18/29

    18

    2. Testes de Independncia2. Testes de Independncia

    Objetivo: Verificar se existe independncia entre duasvariveis medidas nas mesmas unidades experimentais.

    Exemplo 3Exemplo 3: Deseja-se verificar se existe dependncia entre a

    renda e o nmero de filhos em famlias de uma cidade.

    250 famlias escolhidas ao acaso forneceram a tabela a seguir:

    25061717048TotalTotal

    401091385000 ou mais

    7581230252000 a 5000

    13543502715menos de 2000

    TotalTotal+ de 2210Nmero de filhosNmero de filhosRenda (R$)Renda (R$)

  • 8/3/2019 Aula de Qui-Quadrado

    19/29

    19

    Em geral, os dados referem-se a mensuraes de duascaractersticas (A e B) feitas em n unidades experimentais,

    que so apresentadas conforme a seguinte tabela:

    Hipteses a serem testadas Teste de independnciaTeste de independncia:

    H: A e Bso variveis independentesA: As variveis A e Bno so independentes

  • 8/3/2019 Aula de Qui-Quadrado

    20/29

    20

    Se A e B forem independentes, temos que, para todos os possveispares (Aie Bj):

    P(Ai Bj) = pij= P(Ai) P(Bj), para i= 1, 2,, r e j= 1, 2,,s.

    Quantas observaes devemos ter em cada casela, se A e Bforem independentes?

    O processo deve ser repetido para todas as caselas (i,j).

    Logo, o nmeronmero esperadoesperado de observaes com as caractersticasde observaes com as caractersticas

    ((AAii eeBBjj),), entre as nobservaes sob a hiptese de independncia,

    dado por

    sendo pija proporo de observaes com as caractersticas (Aie Bj).

    ,nn

    nnnppnpnE .ji..ji.ijij ===

    Assim,

    n

    nnE

    .ji.

    ij

    =

  • 8/3/2019 Aula de Qui-Quadrado

    21/29

    21

    Estatstica doteste de

    independncia

    Supondo Hverdadeira,

    = =

    =

    2

    2 2

    1 1

    ( )~

    r sij ij

    q

    i j ij

    O E

    E

    sendo q =( r 1) ( s 1 ) graus de liberdade.

    em que Oij= nij representa o total de observaes na casela (i, j).

    Distncia entre os valores observados e os valoresesperados sob a suposio de independncia:

    = =

    =

    s

    1i

    r

    1jij

    2ijij2

    E

    )EO(

  • 8/3/2019 Aula de Qui-Quadrado

    22/29

    22

    Regra de deciso:

    2 2obs( ),qP P =

    Pode ser baseada no nvel descritivo P, neste caso

    P

    2obs

    Graficamente:

    Se, para fixado, obtemos PP , rejeitamos a hiptese, rejeitamos a hiptese HH dede

    independncia.independncia.

    em que o valor calculado, a partir dos dados,usando a expresso apresentada para .

    2obs

    2

  • 8/3/2019 Aula de Qui-Quadrado

    23/29

    23

    Exemplo (continuao)Exemplo (continuao)::Estudo da dependncia entre renda e o nmero de filhos

    250 famlias foram escolhidas ao acaso

    HiptesesHipteses H: O nmero de filhos e a renda so independentesA: Existe dependncia entre o nmero de filhos e a renda

    25061717048TotalTotal

    401091385000 ou mais

    7581230252000 a 5000

    13543502715menos de 2000

    TotalTotal+ de 2210

    Nmero de filhosNmero de filhosRenda (R$)Renda (R$)

    Exemplo do clculo dos valores esperados sobExemplo do clculo dos valores esperados sob HH(independncia):(independncia):

    Nmero esperado de famlias sem filhos e renda menor que R$ 2000:

    11

    48 135

    25,92250E

    = = .

  • 8/3/2019 Aula de Qui-Quadrado

    24/29

    24

    2502506161717170704848TotalTotal

    4040100(9,76)99(11,36)1313(11,20)88(7,68)5000 ou mais757588(18,30)1212(21,30)3030(21,00)25(25(14,40)2000 a 5000

    1351354343(32,94)50(50(38,34)2727(37,80)1515(25,92)menos de 2000

    TotalTotal+ de 2210

    Nmero de filhosNmero de filhosRenda (R$)Renda (R$)

    Tabela de valores observados e esperados (entre parnteses)

    1 filho e renda de R$ 2000a R$ 5000:

    22

    70 75

    21,00250E

    = =

    Lembre-se:

    i j

    ij

    n nE

    n

    =

    2 ou + filhos e renda de R$ 5000 oumais:

    34

    61 409,76

    250E

    ==

  • 8/3/2019 Aula de Qui-Quadrado

    25/29

    25

    Clculo da estatstica deClculo da estatstica de quiqui--quadrado:quadrado:

    25061717048TotalTotal

    4010(9,76)9(11,36)13(11,20)8(7,68)5000 ou mais758(18,30)12(21,30)30(21,00)25(14,40)2000 a 5000

    13543(32,94)50(38,34)27(37,80)15(25,92)menos de 2000

    TotalTotal+ de 2210

    Nmero de filhosNmero de filhosRenda (R$)Renda (R$)

    ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( )

    2 2 2 2

    2

    2 2 2 2

    2 2 2 2

    15 25,92 25 14,40 8 7,68 27 37,8025,92 14,40 7,68 37,80

    30 21,00 13 11,20 50 38,34 12 21,30

    21,00 11,20 38,34 21,30

    12 21,30 9 11,36 43 32,94 8 18,30

    21,30 11,36 32,94 18,30

    obs

    = + + + +

    + + + + +

    + + + + +

    ( )2

    10 9,7636,62

    9,76

    + = .

  • 8/3/2019 Aula de Qui-Quadrado

    26/29

    26

    Determinao do nmero de graus de liberdade:

    Categorias de renda: r= 3

    Categorias de n de filhos: s= 4q =(r 1)(s 1) = 2 3 = 6

    = =26( 36,62) 0,000P P Logo, e, supondo = 0,05,

    2 26~

    Como PP= 0,000 < = 0,05, rejeitamos a independncia entrenmero de filhos e renda familiar.

    Os clculos podem ser feitos diretamente no MINITAB:

    Stat Tables Chi-Square test

  • 8/3/2019 Aula de Qui-Quadrado

    27/29

    27

    ChiChi--SquareSquare TestTestExpected counts are printed below observed counts

    C1 C2 C3 C4 Total

    1 15 27 50 43 135

    25,92 37,80 38,34 32,94

    2 25 30 12 8 75

    14,40 21,00 21,30 18,30

    3 8 13 9 10 40

    7,68 11,20 11,36 9,76

    Total 48 70 71 61 250

    Chi-Sq = 4,601 + 3,086 + 3,546 + 3,072 +

    7,803 + 3,857 + 4,061 + 5,797 +

    0,013 + 0,289 + 0,490 + 0,006 = 36,621

    DF = 6, PP--ValueValue = 0,000= 0,000

    Sada do MINITAB:

  • 8/3/2019 Aula de Qui-Quadrado

    28/29

    28

    Exemplo 4Exemplo 4: 1237 indivduos adultos classificados segundo apresso sangnea (mm Hg) e o nvel de colesterol (mg/100cm3).

    Verificar se existe independncia entre essas variveis.

    H: Presso sangnea e nvel de colesterol so independentes;A: Nvel de colesterol e presso sangnea so variveis dependentes.

    >166127 a 166< 127

    1237118731388TotalTotal

    2453314567>26068563418204200 a 260

    30722168117

  • 8/3/2019 Aula de Qui-Quadrado

    29/29

    29

    ChiChi--SquareSquare TestTestExpected counts are printed below observed countsC1 C2 C3 Total

    1 117 168 22 307

    96,29 181,42 29,29

    2 204 418 63 685

    214,86 404,80 65,34

    3 67 145 33 245

    76,85 144,78 23,37Total 388 731 118 1237

    Chi-Sq = 4,452 + 0,993 + 1,812 +

    0,549 + 0,431 + 0,084 +

    1,262 + 0,000 + 3,967 = 13,550DF = 4, PP--ValueValue = 0,009= 0,009

    Sada do MINITAB:Sada do MINITAB:

    Rejeitamos a independncia entre presso sangnea envel de colesterol ( = 0,05).