24
TESTES PARAMETRICOS 1. Análise de Variância (ANOVA) 1 fator Queremos determinar se a diferença observada entre duas médias amostrais é devida, apenas, às variações aleatórias de uma amostra a outra, ou se os dados vêm de populações onde as médias são verdadeiramente diferentes. Esse é um outro modo de dizer que nós queremos descobrir se a diferença entre as médias é estatisticamente diferente. Enfim, mesmo que nós possamos concluir que as médias são diferentes, nós também temos de decidir se elas diferem o suficiente para poderem ser consideradas de importância prática (clínica). Vamos considerar três situações (A, B e C) onde os grupos Controle e Tratado apresentam a mesma média amostral, porém, diferem em termos de variabilidade (em dispersão, ou seja, em desvio-padrão). O teste t (de Student) para a diferença entre duas médias é um caso especial de análise de variância (ANOVA 1 fator). A fórmula para t pode ser expressa para F. Vale a relação: F = t 2 .

BIOESTATISTICTESTES PARAMETRICOS E NÃO PARAMETRICOS

Embed Size (px)

DESCRIPTION

TESTES PARAMETRICOS E NÃO PARAMETRICOS

Citation preview

ANOVA 1 fator

TESTES PARAMETRICOS

1. Anlise de Varincia (ANOVA) 1 fator

Queremos determinar se a diferena observada entre duas mdias amostrais devida, apenas, s variaes aleatrias de uma amostra a outra, ou se os dados vm de populaes onde as mdias so verdadeiramente diferentes. Esse um outro modo de dizer que ns queremos descobrir se a diferena entre as mdias estatisticamente diferente. Enfim, mesmo que ns possamos concluir que as mdias so diferentes, ns tambm temos de decidir se elas diferem o suficiente para poderem ser consideradas de importncia prtica (clnica).

Vamos considerar trs situaes (A, B e C) onde os grupos Controle e Tratado apresentam a mesma mdia amostral, porm, diferem em termos de variabilidade (em disperso, ou seja, em desvio-padro).

C = grupo controle

T = grupo tratadoCaso A: duas mdias diferentes (no podemos dizer outra coisa, seno que diferem numericamente).

Caso B: as mesmas duas mdias (de A) com valores bem dispersos (a diferena no estatisticamente significante). Devido disperso, a diferena no muito convincente. Caso C: as mesmas mdias (as duas de A e B) com valores concentrados (prximos ao valor mdio). Nesse caso, h diferena estatisticamente significante.

O problema como decidir quando as mdias so diferentes, em relao disperso dos valores em cada grupo, a fim de concluir se h diferena estatisticamente significante entre as mdias.

A anlise de varincia ajuda-nos a responder esta questo.

O que temos a fazer descobrir um modo de avaliar (medir) numericamente o quo diferentes so as mdias e quanto as observaes se afastam (encontram-se dispersas) ao redor das respectivas mdias.

Com essas duas medidas (avaliaes) nossa disposio, somos capazes de dizer se as mdias diferem significantemente ou no. A idia da Anlise de VarinciaEsta a idia principal para a comparao de mdias: o que importa no o quanto as mdias amostrais esto distantes , mas o quo distantes esto relativamente variabilidade de observaes individuais.

A ANOVA compara a variao resultante de fontes especficas com a variao entre indivduos que deveriam ser semelhantes. Em particular, a ANOVA testa se vrias populaes tm a mesma mdia, comparando o afastamento entre as mdias amostrais com a variao existente dentro das amostras.A ANOVA pressupe que podemos decompor cada valor observado em trs termos aditivos; ou seja, ns somos capazes de escrever cada observao como uma soma de trs termos. A decomposio pode ser escrita como:

Valor obtido (x) = mdia geral () + desvio da mdia do grupo em relao mdia geral ( - ) + desvio (ij ) entre o valor observado em relao mdia do grupo ( x - ) ou

Data = fit + residue (error)O modelo formal de ANOVA (1 fator ) : xij = + ij + ij xij so os valores observados em cada grupo

i refere-se ao grupo

j refere-se observao dentro do grupo

uma constante ( a mdia geral)

so os termos residuais (diferena entre o valor observado e o fit, modelo ajustado)

Observao.

Suposies do modelo ANOVA:

(i) todas as populaes tm o mesmo desvio padro , de valor desconhecido;

(ii) os resduos devem seguir uma curva normal com mdia igual a zero e varincia 2.A estatstica F da ANOVAF = variao (entre mdias amostrais) / variao (entre indivduos dentro das amostras)

As medidas de variao no numerador e denominador de F so chamadas de mdias quadrticas. Uma mdia quadrtica uma forma mais geral de uma varincia amostral. Uma varincia amostral usual s2 uma mdia dos desvios quadrticos das observaes a partir de suas mdias, logo se qualifica de mdia quadrtica.

A estatstica F testa a hiptese nula de que todas as I populaes tm a mesma mdia:

Ho: 1 = 2 = 3= .. = GHa: nem todos os so iguais

Sob Hiptese Ho, ento, a estatstica F tem distribuio F com G-1 e N-G graus de liberdade.

Exemplo resolvido:Na Tabela 1, mostrada a seguir, temos cinco grupos com cinco observaes em cada grupo. Queremos saber as diferenas nas mdias amostrais so variaes aleatrias que ocorrem apenas devido ao acaso (just by chance) ou se existem diferenas sistemticas entre as mdias.

Tabela 1. Dados obtidos em cinco grupos num experimento inteiramente casualizado com cinco rplicas.ABCDE

67453

68454

68564

88664

99685

mdias amostrais ()

78564

mdia geral = 6

Observao: Primeira regra de anlise de dados: make a picture

Segunda regra de anlise de dados: make a picture

Terceira regra de anlise de dados: make a pictureassim, um dot plot, e/ou um box-plot e/ou ou histograma convm serem apresentados!

Descriptive Statistics: A, B, C, D, E

Grupos N Mdia DP CoefVar (%)A 5 7.000 1.414 20.20B 5 8.000 0.707 8.84

C 5 5.000 1.000 20.00

D 5 6.000 1.225 20.41

E 5 4.000 0.707 17.68

Obs.: 1.414 o dobro de 0.707 Resoluo:SQ entre grupos: n(- )2Grupo AIncioEfeito tratamentoGrupo

(-x-)Resduo (jogo)Final2

6+17-161

6+17-161

6+17-161

6+17+181

6+17+294

5 (1)2Grupo BIncioEfeito tratamentoGrupo

(-x-)Resduo (jogo)Final2

6+28-171

6+28080

6+28080

6+28080

6+28+191

5(2)2 Grupo CIncioEfeito tratamentoGrupo

(-x-)Resduo (jogo)Final2

6-15-141

6-15-141

6-15050

6-15+161

6-15+161

5(-1)2 Grupo DIncioEfeito tratamentoGrupo

(-x-)Resduo (jogo)Final2

606-151

606-151

606060

606060

606+284

5(0)2Grupo EIncioEfeito tratamentoGrupo

(-x-)Resduo (jogo)Final2

6-24-131

6-24040

6-2404

6-24040

6-24+151

5(4-6)2 = 5(-2)2Clculo da Soma de QuadradosSQ Entre grupos =SQE = 5 [12 +22 + (-1)2 + 02 + (-2)2] = 50

SQ Dentro dos grupos = SQD = 2 = 22. 2 = (-1)2 +(-1)2+ (-1)2+ (1)2+ (2)2 + (-1)2+ (0)2 +(0)2+(0)+(1)2 + (-1)2+(-1)2+(0)2+(1)2+(1)2 + (-1)2 + (-1)2+(0)2+(0)2+(2)2 +

(-1)2+(0)2+(0)2+(0)2+(1)2 = 2 = 8+ 2 + 4 + 6 + 2 = 22

SQT = Soma de Quadrados Total = SQE + SQD = 50 + 22 = 72

SQT = (x :mdia geral )2 = SQT = (x mdia geral )2 = (6-6)2 + (6-6)2 + (6-6)2 +(8-6)2 +(9-6)2 +(7-6)2 + ... +(4-6)2 + (5-6)2 = 72 (esse valor representa a soma de 25 valores de desvios elevados ao quadrados)Efetue o teste de Normalidade dos resduos e/ou avaliao grfica.

Observao.

Suposio do modelo ANOVA:

(i) todas as populaes tm o mesmo desvio padro , de valor desconhecido;

(ii) os resduos devem seguir uma curva normal com mdia igual a zero e varincia 2.

Nesse nosso caso, estamos diante de um mau exemplo, porque os resduos no seguem uma distribuio Normal com mdia igual a zero. O que fazer, ento?

Uma soluo seria submeter os dados a uma transformao logartmica. Outra possibilidade seria efetuar um teste no paramtrico (anova de Kruskal-Wallis).

Para prosseguirmos em nosso exemplo didtico, vamos fazer de conta que os resduos seguem uma distribuio Normal, pois o teste F da ANOVA um procedimento robusto. E o que importa a normalidade das mdias amostrais; assim, a ANOVA torna-se mais segura medida que os tamanhos das amostras aumentam, devido ao efeito do teorema central do limite. Quando no houver valores atpicos ( esse o nosso caso) e as distribuies forem aproximadamente simtricas, podemos usar a ANOVA com segurana para tamanhos de amostras bem pequenos, como 4 ou 5.

A ANOVA considera que a variabilidade das observaes, medida pelo desvio padro, seja a mesma em todas as populaes. No fcil verificar a suposio de as populaes terem desvios-padro iguais. Testes estatsticos de igualdade dos desvios-padro so to sensveis ausncia de normalidade que, na prtica, tm pouco valor. A soluo contar com a robustez da ANOVA.

Qual a gravidade de os desvios-padro serem desiguais? A ANOVA no muito sensvel a violaes da suposio, particularmente quando todas as amostras tm tamanhos iguais ou semelhantes e nenhuma das amostras muito pequena. Ao planejar um estudo, tente tomar amostras do mesmo tamanho de todos os grupos que pretende comparar. Os desvios-padro amostrais estimam os desvios-padro da populao, logo, certifique-se antes de fazer a ANOVA de que os desvios-padro amostrais so semelhantes entre si. Espera-se que haja certa variao entre eles devido ao acaso. A seguir apresentamos uma regra prtica que segura em quase todas as situaes:Verificao dos Desvios-Padro na ANOVA:Os resultados do teste F da ANOVA so aproximadamente corretos quando o maior desvio-padro amostral no for mais do que duas vezes do que o menor desvio-padro amostral.

]

Um desvio-padro grande muitas vezes ocorre devido a valores atpicos ou assimetria.

Continuemos com a resoluo de nosso exemplo...Frmulas ANOVA 1 fatorVarincia = SQ/ nQM = quadrado mdio = varincia = SQ/glEntre grupos: SQ entre/ gl entre = SQ entre grupos/ g-1No nosso exemplo g=5 e SQ eg = 50 logo, QM entre grupos = 50/4 = 12,50

Dentre grupos (resduo):SQ dentro/ gl dentro = SQ dentro resduo/ N-gNo nosso exemplo gl = N-g = 25-5 = 20 (5 grupos com n=5)

Logo: QM dentro resduo = 22/20 = 1,1A nossa hiptese (Ho) : sendo as mdias nas populaes das quais procedem as amostras iguais, qual a probabilidade de obtermos valores Fcalculado to extremos?

Fcalculado = QMentre/ QMdentro = 12,5 / 1,1 = 11,36O p-valor quantifica a discrepncia entre os dados e Ho: se a probabilidade de F to discrepante ou mais que Ho.

A nossa hiptese em investigao (ou em estudo) se as mdias diferem estatisticamente. Usualmente expressa a hiptese estatstica de nulidade (ou igualdade) assim: Ho: A = B = C = D = E.

A rigor, Ho, no um teste para verificar a probabilidade de igualdade das mdias, mas sim para verificar a probabilidade de ocorrncia da estatstica F tendo como condio verdadeira o fato de que essas amostras procedem de populaes que apresentam o mesmo valor mdio (no nosso exemplo, = 6). (Ho: hiptese onde quaisquer diferenas encontradas so devido ao acaso).

Em nosso exemplo, a hiptese em investigao no coincide com a hiptese estatstica de nulidade (Ho). Assim, se rejeitarmos Ho, ento se pode inferir com cautela que h uma diferena sistemtica atuando, o que explica a diferena entre os valores amostrais melhor do que a ao do acaso.

Os resultados obtidos so apresentados de forma resumida na tabela 2:

Tabela 2. ANOVA (1 fator) para os dados da Tabela 1.

Fonte de variao (ou efeito)glSQQMRazo Fp-valor

Entre grupos45012,511,360,00006*

Dentro (resduo)20221,1

Total2472

*p< 0,05Clculo do p-valor associado estatstica F.Procedimento no Minitab.Numa tabela F encontrada nos livros de estatstica, obtemos F gl (4:20) = 2,87 para 5%. A estatstica F razo de varincia foi calculada. Ela ocorre muito ou pouco num mecanismo de pura chance (diferenas amostrais devido ao acaso)?Se uma observao rara (improvvel) sob determinada hiptese (Ho), ento evidncia contra essa hiptese.No Minitab (comando CTR + L) temos de digitar o comando CDF (cumulative distribution function) e, a seguir, o valor da estatstica F calculada para indicar que estamos considerando a distribuio F e, no por exemplo a Normal. Numa outra linha, os nmeros de graus de liberdade das varincias entre os grupos (numerador) e dentro dos grupos (denominador). A constante k1 representa a probabilidade de - at F (= 2.87) e o p-valor a parte da curva que falta para 100% de probabilidade (rea total da curva); por esse motivo, para se obter o p-valor, rea do que falta, temos de subtrair do total. O programa Minitab vai armazenar esse resultado como constante k2

Se quisermos testar esses comandos (como garantia):Edit>> Command Line Editor:

cdf 2.87 k1;F 4 20.let k2 = 1 k1

print k2

( X) Submit Commands:

nesse caso temos p-valor = k2 = 0.05 confirmando como verdadeira a Tabela F.

F calculado (= 11.36) maior que F (= 2.87) tabelado a 5%, ento, rejeita-se HoPara se obter o p-valor associado estatstica Fgl(4;20) = 11.36Edit>> Command Line Editor:

cdf 11.36 k1;F 4 20.let k2 = 1 k1

print k2A resposta ser k2 = p-valor =1-p (=k1) = 0,00006 = < 5%, logo rejeita-se Ho.Concluso. H evidncia amostral de que as cinco mdias diferem do ponto de vista estatstico.I - TESTES DE HIPTESESHipteses Estatsticas:Ho: hiptese nula

H1: hiptese alternativa

Testes de Hipteses:

Regra que divide o espao amostral em duas regies: uma de rejeio e outra de no rejeio de Ho. A partio , em geral, obtida utilizando-se uma estatstica amostral.

Erros associados ao teste de hipteses:

(ii) DecisoHo VerdadeiraHo Falsa

Rejeitar HoErro Tipo I____

No rejeitar Ho______Erro Tipo II

(iii) Nvel de significncia:

Probabilidade de rejeio de uma hiptese verdadeira Ho. fixado antes da extrao das amostras.

Testes unilaterais:

Testes Bilaterais:ETAPAS DO TESTE DE HIPTESES

Resumo das etapas aplicadas a qualquer teste de hipteses:

I. Determinar as hipteses nula e alternativa apropriadas.

II. Selecionar a estatstica de teste que ser utilizada.

III. Especificar o nvel de significncia para o teste.

IV. Usar o nvel de significncia para estabelecer uma regra de deciso que levar rejeio ou no de H0.

V. Coletar os dados amostrais e calcular a estatstica de teste.

VI. Comparar o valor da estatstica do teste com o(s) valor (es) crtico(s) especificado(s) na regra de deciso para determinar se H0 deve ser rejeitado ou no; ou calcular o valor p, baseado na estatstica de teste. Comparar o valor p com , para determinar se H0 deve ser rejeitado ou no.

VII. Concluir, baseado na deciso tomada.NOTAS E COMENTRIOS

(ii) Muitas aplicaes de teste de hipteses tm um objetivo de tomada de deciso. A concluso rejeitar H0 fornece o suporte estatstico para concluir que H1 verdadeiro e tomar a deciso apropriada, seja ela qual for. A declarao no rejeitar H0 embora no conclusiva, freqentemente fora os gerentes a se comportarem como se H0 fosse verdadeiro. Nesse caso, os gerentes precisam estar cientes do fato de que tal comportamento pode resultar num erro do Tipo II.

(iii) O valor p, o nvel de significncia observado, uma medida da plausibilidade dos resultados da amostra quando a hiptese nula assumida como verdadeira. Quanto menor o valor p, menos provvel que os resultados da amostra venham de uma populao onde a hiptese nula verdadeira. A maioria dos softwares estatsticos fornece o valor p associado a um teste de hipteses. O usurio pode ento comparar o valor p ao nvel de significncia e tirar concluso do teste de hipteses sem se referir a uma tabela estatstica.

Teste para a mdia: Hipteses:H0: =0H1: 0 Estatstica:

1. Para 2 conhecida:

2. Para 2 desconhecida:

EMBED Microsoft Equation 3.0 Teste para a proporo: Hipteses:H0: =0H1: 0 Estatstica:

II - CORRELAO E REGRESSO LINEAR SIMPLES:

Correlao Linear Simples:

A correlao linear procura medir o grau da relao entre duas variveis aleatrias quantitativas. Na populao, a correlao denotada por . Na amostra, a relao entre as variveis pode ser quantificada pelo coeficiente de correlao linear de Pearson:

O coeficiente r varia de 1 a +1, dependendo do grau da relao entre as variveis e da forma com que se relacionam (direta ou inversamente).

Diagramas de Disperso:1. Para uma correlao linear perfeita e direta entre as variveis (=1), temos2. Para uma correlao linear perfeita e inversa entre as variveis (=-1), temos

3. Para uma correlao linear inversa entre as variveis (-1