35
Testes de Hipóteses Hipótese Estatística de teste Distribuição da estatística de teste Decisão H 0 : Não existe efeito vs. H 1 : Existe efeito Hipótese nula Hipótese alternativa Varia conforme a natureza do problema Ou rejeito a hipótese nula o que significa que existe um efeito de tratamento Ou não rejeito a hipótese nula o que significa que não existem evidências de um efeito de tratamento

Testes de Hipótesespn-aulas.wdfiles.com/local--files/madeira/Apresent_resumo.pdf · Testes de Hipóteses Hipótese Estatística de teste Distribuição da estatística de teste Decisão

Embed Size (px)

Citation preview

Testes de HipótesesHipótese

Estatística de teste

Distribuição da estatística de teste

Decisão

H0: Não existe efeito vs. H1: Existe efeito Hipótese nula Hipótese alternativa

Varia conforme a natureza do problema

Ou rejeito a hipótese nula o que significa que existe um efeito de tratamento

Ou não rejeito a hipótese nula o que significa que não existem evidências de um efeito de tratamento

Aceitar ou Não rejeitar?

Do ponto de vista estatístico puro não se diz “Aceito H0”,porque existem sempre erros.

O facto de não se rejeitar H0 pode ter duas causas:

•Ou o efeito não existe•Ou não existe potência para mostrar o efeito.

Interpretação dos p-values

O p-value é a probabilidade de observar os dados quando a hipótese nula é verdadeira.

Por exemplo num ensaio clínico

Estamos interessados na diferença observada entre dois grupos de tratamentos.Relacionamos então os dados com a provável variação numaamostra devida ao acaso quando a hipótese nula é verdadeirana população.

Regra geral,Se o p-value > 0,05 o resultado do teste não

é significativo

Se o p-value < 0,05 o resultado do teste é significativo(rejeita-se a hipótese nula)

Se o p-value < 0,01 Pode-se dizer que o resultado é muito significativo

Erros de Tipo I e Tipo II

Existem sempre erros ao fazer um teste de hipóteses.

Decisão: H0

Realidade: H0

Verdadeira

Verdadeira

Falsa

Falsa Erro I

αααα

Erro II

ββββconfiança

1 1 1 1 −−−− αααα

Potência

1 1 1 1 −−−− ββββ

[ ] [ ]a verdadeiré H|HRejeitar I tipode erro 00PP ==α

[ ] [ ]falsa é H|HRejeitar NãoII tipode erro 00PP ==β

[ ]Falsa é H|HRejeitar 1 00PPotência =β−=

Esquema Clássico

Académico Académico Académico

Médias

Uma amostra Duas amostras Várias amostras

Teste t Teste t Teste t(teste de welsh)

Igualdade de variâncias

desigualdade de variâncias

Igualdade de variâncias

ANOVA

desigualdade de variâncias

Normalidade da distribuição de cada grupo

Não Normalidade da distribuição de pelo menos um grupo / uma das amostra com tamanho muito pequeno (teste não paramétrico)

Teste de Mann-Whitney

Teste de Kruskal-Wallis

Testes de Hipóteses mais usuais

Uma amostra ou Duas amostras

MédiaProporções

Variância

Teste do qui-quadrado

• Pode ser usado como teste de ajustamento– Ver se duas (ou mais) distribuições são iguais

• E pode ser usado como teste de independência/associação entre duas variáveis categoriais– Verifica se existe independência entre as variáveis a

A e B– Hipótese P(A e B) = P(A)*P(B)

Crosstab

14 5 1973,7% 26,3% 100,0%

7,3% 6,8% 7,2%177 69 246

72,0% 28,0% 100,0%92,7% 93,2% 92,8%

191 74 26572,1% 27,9% 100,0%

100,0% 100,0% 100,0%

Count% within ANTPRO% within SEXOCount% within ANTPRO% within SEXOCount% within ANTPRO% within SEXO

Sim

Não

ANTPRO

Total

Masculino FemininoSEXO

Total

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Problemas anteriores idênticos * Sexo

Crosstab

14 5 1973,7% 26,3% 100,0%

7,3% 6,8% 7,2%177 69 246

72,0% 28,0% 100,0%92,7% 93,2% 92,8%

191 74 26572,1% 27,9% 100,0%

100,0% 100,0% 100,0%

Count% within ANTPRO% within SEXOCount% within ANTPRO% within SEXOCount% within ANTPRO% within SEXO

Sim

Não

ANTPRO

Total

Masculino FemininoSEXO

Total

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Problemas anteriores idênticos * Sexo

Chi-Square Tests

,026b 1 ,871,000 1 1,000,027 1 ,870

1,000 ,554

,026 1 ,871

265

Pearson Chi-SquareContinuity Correctiona

Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea.

0 cells (,0%) have expected count less than 5. The minimum expected count is5,31.

b.

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Problemas anteriores idênticos * Sexo

Chi-Square Tests

,026b 1 ,871,000 1 1,000,027 1 ,870

1,000 ,554

,026 1 ,871

265

Pearson Chi-SquareContinuity Correctiona

Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea.

0 cells (,0%) have expected count less than 5. The minimum expected count is5,31.

b.

Conclusão:A proporção de problemas idênticos anteriores não diferiu por sexo (p=1,000);OuNão há evidências de que a distribuição de problemas anteriores idênticos difira por sexo (p=1,000);

Crosstab

62 59 12151,2% 48,8% 100,0%32,8% 78,7% 45,8%

127 16 14388,8% 11,2% 100,0%67,2% 21,3% 54,2%

189 75 26471,6% 28,4% 100,0%

100,0% 100,0% 100,0%

Count% within POUCO% within SEXOCount% within POUCO% within SEXOCount% within POUCO% within SEXO

Sim

Não

POUCO

Total

Masculino FemininoSEXO

Total

Chi-Square Tests

45,490b 1 ,00043,662 1 ,00047,203 1 ,000

,000 ,000

45,318 1 ,000

264

Pearson Chi-SquareContinuity Correctiona

Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea.

0 cells (,0%) have expected count less than 5. The minimum expected count is34,38.

b.

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Pouco interesse sexual * Sexo

Chi-Square Tests

45,490b 1 ,00043,662 1 ,00047,203 1 ,000

,000 ,000

45,318 1 ,000

264

Pearson Chi-SquareContinuity Correctiona

Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea.

0 cells (,0%) have expected count less than 5. The minimum expected count is34,38.

b.

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Pouco interesse sexual * Sexo

Conclusão:A proporção de falta de interesse sexual difere nos dois sexo (p<0,001);OuA falta de interesse sexual está associado ao género dos indivíduos (p<0,001);

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Pouco interesse sexual * Sexo

OR = 0.145 (0.077; 0.275)Os homens apresentam uma reduzida probabilidade de se queixarem de falta de interesse Sexual quando comparados com as mulheres.

Invertendo os valores:OR = 6.875 (3.64; 12.99)As mulheres apresentaram um probabilidade de se queixarem de falta de interesse sexual aproximadamente 7 vezes maior que a dos homens.

Comparação de médias

• Teste t e ANOVA– Estes testes dizem-se paramétricos –

Assumem que as distribuições subjacentes aos dados são normais

• Quantas populações queremos comparar?– Duas � teste t– Mais de duas � ANOVA

Group Statistics

190 51,91 13,749 ,99773 35,15 11,273 1,319

sexoMasculinoFeminino

idadeN Mean Std. Deviation

Std. ErrorMean

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Idade dos indivíduos * Sexo

Independent Samples Test

6,025 ,015 9,279 261 ,000 16,755 1,806 13,199 20,310

10,130 158,145 ,000 16,755 1,654 13,488 20,021

Equal variancesassumedEqual variancesnot assumed

idadeF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Idade dos indivíduos * Sexo

Conclusão:(Não existe homogeneidade das variâncias (p=0.015), temos de usar o teste t para amostras independentes assumindo variâncias diferentes)

Rejeita-se a hipótese de igualdade das médias (populacionais) de idade nos dois grupos (p<0,001).OuA idade dos indivíduos do sexo masculino que se queixam de problemas de disfunção sexual ao médico de família difere estatisticamente da idade das mulheres que apresentam o mesmo tipo de queixas.

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Há quanto tempo apresenta estas queixas * Sexo

Group Statistics

171 9,41 19,135 1,46361 14,64 28,457 3,644

sexoMasculinoFeminino

tempoN Mean Std. Deviation

Std. ErrorMean

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Há quanto tempo apresenta estas queixas * Sexo

Group Statistics

171 9,41 19,135 1,46361 14,64 28,457 3,644

sexoMasculinoFeminino

tempoN Mean Std. Deviation

Std. ErrorMean

Independent Samples Test

5,224 ,023 -1,598 230 ,112 -5,230 3,274 -11,680 1,220

-1,332 80,179 ,187 -5,230 3,926 -13,043 2,584

Equal variancesassumedEqual variancesnot assumed

tempoF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Há quanto tempo apresenta estas queixas * Sexo

Conclusão:(Não existe homogeneidade das variâncias (p=0.023), temos de usar o teste t para amostras independentes assumindo variâncias diferentes)

Não se rejeita a hipótese de igualdade das médias (populacionais) de tempo de queixas de disfunção sexual nos dois grupos (p=0.187). Não foram encontradas evidências de que a duração das queixas de disfunção difiram por sexos.

Independent Samples Test

5,224 ,023 -1,598 230 ,112 -5,230 3,274 -11,680 1,220

-1,332 80,179 ,187 -5,230 3,926 -13,043 2,584

Equal variancesassumedEqual variancesnot assumed

tempoF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Será que o número de QDS é influenciado pela idade?

• Número de queixas (1, 2, 3 ou mais)

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Será que o número de QDS é influenciado pela idade?

• Número de queixas (1, 2, 3 ou mais)

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Será que o número de QDS é influenciado pela idade?

• Número de queixas (1, 2, 3 ou mais)

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Rejeita-se a hipótese de igualdade das variâncias populacionais dos 3 grupos (p=0,016).Está violado um dos prossupostos da ANOVA � não tenho garantias de que o resultado da ANOVA seja correcto

O teste de Shapiro-Wilk é o mais apropriado quando o tamanho da amostra é menor que 50.

A idade no grupo com apenas uma queixa não segue uma distribuição normal.

Não podemos aplicar a ANOVA!

Rejeita-se a hipótese de igualdade da idade pelo número de queixas (p<0,001).OuExistem evidências de que uma associação entre idade e número de queixas QDS (p<0,001).

Os resultados obtidos pela ANOVA são confirmados pelo teste não paramétrico de Kruskal-Wallis.

Não existe evidencia de relação entre numero de queixas e idade na mulher. Nos homens o resultado é borderline.

Será que o número de QDS é influenciado pela idade?

• Número de queixas (variável numérica)

Exemplo: Queixas de Disfunção Sexual – rede médicos sentinela 1998-1999

Correlação negativa.

A idade tende a ser mais baixa quando as queixas aumentam.

Ou

Quando o número de queixas é menor a idade tende a ser mais elevada.