Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Testes não paramétricos
Prof. Marcos Vinicius Pó
Métodos Quantitativos para Ciências Sociais
Recordando...
2 Prof. Marcos Vinicius Pó
É uma metodologia que define regras de decisão para julgar se as evidências estatísticas amostrais permitem suportar – ou refutar – uma hipótese quantitativa sobre um parâmetro populacional, com base nas probabilidades de cometer determinados tipos de erro.
Temos dois tipos de hipóteses:
► H0 - Hipótese nula: sempre possui uma afirmação de igualdade. É nula no sentido de negar o fenômeno investigado. Assim, os valores amostrais verificados seriam resultado apenas de um acaso amostral.
► HA - Hipótese alternativa: é o complemento da hipótese nula e significa que os valores encontrados na amostra trazem evidências fortes da existência do fenômeno. Costuma ser a hipótese de trabalho, que só será aceita se a evidência estatística for forte.
3
Teste estatístico de hipótese
Regiões críticas do teste de médias e proporções
4 Prof. Marcos Vinicius Pó
H0 HA Tipo de teste Ilustração
μ=100
p=0,50
μ≠100
p≠0,50 Bicaudal
μ≤100
p≤0,50
μ>100
p>0,50 Unicaudal
μ≥100
p≥0,50
μ
Roteiro para o teste de hipótese
1. Definir as hipóteses. ► Nula (H0)
► Alternativa (HA)
2. Especificar as evidências estatísticas. ► Estimadores e propriedades da estatística (distribuição,
média, desvio-padrão...)
3. Fixar a probabilidade de cometer o Erro Tipo I (α) e especificar a regra de decisão. ► Referência para aceitar ou rejeitar a hipótese (região
crítica)
4. Apreciar a evidência.
5. Decidir e interpretar o resultado.
5
Teste de hipótese
• Queremos saber se a evidência que temos em mãos significa que encontramos algo diferente daquela que suponhamos existir e se essa evidência é forte para podermos fazer afirmações.
• Para isso nos valemos de amostras e tentamos verificar o quando podemos dizer que estamos tratando de um evento estatisticamente raro, incomum.
• Problemas:
► Como saber que a nossa amostra não é um mero acaso?
► Com que critérios faremos o nosso julgamento?
► Que tipo de estatística pode nos ajudar a tomar uma decisão?
6
São definidas em termos de ordem, classes ou categorias (masculino/feminino; profissão; escolaridade...).
► Variáveis quantitativas eventualmente podem ser classificadas em categorias (faixas salariais; anos de instrução...).
Podemos verificar a freqüência das nossas observações em cada uma das categorias e comparar com uma referência usando-se tabelas de contingência.
Problema: como quantificar o grau de associação entre duas amostras ou entre uma amostra e uma distribuição esperada?
► Como fazer? Proposta: medir o afastamento em relação a uma “distribuição esperada”.
► De que forma? verificar o desvio (distanciamento) das freqüências observadas em relação às esperadas.
► Como medir? Com a estatística Qui-quadrado (χ2).
7
Variáveis categóricas
Tabelas de contingência
Tipo de tabela em forma de matriz que mostra uma distribuição de freqüências multivariada estudada. São muito úteis para verificar a inter-relação entre as variáveis. Exemplo:
8
Assistir séries Origem
Ocasional Frequente Total
Capitais e regiões metropolitanas
43 9 52
Cidades do interior 44 4 48
Total 87 13 100
Testes de aderência, homogeneidade e independência
• Comparar dados de populações visando determinar:
► Aderência à uma distribuição específica;
► Homogeneidade dessa distribuição;
► Independência ou associação entre 2 variáveis aleatórias.
• Para isso mede-se a distância entre os valores observados e aqueles que seriam esperados se eles possuíssem determinada distribuição.
• São chamados de testes não-paramétricos.
9
Testes Paramétricos
• Referem-se diretamente a uma determinada distribuição de parâmetros da população.
• Pressupostos:
► A estatística de teste deve ter uma distribuição probabilística conhecida.
► Os erros possuem distribuição normal.
► Os resíduos são aleatórios e independentes.
• Mais eficientes e precisos.
Testes Não Paramétricos
• Não se baseiam diretamente em um modelo de distribuição de parâmetros da distribuição.
• Requerem menos pressupostos em relação à população.
► Não exigem normalidade, por exemplo.
• Podem ser aplicados a dados categóricos.
• Aplicação mais simples.
• Menos eficientes que os testes paramétricos.
10
Usada para mensurar o afastamento dos resultados amostrais em relação à uma dada distribuição esperada das variáveis estudadas.
Parâmetro necessário para determinar as probabilidades: graus de liberdade na tabela.
11
Estatística Qui-quadrado
Onde:
• n*: freqüência esperada
• r: total de categorias da variável X
• s: total de categorias da variável Y
Onde
• fobs = freqüência observada em qualquer célula
• fe = freqüência esperada em qualquer célula
12
Estatística Qui-quadrado (χ2)
r
i
s
jij
ijij
n
nn1 1
2
2
*
)*
(
e
eobs
f
ff 22 )(Ou
13
Tabela Qui-quadrado
Graus de liberdade na tabela de contingência
São determinados pelo número de células que teriam preenchimento livre em uma tabela de contingência considerando que já sabemos as totalizações de linhas e colunas.
Fórmula básica: gl = (l-1).(c-1)
14
Preferência por tipo de programa
Geração Z Millenials Geração X TOTAL
Séries 14 10 3 27
Noticiário 4 15 11 30
Esporte 7 9 5 21
Total 25 34 19 78
Exemplo
Um dado é lançado 1.200 vezes, com os resultados expostos na tabela abaixo. Teste a hipótese de que o dado é honesto ao nível de 5%.
15
Ocorrência 1 2 3 4 5 6
Freqüência 190 179 228 183 226 194
RC = [11,070; +∞[ χ2 = (200-190)2/200 +(200-228)2/200 + (200-179)2/200 + (200-183)2/200 + (200-194)2/200 + (200-226)2/200 = 11,63 ∈ RC p-valor(gl=5)=4,02%
Para investigar o envolvimento de filiados a um partido político foi tomada uma amostra de 180 homens e 120 mulheres. Definiram-se duas categorias de classificação e foram considerados como “ativistas” 100 homens e 80 mulheres, sendo os restantes classificados como “ocasionais”. Ao nível de 10% os dados fornecem evidência de possíveis diferenças de grau de fidelidade partidária entre os gêneros?
16
Exemplo
Um pesquisador deseja saber se há alguma diferença no perfil dos assaltos ocorridos na área urbana e rural de uma região. Para isso, analisou-se uma amostra de 200 boletins de ocorrência e os classificou quanto à arma utilizada. Podemos dizer, ao nível de 5%, que há diferenças no perfil do crime nas áreas urbanas e rurais?
17
Exemplo: pequenas frequências
Arma Área urbana Área rural Total
De fogo 100 20 120
Cortante 39 21 60
Contundente 9 3 12
Outras 2 6 8
Total 150 50 200
Correção de continuidade de Yates
Ao aplicar o teste do χ² supõe-se que o tamanho amostral será relativamente grande, assim como cada classe amostral (célula da tabela . Se isso não ocorrer o qui-quadrado calculado pode ser superestimado. Nestes casos alguns autores recomendam o uso do fator de correção de Yates.
Como regra básica essa correção é usada quando o qui-quadrado observado é maior que o crítico e:
• O tamanho da amostra é menor que 40; ou
• Há pelo menos uma classe com frequência esperada menor que 5.
18 Prof. Marcos Vinicius Pó
χ2 = (𝑓𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 − 𝑓𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 − 0,5)
2
𝑓𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜
Nota: a diferença entre fobservado e fesperado é reduzida em 0,5.
Cuidados no uso do teste Qui-quadrado
• É pressuposto que a amostragem seja aleatória.
• Deve-se usar as frequências absolutas, nunca as relativas (porcentagens).
• As frequências medidas e, principalmente, as esperadas não devem ser muito pequenas, pois podem distorcer os resultados do teste.
► Nesse caso deve-se analisar a possibilidade de agrupamento de classes e/ou o uso de correções.
• Sempre analise a tabela de contingência para verificar se não há dados superestimando o resultado.
19