Upload
hadiep
View
220
Download
1
Embed Size (px)
Citation preview
Testes de Aderência, Homogeneidade e Independência
Prof. Marcos Vinicius Pó
Métodos Quantitativos para Ciências Sociais
Teste de hipótese
• Queremos saber se a evidência que temos em mãos significa que encontramos algo diferente daquela que suponhamos existir e se essa evidência é forte para podermos fazer afirmações.
• Para isso nos valemos de amostras e tentamos verificar o quando podemos dizer que estamos tratando de um evento estatisticamente raro, incomum.
• Problemas:
► Como saber que a nossa amostra não é um mero acaso?
► Com que critérios faremos o nosso julgamento?
► Que tipo de estatística pode nos ajudar a tomar uma decisão?
2
Variáveis categóricas
• São definidas em termos de classes ou categorias (masculino/feminino; profissão; escolaridade...).
• Podemos verificar a freqüência das nossas observações em cada uma das categorias e comparar com uma referência (freqüências esperadas), usando-se tabelas de contingência.
• Variáveis quantitativas eventualmente podem ser classificadas em categorias (faixas salariais; anos de instrução...).
3
Medindo a associação de variáveis categóricas
• Por que isso é interessante? Permite que trabalhemos com dados qualitativos e categóricos
• Problema: quantificar o grau de associação entre duas amostras categóricas.
► Como fazer? Proposta: medir o afastamento global em relação a uma “distribuição esperada”.
► De que forma? verificar o desvio (distanciamento) das freqüências observadas em relação às esperadas.
► Como medir? Com a estatística Qui-quadrado (χ2).
4
Aderência, homogeneidade e independência
• Comparar dados de populações visando determinar:
► Aderência à uma distribuição específica;
► Homogeneidade dessa distribuição;
► Independência ou associação entre 2 variáveis aleatórias.
• Para isso mede-se a distância entre os valores observados e aqueles que seriam esperados se eles possuíssem determinada distribuição.
• São chamados de testes não-paramétricos.
5
Testes Paramétricos
• Referem-se diretamente a um ou mais parâmetros da população.
• Pressupostos:
► A estatística de teste deve ter uma distribuição probabilística conhecida.
► Os erros possuem distribuição normal.
► Os resíduos são aleatórios e independentes.
• Mais eficientes e precisos.
Testes Não Paramétricos
• Não se baseiam diretamente em parâmetros da distribuição.
• Requerem menos pressupostos em relação à população.
► Não exigem normalidade.
• Podem ser aplicados a dados categóricos.
• Aplicação mais simples.
• Menos eficientes que os testes paramétricos.
6
• Tipo de tabela em forma de matriz que mostra a distribuição de freqüências multivariada estudada. São muito úteis para verificar a inter-relação entre as variáveis.
• Exemplo:
Uso de drogas
Origem
Ocasional Frequente Total
Capitais e regiões metropolitanas
43 9 52
Cidades do interior 44 4 48
Total 87 13 100
Tabelas de contingência
7
• Usada para mensurar o afastamento dos resultados amostrais em relação à uma dada distribuição esperada das variáveis estudadas.
• Parâmetro necessário para determinar as probabilidades: graus de liberdade na tabela (ν).
8
Estatística Qui-quadrado
• Onde:
► n*: freqüência esperada
► r: total de categorias da variável X
► s: total de categorias da variável Y
• Onde
► fobs = freqüência observada em qualquer célula
► fe = freqüência esperada em qualquer célula
9
Estatística Qui-quadrado (χ2)
r
i
s
jij
ijij
n
nn1 1
2
2
*
)*
(
e
eobs
f
ff 22 )(
Ou
10
Tabela Qui-quadrado
Graus de liberdade na tabela Qui-quadrado
• São determinados pelo número de caselas em uma tabela de contingência que teriam preenchimento livre considerando que temos as totalizações de linhas e colunas.
► Fórmula básica: ν = (l-1).(c-1)
• Exemplo:
11
Preferência por tipo de programa
Jovens Meia-idade Idosos Total
Música 14 10 3 27
Noticiário 4 15 11 30
Esporte 7 9 5 21
Total 25 34 19 78
Exemplo: aderência Um dado é lançado 1.200 vezes, com os seguintes resultados:
Teste a hipótese de que o dado é honesto, ao nível de 5%
Ocorrência 1 2 3 4 5 6
Freqüência 190 179 228 183 226 194
RC = [11,070; +∞[ χ2 = (200-190)2/200 +(200-228)2/200 + (200-179)2/200 + (200-183)2/200 + (200-194)2/200 + (200-226)2/200 = 11,63 ∈ RC p-valor(gl=5)=4,02%
12
Duas novas drogas são testadas em 160 pessoas portadoras de determinada enfermidade. Cada metade da amostra recebe uma das drogas, obtendo-se o resultado abaixo. Teste a hipótese de que as duas drogas são igualmente eficazes.
13
Exemplo: homogeneidade
Eficaz Não eficaz
Droga A 55 25
Droga B 48 32
RC=[3,841; +∞[ χ2
obs=1,34 ∉ RC p-valor=0,248
Um pesquisador deseja saber se há alguma diferença no perfil dos assaltos ocorridos na área urbana e rural de uma cidade do interior. Para isso, analisou-se uma amostra aleatória de 200 boletins de ocorrência. Podemos dizer, ao nível de 5%, que há diferenças no perfil do crime nas áreas urbanas e rurais?
14
Exemplo: pequenas frequências
Arma Área urbana Área rural Total
De fogo 100 20 120
Faca 39 21 60
Contundente 9 3 12
Outras 2 6 8
Total 150 50 200
Para investigar o envolvimento de filiados a um partido político foi tomada uma amostra de 180 homens e 120 mulheres. Definiram-se duas categorias de classificação e foram considerados como “ativistas plenos” 100 homens e 80 mulheres, sendo os restantes classificados como “participantes ocasionais”. Ao nível de 10% os dados fornecem evidência de possíveis diferenças de grau de fidelidade partidária entre os gêneros?
15
Exemplo
Cuidados no uso do teste Qui-quadrado
• É pressuposto que a amostragem seja aleatória.
• Deve-se usar as frequências absolutas, nunca as relativas (porcentagens).
• As frequências medidas e, principalmente, as esperadas não devem ser muito pequenas, pois podem distorcer os resultados do teste.
• Sempre analise a tabela de contingência para verificar se não há dados superestimando o resultado.
16