Testes não paramétricos › 2020 › 05 › ...14 Preferência por tipo de programa Geração Z Millenials Geração X TOTAL Séries 14 10 3 27 Noticiário 4 15 11 30 Esporte 7 9

Testes não paramétricos

Prof. Marcos Vinicius Pó

Métodos Quantitativos para Ciências Sociais

Recordando...

2 Prof. Marcos Vinicius Pó

É uma metodologia que define regras de decisão para julgar se as evidências estatísticas amostrais permitem suportar – ou refutar – uma hipótese quantitativa sobre um parâmetro populacional, com base nas probabilidades de cometer determinados tipos de erro.

Temos dois tipos de hipóteses:

► H0 - Hipótese nula: sempre possui uma afirmação de igualdade. É nula no sentido de negar o fenômeno investigado. Assim, os valores amostrais verificados seriam resultado apenas de um acaso amostral.

► HA - Hipótese alternativa: é o complemento da hipótese nula e significa que os valores encontrados na amostra trazem evidências fortes da existência do fenômeno. Costuma ser a hipótese de trabalho, que só será aceita se a evidência estatística for forte.

3

Teste estatístico de hipótese

Regiões críticas do teste de médias e proporções


H0 HA Tipo de teste Ilustração

μ=100

p=0,50

μ≠100

p≠0,50 Bicaudal

μ≤100

p≤0,50

μ>100

p>0,50 Unicaudal

μ≥100

p≥0,50

μ

Roteiro para o teste de hipótese

1. Definir as hipóteses. ► Nula (H0)

► Alternativa (HA)

2. Especificar as evidências estatísticas. ► Estimadores e propriedades da estatística (distribuição,

média, desvio-padrão...)

3. Fixar a probabilidade de cometer o Erro Tipo I (α) e especificar a regra de decisão. ► Referência para aceitar ou rejeitar a hipótese (região

crítica)

4. Apreciar a evidência.

5. Decidir e interpretar o resultado.

5

Teste de hipótese

• Queremos saber se a evidência que temos em mãos significa que encontramos algo diferente daquela que suponhamos existir e se essa evidência é forte para podermos fazer afirmações.

• Para isso nos valemos de amostras e tentamos verificar o quando podemos dizer que estamos tratando de um evento estatisticamente raro, incomum.

• Problemas:

► Como saber que a nossa amostra não é um mero acaso?

► Com que critérios faremos o nosso julgamento?

► Que tipo de estatística pode nos ajudar a tomar uma decisão?

6

São definidas em termos de ordem, classes ou categorias (masculino/feminino; profissão; escolaridade...).

► Variáveis quantitativas eventualmente podem ser classificadas em categorias (faixas salariais; anos de instrução...).

Podemos verificar a freqüência das nossas observações em cada uma das categorias e comparar com uma referência usando-se tabelas de contingência.

Problema: como quantificar o grau de associação entre duas amostras ou entre uma amostra e uma distribuição esperada?

► Como fazer? Proposta: medir o afastamento em relação a uma “distribuição esperada”.

► De que forma? verificar o desvio (distanciamento) das freqüências observadas em relação às esperadas.

► Como medir? Com a estatística Qui-quadrado (χ2).

7

Variáveis categóricas

Tabelas de contingência

Tipo de tabela em forma de matriz que mostra uma distribuição de freqüências multivariada estudada. São muito úteis para verificar a inter-relação entre as variáveis. Exemplo:

8

Assistir séries Origem

Ocasional Frequente Total

Capitais e regiões metropolitanas

43 9 52

Cidades do interior 44 4 48

Total 87 13 100

Testes de aderência, homogeneidade e independência

• Comparar dados de populações visando determinar:

► Aderência à uma distribuição específica;

► Homogeneidade dessa distribuição;

► Independência ou associação entre 2 variáveis aleatórias.

• Para isso mede-se a distância entre os valores observados e aqueles que seriam esperados se eles possuíssem determinada distribuição.

• São chamados de testes não-paramétricos.

9

Testes Paramétricos

• Referem-se diretamente a uma determinada distribuição de parâmetros da população.

• Pressupostos:

► A estatística de teste deve ter uma distribuição probabilística conhecida.

► Os erros possuem distribuição normal.

► Os resíduos são aleatórios e independentes.

• Mais eficientes e precisos.

Testes Não Paramétricos

• Não se baseiam diretamente em um modelo de distribuição de parâmetros da distribuição.

• Requerem menos pressupostos em relação à população.

► Não exigem normalidade, por exemplo.

• Podem ser aplicados a dados categóricos.

• Aplicação mais simples.

• Menos eficientes que os testes paramétricos.

10

Usada para mensurar o afastamento dos resultados amostrais em relação à uma dada distribuição esperada das variáveis estudadas.

Parâmetro necessário para determinar as probabilidades: graus de liberdade na tabela.

11

Estatística Qui-quadrado

Onde:

• n*: freqüência esperada

• r: total de categorias da variável X

• s: total de categorias da variável Y

Onde

• fobs = freqüência observada em qualquer célula

• fe = freqüência esperada em qualquer célula

12

Estatística Qui-quadrado (χ2)

r

i

s

jij

ijij

n

nn1 1

2

2

*

)*

(

e

eobs

f

ff 22 )(Ou

13

Tabela Qui-quadrado

Graus de liberdade na tabela de contingência

São determinados pelo número de células que teriam preenchimento livre em uma tabela de contingência considerando que já sabemos as totalizações de linhas e colunas.

Fórmula básica: gl = (l-1).(c-1)

14

Preferência por tipo de programa

Geração Z Millenials Geração X TOTAL

Séries 14 10 3 27

Noticiário 4 15 11 30

Esporte 7 9 5 21

Total 25 34 19 78

Exemplo

Um dado é lançado 1.200 vezes, com os resultados expostos na tabela abaixo. Teste a hipótese de que o dado é honesto ao nível de 5%.

15

Ocorrência 1 2 3 4 5 6

Freqüência 190 179 228 183 226 194

RC = [11,070; +∞[ χ2 = (200-190)2/200 +(200-228)2/200 + (200-179)2/200 + (200-183)2/200 + (200-194)2/200 + (200-226)2/200 = 11,63 ∈ RC p-valor(gl=5)=4,02%

Para investigar o envolvimento de filiados a um partido político foi tomada uma amostra de 180 homens e 120 mulheres. Definiram-se duas categorias de classificação e foram considerados como “ativistas” 100 homens e 80 mulheres, sendo os restantes classificados como “ocasionais”. Ao nível de 10% os dados fornecem evidência de possíveis diferenças de grau de fidelidade partidária entre os gêneros?

16

Exemplo

Um pesquisador deseja saber se há alguma diferença no perfil dos assaltos ocorridos na área urbana e rural de uma região. Para isso, analisou-se uma amostra de 200 boletins de ocorrência e os classificou quanto à arma utilizada. Podemos dizer, ao nível de 5%, que há diferenças no perfil do crime nas áreas urbanas e rurais?

17

Exemplo: pequenas frequências

Arma Área urbana Área rural Total

De fogo 100 20 120

Cortante 39 21 60

Contundente 9 3 12

Outras 2 6 8

Total 150 50 200

Correção de continuidade de Yates

Ao aplicar o teste do χ² supõe-se que o tamanho amostral será relativamente grande, assim como cada classe amostral (célula da tabela . Se isso não ocorrer o qui-quadrado calculado pode ser superestimado. Nestes casos alguns autores recomendam o uso do fator de correção de Yates.

Como regra básica essa correção é usada quando o qui-quadrado observado é maior que o crítico e:

• O tamanho da amostra é menor que 40; ou

• Há pelo menos uma classe com frequência esperada menor que 5.


χ2 = (𝑓𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 − 𝑓𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 − 0,5)

2

𝑓𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜

Nota: a diferença entre fobservado e fesperado é reduzida em 0,5.

Cuidados no uso do teste Qui-quadrado

• É pressuposto que a amostragem seja aleatória.

• Deve-se usar as frequências absolutas, nunca as relativas (porcentagens).

• As frequências medidas e, principalmente, as esperadas não devem ser muito pequenas, pois podem distorcer os resultados do teste.

► Nesse caso deve-se analisar a possibilidade de agrupamento de classes e/ou o uso de correções.

• Sempre analise a tabela de contingência para verificar se não há dados superestimando o resultado.

19

Documents

Testes não paramétricos › 2020 › 05 › ...14 Preferência por tipo de programa Geração Z Millenials Geração X TOTAL Séries 14 10 3 27 Noticiário 4 15 11 30 Esporte 7 9