2 - Análise de dados categorizados

Embed Size (px)

Citation preview

Anlise de dados categorizados

Teste de significncia da associao entre duas variveis qualitativasFonte: Cap. 12, Estatstica para Cincias Sociais, Pedro Barbetta, Ed. UFSC, 6 edio, 2006

Anlise de associao

INE 5108

Teste estatstico de associaoA aplicao de um teste estatstico (ou teste de significncia) serve para verificar se os dados de uma amostra fornecem evidncia suficiente para que se possa aceitar como verdadeira a hiptese de pesquisa, precavendo-se, com certa segurana, de que as diferenas observadas nos dados no so meramente casuais.

INE 5108

Teste de associao Qui-quadrado um mtodo que permite testar a significncia da associao entre duas variveis qualitativas, como tambm, comparar (no sentido de teste de significncia) duas ou mais amostras, quando os resultados da varivel resposta esto dispostos em categorias.

INE 5108

Exemplo 12.1Para estudar a associao entre sexo (masculino ou feminino) e tabagismo (fumante ou no-fumante), numa certa populao, foi observada uma amostra aleatria de 300 pessoas adultas dessa populao, fazendo-se a classificao segundo o sexo e tabagismo, de acordo com a tabela de contingncia abaixo.

INE 5108

Homens fumam mais que mulheres?Na amostra, a percentagem de homens fumantes (46%) diferente da percentagem de mulheres fumantes (38%); Os dados parecem comprovar a hiptese de que existe diferena entre homens e mulheres, quanto varivel tabagismo. Contudo, estamos examinando uma amostra e, conseqentemente, as diferenas observadas podem ter ocorrido por fatores casuais. Ser que se tomssemos outras amostras da mesma populao, sob as mesmas condies, as concluses poderiam ser diferentes?INE 5108

As hipteses de um teste estatsticoDado um problema de pesquisa, o pesquisador precisa saber escrever a chamada hiptese de trabalho ou hiptese nula, H0. Essa hiptese descrita em termos de parmetros populacionais e , basicamente, uma negao daquilo que o pesquisador deseja provar. Sob essa hiptese, as diferenas observadas nos dados so consideradas casuais. Para o exemplo do tabagismo:H0: A proporo de homens fumantes igual proporo de mulheres fumantes, na populao em estudo, ou ainda: H0: No h associao entre o gnero e o tabagismoINE 5108

As hipteses de um teste estatstico . . .Quando os dados mostrarem evidncia suficiente de que a hiptese nula, H0, falsa, o teste a rejeita, aceitando em seu lugar a chamada hiptese alternativa, H1. H1 , em geral, aquilo que o pesquisador quer provar, ou seja, a prpria hiptese de pesquisa, considerando a forma do planejamento da pesquisa.H1: A proporo de homens fumantes diferente da proporo de mulheres fumantes, na populao em estudo, ou ainda: H1: H associao entre o gnero e o tabagismo.

INE 5108

Teste Qui-quadrado para o exemplo 12.1

INE 5108

Estatstica do Teste 2Clula = cruzamento de linha e coluna de uma tabela de contingncia. A estatstica do teste, chamada de 2 (qui-quadrado), uma espcie de medida de distncia entre as freqncias observadas e as freqncias que esperaramos encontrar em cada clula, na suposio das variveis serem independentes (H0 verdadeira).

INE 5108

Clculo das Freqncias Esperadas (E)

INE 5108

Clculo da Estatstica do Teste 2

Valor do 2 para os dados da amostraINE 5108

Interpretao do valor da estatstica 2Quando as variveis so independentes (H0 verdadeira), as freqncias observadas tendem a ficar perto das freqncias esperadas: as variaes so apenas casuais! Neste caso, o valor de 2 deve ser pequeno. Em outras palavras, um valor pequeno de 2 sugere que as variveis podem ser independentes. Por outro lado, um valor grande na estatstica 2, sinaliza que as diferenas entre as freqncias observadas e freqncias esperadas no devem ser meramente casuais, ou seja, deve haver associao entre as duas variveis.INE 5108

Distribuio de RefernciaUma distribuio de referncia permite julgar se um determinado valor da estatstica 2 pode ser considerado grande o suficiente para rejeitar H0, em favor de H1. Suposies bsicas para usar a chamada distribuio qui-quadrado como referncia:Os dados estejam dispostos numa tabela de contingncia propriamente dita, isto , cada elemento observado alocado numa e apenas numa clula; e As amostras sejam grandes (as frequncias esperadas de todas as clulas sejam maiores que 5 (cinco). No exemplo foram: 86,67; 43,33; 113,33 e 56,67.INE 5108

Distribuio de Referncia

INE 5108

Distribuio de RefernciaNo Exemplo 12.1, ambas as variveis tm duas categorias (tabela 2x2), ento l = 2, c = 2 e, portanto, gl = (2 1).(2 1) = 1. Logo, se H0 for verdadeira, os possveis valores da estatstica 2 devem seguir uma distribuio quiquadrado com gl = 1 grau de liberdade.4

f(x)

gl = 1

0,2

f(x)

gl = 4

2

0,1

0

1

2

x

0

3

6

9

x

INE 5108

Probabilidade de significncia: Valor-pSupondo que as duas variveis sejam independentes (isto , H0 verdadeira), o valor-p a probabilidade de a estatstica qui-quadrado acusar um valor maior ou igual do que o valor do 2, calculado com base na amostra.

INE 5108

Probabilidade de significncia: Valor-pQuando os dados observados levam a um 2 (calculado) grande (e, em conseqncia, um valor p pequeno), o teste rejeita H0, em favor de H1. Por outro lado, quando os dados observados levam a um 2 pequeno (e, em conseqncia, um valor p grande), o teste no rejeita H0, porque o valor calculado de 2 est condizente com a distribuio dos possveis valores de qui-quadrado .

Valor de 2 calculado com os dados da amostraINE 5108

Nvel de Significncia do teste ()

INE 5108

Regra de deciso baseada no Valor-p

INE 5108

Tipos de erros num teste estatstico

INE 5108

Sobre erros num teste estatsticoSe o teste rejeitar H0, temos controle do risco de erro (probabilidade igual a ). Se o teste aceitar H0, no temos controle do risco de erro. A probabilidade de ocorrer o erro tipo II , mas, ao contrrio de , a probabilidade no fixada a priori. Por conta disso, se usa uma linguagem mais enftica quando o teste rejeita H0:os dados provaram estatisticamente que sexo e tabagismo esto associados.

E uma linguagem mais suave quando o teste aceita H0:os dados no mostraram evidncia suficiente de exista associao entre sexo e tabagismo, portanto admite-se que as duas variveis sejam independentes.INE 5108

Tabela da dist. de referncia Qui-quadrado

INE 5108

Valor de 2 na tabela da dist. de referncia

O valor de limite correspondente a p 5%, seria para um valor de X2 = 3,84 (veja a tabelaINE 5108

Valor de 2 na tabela da dist. de refernciaO valor calculado 2 = 1,74 est entre os valores 1,32 e 2,71 da tabela, os quais esto associados s reas na cauda superior iguais a 0,25 e 0,10, respectivamente. Para 2 = 1,74 o valor p se encontra entre 0,10 e 0,25. Usando o nvel usual de significncia de 5% ( = 0,05), o teste aceita H0 (pois, p > ). Concluso: os dados no mostram evidncia de associao entre sexo e tabagismo, na populao em estudo. Em outras palavras, a diferena verificada na amostra entre a proporo de homens fumantes e a proporo de mulheres fumantes pode ser explicada, meramente, por variaes casuais da amostragemINE 5108

ExerccioUse o Sestat e a tabela de dados sobre gnero x tabagismo (Exemplo QLQL - Sexo x Tabagismo.xls) para testar as mesmas hipteses de associao que vimos no exemplo dos slides anteriores.

INE 5108