119
O AMBIENTE DO SPSS - Capítulo 2 EXPLORANDO OS DADOS Capítulo 3 Grupo de Estatística Aluna: Natália Ambrósio Andy Field

O AMBIENTE DO SPSS - EXPLORANDO OS DADOS · PDF file•Tomar o logaritmo de um conjunto esmaga a cauda direita da distribuição

  • Upload
    hoangtu

  • View
    218

  • Download
    1

Embed Size (px)

Citation preview

O AMBIENTE DO SPSS - Capítulo 2

EXPLORANDO OS DADOS – Capítulo 3

Grupo de Estatística

Aluna: Natália Ambrósio

Andy Field

Um pouco da história do SPSS…

1970

Populariza em instituições de educação

superior nos EUA

1984

SPSS/PC (1984, em DOS. Primeira versão para computador

portátil)

SPSS/PC+ (1986 (em DOS)

1992 – versão 6 à 16

SPSS Statistics 17 (Windows & Mac)

PASW Statistics 17

IBM SPSS Statistics 18

IBM SPSS Statistics 19

IBM SPSS Statistics 20

O EDITOR DE DADOS

Vá direto a um caso

Vá direto a uma variável

Informações sobre uma variável

Inserir um novo caso no editor de dados

Cria uma nova variável a esquerda

Dividir o arquivo

Selecionar casos

Ponderar casos

Mostrar ou ocultar rótulos das variáveis

O EDITOR DE VARIÁVEIS

Criando uma variável

• Organização do editor do SPSS:

Cada linha reprenta os dados de um objeto (indivíduo)

enquanto que cada coluna representa uma variável

Criando uma variável

Qualquer variável medida sobre os mesmos

participantes (uma medida repetida) deve ser

representada por várias colunas (cada coluna

representando um nível da variável de medidas

repetidas). Entretanto, qualquer variável que

define grupos diferentes de pessoas (como

ocorre com o delineamento entre grupos é

utilizado e diferentes participantes são

atribuídos a diferentes níveis da variável

independente) é definida utilizando uma única

coluna.

INTERPRETANDO…

VARIÁVEIS CODIFICADAS OU AGRUPADORAS

Níveis de medida

• Nominal – os números apenas representam nomes (Ex.: sim ou não, categorias, variável codificadora)

• Ordinal – Informa que as coisas ocorreram e também a ordem em que elas ocorreram

• Escalar – Dados medidos por uma escala com determinados valores (Ex.: escore de 1 a 10)

EXPLORANDO DADOS – Capítulo 3

5

4

Não ter pressa ao analisar os dados

Explorar os dados

Checar algumas hipóteses básicas

Muitos dos procedimentos estatísticos descritos

no livro são testes paramétricos baseados na

distribuição normal

TESTES PARAMÉTRICOS

Se você utiliza um teste paramétrico quando

seus dados não são paramétricos, os resultados

talvez não sejam apropriados.

HIPÓTESES DOS TESTES

PARAMÉTRICOS

Dados normalmente distribuídos

Homogeneidade de variância

Dados por intervalo

Independência

HIPÓTESES DOS TESTES

PARAMÉTRICOS

• Dados normalmente distribuídos

HIPÓTESES DOS TESTES PARAMÉTRICOS

• Homogeneidade de variância

Em delineamentos correlacionais, essa hipótese significa que a

variância de uma variável deve ser estável em relação a todos

os níveis da outra variável

HIPÓTESES DOS TESTES

PARAMÉTRICOS

• Dados por intervalo

Os dados devem ser mensurados pelo menos ao nível ordinal, a distância entre os pontos da sua escala deve ser igual em todas as partes ao longo da escala

Ex.: Escala de ansiedade

1 2 3 4 5 6 7 8 9 10

HIPÓTESES DOS TESTES

PARAMÉTRICOS

• Independência

• Os dados de participantes diferentes são

independentes

• O comportamento de um participante não

influencia no comportamento do outro

DADOS DISTRIBUÍDOS NORMALMENTE

• Podem ser representados por uma curva normal

Apontando erros óbvios utilizando

HISTOGRAMAS

APRESENTANDO DADOS GRAFICAMENTE

• Arquivo:

GlastonburyFestival.sav

Testar a hipótese de dados

normalmente distribuídos

Testar a hipótese de dados

normalmente distribuídos

• O SPSS possui diferentes opções para construção de gráficos: Graphs

• HISTOGRAMA: Visualizar a forma dos dados

Graphs Interative Histograma

• DIAGRAMA DE CAIXA DE BIGODES: Encontrar valores atípicos

Graphs Boxplot

Identificando valores atípicos

Corrigindo um valor digitado errado

Criar novamente os histogramas e

observar os dados

CURVA

NORMAL

Sequência

• Testar a hipótese de normalidade

• Olhar para a distribuição da amostra

• Plotar com que frequência cada escore ocorre

• Corrigir erros nos dados

• Detectar valores atípicos

ESTATÍSTICA DESCRITICA

• Análisado as distribuições dos escores

• Detectado e corrigido um valor digitado incorretamente

• Detectar valores atípicos

Analyze Descriptive Statistics Frequencies…

Statistics

Hygiene (Day 1 of

Glastonbury Festival) Hygiene (Day 2 of

Glastonbury Festival) Hygiene (Day 3 of

Glastonbury Festival)

N Valid 810 264 123

Missin

g 0 546 687

Mean 1,7711 ,9609 ,9765

Std. Error of Mean ,02437 ,04436 ,06404

Median 1,7900 ,7900 ,7600

Mode 2,00 ,23 ,44a

Std. Deviation ,69354 ,72078 ,71028

Variance ,481 ,520 ,504

Skewness -,004 1,095 1,033

Std. Error of Skewness ,086 ,150 ,218

Kurtosis -,410 ,822 ,732

Std. Error of Kurtosis ,172 ,299 ,433

Range 3,67 3,44 3,39

Minimum ,02 ,00 ,02

Maximum 3,69 3,44 3,41 a. Multiple modes exist. The smallest value is shown

Output

ASSIMETRIA E CURTOSE

• Os valores deverão ser 0 em uma distribuição normal

• Valores de assimetria positivos indicam uma

concentração de valores à esquerda enquanto um valor

negativo mostra uma concentração de valores a direita

• Valores positivos da curtose indicam uma distribuição

pontiaguda e valores negativos indicam uma achatada

• Quanto mais distantes estes valores estiverem de 0,

maior a possibilidade de que os dados não sejam

normais

Comparando valores

Nem todos os valores coletados tem média 0 e desvio

padrão 1

• Os valores reais da assimetria e curtoses não

são eles próprios, informativos.

• Precisamos padronizar os valores, isto é,

transformá-los em escore-z.

O z-Score, nada mais é

do que o número de

desvios da média

PADRONIZAÇÃO

• Uma maneira de olhar as distribuições de frequências é

em termos de probabilidade

• Fornecer uma idéia da probabilidade de um dado

escore acontecer.

• Processo de converter o escore bruto de uma

distribuição em escore z

O que é o ESCORE Z ????

• Escore padronizado

• Ajuda a entender onde um determinado escore se

encontra em relação aos demais numa distribuição

• Indica o quanto acima ou abaixo da média um escore

está em termos de unidades padronizadas de

desvio padrão

ESCORE-Z

Se você conhece o z, você pode descobrir

qual a proporção de casos que corresponde a

ele ou, se você conhece a proporção de

casos. Você pode descobrir qual o z que lhe

corresponde

Statistics

Hygiene (Day 1 of

Glastonbury Festival) Hygiene (Day 2 of

Glastonbury Festival) Hygiene (Day 3 of

Glastonbury Festival)

N Valid 810 264 123

Missin

g 0 546 687

Mean 1,7711 ,9609 ,9765

Std. Error of Mean ,02437 ,04436 ,06404

Median 1,7900 ,7900 ,7600

Mode 2,00 ,23 ,44a

Std. Deviation ,69354 ,72078 ,71028

Variance ,481 ,520 ,504

Skewness -,004 1,095 1,033

Std. Error of Skewness ,086 ,150 ,218

Kurtosis -,410 ,822 ,732

Std. Error of Kurtosis ,172 ,299 ,433

Range 3,67 3,44 3,39

Minimum ,02 ,00 ,02

Maximum 3,69 3,44 3,41 a. Multiple modes exist. The smallest value is shown

FÓRMULA PARA CALCULAR O ESCORE Z

ESCORE Z da Assimetria

• Escore Z da Assimetria

• 1º dia – -0,004/0,086 = 0,047

• 2º dia – 1,095/0,150 = 7,300

• 3º dia – 1,033/0,218 = 4,739

• Os dois últimos valores estão acima de 3,59, o valor

limite da distribuição normal padrão, pois, esta

distribuição coloca 99,9% entre ±3,59

Interpretando…

• APÊNDICE

• Escore-z do primeiro dia 0,047

• Porção menor (área acima do valor 0,047):

0,4840 – 48,40% dos escores estão concentrados

acima de 0,047

• Porção maior: 0,5159

ESCORE Z da Curtose

• Escore Z da Curtose

• 1º dia = -2,38

• 2º dia = 2,75

• 3º dia = 1,69

• Curtose significatica em todos os três dias

Conclusão da hipótese de dados

normalmente distribuídos

A distribuição normal e os escores-z nos permitem ir,

um passo além dos nossos dados, no sentido que de um

conjunto de escore podemos calcular a probabilidade

que um determinado escore irá acontecer.

Como observar no output a

frequências dos dados ?

1%

15,4%

2% dia

63,3%

Procurar valores atípicos…

VALORES ATÍPICOS

Olhar o diagrama de caixa de bigodes

Ou olhar os escores-z

Mediana

25%

25%

50%

UTILIZANDO OS ESCORES Z PARA

ENCONTRAR VALORES ATÍPICOS

• Analyze Descriptive Statistics Descriptives

• O SPSS criará uma nova variável. Utilizamos estes

escores e contamos quantos escores estão situados

dentro de certos limites previamente definidos

• Considerar valores absolutos, e em uma distribuição

normal esperaríamos que 5% acima de 1,96, 1% acima

de 2,58 e praticamente nenhum acima de 3,59

O que faço se meus dados não são

normais ?

CORRIGINDO PROBLEMAS NOS DADOS

• Remover o caso

• Apagar os dados da pessoa que forneceu os

valores atípicos

• Mas, será que esse valor não é representante

da população???

CORRIGINDO PROBLEMAS NOS DADOS

• Transformar os dados

• Reduzir o impacto dos valores atípicos

CORRIGINDO PROBLEMAS NOS DADOS

• Substituir o valor

• Mude o dado para uma unidade maior do que o

próximo valor mais alto do conjunto de dados

• Inverta o escore-z

• X= z * s+ µ

• A média mais dois desvios padrão

CORRIGINDO PROBLEMAS NOS DADOS

• De todas as opções - transformar os dados é talvez a

melhor, pois em vez de mudar um único valor, um

alteração é feita em todos eles

• Você não está apenas selecionando um escore para

ser alterado, mas fazendo algo para reduzir o

impacto dos valores extremos

• A idéia é mudar todos os dados para corrigir

problemas relacionado ao modelo ou valores atípicos

FUNÇÃO NOME EXEMPLO

(ENTRADA) SAÍDA

MEAN (?, ?, ..)

Média Mean (day1, day2, day3)

Para cada linha, o SPSS calcula o valor médio dos escores da higiene ao longo dos três dias do festival

SD (?, ?,..)

Desvio Padrão

SD(day1, day2,day3)

Para cada linha, o SPSS calcula o desvio padrão dos valores nas colunas rotuladas como day1, day2 e day3

SUM (?, ?,..)

Soma SUM

(day1, day2) Para cada linha, o SPSS adiciona o valor das linhas das colunas denominadas day1 e day2

SQRT (?)

Raiz Quadrada

SQRT (day2)

Produz uma nova coluna que contém a raiz quadrada de cada valor da coluna denominada day2.

ABS (?)

Valor Absoluto

ABS(day1)

Produz uma variável que contém o valor absoluto dos valores da coluna denominada day1 (valores absolutos são aqueles em que todos os resultados são positivos. Assim, 5 torna-se 5.

LG10 (?)

CORRIGINDO PROBLEMAS NOS DADOS

• Transformação logarítmica (log (Xi))

• Tomar o logaritmo de um conjunto esmaga a

cauda direita da distribuição

• É uma boa maneira de reduzir uma

assimetrica positiva

TRANSFORMANDO OS DADOS

UTILIZANDO O SPSS

• Transform Compute variable

logday

FUNÇÃO

(variável +1)

LOG10(day1+1)

O menor valor é 0, soma-se o 1 para assegurar que todos

os valores sejam maiores que 0

EXPLORANDO GRUPOS DE DADOS

• Algumas vezes temos dados em que existem diferentes grupos de pessoas (homens e mulheres, universidades diferentes, pessoas com e sem depressão)

• FUNÇÃO: split file (dividir arquivo)

• Especifica variável de grupo

• Arquivo SPSSExam.sav

EXPLORANDO GRUPOS DE DADOS

• Se você quiser obter estatísticas separadas para cada uma das

universidades, podemos dividir o arquivo e seguir utilizando o

comando Frequencies

• Data Split File

EXPLORANDO GRUPOS DE DADOS

• Quando você tiver terminado com o comando Split, lembre-se de desligá-lo

• Split File – Analyze all cases, do not create groups

TESTANDO SE UMA DISTRIBUIÇÃO É

NORMAL

• Olhar para os histogramas é uma opção, mas eles

nada informam sobre a distribuição estar próxima o

suficiente da normalidade

• Realizar um teste objetivo para decidir se uma

distribuição é ou não-normal.

TESTES

• Kolmogorov-Smirnov e Shapiro-Wilk

• Eles comparam escore de uma amostra a uma distribuição normal modelo de mesma média e variância dos valores encontrados na amostra

• Não-significativo (p>0.05), os dados não diferem significativamente de uma distribuição normal

• Significativo (p<0.05), significativamente diferente de uma distribuição normal

TESTES (limitações)

• Com amostras grandes é muito fácil obter valores significativos a partir de pequenos desvios da normalidade

• Um resultado significativo não necessariamente nos informa se o desvio da normalidade é suficiente para prejudicar os procedimentos estatísticos

• De qualquer forma utilize esses teste, mas faça diagrama dos dados bem como tente obter uma decisão sobre a extensão da não-normalidade

EXECUTANDO O TESTE DE

KOLMOGOROV-SMIRNOV

• Analyze Descriptive Statistics Explore

As duas distribuições se desviam da

normalidade (Sig.<0,05)

Os desvios de normalidade mostrados

nos histogramas são significativos

• Distribuição dos grupos separados

Valores esperados e valores observados

TESTANDO A HOMOGENEIDADE DA

VARIÂNCIA

• Essa hipótese significa que a medida que você avança

entre os níveis de uma variável, a variância da outra

não deve mudar

DADOS NÃO TRANSFORMADOS VARIÂNCIAS DIFERENTES

VARIÂNCIAS IGUAIS

DADOS TRANSFORMADOS LOGARITICAMENTE

VARIÂNCIAS DIFERENTES

VARIÂNCIAS IGUAIS

Interpretando…

• Considerando que estamos comparando as duas

universidades nos escores de numerácia e

exame do SPSS separadamente

• Devemos transformar os escores de numerácia,

mas, não os do exame

Interpretando…

• Representação do Teste Levene

• Letra F, dois Graus de Liberdade e Sig

• Exame SPSS - F (1,98)= 2,28, ns

• Numerácia – F (1,98)= 7,37, p<0,01

REPRESENTANDO MÉDIAS

GRAFICAMENTE

?

VERIFICAR OS EFEITOS DO GÊNERO

5

4