Manual Spss - Tad

IADE-U Instituto de Arte, Design e Empresa - Universitário

LICENCIATURA EM MARKETING E PUBLICIDADE

Manual de SPSS

TRATAMENTO E ANÁLISE DE DADOS

Prof. Doutor Joaquim Casaca

Setembro de 2012

Este manual integra as funcionalidades do SPSS (versão 20) necessárias para complementar o

conteúdo das aulas da unidade curricular Tratamento e Análise de Dados.

P á g i n a | iii

ÍNDICE DE CONTEÚDOS

ÍNDICE

ÍNDICE ............................................................................................................................. III

ÍNDICE DE QUADROS ..................................................................................................... VIII

ÍNDICE DE TABELAS ........................................................................................................ VIII

1 CONCEITOS BÁSICOS DA ANÁLISE DE DADOS .............................................................. 1

1.1 MÉTODOS DE INVESTIGAÇÃO ......................................................................................................... 2

1.2 TIPOS DE VARIÁVEL E DE ESCALA..................................................................................................... 2

1.3 DISTRIBUIÇÕES DE PROBABILIDADE ................................................................................................. 3

1.4 ESTIMAR PARÂMETROS POPULACIONAIS .......................................................................................... 4

2 VISÃO GERAL DO SPSS................................................................................................ 7

2.1 JANELAS DO SPSS ........................................................................................................................ 8

2.2 MENU DA JANELA DE DADOS ....................................................................................................... 11

2.3 BARRA DE ESTADO ..................................................................................................................... 12

2.4 CAIXAS DE DIÁLOGO ................................................................................................................... 13

2.5 OBTER AJUDA (MENU DE AJUDA) ................................................................................................. 14

2.5.1 Navegação na Tabela de Conteúdos ............................................................................. 14

2.6 FICHEIROS DE DADOS.................................................................................................................. 16

2.7 DEFINIR VARIÁVEIS ..................................................................................................................... 18

2.8 INTRODUÇÃO E EDIÇÃO DE DADOS ................................................................................................ 22

2.9 FALTA DE DADOS ....................................................................................................................... 24

2.9.1 Como Saber se há Falta de Dados ................................................................................. 24

2.9.2 Como Tratar o Problema de Falta de Dados ................................................................. 25

2.10 SELECÇÃO DE CASOS ................................................................................................................... 28

2.11 DIVISÃO DO FICHEIRO (SPLIT FILE) ................................................................................................ 31

3 TRANSFORMAÇÃO DE DADOS .................................................................................. 33

3.1 TRANSFORMAÇÃO DE DADOS ....................................................................................................... 34

3.2 CÁLCULO DE UMA VARIÁVEL ........................................................................................................ 34

3.3 RECODIFICAÇÃO DE VARIÁVEIS ..................................................................................................... 36

3.3.1 Recodificação na Mesma Variável ................................................................................. 36

3.3.2 Recodificação numa Variável Diferente ........................................................................ 37

3.3.3 Recodificação Automática ............................................................................................. 38

P á g i n a | iv

4 EXPLORAÇÃO E CRUZAMENTO DE VARIÁVEIS ........................................................... 39

4.1 RESUMO DE UMA DISTRIBUIÇÃO ................................................................................................... 40

4.2 VALORES EXTREMOS ................................................................................................................... 42

4.3 PERCENTIS ................................................................................................................................ 43

4.4 HISTOGRAMA ............................................................................................................................ 44

4.5 GRÁFICO DE CAULE E FOLHAS ...................................................................................................... 45

4.6 CAIXA DE BIGODES ..................................................................................................................... 46

4.7 CRUZAMENTO DE VARIÁVEIS ........................................................................................................ 47

4.8 PERCENTAGENS DE LINHA E COLUNA ............................................................................................. 50

4.9 VISUALIZAÇÃO GRÁFICA .............................................................................................................. 51

5 VARIÁVEIS DE RESPOSTA MÚLTIPLA ......................................................................... 55

5.1 INTRODUÇÃO ............................................................................................................................ 56

5.2 QUESTÕES DE DICOTOMIA MÚLTIPLA ............................................................................................ 56

5.3 QUESTÕES DE CATEGORIA MÚLTIPLA ............................................................................................ 58

6 TESTES DE HIPÓTESES (TEORIA DA DECISÃO) ............................................................ 61

6.1 REGRA DE DECISÃO .................................................................................................................... 62

6.2 PROCEDIMENTOS DOS TESTES ...................................................................................................... 63

6.2.1 Testes de Hipóteses no SPSS ......................................................................................... 63

6.3 TESTES BILATERAIS E UNILATERAIS ................................................................................................ 63

6.3.1 Testes Bilaterais (two-tailed) ......................................................................................... 63

6.3.2 Testes Unilaterais (one-tailed) ...................................................................................... 64

7 REGRESSÃO LINEAR ................................................................................................. 65

7.1 INTRODUÇÃO ............................................................................................................................ 66

7.2 COEFICIENTE DE CORRELAÇÃO DE PEARSON .................................................................................... 66

7.3 REGRESSÃO LINEAR NO SPSS ....................................................................................................... 67

7.4 ANÁLISE GRÁFICA ...................................................................................................................... 68

7.5 RECTA DE REGRESSÃO ................................................................................................................. 70

7.6 VALORES PREVISTOS E VALORES RESIDUAIS .................................................................................... 71

7.7 COEFICIENTE DE CORRELAÇÃO ...................................................................................................... 73

8 TESTE DE INDEPENDÊNCIA DO QUI-QUADRADO ....................................................... 75

8.1 INTRODUÇÃO ............................................................................................................................ 76

8.1.1 Requisitos para a Validade do Teste ............................................................................. 76

8.1.2 Caso do Teste do Qui-Quadrado de Independência ..................................................... 76

P á g i n a | v

ANEXO A – EDIÇÃO DE TABELAS ...................................................................................... 81

ANEXO B – ASSIMETRIA E ACHATAMENTO ...................................................................... 85

P á g i n a | vi

ÍNDICE DE FIGURAS

Figura 2.1: Janela de edição de dados. .................................................................................................... 8

Figura 2.2: Janela de visualização de resultados (Output Viewer). ......................................................... 9

Figura 2.3: Editor de gráficos. ................................................................................................................ 10

Figura 2.4: Barra de estado. .................................................................................................................. 12

Figura 2.5: Caixa de diálogo para o cálculo de frequências. ................................................................. 13

Figura 2.6: Help. .................................................................................................................................... 14

Figura 2.7: Índice de assuntos. .............................................................................................................. 14

Figura 2.8: Índice de assuntos (2). ......................................................................................................... 15

Figura 2.9: Pesquisa de palavras/termos. ............................................................................................. 15

Figura 2.10: Abrir ficheiro de dados. ..................................................................................................... 16

Figura 2.11: Abrir ficheiro Excel. ........................................................................................................... 16

Figura 2.12: Condições de abertura de ficheiro Excel. .......................................................................... 17

Figura 2.13: Selecção da Variable View. ................................................................................................ 18

Figura 2.14: Janela da Variable View. .................................................................................................... 18

Figura 2.15: Definição do tipo de variável. ............................................................................................ 19

Figura 2.16: Selecção do tipo de variável. ............................................................................................. 19

Figura 2.17: Rótulo da variável. ............................................................................................................. 20

Figura 2.18: Rótulos dos valores da variável. ........................................................................................ 20

Figura 2.19: Indicação dos valores em falta. ......................................................................................... 21

Figura 2.20: Tipificação dos valores em falta. ....................................................................................... 21

Figura 2.21: Escala de medida da variável. ........................................................................................... 21

Figura 2.22: Janela de Data View. ......................................................................................................... 22

Figura 2.23: Inserção de novos casos. ................................................................................................... 23

Figura 2.24: Inserção de novas variáveis. .............................................................................................. 23

Figura 2.25: Tratar a falta de dados. ..................................................................................................... 25

Figura 2.26: Substituição de valores em falta pela média. ................................................................... 27

Figura 2.27: Opção Transform (substituição de valores em falta). ....................................................... 27

Figura 2.28: Seleccionar casos. .............................................................................................................. 28

Figura 2.29: Selecção de casos. ............................................................................................................. 29

Figura 2.30: Criação da condição para a selecção de casos. ................................................................. 29

Figura 2.31: Visualização dos casos excluídos. ...................................................................................... 30

Figura 2.32: Divisão do ficheiro. ............................................................................................................ 31

Figura 2.33: Selecção de variáveis de agrupamento para a divisão de ficheiro. .................................. 31

Figura 3.1: Calcular uma variável. ......................................................................................................... 34

Figura 3.2: Condição para cálculo da variável. ...................................................................................... 35

Figura 3.3: Operadores lógicos e aritméticos. ....................................................................................... 35

Figura 3.4: Recodificação na mesma variável. ...................................................................................... 36

Figura 3.5: Selecção da variável a recodificar. ...................................................................................... 36

Figura 3.6: Recodificação de uma variável. ........................................................................................... 36

Figura 3.7: Recodificação numa variável diferente. .............................................................................. 37

Figura 3.8: Selecção da variável a recodificar noutra variável diferente. ............................................. 37

Figura 3.9: Velhos e novos valores da nova variável. ............................................................................ 37

Figura 3.10: Recodificação automática. ................................................................................................ 38

Figura 3.11: Recodificação automática. ................................................................................................ 38

P á g i n a | vii

Figura 4.1: Explore. ................................................................................................................................ 40

Figura 4.2: Selecção de variáveis. .......................................................................................................... 40

Figura 4.3: Obter valores extremos. ...................................................................................................... 42

Figura 4.4: Obter percentis.................................................................................................................... 43

Figura 4.5: Obter histograma. ............................................................................................................... 44

Figura 4.6: Histograma. ......................................................................................................................... 44

Figura 4.7: Obter gráfico de caule e folhas. .......................................................................................... 45

Figura 4.8: Gráfico de caule e folhas. .................................................................................................... 45

Figura 4.9: Obter caixa de bigodes. ....................................................................................................... 46

Figura 4.10: Caixa de bigodes. ............................................................................................................... 46

Figura 4.11: Cruzamento de variáveis. .................................................................................................. 47

Figura 4.12: Selecção de variáveis para cruzamento. ........................................................................... 47

Figura 4.13: Selecção de variáveis para cruzamento por camada (layer). ............................................ 48

Figura 4.14: Obter percentagens........................................................................................................... 50

Figura 4.15: Selecção de gráficos. ......................................................................................................... 51

Figura 4.16: Selecção de variáveis para visualização gráfica. ............................................................... 51

Figura 4.17: Gráfico de barras empilhadas. .......................................................................................... 52

Figura 4.18: Gráfico em percentagem. .................................................................................................. 52

Figura 4.19: Gráfico de barras empilhadas em percentagens. ............................................................. 53

Figura 5.1: Definir VRM dicotómica. ..................................................................................................... 56

Figura 5.2: Criação de VRM dicotómica. ............................................................................................... 57

Figura 5.3: Calcular tabela de frequências de VRM. ............................................................................. 57

Figura 5.4: VRM a seleccionar para cálculo de frequências. ................................................................. 57

Figura 5.5: Missing values na VRM. ....................................................................................................... 58

Figura 5.6: Frequências de uma VRM. ................................................................................................... 58

Figura 5.7: Definição de VRM - Categoria ............................................................................................. 59

Figura 5.8: Criação de VRM categórica. ................................................................................................ 59

Figura 5.9: Cruzamento de variáveis com VRM. ................................................................................... 60

Figura 7.1: Dados para cálculo da regressão. ........................................................................................ 67

Figura 7.2: Regressão linear. ................................................................................................................. 67

Figura 7.3: Selecção de variáveis para cálculo da regressão. ................................................................ 67

Figura 7.4: Selecção do tipo de gráfico. ................................................................................................ 68

Figura 7.5: Selecção das variáveis para o gráfico. ................................................................................. 69

Figura 7.6: Edição do gráfico. ................................................................................................................ 69

Figura 7.7: Definir a recta de regressão. ............................................................................................... 70

Figura 7.8: Recta de regressão. ............................................................................................................. 70

Figura 7.9: Valores previstos e residuais. .............................................................................................. 71

Figura 7.10: Visualizar os valores previstos e residuais. ....................................................................... 72

Figura 7.11: Selecção de variáveis para análise. ................................................................................... 72

Figura 8.1: Ponderação de casos. .......................................................................................................... 77

Figura 8.2: Selecção de variáveis. .......................................................................................................... 78

Figura 8.3: Selecção da estatística qui-quadrado. ................................................................................. 78

P á g i n a | viii

ÍNDICE DE QUADROS

Quadro 1-1: Análise de valores em falta (1). ......................................................................................... 24

Quadro 1-2: Análise de valores em falta (2). ......................................................................................... 24

Quadro 1-3: Coeficientes de correlação (com exclude cases listwise) .................................................. 26

Quadro 1-4: Coeficientes de correlação (com exclude cases parwise) ................................................. 26

Quadro 1-5: Cálculo da média de uma variável após divisão de ficheiro. ............................................ 32

Quadro 3-1: Resultado do comando explore. ....................................................................................... 41

Quadro 3-2: Estatísticas (comando explore). ........................................................................................ 41

Quadro 3-3: Análise de valores extremos. ............................................................................................ 42

Quadro 3-4: Análise de percentis. ......................................................................................................... 43

Quadro 3-5: Resultado do cruzamento de duas variáveis. ................................................................... 48

Quadro 3-6: Resultado do cruzamento de três variáveis. ..................................................................... 49

Quadro 3-7: Análise de percentagens. .................................................................................................. 50

Quadro 4-1: Regra da decisão. .............................................................................................................. 62

Quadro 5-1: Resultado do cálculo da regressão. .................................................................................. 68

Quadro 5-2: Análise dos valores previstos e residuais. ......................................................................... 73

Quadro 5-3: Coeficiente de correlação. ................................................................................................ 73

Quadro 6-1: Resultado do cruzamento das variáveis. .......................................................................... 79

Quadro 6-2: Resultados do teste do qui-quadrado. ............................................................................. 79

ÍNDICE DE TABELAS

Tabela 1-1: Folha de Excel. .................................................................................................................... 16

Tabela 1-2: Folha de dados importada do Excel. .................................................................................. 17

Tabela 1-3: Tabela de dados (com valores em falta). ........................................................................... 25

Tabela 6-1: Dados para análise. ............................................................................................................ 77

Tabela 6-2: Dados para análise – agrupados. ........................................................................................ 77

1 Conceitos Básicos da Análise de Dados

1

Conceitos Básicos

da Análise de

Dados

MANUAL DE SPSS – TRATAMENTO E ANÁLISE DE DADOS

P á g i n a | 2

1.1 MÉTODOS DE INVESTIGAÇÃO

Para efeitos de enquadramento, apresenta-se de seguida - de uma forma muito sintética -as etapas do método

de investigação científica, o qual inclui a análise dos dados. Esta etapa engloba a supressão de erros e valores

anormais, a organização dos dados de maneira prática e funcional, a escolha de indicadores que sintetizem a

informação, a utilização de técnicas estatísticas adequadas para testar as hipóteses estipuladas e, ainda, a

interpretação da informação.

1. Identificação do problema;

2. Revisão da literatura;

3. Construção das hipóteses;

4. Definição das variáveis;

5. Definição da população e da amostra;

6. Escolha e/ou construção de instrumentos de recolha de dados;

7. Tratamento e análise dos dados;

8. Relatório de investigação.

Em investigação, existem estudos correlacionais e estudos experimentais. Enquanto, nos primeiros, se procura

indicar em que graus determinados fenómenos estão relacionados, nos segundos procura-se verificar se

existem diferenças significativas entre situações. Neste ultimo caso, é muito utilizada a comparação -

relativamente a um atributo - de um grupo experimental com o grupo de controlo (exemplo: verificar se a

frequência de aulas adicionais de apoio melhoram o desempenho escolar - aqui, o grupo de controlo poderia

ser uma turma de alunos sem aulas adicionais de apoio e o grupo experimental poderia ser outra turma de

alunos com aulas adicionais de apoio).

Relativamente ao design experimental, existem as amostras independentes (design entre-sujeitos: between-

subject design), ou seja, aquelas compostas por indivíduos diferentes a testar numa situação (exemplo: avaliar

o comportamento na sala de aula, segundo o sexo) e as amostras emparelhadas (design intra-sujeitos: within-

subject design), isto é, as que são compostas pelos mesmos indivíduos em várias fases da realização de uma

experiência (exemplo: verificar, para um grupo de alunos, se há diferenças de performance entre um teste

intermédio e o exame final a uma disciplina).

1.2 TIPOS DE VARIÁVEL E DE ESCALA

As variáveis são símbolos que representam determinadas características de uma população ou amostra

susceptíveis de serem estudadas. Distinguem-se essencialmente entre: qualitativas, i.e., que estão relacionadas

com categorias não susceptíveis de medida mas apenas de classificação, assumindo diferentes modalidades

(exemplo: cor dos olhos) e quantitativas, ou seja, relacionadas com características que tomam valores

numéricos e são susceptíveis de medida (exemplo: peso em kg). As variáveis quantitativas podem ainda ser

discretas, quando assumem uma realidade numerável de valores em que os decimais não fazem sentido

CONCEITOS BÁSICOS DA ANÁLISE DE DADOS

P á g i n a | 3

(exemplo: número de filhos por agregado familiar) ou contínuas, quando podem assumir qualquer valor num

intervalo de números reais (exemplo: rendimento por agregado familiar).

Associadas às variáveis, existem vários tipos de escala, correspondendo os dois primeiros a variáveis

qualitativas e os dois últimos a variáveis quantitativas

Entre parêntesis, encontram-se as designações dadas pelo SPSS a cada um dos tipos de escala (Measure).

i) Nominal (Nominal) - dados classificados por categorias não ordenadas (exemplos: sexo, clube de

futebol, turma a que pertence);

ii) Ordinal (Ordinal) - dados classificados por categorias ordenadas (exemplos: nível de escolaridade);

iii) Intervalar (Scale) - dados expressos numa escala numérica com origem arbitrária (exemplo:

temperatura em graus centígrados);

iv) Razão (Scale) - dados expressos numa escala numérica com origem fixa (exemplos: idade (anos),

classificação num teste (0 a 20 valores), rendimento mensaI do agregado familiar (euros), tempo de

realização de uma determinada prova (minutos)).

Note-se que a distinção entre as escalas intervalar e de razão é muitas vezes teórica e não tem particular

interesse para a aplicação de técnicas estatísticas. Para as variáveis quantitativas, o SPSS assume sempre a

medida Scale. De igual forma, note-se que uma determinada designação de variável, per se, não implica

necessariamente que esta se enquadre num único tipo de escala. Tudo depende dos objectivos do estudo e da

forma como são recolhidas as variáveis. Por exemplo, a variável idade pode ser quantitativa quando é

absolutamente expressa em anos, ou qualitativa ordinal quando é expressa em escalões etários (menor que 18

anos, entre 19 e 34 anos, e assim sucessivamente).

1.3 DISTRIBUIÇÕES DE PROBABILIDADE

A Estatística incide nos chamados fenómenos aleatórios ou casuais, ou seja, naqueles em que não é possível

prever exactamente o resultado final antes da realização da experiência (quando repetida nas mesmas

circunstâncias). A noção de incerteza está claramente implícita e, neste contexto, o conceito de probabilidade

torna-se incontornável. A base da inferência estatística consiste na possibilidade de se tomarem decisões sobre

os parâmetros de uma população, sem que seja necessário proceder a um censo (recenseamento de toda a

população). Os métodos envolvem o cálculo de estatísticas amostrais a partir das quais se infere sobre os

parâmetros populacionais, ou seja, procura-se elaborar uma generalização, com determinado grau de

probabilidade. É importante reter que as conclusões em estatística inferencial não são 100% seguras, embora a

probabilidade de errar deva ser relativamente baixa, caso contrário a informação deixa de ter utilidade.

Uma noção chave em Estatística são as distribuições amostrais - variáveis aleatórias que "transformam" as

estatísticas amostrais (calculadas com base na amostra) em parâmetros (valores populacionais). Existem várias

distribuições amostrais (média, desvio-padrão, coeficiente de correlação, entre muitas outras), distribuições

essas que seguem uma determinada distribuição teórica de probabilidade.


P á g i n a | 4

Outro conceito fundamental é o de grau de liberdade (df: degree of freedom), que basicamente se refere ao

número de elementos que podem variar livremente numa amostra ou situação. Encontra-se associado a

determinados tipos de distribuição teórica e pode depender directamente do número de elementos da

amostra, ou do número de situações a comparar, entre outros factores. Para compreender a lógica subjacente

a este conceito, imagine que existem dez cadeiras livres à volta de uma mesa. Neste exemplo, existe

"liberdade" para sentar nove pessoas, dado que a décima terá que ficar com o único lugar de sobra,

residualmente determinado.

1.4 ESTIMAR PARÂMETROS POPULACIONAIS

Um dos objectivos da estatística inferencial é estimar as características desconhecidas de uma população,

através dos dados contidos na amostra. Torna-se necessário introduzir o conceito de estimador - estatística

que produz valores (estimativas) no domínio do parâmetro. Existem dois grandes tipos de estimação: a

pontual, que consiste em encontrar uma boa aproximação do parâmetro através de um único valor, e a

intervalar, que consiste em estabelecer um intervalo no qual o parâmetro se irá situar, com um determinado

grau de probabilidade.

Um estimador pontual respeita as seguintes propriedades:

i) É não enviesado, ou seja, espera-se que o valor esperado do estimador seja o verdadeiro valor do

parâmetro da população;

ii) É eficaz, i.e., várias estimações devem ser o mais próximas possível do valor do parâmetro; e

iii) É convergente, o que quer dizer que quando se aumenta a dimensão da amostra, deve obter-se valores

mais próximos do parâmetro.

No entanto, sendo um valor único, uma estimativa pontual acaba por "falhar" sempre o "alvo", nem que seja

por margens muito pequenas. Por isso, recorre-se muitas vezes à chamada estimação intervalar. Esta última é

baseada na pontual, à qual se "junta" um factor de incerteza baseado na distribuição de probabilidade

(amostral) do estimador pontual, dando origem a um intervalo que, no fundo, representa as fronteiras dentro

das quais "acreditamos" que se encontra o parâmetro populacional.

A estimação intervalar consiste, então, em calcular - a partir de um determinado estimador - um intervalo de

confiança no qual é plausível encontrar o verdadeiro valor do parâmetro. Os limites do intervalo de confiança

são variáveis aleatórias cuja probabilidade de conter o verdadeiro valor do parâmetro é definida pelo

investigador. Essa probabilidade (1-α) designa-se por nível de confiança. À probabilidade complementar α,

chama-se nível de significância e representa o risco de o parâmetro não estar no intervalo de confiança

calculado. Os níveis de significância mais utilizados são 1% (0,01), 5% (0,05) e 10% (0,10), que correspondem a

níveis de confiança de 99%, 95% e 90%, respectivamente. Note-se que na generalidade é possível afirmar que,

para um determinado nível de confiança, (1-α)% das amostras contêm o verdadeiro valor do parâmetro. No

entanto, quando se concretiza para uma amostra em particular, deixa de haver aleatoriedade, i.e., um intervalo

de confiança específico contem ou não contem o verdadeiro valor do parâmetro.

CONCEITOS BÁSICOS DA ANÁLISE DE DADOS

P á g i n a | 5

É importante referir que um maior nível de confiança implica uma maior amplitude do intervalo de confiança,

ou seja, reduzindo o risco de errar torna-se menos preciso. Por exemplo, um intervalo de confiança a 99% é

menos preciso do que um de 90%, porque se está a arriscar menos. Em contra partida, a probabilidade de errar

é menor no primeiro caso.

2 Visão Geral do SPSS

2

Visão Geral

do SPSS


P á g i n a | 8

2.1 JANELAS DO SPSS

Existem sete tipos de janelas no SPSS:

Data Editor .......................... : Janela que apresenta o conteúdo do ficheiro de dados. Os ficheiros de dados podem ser modificados através desta. Só é possível ter uma janela destas aberta num dado momento.

Output Viewer .................... : Janela onde são apresentados os resultados estatísticos, tabelas e gráficos, os quais podem ser editados e gravados para uso posterior. Uma janela Viewer abre automaticamente a primeira vez que se executa um procedimento que gera uma saída.

Figura 2.1: Janela de edição de dados.

VISÃO GERAL DO SPSS

P á g i n a | 9

Figura 2.2: Janela de visualização de resultados (Output Viewer).

Pivot Table Editor ............... : Permite editar e modificar tabelas. Pode editar-se o texto, trocar dados em linhas e colunas, adicionar cor, criar tabelas multidimensionais e ocultar ou mostrar resultados.

Chart Editor ......................... : Permite modificar gráficos de alta resolução e gráficos em janelas gráfico. Pode alterar-se as cores, seleccionar fontes de diferentes tipos e tamanhos, trocar os eixos horizontal e vertical, rotação 3-D gráficos de dispersão e até mesmo alterar o tipo de gráfico.


P á g i n a | 10

Figura 2.3: Editor de gráficos.

Text Output Editor .............. : Permite alterar texto que não seja visível no Pivot Table Editor. Pode alterar-se o tipo, tamanho, cor e estilo das letras.

Syntax Editor ...................... : Todos os comandos do SPSS podem ser emitidos a partir da janela de sintaxe. Todos os comandos emitidos a partir dos menus podem ser apresentados numa janela de sintaxe: para isso usa-se o comando Paste das caixas de diálogo. O conteúdo do editor pode ser guardado e reutilizado mais tarde.

Script Editor ........................ : Usado para criar e modificar scripts que permitem automatizar muitas tarefas no SPSS.


P á g i n a | 11

2.2 MENU DA JANELA DE DADOS

File ........................... : Funções de criar, abrir, ler ou imprimir ficheiros provenientes de outras sessões de análise ou de outros programas (bases de dados, folhas de cálculo, etc.).

Edit .......................... : Funções de modificar ou copiar texto das janelas de output ou de sintaxe; pesquisa de dados e parametrização de opções diversas.

View ........................ : Funções de activação de diversas barras de botões, fontes, grelha, barra de status e mostrar os rótulos (labels) definidos.

Data ......................... : Funções de alteração global dos dados, tais como: transpor variáveis e casos, criar subconjuntos de casos para análise, inserção de dados. Estas mudanças são temporárias e não afectam o ficheiro, excepto se for efectuada uma gravação com estas alterações.

Transform ............... : Função de produzir alterações nas variáveis seleccionadas e para calcular novas variáveis a partir de valores de outras já existentes. Estas alterações só serão efectivas se forem gravadas.

Analyze ................... : Funções de seleccionar os vários procedimentos estatísticos, como a análise descritiva, análise de variância, correlações, regressões lineares, etc.

Graphs ..................... : Funções para criar gráficos de colunas, de sectores, histogramas.

Utilities .................... : Funções para obtenção de informação acerca das variáveis, controlo da lista de variáveis que aparece nas caixas de diálogo, correr scripts (pequenos programas) e alterar os menus.

Window .................. : Funções de comutar entre as várias janelas do SPSS ou minimizá-las.

Help ......................... : Ligação à página do SPSS na Internet. Ajuda relativa ao funcionamento do SPSS.


P á g i n a | 12

2.3 BARRA DE ESTADO

Para mostrar ou esconder a barra de estado

Figura 2.4: Barra de estado.

A barra de estado no fundo de cada janela, dá informação sobre:

O estado do comando: para cada comando ou procedimento indica o número de casos processados;

O estado do filtro: caso se esteja a analisar parte dos casos é apresentada a mensagem Filter on;

O estado do peso: a mensagem Weight on indica que se está a utilizar uma variável ponderada;

O estado de um ficheiro particionado: a mensagem Split File on indica que se está a utilizar parte de um ficheiro na análise.


P á g i n a | 13

2.4 CAIXAS DE DIÁLOGO

A maior parte dos comandos dos menus do SPSS abre caixas de diálogo. As caixas de diálogo são utilizadas para seleccionar variáveis e opções para análise.

Cada caixa de diálogo tem várias componentes básicas:

Lista de variáveis fonte: lista de onde se escolhem as variáveis a ser analisadas;

Lista(s) de variáveis destino: uma ou mais listas onde se encontram as variáveis escolhidas para análise;

Botões: botões que executam a análise ou permitem especificar opções da análise.

Figura 2.5: Caixa de diálogo para o cálculo de frequências.


P á g i n a | 14

2.5 OBTER AJUDA (MENU DE AJUDA)

A informação para esclarecimento de dúvidas do utilizador podem ser obtidas

Menu de Help: Todas as janelas do SPSS têm um menu de HELP na barra de menus. A opção Topics acede às fichas de Contents, Index e Find. A opção Tutorial tem umas aulas introdutórias.

Menu de ajuda relativo ao contexto: Premindo o botão direito do rato em qualquer item de uma caixa de diálogo, obtém-se ajuda sobre esse item.

Botão de Help nas caixas de diálogo: Premindo o botão de Help de uma caixa de diálogo, obtém-se ajuda sobre essa caixa de diálogo.

2.5.1 NAVEGAÇÃO NA TABELA DE CONTEÚDOS

Na barra de menu de qualquer janela do SPSS escolher:

1. Índice de assuntos:

Seleccionar uma ficha e fazer duplo clique num item (representado por um livro) para expandir ou fechar o seu conteúdo.

Figura 2.7: Índice de assuntos.

Figura 2.6: Help.


P á g i n a | 15

2. Índice de assuntos:

Introduzir o termo a procurar – dar um duplo clique no tópico pretendido

Figura 2.8: Índice de assuntos (2).

3. Pesquisa de palavras/termos:

Introduzir as palavras a procurar – dar um duplo clique no tópico pretendido para visualizar a informação.

Figura 2.9: Pesquisa de palavras/termos.


P á g i n a | 16

2.6 FICHEIROS DE DADOS

O SPSS pode abrir ficheiros criados noutras aplicações, como o Excel.

Figura 2.10: Abrir ficheiro de dados.

Para as folhas de cálculo (Excel) e ficheiros com valores delimitados por TAB, podem ler-se os nomes das variáveis da primeira linha do ficheiro ou da primeira linha do intervalo de valores (range) especificado.

Figura 2.11: Abrir ficheiro Excel.

Considere-se a seguinte folha de cálculo do Excel:

Tabela 2-1: Folha de Excel.


P á g i n a | 17

Indicando as seguintes opções de abertura:

Figura 2.12: Condições de abertura de ficheiro Excel.

Obtém-se a seguinte folha de dados no SPSS:

Tabela 2-2: Folha de dados importada do Excel.


P á g i n a | 18

2.7 DEFINIR VARIÁVEIS

O SPSS permite definir as seguintes características de uma variável:

O nome da variável; O tipo da variável (numérico, texto, data, etc.); Descrição da variável e dos seus valores; Códigos especiais para os valores em falta.

Para definir uma variável fazer duplo clique sobre o topo da coluna correspondente à variável na janela de dados ou premir a Variable View no canto inferior esquerdo do Data Editor:

Figura 2.13: Selecção da Variable View.

Premindo o Tab Variable View surge a seguinte janela:

Figura 2.14: Janela da Variable View.


P á g i n a | 19

NOME DA VARIÁVEL

O nome das variáveis tem no máximo 64 caracteres, deve começar por uma letra e pode ser seguido de letras, números ou os caracteres @, #, _ e $.

TIPO DE VARIÁVEL

No Tab Variable View, seleccionar a célula Type da variável que se pretende definir e premir o botão .

Figura 2.15: Definição do tipo de variável.

Depois de premir o botão surge a janela para definição do tipo de variável:

Figura 2.16: Selecção do tipo de variável.

RÓTULOS (LABELS) DAS VARIÁVEIS E DOS SEUS VALORES

No Tab Variable View, editar o rótulo da variável na célula Label da variável em causa. O rótulo pode ter até 256 caracteres:


P á g i n a | 20

Figura 2.17: Rótulo da variável.

RÓTULOS (LABELS) DOS VALORES DA VARIÁVEL

No Tab Variable View, seleccionar a célula Values e premir o botão para aceder à janela de definição dos rótulos dos valores da variável:

Figura 2.18: Rótulos dos valores da variável.

DEFINIÇÃO DOS VALORES EM FALTA (MISSING VALUES)

No Tab Variable View, seleccionar a célula Missing e premir o botão para aceder à janela de definição dos valores em falta para a variável. Os valores em falta não são considerados para efeitos de cálculos estatísticos:


P á g i n a | 21

Figura 2.19: Indicação dos valores em falta.

Os valores em falta podem ser discretos e/ou contínuos:

Figura 2.20: Tipificação dos valores em falta.

DEFINIÇÃO DA ESCALA DE MEDIDA DA VARIÁVEL

No Tab Variable View, seleccionar a célula Measure e escolher a escala de medida pretendida para a variável (métrica, ordinal ou nominal):

Figura 2.21: Escala de medida da variável.


P á g i n a | 22

2.8 INTRODUÇÃO E EDIÇÃO DE DADOS

Na introdução de dados há a considerar o seguinte:

Os dados são sempre introduzidos na célula activa que é apresentada com um rebordo mais forte; O nome da variável e o número de linha da célula activa são apresentados no canto superior esquerdo

da janela Data Editor; O valor da célula activa aparece no campo editor de célula, acima do Data Editor; Os valores introduzidos só são registados quando se pressiona ENTER ou quando se selecciona outra

célula; Para introduzir dados não numéricos deve alterar-se o tipo de variável previamente.

Figura 2.22: Janela de Data View.

INSERIR NOVOS CASOS

Para inserir um novo caso (linha) clicar, com o botão direito do rato, no topo da linha acima da qual se pretende inserir o novo caso. Surgirá uma janela onde se deve seleccionar a opção Insert Case:


P á g i n a | 23

Figura 2.23: Inserção de novos casos.

INSERIR NOVAS VARIÁVEIS

Fazer clique, com o botão direito do rato, no topo da coluna à direita da qual se pretende inserir o novo caso. Surgirá uma janela onde se deve seleccionar a opção Insert Variable:

Figura 2.24: Inserção de novas variáveis.


P á g i n a | 24

2.9 FALTA DE DADOS

Antes de se efectuar a análise de dados preliminares é importante verificar se o ficheiro de dados contém falta de valores (valores “missing”).

Existem dois problemas principais associados com a falta de dados:

i. Como saber se há falta de dados (valores “missing”); ii. Como tratar o problema de falta de dados.

2.9.1 COMO SABER SE HÁ FALTA DE DADOS

Quando o ficheiro de dados contém poucos dados e poucas variáveis é mais ou menos fácil e rápido observar os dados visualmente e verificar se existem dados em falta e em que variáveis e casos. No entanto, quando o ficheiro de dados contém centenas ou milhares de casos e dezenas e/ou centenas de variáveis, é necessário despender muito tempo para analisar os valores missing e, dada a dificuldade desta tarefa é normal que o investigador cometa erros neste processo. Neste caso, é preferível utilizar o SPSS para encontrar o número de casos que apresentam valores missing em cada uma das variáveis e que casos são esses.

A versão do SPSS utilizada no IADE não inclui a funcionalidade de análise de valores missing;

Embora, não seja possível efectuar uma análise dos valores missing, sempre que se executa uma análise sobre uma variável (ou grupo de variáveis) o SPSS apresenta o n.º de valores missing para essa variável:

a) A variável “ano escolar mais elevado completado” não tem valores missing

Quadro 2-1: Análise de valores em falta (1).

b) A variável “horas trabalhadas pelo marido na semana passada” tem 430 valores missing, representando cerca de 58% dos casos totais da amostra:

Quadro 2-2: Análise de valores em falta (2).


P á g i n a | 25

2.9.2 COMO TRATAR O PROBLEMA DE FALTA DE DADOS

Muitas técnicas estatísticas do SPSS contêm opções alternativas para tratar a falta de dados (valores missing), como o apresentado na figura para a técnica “Explore”:

Figura 2.25: Tratar a falta de dados.

2.9.2.1 Opção “Exclude Cases Listwise”

Esta opção retira de todas as análises todos os casos com falta de dados.

A vantagem desta opção é que todos os dados analisados são genuínos, mas tem a desvantagem de que a dimensão da amostra fica reduzida.

Quando uma análise utiliza um conjunto de variáveis, cada uma das quais com falta de alguns dados, esta opção pode fazer baixar muito a dimensão da amostra.

Tabela 2-3: Tabela de dados (com valores em falta).

CASO IDADE ANTIG. ORDENADO

1 36 -1 265

2 -1 5 230

3 23 4 -1

4 17 -1 201

5 45 4 -1

6 -1 13 212

7 34 -1 205

8 48 3 277

9 57 6 264

10 22 2 197

No caso da Tabela 2-3, que contém apenas 10 casos, constata-se que cada uma das variáveis tem um valor missing para três casos, ou seja, em cada uma das variáveis, só 70% dos casos da amostra não têm falta de dados.

O comando CORRELATE do SPSS aplicado aos dados da Tabela e utilizando a opção “exclude cases listwise”, produziu as correlações entre as variáveis que se apresentam no Quadro 2-3.

O SPSS vai utilizar apenas os casos sem valores missing em simultâneo, neste caso os casos 8, 9 e 10. Este significa que apenas 30% dos casos da amostra são utilizados na análise, na medida em que o efeito da falta de dados é cumulativo quando as variáveis têm valores missing em casos diferentes. Daqui resulta que se deve ter cautela com esta opção para resolver o problema da falta de dados.


P á g i n a | 26

Quadro 2-3: Coeficientes de correlação (com exclude cases listwise)

2.9.2.2 Opção “Exclude Cases Parwise”

Esta opção retira os casos só das análises que utilizam a variável (ou variáveis) com falta de dados e não retira estes casos de todas as análises.

As vantagens desta opção é que apenas se usam dados genuínos e se maximiza a utilização dos dados. A desvantagem é que a dimensão da amostra varia de uma análise para outra.

Executando o comando CORRELATE agora com a opção “Exclude Cases Parwise”, obtêm-se as correlações do Quadro 2-4.

Quadro 2-4: Coeficientes de correlação (com exclude cases parwise)

É de salientar que estas correlações apresentam valores diferentes dos obtidos no caso anterior. Neste caso a dimensão da amostra varia de cinco casos até oito. Esta variação da dimensão da amostra pode trazer problemas porque a amostra pode ser, por exemplo, representativa para algumas análises de dados e não ser representativa para outras. Este problema é grave.

2.9.2.3 Opção “Replace with Mean”

Esta opção substitui os valores missing por valores calculados através de diversos métodos, sendo o mais comum a utilização da média da série dos valores da variável, isto é, calcula o valor médio dos valores de uma variável que tem valores missing e utiliza o valor médio como o valor da variável para todas as situações de missing.


P á g i n a | 27

Figura 2.26: Substituição de valores em falta pela média.

A execução desta opção de “replace with mean” é efectuada através da opção Transform na barra de menus:

Figura 2.27: Opção Transform (substituição de valores em falta).

2.9.2.4 Que Opção Utilizar?

O método a utilizar depende de quatro factores:

i. A dimensão “T” da amostra completa (incluindo os casos com falta de dados); ii. A natureza da análise estatística que o investigador pretende efectuar;

iii. A variável com maior número de valores missing nessa análise; iv. A distribuição dos casos com falta de dados no conjunto de variáveis na análise.

Para cada análise que se pretende efectuar, deve-se encontrar, para cada uma das variáveis na análise, o número de casos com valores missing. A variável com maior número de casos com falta de dados é a variável crítica (M – n.º de casos da variável crítica com falta de dados).

Para decidir qual das opções do SPSS é a mais adequada para lidar com o problema de falta de dados, sugere-se a utilização das seguintes “regras do polegar”:

a) Quando

, é razoável utilizar a opção “Replace with mean”;

b) Quando

, mas ( ) representa uma dimensão da amostra suficiente para fazer a

análise, é razoável utilizar a opção “Exclude cases listwise”;

c) Quando ( ) representa uma dimensão da amostra insuficiente para fazer a análise, deve-se utilizar a opção “Exclude cases parwise”;


P á g i n a | 28

2.10 SELECÇÃO DE CASOS

Por vezes, há necessidade de proceder a análises sem a inclusão de todos os casos contidos nas variáveis em jogo. Uma situação típica é ter-se verificado que há valores “outliers”, isto é, valores extremos muito elevados ou muito baixos, que provavelmente são registos mal efectuados ou, eventualmente, observações anómalas que, incluídas nas análises estatísticas, vão distorcer a validade das conclusões. Desta forma, poderá ser preferível excluí-las das análises, mas sem as eliminar do ficheiro de dados (antes de se efectuar a análise de dados preliminares é importante verificar se o ficheiro de dados contém falta de valores (valores “missing”)).

O procedimento “Select Cases” fornece vários métodos para a selecção de um subgrupo de casos com base em critérios que incluem variáveis e expressões complexas. Os critérios utilizados para definir um subgrupo podem incluir:

Valores e intervalos de variáveis; Intervalos de data e hora; Número de casos (linhas); Expressões Aritméticas; Expressões Lógicas; Funções.

Para executar o procedimento, seleccionar na barra de menus:

Figura 2.28: Seleccionar casos.

As opções possíveis para a selecção de casos (Figura 2.29) são:

All cases. desactiva filtragem de casos e usa todos os casos. If condition is satisfied. Usa uma expressão condicional para seleccionar os casos. Se o resultado da

expressão condicional é verdadeiro, o caso está seleccionado. Se o resultado for falso ou está em falta, o caso não é seleccionado.

Random sample of cases. Selecciona uma amostra aleatória com base numa percentagem aproximada ou um número exacto de casos

Based on time or case range. Selecciona os casos com base num intervalo de números de casos ou num intervalo de datas/tempo.

Use filter variable. Usa a variável numérica seleccionada do ficheiro de dados como a variável de filtro. Casos com qualquer valor diferente de 0 ou em falta (missing) para a variável filtro são seleccionados.


P á g i n a | 29

Figura 2.29: Selecção de casos.

A área Output da Figura 2.29 controla o tratamento dos casos não seleccionados. Pode-se escolher uma das seguintes alternativas para o tratamento de casos não seleccionados:

Filter out unselected cases. Os casos não seleccionados não são incluídos na análise, mas permanecem na base de dados. Estes casos podem ser utilizados mais tarde desactivando a filtragem. Se for seleccionada uma amostra aleatória ou se forem seleccionados os casos com base numa expressão condicional, isso gera uma variável chamada filter_$ com um valor 1 para os casos seleccionados e um valor 0 para os casos não seleccionados.

Copy selected cases to a new dataset. Os casos seleccionados são copiados para um novo conjunto de dados, deixando o conjunto de dados original inalterado. Os casos não seleccionados não estão incluídos no novo conjunto de dados e são deixados no seu estado original no conjunto de dados original.

Delete unselected cases. Os casos não seleccionados são excluídos do conjunto de dados. Os casos excluídos podem ser recuperados apenas se se sair do ficheiro sem guardar as alterações e, em seguida, reabrir o ficheiro. A exclusão de casos é permanente se forem guardadas as alterações ao ficheiro de dados.

Nota: Se os casos não seleccionados forem apagados e se o ficheiro for guardado, os casos não podem ser recuperados posteriormente.

Se o objectivo for efectuar algumas análises apenas para os casos correspondentes aos indivíduos do sexo masculino, pode-se seleccionar esses casos através da opção “If condition is satisfied”, conforme apresentado na Figura 2.30:

Figura 2.30: Criação da condição para a selecção de casos.


P á g i n a | 30

Na janela do “Data View” (Figura 2.31) pode-se verificar que os casos excluídos (que se mantêm na base de dados) apresentam uma barra oblíqua no correspondente número do caso, sinalizando que o caso não foi seleccionado.

Figura 2.31: Visualização dos casos excluídos.

Todas as análises efectuadas daqui em diante tomarão em consideração apenas os casos relativos aos indivíduos do sexo masculino. Para anular esta selecção deve-se seleccionar a opção “All cases”.


P á g i n a | 31

2.11 DIVISÃO DO FICHEIRO (SPLIT FILE)

O procedimento “Divisão do Ficheiro” (Split File) divide o ficheiro de dados em grupos distintos para análise com base nos valores de uma ou mais variáveis de agrupamento.

Se forem seleccionadas várias variáveis de agrupamento, os casos são agrupados por cada variável dentro das categorias da variável anterior na lista “Groups Based On”. Se, por exemplo, for seleccionado o “sexo do respondente” como primeira variável de agrupamento e “grau mais elevado” como segunda variável, os casos serão agrupados pela classificação do “grau mais elevado” dentro de cada categoria de “sexo”.

Para efectuar esta divisão, deve-se seleccionar na barra de menus:

Figura 2.32: Divisão do ficheiro.

Posteriormente, seleccionar as variáveis de agrupamento:

Figura 2.33: Selecção de variáveis de agrupamento para a divisão de ficheiro.


P á g i n a | 32

Compare groups. Os grupos resultantes do procedimento “Split file” são apresentados em conjunto para efeitos de comparação.

Organize output by groups. Todos os resultados de cada procedimento são mostrados separadamente para cada grupo de divisão do ficheiro.

Por exemplo, no cálculo das da média da idade dos respondentes (recorrendo o procedimento Frequencies), obtém-se a informação estruturada de acordo com as variáveis de agrupamento, conforme apresentado Quadro 2-5:

Quadro 2-5: Cálculo da média de uma variável após divisão de ficheiro.

3 Transformação de Dados

3

Transformação

de Dados


P á g i n a | 34

3.1 TRANSFORMAÇÃO DE DADOS

O SPSS permite a criação de uma nova variável a partir de transformações sobre outras variáveis:

Podem criar-se novas variáveis ou alterar-se os valores de variáveis já existentes; Podem calcular-se valores sobre apenas uma parte dos casos, baseando-se em condições lógicas; Podem usar-se mais de 70 funções pré-existentes: funções aritméticas, estatísticas, de distribuição e

de manipulação de caracteres.

3.2 CÁLCULO DE UMA VARIÁVEL

Na barra de menus escolher:

Introduzir o nome da variável destino, que pode já existir, ou ser uma variável nova;

Construir a expressão escolhendo as funções na lista de funções e os operadores na lista de operadores. Opcionalmente pode digitar a expressão a partir do teclado.

Figura 3.1: Calcular uma variável.

TRANSFORMAÇÃO DE DADOS

P á g i n a | 35

SUBCONJUNTO DE CASOS

Premindo o botão If pode introduzir-se uma expressão condicional que limita o número de casos calculados a um subconjunto determinado.

O exemplo seguinte, selecciona apenas os casos do sexo feminino (1) e que trabalham na secção de produção (2).

Figura 3.2: Condição para cálculo da variável.

OPERADORES LÓGICOS E ARITMÉTICOS

Figura 3.3: Operadores lógicos e aritméticos.


P á g i n a | 36

3.3 RECODIFICAÇÃO DE VARIÁVEIS

A recodificação de variáveis é muito útil na combinação de categorias.

A recodificação pode assumir três formas diferentes:

1. Recodificação na mesma variável; 2. Recodificação numa variável diferente; 3. Recodificação automática.

3.3.1 RECODIFICAÇÃO NA MESMA VARIÁVEL


Seleccionar as variáveis que se pretendem recodificar;

Premir o botão Old and New Values para especificar a recodificação:

Figura 3.6: Recodificação de uma variável.

Figura 3.5: Selecção da variável a recodificar.

Figura 3.4: Recodificação na mesma variável.

TRANSFORMAÇÃO DE DADOS

P á g i n a | 37

3.3.2 RECODIFICAÇÃO NUMA VARIÁVEL DIFERENTE


Seleccionar as variáveis que se pretendem recodificar;

Introduzir o nome da nova variável e premir o botão Change;

Premir o botão Old and New Values para especificar a recodificação:

Figura 3.9: Velhos e novos valores da nova variável.

Figura 3.8: Selecção da variável a recodificar noutra variável diferente.

Figura 3.7: Recodificação numa variável diferente.


P á g i n a | 38

3.3.3 RECODIFICAÇÃO AUTOMÁTICA

O SPSS recodifica automaticamente variáveis do tipo String (texto) ou numéricas em números inteiros consecutivos.


Escolher variável;

Digitar novo nome;

Premir Add New Name:

Figura 3.11: Recodificação automática.

Figura 3.10: Recodificação automática.

4 Exploração e Cruzamento de Variáveis

4

Exploração e

Cruzamento de

Variáveis


P á g i n a | 40

4.1 RESUMO DE UMA DISTRIBUIÇÃO


Figura 4.1: Explore.

Seleccionar a variável (ou variáveis) que se pretende explorar e colocá-la na lista de variáveis dependentes;

Seleccionar a variável que define os grupos de casos e movê-la para a lista de factores.

Exemplo:

a) Pretende-se analisar a satisfação no emprego por idade.

Figura 4.2: Selecção de variáveis.

EXPLORAÇÃO E CRUAZAMENTO DE VARIÁVEIS

P á g i n a | 41

b) Depois de indicadas as variáveis e premido o botão OK, obtém-se o seguinte resultado:

Quadro 4-1: Resultado do comando explore.

c) Leitura da tabela (Quadro 4-1):

Verifica-se que existem 325 casos na categoria “muito satisfeito” para os quais a idade está disponível.

O número de casos em falta é de 2 (dois). Isto significa que 2 casos “muito satisfeito” não têm um valor válido para a variável idade. Este número representa apenas 0,6% do total de casos, pelo que o seu efeito é de somenos importância.

O número de casos varia consideravelmente entre os quatro grupos: mais de 300 indivíduos dizem-se “moderadamente satisfeito”; 74 estão “um pouco insatisfeito”; e apenas 26 estão “muito satisfeito”.

As conclusões extraídas sobre os últimos dois grupos têm que ser cuidadosas, pois são baseadas num pequeno número de casos.

O Quadro 4-2 apresenta o resultado das estatísticas sobre os grupos de casos:

Quadro 4-2: Estatísticas (comando explore).


P á g i n a | 42

As médias das idades variam do valor mais elevado de 41,5 no grupo “muito satisfeito”, até ao valor mais baixo de 38,58 no grupo “muito insatisfeito”.

O valor das medianas é sensivelmente mais baixo para todos os grupos porque as distribuições de idade têm caudas nos valores mais elevados de idade.

A média aparada (trimmed mean) evita este problema pois exclui os valores mais elevados, assim como os mais baixos. Na 5% trimmed mean, apenas são considerados 90% dos casos no centro da distribuição, excluindo-se os 5% do extremo superior e os 5% do extremo inferior.

O desvio padrão mais elevado pertence ao grupo “muito satisfeito”, pois este contém o valor de idade mais elevado: 82 anos.

A linha Range dá-nos a amplitude de idades do grupo. O Interquartile Range dá-nos a amplitude de idades do grupo, medida entre os percentis 25 e 75, não

sendo por isso afectado pelos valores extremos.

4.2 VALORES EXTREMOS

Para identificar os valores extremos deve-se premir o botão Statistics na caixa de diálogo Explore e seleccionar a opção Outliers:

Figura 4.3: Obter valores extremos.

O Quadro 4-3 apresenta os valores extremos para o grupo “muito satisfeito”:

Quadro 4-3: Análise de valores extremos.


P á g i n a | 43

4.3 PERCENTIS

Com o Explore podem obter-se os percentis para cada grupo.

Procedimento:

Premir o botão Statistics na caixa de diálogo Explore e seleccionar a opção Percentiles

Figura 4.4: Obter percentis.

Resultados:

Quadro 4-4: Análise de percentis.


P á g i n a | 44

4.4 HISTOGRAMA

Para obter o Histograma deve-se premir o botão Plots na caixa de diálogo Explore e seleccionar a opção Histogram.

Figura 4.6: Histograma.

Figura 4.5: Obter histograma.


P á g i n a | 45

4.5 GRÁFICO DE CAULE E FOLHAS

Para obter o Histograma deve-se premir o botão Plots na caixa de diálogo Explore e seleccionar a opção Stem-and-leaf.

Figura 4.8: Gráfico de caule e folhas.

Se a largura do caule (stem width) fosse 100, então os valores do tronco de valor 6 seriam 600, 610 e 630.

Figura 4.7: Obter gráfico de caule e folhas.


P á g i n a | 46

4.6 CAIXA DE BIGODES

Para obter a Caixa de Bigodes deve-se seleccionar a opção Plots ou Both na caixa de diálogo Explore.

Figura 4.10: Caixa de bigodes.

Figura 4.9: Obter caixa de bigodes.


P á g i n a | 47

4.7 CRUZAMENTO DE VARIÁVEIS

Uma tabela de frequências é insuficiente para visualizar o grau de satisfação no emprego por cada categoria de salário. Para isso há necessidade de recorrer ao cruzamento de variáveis.


Seleccionar a variável (ou variáveis) que vai ocupar as linhas da tabela e colocá-la em Row(s); Seleccionar a variável (ou variáveis) que vai ocupar as colunas da tabela e colocá-la em Column(s).

Figura 4.12: Selecção de variáveis para cruzamento.

Podem mover-se diversas variáveis para as listas de linhas ou colunas para obter

múltiplos cruzamentos bivariados.

Para visualizar três ou mais variáveis em simultâneo, devem-se colocar as variáveis adicionais em camadas sucessivas (layers).

Figura 4.11: Cruzamento de variáveis.


P á g i n a | 48

CRUZAMENTO DE SAT_EMP COM RECEITA4

Quadro 4-5: Resultado do cruzamento de duas variáveis.

CRUZAMENTO DE SAT_EMP COM RECEITA4 POR SEXO

Figura 4.13: Selecção de variáveis para cruzamento por camada (layer).


P á g i n a | 49

Quadro 4-6: Resultado do cruzamento de três variáveis.


P á g i n a | 50

4.8 PERCENTAGENS DE LINHA E COLUNA

Para que seja possível visualizar as percentagens das células deve-se premir o botão Cells na caixa de diálogo Crosstabs e seleccionar as opções Row, Column ou Total.

Figura 4.14: Obter percentagens.

Quadro 4-7: Análise de percentagens.


P á g i n a | 51

4.9 VISUALIZAÇÃO GRÁFICA

Os resultados do cruzamento de variáveis podem ser apresentados graficamente.

a) Em valores absolutos


Escolher Stacked e premir Define; Escolher a variável receita4 para o eixo das categorias; Escolher a variável sat_emp para a definição dos clusters.

Figura 4.16: Selecção de variáveis para visualização gráfica.

Figura 4.15: Selecção de gráficos.


P á g i n a | 52

Figura 4.17: Gráfico de barras empilhadas.

b) Em valores relativos

Para apresentar a percentagem de casos, as variáveis devem ser escolhidas por ordem inversa.

Depois, no editor de gráficos deve fazer-se

Figura 4.18: Gráfico em percentagem.


P á g i n a | 53

Figura 4.19: Gráfico de barras empilhadas em percentagens.

Desta forma, consegue-se comparar a distribuição inspeccionando as barras para cada grupo.

Observa-se que o grupo das pessoas com menor rendimento é o que possui menor percentagem de indivíduos “muito satisfeito” com o seu emprego. Representam também a menor percentagem de indivíduos “muito insatisfeito”.

Pode ver-se que a soma das percentagens dos indivíduos “muito satisfeito” e “moderadamente satisfeito” é sensivelmente a mesma para os quatro grupos.

5 Variáveis de Resposta Múltipla

5

Variáveis de

Resposta Múltipla


P á g i n a | 56

5.1 INTRODUÇÃO

Por vezes nos inquéritos surgem questões em que é possível recolher mais que uma resposta, as chamadas Respostas Múltiplas. Para resolver essa questão o SPSS possui uma função que permite criar variáveis para analisar essas respostas, as Variáveis de Respostas Múltiplas (VRM). Este tipo de variáveis pode ser recolhido de duas formas.

5.2 QUESTÕES DE DICOTOMIA MÚLTIPLA

Caso típico: o inquirido é confrontado com um campo com diversos itens devendo seleccionar aqueles que se aplicam à sua situação. Por exemplo, numa questão ligada às razões de emigração o indivíduo pode apresentar mais do que uma razão. No caso de um campo de selecção, isso significaria que existiria uma listagem com as várias opções, das quais os indivíduos seleccionariam as suas razões. As variáveis assim codificadas são designadas como questões de dicotomia múltipla, uma vez que cada item possui dois estados - seleccionado ou não.

O primeiro passo para a análise deste género de variáveis é a criação de uma variável para cada uma das opções. Todas as variáveis estarão codificadas com 1 = sim, 2 = não.

PROCESSO DE CRIAÇÃO DAS VRM.


Figura 5.1: Definir VRM dicotómica.

Surgirá então a caixa de diálogo “Define Multiple Response Sets”.

O primeiro passo é a escolha das variáveis que devem pertencer ao conjunto. No lado esquerdo está o conjunto total das variáveis da base de dados (Set Definition), no qual se seleccionam aquelas que se desejam

analisar como VRM e que passarão para a janela da direita (Variables in Set) pressionando o botão

Como se está perante questões de dicotomia múltipla, na caixa “Variables Are Coded As” escolhe-se a opção Dichotomies. Na caixa “Counted value” digita-se o valor 1, o qual está codificado como sim, pois esta é a opção que deseja contabilizar. Em baixo existem duas caixas de texto onde se pode indicar o nome e o label da variável. A seguir pressiona-se o botão Add para adicionar este conjunto de variáveis ao conjunto das respostas múltiplas, sobre o qual se podem realizar tabelas de frequências


P á g i n a | 57

Figura 5.2: Criação de VRM dicotómica.

TABELA DE FREQUÊNCIAS


Figura 5.3: Calcular tabela de frequências de VRM.

Seguidamente, na janela “Multiple Response Frequencies” seleccionar a VRM sobre a qual se pretende calcular a tabela de frequências, indicando se pretende excluir os missing values.

Figura 5.4: VRM a seleccionar para cálculo de frequências.


P á g i n a | 58

Depois de clicar em OK, surge a tabela de frequências, a qual deve ser interpretada do seguinte modo:

Figura 5.5: Missing values na VRM.

A tabela “Case Summary” dá a indicação dos missing values, que se referem aos indivíduos que não apresentaram qualquer razão para desejar emigrar. No caso do exemplo, todos os indivíduos apresentaram, pelo menos, uma razão para emigar (não existem missing values).

Figura 5.6: Frequências de uma VRM.

A coluna “Respondes – N” apresenta o número de vez que cada motivo foi seleccionado como razão do desejo de emigrar. A coluna “Responses – Percent” dá a percentagem do total de problemas que foi atribuída a cada problema específico, enquanto a coluna “Percent of Cases” dá a percentagem de inquiridos (que seleccionaram pelo menos uma razão de emigração) que mencionaram cada uma das razões.

Por exemplo, 5 pessoas responderam que “ganhar pouco” é uma das suas motivações para emigrar. Assim, das pessoas que apresentaram alguma motivação para emigrar, 50% apresentaram estar a ganhar pouco como uma das razões. Se pretendermos analisar em termos de % de cada resposta, pode-se dizer que no total de 17 opções, 29,4% das motivações estão ligadas ao facto de ganhar pouco.

Normalmente, a informação que apresenta maior utilidade em termos de análise estatística é aquela que se encontra relacionada com a percentagem de casos, já que é natural que com a possibilidade de resposta múltipla o número de respostas exceda o número de casos, pelo que a percentagem não deverá ser calculada em função do número de respostas, mas sim do número de inquiridos.

5.3 QUESTÕES DE CATEGORIA MÚLTIPLA

Nesta opção, trata-se de uma situação em que o inquirido é confrontado com um campo com diversos itens, podendo contemplar várias respostas em simultâneo, por exemplo “Quando tem problemas económicos a quem recorre?”. Em primeiro lugar, devem-se inserir os casos segundo a figura abaixo, ou seja, definir tantas variáveis quanto as hipóteses de resposta (neste caso, sete), só preenchendo os casos que efectivamente correspondem a uma resposta.


P á g i n a | 59

Figura 5.7: Definição de VRM - Categoria

PROCESSO DE CRIAÇÃO DAS VRM.

Repetir os procedimentos indicados anteriormente, mas ao contrário da primeira opção, na caixa “Variables Are Coded As” escolhe-se a opção Categories e a preferência “Range 1 through 7” (hipóteses de resposta no presente exemplo):

Figura 5.8: Criação de VRM categórica.


P á g i n a | 60

TABELA DE FREQUÊNCIAS / CRUZAMENTO DE VARIÁVEIS

O processo de cálculo de tabelas de frequências com VRM categóricas é idêntico ao efectuado para as VRM dicotómicas.

Também é possível calcular tabelas de cruzamento de variáveis utilizando VRM, quer dicotómicas quer categóricas. O processo é semelhante ao processo de criação de uma tabela que usa variáveis normais. A única diferença é que a variável VRM não se encontra na janela junto ao canto superior esquerdo, mas sim na janela designada “Multiple Response Sets” que se situa imediatamente abaixo dessa janela.

Figura 5.9: Cruzamento de variáveis com VRM.

6 Testes de Hipóteses (Teoria da Decisão)

6

Testes de

Hipóteses

(Teoria da Decisão)


P á g i n a | 62

6.1 REGRA DE DECISÃO

Um teste de hipóteses é um procedimento cuja finalidade é fornecer uma regra de decisão, com determinada probabilidade, permitindo escolher entre duas hipóteses estatísticas, com base em resultados obtidos da amostra.

Designa-se por hipótese nula (H0) a hipótese da não diferença (status quo), ou seja, aquela que é sujeita ao teste, por oposição à hipótese alternativa (Ha) que é a hipótese da diferença. Só depois de se obter resultados na amostra é que se toma a decisão de rejeitar ou não rejeitar a hipótese nula.

Nos ensaios de hipóteses há duas hipóteses mutuamente exclusivas e exaustivas, a hipótese nula (H0) e a hipótese alternativa (Ha) e quatro resultados possíveis:

Duas decisões correctas: Não rejeitar a hipótese nula quando ela é verdadeira; Aceitar a hipótese alternativa quando ela é verdadeira

Dois tipos de erros: Erro tipo I Erro tipo II;

O erro tipo I, também designado por alfa (α) ou o nível de significância (sig ou p) é a probabilidade de rejeitar erradamente a H0, isto é, a probabilidade de rejeitar H0 sabendo que H0 é verdadeiro.

( )

O erro tipo II, também designado por beta (β) é a probabilidade de rejeitar incorrectamente Ha, isto é, a probabilidade de rejeitar Ha sabendo que Ha é verdadeiro.

( )

Os dois tipos de erro variam em sentido contrário, ainda que com intensidades diferentes. Como são probabilidades, variam sempre entre 0 e 1.

Ao complemento aritmético de β chama-se função potência:

A qual informa sobre a probabilidade de rejeitar correctamente H0, ou seja, sobre a confiança com que se aceita a hipótese alternativa.

Embora a potência de um teste possa ser muito elevada, tal não obriga à verificação da hipótese alternativa. Sabe-se apenas que existe uma grande confiança em que se verifique Ha.

A hipótese nula é considerada verdadeira até prova em contrário.

Quadro 6-1: Regra da decisão.

Decisão vs Realidade H0 Verdadeira H0 Falsa

Não se rejeita H0 Decisão acertada Erro tipo II

Rejeita-se H0 Erro tipo I Decisão acertada

TESTES DE HIPÓTESES (TEORIA DA DECISÃO)

P á g i n a | 63

6.2 PROCEDIMENTOS DOS TESTES

Relativamente ao procedimento genérico dos testes, primeiro há que estabelecer as hipóteses estatísticas, de acordo com a hipótese experimental que surge do problema. Seguidamente, é necessário escolher o melhor estimador do parâmetro em causa e estudar a sua lei de distribuição, ou seja, seleccionar a estatística teste, admitindo que a hipótese nula se verifica. Depois, calcula-se a estatística teste para a amostra concreta.

A nível teórico, é necessário estabelecer a região de rejeição da hipótese nula, com base no nível de significância e no tipo de teste e comparar o valor da estatística teste com a região de rejeição. Fixando um determinado nível de significância (α) – normalmente 1% (0,01), 5% (0,05) ou 10% (0,10) – a região de rejeição encontra-se associada a essa probabilidade de rejeitar uma hipótese nula verdadeira.

Ao diminuir o α torna-se mais difícil rejeitar a hipótese nula, ou seja, diminui a região de rejeição. Note-se que aumentando a dimensão da amostra (N), diminui-se igualmente o erro de tipo I associado à decisão (pelo que as grandes amostras sejam preferidas às pequenas amostras, quando se pretende detectar efeitos significativos).

6.2.1 TESTES DE HIPÓTESES NO SPSS

No SPSS o processo dos testes de hipóteses está bastante simplificado, não sendo necessário definir regiões de rejeição nem consultar tabelas estatísticas. Neste caso, a estatística teste encontra-se associada a uma probabilidade de significância (sig. ou p-value), que se compara directamente com o nível de significância (α) previamente definido.

A probabilidade de significância é a probabilidade de obter o valor específico da estatística teste caso se verifique a hipótese nula, ou seja, caso não exista efeito no modelo (igualdade). Desta forma, valores muito baixos de probabilidade de significância implicam que, muito provavelmente, a hipótese nula não deve ser verdadeira. Se sig. for inferior a α, rejeita-se a hipótese nula, caso contrário não existe evidência estatística para o fazer.

Para terminar o procedimento, retiram-se as conclusões de acordo com o enunciado do problema.

6.3 TESTES BILATERAIS E UNILATERAIS

6.3.1 TESTES BILATERAIS (TWO-TAILED)

Se o valor do erro tipo I associado ao teste (sig), for menor ou igual ao escolhido pelo analista (p), rejeita-se a hipótese nula e aceita-se a hipótese alternativa.

Se o valor do erro tipo I associado ao teste (sig), for maior que o escolhido pelo analista (p), não se rejeita a hipótese nula.

Sempre que Ha tem o sinal diferente, está-se perante um teste bilateral ou de região crítica bilateral.

Rejeita-se a hipótese nula tanto para valores superiores como inferiores aos estabelecidos em H0.


P á g i n a | 64

6.3.2 TESTES UNILATERAIS (ONE-TAILED)

Se (sig/2) for menor ou igual ao erro tipo I escolhido pelo analista (p), rejeita-se a hipótese nula e aceita-se a hipótese alternativa.

Caso contrário não se rejeita a hipótese nula.

Sempre que Ha inclua o sinal maior (>) ou menor (<), está-se perante um teste unilateral ou de região crítica unilateral.

O valor que o investigador escolhe para o erro tio I (p), normalmente p = 0,01; p = 0,05; p = 0,10, deve ser determinado por sua própria estimativa, em função da importância prática dos resultados e da maior potência do teste, ou seja, do menor erro β.

7 Regressão Linear

7

Regressão

Linear


P á g i n a | 66

7.1 INTRODUÇÃO

Os objectivos da regressão linear são:

Mostrar de que forma as variáveis independentes explicam as variáveis dependentes; Fazer previsões sobre as variáveis dependentes a partir dos valores das independentes.

A relação linear entre duas variáveis contínuas pode ser aferida através do coeficiente de correlação ou do modelo de regressão linear.

Deve construir-se um quadro (diagrama de dispersão) a partir dos pares de valores (X, Y) de variáveis independente e dependente.

Funções do diagrama de dispersão:

Ajudar a determinar se existe relação entre as variáveis; Permitir identificar a equação matemática mais apropriada para descrever essa relação (linear,

exponencial, logarítmica, potência, etc.).

A relação linear entre duas variáveis pode ser descrita através da equação:

Em que:

................... : variável dependente

................... : variável independente

................... : variável residual (inclui factores exteriores ao modelo e erros de medição)

................... : parâmetro ordenada na origem

................... : paraâmetro declive

7.2 COEFICIENTE DE CORRELAÇÃO DE PEARSON

Um coeficiente de correlação superior a 0,5 (em valor absoluto) mostra uma correlação forte entre as variáveis, enquanto um coeficiente de correlação inferior a 0,5 (em valor absoluto) mostra uma correlação fraca entre as variáveis.

REGRESSÃO LINEAR

P á g i n a | 67

7.3 REGRESSÃO LINEAR NO SPSS

1. Introdução dos dados

Figura 7.1: Dados para cálculo da regressão.

2. Na barra de menus seleccionar:

Figura 7.2: Regressão linear.

3. Seleccionar as variáveis dependente e independente:

Figura 7.3: Selecção de variáveis para cálculo da regressão.


P á g i n a | 68

4. Após premir o botão OK, obtém-se o seguinte quadro de resultados (Quadro 7-1):

Quadro 7-1: Resultado do cálculo da regressão.

De onde se extraem os valores 6,163 e 0,093 para e , respectivamente.

7.4 ANÁLISE GRÁFICA


Seleccionar Simple e premir Define;

Figura 7.4: Selecção do tipo de gráfico.

Seleccionar a variável dependente para o eixo Y; Seleccionar a variável independente para o eixo X; Em Label Cases by colocar o nome da variável que vai identificar os pontos nos gráficos.

REGRESSÃO LINEAR

P á g i n a | 69

Figura 7.5: Selecção das variáveis para o gráfico.

Para identificar os pontos, editar o gráfico e usar a View Data Labels. O resultado é o seguinte:

Figura 7.6: Edição do gráfico.


P á g i n a | 70

7.5 RECTA DE REGRESSÃO

Para visualizar a recta de regressão, fazer duplo clique no gráfico no Output Viewer para obter o Chart Editor:

Figura 7.7: Definir a recta de regressão.

em Fit Line escolher Total em Fit Options escolher Linear regression

Para alterar a gama de valores representados, fazer duplo clique no gráfico no Output Viewer para obter o Chart Editor:

Para a gama do eixo X, escolher X scale. Modificar os valores mínimo e máximo de Range

Para a gama do eixo Y, proceder do mesmo modo.

Figura 7.8: Recta de regressão.

REGRESSÃO LINEAR

P á g i n a | 71

7.6 VALORES PREVISTOS E VALORES RESIDUAIS

Os valores previstos pela recta são diferentes dos valores reais para cada caso. A diferença entre os dois constitui o valor residual.

O SPSS calcula os valores previstos pelo modelo linear, assim como os valores residuais.

Na caixa de diálogo Linear Regression escolher a opção Save. Em Predicted Values e Residuals seleccionar as opções Unstandardized. Premir o botão Continue.

Figura 7.9: Valores previstos e residuais.

São criadas as variáveis pre_1 e res_1, respectivamente, com os valores previstos e residuais para cada caso.

É possível visualizar os valores previstos junto dos valores reais.



P á g i n a | 72

Figura 7.10: Visualizar os valores previstos e residuais.

Seleccionar as variáveis a analisar e movê-las para a lista de variáveis.

Figura 7.11: Selecção de variáveis para análise.

REGRESSÃO LINEAR

P á g i n a | 73

Quadro 7-2: Análise dos valores previstos e residuais.

Neste caso, o modelo afirma que:

expressão a partir da qual se podem calcular os valores previstos pelo modelo e respectivos valores residuais.

7.7 COEFICIENTE DE CORRELAÇÃO

A tabela seguinte, apresentada como um dos resultados do cálculo de regressão linear, dá-nos o valor do coeficiente de correlação (R), assim como o seu quadrado (R Square).

Quadro 7-3: Coeficiente de correlação.

8 Teste de Independência do Qui-Quadrado

8

Teste de

Independência

do Qui-Quadrado


P á g i n a | 76

8.1 INTRODUÇÃO

O teste do Qui-Quadrado é utilizado para variáveis nominais ou ordinais. Neste tipo de dados por categorias, não faz sentido calcular alguns indicadores como médias, daí trabalhar-se com as frequências (número de ocorrências de uma determinada categoria da variável).

O teste verifica se existe ou não relação entre duas variáveis. Existem vários tipos de teste do Qui-Quadrado, mas todos comparam o valor observado na amostra com o chamado valor esperado (valor que ocorre caso não exista ligação entre as variáveis).

Tanto os testes de independência do Qui-Quadrado como os resíduos ajustados estandardizados permitem analisar a relação de independência entre variáveis qualitativas.

As hipóteses dos testes de independência são:

O teste do Qui-Quadrado apenas informa sobre a independência entre as variáveis, mas nada diz sobre o grau de associação existente.

8.1.1 REQUISITOS PARA A VALIDADE DO TESTE

Nenhuma célula da tabela deve ter frequência esperada inferior a 1;

Não mais do que 20% das células devem ter frequência esperada inferior a 5 unidades;

Em tabelas de 2 × 2 não deve existir nenhuma célula com frequência esperada inferior a 5.

Se os pressupostos não forem garantidos, o nível de significância observado pode ser correcto ou enganador, dependendo respectivamente da pequena ou elevada contribuição das células com Fe < 5 para o valor do teste.

Se o pressuposto das frequências esperadas inferior a 5 for violado, compara-se o valor do teste do χ2 nessas células (Fe < 5)com o valor do mesmo teste contando com todas as células.

8.1.2 CASO DO TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

Caso:

Pretende-se estudar a relação dos adeptos do Benfica e do Sporting para com o respectivo estádio, especificamente, a assiduidade desses adeptos aos jogos. Foi recolhida uma amostra de 200 respostas, das quais 78 de sócios e simpatizantes do Sporting e 122 do Benfica, em que era perguntado a esses adeptos se iam ou não ao estádio com frequência.

8.1.2.1 Tratamento dos Dados

A base de dados no SPSS pode ser criada de duas formas distintas:

a) Método 1 Criação de duas variáveis: clube e estádio; Listar as 200 ocorrências com cada uma das respostas dos adeptos (clube e ir ou não ao estádio)

TESTE DE INDEPENDÊNCIA DO QUI-QUADRADO

P á g i n a | 77

Tabela 8-1: Dados para análise.

b) Método 2 Criação de três variáveis: clube, estádio e frequência (variável que representa o número de ocorrência

para cada categoria de clube/estádio (implica um tratamento prévio de contar o número de ocorrências por categoria);

No SPSS carregam-se apenas quatro casos, correspondentes às quatro categorias possíveis.

Tabela 8-2: Dados para análise – agrupados.

Antes de se executar o procedimento de cálculo do teste do Qui-Quadrado é necessário efectuar no SPSS os seguintes comandos:

Figura 8.1: Ponderação de casos.

Nota: Para o caso do método 1, não é necessário executar estes comandos.


P á g i n a | 78

8.1.2.2 Cálculo do Teste

Executar os seguintes comandos:

a) Seleccionar a opção Crosstabs e indicar as variáveis para figurar em linha e coluna:

Figura 8.2: Selecção de variáveis.

b) Na caixa Statistics seleccionar Chi-square e na caixa Cells seleccionar em Counts: Observed e Expected:

Figura 8.3: Selecção da estatística qui-quadrado.

TESTE DE INDEPENDÊNCIA DO QUI-QUADRADO

P á g i n a | 79

Os resultados são os apresentados no Quadro 8-1 e no Quadro 8-2:

Quadro 8-1: Resultado do cruzamento das variáveis.

Quadro 8-2: Resultados do teste do qui-quadrado.

A hipótese nula será: existe independência entre filiação clubística (Benfica, Sporting) e ida habitual ao estádio para assistir a jogos (não vai, vai);

A hipótese alternativa será: existe relação entre filiação clubística (Benfica, Sporting) e ida habitual ao estádio para assistir a jogos (não vai, vai);

A tabela de contingência (crosstabulation) - Quadro 8-1 - mostra os valores observados (count) e esperados (expected count) para as duas variáveis: clube e estádio. Verifica-se que, a nível descritivo, a amostra total é composta por 200 indivíduos – as frequências marginais indicam que 78 são adeptos do Sporting e 122 são adeptos do Benfica e também que 96 não vão habitualmente ao estádio e 104 vão habitualmente ao estádio ver jogos. Além disso, dos Sportinguistas, 32 não frequentam habitualmente o estádio e 46 frequentam, enquanto que, relativamente aos Benfiquistas, 64 não frequentam o estádio e 58 frequentam.

Seria ainda possível pedir os valores percentuais – por linha, por coluna e totais – na caixa Cells.

O teste do Qui-quadrado de independência apresenta um valor de 2,492 e uma significância de 0,114, o que mostra que não existe relação entre a filiação clubística e o hábito de ir ao estádio ver jogos [ ( ) ].

Quando as amostras são grandes (como aqui), não é necessário activar a caixa do teste exacto. Para o caso de tabelas (como este), é normalmente apresentado o valor do teste com correcção de continuidade, embora esse valor seja manifestamente conservador em termos estatísticos (por isso é, em geral, ignorado).

Note-se que, caso exista relação entre as variáveis, o teste do Qui-quadrado não mostra isoladamente quais as células específicas da tabela que estão relacionadas, o que torna desaconselhável usar o teste em variáveis com demasiadas categorias (muitas linhas e/ou colunas).

Anexo A – Edição de Tabelas

A

Edição de

Tabelas


P á g i n a | 82

Ao executar o procedimento Explore (“idade” como variável dependente e “sat_emp” como variável de agrupamento) no Output Viewer surge um mapa com a seguinte estrutura:

Como este mapa não é de fácil leitura, é aconselhável mudar a sua estrutura. Neste caso pode-se mudar a variável “sat_emp” para a coluna, com as correspondentes estatísticas.

Para isso deve-se:

a) Seleccionar o mapa (clicar em cima do mapa pretendido); b) Fazer duplo clique sobre o mapa, obtendo-se uma janela com uma Pivot Table

ANEXO A – EDIÇÃO DE TABELAS

P á g i n a | 83

c) No menu da Pivot Table seleccionar

Movendo as variáveis de linha para coluna e vice-versa, obtém-se um layout do tipo:


P á g i n a | 84

A que corresponde um mapa do seguinte tipo:

Anexo B – Assimetria e Achatamento

B

Assimetria e

Achatamento


P á g i n a | 86

Medidas de Assimetria

Na utilização de questionários para recolha de dados é fundamental ter uma atenção redobrada sobre as características desses instrumentos.

Por norma, desenvolvem-se escalas se onde colocam afirmações cujas respostas podem assumir várias modalidades: 1 (discordo totalmente), 2 (discordo), 3 (não concordo nem discordo), 4 (concordo) e 5 (concordo totalmente). Para que as pessoas não respondam, num mesmo item, a mesma coisa, é necessário que a pergunta esteja construída para que se obtenham respostas diversificadas (1, 2, 3, 4, 5).

As medidas de assimetria permitem precisamente calcular as inclinações e as modalidades de resposta e, neste sentido, deve-se estar atento ao comportamento dos resultados. Não se pretendem resultados em que a maior parte das pessoas responda 4 (concordo) e 5 (concordo totalmente), existindo nesse caso uma assimetria negativa. Outro caso indesejável seria todas as pessoas responderem 1 (discordo totalmente) ou 2 (discordo), sucedendo o caso de uma assimetria positiva.

Do ponto de vista teórico, o desejável é haver um equilíbrio, já que a assimetria diz respeito ao grau de enviesamento -desvio lateral -de uma distribuição. O coeficiente de assimetria não tem interpretação directa, pelo que deve ser dividido pelo erro padrão associado, originando um valor designado z-score. Este valor estandardizado -com media zero e desvio-padrão unitário – pode ser comparado com valores baseados na distribuição normal através de um teste de hipóteses. Quanto mais esse valor se distanciar de zero, maior será o grau de assimetria da distribuição.

Para simplificar a explicação, os valores que se seguem são baseados em níveis de significância de 0,05:

i. Distribuição simétrica -caso em que o z-score tende para o valor zero; ii. Distribuição enviesada à esquerda (assimétrica positiva) -caso em que o z-score esta acima de 1,96;

iii. Distribuição enviesada à direita (assimétrica negativa) -caso em que o z-score esta abaixo de -1,96.

Medidas de Achatamento (Curtose)

Além da preocupação com a simetria das distribuições, também se deve prestar atenção às dimensões de curtose (achatamento). É desejável que haja uma pequena percentagem de resposta nas modalidades de extremo 1 (discordo totalmente) e 5 (concordo totalmente) que vá aumentando para as outras modalidades de resposta 2 (discordo) e 4 (concordo) e assuma um valor mais elevado em 3 (não concordo nem discordo). Essa evolução sendo gradual e simétrica permite o aparecimento de uma curva de distribuição normalizada que se assemelha a um "sino" (distribuição mesocúrtica). Em algumas situações, sucede que 20% das pessoas responde 1, 20% responde 2, 20% responde 3, 20% responde 4 e 20% responde 5. Isso permite uma distribuição algo achatada a que se dá o nome de platicúrtica. Poderá ainda acontecer que 50% das pessoas responda 3 (não concordo nem discordo), 40% responda 4 (concordo) e 10 % responda 4 (concordo totalmente) e isso permite uma curva com tendência pontiaguda ou alongada considerando o eixo das ordenadas. Tanto as distribuições leptocúrticas como platicúrticas não são desejáveis. De acordo com este exemplo, pode-se considerar que a curtose diz respeito ao grau de achatamento de uma distribuição. Tal como na assimetria, o coeficiente de curtose não tem interpretação directa, devendo igualmente ser dividido pelo erro padrão associado, dando origem um z-score cuja interpretação é muito semelhante ao caso da assimetria.

Mais uma vez, os valores que se seguem são baseados em níveis de significância de 0,05:

i. Distribuição mesocúrtica - caso em que o z-score tende para o valor zero; ii. Distribuição leptocúrtica (tendência pontiaguda) -caso em que o z-score esta acima do valor 1,96;

iii. Distribuição platicurtica (tendência achatada) -caso em que o z-score esta abaixo de -1,96.

Documents

Manual Spss - Tad