120
Preditiva: O que é? Análise Prof. José Gonçalves Vicente

Análise Preditiva: O que é? - unicesumar.edu.br · 02 Capítulo 2: Criar um banco de dados 03 Capítulo 3: Transformação de dados ... 1ºgrau completo/incompleto 2 [ ] 2ºgrau

  • Upload
    buihanh

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

  • Preditiva:O que ?Anlise

    Prof. Jos Gonalves Vicente

  • SumrioSumrio01 Introduo

    02 Passos de uma Anlise Preditiva

    03 Questionrio estruturado

    04 Anlise Estatstica

    IBM SPSS Statistics for Windows

    01 Captulo 1 : Introduo

    02 Captulo 2: Criar um banco de dados

    03 Captulo 3: Transformao de dados

    04 Captulo 4: Comandos do IBM SPSS

    05 Captulo 5: Manipulao de dados

    06 Arquivos e janelas

    07 Unio de dois bancos de dados

    08 Grficos

    4

    5

    5

    7

    10

    11

    19

    37

    50

    62

    83

    93

    101

  • 4

    Anlise Preditiva: O que ?

    01 IntroduoPrever o futuro um desejo comum entre as pessoas. Se fssemos capazes de saber, com antecedncia de seis meses ou mais, que uma grande crise econmica iria assolar o Brasil (considerando que no estamos vivendo um bom momento neste ano de 2.018), o que poderamos fazer? Ser que conseguiramos criar um plano para prevenir ou diminuir o impacto daquele grande problema? Poderamos mudar o rumo da histria? Com a ajuda de anlises preditivas, poderamos dizer que sim.

    Anlise preditiva no bola de cristal, mas sim o trabalho de analisar um cenrio especfico e traar possveis tendncias e mudanas capazes de afetar um planejamento estratgico.

    Com o avano de tecnologias que possibilitam uma minerao de dados eficiente, a anlise preditiva conta, cada vez mais, com segurana e consolidao para descobrir padres e avaliar as probabilidades de um resultado ou um acontecimento futuro, diferentemente da simples anlise descritiva de dados, que apenas mede e apresenta resultados passados.

    Um exemplo prtico e didtico foi o que ocorreu em 1984/1985 com relao s diretas j. Uma equipe tcnica constituda por uma Instituio Federal, da qual fomos chamadas a fazer parte, para uma anlise da populao brasileira com relao ao movimento nas ruas pelas diretas j. Combinando algoritmos, cientistas de dados, e uma equipe multidisciplinar, o grupo foi capaz de analisar a movimentao nas ruas (no existiam ainda internet e redes sociais como ns as temos hoje), para prever quais movimentaes sociais ficariam cheias; quais teriam um contexto mais violento e quais seriam pacficas.

    Com esse insumo analtico, todas as aes da Unidade Federal durante o evento deixaram de ser intuitivas. Cada passo era extremamente analtico e as chances de sucesso foram inimaginavelmente maiores.

    Em trabalhos que fazem uso de tcnicas de anlise preditiva, o intercruzamento de frmulas matemticas e estatsticas possibilita a descoberta de padres ocultos nos dados que especialistas humanos dificilmente enxergariam.

    UMA ANALOGIA: Vamos imaginar que voc pretenda viajar de Maring at Londrina, dirigindo o seu carro. O primeiro passo ao chegar em seu carro abrir a porta e, em seguida, entrar no carro: (1)coloca o cinto de segurana, (2) coloca em ponto morto, (3) liga o carro, (4) verifica o painel de controle do carro, (5) presso dos pneus, (6) combustvel , (7) se ajusta perfeitamente ao banco, (8) destrava a alavanca dos freios, (9) acende a luz baixa do veculo, (10) engata as marchas. Vai comear a viagem. A partir de agora futuro: (11) Olha nos espelhos retrovisores, (12) verifica o limite de velocidade, (13) sinais nas placas de trnsito, (14) semforos, (15) ultrapassagem proibida, (16) sinais de alerta nas estradas, (17) permitir ultrapassagem de outros veculos mais rpidos, (18) movimento dos pedestres etc.

    O objetivo fazer uma viagem confortvel e chegar a Londrina feliz e salvo.

    Os itens de 1 a 10 se referem a dados existentes e se repetem sempre que voc vai viajar, ou seja, voc sempre os tem. Os dados de 11 a 18 so dados que vo ocorrer no futuro em sua viagem. O sucesso de sua viagem depende sempre dos dados j coletados e conferidos e dos dados preditivos a serem alcanados.

    Anlise Preditiva um conjunto de tcnicas matemticas/estatsticas aplicado a um conjunto de dados para determinar a probabilidade de que algum cenrio provvel que acontea ou seja verdadeiro (MATIS, 2006).

  • 5

    Anlise Preditiva: O que ?

    02 Passos de uma Anlise PreditivaConhea bem o seu passado para ter uma melhor viso do que vai acontecer no futuro.Etapa 1:

    03 Questionrio estruturadoDadosNeste curso, iremos utilizar dados obtidos de um questionrio estruturado exclusivamente para fins didticos. A coleta de dados foi realizada junto a professores e alunos da UniCesumar entre os dias 21 e 29 de maro de 2018 e os dados envolvem itens demogrficos, de atitude e comportamento. Dentre esses, esto opinies sobre satisfao em relao a diversos aspectos sobre o cotidiano. Cerca de 500 adultos foram includos nessa simulao. No fica afastada a proposta de, junto aos alunos desse curso, produzir um questionrio estruturado de situaes reais que se apresenta como sem respostas satisfatrias, como por exemplo: Por que as mulheres ganham salrios inferiores aos homens nas mesmas funes?

    Questionrio Estruturado Pesquisa Social Geral01 - Sexo do entrevistado:1 [ ] masculino 2 [ ] feminino

    02 - Estado civil do entrevistado:1 [ ]casado 2 [ ]solteiro 3 [ ]unio estvel 4 [ ] outra

    03 - Data de nascimento: ____/____/________

    04 - Peso do entrevistado em quilogramas: ___________

    05 - Altura do entrevistado em metros: ___________

    06 Grau de Escolaridade da me:1 [ ] 1grau completo/incompleto 2 [ ] 2grau incompleto3 [ ] 2grau completo 4 [ ] superior 5 [ ]No se aplica

    07 Renda mdia familiar: R$ ______________________

    08 Religio do entrevistado:1 [ ] catlico 2 [ ] evanglico 3 [ ] outra 4 [ ] no tem

    Extrao de dados Limpeza de dados Identificar padres Fazer predies

    Primrios, secundrios Analisar Conhecimento Previses

    Etapa 2:

    Dados informaes conhecimento ideias sabedoria ao

    Informao Analtica Anlise avanada Deciso

    Descritiva Diagnstica Preditiva Prescritiva Cognitiva

    O que est acontecendo? Por que ocorreu?

    O que provavelmente vai ocorrer?

    Como podemos garantir que realmente acontea?

    De acordo com o que aprendemos, qual a melhor deciso?

  • 6

    Anlise Preditiva: O que ?

    09 Voc acredita na vida aps a morte:1 [ ] sim 2 [ ] no 3 [ ] no sei

    10 Qual a sua situao de felicidade de modo geral:1 [ ] tima 2 [ ] boa 3 [ ] regular4 [ ] ruim 5 [ ] pssima

    11 Quais as suas condies de sade:1 [ ] tima 2 [ ] boa 3 [ ] regular4 [ ] ruim 5 [ ] pssima

    12 - Na sua opinio hoje, quanto o governo deve fazer para reduzir a distncia entre ricos e pobres?1 [ ] muito menos 2 [ ] um pouco menos 3 [ ] o mesmo que j tem feito4 [ ] um pouco mais 5 [ ] muito mais 6 [ ] no sei

    13 Quando um negcio ou empresa ganha muito dinheiro, todos se beneficiam, inclusive os pobres. A respeito dessa frase voc:1 [ ] discorda totalmente 2 [ ] discorda parcialmente 3 [ ] fica neutro4 [ ] um pouco mais 5 [ ] muito mais 6 [ ] no sei

    14 - Na sua opinio, qual o nmero de filhos ideal numa famlia: __________ filhos

    15 Voc favorvel ao armamento dos cidados brasileiros que quiserem?1 [ ] sim 2 [ ] no 3 [ ] no sei

    16 O quanto voc valoriza a honestidade das decises do congresso nacional brasileiro?1 [ ] nada 2 [ ] pouco 3 [ ] muito

    17 Quantas horas voc gasta, em mdia, na internet por dia? Resp. __________ horas

    18 - Voc oferece trabalho voluntrio ou contribui financeiramente para organizaes de caridade?1 [ ] sim 2 [ ] no 3 [ ] s vezes

    19 Qual a sua opinio sobre o casamento ou unio estvel da comunidade LGBT?1 [ ] favorvel 2 [ ] no favorvel 3 [ ] no sei

    20 Voc acredita na existncia do diabo?1 [ ] sim 2 [ ] no 3 [ ] no sei

    21 Voc acha que a maconha deveria ser legalizada?1 [ ] sim 2 [ ] no 3 [ ] no sei

    22 Voc tem o hbito de acompanhar, pela imprensa nacional (TV, Radio, Jornal, revistas), as noticiais nacionais e internacionais?1 [ ] sim 2 [ ] no 3 [ ] s vezes

    23 Quanto ao voto nas eleies presidenciais, voc se considera um eleitor de: 1 [ ] direita 2 [ ] centro 3( [ ] esquerda 4 [ ] no sabe

  • 7

    Anlise Preditiva: O que ?

    04 Anlise Estatstica Vivemos constantemente rodeados por potenciais fontes de dados que, entre tantas, podem ser: funcionrios de uma empresa (se estivermos interessados em avaliar seu desempenho antes e aps um treinamento), pacientes de uma clnica (se quisermos estudar tempo de reao a uma determinada droga), objetos em uma linha de produo (se quisermos avaliar quantidades de peas defeituosas produzidas), ndices da bolsa de valores (se nosso alvo so projees econmicas) ou, at mesmo, rendimento das mulheres (se quisermos comparar salrios de homens e mulheres nas mesmas funes).

    Por hora, vamos supor que estamos interessados em estimar o peso mdio dos brasileiros do sexo feminino e com mais de 25 anos de idade. Em geral, no temos recursos financeiros ou mesmo tempo suficiente para entrevistarmos cada pessoa e pesar cada uma delas, por isso, preciso selecionar um grupo (ou uma amostra) de pessoas. Essa etapa chamada de coleta de dados, que seguida do devido armazenamento deles.

    Uma vez reunidas todas as informaes necessrias para a anlise, esses dados precisam passar, frequentemente, por alguma transformao. Se a altura das pessoas tivesse sido registrada em gramas, seria conveniente transform-la para quilogramas. Esta a etapa de transformao de dados, que poderia incluir clculos bem mais complexos.

    Finalmente, os dados esto prontos para a anlise, que ser dividida em duas fases. A primeira chamada de anlise descritiva, na qual - como o prprio nome diz - descreveremos os dados. Alguns procedimentos utilizados nessa etapa so: construo de tabelas e grficos, clculo de medidas como mdia, mediana, desvio padro etc.

    No estudo sobre o peso dos brasileiros, por exemplo, poderamos ter como primeiros resultados: o peso mdio na amostra entrevistada de 68 kg com um desvio padro de 3 kg cm. Mas da a dizer que este o peso mdio do brasileiro do sexo feminino com mais do que 25 anos um passo grande e que deve ser dado com muito cuidado. ento que entra a segunda parte da anlise, a anlise inferencial: com a ajuda de testes estatsticos, poderemos mais do que simplesmente estimar qual o peso mdio do grupo em questo: poderemos, tambm, associar uma certa confiabilidade a tal concluso.

    Depois disso, hora de relatar as concluses do estudo. Agora, toda informao - seja ela numrica ou grfica - bem-vinda, para que algum que no participou do processo de anlise possa compreender as concluses sobre o estudo por meio de relatrios e grficos.

    Mas, afinal, por que devemos realizar uma anlise estatstica? Simplesmente porque precisamos da confiabilidade que essa anlise oferece em um momento de tomada de deciso.

    O IBM SPSS Statistics considerado um dos melhores softwares estatsticos do mercado, justamente porque participa de grande parte do processo que engloba uma anlise estatstica. Logo na primeira etapa, possvel armazenar dados de forma rpida e prtica no prprio IBM SPSS Statistics. Durante o processo de transformao e anlise de dados, o IBM SPSS Statistics tem recursos considerados dos mais poderosos. At mesmo em um dos momentos mais delicados da anlise, a elaborao de relatrios, o IBM SPSS Statistics tem recursos excelentes, mas, e na hora de tomar decises? Mesmo nesse momento crtico da sua anlise, voc pode contar com os recursos do IBM SPSS Statistics.

    Variveis

    Qualitativas QuantitativasOrdinais Nominais Discretas Contnuas

  • 8

    Anlise Preditiva: O que ?

    As variveis nos estudos estatsticos so os valores que assumem determinadas caractersticas dentro de uma pesquisa e podem ser classificadas em qualitativas ou quantitativas.

    Variveis Qualitativas

    As variveis qualitativas no podem ser expressas numericamente, pois relacionam situaes como a cor da pele, cor dos olhos, marca de refrigerante, marca de automvel, preferncia musical entre outras. Elas podem ser divididas em ordinais e nominais. As variveis qualitativas ordinais, apesar de no serem numricas, obedecem a uma relao de ordem, por exemplo: conceitos como timo, bom, regular e ruim, classe social, grau de instruo, etc. J as variveis qualitativas nominais no esto relacionadas ordem, elas so identificadas apenas por nomes, por exemplo, as cores: vermelho, amarelo, preto, azul, rosa, verde, etc. Tambm como exemplo de nominais temos as marcas de carros, nome de bebidas, local de nascimento, entre outros.

    Variveis Quantitativas

    No caso das variveis quantitativas, usamos a representao numrica. Elas podem ser classificadas em discretas e contnuas. As variveis quantitativas discretas acontecem relacionadas a situaes limitadas, por exemplo: nmero de revistas vendidas, quantidade de consultas mdicas, nmero de filhos de um casal. No caso das variveis quantitativas contnuas, a abrangncia pertence a um intervalo que se caracteriza por infinitos valores, como exemplo podemos citar: o peso de um produto, altura dos alunos de uma escola, velocidade de objetos, entre outras situaes.

    Um exemplo prtico.Consideremos uma pesquisa sobre sade de 332 pessoas com 11 variveis.

    01 - Idade em anos completos.

    02 Gnero:[ 0 ] = feminino [ 1 ] = masculino

    03 - Altura em cm __________ .

    04 - Peso em kg __________ .

    05 Fumante:[ 0 ] no fumante [ 1 ] fumante

    06 - Opinio sobre a prpria condio fsica:[ 1 ] ruim [ 2 ] fraca [ 3 ] regular [ 4 ] boa [ 5 ] tima

    07 - Nota final no curso de graduao.

    08 - Salrio mensal R$_____________ .

    09 - Prtica regular de atividades fsicas semanais:[ 1 ] nenhuma [ 2 ] 1 a 2 vezes [ 3 ] 3 a 4 vezes [ 4 ] mais de 5 vezes

    10 - Grau de instruo da me:[ 1 ] Analfabeta/1grau incompleto [ 2 ] 1grau completo[ 3 ] 2grau completo [ 4 ] superior

    11 Nmero de irmos: _________ .

  • 9

    Anlise Preditiva: O que ?

    Variveis Casos

    Ordinais 06, 10

    Nominais 02, 05, 09

    Discretas 01, 11

    Contnuas 03, 04, 07, 08

    No caso do IBM SPSS Statistics o programa apresenta 9 tipos de variveis e 3 formas de medidas, que veremos mais adiante.

  • IBM SPSSStatisticsfor Windows

  • 01 Introduo1.01 Passos de uma Anlise Estatstica

    Janela Inicial

    Inicialmente, o IBM SPSS Statistics abre uma janela para comearmos a trabalhar com os nossos dados: a janela sem ttulo1 [ConjuntoDeDados0] Editor de dados do IBM SPSS Statistics (veja Figura 1). Ao longo do trabalho, outras janelas podem ser abertas. Cada janela aberta um arquivo em potencial, ou seja, pode ser armazenado, impresso, copiado para outras janelas etc.

    Figura 1 | Aspecto inicial do IBM SPSS Statistics

    IBM SPSS Statistics for Windows

    11

  • 12

    IBM SPSS Statistics for Windows

    1.02 Arquivo

    O menu Arquivo (ver Figura 2) permite que voc tenha controle sobre tudo que se refere ao gerenciamento de arquivos, como importao, exportao, impresso e salvamento.

    Figura 2 | O menu arquivo

    O primeiro bloco desse menu destina-se abertura de arquivos, seja ele um banco de dados, uma janela de sadas produzida anteriormente ou uma janela de sintaxe. Os tipos de bancos de dados que podem ser lidos diretamente pelo IBM SPSS Statistics so os mais diversos, como por exemplo, ASCII (texto), Microsoft Excel, dBase, entre outros e, claro, os arquivos produzidos pelo prprio IBM SPSS Statistics nas suas diferentes verses. A opo Novo abre uma nova janela de dados (que chamamos de dataset ou conjunto de dados) ou outros tipos de janelas do IBM SPSS Statistics (sada, sintaxe ou script); a opo Abrir abre um arquivo diretamente; a opo Importar Dados permite a abertura de arquivos com formatos especficos veremos dois exemplos de importao de arquivos (texto e Excel, respectivamente) a partir desta opo no final do Capitulo.

    O segundo bloco do menu Arquivo tem por funo salvar qualquer janela do IBM SPSS Statistics; assim, se estivermos na janela de sadas, podemos salvar todos os resultados de uma anlise estatstica utilizando a opo Salvar. O software permite ainda salvar um banco de dados criado no IBM SPSS Statistics em outro formato, assim como no prprio formato IBM SPSS Statistics. Voc poder tambm salvar a base de dados que estiver ativa no IBM SPSS Statistics por meio da opo Exportar veremos esta opo no final do Captulo II. A opo Marcar Arquivo Como Somente Leitura serve para evitar que um arquivo original seja modificado ou deletado

  • 13

    IBM SPSS Statistics for Windows

    Figura 3: O menu editar

    acidentalmente: com essa opo selecionada, o seu arquivo ficar marcado como Somente Leitura. (Caso essa opo esteja selecionada, para salvar o arquivo ser necessrio escolher outro nome ou entrar novamente no menu Arquivo e escolher a opo Marcar Arquivo Como Somente Leitura.)

    No terceiro bloco do menu Arquivo, voc pode renomear um dataset usando a opo Renomear Conjunto de Dados; obter informaes sobre o contedo do seu banco de dados usando a opo Exibir Informaes do Arquivo de Dados; forar a criao de um arquivo de dados temporrio em Armazenar Dados em Cache; parar o processador do IBM SPSS Statistics atravs de Parar o Processador ou conectar-se a um servidor para executar anlises em bancos de dados maiores (desde que voc tenha o IBM SPSS Statistics Server) atravs do Alternar Servidor. No quarto bloco de Arquivo est localizada a opo de impresso (Imprimir) de qualquer janela que esteja ativa, e no quinto bloco do menu Arquivo, temos a lista de arquivos recentemente utilizados e a opo Sair para voc fechar o IBM SPSS Statistics.

    1.03 Editar

    O menu Editar (ver Figura 3) traz comandos relacionados edio, que podem ser diferentes de acordo com a janela que estiver ativa. Se estivermos na janela de dados, podemos utilizar os recursos Cortar e Colar para cortar e colar, respectivamente, um conjunto de dados de um lugar para outro. Os comandos Localizar e Ir Para o Caso ajudam a encontrar um registro no banco de dados. No ltimo bloco do menu Editar, temos o comando Opes, onde podemos definir os principais parmetros do IBM SPSS Statistics, como o padro para o tipo da varivel (o padro do IBM SPSS Statistics Numeric 8.2, isto , varivel numrica com oito dgitos, sendo que os dois ltimos so casas decimais), ou ainda o tamanho e fonte dos ttulos na janela de sadas, entre muitas outras. Algumas dessas opes do comando Opes sero estudadas detalhadamente no final do curso.

  • 14

    IBM SPSS Statistics for Windows

    1.04 Visualizar

    Pelo menu Visualizar (ver Figura 4), voc escolhe como sero mostrados os dados na janela Editor de Dados (usando as opes Fontes, Linhas de Grade e Rtulos de Valor). Por esse menu, tambm possvel disponibilizar ou no (pela opo Barra de Status) a barra inferior, que contm mensagens importantes sobre o IBM SPSS Statistics, e, finalmente, pela opo Barra de Ferramentas, voc pode customizar a(s) barra(s) de ferramentas, inclusive, criando uma barra totalmente nova.

    Figura 4: O menu visualizar

    Figura 5 | O menu dados

    1.05 Dados

    O menu Dados (Figura 5) traz funes relacionadas manipulao dos dados. Comandos como definio de datas, ordenao do banco de dados, juno de arquivos em formato IBM SPSS Statistics, seleo de casos do arquivo de dados para trabalho e ponderao de valores fazem parte das opes desse menu (ver Figura 5).

  • 15

    IBM SPSS Statistics for Windows

    Figura 6 | O menu transformar

    1.06 Transformar

    A etapa de transformao dos dados (Figura 6) concentra-se basicamente no menu Transformar. Recursos como criao de novas variveis a partir das j existentes, recodificao de valores do banco de dados e, at mesmo, um assistente (wizard) para auxiliar no trabalho com as variveis no formato data so algumas das opes desse menu (ver Figura 6).

  • 16

    IBM SPSS Statistics for Windows

    Figura 7 | O menu analisar

    1.07 Analisar

    O menu Analisar (ver Figura 7) rene todos os procedimentos estatsticos disponveis no IBM SPSS Statistics. Este o principal menu que sofre alteraes com a incluso de outros mdulos. medida que so includos mdulos opcionais, o nmero de opes (linhas) existentes nesse menu vai aumentando, ou seja, a quantidade de recursos estatsticos vai se tornando cada vez maior.

    A opo Marketing Direto do menu Analisar (disponvel apenas com o mdulo Direct Marketing instalado) rene tcnicas para ajudar a entender o relacionamento com os clientes. Algumas anlises que esto presentes neste mdulo: Modelo RFV, Anlise de Cluster e Anlise de Perfis de Prospeco. At a verso 24 do IBM SPSS Statistics, as opes deste mdulo podiam ser acessadas em um menu parte na barra de menus.

    1.08 Grficos

    O menu Grficos (ver Figura 8) contm todos os tipos de grficos que o IBM SPSS Statistics oferece. Grficos de barras, rea, pizza, boxplot, histograma e cartas de controle so apenas alguns deles. Eles podem ser obtidos atravs da opo Construtor de Grfico. Atravs da opo Seletor de Modelo de Tabelas de Grficos, possvel visualizar o resultado das anlises geograficamente com os modelos de mapas disponveis no IBM SPSS Statistics.

  • 17

    IBM SPSS Statistics for Windows

    Figura 8 | O menu Grficos

    1.09 Utilitrios

    Utilitrios (ver Figura 9) um menu que oferece recursos que no so imprescindveis, mas certamente quebram alguns galhos. Um exemplo obter informaes sobre as variveis do seu arquivo clicando na opo Variveis. Alm disso, temos a opo Executar Script, onde podemos escolher algum script do IBM SPSS Statistics para ser executado. (Scripts so programas em Visual Basic que permitem a automatizao de muitas tarefas no IBM SPSS Statistics).

  • 18

    IBM SPSS Statistics for Windows

    1.10 Extenses

    No menu Extenses (ver Figura 10), voc pode baixar extenses adicionais para incrementar suas anlises (a partir do Hub de Extenso) ou personalizar os menus do IBM SPSS Statistics, criando, at mesmo, um menu totalmente novo (a partir do Construtor de Dilogo Personalizado).

    1.11 Janela

    Utilizando o menu Janela (Figura 11), voc pode navegar pelas janelas criadas pelo IBM SPSS Statistics, bastando escolher a janela desejada e clicar em seu nome; ou voc pode minimizar o IBM SPSS Statistics com todas as suas janelas pela opo Minimizar Todas as Janelas. Por meio do comando Diviso, voc divide a janela de dados em painis para visualizar vrias partes do banco de dados de uma s vez.

    Figura 11: O menu Janela

    Figura 12 | O menu Ajuda

    Figura 10

    1.12 Ajuda

    O ltimo menu que aparece o menu de Ajuda (ver Figura 12). A ajuda no IBM SPSS Statistics um dos pontos fortes do software, j que ela muito mais do que uma cpia do manual. Quando clicamos em Ajuda, a primeira opo Tpicos lhe d a chance de escolher entre esclarecimentos do significado de algum termo tcnico ou de algum comando e um ndice remissivo. Na opo Referncia de Sintaxe do Comando, voc ter todos os manuais de sintaxe do IBM SPSS Statistics.

  • 19

    IBM SPSS Statistics for Windows

    Figura 13 | Modo de definio de variveis

    Um tutorial do IBM SPSS Statistics (em Ingls) est disponvel na janela de ajuda que aberta quando clicamos na opo Tpicos do menu Ajuda (ver Figura I-13). Com ele, voc pode obter informaes bsicas sobre o uso do IBM SPSS Statistics. A opo Case Studies (Estudos de Caso) apresenta exemplos de aplicaes das anlises oferecidas por cada mdulo do IBM SPSS Statistics a partir de amostras de conjuntos de dados que ficam na pasta Samples, dentro do diretrio em que o software est instalado. J a opo Statistics Coach (tambm em Ingls) funciona como um tcnico estatstico: ele ir fazer a voc algumas perguntas sobre seus dados e o tipo de anlise que voc gostaria de obter e, ento, baseado nas suas respostas, ele indicar o procedimento do IBM SPSS Statistics mais apropriado para o seu caso.

    02 Criar um Banco de Dados02.1 Como criar seu prprio banco de dados

    Antes de comearmos a inserir valores na janela de dados, preciso atentar ao fato de que o IBM SPSS Statistics tem, por regra geral, trabalhar com as variveis (campos) definidas em colunas e casos (registros) em linhas. Neste treinamento, vamos trabalhar com as variveis organizadas pela ordem em que aparecem no arquivo: no menu Editar, clique em Opes e, na aba Geral, selecione as opes Exibir Nomes e Arquivo na rea Listas de Variveis.

    Digamos que estamos interessados em armazenar informaes de uma pesquisa, sobre a programao das emissoras de televiso, realizada em So Paulo e Rio de Janeiro. Vamos criar uma coluna para a cidade do respondente.

    Para definir uma varivel, clique duas vezes no nome da varivel no topo da coluna ou, na parte inferior da janela de dados, clique em Visualizao de Varivel. Dessa maneira, o modo de definio de variveis ser exibido na janela de dados. Nesse modo, temos a opo de definir todas as caractersticas que fazem parte de uma varivel: nome, tipo, rtulos, valores ausentes, formato da coluna e o nvel de medida (ver Figura 13).

    Para dar um nome varivel, basta digit-lo no espao designado por Nome; o nome da varivel pode ter, no mximo, 64 caracteres, sem que haja caracteres especiais no incio do nome, como +, &, \,-, $, etc. (porm podemos acentuar); no nosso caso, o nome ser cidade (ver Figura II-2). As palavras ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO e WITH so reservadas para os comandos do IBM SPSS Statistics e, por isso, no podero ser usadas como nomes de variveis. No nosso exemplo, vamos dar o nome cidade para a varivel (ver Figura 14)

  • 20

    IBM SPSS Statistics for Windows

    Figura 14 | Definio de variveis: Nome

    Figura 15 | Definio de variveis: Tipo, Tamanho e Casas Decimais

    Para alterarmos o tipo da varivel, basta clicar em Tipo, onde podemos definir a varivel como numrica (numeric), moeda (dollar), data (date), alfanumrica (string, ou sequncia de caracteres), entre outros tipos. Usaremos, no nosso caso, uma codificao para a varivel cidade, onde o nmero 1 corresponder cidade de So Paulo e o nmero 2 ao Rio de Janeiro, pois estas foram as duas nicas cidades pesquisadas. Portanto, a varivel cidade ser definida como numrica (ver Figura 15). Ainda nessa janela, voc pode especificar quantos caracteres a varivel ocupa (em Largura) e o nmero de casas decimais (em Casas decimais). Vamos deixar 8 em Largura e 0 em Casas decimais (dado que s usamos os nmeros 1 e 2, no precisamos de casas decimais) e clicar em OK.

    Voc deve estar se perguntando: Por que no definir a varivel cidade como alfanumrica (string) e digitar as palavras So Paulo e Rio de Janeiro ao invs dos nmeros 1 e 2? A resposta simples: muitos dos procedimentos estatsticos no conseguem trabalhar com variveis desse tipo (string). A digitao de nmeros, mesmo para variveis categricas, diminui o tempo e a

  • 21

    IBM SPSS Statistics for Windows

    Figura 16 | Definio de variveis: Rtulos para os valores

    ocorrncia de erros na digitao e, tambm, economiza espao e, consequentemente, tempo no processamento dos casos.

    Um recurso muito til no IBM SPSS Statistics a possibilidade de relacionarmos um texto (rtulo) ao nome das variveis. Basta selecionar a coluna Rtulo (Label) e digitar o texto desejado. Vamos colocar Cidade do entrevistado como rtulo da varivel cidade.

    Podemos tambm definir rtulos para os valores que uma determinada varivel pode assumir. A coluna Valores reservada para esse tipo de definio. Clique no boto que aparece ao selecionarmos essa coluna: no espao Valor, dentro da janela Rtulos de Valor, digitamos o valor que a varivel assume e, em Rtulo, o rtulo (texto) para aquele valor. Feito isso, basta clicar em Incluir para armazenar o rtulo do primeiro valor e passar para a segunda definio.

    No caso da varivel cidade, definimos So Paulo como rtulo para o valor 1 e Rio de Janeiro para o valor 2 (ver Figura 16). A vantagem de definirmos rtulos para variveis ou para os valores que uma varivel pode assumir que, toda vez que pedimos qualquer estatstica envolvendo essas variveis, eles aparecero junto com os resultados na janela de sadas. Dessa maneira poderemos identificar qual a cidade referente a cada nmero (cdigo).

    Geralmente, no temos condies de obter um banco de dados totalmente completo (vamos supor que uma das perguntas da pesquisa a idade do respondente; algumas pessoas no gostam de mencionar a idade). Se nada for informado nesse campo, o IBM SPSS Statistics coloca o separador decimal (. ou ,) no local e interpreta todos os pontos (ou vrgulas) como valores ausentes (missing). Tais valores, definidos como system missing, no sero considerados como valores vlidos em qualquer tipo de anlise a ser realizada.

    Podemos, porm, querer definir valores especficos como missing (no caso, user missing, valores ausentes definidos pelo usurio). Basta selecionar a coluna Omisso, clicar no boto que aparecer e escolher a opo mais conveniente (ver Figura 17). Por exemplo, se escolhermos

  • 22

    IBM SPSS Statistics for Windows

    a opo Valores omissos discretos, podemos definir o nmero 99 como valor user missing e cada vez que o IBM SPSS Statistics encontrar o nmero 99 no meio de uma anlise estatstica que envolve essa varivel, ele saber que aquele valor se refere a um valor ausente.

    Caso a varivel seja alfanumrica (string), qualquer valor - incluindo valor em branco - ser considerado como vlido. Para que isso no ocorra, basta definir como missing um espao em branco: automaticamente, o IBM SPSS Statistics entender como valor missing qualquer resposta em branco dessa varivel.

    A definio do formato da coluna um aspecto meramente esttico. Atravs da coluna Colunas, voc poder determinar a largura da coluna, e na coluna Alinhar, o alinhamento do texto que pode ser: esquerda, direita ou centralizado.

    Figura 17 | Definio de variveis: Valores Omissos (Missing Values)

    Figura 18 | Definio de variveis: Formato da Coluna

    No caso da varivel cidade, definiremos o tamanho da largura da coluna como 10 (dez) e o alinhamento direita (ver Figura 18).

    E, finalmente, na coluna Medida, devemos escolher o nvel de medida da varivel. As possveis escolhas so:

    Escala (Scale): Use esta opo quando os dados so valores numricos numa escala intervalar ou de razo (ex: idade, renda, peso, altura). Obs: A varivel dever ser numrica.

    Ordinal: Quando os dados representam categorias com uma ordem intrnseca (ex: pequeno, mdio, grande; concordo totalmente, concordo, discordo, discordo totalmente). Podem ser variveis alfanumricas (string) ou numricas com valores representando as categorias distintas (ex: 1 = pequeno, 2 = mdio, 3 = grande).

  • 23

    IBM SPSS Statistics for Windows

    Figura 19 | Janela de dados aps definio de uma varivel

    Figura 20 | Janela de dados aps a ativao dos rtulos via cone Rtulos de Valor

    Nominal: Quando os dados representam categorias sem ordem intrnseca (ex: as categorias de estado civil, ocupao, nacionalidade). Podem ser variveis alfanumricas (string) ou numricas com valores representando as categorias distintas (ex: 1 = masculino; 2 = feminino).

    No nosso caso, escolhemos a opo Nominal, uma vez que no existe ordem intrnseca nas categorias da varivel cidade.

    Pronto! Agora s voltar para o modo de exibio dos dados (selecione Visualizao de Dados na parte inferior da janela de dados) e digitar os valores coletados, lembrando que cada caso (registro) deve ser digitado em uma linha (ver Figura 19). Desse modo, o primeiro respondente de So Paulo, o segundo do Rio de Janeiro e assim por diante.

    Note que apenas os nmeros 1 e 2 aparecem na janela de dados e no os rtulos (nome das cidades). Para ativ-los basta clicar no cone Rtulos de Valor (na barra de ferramentas) ou na opo Rtulos de Valor do menu Visualizar.

    A Figura 20 mostra a janela de dados agora com os rtulos ativos. Para desativ-los, basta clicar novamente no mesmo cone.

    Para salvar as informaes armazenadas nessa janela no formato IBM SPSS Statistics, basta clicar no menu Arquivo Salvar (ou Salvar Como) e digitar o nome que queremos dar ao novo arquivo no quadro Nome do Arquivo. Note que a extenso dos arquivos do tipo IBM SPSS Statistics .sav.

  • 24

    IBM SPSS Statistics for Windows

    02.2 Definindo propriedades de variveis categricas

    No menu Dados, temos a opo Definir Propriedades das Variveis, que facilitar a definio dos rtulos dos valores e outras propriedades das variveis categricas (nominais ou ordinais). Esse comando faz a leitura dos valores atuais dos dados e lista todos os nicos valores para cada varivel selecionada; identifica valores que esto sem rtulo e promove uma rotulao automtica e, ainda, pode copiar os rtulos dos valores de uma varivel para uma ou mais variveis selecionadas.

    No nosso exemplo, utilizaremos o arquivo pesquisa.sav: para abrir o arquivo no formato IBM SPSS Statistics (.sav) basta clicar no menu Arquivo Abrir Dados e escolher o caminho e o nome do arquivo, no nosso caso, pesquisa.sav.

    Na varivel computador (Possui computador?) temos duas respostas vlidas: 0 (No) e 1 (Sim); porm, se olharmos o primeiro caso do banco de dados veremos que temos uma resposta 99 para essa varivel. Ns poderamos utilizar os conceitos vistos anteriormente para definir este valor 99 como missing e adicion-lo tambm nas demais variveis; porm, para fazer isso, utilizaremos o comando Definir Propriedades das Variveis.

    No menu Dados, selecione a opo Definir Propriedades das Variveis. O IBM SPSS Statistics abrir a janela inicial do comando (Figura 21). Nesta janela, devemos selecionar as variveis que queremos definir em algum rtulo e/ou outras propriedades e coloc-las no campo Variveis a verificar. Escolheremos as seguintes variveis: computador, fax, agenda, som, tv e vdeo. (Pelas escolhas que fizemos nas Opes do IBM SPSS Statistics, estas variveis aparecem no final da lista de variveis, o que facilita a incluso das mesmas na lista de variveis a serem verificadas.)

    Figura 21 | Janela para a escolha das variveis que sero lidas

  • 25

    IBM SPSS Statistics for Windows

    Figura 22 | Janela para definir as propriedades das variveis (primeira parte)

    Nos bancos de dados com uma grande quantidade de casos, podemos selecionar a opo Nmero limite de casos verificados para limitar em n casos o nmero de casos que sero lidos em cada varivel, reduzindo assim o tempo de processamento. A opo Nmero limite de valores exibidos para: ser usada para limitar em n respostas o nmero de valores que sero mostrados para cada varivel, evitando a presena de muitos valores, principalmente no caso de variveis escalares. Mantenha as duas opes como esto e clique em Continuar.

    No prximo passo, teremos todas as variveis que foram lidas e suas respectivas propriedades (Figura 22).

    Na lista de variveis, selecione a varivel computador. O nvel de medida para essa varivel escalar (Escala). Ns podemos mudar esse nvel de medida selecionando uma das opes (nominal, ordinal, escalar) presentes no campo Nvel de medio ou clicando no boto Sugerir: nessa opo, teremos uma janela onde podemos transformar automaticamente o nvel de medida da varivel selecionada, seguindo a sugesto apresentada pelo software de acordo com os valores encontrados na varivel. Escolha a opo Nominal e, em seguida, clique em Continuar.

    Na janela Definir Propriedades de Varivel temos, tambm, a opo Grade do rtulo de valor, onde podemos adicionar novos valores e rtulos ou alterar os j existentes, visualizar a frequncia de cada valor e definir qual valor ser missing. Qualquer valor que sofra alguma alterao nessa janela ficar marcado como Alterado.

    Ainda com a varivel computador selecionada, faremos algumas alteraes para o valor de user missing 99: na rea Rtulo, escreveremos No Respondeu e clicaremos tambm na opo Omisso para essa resposta (Figura 23): desta maneira, estamos definindo que, sempre que o software encontrar o valor 99 na varivel computador, ele ser tratado como um valor missing.

  • 26

    IBM SPSS Statistics for Windows

    Figura 23 | Janela para definir as propriedades das variveis (segunda parte)

    Figura 24 | Janela Aplicar Rtulos e Nvel

    Podemos aplicar as mesmas definies da varivel computador para as outras variveis listadas. Para isso, basta clicar na opo Para Outras Variveis do quadro Copiar Propriedades e em seguida, na janela Aplicar Rtulos e Nvel a (Figura 24), selecione todas as variveis e, em seguida, clique em Copiar.

  • 27

    IBM SPSS Statistics for Windows

    Figura 25 | Janela de definio das propriedades das variveis aps as alteraes

    Figura 26: Arquivo pesquisa.sav aps a definio das propriedades das variveis

    Podemos observar que, agora, todas as variveis listadas receberam as mesmas definies que a varivel computador, incluindo o valor 99 (Figura 25). Clique em OK para completar o procedimento. O resultado final est na Figura 26.

    Outra opo muito til para ajud-lo na definio das caractersticas de suas variveis chama-se Copiar Propriedades dos Dados e est presente no menu Dados. Ao escolher essa opo, ser aberta uma janela para voc selecionar um arquivo no formato IBM SPSS Statistics, chamado de arquivo modelo. Aps a escolha, o IBM SPSS Statistics compara os nomes das variveis do arquivo ativo com as do arquivo modelo e para aquelas variveis que tiverem o mesmo nome, ele copia todas as definies dessas variveis (como tipo, rtulo, valores ausentes, etc) do arquivo modelo para o arquivo ativo. Este comando substitui o antigo comando Aplicar Dicionrio aos Dados.

  • 28

    IBM SPSS Statistics for Windows

    02.3 Formas de importao e exportao de dados

    Conforme j mencionamos, o IBM SPSS Statistics tem a capacidade de importar bancos de dados gerados nos mais diversos formatos, entre eles Lotus 123, Microsoft Excel, Dbase e ASCII. Para ter acesso aos diferentes formatos de banco de dados, basta clicar no menu Arquivo Abrir Dados (ou em Arquivo Importar Dados Dados de Texto). Aparece ento uma tela (ver Figura 27) na qual determinamos disco e subdiretrios, o nome do arquivo e a forma sob a qual o arquivo foi gerado (opo Arquivos do tipo, no canto inferior esquerdo). O padro o formato IBM SPSS Statistics (extenso .sav).

    Figura 27 | Janela para a abertura de bancos de dados

    Para a abertura de arquivos do tipo texto (extenses .txt, .dat, .tab e .csv, por exemplo), o IBM SPSS Statistics possui um assistente prprio, uma vez que alguns destes arquivos podem ter valores ou nomes de variveis separados por tabulaes (extenso .dat ou .tab), vrgulas (extenso .csv) ou mesmo por espaos simples ou de tamanho fixo, o que pode gerar um problema grave na hora de ler variveis alfanumricas com espaos (por exemplo, nome completo de uma pessoa entrevistada em uma pesquisa).

    Para o nosso primeiro exemplo de importao, selecione a opo Texto no campo Arquivo do tipo; apenas arquivos texto (extenses .txt, .csv, .dat e .tab) estaro disponveis para a importao. Vamos escolher o arquivo pesquisa.csv para nosso exemplo. Certifique-se de que a opo Unicode (UTF-8) esteja selecionada na rea Codificao, uma vez que o arquivo est codificado nesse padro. Aps a seleo, abre-se a janela do Assistente de Importao de Texto (Text Import Wizard), o assistente do IBM SPSS Statistics para a importao de arquivos texto. Repare que o IBM SPSS Statistics possui a opo Importar Dados no menu Arquivo e, a partir dela, poderamos ter escolhido a subopo Dados CSVe, assim, teramos uma janela de abertura de arquivos .csv.

    No primeiro passo (ver Figura 28), possvel visualizar uma amostra do arquivo e como as variveis esto dispostas no mesmo; esse um passo fundamental para determinarmos como os dados sero importados para o formato SPSS, especialmente quando esto em arquivos

  • 29

    IBM SPSS Statistics for Windows

    Figura 28 | Assistente de Importao de Texto Passo 1

    de texto, com colunas de tamanho fixo, ou se os nomes das variveis esto na primeira linha. A pr-visualizao um recurso que estar presente durante todos os passos do assistente. Alm disso, no canto superior direito, h a possibilidade de escolher um formato predefinido para a importao (ao clicarmos em Sim na caixa O seu arquivo de texto corresponde a um formato predefinido?), algo til quando abrimos arquivos com a mesma formatao de colunas ou com o mesmo separador entre valores (por exemplo, vrgulas). No nosso exemplo, mantenha as opes padro e clique em Prximo.

    No passo 2 (Figura 29), definimos se o arquivo possui algum tipo de separador (Delimitado, que o nosso caso) ou colunas de tamanhos fixos (Largura fixa) e se o nome das variveis est na primeira linha do arquivo (clique em Sim e mantenha o nmero padro 1 para a linha que contm o nome das variveis). Definidas estas opes, clique em Prximo para entrar no terceiro passo (Figura 30).

    Agora, voc tem a opo de escolher em qual linha do arquivo est o primeiro caso (quando definimos que a primeira linha contm os nomes das variveis, o padro a linha 2, que o que manteremos), se cada linha completa representa um caso ou apenas um conjunto de variveis (manteremos a primeira opo, Cada linha representa um caso) e quantos casos voc importar: todos (Todos os casos, opo que manteremos); uma quantidade qualquer (Os primeiros n casos) ou; uma amostra aleatria cuja porcentagem aproximada de casos selecionados definida pelo usurio (Uma porcentagem aleatria dos casos). Clique em Prximo.

  • 30

    IBM SPSS Statistics for Windows

    Figura 29 | Assistente de Importao de Texto Passo 2

    Figura 30 | Assistente de Importao de Texto Passo 3

  • 31

    IBM SPSS Statistics for Windows

    Figura 31 | Assistente de Importao de Texto Passo 4

    No quarto passo (Figura 31), definimos quais so os separadores de valores. Repare que os valores da varivel fxrenda foram separados e, com isso, foram criadas variveis a mais: isso aconteceu porque o caractere de espao estava predefinido como separador, o que separa os valores alfanumricos (string) que possuem espaos. Para corrigir isso, desmarque a opo Espao na caixa Quais delimitadores aparecem entre variveis?, de forma que o nico delimitador que necessrio para a importao o ponto-e-vrgula. Em alguns arquivos, valores alfanumricos (texto) esto limitados por aspas simples ou aspas duplas; dependendo da situao, a respectiva opo deve ser marcada. Como no o nosso caso, certifique-se de que a opo Nenhum est marcada na caixa Qual o qualificador de texto? e clique em Prximo.

    A seguir, no passo 5 (Figura 32), podemos mudar os nomes das variveis, seus formatos (Numrico, Sequncia de caracteres, Data/Hora etc.) ou mesmo definir que uma determinada varivel no ser importada (escolhendo No importar) as duas ltimas opes esto disponveis no boto Formato de dados. No nosso exemplo, apenas clicaremos em Prximo, sem fazer qualquer alterao.

  • 32

    IBM SPSS Statistics for Windows

    Figura 32 | Assistente de Importao de Texto Passo 5

    No ltimo passo (Figura 33), podemos escolher se faremos a importao imediatamente ou colaremos o comando para uma janela de sintaxe. (Falaremos mais sobre sintaxe no Captulo 6): manteremos marcada a opo No para a caixa Gostaria de colar a sintaxe?. Alm disso, temos a possibilidade de salvar todas as opes definidas anteriormente em um novo arquivo (extenso .tpf, de TextWizard Predefined Format) que pode ser aberto no primeiro passo do Text Import Wizard em uso futuro. Por fim, clique no boto Concluir. Na Figura 34, temos o resultado da importao; agora, os dados esto prontos para serem preparados dentro do IBM SPSS Statistics.

  • 33

    IBM SPSS Statistics for Windows

    Figura 34 | Resultado final da importao do arquivo pesquisa.csv

    Figura 35 | Importao do arquivo Lazer.xlsx (parte 1)

    Como um ltimo exemplo tpico de importao de dados, vamos abrir uma planilha de um arquivo do Microsoft Excel. Como alternativa escolha do menu Arquivo Abrir Dados, vamos escolher o menu Arquivo Importar Dados Excel e, a seguir, escolha o arquivo Lazer.xlsx (ver Figura 35). A seguir, clique em Abrir.

    Agora, abre-se uma nova caixa de dilogo (ver Figura 36), na qual devemos definir em qual planilha esto os dados que sero importados (no caso em que o banco de dados possua duas ou mais planilhas diferentes) e o intervalo no qual os mesmos esto na referida planilha, incluindo eventuais nomes das variveis. Selecionaremos a planilha LAZER na opo Planilha. Repare que uma opo padro a de ler os nomes das variveis a partir da primeira linha do

  • 34

    IBM SPSS Statistics for Windows

    intervalo de dados que foi definido (Ler nomes de variveis a partir da primeira linha de dados): manteremos esta opo ativada.

    Finalmente, repare que a pr-visualizao dos dados nos mostra que a importao ser feita de forma incorreta, uma vez que os nomes das variveis esto originalmente na quarta linha da planilha LAZER (o cabealho da planilha, Pesquisa de Opinio e Lazer, virou nome de uma das variveis, o que um indicativo claro de que o intervalo de dados a serem importados no est correto). Sendo assim, devemos especificar para o SPSS que os dados devem ser lidos no intervalo entre as clulas A4 (nome da primeira varivel) e P35 (valor da varivel MSICA para o ltimo dos 31 casos presentes no banco de dados). Logo, preencheremos o campo Amplitude com o intervalo A4:P35 (ver Figura 37). Agora, repare que a pr-visualizao indica que os dados sero importados corretamente. Por fim, basta clicar em OK e observar que o arquivo foi importado corretamente para uma nova janela de dados do IBM SPSS Statistics (ver Figura 38).

    Figura 36 | Importao do arquivo Lazer.xlsx (parte 2)

  • 35

    IBM SPSS Statistics for Windows

    Figura 37 | Importao do arquivo Lazer.xlsx (parte 3)

    Figura 38 | Resultado final da importao do arquivo Lazer.xlsx

  • 36

    IBM SPSS Statistics for Windows

    Em termos de exportao, os dados da janela de dados podem ser armazenados sob diversos formatos, tenha ele sido gerado atravs do IBM SPSS Statistics ou de qualquer outro aplicativo; para isso, a partir do dataset no qual o arquivo (pesquisa.csv ou Lazer.xlsx) foi importado, entramos no menu Arquivo e clicamos em Salvar ou Salvar Como... Aparecer uma tela (ver Figura 39) semelhante janela para abertura de arquivos, onde especificamos novamente disco e subdiretrios, o nome do arquivo, e a forma sob a qual o arquivo deve ser salvo abrindo o menu Salvar como tipo (canto inferior esquerdo). O padro o formato IBM SPSS Statistics (extenso .sav).

    Figura 39 | Janela para salvar arquivos de dados

    Outra opo, por exemplo, salvar o arquivo no formato do Microsoft Excel (extenses .xls ou .xlsx, que podem ser escolhidas no menu Salvar como tipo), com a opo de salvar apenas os valores numricos ou apenas seus rtulos (no caso de variveis categricas): basta selecionar a caixa Salvar rtulos de valor onde definido em vez dos valores de dados. Esta ltima opo a ideal para a converso do formato SPSS para o Excel, uma vez que as variveis categricas sero salvas apenas com seus rtulos e no com sua codificao numrica. Alternativamente, voc pode utilizar a opo Exportar do menu Arquivo para salvar diretamente os dados em um formato especfico da sua preferncia.

    Para maiores detalhes sobre importao e exportao de bancos de dados, bem como mais detalhes das outras opes do Assistente de Importao de Texto, consulte a Ajuda do IBM SPSS Statistics.

  • 37

    IBM SPSS Statistics for Windows

    Figura 40 | Seleo de variveis para recodificao

    03 Transformao de dados03.1 Recodificao utilizando o procedimento Categorizao Visual

    Utilizaremos aqui um recurso muitas vezes necessrio e que antecede a anlise estatstica propriamente dita. A recodificao de variveis pode ser usada, entre outras coisas, para criar faixas de valores baseadas em variveis j existentes. Um exemplo tpico ter interesse em estudar a faixa etria das pessoas em um estudo onde a informao disponvel originalmente a idade. Para isso, vamos abrir o arquivo Lazer.sav.

    No nosso exemplo, criaremos essa varivel representando a faixa etria a partir da varivel idade. Nossa ideia construir tal varivel de acordo com a seguinte diviso por faixas:

    Valores Atuais (Idade) Valores Futuros (Faixa Etria)

    45 anos 4

    Para fazer uma recodificao no IBM SPSS Statistics, entre no menu Transformar e escolha a opo Categorizao Visual (Visual Binning). O comando Categorizao Visual foi criado com o objetivo de auxiliar o processo de criao de novas variveis em categorias (faixa de valores) baseadas no agrupamento de variveis numricas (escalares ou ordinais) j existentes.

    No primeiro passo da Categorizao Visual, devemos informar uma varivel numrica a ser recodificada (no caso, idade). Para isso, basta clicar na varivel idade e mov-la, clicando na seta logo ao lado, para o quadro Variveis para categorizao (ver Figura 40).

    Opcionalmente, podemos limitar a quantidade de casos que sero lidos pelo IBM SPSS Statistics utilizando a opo Nmero limite de casos verificados para: Clique em Continuar.

    Devemos, tambm, dar um nome para a nova varivel que ser criada atravs do quadro Varivel categorizada no canto superior direito. No espao reservado ao nome da nova varivel (Nome), digitamos faixaet. Podemos ainda criar um rtulo para a nova varivel faixaet (por exemplo, Faixa Etria), preenchendo o quadro Rtulo ao lado do nome da varivel (ver Figura 41).

  • 38

    IBM SPSS Statistics for Windows

    Figura 41 | Recodificao da varivel IDADE

    Falta agora informar ao IBM SPSS Statistics as condies da recodificao. No quadro Grade, temos que especificar os valores da antiga varivel que determinaro os valores da nova varivel, para isso digitamos os valores finais de cada faixa (ponto de corte) no campo Valor (como padro, o ponto de corte HIGH automaticamente includo). A opo Terminais superiores dever ser utilizada em conjunto com o campo Valor para determinar a faixa que o ponto de corte ser colocado. Por exemplo: Se colocarmos o ponto de corte 25 na primeira faixa e escolhermos a opo Includo (

  • 39

    IBM SPSS Statistics for Windows

    Figura 42 | Rtulos inseridos automaticamente atravs da opo Criar Rtulos

    Desta maneira, a definio da nova varivel faixaet est encerrada. Clicando em OK, o IBM SPSS Statistics exibir um aviso que indica a quantidade de variveis que sero criadas pela Categorizao Visual - basta clicar em OK para que o comando seja concludo. A nova varivel passa a existir e aparece na ltima coluna do arquivo. Ela assume os valores 1, 2, 3 e 4 com os respectivos rtulos associados a estes valores.

    03.2 Recodificao automtica de variveis alfanumricas (string)

    Outro recurso para recodificao presente no IBM SPSS Statistics a Recodificao Automtica (Automatic Recode). Atravs deste procedimento, podemos transformar variveis do tipo alfanumricas (string) ou numricas em variveis numricas consecutivas j codificadas (com rtulos associados). O IBM SPSS Statistics ordena em ordem alfabtica (crescente ou decrescente) os valores da varivel selecionada, relacionando o nmero 1 ao primeiro valor e assim por diante, at o ltimo valor. A nova varivel ser numrica, assumindo desde o valor 1 at o nmero total de valores (ou cadeia de caracteres) existentes, alm de assumir os antigos valores (alfanumricos ou numricos originais) como rtulos da nova varivel numrica.

    Por exemplo: suponha que desejamos transformar a varivel cidade (que alfanumrica) do nosso banco de dados Lazer.sav numa varivel numrica. Se quisermos fazer determinadas anlises usando a cidade de origem, teremos que executar esse procedimento.

    Para isso, basta usar a opo Recodificao Automtica presente no menu Transformar. Uma janela (ver Figura 43) aberta e a primeira coisa a fazer mover a varivel a ser recodificada para o quadro central Varivel Novo nome. No nosso caso, moveremos a varivel cidade. Como outra coluna ser criada para armazenar a nova varivel, preciso dar um nome para essa coluna digamos, cidade2. Devemos colocar essa informao no retngulo logo abaixo do quadro central e clicar em Incluir Novo Nome.

  • 40

    IBM SPSS Statistics for Windows

    Devemos definir tambm a ordem da recodificao, que pode ser em ordem alfabtica crescente ou decrescente, usando uma das opes: Recodificar iniciando em: Valor mais baixo (ordem crescente) ou Valor mais alto (ordem decrescente). No nosso exemplo, manteremos o padro Valor mais baixo.

    Com a opo Usar o mesmo esquema de recodificao para todas as variveis, podemos aproveitar a mesma recodificao para outras variveis (todas as variveis selecionadas ficaro com os mesmos rtulos de valores). Com a opo Tratar valores da sequncia de caracteres em branco como omissos de usurio, os valores brancos ou nulos nas variveis do tipo string sero tratados como missing e no entraro na recodificao. Alm disso, podemos salvar um modelo (template) da recodificao (opo Salvar modelo como) e aproveit-lo em outras recodificaes (opo Aplicar modelo como). Finalmente, clique em OK.

    Feito isso, o resultado da recodificao ser mostrado na janela de sadas (ver Figura 44). Note que, antes da recodificao, a varivel cidade assumia os valores So Paulo, Rio de Janeiro e Braslia. Aps a recodificao, a nova varivel criada (cidade2) assume os valores 1, 2 e 3 j com os rtulos relacionados (lado direito).

    Figura 43 | Recodificao automtica de variveis do tipo string

  • 41

    IBM SPSS Statistics for Windows

    Figura 44 | Resultado da Recodificao Automtica

    03.3 Clculo de novas variveis usando o procedimento Calcular Varivel

    Vamos agora estudar outro recurso de transformao de dados: a criao de uma nova varivel como funo de variveis j existentes atravs do comando Calcular Varivel (Compute Variable). Com este comando, possvel criar variveis numricas ou alfanumricas (string) baseadas em outras variveis da base de dados. Por exemplo, podemos criar uma varivel que traga apenas o primeiro nome de um cliente (caso exista a varivel nome na base de dados) ou at mesmo calcular o percentual de aumento a partir de variveis que indiquem salrio anterior e salrio atual, entre outros. Consulte a Ajuda do IBM SPSS Statistics para conhecer todas as funes existentes no comando Calcular Varivel.

    No nosso exemplo, vamos utilizar as variveis trabalho e lazer, presentes no arquivo Lazer.sav. Nosso interesse investigar qual a porcentagem de lazer em relao s horas gastas com trabalho mais lazer. Por exemplo, se a pessoa trabalha 60 horas por semana e gasta 20 horas com lazer, ela gasta 25% do tempo dela de trabalho ou lazer, por semana, com lazer. Para chegar a este nmero, a operao que fizemos foi muito simples: somam-se as horas semanais de trabalho e lazer (trabalho+lazer); divide-se o nmero de horas semanais de lazer por essa soma (lazer/(trabalho+lazer) e multiplica-se o resultado por 100.

    Nosso objetivo agora criar no banco de dados uma nova varivel, com nome p_lazer, que contenha a informao desejada. Para isso, basta entrar no menu Transformar e clicar na opo Calcular Varivel. Uma janela (ver Figura 45) aberta com as seguintes caractersticas: um quadro no canto esquerdo apresenta uma lista com todas as variveis existentes no banco de dados que podem ser usadas para o clculo da nova varivel, para selecion-las basta clicar a seta ao lado; um quadro no canto superior esquerdo designado por Varivel de resposta, onde digitaremos o nome da varivel a ser criada; um quadro direita na parte superior designado por Expresso numrica, onde devemos escrever a funo (envolvendo as variveis j existentes no arquivo) que permitir o clculo da nova varivel numrica ou string.

    No quadro central, existe uma srie de botes que contm desde funes matemticas (+, -, *, etc.) at funes lgicas (&, |, etc.); e, no quadro inferior direito, as funes divididas em Grupo de funes e Funes e variveis especiais: o primeiro mostra uma lista de grupos de funes semelhantes e o segundo lista todas as funes existentes no IBM SPSS Statistics. H uma grande quantidade de funes, desde soma e multiplicao at arco-tangente, logaritmo neperiano, entre outras que tambm podem ser utilizadas na construo de qualquer expresso numrica. Para as variveis alfanumricas (string), o comando Calcular Varivel oferece funes para concatenar, substituir e outras.

    Tambm, h a opo de fazer o clculo apenas se determinada condio for satisfeita (a partir do boto Se...); discutiremos a seleo de casos com mais detalhes no Captulo V. Caso a condio no for verificada para algum caso, o valor da nova varivel para esse caso ser um system missing (se for numrica) ou uma clula vazia (se for alfanumrica).

    No nosso caso, a expresso a ser criada (lazer/(trabalho+lazer)*100. Selecionamos a varivel lazer do quadro esquerdo, clicamos o smbolo / presente no quadro central da janela; em seguida clicamos no smbolo ( ), selecionamos a varivel lazer, o smbolo + e a varivel trabalho; agora basta clicar o smbolo * e o nmero 100. Poderamos, ainda, ter escrito a expresso digitando diretamente no quadro Expresso numrica. A Figura III-6 mostra o resultado final da digitao na janela.

  • 42

    IBM SPSS Statistics for Windows

    Figura 45 | Menu Transformar Calcular Varivel

    Vale observar que os smbolos especiais ** (potncia), > (maior que), < (menor que), >= (maior ou igual a), = 40 no campo Expresso numrica e, finalmente, digite o nome grupo no campo Varivel de resposta (ver Figura III-7). A seguir, clique em OK e repare que a nova varivel foi criada e est no final do arquivo Lazer.sav.

  • 43

    IBM SPSS Statistics for Windows

    Figura 46 | Criao da varivel GRUPO via Calcular Varivel

    No IBM SPSS Statistics, uma sentena condicional recebe o valor numrico 1 (um) se for verdadeira (TRUE) ou o valor numrico 0 (zero) se for falsa (FALSE). Sendo assim, se um indivduo tiver menos de 40 anos de idade, seu valor para a varivel idoso ser 0. No nosso exemplo, apenas um indivduo recebeu o valor 1 para idoso. Vale observar que, caso o valor de uma varivel envolvida em determinada condio seja system missing, o comando Calcular Varivel criar um valor system missing para o(s) respectivo(s) caso(s) com valores ausentes. O resultado final da criao das duas variveis (p_lazer e grupo) est na Figura 47.

    Como ltimo exemplo desta seo, trabalharemos com variveis alfanumricas (string) a partir de duas funes simples, mas de relativa importncia para quem manipula sequncias de caracteres com frequncia. Para tanto, vamos utilizar o arquivo de dados Worldsales.sav, que possui uma varivel que identifica em qual continente cada um dos trs tipos de produto (A, B ou C) foi comprado no caso, a varivel Continente.

    Suponhamos que haja interesse em criar uma varivel que represente uma sigla de trs letras para cada continente, a partir das primeiras trs letras de cada nome; portanto, a Europa (Europe) receberia a sigla EUR; a Amrica do Sul (South America) receberia a sigla SOU, e assim por diante. Repare tambm que as trs letras que formam cada valor desta varivel sigla devem estar em caixa alta (upper case).

    Para isso, usaremos novamente o comando Calcular Varivel. Digite o nome sigla no campo Varivel de resposta. A seguir, escolha a opo Sequncia de caracteres na caixa Grupo de funes e clique duas vezes na funo Upcase, localizada dentro da caixa Funes e variveis especiais (veja Figura 47). A funo UPCASE converte todas as letras minsculas de seu argumento (que deve ser uma varivel alfanumrica) em maisculas. Repare que h uma

  • 44

    IBM SPSS Statistics for Windows

    breve explicao sobre o comando no canto inferior da janela e um ponto de interrogao entre os parnteses, do lado direito da funo UPCASE, indicando que apenas um argumento necessrio.

    Figura 47 | Criao da varivel SIGLA via Calcular Varivel Passo 1

    Agora, vamos escolher a funo que corta a varivel da forma que queremos: entre os parnteses da funo UPCASE, elimine o ponto de interrogao e inclua a funo Char.Substr (3) clique duas vezes no nome da funo, localizado dentro da caixa Funes e variveis especiais (ver Figura 48). Repare que a funo CHAR.SUBSTR que selecionamos requer trs argumentos: a varivel alfanumrica da qual extrairemos uma subsequncia de caracteres; a posio inicial dessa subsequncia e o tamanho desta subsequncia.

  • 45

    IBM SPSS Statistics for Windows

    Figura 49 | Criao da varivel SIGLA via Calcular Varivel Passo final

    Como retiraremos as primeiras trs letras da varivel Continente, nada mais natural que estes trs argumentos sejam, nesta ordem: Continente (nome da varivel), 1 (posio inicial da subsequncia) e 3 (tamanho da subsequncia). Na Figura 50, mostramos como os argumentos devem ser colocados na funo.

    Antes de clicar em OK, assegure-se de que a opo Sequncia de caracteres esteja marcada na tela do boto Tipo e Rtulo, bem como o tamanho mximo da nova varivel (Largura) esteja ajustado para qualquer valor maior ou igual a 3. Clique em Continuar e, depois, em OK. O resultado final para a varivel criada est na Figura 51.

  • 46

    IBM SPSS Statistics for Windows

    Para mais detalhes sobre funes de variveis alfanumricas (string functions) e como funciona a codificao de arquivos dentro do IBM SPSS Statistics, consulte a ajuda do IBM SPSS Statistics ou a seo String Functions da Referncia de Sintaxe do Comando, localizada dentro do menu Ajuda.

    Figura 50 | Arquivo Lazer.sav com as duas variveis criadas via Calcular Varivel

    Figura 51 | Arquivo Worldsales.sav com a varivel criada (SIGLA) via Calcular Varivel

    03.4 Clculo de datas atravs do Assistente de Data e Hora

    Outro recurso bem interessante no IBM SPSS Statistics o Assistente de Data e Hora (Date and Time Wizard), um assistente que simplifica a criao de novas variveis e os clculos envolvendo variveis no formato data. No nosso exemplo, utilizaremos o arquivo Banco.sav.

    Para acessar o assistente, basta entrar no menu Transformar e clicar na opo Assistente de Data e Hora (ver Figura 52). Na tela inicial, voc poder escolher o que voc deseja realizar e, na sequncia, seguir os passos indicados para concluir a tarefa.

  • 47

    IBM SPSS Statistics for Windows

    Figura 52 | Assistente de Data e Hora Tela inicial

    Utilizando esse assistente, possvel aprender como as datas e as horas so representadas no IBM SPSS Statistics; criar uma varivel no formato data/hora a partir de uma varivel alfanumrica (string) ou numrica que contenha data ou hora; realizar clculos envolvendo data ou hora; extrair parte de uma data ou hora, ou criar uma varivel que indique periodicidade, elemento fundamental nas anlises de Sries Temporais.

    Uma das tarefas mais comuns envolvendo variveis de data o clculo da idade a partir da data de nascimento da pessoa. O arquivo Banco.sav contm diversas informaes de funcionrios de uma empresa, incluindo a data de nascimento, e o nosso objetivo nesse caso calcular a idade de cada funcionrio utilizando o Assistente de Data e Hora.

    Para isso, basta entrar no menu Transformar e clicar na opo Assistente de Data e Hora. Na janela inicial do assistente, escolheremos a opo Calcular com datas e horas e, em seguida, clicaremos em Prximo. No Passo 1, escolhemos a segunda opo, Calcular o nmero de unidades de tempo entre duas datas (ver Figura 53), e, a seguir, clicamos em Prximo.

    Na sequncia, no Passo 2, devemos informar ao IBM SPSS Statistics as duas variveis que sero utilizadas para calcular a idade e, tambm, a unidade de durao que voc precisa no resultado. No nosso caso, utilizaremos a data de nascimento datanasc (que ser colocada no campo menos Data2) e, para representar a data atual (de acordo com o que est ajustado no seu computador), utilizaremos a varivel $TIME (que ser colocada no campo Data1). Os resultados podem ser representados em unidades de anos, meses, dias, horas, minutos ou segundos; vamos escolher a opo Anos na rea Unidade (ver Figura 54). A seguir, clicamos em Prximo.

  • 48

    IBM SPSS Statistics for Windows

    Figura 53 |: Assistente de Data e Hora Passo 1

    Figura 54 | Assistente de Data e Hora Passo 2

  • 49

    IBM SPSS Statistics for Windows

    Figura 55 | Assistente de Data e Hora Passo 3

    Figura 56 | Resultado do clculo da varivel IDADE

    No Passo 3, entre com o nome da varivel que indicar o resultado - nesse caso idade e, caso voc queira, tambm pode ser definido um rtulo para a nova varivel. Caso voc no queira criar a varivel na base de dados automaticamente (opo Criar a varivel agora), voc pode escolher a opo Colar a sintaxe na janela de sintaxe para criar a sintaxe que representa o comando que acabamos de definir para futuro uso ou modificao (ver Figura 55). Vamos escolher a opo Criar a varivel agora e em seguida clicar em Concluir.

    A varivel idade ser criada no final da base de dados (Figura 56). Salve a base de dados com o nome Banco1.sav.

  • 50

    IBM SPSS Statistics for Windows

    Vale observar, como ltimo comentrio deste captulo, que a varivel $TIME, assim como outras variveis internas do IBM SPSS Statistics (como $DATE, $CASENUM etc.), no podem ser criadas pela aba Visualizao de Varivel, mas podem ser acessadas via Assistente de Data e Hora, como vimos nesta seo, e via programao na janela de sintaxe.

    04 Comandos do IBM SPSS04.1 Frequncias

    Para utilizar a primeira opo de Estatstica Descritiva, clique em Frequncias. A seguir, aparecer uma janela onde voc pode incluir as variveis para as quais deseja ter a distribuio de frequncias. Vamos selecionar progtv (Qual seu tipo de programa de TV favorito?) e filme (Qual seu estilo de filme preferido?), ambas do arquivo Lazer.sav, como na Figura 57.

    Figura 57 | Procedimento Frequncias

    Na parte superior direita da janela, temos um quadro chamado Estatsticas. Esse quadro apresenta vrias opes de medidas estatsticas (ver Figura 58). Devemos tomar cuidado, uma vez que nem todas as medidas apresentadas trazem informaes relevantes para o estudo das variveis em questo. As medidas esto divididas em quatro grupos:

    Valores de Percentil - No canto superior esquerdo, essa opo possibilita o clculo dos quartis (Quartis), decis (Pontos de corte para 10 grupos iguais - voc pode mudar o nmero 10 para qualquer diviso que desejar) ou quaisquer percentis (Percentil(is)) de interesse;

    Tendncia Central - No canto superior direito, esta opo possibilita o clculo da Mdia, Mediana, Moda e Soma;

    Disperso - No canto inferior esquerdo, essa opo possibilita o clculo do Desvio Padro (Erro Desvio), Varincia, Amplitude, valor mnimo (Mnimo), valor mximo (Mximo) e erro padro da mdia (S.E. Mdia);

  • 51

    IBM SPSS Statistics for Windows

    Figura 58 | Opes de medidas estatsticas no procedimento Frequncias

    Figura 59 | Opes de grficos para o procedimento Frequncias

    Distribuio - No canto inferior direito, essa opo possibilita o clculo de duas medidas de distribuio: Curtose (Kurtosis) e Assimetria (Skewness). A curtose uma medida do achatamento da distribuio e a assimetria um ndice que reflete a simetria da distribuio em torno de um valor central.

    Devemos decidir agora, dentre todas essas medidas, aquelas que so adequadas para as variveis progtv e filme. Como ambas so nominais, apenas a moda trar alguma informao relevante. Aps selecionar a moda, clique em Continuar.

    Outro quadro que aparece na parte inferior da janela principal o Grficos. Este quadro apresenta trs grficos como opo: Histograma com ou sem uma curva normal, Grfico de barras (Bar Chart) e Grfico de pizza (Pie Chart), como mostrado na Figura 59. Note que, apesar de apresentar um menu exclusivamente para grficos (menu Grficos), o IBM SPSS Statistics tambm possibilita a construo de grficos dentro de procedimentos estatsticos. Nesse exemplo, vamos escolher a opo Grficos de barras e clicar em Continuar.

  • 52

    IBM SPSS Statistics for Windows

    O ltimo quadro que aparece na parte inferior da janela principal o Formato, que inclui opes de ordem esttica (ver Figura 60). Atravs do quadro Ordenar por, controlamos a ordem em que as categorias da varivel so apresentadas na janela de sadas. As opes disponveis so por ordem crescente (ou decrescente) dos valores que a varivel assume e crescente (ou decrescente) de frequncias.

    Se voc marcar a opo Suprimir tabelas com muitas categorias, o IBM SPSS Statistics no ir fazer nenhuma tabela que tiver mais do que um certo nmero de categorias, sendo que o padro 10. Finalmente, no quadro Variveis mltiplas, caso voc tenha pedido estatsticas para suas variveis, voc pode escolher que essas estatsticas saiam numa s tabela (Comparar variveis) ou uma tabela para cada varivel separadamente (Organizar sada por variveis). No nosso exemplo, vamos escolher a opo Contagens decrescentes do quadro Ordenar por.

    Figura 60 | Opes de Formato para o procedimento Frequncias

    Escolhidas todas as opes, podemos clicar em OK. Feito isso, o IBM SPSS Statistics ativar a janela de sadas e apresenta o resultado para as frequncias solicitadas (ver Figura 61).

    Voc deve perceber que duas distribuies de frequncias so apresentadas: uma para a varivel progtv e outra para filme. A distribuio de frequncias apresenta os rtulos dos valores; o nmero de observaes em cada categoria (Frequncia); a porcentagem que a frequncia representa no total de observaes levando-se em conta valores ausentes (Porcentagem); a percentagem que a frequncia representa no total de observaes desconsiderando os valores ausentes (Porcentagem Vlida) e o percentual vlido acumulado (Porcentagem Cumulativa).

    Acima da distribuio de frequncias, a moda tambm apresentada na tabela de estatsticas (lembre-se que escolhemos a opo Moda no quadro Estatsticas).

  • 53

    IBM SPSS Statistics for Windows

    Figura 61 | Resultado obtido a partir do procedimento Frequncias

    Figura 62 | Grfico de barras gerado pelo procedimento Frequncias

    Temos, ainda, os grficos de barras localizados na janela de sadas. Olhando o grfico apresentado referente varivel progtv, por exemplo, notamos com facilidade que o tipo de programa preferido filme (barra maior) e que o menos preferido programa humorstico (menor barra) como mostra a Figura 62. fcil perceber que a informao contida em um grfico muito mais simples de ser interpretada do que a informao numrica. Por este motivo, os grficos so to importantes na etapa de anlise exploratria de dados.

  • 54

    IBM SPSS Statistics for Windows

    04.2 Descritivas

    A segunda opo de Estatstica Descritiva o procedimento Descritivas. De maneira similar ao procedimento Frequncias, temos a opo de incluir as variveis que julgarmos necessrias (vamos colocar trabalho e lazer) ao quadro central Varivel(is) (ver Figura 63). Esta opo geralmente usada quando temos interesse em estudar variveis escalares de maneira rpida.

    Figura 63 | Procedimento Descritivas

    O quadro superior direito, Opes, apresenta medidas estatsticas que podem ser usadas para a descrio dos dados (ver Figura 64). Existem dois grupos de medidas idnticos aos j discutidos anteriormente na opo Estatsticas do procedimento Frequncias: Disperso e Distribuio. Alm dessas medidas, podemos pedir para o IBM SPSS Statistics apresentar a mdia e a soma das variveis em estudo. O ltimo quadro, Ordem de Exibio, permite escolher a ordem com que os resultados sero apresentados na janela de sadas: crescente ou decrescente de mdias, alfabtica ou a ordem em que as variveis aparecem na lista. Este quadro til quando estamos estudando mais do que uma varivel.

    No nosso caso podemos escolher, por exemplo, as medidas: mnimo, mximo, mdia, desvio padro e erro padro, na ordem que as variveis foram listadas (Lista de Variveis). Agora, basta clicar OK na janela principal e analisar os resultados que so apresentados na janela de sadas (ver Figura 65).

    Em mdia, as pessoas entrevistadas nesse estudo trabalham 37,9 horas por semana e tm 16,85 horas de lazer. Alm disso, o mximo de horas trabalhadas foi 70 e o mnimo 0, enquanto que o mximo de horas de lazer foi 40 e o mnimo foi duas horas.

  • 55

    IBM SPSS Statistics for Windows

    Figura 64 | Opes para o procedimento Descritivas

    Figura 65 | Resultado obtido a partir do procedimento Descritivas

    Figura 66 | Resultado obtido a partir do procedimento Descritivas

    04.3 Cubos OLAP

    A primeira opo do menu Analisar Relatrios Cubos OLAP. Este procedimento utilizado para a construo de relatrios e podem se tornar extremamente flexveis graas ao uso dos cones de organizao. A construo dos relatrios simples: basta preencher os quadros da janela mostrada na Figura 66 com as variveis desejadas. A seguir, detalharemos os quadros.

  • 56

    IBM SPSS Statistics for Windows

    No quadro Varivel(is) de sumarizao, coloque as variveis para as quais voc deseja que ele calcule medidas descritivas como mdias, somas, percentuais, mnimos, mximos, etc.; geralmente as variveis nesse quadro so quantitativas. Como exemplo, vamos colocar as variveis idade e trabalho do arquivo Lazer.sav.

    No quadro abaixo, Varivel(is) de agrupamento, coloque variveis categricas (nominais ou ordinais) para as quais voc gostaria que fossem criados subgrupos. No nosso exemplo, colocaremos as variveis sexo e estcivil.

    Clicando no boto Estatsticas, voc escolhe quais as estatsticas que sero calculadas. Como padro, temos: soma, nmero de casos, mdia, desvio-padro, percentual sobre a soma total, percentual sobre o N total; vrias outras estatsticas como mediana, mnimo, mximo e varincia, podem ser escolhidas (veja Figura 67). No nosso exemplo, removeremos a Soma e o percentual sobre a soma total (Porcentagem da Soma Total). Depois, basta clicarmos em Continuar.

    Figura 67 | Opes de estatsticas para Cubos OLAP

  • 57

    IBM SPSS Statistics for Windows

    Figura 68: Escolha de ttulo e legenda para o procedimento Cubos OLAP

    Figura 69 | Resultado gerado pelo procedimento Cubos OLAP

    Ao clicar no boto Ttulo (ver Figura 68), voc pode escolher um ttulo e uma legenda para a tabela, que podero ser modificados posteriormente. Aps a digitao do ttulo e da legenda, clique em Continuar. Agora, basta clicar no boto OK e teremos nosso relatrio como na Figura 69.

    Inicialmente, temos o nmero de casos, a mdia, o desvio-padro e o percentual sobre o nmero de casos para as variveis idade e trabalho, considerando todos os casos, independentemente de sexo, estado civil e grau de instruo. Assim, por exemplo, temos para a varivel idade que:

    O nmero de pessoas que responderam a idade 31;

    A idade mdia dessas pessoas 28,9 anos e o desvio-padro 11,31 anos;

    Elas representam 100% das pessoas que responderam a idade (por enquanto, esta coluna intil).

    Repare que o procedimento Cubos OLAP, de certa forma, uma combinao interessante dos procedimentos Frequncias e Descritivas, uma vez que h a possibilidade de analisar medidas resumo de variveis escalares a partir do cruzamento de variveis categricas, formando grupos de interesse a partir do cruzamento de categorias destas variveis.

    Exemplo de Tabela OLAP

    Sexo: Total | Estado civil: Total

    N Mdia Erro Padro % de N total

    Idade dos Entrevistados 31 28,94 11,314 100,0%

    Horas de Trabalho por Semana 30 37,900 13,4609 100,0%

  • 58

    IBM SPSS Statistics for Windows

    Vamos editar a tabela e mostrar subgrupos baseados em sexo e estado civil: clique com o boto direito do mouse na tabela e escolha a opo Editar Contedo...No Visualizador (ou d um clique duplo sobre a tabela) para ativ-la. Primeiramente, vamos selecionar apenas os homens; para isso, clique na seta ao lado da palavra Total associada a sexo e selecione masculino na lista que ir aparecer. De maneira similar, vamos selecionar a categoria solteiro em estcivil. Agora nossa anlise para a idade ficaria assim (ver Figura IV-14):

    O nmero de homens solteiros que responderam a idade 7;

    A idade mdia desses homens 20,29 anos e o desvio-padro 3,63 anos;

    Eles representam 22,6% das pessoas que responderam a idade.

    Figura 70 | Resumindo a anlise aos homens solteiros

    04.4 Tabelas de Referncia Cruzada (Crosstabs)

    A quarta opo de Estatstica Descritiva o procedimento Tabelas de Referncia Cruzada (ou Crosstabs), que utilizado para a construo de tabelas simples de dupla entrada. Imagine que temos duas variveis qualitativas e estamos interessados em observar a distribuio de frequncias de ambas em conjunto. Para isso, construmos uma tabela onde uma varivel entra com suas categorias em linhas e a outra em colunas. Podemos ento fazer um estudo descritivo sobre o comportamento conjunto das variveis. Porm, muitas vezes queremos mais do que simplesmente observar. Queremos, tambm, verificar se existe efetivamente associao entre tais variveis. Ento, precisamos utilizar testes estatsticos (anlise inferencial). Alguns desses testes estatsticos esto disponveis no procedimento Crosstabs.

    A Figura 71 mostra as opes do procedimento Crosstabs. No canto esquerdo, esto disponveis todas as variveis do banco de dados. Para construo da tabela, basta movermos a varivel cujas categorias desejamos, dispostas nas linhas para o quadro Linha(s) localizado no centro da janela, e a varivel cujas categorias desejamos, dispostas nas colunas para o quadro Coluna(s). Note que podemos colocar mais do que uma varivel nos quadros Coluna(s) e Linhas(s). Entretanto, por meio do comando Crosstabs sero construdas vrias tabelas de dupla entrada a partir da combinao das variveis duas a duas.

    Se voc deseja construir uma tabela com mais de duas entradas (envolvendo trs variveis ou mais), voc pode usar o quadro Camada(Layer); porm, voc ter opes limitadas de estatsticas e customizao. Neste caso, o mdulo IBM SPSS Custom Tables indicado, j que ele possui recursos avanados para a criao e personalizao de tabelas.

    Suponha que estamos interessados em verificar se existe alguma associao entre a crena na vida aps a morte e o gnero de um indivduo norte-americano. Para isso, abriremos o arquivo Gss2002.sav. Moveremos a varivel postlife (Crena na vida aps a morte) para o quadro Linha(s) e a varivel sex (Sexo do respondente) para o quadro Coluna(s).

  • 59

    IBM SPSS Statistics for Windows

    Figura 71 | Procedimento Tabulaes Cruzadas (Crosstabs)

    Se voc marcar a opo Exibir grficos de barras agrupadas, sero feitos grficos de barras com as variveis pedidas e a opo Suprimir tabelas far com que nenhuma tabela seja feita ou seja, apenas as estatsticas, testes e grficos pedidos sero mostrados na janela de sadas.

    Estatsticas - Deve ser usada para selecionar os testes estatsticos que sero realizados; note que so apresentados nesse quadro catorze testes estatsticos diferentes; cada um deles apropriado para verificarmos suposies diferentes sobre as variveis em questo (ver Figura 72), vamos selecionar a estatstica Qui-quadrado (Chi-square), que utilizada para testar a hiptese de que as variveis que definem as linhas e colunas so independentes;

    Clulas - Essa opo usada para escolha das medidas que sero apresentadas em cada uma das clulas da tabela (ver Figura 73, as possveis medidas apresentadas so: frequncias ou valores observados (Contagens... Observado); valores esperados, isto , frequncias calculadas assumindo que as variveis so independentes (Contagens Esperado); porcentagens por linha, coluna e total (Porcentagens, Linha, Coluna e Total respectivamente); vrios tipos de resduos, que so a diferena entre o valor observado e esperado (quadro Residuais); at mesmo como os nmeros no-inteiros sero apresentados na tabela (quadro Ponderaes sem nmeros inteiros); pediremos, para nosso exemplo, os valores observados e as porcentagens por coluna;

    Formato - Usada apenas para escolher a ordem em que as categorias (valores) da varivel apresentada nas linhas da tabela sero apresentadas (Ordem da linha), que pode ser crescente ou decrescente; no nosso exemplo, escolheremos a opo Crescente;

    O passo mais importante agora saber interpretar todos os resultados presentes na janela de sadas, seno todo o trabalho que tivemos at agora foi apenas perda de tempo!

  • 60

    IBM SPSS Statistics for Windows

    Figura 72 | Opes de Estatsticas do procedimento Crosstabs

    Figura 73 | Opes de exibio das Clulas do procedimento Crosstabs

    A Figura 74 apresenta o resultado da tabela de dupla entrada feita utilizando o procedimento Crosstabs. Note que, dentro de cada clula, so apresentados os dois valores pedidos: Contagem, que representa a frequncia, e % em SEXO DO RESPONDENTE, representando a porcentagem sobre a coluna (a varivel sex). Esta disposio pode ser facilmente modificada usando os cones de organizao como j visto; note na Figura 75 a diferena em relao

  • 61

    IBM SPSS Statistics for Windows

    Figura 74 |Sada gerada pelo procedimento Crosstabs

    Figura 75 | Opes da Bandeja de Dinamizao (Pivoting Trays)

    tabela que voc tem na tela do seu computador. A Figura 75 mostra como alterar a tabela utilizando o comando Bandeja de Dinamizao (Pivoting Trays), presente no menu Tabela Dinmica (Pivot Table) na tela de edio da tabela.

    Alm da tabela, tambm apresentada, na janela de sadas, a estatstica do teste qui-quadrado. Atravs dos valores apresentados, saberemos se existe alguma evidncia para concluir que as variveis so estatisticamente relacionadas (dependentes). Valores das estatsticas de qui-quadrado de Pearson e da razo de verossimilhana so apresentados; a mais usada e conhecida a de Pearson, que no nosso caso tem valor 16,275. Como o nvel de significncia, Significncia Assinttica (Bilateral) (ver Figura 76), associado a essa estatstica muito baixo (menor que 5%, valor de referncia utilizado na maioria dos testes estatsticos), temos evidncia suficiente para afirmar que as variveis esto relacionadas; portanto, indivduos de gneros diferentes apresentam opinies diferentes sobre a crena na vida aps a morte.

  • 62

    IBM SPSS Statistics for Windows

    Figura 76 | Teste de qui-quadrado para o cruzamento POSTLIFE x SEX

    Um ponto importante que, no mximo, 20% das clulas da tabela cruzada podem ter valores esperados menores que 5 (o que indicado na nota de rodap a). Caso esta condio no seja satisfeita, o teste qui-quadrado perde poder, ou seja, a probabilidade de detectar associao entre as variveis diminui mesmo quando a hiptese de associao verdadeira; logo, seu uso para tirar concluses sobre a associao entre duas variveis deve ser feito com cautela.

    A terceira linha da tabela nos mostra uma estatstica (Associao Linear por Linear) que mede a associao linear entre as variveis da linha e da coluna. Esta estatstica no deve ser usada para variveis nominais (nosso caso, por exemplo) e tambm chamada de estatstica Qui-quadrado de Mantel-Haenszel.

    Voc deve ter percebido que as opes disponveis em Relatrios e Estatstica Descritiva para anlise descritiva so usadas para obter diferentes informaes sobre os dados. importante lembrar que, embora o IBM SPSS Statistics seja um software muito fcil de operar, o bom senso do usurio fundamental; em outras palavras, a cada passo que pretendemos dar, preciso pensar antes se a anlise faz sentido ou no, pois se pedirmos ao IBM SPSS Statistics que calcule a mdia para a varivel estcivil do nosso arquivo Lazer.sav, ele o far, mas a resposta obtida certamente no far sentido algum.

    05 Manipulao de dados05.1 Ordenao de casos

    Antes de realizarmos qualquer anlise, comum termos que preparar os dados para que possamos obter a informao desejada. Por exemplo: Uma das necessidades na hora da manipulao dos dados em nosso dia a dia a ordenao dos casos segundo uma ou mais variveis. Para fazer isso no IBM SPSS Statistics, voc pode usar o procedimento Ordenar Casos, presente no menu Dados.

    Aps clicar no menu Dados, opo Ordenar Casos, uma janela aberta (ver Figura 77). Movemos para o quadro Ordenar por: a varivel segundo a qual o arquivo deve ser ordenado. Podemos mover para esse quadro mais do que uma varivel. Nesse caso, o arquivo ordenado, em primeiro lugar, pelos valores da primeira varivel presente no quadro e em segundo lugar pela

  • 63

    IBM SPSS Statistics for Windows

    Figura 77 | Opo Ordenar Casos do menu Dados

    segunda varivel presente no quadro; a segunda ordenao feita para os valores comuns da primeira varivel e assim por diante.

    Podemos escolher tambm entre ordem crescente ou decrescente de ordenao para cada uma das variveis. Isso feito atravs do quadro Ordenao, opes Crescente (que a opo padro do comando) ou Decrescente.

    Vamos fazer uma ordenao segundo sexo (ordem crescente) e idade (ordem decrescente) a partir do arquivo Lazer.sav. Para isso, movemos a varivel sexo para o quadro Ordenar por: e escolhemos a opo Crescente no quadro Ordenao. Movemos em seguida a varivel idade para o quadro Ordenar por: e escolhemos a opo Decrescente no quadro Ordenao. Agora, basta clicar OK para validar a ordenao.

    Voc pode notar na Figura 77 que aparece a letra A (de Ascending, ou Crescente) na frente da varivel sexo e a letra D (de Descending, ou Decrescente) na frente da varivel idade. Isso indica a ordem pela qual ser feita a ordenao para cada uma das variveis.

    A Figura 78 mostra a janela de dados aps a ordenao. Note que nas 19 primeiras linhas aparecem informaes referentes a pessoas do sexo masculino (sexo = 1); alm disso, a primeira linha do arquivo contm as informaes do homem mais velho e a linha 19 do mais jovem. As demais linhas contm as informaes das mulheres (sexo = 2) tambm ordenadas pela idade. De fato, a ordenao segue a ordem na qual as variveis foram includas na janela Ordenar Casos.

  • 64

    IBM SPSS Statistics for Windows

    Figura 78 | Janela de dados aps ordenao

    Dica sobre ordenao: Voc pode ordenar os dados direto da janela de dados sem usar a opo Ordenar Casos do menu Dados. Para isso, basta selecionar as variveis que definem a ordenao (voc pode usar as teclas CTRL ou SHIFT para selecionar vrias variveis), clicar com o boto direito do mouse no nome de qualquer uma das variveis selecionadas e escolher Ordenar em Ordem Ascendente ou Ordenar em Ordem Descendente.

    As variveis tambm podem ser ordenadas utilizando o comando Ordenar Variveis presente no menu Dados. Essa ordenao poder ser feita por nome da varivel, tipo, tamanho etc. Maiores detalhes podero ser vistos no menu de Ajuda do IBM SPSS Statistics.

    possvel tambm salvar o arquivo no momento da ordenao clicando em Salvar arquivo com dados ordenados. Porm, neste caso, possvel salvar o arquivo apenas na terminao do IBM SPSS Statistics (.sav).

    05.2 Seleo de casos

    Outra grande necessidade a seleo (temporria ou permanente) de parte do arquivo de dados. Digamos que estamos interessados em estudar um segmento especfico da amostra. O IBM SPSS Statistics possui vrias formas de seleo de dados. Falaremos nessa seo de todas elas, mas discutiremos detalhadamente a mais usada de todas. Para maiores detalhes sobre as demais formas de seleo, recomendamos a utilizao da Ajuda do IBM SPSS Statistics.

    Para fazer qualquer tipo de seleo, devemos clicar no menu Dados, opo Selecionar Casos. A janela aberta apresentada na Figura 79.

  • 65

    IBM SPSS Statistics for Windows

    Figura 79 | Opo Selecionar Casos do menu Dados

    No quadro central Selecionar, esto presentes cinco opes diferentes para seleo. Faremos a seguir uma breve descrio de cada uma delas:

    Todos os casos - Opo usada como padro; utiliza todas as observaes do banco de dados;

    Se a condio for cumprida - Atravs desta opo podemos definir expresses condicionais para seleo de casos; estudaremos esta opo detalhadamente mais adiante;

    Amostra aleatria de casos - Podemos selecionar uma porcentagem aproximada ou um nmero exato de casos dos n primeiros casos; a seleo feita aleatoriamente;

    Com base na hora ou na amplitude do caso - Usamos essa opo quando estamos interessados em selecionar uma faixa especfica de valores, por exemplo, os casos de nmero 100 at 200; tambm utilizada para fazer selees baseadas em datas (por exemplo, selecionando todos os dados do ms de fevereiro at outubro);

    Usar varivel de filtro - Escolhemos uma varivel no banco de dados e usamos como filtro; todos os casos para os quais a varivel de filtro assume o valor 0 (ou ausente, Not Selected) no sero selecionados.

  • 66

    IBM SPSS Statistics for Windows

    Voc tem trs opes para o tratamento dos casos que no sero selecionados. por meio do quadro Sada que podemos fazer a escolha:

    No incluir no filtro os casos no selecionados - Os casos (li