Download pdf - Slides SPSS

Transcript
  • Laboratrio de Estatstica III

    Recolha e Anlise de Dados

    Regina Bispo ([email protected])

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    ll

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l l

    l

    l

    l

    l l

    l

    l

    l

    l

    l l

    l

    l

    ll

    l

    ll l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l l

    l

    l

    ll

    ll

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    ll

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    ll

    ll

    l

    l

    l

    l l

    ll

    ll

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    60 40 20 0 20 40 60

    60

    40

    20

    020

    4060

    u

    v

    Distncia (m)

    pi(x)

    0 20 40 60 800.

    000.

    010.

    020.

    030.

    04

    Licenciatura em Estatstica Aplicada

    DEIO, FCUL

    2013/2014

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 1 / 122

  • Programa

    1

    Introduo

    2

    SPSS-Statistical Package for Social Sciences

    1

    Operaes bsicas. Introduo de dados e denio de variveis.

    1 A ajuda do SPSS.

    2 Nomes, tipos, rtulos, missing values, escala e formato de apresentao de variveis.

    3 A importao e exportao de dados de e para outras fontes.

    4 Introduo e edio de dados e procura de informao.

    2

    Transformao de dados

    1 Recodicao de valores.

    2 Clculo de uma nova varivel.

    3

    Explorao e cruzamento de variveis.

    1 Estatstica descritiva e representaes grcas.

    2 Cruzamentos de variveis, tabelas de contingncia e teste do Qui-quadrado.

    4

    Testes paramtricos (2 populaes).

    5

    Testes no paramtricos (2 populaes).

    6

    Correlao e regresso.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 2 / 122

  • Programa

    1

    Estatistica bsica com o R.

    1

    O essencial da linguagem R.

    1 Expresses e objectos.

    2 Funes e programao estruturada com R.

    2

    Distribuies, probabilidade e Amostragem.

    1 Funo (densidade) de probabilidade, funo de distribuio, inversa da funo de

    distribuio e gerao de vectores de observaes com um mecanismo aleatrio

    predenido.

    2 Como estimar a distribuio de uma v.a.

    3

    Estatstica descritiva e grcos.

    1 A funo genrica summary e os seus diversos mtodos.

    2 Grcos de alto nvel.Funes grcas de baixo nvel e instruces de interaco.

    3 A construco de tabelas de frequncias multivariadas.

    4

    Testes paramtricos (2 populaes).

    5

    Testes no paramtricos (2 populaes).

    6

    Correlao e regresso.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 3 / 122

  • Programa

    Mtodo de ensino: As aulas sero baseadas numa exposio terico-prtica do

    funcionamento dos softwares. A aprendizagem dos contedos apreendidos ser

    feita explorando bases de dados reais em laboratrio.

    Ateno

    Neste curso ser apresentado aos alunos o modo/lgica de funcionamento dos softwares. No ser

    (nem poderia ser) um curso exaustivo! Ser apenas exemplicado o modo de execuo de algumas das

    principais tcnicas bsicas de anlise estatstica.

    Avaliao:

    1

    Realizao de 6 trabalhos prticos na aula - anlise de dados e interpretao de

    resultados (3 em SPSS/ 3 em R) - 30% da nota (5% cada trabalho)

    2

    1 teste nal, com utilizao de computador - 70% da nota (2 horas, nota mnima

    9.5 valores)

    Bibliograa:

    1

    Crawley, M. (2008). The R book. John Wily & Sons.

    2

    Faraway, J. (2004). Linear Models with R. Chapman & Hall/CRC.

    3

    Maroco, J. (2012). Anlise Estatstica com utilizao do SPSS. Ed.ReportNumber.

    Lisboa.

    4

    Torgo, L. (2009). A linguagem R - Programao para a anlise de dados. Escolar

    Editora.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 4 / 122

  • Outras questes

    Slides, bases de dados e todo o material da cadeira disponveis no moodle

    Aulas de segunda para realizao de trabalhos prticos

    Plano de aulas

    Questes?

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 5 / 122

  • Introduo

    1

    A popularidade dos programas de anlise estatstica

    2

    Introduo ao SPSS

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 6 / 122

  • A popularidade dos programas de anlise estatstica

    Como escolher o software? A escolha de um programa de anlise estatstica de

    dados envolve a ponderao de mltiplos aspetos:

    1

    Oferece todos os mtodos que necessitamos? Se no, quo extensivel ?

    2

    O formato user-frendly? Programming vs. Point-and-click

    3

    Usa liguagem de programao?

    4

    A apresentao grca adequada e apelativa?

    5

    Consegue lidar com grandes quantidades de informao?

    6

    um programa cujo uso partilhado por colegas?

    7

    caro?

    8

    ...

    Qual o melhor/mais popular? H vrias formas de avaliar a popularidade de um

    programa:

    Nmero de discusses online ("discussion lists")

    Nmero de inscritos nestas listas

    Por inqurito

    Nmero de livros

    Impacto na atividade acadmica (nmero de vezes que aparece referenciado no

    titulo de um artigo)

    ...

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 7 / 122

  • Discussion lists

    (Fonte: Muenchen, R. A. (2013). The Popularity of Data Analysis Software.

    http://r4stats.com/articles/popularity/)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 8 / 122

  • Survey

    (Fonte: Muenchen, R. A. (2013). The Popularity of Data Analysis Software.

    http://r4stats.com/articles/popularity/)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 9 / 122

  • Nmero de livros

    (Fonte: Muenchen, R. A. (2013). The Popularity of Data Analysis Software.

    http://r4stats.com/articles/popularity/)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 10 / 122

  • Impacto na atividade academica

    (Fonte: Muenchen, R. A. (2013). The Popularity of Data Analysis Software.

    http://r4stats.com/articles/popularity/)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 11 / 122

  • Introduo ao SPSS

    1

    Um pouco de histria...

    2

    Organizao e menus

    3

    Operaes bsicas

    4

    Importao e exportao de dados

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 12 / 122

  • Introduo ao SPSS

    O SPSS um software aplicativo do tipo cientco. Originalmente o nome era

    acrnimo de Statistical Package for the Social Sciences, mas na atualidade a

    parte SPSS do nome completo do software (IBM SPSS) no tem signicado.

    Teve a sua primeira verso em 1968 e um dos programas de anlise estatstica

    mais usados nas cincias sociais

    Foi criado por Norman H. Nie, C. Hadlai Hull e Dale H. Bent. Entre 1969 e 1975

    a Universidade de Chicago por meio do National Opinion Research Center esteve

    a cargo do desenvolvimento, distribuio e venda do programa. A partir de 1975

    corresponde SPSS Inc.

    O SPSS acionado por menus, mas tambm possui uma linguagem de

    programao prpria (4GL - Fourth generation programing language).

    A sua lgica de funcionamento bastante simples e user-frendly. Compreende os

    passos bsicos:

    1

    Introduzir as variveis no editor de dados

    2

    Selecionar o procedimento de anlise

    3

    Selecionar as variveis a analisar

    4

    Escolher opes de anlise

    5

    Premir Ok

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 13 / 122

  • Introduo ao SPSS

    Para abrir o SPSS:

    Iniciar 99K Programas 99K IBM SPSS Statistics 99K IBM SPSS Statistics ...

    Duas janelas: Data view e Variable view

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 14 / 122

  • Operaes bsicas: Introduo de dados

    No SPSS a introduo dos dados comea pela denio das variveis

    Data View

    Variable View

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 15 / 122

  • Operaes bsicas: Denio de variveis

    Na denio das variveis esto disponveis 11 campos:

    1

    Name - O nome deve ter, no mximo, 8 caracteres, sem espaos nem alguns

    caracteres particulares e deve sempre comear por uma letra.

    2

    Type - Vrias opes, e.g., Numeric, String,...

    3

    With - Largura da coluna.

    4

    Decimals - N

    o

    casas decimais.

    5

    Label - Descrio da varivel (opcional).

    6

    Values - Permite codicar os valores usados em variveis qualitativas.

    7

    Missing - Codicao de missing values ou especicao de intervalo.

    8

    Columns - Dene a largura da coluna da varivel do editor de dados. Por defeito, o

    SPSS assume 8 caracteres.

    9

    Align - Alinhamento.

    10

    Measure - Escala de Medida. De acordo com Stevens (1946) as variveis podem ser

    classicadas em funo da escala usada na sua medio. Esta classicao est

    organizada em 4 nveis/escalas:

    Nominal

    Ordinal

    Intervalar 99K ScaleRazo 99K Scale11

    Role - Input, Independente; Target, Dependente;...

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 16 / 122

  • Operaes bsicas: Introduo de dados

    Denidas as variveis possvel introduzir os dados onde cada coluna corresponde

    a uma varivel e cada linha um objeto diferente (pessoa, animal,...)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 17 / 122

  • Importao de dados

    O modo mais comum e fcil de importar um conjunto de dados faz-lo atravs

    dum cheiro Excel:

    File 99K Open 99K Data

    Ficheiro em: https://www.dropbox.com/sh/03rm6r9jfrtlwwy/ALPJsvwIEZ

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 18 / 122

  • Importao de dados

    Escolher diretoria de localizao do cheiro a opo certa em File of type,

    seleccionar o cheiro a abrir e clicar em Open

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 19 / 122

  • Importao de dados

    aconselhvel que a primeira linha do cheiro Excel contenha o nome da varivel

    (em regra, uma designao alfanumrica com 8 carateres sem espaos). Esse

    facto aparece assinalado na janela seguinte:

    Clicando em OK

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 20 / 122

  • Importao de dados

    Ficheiro de dados importado (Separador Data View):

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 21 / 122

  • Importao de dados

    O separador Variable View permite visualizar as variveis includas na base de

    dados

    Esta vista inclui 11 campos:

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 22 / 122

  • Importao de dados

    Nas variveis qualitativas podemos associar descries - Value labels - aos cdigos

    numricos usados

    Clicando em none, surge um quadrado azul onde se pode clicar para introduzir os

    labels

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 23 / 122

  • Importao de dados

    Note que o SPSS atribui automaticamente uma Escala de Medida - Measure - a

    cada uma das variveis

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 24 / 122

  • Importao de dados

    Duas possibilidade de visualizao dos dados

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 25 / 122

  • Exportao de dados

    O SPSS inclui a possibilidade de exportar os dados para outros formatos,

    escolhendo o tipo de cheiro pretendido:

    File 99K Save as

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 26 / 122

  • Menus - Quick Overview

    Os comandos do SPSS esto distribudos por 11 menus:

    1

    File - Contem opes bsicas, e.g., criar e abrir cheiros, imprimir, salvar, etc.

    2

    Edit - Contem opes standard como, e.g., copiar, cortar, colar,... O subcomando

    Options permite escolher o formato, e.g., dos resultados, grcos, tabelas,...

    3

    View - Contem opes de visualizao da base de dados e personalizao da barra de

    ferramentas (Toolbars)

    4

    Data - Contem mltiplas opes para lidar com os dados

    5

    Transform - Contem mltiplas opes para transformar variveis e criar novas

    6

    Analyze - Contem todos os procedimentos de anlise estatstica disponveis na verso

    instalada

    7

    Graphs - Permite construir grcos

    8

    Utilities - Permite, e.g., identicar as variveis, descrever a base de dados, denir

    conjuntos de variveis,...

    9

    Add-ons - Fornece acesso a packages adicionais

    10

    Window - Permite selecionar a janela ativa

    11

    Help

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 27 / 122

  • Menu Data - Algumas opes particularmente utis

    Sort Cases/Sort Variables, permite ordenar : Data 99K Sort

    Transpose, trocar variveis por casos e vice-versa: Data 99K TransposeMerge Files, adicionar casos ou variveis: Data 99K Merge les

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 28 / 122

  • Menu Data - Algumas opes particularmente utis

    Select Cases, permite selecionar alguns casos de acordo com critrios denidos

    pelo utilizador: Data 99K Select cases

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 29 / 122

  • Menu Data - Algumas opes particularmente utis

    Weight Cases, permite dar pesos aos casos: Data 99K Weight cases

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 30 / 122

  • Menu Transform - Algumas opes particularmente utis

    Compute, permite criar novas variveis: Transform 99K Compute variable

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 31 / 122

  • Menu Transform - Algumas opes particularmente utis

    Recode, permite recodicar categorias qualitativas, na mesma varivel ou criando

    uma nova: Transform 99K Recode into Dierent Variables 99K Old & New values

    Categorias nutricionais

    Peso normal - imc< 25Excesso de peso - 25 imc< 30Obbesidade - imc 30

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 32 / 122

  • Menu Transform - Algumas opes particularmente utis

    Visual Binning, permite categorizar variveis quantitativas: Transform 99K VisualBinning

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 33 / 122

  • Menu Transform - Algumas opes particularmente utis

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 34 / 122

  • Menu Graphs

    O SPSS permite criar grcos de vrios tipos: barras, pontos, boxplots,

    histogram,...

    Na verso atual o SPSS dispes de trs subcomandos: Chart Builder, Graphboard

    Template Chooser, Legacy Dialogs

    Os grcos clssicos herdados de verses anteriores esto disponveis sob a opo

    Legacy Dialogs

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 35 / 122

  • Anlise inicial de dados

    1

    Apresentao de um estudo (exemplo)

    2

    Limpeza de dados

    3

    Anlise descritiva

    4

    Explorao da forma da distribuio

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 36 / 122

  • Exemplo

    Ao longo das aulas para trabalhar os contedos apreendidos iremos usar uma base

    de dados como exemplo

    Exemplo: Estudo sobre obesidade infantil

    Motivao:

    1

    Hoje em dia, a preveno da obesidade assim como o seu diagnstico e tratamento

    precoces so metas fundamentais para qualquer programa de sade, sobretudo em

    pediatria.

    2

    O conhecimento dos factores de risco associados ao excesso de peso e obesidade nas

    crianas tem uma particular importncia na medida em que permite uma

    interveno precoce e preventiva desta patologia.

    3

    O prvio conhecimento da probabilidade de uma criana possuir excesso de peso ou

    de ser obesa, num determinado contexto familiar, pode pois constituir uma

    ferramenta fundamental na avaliao clnica do risco de obesidade e na interveno

    clnica precoce.

    4

    Este estudo, includo num projecto mais amplo na rea da obesidade infantil, teve

    como objectivo analisar e caracterizar padres de associao entre as caractersticas

    nutricionais das crianas e as caractersticas nutricionais dos respectivos pais.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 37 / 122

  • Alguns detalhes do exemplo

    Entre Fevereiro de 2005 e Julho de 2006, foram amostradas 586 crianas de

    ambos os sexos, seguidas no programa de Sade Escolar do Centro de Sade do

    Lumiar em Lisboa, pertencentes a 4 escolas do 1

    o

    ciclo do ensino bsico, com

    idades compreendidas entre os 6 e os 10 anos.

    Informao registada:

    1

    Escola (escola, categorizada de 1 a 4)

    2

    Idade (Idade, em anos)

    3

    Sexo (categorizada em 1 - feminino e 2 - masculino)

    4

    Indice de massa corporal (imc) (varivel quantitativa, Kg/m2)

    5

    Permetro abdominal (varivel quantitativa, cm)

    6

    Permetro da anca (varivel quantitativa, cm)

    7

    Percentagem de massa gorda (varivel quantitativa, %)

    Uma informao importante a ter em conta na anlise dos dados o facto da

    caracterizao clnica da constituio nutricional de indivduos tipicamente feita

    em categorias ordinais resultantes de uma classicao baseada no ndice de

    massa corporal.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 38 / 122

  • Anlise inicial de dados

    Antes de se proceder a anlise dos dados propriamente dita, deve ter-se em conta

    alguns aspectos relacionados com a seleco das variveis e preparao dos dados

    que so passos prvios comuns a qualquer tcnica de anlise e que condicionam

    irremediavelmente todos os resultados obtidos.

    O sucesso da tcnica de anlise estatstica determinado, em primeira instncia,

    pelas variveis escolhidas para serem analisadas. Na anlise devem apenas

    incluir-se as variveis que so relevantes.

    Uma vez seleccionadas as variveis, recolhida a amostra e construda a base de

    dados deve iniciar-se o estudo por uma anlise exploratria dos dados (AED)

    Este procedimento possibilita a limpeza de dados (correco de eventuais erros de

    introduo) e permite obter uma caracterizao geral dos dados.

    Nesta fase a anlise passa pela utilizao dos procedimentos de estatstica

    descritiva incluido a construo de representaes grcas

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 39 / 122

  • Limpeza de dados

    A limpeza de dados visa detectar e remover (sempre que possvel) anomalias dos

    dados com o objectivo de melhorar a sua qualidade

    As anomalias no cheiro de dados podem corresponder a, e.g.,:

    1

    Valores fora do domnio da varivel

    2

    Valores em falta

    3

    Inconsistncia entre valores de duas (ou mais) variveis

    4

    ...

    Ateno redobrada aos duplicados, uniformizao de formatos e designaes dos

    atributos, remoo entre conitos entre domnios de variveis, etc.

    A limpeza de dados pode ser um processo manual ou semi-automtico de

    operaes realizadas sobre os dados de forma a minimizar os erros

    Uma simple anlise descritiva dos dados introduzidos ajuda a limpar algumas

    incongruncias. O SPSS possui o subcomando Reports que pode ajudar nesta

    tarefa.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 40 / 122

  • Anlise descritiva univariada

    Seguindo as opes

    Analyze 99K Reports 99K Case Summaries

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 41 / 122

  • Anlise descritiva univariada

    Em Statistics selecionaram-se

    as opes mdia, min, max,

    desvio-padro, assimetria,

    curtose e mediana

    Os resultados so fornecidos

    por grupo e tambm o total

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 42 / 122

  • Anlise descritiva univariada

    No SPSS a AED faz-se seguindo as opes

    Analyze 99K Descriptive Statistics 99K ExploreNesta fase h que seleccionar as variveis passando-as de forma adequada para a

    caixa das variveis dependentes/independentes, obtemos:

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 43 / 122

  • Anlise descritiva univariada

    Nesta caixa de dilogo tm-se 3 opes:

    1

    Statistics - permite a seleo de estatsticas

    2

    Plots - permite a seleo de grcos adequados

    3

    Options - estabelece opes para Missing values

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 44 / 122

  • Anlise descritiva univariada

    Depois de assinaladas todas as opes, clicando em OK, o SPSS fornece os

    resultados abrindo uma nova janela - Output

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 45 / 122

  • Anlise descritiva univariada

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 46 / 122

  • Anlise descritiva univariada

    possvel pedir as estatsticas de resumo para as diversas variveis num nico

    passo

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 47 / 122

  • Anlise descritiva univariada

    Para as variveis qualitativas o caminho Analyze 99K Descripitive Statistics 99KFrequencies permite obter tabelas de frequncias

    Tambm aqui possvel pedir o clculo de algumas estatsticas especicas para

    variveis quantitativas. Mas ateno, neste caso h que retirar a opo Display

    frequency tables (Como fazer tabelas de frequncias para variveis quantitativas?)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 48 / 122

  • Tabelas de contingncia

    O seguinte caminho permite criar tabelas de contingncia

    Analyze 99K Crosstabs 99K Explore

    Exact - Permite optar por procedimentos assintticos vs. exatos

    Statistics - D acesso ao clculo de estatsticas apropriadas descrio de

    associaes em tabelas de contingncia

    Cells - Permite pedir o clculo das frequncias relativas (%), esperadas e resduos

    (d ainda acesso ao teste assittico de comparao de propores, z-test)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 49 / 122

  • Correlao

    Existem mltiplos coeciente de correlao disponveis no SPSS:

    Analyze 99K Correlate 99K BivariateAnalyze 99K Descriptive statistics 99K Crosstabs: Statistics

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 50 / 122

  • Explorao da forma da distribuio

    Um dos procedimentos fundamentais na anlise estatstica consiste no estudo do

    mecanismo (distribuio) que gerou os dados, isto , na procura de um modelo

    probabilstico que represente de forma "adequada" a distribuio da varivel em

    estudo

    A importncia deste procedimento prende-se com o facto de a forma da

    distribuio subjacente condicionar os procedimentos de anlise estatstica a

    utilizar

    Dado um conjunto de observaes x

    1

    , x2

    , ..., xn

    de uma qualquer caracterstica,

    pretende-se pois testar se este conjunto de observaes pertencem a uma

    populao com funo densidade de probabilidade f (x |), onde representa ovector de parmetros a estimar a partir dos dados

    Este estudo implica genericamente os seguintes procedimentos:

    1

    Explorao grca da forma da distribuio e escolha de um modelo

    2

    Estimao dos parmetros do modelo

    3

    Avaliao do ajustamento do modelo (grcos e testes de ajustamento)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 51 / 122

  • Explorao da forma da distribuio

    Uma primeira visualizao do ajuste pode conseguir-se sobretondo as distribuies

    empirica e terica

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 52 / 122

  • Explorao da forma da distribuio

    No SPSS os procedimentos de ajuste de distribuies e estimao de parmetros

    esto englobados nos subcomandos P-P Plots e Q-Q Plots

    Analyze 99K Descriptive Statistics 99K Q-Q Plots

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 53 / 122

  • Explorao da forma da distribuio

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 54 / 122

  • Testes paramtricos

    1

    Teste ao valor mdio (Populao Gaussiana)

    2

    Testes normalidade (Kolmogorov-Smirnov e Shapiro-Wilk)

    3

    Teste de comparao de 2 valores mdios (Populaes Gaussianas)

    Amostras independentes

    Teste de comparao de varincias (Teste F)

    Aproximao de Welch

    Amostras emparelhadas

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 55 / 122

  • Teste de hipteses ao valor mdio

    1

    Hipteses

    Teste bilateral: H

    0

    : = 0

    vs. H

    1

    : 6= 0

    Teste unilateral esquerda: H

    0

    : 0

    vs. H

    1

    : < 0

    Teste unilateral direita: H

    0

    : 0

    vs. H

    1

    : > 0

    2

    Estatstica do teste

    Em populaes normais, X _ N(, ): T = X0S/n

    , com T _ t(n1) sob H0

    3

    Deciso

    Teste bilateral: ],t1/2] [t1/2;[, p = 2 P(|T | > t)

    Teste unilateral esquerda: ],t1], p = P(T < t)

    Teste unilateral direita: [t1;[, p = P(T > t)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 56 / 122

  • Teste de hipteses ao valor mdio

    No SPSS este teste est disponvel em : Analyze 99K Compare Means 99KOne-sample t-test

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 57 / 122

  • Teste de hipteses ao valor mdio

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 58 / 122

  • Testes de ajustamento normalidade

    Para testar se a varvel quantitativa em estudo tem distribuio Gaussiana em cada um

    dos grupos podemos usar testes normalidade como por exemplo:

    1

    Teste de Kolmogorov-Smirnov (com a correo de Lilliefors)

    2

    Teste de Shapiro-Wilk

    No SPSS: Analyze 99K Descriptive Statistics 99K Explore: Plots

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 59 / 122

  • Testes de ajustamento normalidade

    O teste de Kolmogorov-Smirnov baseia-se na medio da distncia entre a funo de

    distribuio emprica vericada numa amostra concreta e uma funo de distribuio

    terica que, por hiptese, se admite existir na populao (como por exemplo, a

    distribuio normal);

    2.0 2.5 3.0 3.5 4.0

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    x

    Fun

    o d

    e di

    strib

    ui

    ol

    ll

    Este teste s se aplica a observaes quantitativas e a distribuies contnuas

    completamente especicadas (isto , quando os parmetros e so especicados emH

    0

    );

    Quando e so estimados pontualmente respetivamente por x e s, deve efectuar-se oteste de KS, com correco de Lilliefors.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 60 / 122

  • Testes de ajustamento normalidade

    O teste de KS-Lilliefors, pode utilizar-se qualquer que seja o tamanho da amostra,

    embora para pequenas amostras, o teste tenda a ser conservativo e para muito

    grandes amostras, tenda a rejeitar a normalidade, mesmo quando os desvios

    normalidade sejam mnimos.

    Teste de Kolmogorov-Smirnov (ajustamento normalidade)

    Hipteses: H

    0

    : X _ N(, ) versus H1

    : X 6_ N(, )

    O teste de Shapiro-Wilk um teste de ajustamento especco para a normalidade

    alternativo ao teste de KS-Lilliefors;

    Este teste tende a produzir resultados mais veis do que o anterior,

    nomeadamente em amostras de reduzida dimenso;

    Teste de Shapiro-Wilk

    Hipteses: H

    0

    : X _ N(, ) versus H1

    : X 6_ N(, )

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 61 / 122

  • Testes de ajustamento normalidade

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 62 / 122

  • Teste de hipteses para a diferena entre valores mdios - Amostras

    independentes

    1

    Hipteses

    Teste bilateral: H

    0

    : 1

    2

    = k vs. H1

    : 1

    2

    6= kTeste unilateral esquerda: H

    0

    : 1

    2

    k vs. H1

    : 1

    2

    < k

    Teste unilateral direita: H

    0

    : 1

    2

    k vs. H1

    : 1

    2

    > k

    2

    Estatstica do teste

    Populaes normais, 1

    e 2

    desconhecidos, 1

    = 2

    =

    T = (X1X2)kS

    1

    n

    1

    + 1n

    2

    , S =

    (n1

    1)S21

    +(n2

    1)S22

    n

    1

    +n2

    2 , com T _ t(n1+n22) sob H0

    3

    Deciso

    Teste bilateral: ],t1/2] [t1/2;[, p = 2 P(|T | > t)Teste unilateral esquerda: ],t1], p = P(T < t)

    Teste unilateral direita: [t1;[, p = P(T > t)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 63 / 122

  • Teste de hipteses para a diferena entre valores mdios - Amostras

    independentes

    Para comparar dois valores mdios com base em amostras independentes: Analyze

    99K Compare means 99K Independent Samples t-test

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 64 / 122

  • Teste de hipteses para a diferena entre valores mdios - Amostras

    independentes

    Quando as varincias das duas populaes so desconhecidas e diferentes, a

    obteno da distribuio de amostragem da diferena das mdias torna-se

    problemtica, recorrendo-se aproximao de Welch passando a considerar um

    ajustamento no nmero de graus de liberdade da distribuio t-Student

    T _ t([r ]), r =

    (s

    2

    1

    n

    1

    +s

    2

    2

    n

    2

    )2

    (s21

    /n1

    )2

    n

    1

    1 +(s22

    /n2

    )2

    n

    2

    1

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 65 / 122

  • Teste de hipteses para a diferena entre valores mdios - Amostras

    emparelhadas

    1

    Hipteses

    Teste bilateral: H

    0

    : 1

    2

    = D

    vs. H

    1

    : 1

    2

    6= D

    Teste unilateral esquerda: H

    0

    : 1

    2

    D

    vs. H

    1

    : 1

    2

    < D

    Teste unilateral direita: H

    0

    : 1

    2

    D

    vs. H

    1

    : 1

    2

    > D

    2

    Estatstica do teste

    1

    e 2

    desconhecidos, populaes Gaussianas:

    T = DDS

    D

    /n

    , com T _ t(n1) sob H0

    3

    Deciso

    Teste bilateral: ],t1/2] [t1/2; +[

    Teste unilateral esquerda: ],t1]

    Teste unilateral direita: [t1; +[

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 66 / 122

  • Comparao de dois valores mdios

    Para comparar dois valores mdios com base em amostras emparelhadas: Analyze

    99K Compare means 99K Paired Samples t-test

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 67 / 122

  • Testes no paramtricos

    1

    Introduo aos testes no-paramtricos

    2

    Testes para contagens:

    1

    Teste Binomial

    2

    Teste do Qui-quadrado

    3

    Teste de Fisher

    3

    Testes no paramtricos para comparar populaes (variveis pelo menos

    ordinais): Amostras independentes:

    1

    Teste de Mann-Whitney (k=2)

    2

    Teste de Kruskall-Wallis (k>2) e comparaes mltiplas

    4

    Testes no paramtricos para comparar populaes (variveis pelo menos

    ordinais): Amostras emparelhadas:

    1

    Teste de Wilcoxon (k=2)

    2

    Teste de Friedman (k>2) e comparaes mltiplas

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 68 / 122

  • Introduo aos testes no paramtricos

    Entende-se por testes de hipteses um conjunto de procedimentos estatsticos que

    visam determinar se certas armaes (hipteses), feitas sobre uma populao (ou

    mais do que uma) so ou no suportadas pelos dados duma amostra concreta.

    Os testes de hipteses podem subdividir-se em:

    1

    Testes paramtricos so mtodos estatsticos que permitem validar ou no

    determinadas armaes feitas sobre parmetros de uma populao. Os testes

    caracterizam-se como paramtricos se satisfazem simultaneamente as seguintes

    condies:

    - se incidem explicitamente sobre um parmetro da populao (ex. valor esperado,

    , ou varincia, 2);

    - a distribuio da estatstica de teste pressupe conhecida a forma da distribuio

    na populao da varivel envolvida no estudo (ex: Normalidade das distribuies).

    2

    Testes no paramtricos denem-se por oposio aos testes paramtricos.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 69 / 122

  • Teste Binomial

    O teste Binomial geralmente utilizado para testar se as duas realizaes de uma

    variveis dicotmica so igualmente provveis, ou seja

    H

    0

    : p = 0.5 vs. H1

    : p 6= 0.5

    Mas pode tambm ser usado testando outros valores para p

    Para n sucientemente elevado pode fazer-se uma aproximao distribuio

    Normal, efetuando-se o teste proporo (assinttico)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 70 / 122

  • Teste Binomial

    O teste a uma proporo est disponvel na opo Analyze 99K Nonparametric tests99K One sample. Trs separadores: Objective/Fields/Settings

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 71 / 122

  • Teste Binomial

    No separador Fields possvel escolher a varivel dicotmica a testar

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 72 / 122

  • Teste Binomial

    No separador Settings possvel escolher o teste e algumas opes de anlise

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 73 / 122

  • Teste Binomial

    Clicando em Run obtem-se o respetivo output

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 74 / 122

  • Teste Binomial

    Clicando duas vezes seguidas em cima do quadro permite obter os detalhes da

    anlise

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 75 / 122

  • Teste Binomial

    Optando pela Condence Interval Summary View , pode visualizar-se o IC pedido

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 76 / 122

  • Teste do Qui-quadrado

    O teste do qui-quadrado (2) permite a comparao de duas (ou mais)populaes a partir de amostras independentes, quando as variveis so nominais

    Teste de homogeneidade e permite testar a independncia entre duas

    variveis nominais Teste de independncia.

    Teste de homogeneidade do qui-quadrado

    H

    0

    : As populaes de onde foram extradas as amostras so homogneas

    H

    1

    : As populaes de onde foram extradas as amostras no so homogneas

    Teste de independncia do qui-quadrado

    H

    0

    : As variveis X e Y so independentes

    H

    1

    : As variveis X e Y no so independentes

    Aplica-se a dados organizados em tabelas de contingncia:

    Varivel Y

    Varivel X 1 j c Total1 O

    11

    O1j

    O1c

    L

    1

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    l O

    l1

    Olj

    Olc

    L

    l

    Total C

    1

    Cj

    Cc

    n

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 77 / 122

  • Formulao do teste do 2

    1

    Hipteses

    Teste de homogeneidade: H

    0

    : As populaes so homogneas vs. H1

    : Aspopulaes no so homogneas

    Teste de independncia: H

    0

    : As variveis X e Y so independentes vs. H1

    : Asvariveis X e Y no so independentes

    2

    Estatstica do teste

    X

    2 =li=1

    cj=1

    (Oij

    Eij

    )2

    E

    ij

    , onde E

    ij

    =L

    i

    Cj

    n

    3

    Deciso

    A estatstica X

    2

    tem distribuio aproximada Qui-quadrado com (c 1) (l 1)g.l.

    Rejeita-se a hiptese nula quando p

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 78 / 122

  • Formulao do teste do 2 (continuao)

    Condies de aplicao do teste do qui-quadrado

    1) n > 20;

    2) Todas as frequncias esperadas > 1;

    3) Pelo menos 80% das frequncias esperadas 5.

    Quando a dimenso amostral pequena, a estatstica de teste dever ser corrigida

    para melhorar a aproximao distribuio 2: Correco de Yates

    Correco de Yates

    X

    2 =li=1

    cj=1

    (|Oij

    Eij

    | 0.5)2E

    ij

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 79 / 122

  • Teste do 2

    O teste do 2 est disponvel na opo Analyze 99K Descriptive Statistics 99KCrosstabs.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 80 / 122

  • Teste do 2

    Na opo Statistics e Exact.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 81 / 122

  • Teste do 2

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 82 / 122

  • Teste exato de Fisher

    O teste do qui-quadrado recorre a uma distribuio aproximada. Por isso, s deve

    usar-se quando esto garantidas as condies para uma boa aproximao.

    No caso das condies de aplicao do teste do qui-quadrado no se vericarem,

    deve usar-se o Teste Exato de Fisher (ou simplesmente, Teste de Fisher).

    Considerando variveis dicotmicas:

    Amostra

    Varivel 1 2 Total

    + A B A+B

    - C D C+D

    Total A+C B+D n

    Este teste permite comparar as propores: p

    1

    - proporo da categoria (+) na

    populao 1 vs. p

    2

    - proporo da categoria (+) na populao 2

    O Testes de Fisher implica clculos morosos, hoje em dia facilmente ultrapassados

    por recurso a software apropriado (ex. SPSS/R)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 83 / 122

  • Formulao do teste de Fisher

    1

    Hipteses:

    Teste bilateral: H

    0

    : p1

    = p2

    vs. H

    1

    : p1

    6= p2

    Teste unilateral esquerda: H

    0

    : p1

    p2

    vs. H

    1

    : p1

    < p2

    Teste unilateral direita: H

    0

    : p1

    p2

    vs. H

    1

    : p1

    > p2

    2

    Determinao da probabilidade exacta (p) sob H

    0

    :

    Encontrar todas as tabelas possveis, mantendo os mesmos totais marginais e

    fazendo variar a menor frequncia observada;

    Calcular para cada tabela a probabilidade exacta dada por:

    p =(A+ B)!(C + D)!(A+ C)!(B + D)!

    n!A!B!C !D!

    Calcular a probabilidade de signicncia, p, pela soma das probabilidades exactas

    associadas s tabelas com situao igual ou mais extrema do que a observada (de

    acordo com o sentido de H

    1

    ).

    3

    Deciso: Rejeita-se H

    0

    quando p

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 84 / 122

  • Teste de Fisher

    O teste de Fisher est disponvel na mesma opo do teste do 2.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 85 / 122

  • Teste de Mann-Whitney

    O teste de Mann-Whitney permite comparar duas populaes com base em

    amostras independentes no que respeita a uma varivel pelo menos ordinal.

    uma alternativa no paramtrica ao teste t-Student, quando as condies de

    aplicao deste falharem.

    Permite comparar a distribuio de probabilidade da varivel aleatria em estudo

    nas populaes de onde foram extradas as amostras:

    Teste de Mann-Whitney

    H

    0

    : FX

    (x) = FY

    (y) vs. H1

    : FX

    (x) 6= FY

    (y)

    Contudo frequente simplicar a notao e formular as hipteses em termos das

    medianas das respectivas populaes:

    Teste de Mann-Whitney

    H

    0

    : 1

    = 2

    vs. H

    1

    : 1

    6= 2

    H

    0

    : 1

    2

    vs. H

    1

    : 1

    > 2

    H

    0

    : 1

    2

    vs. H

    1

    : 1

    < 2

    Para pequenas dimenses amostrais deve optar-se por procedimentos exatos. Para

    n sucientemente grande, podem usar-se procedimentos assintticos

    (aproximao Normal)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 86 / 122

  • Teste de Mann-Whitney

    Para realizar o Teste de Mann-Whitney seguem-se as opes Analyze 99KNonparametric tests 99K Independent samples

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 87 / 122

  • Teste de Mann-Whitney

    Optando pelo teste de Mann-Whitney

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 88 / 122

  • Teste de Wilcoxon

    O teste de Wilcoxon permite comparar duas populaes com base em amostras

    emparelhadas no que respeita a uma varivel pelo menos ordinal.

    uma alternativa no paramtrica ao teste t-Student para amostras

    emparelhadas, quando as condies de aplicao deste falharem.

    Permite comparar a distribuio de probabilidade da varivel aleatria em estudo

    nas populaes de onde foram extradas as amostras. As hipteses podem por

    isso ser formuladas da seguinte forma:

    Teste de Wilcoxon

    H

    0

    : FX

    (x) = FY

    (y)H

    1

    : FX

    (x) 6= FY

    (y)

    Contudo frequente simplicar a notao e formular as hipteses em termos das

    medianas das respectivas populaes:

    Teste de Wilcoxon

    H

    0

    : 1

    = 2

    vs. H

    1

    : 1

    6= 2

    H

    0

    : 1

    2

    vs. H

    1

    : 1

    > 2

    H

    0

    : 1

    2

    vs. H

    1

    : 1

    < 2

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 89 / 122

  • Teste de Wilcoxon

    No SPSS o teste de Wilcoxon faz-se seguindo as opes Analyze 99K Nonparametrictests 99K Related samples

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 90 / 122

  • Teste de Wilcoxon

    Optando pelo teste de Wilcoxon

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 91 / 122

  • k > 2 populaes

    O teste de Kruskall-Wallis (ou abreviadamente teste KW):

    1

    permite comparar k 2 populaes com base em amostras independentes2

    aplica-se ao estudo de variveis pelo menos ordinais

    3

    a alternativa no-paramtrica ANOVA one-way, quando as condies de

    aplicao desta falharem.

    Permite comparar a distribuio de probabilidade da varivel aleatria em estudo

    nas populaes de onde foram extradas as amostras. As hipteses podem

    denir-se de um modo simplicado como:

    Teste de Kruskal-Wallis

    H

    0

    : 1

    = 2

    = ... = k

    vs. H

    1

    : i , j : i

    6= j

    (i 6= j , i , j = 1, ..., k)

    Para pequenas dimenses amostrais deve optar-se por procedimentos exatos. Para

    n sucientemente grande, podem usar-se procedimentos assintticos

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 92 / 122

  • Teste de Kruskal-Wallis

    Optando pelo teste de Kruskal-Wallis

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 93 / 122

  • Comparao mltipla de medianas

    Comparao mltipla de medianas (amostras independentes)

    H

    0

    : i

    = j

    vs. H

    1

    : i

    6= j

    (i 6= j , i , j = 1, ..., k)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 94 / 122

  • Teste de Friedman

    O teste de Friedman um teste no paramtrico que permite comparar k > 2populaes:

    1

    a partir de amostras emparelhadas

    2

    quando a varivel dependente em estudo pelo menos ordinal

    As hipteses podem denir-se de um modo simplicado como:

    Teste de Friedman

    H

    0

    : 1

    = 2

    = ... = k

    vs. H

    1

    : i , j : i

    6= j

    (i 6= j , i , j = 1, ..., k)

    Para pequenas dimenses amostrais deve optar-se por procedimentos exatos. Para

    n sucientemente grande, podem usar-se procedimentos assintticos

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 95 / 122

  • Teste de Friedman

    Exemplo de aplicao

    Num processo de seleco de 4 candidatos para um cargo de chea, foi-lhes dado 3

    testes de avaliao (A, B e C) que avaliaram as capacidades de chea, tendo-se

    registado as seguintes classicaes (de 1 a 10):

    Testes S1 S2 S3 S4

    A 9 6 3 7

    B 6 5 4 7

    C 6 2 4 5

    Com base nas pontuaes obtidas, existe algum candidato com capacidade diferente

    para o cargo em questo, ou pelo contrrio a capacidade dos 4 candidatos

    semelhante (=0.10)?

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 96 / 122

  • Teste Friedman

    O testede Friedman est disponvel na opo Analyze 99K Nonparametric tests 99KRelated samples. Trs separadores: Objective/Fields/Settings. Em Fields

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 97 / 122

  • Teste Friedman

    Em Settings

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 98 / 122

  • Teste de Friedman

    Optando pelo teste de Friedman

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 99 / 122

  • Comparaes mltiplas de medianas (amostras emparelhadas)

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 100 / 122

  • Regresso

    Regresso designa um conjunto de tcnicas estatsticas que visam avaliar a

    relao entre uma varivel dependente (tambm, por vezes, designada por varivel

    resposta) e uma ou mais variveis independentes (tambm, por vezes, designadas

    por variveis preditoras).

    Um dos principais objectivos deste procedimento encontrar a relao que

    possibilita avaliar a variao mdia que ocorre numa determinada varivel (varivel

    dependente) face alterao de outra(s) com a(s) qual(ais) se correlaciona.

    Trata-se portanto da procura uma relao estatstica e no uma relao do tipo

    causa-efeito.

    A irresistvel histria de Graham Greene (Pestana & Velosa, 2010)

    Nesta histria o narrador confessa que ele, e muitos dos seus colegas de internato, vo

    pela vida fora sem nunca se conseguirem libertar de um enorme terror sobre sexo.

    Tudo porque no internato havia um mdico que tinha uma teoria as relaes sexuais

    provocam cancro.

    Argumento irrefutvel: 100% das pessoas que morreram de cancro ou praticavam

    relaes sexuais ou eram lhas de quem tinha praticado!

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 101 / 122

  • Regresso

    Em termos genricos, a regresso:

    1

    permite caracterizar a relao entre a varivel dependente e as varivel

    independente atravs de um modelo matemtico que possibilita a previso da

    varivel dependente em funo dos valores assumidos pela varivel independente;

    2

    permite determinar a relevncia da varivel independente na previso da varivel

    dependente.

    Neste processo, indispensvel:

    1

    a seleco das variveis dependente e independente

    2

    formulao do modelo

    3

    estimao do modelo de regresso

    4

    vericao dos pressupostos (linearidade, residuos com distribuio Nomal de valor

    mdio zero e varincia constante)

    5

    avaliao da qualidade do modelo

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 102 / 122

  • Regresso

    O SPSS apresenta disponvel mltiplas opes de anlise de regresso Analyze 99KRegression

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 103 / 122

  • Regresso Linear Simples

    A Regresso Linear Simples um procedimento estatstico atravs do qual a

    variao da varivel dependente (Y ) explicada em funo da variao da

    varivel independente (X ) atravs de um modelo linear, isto , atravs da equao

    de uma recta

    Na anlise de regresso, conveniente, antes de mais, ilustrar a relao entre as

    duas variveis por meio de um diagrama de disperso

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 104 / 122

  • Regresso Linear Simples

    Para cada valor observado para a varivel independente ou preditora (X ) h um

    correspondente valor observado para a varivel dependente ou resposta (Y ). No

    entanto, o modelo linear apenas permite para cada valor de X , prever ou estimar

    um valor de Y

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 105 / 122

  • Regresso Linear Simples

    Os valores estimados para Y (Y ) so obtidos mediante o uso da equao da uma

    reta

    Y

    i

    = a+ bXi

    onde a e b so os coecientes ou parmetros da regresso, respetivamente

    designados por ordenada na origem e declive

    Claro que entre os valores observados para Y e os valores estimados para Y existe

    uma diferena. Essa diferena designa-se por erro ou resduo

    i

    = Yi

    Yi

    Como estimar os coecientes da regresso? Atravs do mtodo dos mnimos

    quadrados, minimizando a funo da soma dos quadrados do erros

    S =ni=1

    i

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 106 / 122

  • Regresso Linear Simples

    Assim, a reta ajustada aos dados tal que torna mnima as discrepncias verticais

    (erros) ilustradas na gura:

    Coeciente de determinao (R

    2

    ): proporo da variabilidade total de Y

    explicada pelo modelo de regresso ajustado

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 107 / 122

  • Regresso linear simples

    At agora nada se disse relativamente a pressupostos distribucionais. Contudo, na

    anlise de regresso assume-se:

    1 i

    uma v.a. com valor mdio zero e varincia 2 (desconhecida)2 i

    uma v.a. Gaussiana: i

    N(0, )3

    Os erros so independentes

    Isto , cada resposta observada (y) assumida como proveniente de uma

    distribuio Gaussiana centrada verticalmente no valor previsto pelo modelo para

    o correspondente valor observado x . A varincia assumida constante.

    y

    TruelineIlo +(3,x

    N((30+ (3, X, 02)~~~1\

    ~~ I \I \I \

    \ -,\\

    An -----+

    observedY value(Y2)

    Xn x

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 108 / 122

  • Regresso linear simples

    Assim, para detetar violaes dos pressupostos procede-se a uma anlise dos

    resduos

    Numa primeira fase, pode efetuar-se uma anlise grca (resduos em funo dos

    valores estimados para Y ), o que permite vericar:

    1

    a no-normalidade

    2

    heterocedasticidade

    3

    linearidade

    4

    existncia de outliers

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 109 / 122

  • Estudo da Nature

    Nature, Vol. 431, 2004

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 110 / 122

  • O perigo da extrapolao

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 111 / 122

  • Regresso linear simples

    Vejamos um exemplo de regresso linear simples no SPSS: Analyze 99K Regression99K Linear.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 112 / 122

  • Regresso linear simples

    Output completo:

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 113 / 122

  • Regresso linear simples

    Para analisar os resduos Analyze 99K Regression 99K Linear:Plots

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 114 / 122

  • Regresso linear simples

    Output:

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 115 / 122

  • Regresso linear simples

    Output:

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 116 / 122

  • Regresso linear simples

    Output:

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 117 / 122

  • Trabalho prtico 1

    TP1

    Objectivo: Analisar um conjunto de dados de natureza demogrca e econmica para

    algumas regies de Portugal continental e Regies autnomas (cheiro TP1.xls) .

    Genericamente, a anlise visa a explorao dos dados de forma a realar as

    caractersticas e regularidades de interesse. Para tal deve utilizar mtodos numricos

    (clculo de medidas de estatstica descritiva apropriadas) e mtodos grcos, cuja

    anlise permita evidenciar aspectos relevantes dos dados observados.

    Questes a abordar:

    Explorao dos dados originais. Estude a localizao, disperso e forma das

    diversas distribuies empricas (tenha em conta o tipo de variveis e verique a

    existncia de potenciais observaes discrepantes)

    Analise os dados transformados. Experimente e compare as transformaes:

    X

    e logX . Escolha a que lhe parecer mais adequada e proceda anlise. Ser

    justicvel a transformao dos dados? Quais as vantagens?

    Use as representaes grcas que julgue adequadas. Em particular, use boxplots

    para efetuar comparaes que lhe paream relevantes (por exemplo, Nmero de

    nados vivos vs. Nmero de bitos).

    Explore a normalidade de algumas variveis.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 118 / 122

  • Trabalho prtico 2

    TP2

    Objectivo: Pretende-se analisar algumas variveis extradas de um estudo (dados

    ctcios, cedidos por Prof. Doutora Luzia Gonalves, IHMT), realizado durante 8

    meses de 2009, num distrito de um pas africano, para avaliar a eccia de dois

    tratamentos seguidos por doentes com malria por Plasmodium vivax.

    Algumas das variveis em estudo:

    Gnero: 1 - Masc., 2 - Fem.

    Idade (anos)

    Etnia: 0 - Caucasiana; 1 - Negride; 2 - Outra

    Peso (kg)

    Febre48h: 0 - No; 1 - Sim

    Medicao48h: 0 - No; 1 - Sim

    Parasitmia (no dia da admisso, baseline, em n

    o

    de parasitas por L1)Tratamento: 0 - A; 1: A+B

    TempoNaoP (tempo at ter uma parasitmia nula)

    TempoNaoF (tempo at ter a febre controlada)

    VomitosRec: 0 - No; 1 - Sim

    ContracaoMus: 0 - No; 1 - Sim

    MedicinaTrad: 0 - No; 1 - Sim

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 119 / 122

  • Trabalho prtico 2

    Questes a estudar:

    Admita que a atribuio do tratamento A ou do tratamento A+B foi aleatria. Vericar

    se os dois grupos de doentes (que receberam o tratamento A ou o tratamento A+B) so

    semelhantes no que diz respeito as variveis: genro, idade, etnia, peso, febre nas 48

    horas anteriores, medicao prvia e parasitmia no dia da admisso.

    Estimar a proporo de doentes que admitem o recurso Medicina Tradicional em

    paralelo com o tratamento.

    Explorar a associao entre a toma de medicamentos antes do tratamento e o recurso

    Medicina Tradicional.

    Comparar os dois tratamentos no que respeita ao tempo at obter uma parasitmia nula.

    Comparar os dois tratamentos no que respeita ao tempo at ter a febre controlada.

    Avaliar se o recurso Medicina Tradicional, em paralelo com o tratamento, afectar os

    tempos de controlo da parasitmia e da febre.

    Comparar os dois tratamentos quanto aos efeitos adversos que os doentes reportaram.

    (No nal, apenas se consideraram os mais referidos: vmitos recorrentes e contraces

    musculares).

    Para cada tratamento, vericar, caso seja possvel, se a percentagem de aparecimento de

    cada um dos efeitos adversos semelhante consoante o recurso, ou no, Medicina

    Tradicional, o genro e a etnia.

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 120 / 122

  • Trabalho prtico 3

    TP3

    Objectivo: Pretende-se analisar a relao entre o nvel salarial e a antiguidade dos

    funcionrios numa certa empresa (dados ctcios).

    Variveis em estudo:

    Salrio (euros)

    Antiguidade na empresa (anos)

    Questes:

    Estime a reta de regresso que permite relacionar os salrios com a antiguidade

    dos funcionrios

    Analise a adequabilidade do modelo linear

    Faa uma anlise dos resduos

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 121 / 122

  • Trabalho prtico 1 (R)

    TP1 (R)

    Objectivo: Analisar um conjunto de dados de natureza demogrca e econmica para

    algumas regies de Portugal continental e Regies autnomas (cheiro TP1.xls).

    O script deve incluir:

    Resumo da base de dados com clculo de estatsticas amostrais (localizao e

    disperso) para todas as variveis.

    Escolha 1 varivel:

    Experimente e compare as transformaes:

    X e logX . Junte base de dados

    original as novas variveis. Apresente os boxplots da varivel original e os das

    transformadas numa matriz 1x3

    Represente gracamente a distribuio emprica e explore gracamente a

    normalidade.

    Relacione gracamente algumas variveis com a funo pairs()

    Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 122 / 122

    Apresentao da unidade curricularIntroduo ao SPSSAnlise descritivaCorrelaoTestes paramtricosUma populaoDuas populaes

    Testes no-paramtricosTestes para contagensk=2 populaesTeste de Kruskal-Wallis

    RegressoTrabalhos prticos