Laboratrio de Estatstica III
Recolha e Anlise de Dados
Regina Bispo ([email protected])
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
ll
l
l
l
l
ll
l
l
l
l
l
l
l l
l
l
l
l l
l
l
l
l
l l
l
l
ll
l
ll l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
ll
ll
ll
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
ll
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
ll
l
l
l
l
l
ll
l
l
l
l
ll
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l l
l
l
l
l
l
l
ll
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
ll
ll
l
l
l
l l
ll
ll
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
60 40 20 0 20 40 60
60
40
20
020
4060
u
v
Distncia (m)
pi(x)
0 20 40 60 800.
000.
010.
020.
030.
04
Licenciatura em Estatstica Aplicada
DEIO, FCUL
2013/2014
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 1 / 122
Programa
1
Introduo
2
SPSS-Statistical Package for Social Sciences
1
Operaes bsicas. Introduo de dados e denio de variveis.
1 A ajuda do SPSS.
2 Nomes, tipos, rtulos, missing values, escala e formato de apresentao de variveis.
3 A importao e exportao de dados de e para outras fontes.
4 Introduo e edio de dados e procura de informao.
2
Transformao de dados
1 Recodicao de valores.
2 Clculo de uma nova varivel.
3
Explorao e cruzamento de variveis.
1 Estatstica descritiva e representaes grcas.
2 Cruzamentos de variveis, tabelas de contingncia e teste do Qui-quadrado.
4
Testes paramtricos (2 populaes).
5
Testes no paramtricos (2 populaes).
6
Correlao e regresso.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 2 / 122
Programa
1
Estatistica bsica com o R.
1
O essencial da linguagem R.
1 Expresses e objectos.
2 Funes e programao estruturada com R.
2
Distribuies, probabilidade e Amostragem.
1 Funo (densidade) de probabilidade, funo de distribuio, inversa da funo de
distribuio e gerao de vectores de observaes com um mecanismo aleatrio
predenido.
2 Como estimar a distribuio de uma v.a.
3
Estatstica descritiva e grcos.
1 A funo genrica summary e os seus diversos mtodos.
2 Grcos de alto nvel.Funes grcas de baixo nvel e instruces de interaco.
3 A construco de tabelas de frequncias multivariadas.
4
Testes paramtricos (2 populaes).
5
Testes no paramtricos (2 populaes).
6
Correlao e regresso.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 3 / 122
Programa
Mtodo de ensino: As aulas sero baseadas numa exposio terico-prtica do
funcionamento dos softwares. A aprendizagem dos contedos apreendidos ser
feita explorando bases de dados reais em laboratrio.
Ateno
Neste curso ser apresentado aos alunos o modo/lgica de funcionamento dos softwares. No ser
(nem poderia ser) um curso exaustivo! Ser apenas exemplicado o modo de execuo de algumas das
principais tcnicas bsicas de anlise estatstica.
Avaliao:
1
Realizao de 6 trabalhos prticos na aula - anlise de dados e interpretao de
resultados (3 em SPSS/ 3 em R) - 30% da nota (5% cada trabalho)
2
1 teste nal, com utilizao de computador - 70% da nota (2 horas, nota mnima
9.5 valores)
Bibliograa:
1
Crawley, M. (2008). The R book. John Wily & Sons.
2
Faraway, J. (2004). Linear Models with R. Chapman & Hall/CRC.
3
Maroco, J. (2012). Anlise Estatstica com utilizao do SPSS. Ed.ReportNumber.
Lisboa.
4
Torgo, L. (2009). A linguagem R - Programao para a anlise de dados. Escolar
Editora.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 4 / 122
Outras questes
Slides, bases de dados e todo o material da cadeira disponveis no moodle
Aulas de segunda para realizao de trabalhos prticos
Plano de aulas
Questes?
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 5 / 122
Introduo
1
A popularidade dos programas de anlise estatstica
2
Introduo ao SPSS
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 6 / 122
A popularidade dos programas de anlise estatstica
Como escolher o software? A escolha de um programa de anlise estatstica de
dados envolve a ponderao de mltiplos aspetos:
1
Oferece todos os mtodos que necessitamos? Se no, quo extensivel ?
2
O formato user-frendly? Programming vs. Point-and-click
3
Usa liguagem de programao?
4
A apresentao grca adequada e apelativa?
5
Consegue lidar com grandes quantidades de informao?
6
um programa cujo uso partilhado por colegas?
7
caro?
8
...
Qual o melhor/mais popular? H vrias formas de avaliar a popularidade de um
programa:
Nmero de discusses online ("discussion lists")
Nmero de inscritos nestas listas
Por inqurito
Nmero de livros
Impacto na atividade acadmica (nmero de vezes que aparece referenciado no
titulo de um artigo)
...
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 7 / 122
Discussion lists
(Fonte: Muenchen, R. A. (2013). The Popularity of Data Analysis Software.
http://r4stats.com/articles/popularity/)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 8 / 122
Survey
(Fonte: Muenchen, R. A. (2013). The Popularity of Data Analysis Software.
http://r4stats.com/articles/popularity/)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 9 / 122
Nmero de livros
(Fonte: Muenchen, R. A. (2013). The Popularity of Data Analysis Software.
http://r4stats.com/articles/popularity/)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 10 / 122
Impacto na atividade academica
(Fonte: Muenchen, R. A. (2013). The Popularity of Data Analysis Software.
http://r4stats.com/articles/popularity/)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 11 / 122
Introduo ao SPSS
1
Um pouco de histria...
2
Organizao e menus
3
Operaes bsicas
4
Importao e exportao de dados
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 12 / 122
Introduo ao SPSS
O SPSS um software aplicativo do tipo cientco. Originalmente o nome era
acrnimo de Statistical Package for the Social Sciences, mas na atualidade a
parte SPSS do nome completo do software (IBM SPSS) no tem signicado.
Teve a sua primeira verso em 1968 e um dos programas de anlise estatstica
mais usados nas cincias sociais
Foi criado por Norman H. Nie, C. Hadlai Hull e Dale H. Bent. Entre 1969 e 1975
a Universidade de Chicago por meio do National Opinion Research Center esteve
a cargo do desenvolvimento, distribuio e venda do programa. A partir de 1975
corresponde SPSS Inc.
O SPSS acionado por menus, mas tambm possui uma linguagem de
programao prpria (4GL - Fourth generation programing language).
A sua lgica de funcionamento bastante simples e user-frendly. Compreende os
passos bsicos:
1
Introduzir as variveis no editor de dados
2
Selecionar o procedimento de anlise
3
Selecionar as variveis a analisar
4
Escolher opes de anlise
5
Premir Ok
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 13 / 122
Introduo ao SPSS
Para abrir o SPSS:
Iniciar 99K Programas 99K IBM SPSS Statistics 99K IBM SPSS Statistics ...
Duas janelas: Data view e Variable view
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 14 / 122
Operaes bsicas: Introduo de dados
No SPSS a introduo dos dados comea pela denio das variveis
Data View
Variable View
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 15 / 122
Operaes bsicas: Denio de variveis
Na denio das variveis esto disponveis 11 campos:
1
Name - O nome deve ter, no mximo, 8 caracteres, sem espaos nem alguns
caracteres particulares e deve sempre comear por uma letra.
2
Type - Vrias opes, e.g., Numeric, String,...
3
With - Largura da coluna.
4
Decimals - N
o
casas decimais.
5
Label - Descrio da varivel (opcional).
6
Values - Permite codicar os valores usados em variveis qualitativas.
7
Missing - Codicao de missing values ou especicao de intervalo.
8
Columns - Dene a largura da coluna da varivel do editor de dados. Por defeito, o
SPSS assume 8 caracteres.
9
Align - Alinhamento.
10
Measure - Escala de Medida. De acordo com Stevens (1946) as variveis podem ser
classicadas em funo da escala usada na sua medio. Esta classicao est
organizada em 4 nveis/escalas:
Nominal
Ordinal
Intervalar 99K ScaleRazo 99K Scale11
Role - Input, Independente; Target, Dependente;...
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 16 / 122
Operaes bsicas: Introduo de dados
Denidas as variveis possvel introduzir os dados onde cada coluna corresponde
a uma varivel e cada linha um objeto diferente (pessoa, animal,...)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 17 / 122
Importao de dados
O modo mais comum e fcil de importar um conjunto de dados faz-lo atravs
dum cheiro Excel:
File 99K Open 99K Data
Ficheiro em: https://www.dropbox.com/sh/03rm6r9jfrtlwwy/ALPJsvwIEZ
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 18 / 122
Importao de dados
Escolher diretoria de localizao do cheiro a opo certa em File of type,
seleccionar o cheiro a abrir e clicar em Open
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 19 / 122
Importao de dados
aconselhvel que a primeira linha do cheiro Excel contenha o nome da varivel
(em regra, uma designao alfanumrica com 8 carateres sem espaos). Esse
facto aparece assinalado na janela seguinte:
Clicando em OK
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 20 / 122
Importao de dados
Ficheiro de dados importado (Separador Data View):
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 21 / 122
Importao de dados
O separador Variable View permite visualizar as variveis includas na base de
dados
Esta vista inclui 11 campos:
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 22 / 122
Importao de dados
Nas variveis qualitativas podemos associar descries - Value labels - aos cdigos
numricos usados
Clicando em none, surge um quadrado azul onde se pode clicar para introduzir os
labels
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 23 / 122
Importao de dados
Note que o SPSS atribui automaticamente uma Escala de Medida - Measure - a
cada uma das variveis
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 24 / 122
Importao de dados
Duas possibilidade de visualizao dos dados
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 25 / 122
Exportao de dados
O SPSS inclui a possibilidade de exportar os dados para outros formatos,
escolhendo o tipo de cheiro pretendido:
File 99K Save as
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 26 / 122
Menus - Quick Overview
Os comandos do SPSS esto distribudos por 11 menus:
1
File - Contem opes bsicas, e.g., criar e abrir cheiros, imprimir, salvar, etc.
2
Edit - Contem opes standard como, e.g., copiar, cortar, colar,... O subcomando
Options permite escolher o formato, e.g., dos resultados, grcos, tabelas,...
3
View - Contem opes de visualizao da base de dados e personalizao da barra de
ferramentas (Toolbars)
4
Data - Contem mltiplas opes para lidar com os dados
5
Transform - Contem mltiplas opes para transformar variveis e criar novas
6
Analyze - Contem todos os procedimentos de anlise estatstica disponveis na verso
instalada
7
Graphs - Permite construir grcos
8
Utilities - Permite, e.g., identicar as variveis, descrever a base de dados, denir
conjuntos de variveis,...
9
Add-ons - Fornece acesso a packages adicionais
10
Window - Permite selecionar a janela ativa
11
Help
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 27 / 122
Menu Data - Algumas opes particularmente utis
Sort Cases/Sort Variables, permite ordenar : Data 99K Sort
Transpose, trocar variveis por casos e vice-versa: Data 99K TransposeMerge Files, adicionar casos ou variveis: Data 99K Merge les
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 28 / 122
Menu Data - Algumas opes particularmente utis
Select Cases, permite selecionar alguns casos de acordo com critrios denidos
pelo utilizador: Data 99K Select cases
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 29 / 122
Menu Data - Algumas opes particularmente utis
Weight Cases, permite dar pesos aos casos: Data 99K Weight cases
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 30 / 122
Menu Transform - Algumas opes particularmente utis
Compute, permite criar novas variveis: Transform 99K Compute variable
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 31 / 122
Menu Transform - Algumas opes particularmente utis
Recode, permite recodicar categorias qualitativas, na mesma varivel ou criando
uma nova: Transform 99K Recode into Dierent Variables 99K Old & New values
Categorias nutricionais
Peso normal - imc< 25Excesso de peso - 25 imc< 30Obbesidade - imc 30
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 32 / 122
Menu Transform - Algumas opes particularmente utis
Visual Binning, permite categorizar variveis quantitativas: Transform 99K VisualBinning
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 33 / 122
Menu Transform - Algumas opes particularmente utis
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 34 / 122
Menu Graphs
O SPSS permite criar grcos de vrios tipos: barras, pontos, boxplots,
histogram,...
Na verso atual o SPSS dispes de trs subcomandos: Chart Builder, Graphboard
Template Chooser, Legacy Dialogs
Os grcos clssicos herdados de verses anteriores esto disponveis sob a opo
Legacy Dialogs
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 35 / 122
Anlise inicial de dados
1
Apresentao de um estudo (exemplo)
2
Limpeza de dados
3
Anlise descritiva
4
Explorao da forma da distribuio
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 36 / 122
Exemplo
Ao longo das aulas para trabalhar os contedos apreendidos iremos usar uma base
de dados como exemplo
Exemplo: Estudo sobre obesidade infantil
Motivao:
1
Hoje em dia, a preveno da obesidade assim como o seu diagnstico e tratamento
precoces so metas fundamentais para qualquer programa de sade, sobretudo em
pediatria.
2
O conhecimento dos factores de risco associados ao excesso de peso e obesidade nas
crianas tem uma particular importncia na medida em que permite uma
interveno precoce e preventiva desta patologia.
3
O prvio conhecimento da probabilidade de uma criana possuir excesso de peso ou
de ser obesa, num determinado contexto familiar, pode pois constituir uma
ferramenta fundamental na avaliao clnica do risco de obesidade e na interveno
clnica precoce.
4
Este estudo, includo num projecto mais amplo na rea da obesidade infantil, teve
como objectivo analisar e caracterizar padres de associao entre as caractersticas
nutricionais das crianas e as caractersticas nutricionais dos respectivos pais.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 37 / 122
Alguns detalhes do exemplo
Entre Fevereiro de 2005 e Julho de 2006, foram amostradas 586 crianas de
ambos os sexos, seguidas no programa de Sade Escolar do Centro de Sade do
Lumiar em Lisboa, pertencentes a 4 escolas do 1
o
ciclo do ensino bsico, com
idades compreendidas entre os 6 e os 10 anos.
Informao registada:
1
Escola (escola, categorizada de 1 a 4)
2
Idade (Idade, em anos)
3
Sexo (categorizada em 1 - feminino e 2 - masculino)
4
Indice de massa corporal (imc) (varivel quantitativa, Kg/m2)
5
Permetro abdominal (varivel quantitativa, cm)
6
Permetro da anca (varivel quantitativa, cm)
7
Percentagem de massa gorda (varivel quantitativa, %)
Uma informao importante a ter em conta na anlise dos dados o facto da
caracterizao clnica da constituio nutricional de indivduos tipicamente feita
em categorias ordinais resultantes de uma classicao baseada no ndice de
massa corporal.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 38 / 122
Anlise inicial de dados
Antes de se proceder a anlise dos dados propriamente dita, deve ter-se em conta
alguns aspectos relacionados com a seleco das variveis e preparao dos dados
que so passos prvios comuns a qualquer tcnica de anlise e que condicionam
irremediavelmente todos os resultados obtidos.
O sucesso da tcnica de anlise estatstica determinado, em primeira instncia,
pelas variveis escolhidas para serem analisadas. Na anlise devem apenas
incluir-se as variveis que so relevantes.
Uma vez seleccionadas as variveis, recolhida a amostra e construda a base de
dados deve iniciar-se o estudo por uma anlise exploratria dos dados (AED)
Este procedimento possibilita a limpeza de dados (correco de eventuais erros de
introduo) e permite obter uma caracterizao geral dos dados.
Nesta fase a anlise passa pela utilizao dos procedimentos de estatstica
descritiva incluido a construo de representaes grcas
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 39 / 122
Limpeza de dados
A limpeza de dados visa detectar e remover (sempre que possvel) anomalias dos
dados com o objectivo de melhorar a sua qualidade
As anomalias no cheiro de dados podem corresponder a, e.g.,:
1
Valores fora do domnio da varivel
2
Valores em falta
3
Inconsistncia entre valores de duas (ou mais) variveis
4
...
Ateno redobrada aos duplicados, uniformizao de formatos e designaes dos
atributos, remoo entre conitos entre domnios de variveis, etc.
A limpeza de dados pode ser um processo manual ou semi-automtico de
operaes realizadas sobre os dados de forma a minimizar os erros
Uma simple anlise descritiva dos dados introduzidos ajuda a limpar algumas
incongruncias. O SPSS possui o subcomando Reports que pode ajudar nesta
tarefa.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 40 / 122
Anlise descritiva univariada
Seguindo as opes
Analyze 99K Reports 99K Case Summaries
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 41 / 122
Anlise descritiva univariada
Em Statistics selecionaram-se
as opes mdia, min, max,
desvio-padro, assimetria,
curtose e mediana
Os resultados so fornecidos
por grupo e tambm o total
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 42 / 122
Anlise descritiva univariada
No SPSS a AED faz-se seguindo as opes
Analyze 99K Descriptive Statistics 99K ExploreNesta fase h que seleccionar as variveis passando-as de forma adequada para a
caixa das variveis dependentes/independentes, obtemos:
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 43 / 122
Anlise descritiva univariada
Nesta caixa de dilogo tm-se 3 opes:
1
Statistics - permite a seleo de estatsticas
2
Plots - permite a seleo de grcos adequados
3
Options - estabelece opes para Missing values
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 44 / 122
Anlise descritiva univariada
Depois de assinaladas todas as opes, clicando em OK, o SPSS fornece os
resultados abrindo uma nova janela - Output
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 45 / 122
Anlise descritiva univariada
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 46 / 122
Anlise descritiva univariada
possvel pedir as estatsticas de resumo para as diversas variveis num nico
passo
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 47 / 122
Anlise descritiva univariada
Para as variveis qualitativas o caminho Analyze 99K Descripitive Statistics 99KFrequencies permite obter tabelas de frequncias
Tambm aqui possvel pedir o clculo de algumas estatsticas especicas para
variveis quantitativas. Mas ateno, neste caso h que retirar a opo Display
frequency tables (Como fazer tabelas de frequncias para variveis quantitativas?)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 48 / 122
Tabelas de contingncia
O seguinte caminho permite criar tabelas de contingncia
Analyze 99K Crosstabs 99K Explore
Exact - Permite optar por procedimentos assintticos vs. exatos
Statistics - D acesso ao clculo de estatsticas apropriadas descrio de
associaes em tabelas de contingncia
Cells - Permite pedir o clculo das frequncias relativas (%), esperadas e resduos
(d ainda acesso ao teste assittico de comparao de propores, z-test)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 49 / 122
Correlao
Existem mltiplos coeciente de correlao disponveis no SPSS:
Analyze 99K Correlate 99K BivariateAnalyze 99K Descriptive statistics 99K Crosstabs: Statistics
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 50 / 122
Explorao da forma da distribuio
Um dos procedimentos fundamentais na anlise estatstica consiste no estudo do
mecanismo (distribuio) que gerou os dados, isto , na procura de um modelo
probabilstico que represente de forma "adequada" a distribuio da varivel em
estudo
A importncia deste procedimento prende-se com o facto de a forma da
distribuio subjacente condicionar os procedimentos de anlise estatstica a
utilizar
Dado um conjunto de observaes x
1
, x2
, ..., xn
de uma qualquer caracterstica,
pretende-se pois testar se este conjunto de observaes pertencem a uma
populao com funo densidade de probabilidade f (x |), onde representa ovector de parmetros a estimar a partir dos dados
Este estudo implica genericamente os seguintes procedimentos:
1
Explorao grca da forma da distribuio e escolha de um modelo
2
Estimao dos parmetros do modelo
3
Avaliao do ajustamento do modelo (grcos e testes de ajustamento)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 51 / 122
Explorao da forma da distribuio
Uma primeira visualizao do ajuste pode conseguir-se sobretondo as distribuies
empirica e terica
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 52 / 122
Explorao da forma da distribuio
No SPSS os procedimentos de ajuste de distribuies e estimao de parmetros
esto englobados nos subcomandos P-P Plots e Q-Q Plots
Analyze 99K Descriptive Statistics 99K Q-Q Plots
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 53 / 122
Explorao da forma da distribuio
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 54 / 122
Testes paramtricos
1
Teste ao valor mdio (Populao Gaussiana)
2
Testes normalidade (Kolmogorov-Smirnov e Shapiro-Wilk)
3
Teste de comparao de 2 valores mdios (Populaes Gaussianas)
Amostras independentes
Teste de comparao de varincias (Teste F)
Aproximao de Welch
Amostras emparelhadas
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 55 / 122
Teste de hipteses ao valor mdio
1
Hipteses
Teste bilateral: H
0
: = 0
vs. H
1
: 6= 0
Teste unilateral esquerda: H
0
: 0
vs. H
1
: < 0
Teste unilateral direita: H
0
: 0
vs. H
1
: > 0
2
Estatstica do teste
Em populaes normais, X _ N(, ): T = X0S/n
, com T _ t(n1) sob H0
3
Deciso
Teste bilateral: ],t1/2] [t1/2;[, p = 2 P(|T | > t)
Teste unilateral esquerda: ],t1], p = P(T < t)
Teste unilateral direita: [t1;[, p = P(T > t)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 56 / 122
Teste de hipteses ao valor mdio
No SPSS este teste est disponvel em : Analyze 99K Compare Means 99KOne-sample t-test
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 57 / 122
Teste de hipteses ao valor mdio
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 58 / 122
Testes de ajustamento normalidade
Para testar se a varvel quantitativa em estudo tem distribuio Gaussiana em cada um
dos grupos podemos usar testes normalidade como por exemplo:
1
Teste de Kolmogorov-Smirnov (com a correo de Lilliefors)
2
Teste de Shapiro-Wilk
No SPSS: Analyze 99K Descriptive Statistics 99K Explore: Plots
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 59 / 122
Testes de ajustamento normalidade
O teste de Kolmogorov-Smirnov baseia-se na medio da distncia entre a funo de
distribuio emprica vericada numa amostra concreta e uma funo de distribuio
terica que, por hiptese, se admite existir na populao (como por exemplo, a
distribuio normal);
2.0 2.5 3.0 3.5 4.0
0.0
0.2
0.4
0.6
0.8
1.0
x
Fun
o d
e di
strib
ui
ol
ll
Este teste s se aplica a observaes quantitativas e a distribuies contnuas
completamente especicadas (isto , quando os parmetros e so especicados emH
0
);
Quando e so estimados pontualmente respetivamente por x e s, deve efectuar-se oteste de KS, com correco de Lilliefors.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 60 / 122
Testes de ajustamento normalidade
O teste de KS-Lilliefors, pode utilizar-se qualquer que seja o tamanho da amostra,
embora para pequenas amostras, o teste tenda a ser conservativo e para muito
grandes amostras, tenda a rejeitar a normalidade, mesmo quando os desvios
normalidade sejam mnimos.
Teste de Kolmogorov-Smirnov (ajustamento normalidade)
Hipteses: H
0
: X _ N(, ) versus H1
: X 6_ N(, )
O teste de Shapiro-Wilk um teste de ajustamento especco para a normalidade
alternativo ao teste de KS-Lilliefors;
Este teste tende a produzir resultados mais veis do que o anterior,
nomeadamente em amostras de reduzida dimenso;
Teste de Shapiro-Wilk
Hipteses: H
0
: X _ N(, ) versus H1
: X 6_ N(, )
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 61 / 122
Testes de ajustamento normalidade
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 62 / 122
Teste de hipteses para a diferena entre valores mdios - Amostras
independentes
1
Hipteses
Teste bilateral: H
0
: 1
2
= k vs. H1
: 1
2
6= kTeste unilateral esquerda: H
0
: 1
2
k vs. H1
: 1
2
< k
Teste unilateral direita: H
0
: 1
2
k vs. H1
: 1
2
> k
2
Estatstica do teste
Populaes normais, 1
e 2
desconhecidos, 1
= 2
=
T = (X1X2)kS
1
n
1
+ 1n
2
, S =
(n1
1)S21
+(n2
1)S22
n
1
+n2
2 , com T _ t(n1+n22) sob H0
3
Deciso
Teste bilateral: ],t1/2] [t1/2;[, p = 2 P(|T | > t)Teste unilateral esquerda: ],t1], p = P(T < t)
Teste unilateral direita: [t1;[, p = P(T > t)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 63 / 122
Teste de hipteses para a diferena entre valores mdios - Amostras
independentes
Para comparar dois valores mdios com base em amostras independentes: Analyze
99K Compare means 99K Independent Samples t-test
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 64 / 122
Teste de hipteses para a diferena entre valores mdios - Amostras
independentes
Quando as varincias das duas populaes so desconhecidas e diferentes, a
obteno da distribuio de amostragem da diferena das mdias torna-se
problemtica, recorrendo-se aproximao de Welch passando a considerar um
ajustamento no nmero de graus de liberdade da distribuio t-Student
T _ t([r ]), r =
(s
2
1
n
1
+s
2
2
n
2
)2
(s21
/n1
)2
n
1
1 +(s22
/n2
)2
n
2
1
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 65 / 122
Teste de hipteses para a diferena entre valores mdios - Amostras
emparelhadas
1
Hipteses
Teste bilateral: H
0
: 1
2
= D
vs. H
1
: 1
2
6= D
Teste unilateral esquerda: H
0
: 1
2
D
vs. H
1
: 1
2
< D
Teste unilateral direita: H
0
: 1
2
D
vs. H
1
: 1
2
> D
2
Estatstica do teste
1
e 2
desconhecidos, populaes Gaussianas:
T = DDS
D
/n
, com T _ t(n1) sob H0
3
Deciso
Teste bilateral: ],t1/2] [t1/2; +[
Teste unilateral esquerda: ],t1]
Teste unilateral direita: [t1; +[
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 66 / 122
Comparao de dois valores mdios
Para comparar dois valores mdios com base em amostras emparelhadas: Analyze
99K Compare means 99K Paired Samples t-test
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 67 / 122
Testes no paramtricos
1
Introduo aos testes no-paramtricos
2
Testes para contagens:
1
Teste Binomial
2
Teste do Qui-quadrado
3
Teste de Fisher
3
Testes no paramtricos para comparar populaes (variveis pelo menos
ordinais): Amostras independentes:
1
Teste de Mann-Whitney (k=2)
2
Teste de Kruskall-Wallis (k>2) e comparaes mltiplas
4
Testes no paramtricos para comparar populaes (variveis pelo menos
ordinais): Amostras emparelhadas:
1
Teste de Wilcoxon (k=2)
2
Teste de Friedman (k>2) e comparaes mltiplas
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 68 / 122
Introduo aos testes no paramtricos
Entende-se por testes de hipteses um conjunto de procedimentos estatsticos que
visam determinar se certas armaes (hipteses), feitas sobre uma populao (ou
mais do que uma) so ou no suportadas pelos dados duma amostra concreta.
Os testes de hipteses podem subdividir-se em:
1
Testes paramtricos so mtodos estatsticos que permitem validar ou no
determinadas armaes feitas sobre parmetros de uma populao. Os testes
caracterizam-se como paramtricos se satisfazem simultaneamente as seguintes
condies:
- se incidem explicitamente sobre um parmetro da populao (ex. valor esperado,
, ou varincia, 2);
- a distribuio da estatstica de teste pressupe conhecida a forma da distribuio
na populao da varivel envolvida no estudo (ex: Normalidade das distribuies).
2
Testes no paramtricos denem-se por oposio aos testes paramtricos.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 69 / 122
Teste Binomial
O teste Binomial geralmente utilizado para testar se as duas realizaes de uma
variveis dicotmica so igualmente provveis, ou seja
H
0
: p = 0.5 vs. H1
: p 6= 0.5
Mas pode tambm ser usado testando outros valores para p
Para n sucientemente elevado pode fazer-se uma aproximao distribuio
Normal, efetuando-se o teste proporo (assinttico)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 70 / 122
Teste Binomial
O teste a uma proporo est disponvel na opo Analyze 99K Nonparametric tests99K One sample. Trs separadores: Objective/Fields/Settings
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 71 / 122
Teste Binomial
No separador Fields possvel escolher a varivel dicotmica a testar
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 72 / 122
Teste Binomial
No separador Settings possvel escolher o teste e algumas opes de anlise
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 73 / 122
Teste Binomial
Clicando em Run obtem-se o respetivo output
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 74 / 122
Teste Binomial
Clicando duas vezes seguidas em cima do quadro permite obter os detalhes da
anlise
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 75 / 122
Teste Binomial
Optando pela Condence Interval Summary View , pode visualizar-se o IC pedido
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 76 / 122
Teste do Qui-quadrado
O teste do qui-quadrado (2) permite a comparao de duas (ou mais)populaes a partir de amostras independentes, quando as variveis so nominais
Teste de homogeneidade e permite testar a independncia entre duas
variveis nominais Teste de independncia.
Teste de homogeneidade do qui-quadrado
H
0
: As populaes de onde foram extradas as amostras so homogneas
H
1
: As populaes de onde foram extradas as amostras no so homogneas
Teste de independncia do qui-quadrado
H
0
: As variveis X e Y so independentes
H
1
: As variveis X e Y no so independentes
Aplica-se a dados organizados em tabelas de contingncia:
Varivel Y
Varivel X 1 j c Total1 O
11
O1j
O1c
L
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
l O
l1
Olj
Olc
L
l
Total C
1
Cj
Cc
n
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 77 / 122
Formulao do teste do 2
1
Hipteses
Teste de homogeneidade: H
0
: As populaes so homogneas vs. H1
: Aspopulaes no so homogneas
Teste de independncia: H
0
: As variveis X e Y so independentes vs. H1
: Asvariveis X e Y no so independentes
2
Estatstica do teste
X
2 =li=1
cj=1
(Oij
Eij
)2
E
ij
, onde E
ij
=L
i
Cj
n
3
Deciso
A estatstica X
2
tem distribuio aproximada Qui-quadrado com (c 1) (l 1)g.l.
Rejeita-se a hiptese nula quando p
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 78 / 122
Formulao do teste do 2 (continuao)
Condies de aplicao do teste do qui-quadrado
1) n > 20;
2) Todas as frequncias esperadas > 1;
3) Pelo menos 80% das frequncias esperadas 5.
Quando a dimenso amostral pequena, a estatstica de teste dever ser corrigida
para melhorar a aproximao distribuio 2: Correco de Yates
Correco de Yates
X
2 =li=1
cj=1
(|Oij
Eij
| 0.5)2E
ij
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 79 / 122
Teste do 2
O teste do 2 est disponvel na opo Analyze 99K Descriptive Statistics 99KCrosstabs.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 80 / 122
Teste do 2
Na opo Statistics e Exact.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 81 / 122
Teste do 2
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 82 / 122
Teste exato de Fisher
O teste do qui-quadrado recorre a uma distribuio aproximada. Por isso, s deve
usar-se quando esto garantidas as condies para uma boa aproximao.
No caso das condies de aplicao do teste do qui-quadrado no se vericarem,
deve usar-se o Teste Exato de Fisher (ou simplesmente, Teste de Fisher).
Considerando variveis dicotmicas:
Amostra
Varivel 1 2 Total
+ A B A+B
- C D C+D
Total A+C B+D n
Este teste permite comparar as propores: p
1
- proporo da categoria (+) na
populao 1 vs. p
2
- proporo da categoria (+) na populao 2
O Testes de Fisher implica clculos morosos, hoje em dia facilmente ultrapassados
por recurso a software apropriado (ex. SPSS/R)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 83 / 122
Formulao do teste de Fisher
1
Hipteses:
Teste bilateral: H
0
: p1
= p2
vs. H
1
: p1
6= p2
Teste unilateral esquerda: H
0
: p1
p2
vs. H
1
: p1
< p2
Teste unilateral direita: H
0
: p1
p2
vs. H
1
: p1
> p2
2
Determinao da probabilidade exacta (p) sob H
0
:
Encontrar todas as tabelas possveis, mantendo os mesmos totais marginais e
fazendo variar a menor frequncia observada;
Calcular para cada tabela a probabilidade exacta dada por:
p =(A+ B)!(C + D)!(A+ C)!(B + D)!
n!A!B!C !D!
Calcular a probabilidade de signicncia, p, pela soma das probabilidades exactas
associadas s tabelas com situao igual ou mais extrema do que a observada (de
acordo com o sentido de H
1
).
3
Deciso: Rejeita-se H
0
quando p
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 84 / 122
Teste de Fisher
O teste de Fisher est disponvel na mesma opo do teste do 2.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 85 / 122
Teste de Mann-Whitney
O teste de Mann-Whitney permite comparar duas populaes com base em
amostras independentes no que respeita a uma varivel pelo menos ordinal.
uma alternativa no paramtrica ao teste t-Student, quando as condies de
aplicao deste falharem.
Permite comparar a distribuio de probabilidade da varivel aleatria em estudo
nas populaes de onde foram extradas as amostras:
Teste de Mann-Whitney
H
0
: FX
(x) = FY
(y) vs. H1
: FX
(x) 6= FY
(y)
Contudo frequente simplicar a notao e formular as hipteses em termos das
medianas das respectivas populaes:
Teste de Mann-Whitney
H
0
: 1
= 2
vs. H
1
: 1
6= 2
H
0
: 1
2
vs. H
1
: 1
> 2
H
0
: 1
2
vs. H
1
: 1
< 2
Para pequenas dimenses amostrais deve optar-se por procedimentos exatos. Para
n sucientemente grande, podem usar-se procedimentos assintticos
(aproximao Normal)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 86 / 122
Teste de Mann-Whitney
Para realizar o Teste de Mann-Whitney seguem-se as opes Analyze 99KNonparametric tests 99K Independent samples
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 87 / 122
Teste de Mann-Whitney
Optando pelo teste de Mann-Whitney
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 88 / 122
Teste de Wilcoxon
O teste de Wilcoxon permite comparar duas populaes com base em amostras
emparelhadas no que respeita a uma varivel pelo menos ordinal.
uma alternativa no paramtrica ao teste t-Student para amostras
emparelhadas, quando as condies de aplicao deste falharem.
Permite comparar a distribuio de probabilidade da varivel aleatria em estudo
nas populaes de onde foram extradas as amostras. As hipteses podem por
isso ser formuladas da seguinte forma:
Teste de Wilcoxon
H
0
: FX
(x) = FY
(y)H
1
: FX
(x) 6= FY
(y)
Contudo frequente simplicar a notao e formular as hipteses em termos das
medianas das respectivas populaes:
Teste de Wilcoxon
H
0
: 1
= 2
vs. H
1
: 1
6= 2
H
0
: 1
2
vs. H
1
: 1
> 2
H
0
: 1
2
vs. H
1
: 1
< 2
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 89 / 122
Teste de Wilcoxon
No SPSS o teste de Wilcoxon faz-se seguindo as opes Analyze 99K Nonparametrictests 99K Related samples
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 90 / 122
Teste de Wilcoxon
Optando pelo teste de Wilcoxon
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 91 / 122
k > 2 populaes
O teste de Kruskall-Wallis (ou abreviadamente teste KW):
1
permite comparar k 2 populaes com base em amostras independentes2
aplica-se ao estudo de variveis pelo menos ordinais
3
a alternativa no-paramtrica ANOVA one-way, quando as condies de
aplicao desta falharem.
Permite comparar a distribuio de probabilidade da varivel aleatria em estudo
nas populaes de onde foram extradas as amostras. As hipteses podem
denir-se de um modo simplicado como:
Teste de Kruskal-Wallis
H
0
: 1
= 2
= ... = k
vs. H
1
: i , j : i
6= j
(i 6= j , i , j = 1, ..., k)
Para pequenas dimenses amostrais deve optar-se por procedimentos exatos. Para
n sucientemente grande, podem usar-se procedimentos assintticos
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 92 / 122
Teste de Kruskal-Wallis
Optando pelo teste de Kruskal-Wallis
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 93 / 122
Comparao mltipla de medianas
Comparao mltipla de medianas (amostras independentes)
H
0
: i
= j
vs. H
1
: i
6= j
(i 6= j , i , j = 1, ..., k)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 94 / 122
Teste de Friedman
O teste de Friedman um teste no paramtrico que permite comparar k > 2populaes:
1
a partir de amostras emparelhadas
2
quando a varivel dependente em estudo pelo menos ordinal
As hipteses podem denir-se de um modo simplicado como:
Teste de Friedman
H
0
: 1
= 2
= ... = k
vs. H
1
: i , j : i
6= j
(i 6= j , i , j = 1, ..., k)
Para pequenas dimenses amostrais deve optar-se por procedimentos exatos. Para
n sucientemente grande, podem usar-se procedimentos assintticos
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 95 / 122
Teste de Friedman
Exemplo de aplicao
Num processo de seleco de 4 candidatos para um cargo de chea, foi-lhes dado 3
testes de avaliao (A, B e C) que avaliaram as capacidades de chea, tendo-se
registado as seguintes classicaes (de 1 a 10):
Testes S1 S2 S3 S4
A 9 6 3 7
B 6 5 4 7
C 6 2 4 5
Com base nas pontuaes obtidas, existe algum candidato com capacidade diferente
para o cargo em questo, ou pelo contrrio a capacidade dos 4 candidatos
semelhante (=0.10)?
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 96 / 122
Teste Friedman
O testede Friedman est disponvel na opo Analyze 99K Nonparametric tests 99KRelated samples. Trs separadores: Objective/Fields/Settings. Em Fields
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 97 / 122
Teste Friedman
Em Settings
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 98 / 122
Teste de Friedman
Optando pelo teste de Friedman
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 99 / 122
Comparaes mltiplas de medianas (amostras emparelhadas)
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 100 / 122
Regresso
Regresso designa um conjunto de tcnicas estatsticas que visam avaliar a
relao entre uma varivel dependente (tambm, por vezes, designada por varivel
resposta) e uma ou mais variveis independentes (tambm, por vezes, designadas
por variveis preditoras).
Um dos principais objectivos deste procedimento encontrar a relao que
possibilita avaliar a variao mdia que ocorre numa determinada varivel (varivel
dependente) face alterao de outra(s) com a(s) qual(ais) se correlaciona.
Trata-se portanto da procura uma relao estatstica e no uma relao do tipo
causa-efeito.
A irresistvel histria de Graham Greene (Pestana & Velosa, 2010)
Nesta histria o narrador confessa que ele, e muitos dos seus colegas de internato, vo
pela vida fora sem nunca se conseguirem libertar de um enorme terror sobre sexo.
Tudo porque no internato havia um mdico que tinha uma teoria as relaes sexuais
provocam cancro.
Argumento irrefutvel: 100% das pessoas que morreram de cancro ou praticavam
relaes sexuais ou eram lhas de quem tinha praticado!
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 101 / 122
Regresso
Em termos genricos, a regresso:
1
permite caracterizar a relao entre a varivel dependente e as varivel
independente atravs de um modelo matemtico que possibilita a previso da
varivel dependente em funo dos valores assumidos pela varivel independente;
2
permite determinar a relevncia da varivel independente na previso da varivel
dependente.
Neste processo, indispensvel:
1
a seleco das variveis dependente e independente
2
formulao do modelo
3
estimao do modelo de regresso
4
vericao dos pressupostos (linearidade, residuos com distribuio Nomal de valor
mdio zero e varincia constante)
5
avaliao da qualidade do modelo
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 102 / 122
Regresso
O SPSS apresenta disponvel mltiplas opes de anlise de regresso Analyze 99KRegression
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 103 / 122
Regresso Linear Simples
A Regresso Linear Simples um procedimento estatstico atravs do qual a
variao da varivel dependente (Y ) explicada em funo da variao da
varivel independente (X ) atravs de um modelo linear, isto , atravs da equao
de uma recta
Na anlise de regresso, conveniente, antes de mais, ilustrar a relao entre as
duas variveis por meio de um diagrama de disperso
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 104 / 122
Regresso Linear Simples
Para cada valor observado para a varivel independente ou preditora (X ) h um
correspondente valor observado para a varivel dependente ou resposta (Y ). No
entanto, o modelo linear apenas permite para cada valor de X , prever ou estimar
um valor de Y
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 105 / 122
Regresso Linear Simples
Os valores estimados para Y (Y ) so obtidos mediante o uso da equao da uma
reta
Y
i
= a+ bXi
onde a e b so os coecientes ou parmetros da regresso, respetivamente
designados por ordenada na origem e declive
Claro que entre os valores observados para Y e os valores estimados para Y existe
uma diferena. Essa diferena designa-se por erro ou resduo
i
= Yi
Yi
Como estimar os coecientes da regresso? Atravs do mtodo dos mnimos
quadrados, minimizando a funo da soma dos quadrados do erros
S =ni=1
i
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 106 / 122
Regresso Linear Simples
Assim, a reta ajustada aos dados tal que torna mnima as discrepncias verticais
(erros) ilustradas na gura:
Coeciente de determinao (R
2
): proporo da variabilidade total de Y
explicada pelo modelo de regresso ajustado
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 107 / 122
Regresso linear simples
At agora nada se disse relativamente a pressupostos distribucionais. Contudo, na
anlise de regresso assume-se:
1 i
uma v.a. com valor mdio zero e varincia 2 (desconhecida)2 i
uma v.a. Gaussiana: i
N(0, )3
Os erros so independentes
Isto , cada resposta observada (y) assumida como proveniente de uma
distribuio Gaussiana centrada verticalmente no valor previsto pelo modelo para
o correspondente valor observado x . A varincia assumida constante.
y
TruelineIlo +(3,x
N((30+ (3, X, 02)~~~1\
~~ I \I \I \
\ -,\\
An -----+
observedY value(Y2)
Xn x
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 108 / 122
Regresso linear simples
Assim, para detetar violaes dos pressupostos procede-se a uma anlise dos
resduos
Numa primeira fase, pode efetuar-se uma anlise grca (resduos em funo dos
valores estimados para Y ), o que permite vericar:
1
a no-normalidade
2
heterocedasticidade
3
linearidade
4
existncia de outliers
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 109 / 122
Estudo da Nature
Nature, Vol. 431, 2004
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 110 / 122
O perigo da extrapolao
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 111 / 122
Regresso linear simples
Vejamos um exemplo de regresso linear simples no SPSS: Analyze 99K Regression99K Linear.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 112 / 122
Regresso linear simples
Output completo:
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 113 / 122
Regresso linear simples
Para analisar os resduos Analyze 99K Regression 99K Linear:Plots
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 114 / 122
Regresso linear simples
Output:
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 115 / 122
Regresso linear simples
Output:
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 116 / 122
Regresso linear simples
Output:
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 117 / 122
Trabalho prtico 1
TP1
Objectivo: Analisar um conjunto de dados de natureza demogrca e econmica para
algumas regies de Portugal continental e Regies autnomas (cheiro TP1.xls) .
Genericamente, a anlise visa a explorao dos dados de forma a realar as
caractersticas e regularidades de interesse. Para tal deve utilizar mtodos numricos
(clculo de medidas de estatstica descritiva apropriadas) e mtodos grcos, cuja
anlise permita evidenciar aspectos relevantes dos dados observados.
Questes a abordar:
Explorao dos dados originais. Estude a localizao, disperso e forma das
diversas distribuies empricas (tenha em conta o tipo de variveis e verique a
existncia de potenciais observaes discrepantes)
Analise os dados transformados. Experimente e compare as transformaes:
X
e logX . Escolha a que lhe parecer mais adequada e proceda anlise. Ser
justicvel a transformao dos dados? Quais as vantagens?
Use as representaes grcas que julgue adequadas. Em particular, use boxplots
para efetuar comparaes que lhe paream relevantes (por exemplo, Nmero de
nados vivos vs. Nmero de bitos).
Explore a normalidade de algumas variveis.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 118 / 122
Trabalho prtico 2
TP2
Objectivo: Pretende-se analisar algumas variveis extradas de um estudo (dados
ctcios, cedidos por Prof. Doutora Luzia Gonalves, IHMT), realizado durante 8
meses de 2009, num distrito de um pas africano, para avaliar a eccia de dois
tratamentos seguidos por doentes com malria por Plasmodium vivax.
Algumas das variveis em estudo:
Gnero: 1 - Masc., 2 - Fem.
Idade (anos)
Etnia: 0 - Caucasiana; 1 - Negride; 2 - Outra
Peso (kg)
Febre48h: 0 - No; 1 - Sim
Medicao48h: 0 - No; 1 - Sim
Parasitmia (no dia da admisso, baseline, em n
o
de parasitas por L1)Tratamento: 0 - A; 1: A+B
TempoNaoP (tempo at ter uma parasitmia nula)
TempoNaoF (tempo at ter a febre controlada)
VomitosRec: 0 - No; 1 - Sim
ContracaoMus: 0 - No; 1 - Sim
MedicinaTrad: 0 - No; 1 - Sim
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 119 / 122
Trabalho prtico 2
Questes a estudar:
Admita que a atribuio do tratamento A ou do tratamento A+B foi aleatria. Vericar
se os dois grupos de doentes (que receberam o tratamento A ou o tratamento A+B) so
semelhantes no que diz respeito as variveis: genro, idade, etnia, peso, febre nas 48
horas anteriores, medicao prvia e parasitmia no dia da admisso.
Estimar a proporo de doentes que admitem o recurso Medicina Tradicional em
paralelo com o tratamento.
Explorar a associao entre a toma de medicamentos antes do tratamento e o recurso
Medicina Tradicional.
Comparar os dois tratamentos no que respeita ao tempo at obter uma parasitmia nula.
Comparar os dois tratamentos no que respeita ao tempo at ter a febre controlada.
Avaliar se o recurso Medicina Tradicional, em paralelo com o tratamento, afectar os
tempos de controlo da parasitmia e da febre.
Comparar os dois tratamentos quanto aos efeitos adversos que os doentes reportaram.
(No nal, apenas se consideraram os mais referidos: vmitos recorrentes e contraces
musculares).
Para cada tratamento, vericar, caso seja possvel, se a percentagem de aparecimento de
cada um dos efeitos adversos semelhante consoante o recurso, ou no, Medicina
Tradicional, o genro e a etnia.
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 120 / 122
Trabalho prtico 3
TP3
Objectivo: Pretende-se analisar a relao entre o nvel salarial e a antiguidade dos
funcionrios numa certa empresa (dados ctcios).
Variveis em estudo:
Salrio (euros)
Antiguidade na empresa (anos)
Questes:
Estime a reta de regresso que permite relacionar os salrios com a antiguidade
dos funcionrios
Analise a adequabilidade do modelo linear
Faa uma anlise dos resduos
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 121 / 122
Trabalho prtico 1 (R)
TP1 (R)
Objectivo: Analisar um conjunto de dados de natureza demogrca e econmica para
algumas regies de Portugal continental e Regies autnomas (cheiro TP1.xls).
O script deve incluir:
Resumo da base de dados com clculo de estatsticas amostrais (localizao e
disperso) para todas as variveis.
Escolha 1 varivel:
Experimente e compare as transformaes:
X e logX . Junte base de dados
original as novas variveis. Apresente os boxplots da varivel original e os das
transformadas numa matriz 1x3
Represente gracamente a distribuio emprica e explore gracamente a
normalidade.
Relacione gracamente algumas variveis com a funo pairs()
Regina Bispo (DEIO/FCUL) Laboratrio III 2013/2014 122 / 122
Apresentao da unidade curricularIntroduo ao SPSSAnlise descritivaCorrelaoTestes paramtricosUma populaoDuas populaes
Testes no-paramtricosTestes para contagensk=2 populaesTeste de Kruskal-Wallis
RegressoTrabalhos prticos