57
REGRESSÃO LINEAR Prática no SPSS Vitor Vieira Vasconcelos BH1350 – M étodos e Técnicas de Análise da I nformação para o Planejamento Julho de 2016

Prática de Regressão no SPSS

Embed Size (px)

Citation preview

Page 1: Prática de Regressão no SPSS

REGRESSÃO LINEARPrática no SPSS

Vitor Vieira Vasconcelos

BH1350 – Métodos e Técnicas de Análise da Informação para o PlanejamentoJulho de 2016

Page 2: Prática de Regressão no SPSS

Executando uma Regressão Múltipla no SPSS

Arquivo: Agua_Rede2010_SNIS.sav

Page 3: Prática de Regressão no SPSS

Arquivo: Agua_Rede2010_SNIS.sav

Variáveis

Y CONSUMO 1: Consumo Residencial de Água per Capita (M3/hab/ano), SNIS 2010

X1 RENDAPIT: Renda per Capita (reais), IBGE 2010

X2 PROPREDE: Proporção de domicílios servidos por rede de água, IBGE 2010

SELECIONAR VARIÁVEIS

Page 4: Prática de Regressão no SPSS

ANÁLISE EXPLORATÓRIAVerificar Correlações e Diagramas de Dispersão

Page 5: Prática de Regressão no SPSS

Diagramas de Dispersão: Por que são tão importantes?

Quarteto de Anscombe: Esses quatro conjuntos de dados possuem as mesmas propriedades estatísticas...

I II III IVx y x y x y x y

10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,588,0 6,95 8,0 8,14 8,0 6,77 8,0 5,7613,0 7,58 13,0 8,74 13,0 12,74 8,0 7,719,0 8,81 9,0 8,77 9,0 7,11 8,0 8,8411,0 8,33 11,0 9,26 11,0 7,81 8,0 8,4714,0 9,96 14,0 8,10 14,0 8,84 8,0 7,046,0 7,24 6,0 6,13 6,0 6,08 8,0 5,254,0 4,26 4,0 3,10 4,0 5,39 19,0 12,5012,0 10,84 12,0 9,13 12,0 8,15 8,0 5,567,0 4,82 7,0 7,26 7,0 6,42 8,0 7,915,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

Propriedade ValorMédia de x 9,00

Variância de x 10,00Média de y 7,50

Variância de y 3,75Correlação 0,898Regressão

linear y = 2,50 + 0,500x

Slides: Marcos Pó

F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 (February 1973), 17-21.

Page 6: Prática de Regressão no SPSS

Diagramas de Dispersão: Por que são tão importantes?

Slides: Marcos Pó

... mas são bem diferentes graficamente.

Page 7: Prática de Regressão no SPSS

ANÁLISE EXPLORATÓRIAVerificar Correlações e Diagramas de Dispersão (Graphs)

As relações parecem lineares? Se não, transformações podem ser necessárias

Page 8: Prática de Regressão no SPSS

ANÁLISE EXPLORATÓRIAVerificar Correlações e Diagramas de Dispersão

Lembrando as transformações:

XX

XX

=

=

'

log10'

)exp('

2'

XXXX

==

Page 9: Prática de Regressão no SPSS

ANÁLISE EXPLORATÓRIATransformando a variável “PROPREDE”: Transformar > Calcular…

Crie novas variáveis: “EXP_REDE” e “SQ_REDE” (ELEVADO ** 2)

Page 10: Prática de Regressão no SPSS

ANÁLISE EXPLORATÓRIAGráficos de Dispersão PROPREDE (original)

(PROPREDE)2 EXP(PROPREDE)

Page 11: Prática de Regressão no SPSS

ANÁLISE EXPLORATÓRIAANÁLISES DE CORRELAÇÃO

Page 12: Prática de Regressão no SPSS

Variáveis

Y CONSUMO 1: Consumo Residencial de Água per Capita (M3/hab/ano), SNIS 2010

X1 RENDAPIT: Renda per Capita, IBGE 2010

X2 SQ_REDE: Quadrado da Proporção de domicílios servidospor rede de água, IBGE 2010

VARIÁVEIS SELECIONADAS

Page 13: Prática de Regressão no SPSS

Analisar > Regressão > Linear

MODELO 1 Inclusão da variável “RENDAPIT”

Regressão Múltipla

Page 14: Prática de Regressão no SPSS

Regressão MúltiplaAnalisar > Regressão > Linear

MODELO 1 Inclusão “RENDAPIT” e “SQ_REDE”

Page 15: Prática de Regressão no SPSS

Se estiver executando um trabalho mais exploratório, pode escolher um métodopasso-a-passo: Stepwise, Remove, Backward e Forward

Método

Neste exemplo usamos um método hierárquico, selecionando as variáveis do primeiro bloco da hierarquia e do segundo bloco. Para cada modelo da nossa “hierarquia”, utilizaremos o método “Enter”

Page 16: Prática de Regressão no SPSS

Estatísticas

Page 17: Prática de Regressão no SPSS

EstatísticasEstimativas: [Default] Fornece oscoeficientes estimados do modelode regressão (betas). A estatísticateste e sua significância sãofornecidas para cada coeficiente.

Intervalos de Confiança: Mostra osintervalos de confiança para oscoeficientes.

Matriz de covariância: Mostra a matriz de covariância, oscoeficientes de correlação e as variâncias entre os coeficientes de regressão para cada variável do modelo.

Page 18: Prática de Regressão no SPSS

EstatísticasAderência do Modelo (Model Fit): Teste F, R (ou R múltiplo), R2, R2

ajustado.

Alterações no R2 (R squared change): Mostra alterações queocorrem no R2 resultantes da inclusão de um novo previsor

Descritivas (Descriptives): Tabela com média, desvio padrão e nr. de observações de todas as variáveis incluídas na análise. Tambémapresenta a matriz de correlações

Page 19: Prática de Regressão no SPSS

Estatísticas

Correlação Parcial e Por Partes: Mostram estatísticas que medem o relacionamento único entre um previsor e a saída (controlado portodos os outros previsores no modelo)

Diagnóstico de Colinearidade (Collinearity Diagnostics): Mostra as estatísticas de multicolinearidade (FIV, etc.)

Page 20: Prática de Regressão no SPSS

Estatísticas

RESÍDUOS

Durbin-Watson: Estatística teste de Durbin-Watson, que testa a suposição de independência dos erros.

Diagnósticos por casos (Casewisediagnostics): Lista os valores de saída observados, valores de saídaprevistos e a diferença entre os dois(resíduos).

Podem ser listados para todos os casos, ou apenas para os casosonde o resíduo padronizado for maior do que n (no exemplo, 3).

Page 21: Prática de Regressão no SPSS

Gráficos

Page 22: Prática de Regressão no SPSS

GráficosPermite especificar vários gráficosque auxiliam na verificação da validade de algumas premissas da regressão.

Variáveis:

DEPENDNT: Variável de Saída (Y)

*ZPRED: Valores previstos padronizados da variável Y com base no modelo

*ZRESID: Resíduos (erros) padronizados

*SRESID: Resíduos estudentizados

*DRESID: Resíduos excluídos

*ADJPRED: Valores previstos ajustados

*SDRESID: Resíduos estudentizados excluídos

Page 23: Prática de Regressão no SPSS

Gráficos“Produzir todos os diagramas parciais”

Diagrama de dispersão dos resíduos e cada um dos previsores (X) quandoambas as variáveis são analisadasseparamente com os previsoresrestantes.

Histograma dos resíduos padronizados(ajuda a verificar a hipótese de normalidade dos erros)

Diagrama de probabilidade normal (também ajuda a verificar a hipótese de normalidade dos erros)

Ao final, clique em “Continuar”

Page 24: Prática de Regressão no SPSS

Salvando os Diagnósticos da Regressão no Editor de Dados

Selecione as versões padronizadas das estatísticasde influência (é mais fácil interpretar)

Page 25: Prática de Regressão no SPSS

Salvando os Diagnósticos da Regressão no Editor de Dados

NOME DAS VARIÁVEIS NO EDITOR DE DADOS

Page 26: Prática de Regressão no SPSS

INTERPRETANDO A REGRESSÃO MÚLTIPLA

Page 27: Prática de Regressão no SPSS

Estatísticas

Correlação Significativa

Page 28: Prática de Regressão no SPSS

Estatísticas

Atenção aqui, pois X1 (renda per capita) e X2 (Quad. proporção de domicílioscom rede de água) também apresentam correlação significativa

(COLINEARIDADE).

Page 29: Prática de Regressão no SPSS

Resumo do Modelo

R Coeficiente de Correlação Múltipla

R2 Coeficiente de Determinação: Medida do quanto a variabilidade do Y podeser explicada pelo modelo com as variáveis X. No modelo 1, que consideraapenas a variável “renda”, 36% da variabilidade do consumo de água per capita pode ser explicada pelo modelo. Já no modelo 2, que inclui também PROPREDE, este valor aumentou para 52,5% !!! Assim, a inclusão da segunda variável pareceter melhorado o poder explicativo do modelo!

Page 30: Prática de Regressão no SPSS

Resumo do Modelo

R2 ajustado Medida alternativa ao R2, que penaliza a inclusão de variáveisindependentes (X) pouco explicativas. É importante considerá-la em modelos de regressão múltiplos, visto que a inclusão de inúmeras variáveis independentestendem a aumentar o valor de R2, mesmo que estas variáveis tenham muito poucopoder explicativo.

Page 31: Prática de Regressão no SPSS

Resumo do Modelo

Durbin-Watson Estatística que nos informa se a hipótese de INDEPENDÊNCIA DOS ERROS é satisfeita.

Regra “Conservadora”: Valores menores do que 1 ou maiores do que 3 devemser motivo de preocupação. Quanto mais próximo de 2, melhor.

Page 32: Prática de Regressão no SPSS

ANOVA

ANÁLISE DE VARIÂNCIA

Testa se o modelo é significativamente melhor para prever a saída do que utilizar a média como um “bom palpite”

F representa a razão de melhoria na previsão que resulta do ajuste do modelo emcomparação com a imprecisão que ainda existe no modelo. Se a melhoria devido aoajuste do modelo de regressão for muito maior do a variação no interior do modelo, então o valor de F será maior do que 1.

Em ambos os modelos, os valores de F são significativos. Note que a razão de F émuito parecida em ambos os modelos.

Page 33: Prática de Regressão no SPSS

PARÂMETROS DO MODELOCOEFICIENTES NÃO PADRONIZADOS NO MODELO

Modelo 1 CONSUMO = 4,252 + 0,041.RENDA

Modelo 2 CONSUMO = -6.037 + 0,027.RENDA + 31,886.REDE

Nos informam como cada previsor afeta a saída se todos os demaisprevisores permanecem constantes

No Modelo 2, por exemplo, o b= 0,027 indica que um incremento de umaunidade (R$ 1,00) na renda per capita do município está associado a um aumento do consumo de água de 0,027 m3/hab./ano (27 litros/hab/ano). Esta interpretação só é verdadeira se a variável “quadrado da proporção de domicílios servidos por rede de água” (SQ_REDE) for mantida constante.

Page 34: Prática de Regressão no SPSS

PARÂMETROS DO MODELOERRO PADRÃO

Cada um dos valores “b” está associado um erro padrão indicando até que pontoesses valores podem variar entre amostras, e esses erros são utilizados paradeterminar se os valores b diferem significativamente de zero.

ESTATÍSTICA t

Um valor significativo de t revela que a inclinação da linha de regressão ésignificativamente diferente de uma linha horizontal. Ou seja, que b ésignificativamente diferente de zero.

Se o valor rotulado como “Sig” for menor do que 0,05; então o previsor X estáfazendo uma contribuição significativa para o modelo.

Page 35: Prática de Regressão no SPSS

PARÂMETROS DO MODELOCOEFICIENTES PADRONIZADOS

São mais fáceis de interpretar, pois não são dependentes das unidades de medidadas variáveis.

Representam o número de desvios padrão que o Y irá mudar como resultado de uma alteração de 1 desvio padrão de X

Como são mensurados em termos de unidades desvios padrão, os valores de beta padronizados são comparáveis diretamente.

No modelo 2, observamos que as duas variáveis apresentam um grau de importância comparável no modelo.

Page 36: Prática de Regressão no SPSS

PARÂMETROS DO MODELOINTERVALOS DE CONFIANÇA PARA B

Imagine que coletamos 100 amostras de dados

Os intervalos de confiança para beta são limites construídos tais que em 95% dessas amostras esses limites irão conter os verdadeiros valores de beta.

Temos, portanto, uma confiança de 95% de que esses intervalos conterão osverdadeiros valores dos coeficientes b.

Um bom modelo apresentará IC pequenos, indicando que os valores de b nessaamostra estão próximos do verdadeiro valor de beta na população.

O sinal de beta nos revela se o relacionamento entre X e Y é negativo/positivo.

Page 37: Prática de Regressão no SPSS

COLINEARIDADEFIV (Fator de Inflação da Variância)

Se o FIV for maior do que 10, há motivos para preocupação.

Idealmente, deve ficar próximo de 1

Tolerância (1 dividido pelo FIV): deve ficar acima de 0,2

Como temos um FIV próximo de 1, podemos assumir que a colinearidade nãoé um problema neste modelo.

Page 38: Prática de Regressão no SPSS

VARIÁVEIS EXCLUÍDAS

No modelo hierárquico, este resumo apresenta detalhes das variáveis queforam especificadas para entrar no modelo em passos subsequentes, no caso, a variável “PROPREDE” (foi excluída no modelo 1).

Podemos observar o estimador beta do previsor se ele entrar na equação, um teste t para este valor, correlação parcial e as estatísticas de colinearidade.

Page 39: Prática de Regressão no SPSS

DIAGNÓSTICOS POR CASOS

Tabela mostra casos com resíduo padronizado menorque -3 e maior do que +3

Estes casos merecematenção! Como pedimos paraque o SPSS salve estaestatística ( e outras!), podemos checá-lasindividualmente.

É esperado que 95% dos casostenham resíduos padronizadosentre -1,96 e +1,96

Page 40: Prática de Regressão no SPSS

ESTATÍSTICAS SALVAS

Valores previstos não-padronizados valores previstos para Y (CONSUMO)

Valores previstos ajustados valores previstos para Y, caso esta observaçãofosse excluída (o ideal é que a diferença não seja grande. Se for grande, assumimos que estamos diante de um caso influente)

Page 41: Prática de Regressão no SPSS

ESTATÍSTICAS SALVAS

Valores previstos padronizados valores previstos padronizados para Y (CONSUMO) – ou seja, em unidades de desvio padrão

Resíduos padronizados (em unidades de desvio padrão). Somente 5% das observações devem ter resíduos padronizados mais extremos que -1,96/+1,96

Page 42: Prática de Regressão no SPSS

ESTATÍSTICAS DE INFLUÊNCIA

Distância de Cook Não Deve ser Maior do que 1! (Métrica: Casos Influentes)

Page 43: Prática de Regressão no SPSS

ESTATÍSTICAS DE INFLUÊNCIA

Distância de Cook

Se organizarmos os dados em ordem decrescente na tabela, observaremos que não temos nenhuma distância superior a 1.

Page 44: Prática de Regressão no SPSS

ESTATÍSTICAS DE INFLUÊNCIA

Valor Leverage Considera o nr. de observações/casos

Influência média esperada -- (nr. de parâmetros + 1)/n = (2 + 1)/4417 = 0,0007

Procuraremos casos com valores 2X (0,0014) ou 3X (0,0021) maiores do que isto.

Page 45: Prática de Regressão no SPSS

ESTATÍSTICAS DE INFLUÊNCIA

Valor Leverage

Influência média esperada -- (nr. de parametros + 1)/n = (2 + 1)/4417 = 0,0007

Procuraremos casos com valores 2X (0,0014) ou 3X (0,0021) maiores do que isto.

No exemplo, temos 161 casos com valores maiores que 0,0021

Entre eles: Niterói, Vitória, Brasília, Florianópolis, Porto Alegre

TOP da lista? São Caetano do Sul!!!

Page 46: Prática de Regressão no SPSS

ESTATÍSTICAS DE INFLUÊNCIA

DFFIT [padronizado] Diferença entre valor previsto ajustado e valor previsto original

DFBETA [padronizado] Calculado para cada beta. Diferença entre 1 parâmetro estimado utilizando todos os casos e estimado quando um caso é excluído. Valor absoluto maior do que 1 será um problema.

Page 47: Prática de Regressão no SPSS

CONFERINDO AS HIPÓTESESJÁ CHECAMOS:

- COLINEARIDADE (FIV, Tolerância): Ok!

- Independência dos Resíduos – Teste de Durbin-Watson: Ok!

Vamos checar agora os gráficos!

Page 48: Prática de Regressão no SPSS

CONFERINDO AS HIPÓTESESNORMALIDADE DOS RESÍDUOS:

HISTOGRAMA DOS RESÍDUOS PADRONIZADOS

Podemos, depois, realizar um

teste formal (Shapiro-Wilk, Kolmogorov-Smirnov)

Page 49: Prática de Regressão no SPSS

CONFERINDO AS HIPÓTESESNORMALIDADE DOS RESÍDUOS:

P-P Plot DOS RESÍDUOS PADRONIZADOS

Podemos, depois, realizar um

teste formal (Shapiro-Wilk, Kolmogorov-Smirnov)

Page 50: Prática de Regressão no SPSS

CONFERINDO AS HIPÓTESES

PARA REFERÊNCIA:

Page 51: Prática de Regressão no SPSS

Análise dos Resíduos

Quais dessas plotagens mostram normalidade dos resíduos?Quais os problemas das outras?

Bus

sab;

Mor

ettin

, 200

2:45

6

Slide: Marcos Pó

Page 52: Prática de Regressão no SPSS

CONFERINDO AS HIPÓTESESRESÍDUOS PADRONIZADOS VS. VALORES PREVISTOS PADRONIZADOS

Page 53: Prática de Regressão no SPSS

CONFERINDO AS HIPÓTESES

PARA REFERÊNCIA:

Page 54: Prática de Regressão no SPSS

CONFERINDO AS HIPÓTESESRESÍDUOS PADRONIZADOS VS. RENDAPITA (X1)

Page 55: Prática de Regressão no SPSS

CONFERINDO AS HIPÓTESESRESÍDUOS PADRONIZADOS VS. SQR_REDE (X2)

Page 56: Prática de Regressão no SPSS

Exercício• Parte 1 - Individual

• Leitura do capítulo 5 do livro “Descobrindo a Estatística com o SPSS”

• Utilize os dados disponibilizados no anexo da atividade no Tidia, e faça as operaçõesexemplificadas no capítulo. Salve a saída comoum document “.doc” e anexe no Tidia.

• Faça um fichamento de no mínimo 2 páginassobre o capítulo

Page 57: Prática de Regressão no SPSS

Exercício• Em Grupo

• Realize uma regressão múltipla no SPSS com ao menos 3 variáveis do seutrabalho de curso

• Faça diagramas de dispersão e análise de correlação para cada par de variáveis

• Avalie a necessidade de transformar variáveis para “linearizar” a relação

• Rode uma regressão múltipla pelo método hierárquico

• Interprete os coeficientes, R2, e os testes F e t

• Analise os valores atípicos (por diagramas e estatísticas teste)

• Analise as suposições de generalização

• Analise o diagrama de resíduos e o teste Durbin-Watson