27
www.alphaquant.com.br [email protected] 1 REGRESSÃO LINEAR MÚLTIPLA exemplo usando o SPSS Um fabricante de produtos eletrônicos está interessado em saber que variáveis estão associadas com o grau de conhecimento dos consumidores sobre um tipo de processador que a companhia lançou recentemente no mercado. Uma amostra de 46 clientes foi selecionada fornecendo dados sobre os gerentes de compras em relação às variáveis: Y = grau de conhecimento do processador (escala de 0 a 100) X1 = Nível de escolaridade (anos de estudo) X2 = Idade (anos) X3 = grau de conhecimento sobre os recentes avanços na área (escala de 0 a 100) X4 = distância entre o escritório e a loja mais próxima (Km) X5 = salário mensal (número de salários mínimos) 1. Encontre a melhor regressão utilizando o método Forward e compare com a melhor regressão utilizando o método Backward. A solução encontrada foi a mesma? Deveria ser? 2. Como você avaliaria o modelo cujas variáveis independentes são idade, escolaridade e salário? Interprete o modelo. Formule e teste a significância de cada um dos coeficientes angulares. Alguma evidência de outlier nesse modelo? 3. Considerando o modelo do item 2, calcule a correlação entre idade e grau de conhecimento do processador, corrigida pelo expurgo das variáveis escolaridade e salário. 4. Considerando o modelo do item 2, investigue a possível violação das premissas do modelo linear. Qual a importância da premissa de distribuição dos erros (normalidade)? 5. Analise os resíduos e comente sobre alguma anomalia encontrada no modelo do item 2. 6. Faça uma previsão para o grau de conhecimento esperado de uma pessoa de 45 anos, com 15 anos de estudo e renda de 30 salários mínimos.

SPSS Regressao multipla

Embed Size (px)

Citation preview

Page 1: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

1

RREEGGRREESSSSÃÃOO LLIINNEEAARR MMÚÚLLTTIIPPLLAA –– eexxeemmpplloo uussaannddoo oo SSPPSSSS

Um fabricante de produtos eletrônicos está interessado em saber que variáveis

estão associadas com o grau de conhecimento dos consumidores sobre um tipo de

processador que a companhia lançou recentemente no mercado. Uma amostra de

46 clientes foi selecionada fornecendo dados sobre os gerentes de compras em

relação às variáveis:

Y = grau de conhecimento do processador (escala de 0 a 100)

X1 = Nível de escolaridade (anos de estudo)

X2 = Idade (anos)

X3 = grau de conhecimento sobre os recentes avanços na área (escala de 0 a 100)

X4 = distância entre o escritório e a loja mais próxima (Km)

X5 = salário mensal (número de salários mínimos)

1. Encontre a melhor regressão utilizando o método Forward e compare com a

melhor regressão utilizando o método Backward. A solução encontrada foi a

mesma? Deveria ser?

2. Como você avaliaria o modelo cujas variáveis independentes são idade,

escolaridade e salário? Interprete o modelo. Formule e teste a significância de cada

um dos coeficientes angulares. Alguma evidência de outlier nesse modelo?

3. Considerando o modelo do item 2, calcule a correlação entre idade e grau de

conhecimento do processador, corrigida pelo expurgo das variáveis escolaridade e

salário.

4. Considerando o modelo do item 2, investigue a possível violação das premissas

do modelo linear. Qual a importância da premissa de distribuição dos erros

(normalidade)?

5. Analise os resíduos e comente sobre alguma anomalia encontrada no modelo do

item 2.

6. Faça uma previsão para o grau de conhecimento esperado de uma pessoa de 45

anos, com 15 anos de estudo e renda de 30 salários mínimos.

Page 2: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

2

COMO RODAR A REGRESSÃO LINEAR MÚLTIPLA NO SPSS

1º Abrir o SPSS

INICIAR

SPSS FOR WINDOWS

2º Abrir o arquivo com os dados numéricos

FILE

OPEN

DATA

3º Para rodar a regressão linear, fazer:

Page 3: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

3

4º Selecionar a variável dependente (Y) e as independentes (X) e também, o método

que será utilizado (Enter, Forward ou Backward):

Após isto, clicar em CONTINUE.

OBS.: no caso da regressão linear simples (quando só existe uma variável

independente - X), o método será o Enter.

5º No botão STATISTICS, selecionar:

OBS: Selecione o R square change.

Após isto, clicar em CONTINUE.

Page 4: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

4

6º No botão PLOTS, selecionar:

Se quiser os gráficos de Y com todos os Xs, selecione Produce all partial plots

Após isto clicar em CONTINUE.

7º No botão SAVE, selecionar:

Após isto clicar em CONTINUE.

8º Clicar em OK.

O SPSS irá ‘rodar’ a regressão linear múltipla.

Page 5: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

5

Resolução do Exercício – Análise do OUTPUT

Resposta da QUESTÃO 1

Faremos primeiro o método Forward. Para isso, selecionaremos Method: Forward.

Os demais passos estão relacionados no PASSO A PASSO acima.

O output do SPSS, para esta regressão linear múltipla, está apresentado a seguir.

Após cada quadro é mencionada a utilidade dele. E, em itálico e azul, é feita a análise

estatística.

OBS.: No output, os quadros ‘Excluded Variables’ e ‘Collinearity Diagnostic’ foram excluídos.

Page 6: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

6

Método Forward Regression

Devemos calcular o CV (coeficiente de variação). O CV é calculado dividindo-se o

desvio padrão (Std. Deviation) pela média (Mean).

Análise

Como os coeficientes de variação de todas as variáveis são menores do que 50%,

considera-se que as variáveis não possuem alta dispersão. Por isso, não é necessária

nenhuma transformação nos dados.

Esse quadro apresenta a ordem de entrada das variáveis no modelo.

Não faremos análises estatísticas sobre ele.

Descriptive Statistics

71,17 10,92 46

10,83 2,23 46

37,65 9,95 46

69,02 11,72 46

10,57 5,05 46

30,33 7,94 46

Conhecimento

Escolaridade

Idade

Av anços

Distância

Salário

Mean Std. Deviation N

Variables Entered/Removeda

Escolaridade , Forward (Criterion: Probability -of -F-to-enter <= ,050)

Idade , Forward (Criterion: Probability -of -F-to-enter <= ,050)

Avanços , Forward (Criterion: Probability -of -F-to-enter <= ,050)

Distância , Forward (Criterion: Probability -of -F-to-enter <= ,050)

Salário , Forward (Criterion: Probability -of -F-to-enter <= ,050)

Model

1

2

3

4

5

Variables Entered

Variables

Remov ed Method

Dependent Variable: Conhecimentoa.

Page 7: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

7

O modelo escolhido pelo método Forward é o último (o quinto). Então, analisaremos

apenas as estatísticas dele.

Podemos observar que, a cada entrada de uma nova variável no modelo, o R² ajustado

e o Desvio Padrão do modelo melhoravam. Ou seja, o R² ajustado aumentava e o

desvio padrão da estimativa diminuía – o que é muito bom.

Não olhamos para o R², mas sim para o R² ajustado, pois se trata de uma regressão

múltipla. Para compararmos diversos modelos com diferentes números de variáveis

independentes, usamos o R² ajustado, e não o R². O R² ajustado pondera o R2 de

acordo com o número de variáveis independentes no modelo, e o número de

observações.

Análise:

R² ajustado: 98,9% da variação total é explicada pela relação entre as variáveis

independentes e Y (variável dependente), quando levados em consideração o número

de variáveis independentes no modelo. Essa estatística sofre penalização pela entrada

de variáveis no modelo..

Std Error of the Estimate: o desvio padrão do modelo é igual a 1,16.

Model Summaryf

,716a ,512 ,501 7,71

,903b ,816 ,808 4,79

,982c ,964 ,961 2,15

,989d ,978 ,975 1,71

,995e ,990 ,989 1,16

Model

1

2

3

4

5

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), Escolaridadea.

Predictors: (Constant), Escolaridade, Idadeb.

Predictors: (Constant), Escolaridade, Idade, Av ançosc.

Predictors: (Constant), Escolaridade, Idade, Av anços,

Distância

d.

Predictors: (Constant), Escolaridade, Idade, Av anços,

Distância, Salário

e.

Dependent Variable: Conhecimentof .

Page 8: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

8

O SPSS apresenta o resultado das regressões realizadas até se chegar no melhor

modelo. Como o melhor modelo é o último (o 5º apresentado por ele), faremos o teste

F apenas desse modelo.

Análise:

Teste F – teste do modelo

H0: 1 = 2 = 3 = 4 = 5= 0

H1: algum é diferente de zero

Alpha = 5%

ANOVAf

2746,285 1 2746,285 46,186 ,000a

2616,324 44 59,462

5362,609 45

4376,383 2 2188,191 95,406 ,000b

986,226 43 22,935

5362,609 45

5168,536 3 1722,845 372,847 ,000c

194,073 42 4,621

5362,609 45

5242,282 4 1310,571 446,564 ,000d

120,326 41 2,935

5362,609 45

5308,707 5 1061,741 787,917 ,000e

53,901 40 1,348

5362,609 45

Regression

Residual

Total

Regression

Residual

Total

Regression

Residual

Total

Regression

Residual

Total

Regression

Residual

Total

Model

1

2

3

4

5

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Escolaridadea.

Predictors: (Constant), Escolaridade, Idadeb.

Predictors: (Constant), Escolaridade, Idade, Avançosc.

Predictors: (Constant), Escolaridade, Idade, Avanços, Distânciad.

Predictors: (Constant), Escolaridade, Idade, Avanços, Distância, Salárioe.

Dependent Variable: Conhecimentof .

Page 9: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

9

Como Sig (0,000) é menor do que alfa (0,05) rejeitamos H0 e concluímos que pelo

menos um beta é diferente de zero, logo, existe relação linear entre Y e pelo menos um

X.

Essa tabela apresenta os coeficientes angulares (os betas) das variáveis. Apresenta os

intervalos de confiança de cada coeficiente, a correlação parcial e o VIF.

Novamente só olharemos para o modelo 5 (que foi escolhido como o melhor).

Testes para i´s

i indica a mudança que ocorre na resposta média E(Y), por unidade de mudança

(com incremento unitário) na variável independente Xi, quando as demais variáveis

são mantidas constantes.

O parâmetro 0 é o intercepto do plano de regressão (coeficiente linear). 1 , 2 ,

.... 5 são coeficientes de regressão (coef angulares).

Para testar se cada variável explicativa, separadamente, é significativa para o

modelo, procedemos ao teste t.

Coefficientsa

33,318 5,685 5,861 ,000 21,861 44,776

3,497 ,515 ,716 6,796 ,000 2,460 4,534 ,716 ,716 ,716 1,000 1,000

50,738 4,091 12,402 ,000 42,488 58,989

4,033 ,326 ,825 12,377 ,000 3,376 4,690 ,716 ,884 ,809 ,962 1,040

-,617 ,073 -,562 -8,430 ,000 -,764 -,469 -,401 -,789 -,551 ,962 1,040

36,426 2,137 17,046 ,000 32,113 40,739

2,704 ,178 ,553 15,190 ,000 2,345 3,063 ,716 ,920 ,446 ,649 1,540

-,673 ,033 -,613 -20,317 ,000 -,740 -,606 -,401 -,953 -,596 ,946 1,057

,446 ,034 ,479 13,093 ,000 ,378 ,515 ,672 ,896 ,384 ,643 1,555

39,889 1,838 21,704 ,000 36,178 43,601

2,727 ,142 ,558 19,211 ,000 2,440 3,013 ,716 ,949 ,449 ,649 1,542

-,639 ,027 -,582 -23,463 ,000 -,694 -,584 -,401 -,965 -,549 ,888 1,126

,415 ,028 ,446 14,890 ,000 ,359 ,471 ,672 ,919 ,348 ,611 1,637

-,267 ,053 -,124 -5,013 ,000 -,374 -,159 -,367 -,616 -,117 ,901 1,110

43,433 1,344 32,322 ,000 40,717 46,148

3,047 ,106 ,624 28,627 ,000 2,831 3,262 ,716 ,976 ,454 ,530 1,888

-,679 ,019 -,618 -35,171 ,000 -,718 -,640 -,401 -,984 -,558 ,813 1,230

,421 ,019 ,452 22,278 ,000 ,383 ,459 ,672 ,962 ,353 ,610 1,641

-,299 ,036 -,138 -8,224 ,000 -,373 -,226 -,367 -,793 -,130 ,886 1,128

-,185 ,026 -,135 -7,021 ,000 -,238 -,132 ,437 -,743 -,111 ,684 1,462

(Constant)

Escolaridade

(Constant)

Escolaridade

Idade

(Constant)

Escolaridade

Idade

Av anços

(Constant)

Escolaridade

Idade

Av anços

Distância

(Constant)

Escolaridade

Idade

Av anços

Distância

Salário

Model

1

2

3

4

5

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig. Lower Bound Upper Bound

95% Conf idence Interval for B

Zero-order Part ial Part

Correlations

Tolerance VIF

Collinearity Statistics

Dependent Variable: Conhecimentoa.

Page 10: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

10

Análise:

Teste t - teste dos coeficientes

1 é o coeficiente da variável “nível de escolaridade”, e b1 é o estimador de 1, expresso

em escala/anos de estudo.

Teste t para 1

H0: 1 = 0

H1: 1 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.

Ou seja, concluímos que 1 0.

2 é o coeficiente da variável “idade” , e b2 é o estimador de 2, expresso em

escala/anos.

Teste t para 2

H0: 2 = 0

H1: 2 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.

Ou seja, concluímos que 2 0.

3 é o coeficiente da variável “avanços” , e b3 é o estimador de 3.

Teste t para 3

H0: 3 = 0

H1: 3 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.

Ou seja, concluímos que 3 0.

Page 11: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

11

4 é o coeficiente da variável “distância” , e b4 é o estimador de 4, expresso em

escala/Km.

Teste t para 4

H0: 4 = 0

H1: 4 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.

Ou seja, concluímos que 4 0.

5 é o coeficiente da variável “salário” , e b5 é o estimador de 5, expresso em

escala/no. de s.m..

Teste t para 5

H0: 5 = 0

H1: 5 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.

Ou seja, concluímos que 5 0.

......................

Intervalos de Confiança com 95% de confiança:

O intervalo de confiança para 1 é: [2,8 ; 3,2]

O intervalo de confiança para 2 é: [-0,7; -0,6]

O intervalo de confiança para 3 é: [0,38; 0,459]

O intervalo de confiança para 4 é: [-0,37 ; -0,22]

O intervalo de confiança para 5 é: [-0,23 ; -0,13]

Page 12: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

12

VIFs

Como os VIFs das cinco variáveis independentes são menores do que 5, não existe o

problema da multicolinearidade

Modelo Linear:

= 43,43 + 3,04 (escolaridade) - 0,67 (idade) + 0,42 (avanço) - 0,29 (distância) - 0,18

(salário)

De acordo com o modelo selecionado, a cada ano a mais de escolaridade (X1), o

grau de conhecimento do processador (Y) aumenta 3,04 unidades, mantendo as

demais variáveis constantes.

A cada ano a mais de idade (X2), o grau de conhecimento do processador (Y)

diminui 0,67 unidades, mantendo as demais variáveis constantes.

A cada incremento unitário no avanço (X3), o grau de conhecimento do

processador (Y) aumenta 0,42 unidades, mantendo as demais variáveis constantes.

A cada quilômetro a mais de distância (X4), o grau de conhecimento do

processador (Y) diminui 0,29 unidades, mantendo as demais variáveis constantes.

A cada salário mínimo ganho a mais (X5), o grau de conhecimento do processador

(Y) diminui 0,18 unidades, mantendo as demais variáveis constantes.

O coeficiente linear é igual a 43,43. Ou seja, se todas as variáveis independentes forem

iguais a zero, o grau de conhecimento do processador é igual a 43,43.

Page 13: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

13

Olharemos para o Std. Residual para verificarmos se existem candidatos a outlier ou

valor influente.

Olharemos também para Cook’s Distance para ver se existe valor influente. Caso o

Maximun esteja maior de 1, a observação é valor influente.

Análise da tabela:

O Std Residual está dentro do intervalo de 3 desvios, logo não existem candidatos a

outlier e nem valor influente.

A distância de Cook máxima é muito inferior a 1, o que reforça a afirmativa acima, de

que não existem valores influentes.

Residuals Statisticsa

44,69 93,24 71,17 10,86 46

-2,439 2,031 ,000 1,000 46

,21 ,58 ,41 9,69E-02 46

45,24 93,08 71,18 10,86 46

-2,45 2,34 -1,50E-14 1,09 46

-2,110 2,019 ,000 ,943 46

-2,293 2,118 -,002 1,007 46

-2,89 2,58 -4,83E-03 1,25 46

-2,429 2,219 -,006 1,032 46

,465 10,145 4,891 2,597 46

,000 ,158 ,024 ,037 46

,010 ,225 ,109 ,058 46

Predicted Value

Std. Predicted Value

Standard Error of

Predicted Value

Adjusted Predicted Value

Residual

Std. Residual

Stud. Residual

Deleted Residual

Stud. Deleted Residual

Mahal. Distance

Cook's Distance

Centered Leverage Value

Minimum Maximum Mean Std. Dev iation N

Dependent Variable: Conhecimentoa.

Page 14: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

14

Charts

As premissas básicas são:

1. Linearidade

2. i ~ Normal Normalidade

3. E(i) = 0

4. 2(i) constante homocedasticidade

5. cov(i, j) = 0 independência (autocorrelação dos erros igual a zero)

Como podemos observar pelo P-P Plot, a premissa de normalidade não é violada, assim

como se olharmos o gráfico dos resíduos padronizados versus os valores preditos

padronizados, podemos observar que as demais premissas são satisfeitas, pois os

resíduos se distribuem de maneira aleatória (sem formas definidas, sem padrões).

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Conhecimento

Observed Cum Prob

1,00,75,50,250,00

Expe

cted

Cum

Pro

b

1,00

,75

,50

,25

0,00

Scatterplot

Dependent Variable: Conhecimento

Regression Standardized Predicted Value

3210-1-2-3

Re

gre

ssio

n S

tan

da

rdiz

ed

Re

sid

ua

l

3

2

1

0

-1

-2

-3

Page 15: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

15

O segundo passo será rodar a regressão novamente realizando o método Backward.

Para isso, selecionaremos Method: Backward.

Os demais passos estão descritos acima, no PASSO A PASSO.

O output do SPSS, para esta regressão linear múltipla, está apresentado a seguir.

O quadro ‘Collinearity Diagnostic’ foi excluído.

Page 16: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

16

Método Forward Regression

Este quadro é o mesmo apresentado pelo Forward

Este quadro mostra que nenhuma variável foi excluída do modelo, já que o “Variables

Removed” está vazio. As cinco variáveis independentes entraram no modelo.

ATENÇÃO!!!

O modelo selecionado pelo método Backward foi o mesmo selecionado pelo Forward.

É o modelo que possui as 5 variáveis explicativas. Dessa forma a análise do output será

a mesma apresentada para o método Backward, uma vez que o modelo é o mesmo.

Não necessariamente a solução seria a mesma, pois a ordem de entrada (e saída) das

variáveis, no modelo, geram diferentes correlações parciais, o que poderia resultar em

diferentes modelos.

Descriptive Statistics

71,17 10,92 46

10,83 2,23 46

37,65 9,95 46

69,02 11,72 46

10,57 5,05 46

30,33 7,94 46

Conhecimento

Escolaridade

Idade

Av anços

Distância

Salário

Mean Std. Deviation N

Variables Entered/Removedb

Salário,

Idade,

Distância,

Av anços,

Escolarida

dea

, Enter

Model

1

Variables

Entered

Variables

Removed Method

All requested v ariables entered.a.

Dependent Variable: Conhecimentob.

Page 17: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

17

RESOLUÇÃO DAS QUESTÕES 2 A 6:

Para isso teremos que rodar uma nova regressão, na qual as variáveis independentes

serão: Escolaridade, Idade e Salário.

1º. Com o SPSS ainda aberto, no mesmo arquivo de dados, retornamos ao

ANALYSE

REGRESSION

LINEAR

2º. No quadro das variáveis independentes, ficam apenas as variáveis: Escolaridade,

Idade e Salário.

3º. Deixa o método Enter, pois está sendo pedido um modelo com essas 3 variáveis. Se

usarmos os métodos Backward ou Forward, pode ser que alguma destas variáveis não

fiquem no modelo;

Page 18: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

18

4º. Selecione OK.

Obs.: as demais marcações (STATISCITCS, PLOTS e SAVE) não se alteram. Caso você tenha

fechado o SPSS, terá que repetir aquelas telas de STATISTICS, PLOTS e SAVE, apresentadas nas

páginas anteriores.

OUTPUT DA REGRESSÃO:

Resposta da QUESTÃO 2

Item: Como você avaliaria o modelo cujas variáveis independentes são idade,

escolaridade e salário?

Regression

Análise:

Ao calcular o coeficiente de variação (CV) das quatro variáveis, obtivemos os seguintes

resultados:

Variável CV

Conhecimento 0,15

Escolaridade 0,20

Idade 0,26

Salário 0,26

Como todas as variáveis apresentam CV menores do que 50%, elas não possuem

dispersão alta. Com isso, não sugerimos nenhuma transformação nos dados.

Descriptive Statistics

71,17 10,92 46

10,83 2,23 46

37,65 9,95 46

30,33 7,94 46

Conhecimento

Escolaridade

Idade

Salário

Mean Std. Dev iation N

Page 19: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

19

Análise:

O modelo possui como variáveis independentes: Salário, Idade e Escolaridade.

Análise:

80,8% da variação total é explicada pela relação entre as variáveis independentes e Y

(variável dependente). O R² ajustado é o R² que leva em consideração o número de

variáveis explicativas presentes no modelo.

Std Error of the Estimate: o desvio padrão do modelo é igual a 4,79.

Variables Entered/Removedb

Salário, Idade,

Escolaridadea . Enter

Model

1

Variables Entered

Variables

Removed Method

All requested v ariables entered.a.

Dependent Variable: Conhecimentob.

Model Summaryb

,906a ,820 ,808 4,788

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), Salário, Idade, Escolaridadea.

Dependent Variable: Conhecimentob.

ANOVAb

4399,761 3 1466,587 63,973 ,000a

962,848 42 22,925

5362,609 45

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), Salário, Idade, Escolaridadea.

Dependent Variable: Conhecimentob.

Page 20: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

20

Análise:

Teste F – teste do modelo

H0: 1 = 2 = 3 = 0

H1: algum é diferente de zero

Nível de significância (alfa) = 0,05

Como Sig (0,000) é menor do que alfa (0,05) rejeitamos H0 e concluímos que existe pelo

menos um beta é diferente de zero, logo, pelo menos uma variável X possui relação

linear significativa com Y.

Resposta da QUESTÃO 2

Item: Interprete o modelo à luz de seus coeficientes.

Modelo Linear:

= 52,76 + 4,23 (escolaridade) - 0,64 (idade) - 0,10 (salário)

De acordo com o modelo selecionado, a cada ano a mais de escolaridade (X1), o

grau de conhecimento do processador (Y) aumenta em 4,23 unidades, mantendo as

demais variáveis constantes.

A cada ano a mais de idade (X2), o grau de conhecimento do processador (Y)

diminui 0,64 unidades, mantendo as demais variáveis constantes.

Coefficientsa

52,760 4,554 11,586 ,000

4,236 ,383 ,867 11,059 ,000 ,716 ,863 ,723 ,696 1,438

-,642 ,077 -,585 -8,315 ,000 -,401 -,789 -,544 ,864 1,157

-,109 ,107 -,079 -1,010 ,318 ,437 -,154 -,066 ,699 1,431

(Constant)

Escolaridade

Idade

Salário

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardized

Coeff icients

t Sig. Zero-order Part ial Part

Correlations

Tolerance VIF

Collinearity Statistics

Dependent Variable: Conhecimentoa.

Page 21: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

21

A cada salário mínimo ganho a mais (X3), o grau de conhecimento do processador

(Y) diminui 0,10 unidades, mantendo as demais variáveis constantes.

O coeficiente linear é igual a 52,76.

(não possui sentido prático neste exemplo)

Resposta da QUESTÃO 2

Item: Formule e teste a significância de cada um dos coeficientes angulares e diga

em que unidade cada um deles está expresso.

Teste t - teste dos coeficientes

1 é o coeficiente da variável “nível de escolaridade”, e b1 é o estimador de 1, expresso

em escala/anos de estudo.

Teste t para 1

H0: 1 = 0

H1: 1 0

Nível de significância () = 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.

Ou seja, concluímos que 1 0. Em outras palavras, existe relação linear entre o nível

de escolaridade (X1) e o grau de conhecimento (Y).

2 é o coeficiente da variável “idade” , e b2 é o estimador de 2, expresso em

escala/anos.

Teste t para 2

Page 22: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

22

H0: 2 = 0

H1: 2 0

= 0,05

Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância. Ou

seja, concluímos que 2 é significativamente diferente de zero. Com isso, existe relação

linear entre as variáveis idade (X2) e grau de conhecimento (Y).

3 é o coeficiente da variável “salário” , e b3 é o estimador de 3, expresso em

escala/no. de salários mínimos.

Teste t para 3

H0: 3 = 0

H1: 3 0

= 0,05

Como Sig (0,318) é MAIOR do que alfa (0,05), NÃO rejeitamos H0 ao nível de 5% de

significância. Ou seja, concluímos que 3 NÃO é significativamente diferente de zero, e

com isso, NÃO existe relação linear entre X3 (salário) e Y (grau de conhecimento). Essa

variável não é significativa para o modelo, logo, ela deveria ser retirada.

Intervalos de Confiança com 95% de confiança:

O intervalo de confiança para 1 é: [3,4 ;5]

O intervalo de confiança para 2 é: [-0,79 ; -0,4]

O intervalo de confiança para 3 é: [-0,325 ; 0,108]

Page 23: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

23

Como observamos, o Intervalo de Confiança de beta 3 (relacionado à variável Salário)

contempla o valor zero. E, se o zero está dentro do intervalo de confiança, o coeficiente

não é significativamente diferente de zero. Portanto, a variável X3 deve ser retirada do

modelo.

VaFs

Como os VIFs das três variáveis independentes são menores do que 5, não existe o

problema da multicolinearidade.

Resposta da QUESTÃO 3

Calcule a correlação entre idade e grau de conhecimento, corrigida pelo expurgo

das variáveis escolaridade e salário.

Coeficiente de Correlação Parcial (na tabela está no quadrinho Correlations Partial)

O coeficiente de correlação parcial entre as variáveis Idade (X2) e Grau de

Conhecimento (Y), corrigido pelo expurgo das variáveis Escolaridade (X1) e Salário (X3),

é igual a -0,789. Esse coeficiente de correlação parcial é alto (quase |0,8|) e mostra

que a variável Idade explica bastante do modelo.

O coeficiente de correlação parcial entre as variáveis Escolaridade (X1) e Grau de

Conhecimento (Y), corrigido pelo expurgo das variáveis Idade (X2) e Salário (X3), é igual

a 0,863. Esse coeficiente de correlação parcial também é alto (maior do que 0,8)

mostra que a variável Escolaridade explica bastante do modelo.

O coeficiente de correlação parcial entre as variáveis Salário (X3) e Grau de

Conhecimento (Y), corrigido pelo expurgo das variáveis Escolaridade (X1) e Idade (X2),

é igual a -0,154. Esse coef. de correlação parcial é muito baixo (0,154 é menor do que

0,5), mostrando que a variável Salário explica pouquíssimo do modelo. Isso reforça o

que foi apresentado anteriormente: a variável Salário (X3) não é significativa para o

modelo e deveria ser retirada.

Page 24: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

24

Resposta da QUESTÃO 2

Item: Há alguma evidência de outlier neste modelo?

Olharemos para o Std. Residual para verificarmos se existem candidatos a outlier ou

valor influente.

Olharemos também para Cook’s Distance para ver se existe valor influente. Caso o

Maximun esteja maior de 0,9, a observação é valor influente.

Análise:

Residuals Statisticsa

47,98 91,01 71,17 9,888 46

-2,345 2,006 ,000 1,000 46

,735 2,282 1,359 ,387 46

47,98 90,62 71,16 9,893 46

-12,426 11,984 ,000 4,626 46

-2,595 2,503 ,000 ,966 46

-2,640 2,557 ,001 ,998 46

-12,859 12,504 ,011 4,945 46

-2,856 2,749 -,003 1,038 46

,083 9,241 2,935 2,144 46

,000 ,114 ,017 ,026 46

,002 ,205 ,065 ,048 46

Predicted Value

Std. Predicted Value

Standard Error of

Predicted Value

Adjusted Predicted Value

Residual

Std. Residual

Stud. Residual

Deleted Residual

Stud. Deleted Residual

Mahal. Distance

Cook's Distance

Centered Leverage Value

Minimum Maximum Mean Std. Dev iation N

Dependent Variable: Conhecimentoa.

Scatterplot

Dependent Variable: Conhecimento

Regression Standardized Predicted Value

3210-1-2-3

Regre

ssio

n S

tandard

ized R

esid

ual

3

2

1

0

-1

-2

-3

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Conhecimento

Observed Cum Prob

1,00,75,50,250,00

Expe

cted

Cum

Pro

b

1,00

,75

,50

,25

0,00

Page 25: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

25

O Std Residual (resíduo padronizado) está dentro do intervalo de 3 desvios, logo não

existem candidatos a outlier e nem valor influente.

A distância de Cook máxima (0,114) é muito inferior a 1, o que reforça a afirmativa

acima, de que não existem valores influentes.

Resposta da QUESTÃO 4 e QUESTÃO 5

Investigue a possível violação das premissas do modelo linear. Qual a importância

da premissa de distribuição dos erros (normalidade).

As premissas básicas são:

1. Linearidade

2. i ~ Normal Normalidade

3. E(i) = 0

4. 2(i) constante homocedasticidade = variância constante dos erros

5. cov(i, j) = 0 independência (autocorrelação dos erros igual a zero)

Como podemos observar pelo P-P Plot, a premissa de normalidade não é violada, assim

como se olharmos o gráfico (Scatterplot) dos resíduos padronizados X os valores

preditos padronizados, podemos observar que as demais premissas são satisfeitas, pois

os resíduos se distribuem de maneira aleatória (sem formas definidas, sem padrões).

Normalidade: Essa premissa é fundamental, pois toda inferência é feita com base nas

distribuições (t, F) que vêm da Normal. Se a Normal for violada, os testes que serão

feitos não irão servir pra nada. Se não tiver normalidade, não pode-se testar os

parâmetros, realizar o modelo.

Page 26: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

26

Resposta da QUESTÃO 6

Faça uma previsão para o grau de conhecimento esperado de uma pessoa de 45

anos, com 15 anos de estudo e renda de 30 salários mínimos.

Modelo Linear:

= 52,76 + 4,23 (escolaridade) - 0,64 (idade) - 0,10 (salário)

= 52,76 + 4,23 (15) - 0,64 (45) - 0,10 (30) =

= 84,41.

Page 27: SPSS Regressao multipla

www.alphaquant.com.br

[email protected]

27

Base de dados

Gerente Conhecimento Escolaridade Idade Avanços Distância Salário ID y x1 x2 x3 x4 x5

1 76 12 33 65 11 19 2 65 10 51 74 6 21 3 73 15 59 86 15 40 4 76 11 33 67 15 21 5 68 10 35 65 19 28 6 69 8 23 55 16 12 7 56 7 34 59 12 33 8 70 11 43 73 11 27 9 60 12 43 50 17 33

10 73 11 33 76 16 40 11 60 10 53 68 15 24 12 64 8 26 56 12 30 13 80 14 56 91 4 31 14 88 13 22 69 6 40 15 61 9 43 68 9 30 16 80 12 33 73 12 28 17 69 11 39 72 13 32 18 75 13 41 68 11 33 19 48 6 43 55 16 24 20 79 10 25 80 13 44 21 62 10 43 53 5 21 22 80 15 46 82 21 31 23 69 10 37 66 8 26 24 67 10 43 68 1 35 25 70 9 23 53 4 36 26 81 11 26 74 9 40 27 43 7 44 39 8 23 28 88 11 14 64 1 36 29 60 7 37 64 15 17 30 72 11 32 64 14 36 31 64 9 45 72 10 22 32 92 12 31 97 3 34 33 85 12 36 94 6 32 34 67 10 45 74 9 23 35 65 11 48 73 10 42 36 94 15 33 81 2 38 37 77 14 54 83 9 27 38 83 13 40 82 13 31 39 70 8 33 68 5 19 40 78 11 24 64 5 42 41 68 11 36 65 19 28 42 60 12 44 50 17 33 43 88 13 23 69 7 41 44 76 14 42 68 11 33 45 60 8 37 64 15 17 46 65 11 48 74 10 42