Upload
adriano-beluco
View
128
Download
3
Embed Size (px)
www.alphaquant.com.br
1
RREEGGRREESSSSÃÃOO LLIINNEEAARR MMÚÚLLTTIIPPLLAA –– eexxeemmpplloo uussaannddoo oo SSPPSSSS
Um fabricante de produtos eletrônicos está interessado em saber que variáveis
estão associadas com o grau de conhecimento dos consumidores sobre um tipo de
processador que a companhia lançou recentemente no mercado. Uma amostra de
46 clientes foi selecionada fornecendo dados sobre os gerentes de compras em
relação às variáveis:
Y = grau de conhecimento do processador (escala de 0 a 100)
X1 = Nível de escolaridade (anos de estudo)
X2 = Idade (anos)
X3 = grau de conhecimento sobre os recentes avanços na área (escala de 0 a 100)
X4 = distância entre o escritório e a loja mais próxima (Km)
X5 = salário mensal (número de salários mínimos)
1. Encontre a melhor regressão utilizando o método Forward e compare com a
melhor regressão utilizando o método Backward. A solução encontrada foi a
mesma? Deveria ser?
2. Como você avaliaria o modelo cujas variáveis independentes são idade,
escolaridade e salário? Interprete o modelo. Formule e teste a significância de cada
um dos coeficientes angulares. Alguma evidência de outlier nesse modelo?
3. Considerando o modelo do item 2, calcule a correlação entre idade e grau de
conhecimento do processador, corrigida pelo expurgo das variáveis escolaridade e
salário.
4. Considerando o modelo do item 2, investigue a possível violação das premissas
do modelo linear. Qual a importância da premissa de distribuição dos erros
(normalidade)?
5. Analise os resíduos e comente sobre alguma anomalia encontrada no modelo do
item 2.
6. Faça uma previsão para o grau de conhecimento esperado de uma pessoa de 45
anos, com 15 anos de estudo e renda de 30 salários mínimos.
www.alphaquant.com.br
2
COMO RODAR A REGRESSÃO LINEAR MÚLTIPLA NO SPSS
1º Abrir o SPSS
INICIAR
SPSS FOR WINDOWS
2º Abrir o arquivo com os dados numéricos
FILE
OPEN
DATA
3º Para rodar a regressão linear, fazer:
www.alphaquant.com.br
3
4º Selecionar a variável dependente (Y) e as independentes (X) e também, o método
que será utilizado (Enter, Forward ou Backward):
Após isto, clicar em CONTINUE.
OBS.: no caso da regressão linear simples (quando só existe uma variável
independente - X), o método será o Enter.
5º No botão STATISTICS, selecionar:
OBS: Selecione o R square change.
Após isto, clicar em CONTINUE.
www.alphaquant.com.br
4
6º No botão PLOTS, selecionar:
Se quiser os gráficos de Y com todos os Xs, selecione Produce all partial plots
Após isto clicar em CONTINUE.
7º No botão SAVE, selecionar:
Após isto clicar em CONTINUE.
8º Clicar em OK.
O SPSS irá ‘rodar’ a regressão linear múltipla.
www.alphaquant.com.br
5
Resolução do Exercício – Análise do OUTPUT
Resposta da QUESTÃO 1
Faremos primeiro o método Forward. Para isso, selecionaremos Method: Forward.
Os demais passos estão relacionados no PASSO A PASSO acima.
O output do SPSS, para esta regressão linear múltipla, está apresentado a seguir.
Após cada quadro é mencionada a utilidade dele. E, em itálico e azul, é feita a análise
estatística.
OBS.: No output, os quadros ‘Excluded Variables’ e ‘Collinearity Diagnostic’ foram excluídos.
www.alphaquant.com.br
6
Método Forward Regression
Devemos calcular o CV (coeficiente de variação). O CV é calculado dividindo-se o
desvio padrão (Std. Deviation) pela média (Mean).
Análise
Como os coeficientes de variação de todas as variáveis são menores do que 50%,
considera-se que as variáveis não possuem alta dispersão. Por isso, não é necessária
nenhuma transformação nos dados.
Esse quadro apresenta a ordem de entrada das variáveis no modelo.
Não faremos análises estatísticas sobre ele.
Descriptive Statistics
71,17 10,92 46
10,83 2,23 46
37,65 9,95 46
69,02 11,72 46
10,57 5,05 46
30,33 7,94 46
Conhecimento
Escolaridade
Idade
Av anços
Distância
Salário
Mean Std. Deviation N
Variables Entered/Removeda
Escolaridade , Forward (Criterion: Probability -of -F-to-enter <= ,050)
Idade , Forward (Criterion: Probability -of -F-to-enter <= ,050)
Avanços , Forward (Criterion: Probability -of -F-to-enter <= ,050)
Distância , Forward (Criterion: Probability -of -F-to-enter <= ,050)
Salário , Forward (Criterion: Probability -of -F-to-enter <= ,050)
Model
1
2
3
4
5
Variables Entered
Variables
Remov ed Method
Dependent Variable: Conhecimentoa.
www.alphaquant.com.br
7
O modelo escolhido pelo método Forward é o último (o quinto). Então, analisaremos
apenas as estatísticas dele.
Podemos observar que, a cada entrada de uma nova variável no modelo, o R² ajustado
e o Desvio Padrão do modelo melhoravam. Ou seja, o R² ajustado aumentava e o
desvio padrão da estimativa diminuía – o que é muito bom.
Não olhamos para o R², mas sim para o R² ajustado, pois se trata de uma regressão
múltipla. Para compararmos diversos modelos com diferentes números de variáveis
independentes, usamos o R² ajustado, e não o R². O R² ajustado pondera o R2 de
acordo com o número de variáveis independentes no modelo, e o número de
observações.
Análise:
R² ajustado: 98,9% da variação total é explicada pela relação entre as variáveis
independentes e Y (variável dependente), quando levados em consideração o número
de variáveis independentes no modelo. Essa estatística sofre penalização pela entrada
de variáveis no modelo..
Std Error of the Estimate: o desvio padrão do modelo é igual a 1,16.
Model Summaryf
,716a ,512 ,501 7,71
,903b ,816 ,808 4,79
,982c ,964 ,961 2,15
,989d ,978 ,975 1,71
,995e ,990 ,989 1,16
Model
1
2
3
4
5
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), Escolaridadea.
Predictors: (Constant), Escolaridade, Idadeb.
Predictors: (Constant), Escolaridade, Idade, Av ançosc.
Predictors: (Constant), Escolaridade, Idade, Av anços,
Distância
d.
Predictors: (Constant), Escolaridade, Idade, Av anços,
Distância, Salário
e.
Dependent Variable: Conhecimentof .
www.alphaquant.com.br
8
O SPSS apresenta o resultado das regressões realizadas até se chegar no melhor
modelo. Como o melhor modelo é o último (o 5º apresentado por ele), faremos o teste
F apenas desse modelo.
Análise:
Teste F – teste do modelo
H0: 1 = 2 = 3 = 4 = 5= 0
H1: algum é diferente de zero
Alpha = 5%
ANOVAf
2746,285 1 2746,285 46,186 ,000a
2616,324 44 59,462
5362,609 45
4376,383 2 2188,191 95,406 ,000b
986,226 43 22,935
5362,609 45
5168,536 3 1722,845 372,847 ,000c
194,073 42 4,621
5362,609 45
5242,282 4 1310,571 446,564 ,000d
120,326 41 2,935
5362,609 45
5308,707 5 1061,741 787,917 ,000e
53,901 40 1,348
5362,609 45
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Model
1
2
3
4
5
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Escolaridadea.
Predictors: (Constant), Escolaridade, Idadeb.
Predictors: (Constant), Escolaridade, Idade, Avançosc.
Predictors: (Constant), Escolaridade, Idade, Avanços, Distânciad.
Predictors: (Constant), Escolaridade, Idade, Avanços, Distância, Salárioe.
Dependent Variable: Conhecimentof .
www.alphaquant.com.br
9
Como Sig (0,000) é menor do que alfa (0,05) rejeitamos H0 e concluímos que pelo
menos um beta é diferente de zero, logo, existe relação linear entre Y e pelo menos um
X.
Essa tabela apresenta os coeficientes angulares (os betas) das variáveis. Apresenta os
intervalos de confiança de cada coeficiente, a correlação parcial e o VIF.
Novamente só olharemos para o modelo 5 (que foi escolhido como o melhor).
Testes para i´s
i indica a mudança que ocorre na resposta média E(Y), por unidade de mudança
(com incremento unitário) na variável independente Xi, quando as demais variáveis
são mantidas constantes.
O parâmetro 0 é o intercepto do plano de regressão (coeficiente linear). 1 , 2 ,
.... 5 são coeficientes de regressão (coef angulares).
Para testar se cada variável explicativa, separadamente, é significativa para o
modelo, procedemos ao teste t.
Coefficientsa
33,318 5,685 5,861 ,000 21,861 44,776
3,497 ,515 ,716 6,796 ,000 2,460 4,534 ,716 ,716 ,716 1,000 1,000
50,738 4,091 12,402 ,000 42,488 58,989
4,033 ,326 ,825 12,377 ,000 3,376 4,690 ,716 ,884 ,809 ,962 1,040
-,617 ,073 -,562 -8,430 ,000 -,764 -,469 -,401 -,789 -,551 ,962 1,040
36,426 2,137 17,046 ,000 32,113 40,739
2,704 ,178 ,553 15,190 ,000 2,345 3,063 ,716 ,920 ,446 ,649 1,540
-,673 ,033 -,613 -20,317 ,000 -,740 -,606 -,401 -,953 -,596 ,946 1,057
,446 ,034 ,479 13,093 ,000 ,378 ,515 ,672 ,896 ,384 ,643 1,555
39,889 1,838 21,704 ,000 36,178 43,601
2,727 ,142 ,558 19,211 ,000 2,440 3,013 ,716 ,949 ,449 ,649 1,542
-,639 ,027 -,582 -23,463 ,000 -,694 -,584 -,401 -,965 -,549 ,888 1,126
,415 ,028 ,446 14,890 ,000 ,359 ,471 ,672 ,919 ,348 ,611 1,637
-,267 ,053 -,124 -5,013 ,000 -,374 -,159 -,367 -,616 -,117 ,901 1,110
43,433 1,344 32,322 ,000 40,717 46,148
3,047 ,106 ,624 28,627 ,000 2,831 3,262 ,716 ,976 ,454 ,530 1,888
-,679 ,019 -,618 -35,171 ,000 -,718 -,640 -,401 -,984 -,558 ,813 1,230
,421 ,019 ,452 22,278 ,000 ,383 ,459 ,672 ,962 ,353 ,610 1,641
-,299 ,036 -,138 -8,224 ,000 -,373 -,226 -,367 -,793 -,130 ,886 1,128
-,185 ,026 -,135 -7,021 ,000 -,238 -,132 ,437 -,743 -,111 ,684 1,462
(Constant)
Escolaridade
(Constant)
Escolaridade
Idade
(Constant)
Escolaridade
Idade
Av anços
(Constant)
Escolaridade
Idade
Av anços
Distância
(Constant)
Escolaridade
Idade
Av anços
Distância
Salário
Model
1
2
3
4
5
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig. Lower Bound Upper Bound
95% Conf idence Interval for B
Zero-order Part ial Part
Correlations
Tolerance VIF
Collinearity Statistics
Dependent Variable: Conhecimentoa.
www.alphaquant.com.br
10
Análise:
Teste t - teste dos coeficientes
1 é o coeficiente da variável “nível de escolaridade”, e b1 é o estimador de 1, expresso
em escala/anos de estudo.
Teste t para 1
H0: 1 = 0
H1: 1 0
= 0,05
Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.
Ou seja, concluímos que 1 0.
2 é o coeficiente da variável “idade” , e b2 é o estimador de 2, expresso em
escala/anos.
Teste t para 2
H0: 2 = 0
H1: 2 0
= 0,05
Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.
Ou seja, concluímos que 2 0.
3 é o coeficiente da variável “avanços” , e b3 é o estimador de 3.
Teste t para 3
H0: 3 = 0
H1: 3 0
= 0,05
Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.
Ou seja, concluímos que 3 0.
www.alphaquant.com.br
11
4 é o coeficiente da variável “distância” , e b4 é o estimador de 4, expresso em
escala/Km.
Teste t para 4
H0: 4 = 0
H1: 4 0
= 0,05
Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.
Ou seja, concluímos que 4 0.
5 é o coeficiente da variável “salário” , e b5 é o estimador de 5, expresso em
escala/no. de s.m..
Teste t para 5
H0: 5 = 0
H1: 5 0
= 0,05
Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.
Ou seja, concluímos que 5 0.
......................
Intervalos de Confiança com 95% de confiança:
O intervalo de confiança para 1 é: [2,8 ; 3,2]
O intervalo de confiança para 2 é: [-0,7; -0,6]
O intervalo de confiança para 3 é: [0,38; 0,459]
O intervalo de confiança para 4 é: [-0,37 ; -0,22]
O intervalo de confiança para 5 é: [-0,23 ; -0,13]
www.alphaquant.com.br
12
VIFs
Como os VIFs das cinco variáveis independentes são menores do que 5, não existe o
problema da multicolinearidade
Modelo Linear:
= 43,43 + 3,04 (escolaridade) - 0,67 (idade) + 0,42 (avanço) - 0,29 (distância) - 0,18
(salário)
De acordo com o modelo selecionado, a cada ano a mais de escolaridade (X1), o
grau de conhecimento do processador (Y) aumenta 3,04 unidades, mantendo as
demais variáveis constantes.
A cada ano a mais de idade (X2), o grau de conhecimento do processador (Y)
diminui 0,67 unidades, mantendo as demais variáveis constantes.
A cada incremento unitário no avanço (X3), o grau de conhecimento do
processador (Y) aumenta 0,42 unidades, mantendo as demais variáveis constantes.
A cada quilômetro a mais de distância (X4), o grau de conhecimento do
processador (Y) diminui 0,29 unidades, mantendo as demais variáveis constantes.
A cada salário mínimo ganho a mais (X5), o grau de conhecimento do processador
(Y) diminui 0,18 unidades, mantendo as demais variáveis constantes.
O coeficiente linear é igual a 43,43. Ou seja, se todas as variáveis independentes forem
iguais a zero, o grau de conhecimento do processador é igual a 43,43.
www.alphaquant.com.br
13
Olharemos para o Std. Residual para verificarmos se existem candidatos a outlier ou
valor influente.
Olharemos também para Cook’s Distance para ver se existe valor influente. Caso o
Maximun esteja maior de 1, a observação é valor influente.
Análise da tabela:
O Std Residual está dentro do intervalo de 3 desvios, logo não existem candidatos a
outlier e nem valor influente.
A distância de Cook máxima é muito inferior a 1, o que reforça a afirmativa acima, de
que não existem valores influentes.
Residuals Statisticsa
44,69 93,24 71,17 10,86 46
-2,439 2,031 ,000 1,000 46
,21 ,58 ,41 9,69E-02 46
45,24 93,08 71,18 10,86 46
-2,45 2,34 -1,50E-14 1,09 46
-2,110 2,019 ,000 ,943 46
-2,293 2,118 -,002 1,007 46
-2,89 2,58 -4,83E-03 1,25 46
-2,429 2,219 -,006 1,032 46
,465 10,145 4,891 2,597 46
,000 ,158 ,024 ,037 46
,010 ,225 ,109 ,058 46
Predicted Value
Std. Predicted Value
Standard Error of
Predicted Value
Adjusted Predicted Value
Residual
Std. Residual
Stud. Residual
Deleted Residual
Stud. Deleted Residual
Mahal. Distance
Cook's Distance
Centered Leverage Value
Minimum Maximum Mean Std. Dev iation N
Dependent Variable: Conhecimentoa.
www.alphaquant.com.br
14
Charts
As premissas básicas são:
1. Linearidade
2. i ~ Normal Normalidade
3. E(i) = 0
4. 2(i) constante homocedasticidade
5. cov(i, j) = 0 independência (autocorrelação dos erros igual a zero)
Como podemos observar pelo P-P Plot, a premissa de normalidade não é violada, assim
como se olharmos o gráfico dos resíduos padronizados versus os valores preditos
padronizados, podemos observar que as demais premissas são satisfeitas, pois os
resíduos se distribuem de maneira aleatória (sem formas definidas, sem padrões).
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: Conhecimento
Observed Cum Prob
1,00,75,50,250,00
Expe
cted
Cum
Pro
b
1,00
,75
,50
,25
0,00
Scatterplot
Dependent Variable: Conhecimento
Regression Standardized Predicted Value
3210-1-2-3
Re
gre
ssio
n S
tan
da
rdiz
ed
Re
sid
ua
l
3
2
1
0
-1
-2
-3
www.alphaquant.com.br
15
O segundo passo será rodar a regressão novamente realizando o método Backward.
Para isso, selecionaremos Method: Backward.
Os demais passos estão descritos acima, no PASSO A PASSO.
O output do SPSS, para esta regressão linear múltipla, está apresentado a seguir.
O quadro ‘Collinearity Diagnostic’ foi excluído.
www.alphaquant.com.br
16
Método Forward Regression
Este quadro é o mesmo apresentado pelo Forward
Este quadro mostra que nenhuma variável foi excluída do modelo, já que o “Variables
Removed” está vazio. As cinco variáveis independentes entraram no modelo.
ATENÇÃO!!!
O modelo selecionado pelo método Backward foi o mesmo selecionado pelo Forward.
É o modelo que possui as 5 variáveis explicativas. Dessa forma a análise do output será
a mesma apresentada para o método Backward, uma vez que o modelo é o mesmo.
Não necessariamente a solução seria a mesma, pois a ordem de entrada (e saída) das
variáveis, no modelo, geram diferentes correlações parciais, o que poderia resultar em
diferentes modelos.
Descriptive Statistics
71,17 10,92 46
10,83 2,23 46
37,65 9,95 46
69,02 11,72 46
10,57 5,05 46
30,33 7,94 46
Conhecimento
Escolaridade
Idade
Av anços
Distância
Salário
Mean Std. Deviation N
Variables Entered/Removedb
Salário,
Idade,
Distância,
Av anços,
Escolarida
dea
, Enter
Model
1
Variables
Entered
Variables
Removed Method
All requested v ariables entered.a.
Dependent Variable: Conhecimentob.
www.alphaquant.com.br
17
RESOLUÇÃO DAS QUESTÕES 2 A 6:
Para isso teremos que rodar uma nova regressão, na qual as variáveis independentes
serão: Escolaridade, Idade e Salário.
1º. Com o SPSS ainda aberto, no mesmo arquivo de dados, retornamos ao
ANALYSE
REGRESSION
LINEAR
2º. No quadro das variáveis independentes, ficam apenas as variáveis: Escolaridade,
Idade e Salário.
3º. Deixa o método Enter, pois está sendo pedido um modelo com essas 3 variáveis. Se
usarmos os métodos Backward ou Forward, pode ser que alguma destas variáveis não
fiquem no modelo;
www.alphaquant.com.br
18
4º. Selecione OK.
Obs.: as demais marcações (STATISCITCS, PLOTS e SAVE) não se alteram. Caso você tenha
fechado o SPSS, terá que repetir aquelas telas de STATISTICS, PLOTS e SAVE, apresentadas nas
páginas anteriores.
OUTPUT DA REGRESSÃO:
Resposta da QUESTÃO 2
Item: Como você avaliaria o modelo cujas variáveis independentes são idade,
escolaridade e salário?
Regression
Análise:
Ao calcular o coeficiente de variação (CV) das quatro variáveis, obtivemos os seguintes
resultados:
Variável CV
Conhecimento 0,15
Escolaridade 0,20
Idade 0,26
Salário 0,26
Como todas as variáveis apresentam CV menores do que 50%, elas não possuem
dispersão alta. Com isso, não sugerimos nenhuma transformação nos dados.
Descriptive Statistics
71,17 10,92 46
10,83 2,23 46
37,65 9,95 46
30,33 7,94 46
Conhecimento
Escolaridade
Idade
Salário
Mean Std. Dev iation N
www.alphaquant.com.br
19
Análise:
O modelo possui como variáveis independentes: Salário, Idade e Escolaridade.
Análise:
80,8% da variação total é explicada pela relação entre as variáveis independentes e Y
(variável dependente). O R² ajustado é o R² que leva em consideração o número de
variáveis explicativas presentes no modelo.
Std Error of the Estimate: o desvio padrão do modelo é igual a 4,79.
Variables Entered/Removedb
Salário, Idade,
Escolaridadea . Enter
Model
1
Variables Entered
Variables
Removed Method
All requested v ariables entered.a.
Dependent Variable: Conhecimentob.
Model Summaryb
,906a ,820 ,808 4,788
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), Salário, Idade, Escolaridadea.
Dependent Variable: Conhecimentob.
ANOVAb
4399,761 3 1466,587 63,973 ,000a
962,848 42 22,925
5362,609 45
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Salário, Idade, Escolaridadea.
Dependent Variable: Conhecimentob.
www.alphaquant.com.br
20
Análise:
Teste F – teste do modelo
H0: 1 = 2 = 3 = 0
H1: algum é diferente de zero
Nível de significância (alfa) = 0,05
Como Sig (0,000) é menor do que alfa (0,05) rejeitamos H0 e concluímos que existe pelo
menos um beta é diferente de zero, logo, pelo menos uma variável X possui relação
linear significativa com Y.
Resposta da QUESTÃO 2
Item: Interprete o modelo à luz de seus coeficientes.
Modelo Linear:
= 52,76 + 4,23 (escolaridade) - 0,64 (idade) - 0,10 (salário)
De acordo com o modelo selecionado, a cada ano a mais de escolaridade (X1), o
grau de conhecimento do processador (Y) aumenta em 4,23 unidades, mantendo as
demais variáveis constantes.
A cada ano a mais de idade (X2), o grau de conhecimento do processador (Y)
diminui 0,64 unidades, mantendo as demais variáveis constantes.
Coefficientsa
52,760 4,554 11,586 ,000
4,236 ,383 ,867 11,059 ,000 ,716 ,863 ,723 ,696 1,438
-,642 ,077 -,585 -8,315 ,000 -,401 -,789 -,544 ,864 1,157
-,109 ,107 -,079 -1,010 ,318 ,437 -,154 -,066 ,699 1,431
(Constant)
Escolaridade
Idade
Salário
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig. Zero-order Part ial Part
Correlations
Tolerance VIF
Collinearity Statistics
Dependent Variable: Conhecimentoa.
www.alphaquant.com.br
21
A cada salário mínimo ganho a mais (X3), o grau de conhecimento do processador
(Y) diminui 0,10 unidades, mantendo as demais variáveis constantes.
O coeficiente linear é igual a 52,76.
(não possui sentido prático neste exemplo)
Resposta da QUESTÃO 2
Item: Formule e teste a significância de cada um dos coeficientes angulares e diga
em que unidade cada um deles está expresso.
Teste t - teste dos coeficientes
1 é o coeficiente da variável “nível de escolaridade”, e b1 é o estimador de 1, expresso
em escala/anos de estudo.
Teste t para 1
H0: 1 = 0
H1: 1 0
Nível de significância () = 0,05
Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância.
Ou seja, concluímos que 1 0. Em outras palavras, existe relação linear entre o nível
de escolaridade (X1) e o grau de conhecimento (Y).
2 é o coeficiente da variável “idade” , e b2 é o estimador de 2, expresso em
escala/anos.
Teste t para 2
www.alphaquant.com.br
22
H0: 2 = 0
H1: 2 0
= 0,05
Como Sig (0,000) é menor do que alfa, rejeitamos H0 ao nível de 5% de significância. Ou
seja, concluímos que 2 é significativamente diferente de zero. Com isso, existe relação
linear entre as variáveis idade (X2) e grau de conhecimento (Y).
3 é o coeficiente da variável “salário” , e b3 é o estimador de 3, expresso em
escala/no. de salários mínimos.
Teste t para 3
H0: 3 = 0
H1: 3 0
= 0,05
Como Sig (0,318) é MAIOR do que alfa (0,05), NÃO rejeitamos H0 ao nível de 5% de
significância. Ou seja, concluímos que 3 NÃO é significativamente diferente de zero, e
com isso, NÃO existe relação linear entre X3 (salário) e Y (grau de conhecimento). Essa
variável não é significativa para o modelo, logo, ela deveria ser retirada.
Intervalos de Confiança com 95% de confiança:
O intervalo de confiança para 1 é: [3,4 ;5]
O intervalo de confiança para 2 é: [-0,79 ; -0,4]
O intervalo de confiança para 3 é: [-0,325 ; 0,108]
www.alphaquant.com.br
23
Como observamos, o Intervalo de Confiança de beta 3 (relacionado à variável Salário)
contempla o valor zero. E, se o zero está dentro do intervalo de confiança, o coeficiente
não é significativamente diferente de zero. Portanto, a variável X3 deve ser retirada do
modelo.
VaFs
Como os VIFs das três variáveis independentes são menores do que 5, não existe o
problema da multicolinearidade.
Resposta da QUESTÃO 3
Calcule a correlação entre idade e grau de conhecimento, corrigida pelo expurgo
das variáveis escolaridade e salário.
Coeficiente de Correlação Parcial (na tabela está no quadrinho Correlations Partial)
O coeficiente de correlação parcial entre as variáveis Idade (X2) e Grau de
Conhecimento (Y), corrigido pelo expurgo das variáveis Escolaridade (X1) e Salário (X3),
é igual a -0,789. Esse coeficiente de correlação parcial é alto (quase |0,8|) e mostra
que a variável Idade explica bastante do modelo.
O coeficiente de correlação parcial entre as variáveis Escolaridade (X1) e Grau de
Conhecimento (Y), corrigido pelo expurgo das variáveis Idade (X2) e Salário (X3), é igual
a 0,863. Esse coeficiente de correlação parcial também é alto (maior do que 0,8)
mostra que a variável Escolaridade explica bastante do modelo.
O coeficiente de correlação parcial entre as variáveis Salário (X3) e Grau de
Conhecimento (Y), corrigido pelo expurgo das variáveis Escolaridade (X1) e Idade (X2),
é igual a -0,154. Esse coef. de correlação parcial é muito baixo (0,154 é menor do que
0,5), mostrando que a variável Salário explica pouquíssimo do modelo. Isso reforça o
que foi apresentado anteriormente: a variável Salário (X3) não é significativa para o
modelo e deveria ser retirada.
www.alphaquant.com.br
24
Resposta da QUESTÃO 2
Item: Há alguma evidência de outlier neste modelo?
Olharemos para o Std. Residual para verificarmos se existem candidatos a outlier ou
valor influente.
Olharemos também para Cook’s Distance para ver se existe valor influente. Caso o
Maximun esteja maior de 0,9, a observação é valor influente.
Análise:
Residuals Statisticsa
47,98 91,01 71,17 9,888 46
-2,345 2,006 ,000 1,000 46
,735 2,282 1,359 ,387 46
47,98 90,62 71,16 9,893 46
-12,426 11,984 ,000 4,626 46
-2,595 2,503 ,000 ,966 46
-2,640 2,557 ,001 ,998 46
-12,859 12,504 ,011 4,945 46
-2,856 2,749 -,003 1,038 46
,083 9,241 2,935 2,144 46
,000 ,114 ,017 ,026 46
,002 ,205 ,065 ,048 46
Predicted Value
Std. Predicted Value
Standard Error of
Predicted Value
Adjusted Predicted Value
Residual
Std. Residual
Stud. Residual
Deleted Residual
Stud. Deleted Residual
Mahal. Distance
Cook's Distance
Centered Leverage Value
Minimum Maximum Mean Std. Dev iation N
Dependent Variable: Conhecimentoa.
Scatterplot
Dependent Variable: Conhecimento
Regression Standardized Predicted Value
3210-1-2-3
Regre
ssio
n S
tandard
ized R
esid
ual
3
2
1
0
-1
-2
-3
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: Conhecimento
Observed Cum Prob
1,00,75,50,250,00
Expe
cted
Cum
Pro
b
1,00
,75
,50
,25
0,00
www.alphaquant.com.br
25
O Std Residual (resíduo padronizado) está dentro do intervalo de 3 desvios, logo não
existem candidatos a outlier e nem valor influente.
A distância de Cook máxima (0,114) é muito inferior a 1, o que reforça a afirmativa
acima, de que não existem valores influentes.
Resposta da QUESTÃO 4 e QUESTÃO 5
Investigue a possível violação das premissas do modelo linear. Qual a importância
da premissa de distribuição dos erros (normalidade).
As premissas básicas são:
1. Linearidade
2. i ~ Normal Normalidade
3. E(i) = 0
4. 2(i) constante homocedasticidade = variância constante dos erros
5. cov(i, j) = 0 independência (autocorrelação dos erros igual a zero)
Como podemos observar pelo P-P Plot, a premissa de normalidade não é violada, assim
como se olharmos o gráfico (Scatterplot) dos resíduos padronizados X os valores
preditos padronizados, podemos observar que as demais premissas são satisfeitas, pois
os resíduos se distribuem de maneira aleatória (sem formas definidas, sem padrões).
Normalidade: Essa premissa é fundamental, pois toda inferência é feita com base nas
distribuições (t, F) que vêm da Normal. Se a Normal for violada, os testes que serão
feitos não irão servir pra nada. Se não tiver normalidade, não pode-se testar os
parâmetros, realizar o modelo.
www.alphaquant.com.br
26
Resposta da QUESTÃO 6
Faça uma previsão para o grau de conhecimento esperado de uma pessoa de 45
anos, com 15 anos de estudo e renda de 30 salários mínimos.
Modelo Linear:
= 52,76 + 4,23 (escolaridade) - 0,64 (idade) - 0,10 (salário)
= 52,76 + 4,23 (15) - 0,64 (45) - 0,10 (30) =
= 84,41.
www.alphaquant.com.br
27
Base de dados
Gerente Conhecimento Escolaridade Idade Avanços Distância Salário ID y x1 x2 x3 x4 x5
1 76 12 33 65 11 19 2 65 10 51 74 6 21 3 73 15 59 86 15 40 4 76 11 33 67 15 21 5 68 10 35 65 19 28 6 69 8 23 55 16 12 7 56 7 34 59 12 33 8 70 11 43 73 11 27 9 60 12 43 50 17 33
10 73 11 33 76 16 40 11 60 10 53 68 15 24 12 64 8 26 56 12 30 13 80 14 56 91 4 31 14 88 13 22 69 6 40 15 61 9 43 68 9 30 16 80 12 33 73 12 28 17 69 11 39 72 13 32 18 75 13 41 68 11 33 19 48 6 43 55 16 24 20 79 10 25 80 13 44 21 62 10 43 53 5 21 22 80 15 46 82 21 31 23 69 10 37 66 8 26 24 67 10 43 68 1 35 25 70 9 23 53 4 36 26 81 11 26 74 9 40 27 43 7 44 39 8 23 28 88 11 14 64 1 36 29 60 7 37 64 15 17 30 72 11 32 64 14 36 31 64 9 45 72 10 22 32 92 12 31 97 3 34 33 85 12 36 94 6 32 34 67 10 45 74 9 23 35 65 11 48 73 10 42 36 94 15 33 81 2 38 37 77 14 54 83 9 27 38 83 13 40 82 13 31 39 70 8 33 68 5 19 40 78 11 24 64 5 42 41 68 11 36 65 19 28 42 60 12 44 50 17 33 43 88 13 23 69 7 41 44 76 14 42 68 11 33 45 60 8 37 64 15 17 46 65 11 48 74 10 42