Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Wooldridge, 2011 – Capítulo 3 – tradução da 4ª ed.
Análise de Regressão Linear Múltipla
2
Como pode ser visto anteriormente, o modelo de regressão linear
simples, com uma variável explicativa (regressor), aplica-se a várias
situações.
Entretanto, diversos problemas envolvem dois ou mais regressores
influenciando o comportamento da variável resposta (dependente), y.
Chamamos Modelo de Regressão Linear Múltipla a qualquer modelo de
regressão linear com duas ou mais variáveis explicativas.
Introdução
y
variável resposta
x1
x2
x3
xk
•
•
•
x1, x1, ..., xk: variáveis explicativas (regressores)
Introdução
4
Vamos admitir que X1, X2, ..., Xk sejam as variáveis
independentes e Y a variável dependente.
Dada uma amostra de n observações,
(x1i, x2i, ..., xki, yi), i = 1, 2, ..., n,
o modelo de regressão linear múltipla será dado por:
Modelo de regressão linear múltipla
E[yi | x1i, x2i, ..., xki] = 0 + 1 x1i + 2 x2i + ... + k xki ,
i = 1, 2, ..., n
ou
yi = 0 + 1 x1i + 2 x2i + ... + k xki + i ,
i = 1, 2, ..., n.
em que n > (k+1).
Modelo de regressão linear múltipla
5
7
n
i
kikii
n
i
i xβxββy1
2
110
1
2
Para determinarmos os estimadores de mínimos
quadrados de 0, 1, ..., k, devemos minimizar o erro
quadrático total (i2):
Método dos Mínimos Quadrados
O mínimo da função
010
0
)β, βS(β
βk,, 010
)kβ,, , βS(β
kβ
n
i
kikii
n
i
ik,, xβxββy)β, βS(β1
2
110
1
2
10
é obtido derivando-a em relação a 0, 1, ..., k, e
igualando o resultado a zero. Ou seja,
Método dos Mínimos Quadrados
9
Equações Normais
0ˆˆˆ21
11010
0
n
i
kikiik,, xβxββy)β, βS(ββ
0ˆˆˆ21
111010
1
n
i
ikikiik,, xxβxββy)β, βS(ββ
0ˆˆˆ21
11010
n
i
kikikiik,,
k
xxβxββy)β, βS(ββ
Regressão Múltipla
Interpretação do Intercepto
Valor médio estimado para a variável resposta, condicionado
a x1 = x2 = ... = xk = 0.
Muitas vezes pode não ter significado!!!
kkkk xxxXxXYE 11011 , ,|
Modelo Estimado
kk
notaçãodeabuso
xxy ˆˆˆˆ110
29
1
1
ˆˆ
x
y
Considerando
se x2 = ... = xk = 0 (ou seja, as outras variáveis são
mantidas constantes), então o efeito parcial de x1 no valor
médio estimado para a variável resposta é dado por
Interpretação dos demais parâmetros
kk xxxy ˆˆˆˆ2211
30
Aplicação
O departamento de RH da empresa TEMCO objetiva estudar o
comportamento dos salários dos funcionários dos mais
diversos setores da empresa.
Para tanto, o gerente de RH, baseando-se numa amostra
aleatória de 46 empregados, coletou informações sobre as
seguintes variáveis:
31
id – número cadastral do funcionário;
salario – anual, em dólares;
anosemp – tempo (em anos) na empresa;
expprev – experiência anterior (em anos);
educ – anos de estudo após o segundo grau;
sexo – (feminino = 0, masculino = 1);
dept – departamento no qual atua (Compras = 1,
Engenharia = 2, Propaganda = 3, Vendas = 4);
super – número de empregados sob responsabilidade do
empregado.
Aplicação
32
Quadro 1 - Parte de uma planilha que contem informações sobre os
empregados da empresa TEMCO.
Aplicação
33
Como parte do estudo, a gerente de RH propôs a estimação
dos parâmetros do seguinte modelo de regressão múltipla:
Aplicação
a) Em termos do problema, 0 apresenta algum significado
prático?
b) Qual o sinal esperado para 1? E para 2?
c) Encontre as estimativas dos parâmetros, via mínimos
quadrados ordinários, escreva a equação estimada e
interprete os resultados obtidos, em termos do problema
de interesse.
salario = 0 + 1 educ + 2 anosemp +
0 – salário médio dos funcionários da empresa TEMCO, que
acabaram de entrar na empresa (ou que ainda não completaram um
ano) e que não apresentam nenhum ano de escolaridade após o
segundo grau;
1 – efeito no salário médio dos funcionários da empresa TEMCO,
dada a variação de um ano no tempo de escolaridade após o
segundo grau, mantendo constante a variável anosemp; e
2 – efeito no salário médio dos funcionários da empresa TEMCO,
dada a variação de um ano no tempo de empresa, mantendo
constante a variável educ.
Interpretação dos parâmetros do modelo proposto, em
termos do problema:
Aplicação
35
Aplicação
36
anosempeducáriolsa 32,672 49,191647,23177ˆ
Modelo estimado
Pergunta: qual o salário médio estimado para pessoas com 3 anos de
escolaridade após o 2º grau e com 5 anos na empresa?
54,32288ˆ
53367234991614717723ˆ
ariolsa
*, * ,.,.ariolsa
Aplicação
A senhorita Jolie, gerente do departamento de RH da
empresa TEMCO, objetiva estudar o comportamento médio
dos salários dos funcionários dos mais diversos setores da
empresa. Para tanto, baseando-se numa amostra aleatória de
46 funcionários da empresa, ela propôs os seguintes
modelos de regressão:
Exemplo
salario = 0 + 1 educ + (1)
salario = 0 + 1 anosemp + n (2)
salario = 0 + 1 educ + 2 anosemp + (3)
Como a gerente pode avaliar a qualidade de ajuste dos modelos?
3
COEFICIENTE DE EXPLICAÇÃO
ou
COEFICIENTE DE DETERMINAÇÃO
4
Resultado: SST = SSE + SSR
Parcela da variabilidade
de y que é explicada pelas
variáveis do modelo
Parcela da variabilidade
de y que não é explicada
pelas variáveis do modelo
SST
SSE2R Proporção da variabilidade de y que é
explicada pelo conjunto de variáveis
explicativas.
Coeficiente de Explicação
Voltando ao Exemplosalario = 0 + 1 educ +
salario = 0 + 1 educ + 2 anosemp +
salario = 0 + 1 anosemp + n
6
Variáveis explicativas no modelo R2
Educ 60,4%
Anosemp 58,6%
Educ e Anosemp 74,0%
Voltando ao Exemplo
7
O departamento de RH desconfia que a variável EXPPREV
(experiência anterior, em anos) não é importante para
explicar o salário dos funcionários, uma vez que os recém-
contratados passam por um treinamento antes de iniciar as
atividades na empresa. Pede-se, então: acrescente a variável
ao modelo de regressão linear múltipla e verifique o que
acontece com o R2?
Voltando ao Exemplo
8
Salário vs EXPPREV
20000
30000
40000
50000
60000
70000
0 5 10 15 20
Experiência prévia
Salá
rio
Correlação: 0,03
Salário vs EXPPREV
10
Coeficiente de Determinação
Fato: Quanto maior o número de variáveis independentes,
maior será o valor de R2.
Isso pode vir a ser um problema ao se comparar modelos, já que
modelos com um número maior de variáveis tenderão a ter um R2
maior do que um modelo, eventualmente equivalente, em termos
de qualidade, com um número menor de variáveis.
11
R2 – ajustado
1kn
1nRR 22
a
11
O acréscimo de variáveis não acarreta
necessariamente um aumento em R2a.
Valor ajustado pelo número de variáveis
12
Variáveis explicativas no modelo R2 Ra2
Educ 60,3% 59,5%
Anosemp 58,6% 57,6%
Educ e Anosemp 73,9% 72,8%
Educ, Anosemp e Expprev 74,1% 72,2%
Voltando ao Exemplo
Suposições e Propriedades
MLR.1 – O modelo de regressão é linear nos parâmetros
O modelo na população pode ser escrito como
y = 0 + 1 x1 + 2 x2 + ... + k xk +
em que
0, 1, ..., k – são parâmetros desconhecidos
(constantes);
– termo de erro aleatório não observável.
MLR.2 – Amostragem Aleatória
Temos uma amostra aleatória de n observações
(x1i, x2i, ..., xki, yi), i = 1, 2, ..., n,
do modelo populacional descrito em MLR.1.
MLR.3 – Ausência de Colinearidade Perfeita
Na amostra (e, portanto, na população) nenhum regressor é
constante e não há relação linear PERFEITA entre os
regressores (a matriz X apresenta posto completo).
Suposições e Propriedades
MLR.4 – Média Condicional Zero
O valor esperado do vetor de erro aleatório, , condicionado
na matriz de explicação X, é igual a zero.
Ou seja,
E( | X ) = 0.
Suposições e Propriedades
Teorema 1. Sob as suposições MLR.1 a MLR.4, condicionado
nos valores do regressores, os estimadores de MQO para os
parâmetros do modelo de regressão múltipla são não-
viesados, ou seja, , j = 0, 1, 2, ..., k.jj β)βE( ˆ
7
SUPOSIÇÃO FUNDAMENTAL:
E( | X ) = 0.
Ou seja, todos os fatores contidos em devem ser
não correlacionados com as variáveis explicativas, e
deve ter sido usada a forma funcional correta.
Suposições e Propriedades
8
Como pode falhar?
Omissão de variável explicativa importante,
correlacionada com x1, x2, ... ou xk;
Forma funcional especificada incorretamente;
Erro de medida em x1, x2, ... ou xk;
Simultaneidade entre y e x1, x2, ...ou xk;
SUPOSIÇÃO FUNDAMENTAL: (cont)
Suposições e Propriedades
9
Inclusão e Exclusão de Regressores
ANÁLISE DE DOIS CASOS ESPECIAIS:
A) Inclusão de variável irrelevante
não prejudica a propriedade de ausência de viés
B) Omissão de variável relevante
modelo correto tem k = 2, mas usamos k = 1
Resultado:
1211
211211
)(
)()
~(
xixixxix
E
10
Direção do Viés
Corr(x1, x2) > 0 Corr(x1, x2) < 0
2 > 0 Viés Positivo Viés Negativo
2 < 0 Viés Negativo Viés Positivo
Inclusão e Exclusão de Regressores
11
Observações
viés depende tanto dos sinais quanto das magnitudes;
em geral, se k > 1, omissão de qualquer variável relevante
faz com que todos os estimadores de mínimos quadrados
sejam viesados;
a menos que a variável omitida seja irrelevante ou não-
correlacionada com as demais variáveis explicativas
presentes no modelo, os estimadores de mínimos
quadrados serão viesados.
Inclusão e Exclusão de Regressores
12
MLR.5 – Homocedasticidade
A variância do vetor de erro aleatório, condicional na matriz
de explicação, é diagonal (com todos os elementos da
diagonal iguais a 2).
Suposições e Propriedades
Observação 1
As suposições MLR.1 a MLR.5 conjuntamente são
conhecidas como suposições de Gauss-Markov.
16
Teorema 2. Sob as suposições MLR.1 a MLR.5,
condicionadas aos valores amostrais das
variáveis explicativas
em que
2 = variância do erro;
SQTxj= SQT do j-ésimo regressor na amostra;
Rxj2 = R2 da regressão de xj contra todas as outras
variáveis explicativas (incluindo um intercepto).
, ..., k, j RSQT
Varjj xx
j 10 ,)1(
)ˆ( 2
2
Variância dos Estimadores de MQO
17
Componentes da Variância dos Estimadores
de Mínimos Quadrados
Variância da v.a. u: 2 alto implica num estimador de
mínimos quadrados com alta variância;
SQTxj: se a j-ésima variável explicativa apresentar uma
variação total alta, então, a variância do i-ésimo
estimador, associado à esta variável explicativa, será
pequena;
)()ˆ( 2
2
1jj xx
j RSQTVar
18
Relações lineares entre as variáveis explicativas: altos
valores de Rxj2 implicam numa alta variância para os
estimadores.
1/(1Rxj2) – conhecido como fator de inflação de variância
ou, VIF, em inglês.
Inclusão de variável irrelevante geralmente aumenta as
variâncias dos demais estimadores de MQO
)()ˆ( 2
2
1jj xx
j RSQTVar
Componentes da Variância dos Estimadores
de Mínimos Quadrados
19
Como 2 em geral é desconhecida, utilizaremos o
estimador:
SSR perde k+1 graus de liberdade, devido às k+1 restrições
impostas pelas condições de primeira ordem de MQO.
)n-(k
SSRMSR1
ˆ 2
MSR (Quadrado Médio devido aos Resíduos)
Estimação de 2
20
Estimação de 2
Observação
: erro padrão da regressão.
Teorema 3. Sob as suposições de Gauss-Markov (MLR.1 a
MLR.5),
MSR̂
.σE(MSR))σE( 22ˆ
21
Dessa forma, o erro-padrão dos estimadores de
mínimos quadrados podem ser obtidos através da
expressão
Erro Padrão dos Estimadores de MQO
)1(ˆˆ 2
2
ˆjj
jxx RSQT
22
Teorema 4. (TEOREMA DE GAUSS-MARKOV)
Sob as suposições MLR.1 a MLR.5,
são os melhores estimadores, na classe dos lineares não-
viesados (BLUE) para 0, 1, ..., k, respectivamente.
..., k ˆ,ˆ,ˆ10
Eficiência dos Estimadores de MQO
23
Restringindo a classe de estimadores não viesados a
todos os estimadores lineares em y, o teorema de
Gauss-Markov prova que o estimador de mínimos
quadrados é o “melhor” (no sentido em que
apresenta variância mínima)
Diz-se que, sob as suposições MLR.1 a MLR.5, os
estimadores de mínimos quadrados são BLUEs (best
linear unbiased estimators)
Eficiência dos Estimadores de MQO
MLR.6 – O vetor de erro estocástico é
independente dos regressores e segue uma
distribuição normal multivariada, com vetor de
médias igual a zero e matriz de variâncias e
covariâncias igual a .
24
Suposições e Propriedades
~In
2
Observações
1) Para aplicações de regressão com dados do tipo cross-
sectional, as suposições MLR.1 a MLR.6 são conhecidas
como suposições do modelo linear clássico (suposições
CLM).
2) Uma maneira sucinta de resumir as suposições CLM na
população é
y | (x1, x2, ..., xk) ~ N(0+1 x1+2 x2+ ... +k xk; 2).
3) Sob as suposições CLM os estimadores de mínimos
quadrados são estimadores não-viesados de variância
mínima.
Suposições e Propriedades
28
Teorema 4.1 – Sob as suposições CLM (MLR.1 a MLR.6),
condicionado nos valores amostrais das
variáveis explicativas,
Distribuição amostral de jβ̂
)1(ˆ
2
2
jj xxjj RSQT
βNβ ;~
Do teorema anterior segue que,
Distribuição amostral de jβ̂
~ 10
)1(
ˆ
2
2; N
RSQT
ββ
jj xx
jj
Como 2 é um parâmetro desconhecido, então será proposto
um estimador para tal parâmetro. Dessa maneira, será
necessário estudar a distribuição de probabilidades da nova
v.a. que será gerada.
2
Exemplo
Tomando por base o modelo
a senhorita Jolie, gerente do departamento de RH da
empresa TEMCO, desconfia que ao menos um dos
regressores é relevante para explicar a variável resposta.
Utilizando um nível de significância de 1%, conduza um teste
de hipóteses adequado.
iiiii prevanosempeducsalario explog 3210
re de zerometro difeos um parâ: pelo menH
βββ:H
A
0 3210
Modelo
iiiii prevanosempeducsalario explog 3210
Hipóteses de Interesse
Exemplo
SST = SSR + SSE
Se H0 for verdadeira, espera-se que SSE seja pequena e SSR grande.
4
TESTE F(Análise de Variâncias – ANOVA)
5
;0 , 2 1
2
2 k(k) βse βχ~
σ
SSE.
É possível demonstrar que, sob certas condições, as v.a.
SSR, SSE e SST apresentam as seguintes características:
; 1 2
12 knχ~σ
SSR.
tes.independen são SSE e SSR 3.
Teste F
Consequências:
2
2 11 (a) σMSRE
kn
SSRE kn
σ
SSRE
Logo, MSR é um estimador não-viesado de s2
Se 1 = 2 = ... = k = 0, então MSE = SSE/k é um estimador não-viesado de
s2.
2
12σMSEE
k
SSEE 0 k,
SSEE (b)
kββse
s
Teste F
7
Logo, SST/(n-1) é estimador não-viesado de s2
Teste F
222
1
11
,0 Se (c)
) σ(n- σkσkn
SSEESSRESST E
ββ k
Consequências: (cont.)
8
12
2
1
1
1
1
,0 Se (d)
kn-,k
k
F~MSR
MSE
kn-
SSRk-
SSE
kn-
SSR/ σk
SSE/ σ
F
ββ
Teste FConsequências: (cont.)
9
1k-n
SSRMSR
k
SSEMSE
Fonte de
variação SS gl MS F
Regressão SSE k MSE MSE/MSR
Erro SSR n-(k+1) MSR
Total SST n-1
Teste FConsequências: (cont.)
10
1)(k-n ,k
H sob
2
2
F ~
1)(k-n)R-(1
(k)R
MSR
MSEF
0
Fc
Região crítica:
Teste FConsequências: (cont.)
11
Exemplo
Tomando por base o modelo
a senhorita Jolie, gerente do departamento de RH da
empresa TEMCO, desconfia que ao menos um dos
regressores é relevante para explicar a variável resposta.
Utilizando um nível de significância de 1%, conduza um teste
de hipóteses adequado.
iiiii prevanosempeducsalario explog 3210
12
re de zerometro difeos um parâ: pelo menH
βββ:H
A
0 3210
Modelo
iiiii prevanosempeducsalario explog 3210
Hipóteses de Interesse
Resolução do Exemplo
13
Resolução do Exemplo
15
valor-p se H Rejeito 0
p-valor
Fobs
re de zerometro difeos um parâ: pelo menH
βββ:H
A
0 4320
Resolução do Exemplo
16
Voltando ao Exemplo
A senhorita Jolie sabe que, a 1% de significância, ao menos
um dos regressores é relevante para explicar a variável
resposta. Todavia, a senhorita Jolie desconfia que expprev
seja irrelevante, dado que os funcionários da TEMCO passam
por um processo de treinamento assim que são admitidos na
empresa. Dessa forma, adotando um nível de significância de
1%, existem evidências favoráveis à desconfiança da gerente
de RH?
0
0
3
30
β:H
β:H
A
Modelo
iiiii prevanosempeducsalario explog 3210
Hipóteses de Interesse
Voltando ao Exemplo
18
Teste t
Já foi visto que
~ 10
)1(
ˆ
2
2; N
RSQT
ββ
jj xx
jj
s
e como s2 é um parâmetro desconhecido, então deverá ser
estimado. Dessa maneira, será necessário estudar a
distribuição de probabilidades da nova v.a. resultante.
Teste t
Nos slides anteriores foi dito que SSR, SSE e SST são v.a. e,
ainda, não é difícil provar que, sob certas condições:
;~σ
SSR 2
12 kn
Assim,
MSR é um estimador não-viesado de s2
Teste t
2
2 11 σMSRE
kn
SSRE kn
σ
SSRE
21
Assim, substituindo s2, pelo seu estimador, MSR, na
expressão do slide 19, temos que
em que
j
jX
depadrãoerroRsn
j
j
s
s
ˆ :)1(1
ˆˆ
22
2
ˆ
regressãodapadrãoerroMSR :ˆˆ 2 ss
Teste t
)1(
ˆ
2
jj xx
jj
RSQT
MSR
ββ
22
Logo, para testarmos as hipóteses
H0: j = b (em particular b = 0)
HA: j b (HA: j < b ou HA: j > b),
utilizaremos o fato que, sob H0,
e construiremos a região crítica de acordo com a hipótese
alternativa adotada.
1
ˆ
t~ˆ
ˆ
kn-
j
j
bβ
s
Teste t
0
0
3
30
β:H
β:H
A
Modelo
iiiii prevanosempeducsalario explog 3210
Hipóteses de Interesse
Voltando ao Exemplo
24
Resolução do Exemplo
25cri to b s0 t t se H Rejeito
/2/2
tcrit- tcrit
0
0
3
30
β:H
β:H
A
Resolução do Exemplo
51004100053640
00027360,
,
,tobs
26
/2/2
tcrit- tcrit
valo r-p se H Rejeito 0
Resolução do Exemplo
0
0
3
30
β:H
β:H
A
51004100053640
00027360,
,
,tobs
27
Voltando ao Exemplo
Tomando por base o modelo
existem evidências sobre a relevância da variável educ, com
99% de confiança? Toda a sua análise deve ser baseada na
construção de um intervalo de confiança.
iiiii prevanosempeducsalario explog 3210
28
Intervalo de Confiança
29
Intervalo de Confiança para j
Prova-se que
j
kn-jj tββIC
s ˆ2/
1ˆˆ);(
é um intervalo de confiança para o parâmetro j, com
coeficiente de confiança de 1-.
em que
jβado a o assoacierro padrãj
ˆˆ ˆ s
0
0
1
10
β:H
β:H
A
Modelo
iiiii prevanosempeducsalario explog 3210
Hipóteses de Interesse
Voltando ao Exemplo
31
Resolução do Exemplo
/2/2
tcrit- tcrit
Resolução do Exemplo
068924,0;021126,0008858,0698,2045025,0);(
023899,0
jβIC
0
0
1
10
β:H
β:H
A
Como o IC não engloba o zero, então, com 99% de confiança, existem evidências
contrárias à hipótese nula.
ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA
COM INFORMAÇÃO QUALITATIVA:
O USO DA VARIÁVEL DUMMY
Variável Dummy
Uma forma de introduzir características qualitativas em
modelos econométricos consiste na utilização de variáveis
dummy (fictícia, postiça), frequentemente chamadas de
variáveis binárias ou dicotômicas, uma vez que assumem
apenas um de dois valores – em geral 0 ou 1 – para indicar a
presença ou ausência de determinada característica.
3
4
Assim, uma variável dummy, D, pode ser descrita da seguinte
maneira:
presente estiver ticacaracterís a se
presente estiver não ticacaracterís a se
,1
,0D
Variável Dummy
Vale lembrar que a variável dummy representa estados ou
níveis de fatores, ou seja representa algo que não possui
valores numéricos ou, caso possua, estes valores não têm
realmente um significado numérico.
A senhorita Rose Jolie, gerente do departamento de RH da
empresa TEMCO, gostaria de estimar os parâmetros de um
modelo de regressão linear que levasse em consideração as
variáveis explicativas educ e dept na explicação da variável
resposta salário. Auxilie a senhorita Jolie nesta proposição.
Voltando à Empresa TEMCO
Apenas para lembrar, a senhorita Jolie, coletou informações
de uma amostra aleatória de 46 funcionários da empresa,
sobre as seguintes variáveis:
id – número cadastral do funcionário;
salario – anual, em dólares;
anosemp – tempo (em anos) na empresa;
expprev – experiência anterior (em anos);
educ – anos de estudo após o segundo grau;
sexo – (feminino = 0, masculino = 1);
dept – departamento no qual o funcionário atua
(Compras = 1, Engenharia = 2, Propaganda = 3, Vendas = 4);
super – número de empregados sob responsabilidade do empregado.
Voltando à Empresa TEMCO
7
À primeira vista, como existem quatro departamentos na
empresa TEMCO, Rose Jolie poderia optar por usar a variável
dept, com os valores 1, 2, 3 e 4.
depteducsalário 321
Voltando à Empresa TEMCO
No entanto, ao fazer isto, Rose Jolie estaria introduzindo uma
ideia de espaçamento, que ficará mais clara nos resultados
descritos nos slides a seguir.
Dessa maneira,
8
Escrevendo a equação de regressão de interesse, para cada
um dos departamentos, temos que:
educdepteducsalárioE
educdepteducsalárioE
educdepteducsalárioE
educβ)depteduc,E(salário|
231
231
231
231
)4()4,|(
)3()3,|(
)2()2,|(
)(1
Voltando à Empresa TEMCO
Dessa forma, admitiríamos, por exemplo, que
3
)3 ,|()4 ,|(
1 )2 ,|(
depteducsalárioEdepteducsalárioE
)depteduc,E(salário|depteducsalárioE
ou seja, que a diferença entre os salários esperados dos
funcionários dos departamentos de Engenharia e Compras é
a mesma que a dos funcionários dos departamentos de
Propaganda e Engenharia, mantendo constante o tempo de
escolaridade.
Voltando à Empresa TEMCO
10
Assim, se Rose Jolie utilizasse dept da forma como foi
construída, então ela estaria impondo uma restrição ao
modelo, que não sabemos se é real.
Ainda, se a ordem das categorias da variável departamento
fosse alterada, estaríamos propondo um novo conjunto de
restrições ao modelo, o que muito provavelmente nos levaria
a resultados completamente diferentes do caso anterior.
Voltando à Empresa TEMCO
11
Portanto, o ideal seria utilizar um grupo de variáveis que
representasse os estados de interesse, que no nosso caso
não apresentam nenhuma ordenação natural, de tal sorte a
nunca alterar o resultado final, qualquer que seja o critério de
criação adotado para a construção destas variáveis.
Voltando à Empresa TEMCO
A solução é, portanto, trabalharmos com algumas variáveis
dummy.
No geral, se temos p estados, devemos trabalhar com p – 1
variáveis dummy.
Variável Dummy
13
dept DC
Compras 1 0 0
Engenharia 0 1 0
Propaganda 0 0 1
Vendas 0 0 0
DE DP
Variável Dummy
Para o nosso exemplo, poderíamos definir as variáveis
dummy DC, DE e DP da seguinte maneira, para representar os
estados da variável departamento:
14
Variável Dummy
Assim, partindo do modelo de regressão linear
yi = 1 + 2 educi + 1 DCi + 2 DEi + 3 DPi + I
temos que:
Compras: yi = (1 + 1) + 2educi + i
Engenharia: yi = (1 + 2) + 2educi + i
Propaganda: yi = (1 + 3) + 2educi + i
Vendas: yi = 1 + 2 educi + i
15
Variável Dummy
Do slide 14, o parâmetro 1, por exemplo, pode ser
interpretado como a diferença esperada entre os salários dos
profissionais das áreas de Compras e Vendas, que
apresentam o mesmo tempo de escolaridade.
Ainda, vale lembrar que, estamos admitindo que o acréscimo
médio no salário correspondente ao acréscimo em um ano
de escolaridade é o mesmo para os quatro departamentos.
16
Variáveis binárias como DC, DE e DP, que são incorporadas
num modelo de regressão para dar conta de um
deslocamento do intercepto como resultado de algum fator
qualitativo, são chamadas de variáveis binárias de intercepto
ou, simplesmente, variáveis dummy de intercepto.
Variável Dummy
18
Estimação dos Parâmetros do Modelo de Interesse
PEC DDDeducariolsa 36,666452,806597,539396,295272,19235ˆ
Voltando à Empresa TEMCO
19
educpropaganday
educengenhariay
educcomprasy
educvendasy
9629520825900
9629522427301
9629526924629
9629527219235
,,ˆ
,,ˆ
,,ˆ
,,ˆ
Interprete as estimativas dos parâmetros
Voltando à Empresa TEMCO
20
Observação 1
INTERPRETAÇÃO DOS COEFICIENTES LIGADOS ÀS VARIÁVEIS DUMMY
Correspondem à diferença em relação ao valor do intercepto e, portanto,
à categoria que ele representa (“benchmark”, ou categoria de referência)
Vale recordar que a escolha dos valores de DC, DE e DV não é única.
Entretanto, qualquer que seja a escolha, os resultados finais da
estimação deverão ser sempre os mesmos.
Observação 2
21
Num modelo de regressão linear que já que
acomodou educ como variável explicativa para
salário, seria interessante inserir a variável sexo em
tal modelo?
Exercício
Anos de estudos após o segundo grau
14121086420-2
Salá
rio (U
S$)
70000
60000
50000
40000
30000
20000
SEXO
masculino
feminino
22
Sexo DS
Masculino 1
Feminino 0
Modelo:
yi = 1 + 2 educi + 3 DSi + i
Feminino: yi = 1 + 2educi + i
Masculino: yi = (1 + 3) + 2educi + i
Exercício (cont.)
23
Exercício (cont.)Estimação dos Parâmetros do Modelo de Interesse
24
Forma usual
SD,educ,,áriolsa 2622381629337526040ˆ
educmascy
educfemy
1629334923802
1629337526040
,,ˆ
,,ˆ
Interprete as estimativas dos parâmetros
Exercício (cont.)
25
20.000
25.000
30.000
35.000
40.000
45.000
0 1 2 3 4 5 6 7
Fem
M asc
Modelo estimado com EDUC e SEXO
Deste modo, estamos admitindo que a reta de regressãodo salário em função da educação para homens éparalela à reta de regressão para as mulheres.
26
Variável Dummy
de
Inclinação
27
Variável Dummy de Inclinação
No exemplo anterior, utilizando variáveis dummy de
intercepto, ajustamos quatro retas com a mesma inclinação e
diferentes interceptos.
Veremos agora como podemos ajustar um modelo mais
geral, no qual, por exemplo, também as inclinações podem
ser distintas.
28
Sejam DC, DE e DP as variáveis dummy do exemplo
anteriormente citado.
Considere, ainda, o seguinte modelo
y = 1 + 2 educ +
+ DC(0 + 1educ) + DE(2 + 3educ) + DP(4 + 5educ) +
Variável Dummy de Inclinação
29
Assim, para cada um dos departamentos, teríamos os
seguintes modelos de regressão:
yvendas = 1 + 2educ +
ycompras = (1 + 0) + (2 + 1)educ +
yengenharia = (1 + 2) + (2 + 3)educ +
ypropaganda = (1 + 4) + (2 + 5)educ +
Variável Dummy de Inclinação
30
Variável Dummy de Inclinação
Ou seja, o modelo de regressão linear
y = 1 + 2 educ + DC(0 + 1educ) +
+ DE(2 + 3educ) + DP(4 + 5educ) +
faz com que sejam ajustadas quatro retas com interceptos e
inclinações diferentes.
Observe que o modelo anterior pode ser reescrito como
y = 1 + 2educ + 0DC + 2DE + 4DP +
+ 1educDC + 3educDE + 5educDP +
Variável Dummy de Inclinação
Donde, não é difícil observar que os parâmetros associados
às variáveis dummy DC, DE e DP, isoladamente, serão
responsáveis pela alteração dos interceptos.
Ainda, os parâmetros associados aos produtos de DC, DE e
DP por educ serão responsáveis pela alteração dos
coeficientes angulares.
32
Finalmente, as variáveis educDC, educDE e educDP são
chamadas de variáveis de interação, pois são responsáveis
por capturar o efeito de interação entre a escolaridade e
departamento sobre o salário. Traduzindo, o impacto na
variação do salário esperado de indivíduos de setores
diferentes, dada a variação de um ano na escolaridade
desses indivíduos, podem ser diferentes.
Variável Dummy de Inclinação
33
Modelo Estimado
Variável Dummy de Inclinação
34
Resultado da estimação com EDUC, DEPT e interações
educpropaganday
educengenhariay
educcomprasy
educvendasy
0328787326274
2535451624114
9142117719121
4911970628013
,,ˆ
,,ˆ
,,ˆ
,,ˆ
Interprete as estimativas dos parâmetros
Variável Dummy de Inclinação
35
As quatro retas ajustadas simultaneamente, neste exemplo,
são equivalentes às retas que obteríamos se ajustássemos
separadamente um modelo para cada departamento.
No entanto, este procedimento tem a vantagem de facilitar a
construção dos testes de hipóteses envolvendo
simultaneamente parâmetros das quatro retas.
Observação