Análise de Regressão Linear Múltipla - Hediberthedibert.org/wp-content/uploads/2016/03/regressaolinear... · 2016-03-14 · 0 – salário médio dos funcionários da empresa TEMCO,

Wooldridge, 2011 – Capítulo 3 – tradução da 4ª ed.

Análise de Regressão Linear Múltipla

2

Como pode ser visto anteriormente, o modelo de regressão linear

simples, com uma variável explicativa (regressor), aplica-se a várias

situações.

Entretanto, diversos problemas envolvem dois ou mais regressores

influenciando o comportamento da variável resposta (dependente), y.

Chamamos Modelo de Regressão Linear Múltipla a qualquer modelo de

regressão linear com duas ou mais variáveis explicativas.

Introdução

y

variável resposta

x1

x2

x3

xk

•

•

•

x1, x1, ..., xk: variáveis explicativas (regressores)

Introdução

4

Vamos admitir que X1, X2, ..., Xk sejam as variáveis

independentes e Y a variável dependente.

Dada uma amostra de n observações,

(x1i, x2i, ..., xki, yi), i = 1, 2, ..., n,

o modelo de regressão linear múltipla será dado por:

Modelo de regressão linear múltipla

E[yi | x1i, x2i, ..., xki] = 0 + 1 x1i + 2 x2i + ... + k xki ,

i = 1, 2, ..., n

ou

yi = 0 + 1 x1i + 2 x2i + ... + k xki + i ,

i = 1, 2, ..., n.

em que n > (k+1).

Modelo de regressão linear múltipla

5

7

n

i

kikii

n

i

i xβxββy1

2

110

1

2

Para determinarmos os estimadores de mínimos

quadrados de 0, 1, ..., k, devemos minimizar o erro

quadrático total (i2):

Método dos Mínimos Quadrados

O mínimo da função

010

0

)β, βS(β

βk,, 010

)kβ,, , βS(β

kβ

n

i

kikii

n

i

ik,, xβxββy)β, βS(β1

2

110

1

2

10

é obtido derivando-a em relação a 0, 1, ..., k, e

igualando o resultado a zero. Ou seja,

Método dos Mínimos Quadrados

9

Equações Normais

0ˆˆˆ21

11010

0

n

i

kikiik,, xβxββy)β, βS(ββ

0ˆˆˆ21

111010

1

n

i

ikikiik,, xxβxββy)β, βS(ββ

0ˆˆˆ21

11010

n

i

kikikiik,,

k

xxβxββy)β, βS(ββ

Regressão Múltipla

Interpretação do Intercepto

Valor médio estimado para a variável resposta, condicionado

a x1 = x2 = ... = xk = 0.

Muitas vezes pode não ter significado!!!

kkkk xxxXxXYE 11011 , ,|

Modelo Estimado

kk

notaçãodeabuso

xxy ˆˆˆˆ110

29

1

1

ˆˆ

x

y

Considerando

se x2 = ... = xk = 0 (ou seja, as outras variáveis são

mantidas constantes), então o efeito parcial de x1 no valor

médio estimado para a variável resposta é dado por

Interpretação dos demais parâmetros

kk xxxy ˆˆˆˆ2211

30

Aplicação

O departamento de RH da empresa TEMCO objetiva estudar o

comportamento dos salários dos funcionários dos mais

diversos setores da empresa.

Para tanto, o gerente de RH, baseando-se numa amostra

aleatória de 46 empregados, coletou informações sobre as

seguintes variáveis:

31

id – número cadastral do funcionário;

salario – anual, em dólares;

anosemp – tempo (em anos) na empresa;

expprev – experiência anterior (em anos);

educ – anos de estudo após o segundo grau;

sexo – (feminino = 0, masculino = 1);

dept – departamento no qual atua (Compras = 1,

Engenharia = 2, Propaganda = 3, Vendas = 4);

super – número de empregados sob responsabilidade do

empregado.

Aplicação

32

Quadro 1 - Parte de uma planilha que contem informações sobre os

empregados da empresa TEMCO.

Aplicação

33

Como parte do estudo, a gerente de RH propôs a estimação

dos parâmetros do seguinte modelo de regressão múltipla:

Aplicação

a) Em termos do problema, 0 apresenta algum significado

prático?

b) Qual o sinal esperado para 1? E para 2?

c) Encontre as estimativas dos parâmetros, via mínimos

quadrados ordinários, escreva a equação estimada e

interprete os resultados obtidos, em termos do problema

de interesse.

salario = 0 + 1 educ + 2 anosemp +

0 – salário médio dos funcionários da empresa TEMCO, que

acabaram de entrar na empresa (ou que ainda não completaram um

ano) e que não apresentam nenhum ano de escolaridade após o

segundo grau;

1 – efeito no salário médio dos funcionários da empresa TEMCO,

dada a variação de um ano no tempo de escolaridade após o

segundo grau, mantendo constante a variável anosemp; e

2 – efeito no salário médio dos funcionários da empresa TEMCO,

dada a variação de um ano no tempo de empresa, mantendo

constante a variável educ.

Interpretação dos parâmetros do modelo proposto, em

termos do problema:

Aplicação

35

Aplicação

36

anosempeducáriolsa 32,672 49,191647,23177ˆ

Modelo estimado

Pergunta: qual o salário médio estimado para pessoas com 3 anos de

escolaridade após o 2º grau e com 5 anos na empresa?

54,32288ˆ

53367234991614717723ˆ

ariolsa

*, * ,.,.ariolsa

Aplicação

A senhorita Jolie, gerente do departamento de RH da

empresa TEMCO, objetiva estudar o comportamento médio

dos salários dos funcionários dos mais diversos setores da

empresa. Para tanto, baseando-se numa amostra aleatória de

46 funcionários da empresa, ela propôs os seguintes

modelos de regressão:

Exemplo

salario = 0 + 1 educ + (1)

salario = 0 + 1 anosemp + n (2)

salario = 0 + 1 educ + 2 anosemp + (3)

Como a gerente pode avaliar a qualidade de ajuste dos modelos?

3

COEFICIENTE DE EXPLICAÇÃO

ou

COEFICIENTE DE DETERMINAÇÃO

4

Resultado: SST = SSE + SSR

Parcela da variabilidade

de y que é explicada pelas

variáveis do modelo

Parcela da variabilidade

de y que não é explicada

pelas variáveis do modelo

SST

SSE2R Proporção da variabilidade de y que é

explicada pelo conjunto de variáveis

explicativas.

Coeficiente de Explicação

Voltando ao Exemplosalario = 0 + 1 educ +

salario = 0 + 1 educ + 2 anosemp +

salario = 0 + 1 anosemp + n

6

Variáveis explicativas no modelo R2

Educ 60,4%

Anosemp 58,6%

Educ e Anosemp 74,0%

Voltando ao Exemplo

7

O departamento de RH desconfia que a variável EXPPREV

(experiência anterior, em anos) não é importante para

explicar o salário dos funcionários, uma vez que os recém-

contratados passam por um treinamento antes de iniciar as

atividades na empresa. Pede-se, então: acrescente a variável

ao modelo de regressão linear múltipla e verifique o que

acontece com o R2?

Voltando ao Exemplo

8

Salário vs EXPPREV

20000

30000

40000

50000

60000

70000

0 5 10 15 20

Experiência prévia

Salá

rio

Correlação: 0,03

Salário vs EXPPREV

10

Coeficiente de Determinação

Fato: Quanto maior o número de variáveis independentes,

maior será o valor de R2.

Isso pode vir a ser um problema ao se comparar modelos, já que

modelos com um número maior de variáveis tenderão a ter um R2

maior do que um modelo, eventualmente equivalente, em termos

de qualidade, com um número menor de variáveis.

11

R2 – ajustado

1kn

1nRR 22

a

11

O acréscimo de variáveis não acarreta

necessariamente um aumento em R2a.

Valor ajustado pelo número de variáveis

12

Variáveis explicativas no modelo R2 Ra2

Educ 60,3% 59,5%

Anosemp 58,6% 57,6%

Educ e Anosemp 73,9% 72,8%

Educ, Anosemp e Expprev 74,1% 72,2%

Voltando ao Exemplo

Suposições e Propriedades

MLR.1 – O modelo de regressão é linear nos parâmetros

O modelo na população pode ser escrito como

y = 0 + 1 x1 + 2 x2 + ... + k xk +

em que

0, 1, ..., k – são parâmetros desconhecidos

(constantes);

– termo de erro aleatório não observável.

MLR.2 – Amostragem Aleatória

Temos uma amostra aleatória de n observações

(x1i, x2i, ..., xki, yi), i = 1, 2, ..., n,

do modelo populacional descrito em MLR.1.

MLR.3 – Ausência de Colinearidade Perfeita

Na amostra (e, portanto, na população) nenhum regressor é

constante e não há relação linear PERFEITA entre os

regressores (a matriz X apresenta posto completo).


MLR.4 – Média Condicional Zero

O valor esperado do vetor de erro aleatório, , condicionado

na matriz de explicação X, é igual a zero.

Ou seja,

E( | X ) = 0.


Teorema 1. Sob as suposições MLR.1 a MLR.4, condicionado

nos valores do regressores, os estimadores de MQO para os

parâmetros do modelo de regressão múltipla são não-

viesados, ou seja, , j = 0, 1, 2, ..., k.jj β)βE( ˆ

7

SUPOSIÇÃO FUNDAMENTAL:

E( | X ) = 0.

Ou seja, todos os fatores contidos em devem ser

não correlacionados com as variáveis explicativas, e

deve ter sido usada a forma funcional correta.


8

Como pode falhar?

Omissão de variável explicativa importante,

correlacionada com x1, x2, ... ou xk;

Forma funcional especificada incorretamente;

Erro de medida em x1, x2, ... ou xk;

Simultaneidade entre y e x1, x2, ...ou xk;

SUPOSIÇÃO FUNDAMENTAL: (cont)


9

Inclusão e Exclusão de Regressores

ANÁLISE DE DOIS CASOS ESPECIAIS:

A) Inclusão de variável irrelevante

não prejudica a propriedade de ausência de viés

B) Omissão de variável relevante

modelo correto tem k = 2, mas usamos k = 1

Resultado:

1211

211211

)(

)()

~(

xixixxix

E

10

Direção do Viés

Corr(x1, x2) > 0 Corr(x1, x2) < 0

2 > 0 Viés Positivo Viés Negativo

2 < 0 Viés Negativo Viés Positivo


11

Observações

viés depende tanto dos sinais quanto das magnitudes;

em geral, se k > 1, omissão de qualquer variável relevante

faz com que todos os estimadores de mínimos quadrados

sejam viesados;

a menos que a variável omitida seja irrelevante ou não-

correlacionada com as demais variáveis explicativas

presentes no modelo, os estimadores de mínimos

quadrados serão viesados.


12

MLR.5 – Homocedasticidade

A variância do vetor de erro aleatório, condicional na matriz

de explicação, é diagonal (com todos os elementos da

diagonal iguais a 2).


Observação 1

As suposições MLR.1 a MLR.5 conjuntamente são

conhecidas como suposições de Gauss-Markov.

16

Teorema 2. Sob as suposições MLR.1 a MLR.5,

condicionadas aos valores amostrais das

variáveis explicativas

em que

2 = variância do erro;

SQTxj= SQT do j-ésimo regressor na amostra;

Rxj2 = R2 da regressão de xj contra todas as outras

variáveis explicativas (incluindo um intercepto).

, ..., k, j RSQT

Varjj xx

j 10 ,)1(

)ˆ( 2

2

Variância dos Estimadores de MQO

17

Componentes da Variância dos Estimadores

de Mínimos Quadrados

Variância da v.a. u: 2 alto implica num estimador de

mínimos quadrados com alta variância;

SQTxj: se a j-ésima variável explicativa apresentar uma

variação total alta, então, a variância do i-ésimo

estimador, associado à esta variável explicativa, será

pequena;

)()ˆ( 2

2

1jj xx

j RSQTVar

18

Relações lineares entre as variáveis explicativas: altos

valores de Rxj2 implicam numa alta variância para os

estimadores.

1/(1Rxj2) – conhecido como fator de inflação de variância

ou, VIF, em inglês.

Inclusão de variável irrelevante geralmente aumenta as

variâncias dos demais estimadores de MQO

)()ˆ( 2

2

1jj xx

j RSQTVar

Componentes da Variância dos Estimadores

de Mínimos Quadrados

19

Como 2 em geral é desconhecida, utilizaremos o

estimador:

SSR perde k+1 graus de liberdade, devido às k+1 restrições

impostas pelas condições de primeira ordem de MQO.

)n-(k

SSRMSR1

ˆ 2

MSR (Quadrado Médio devido aos Resíduos)

Estimação de 2

20

Estimação de 2

Observação

: erro padrão da regressão.

Teorema 3. Sob as suposições de Gauss-Markov (MLR.1 a

MLR.5),

MSR̂

.σE(MSR))σE( 22ˆ

21

Dessa forma, o erro-padrão dos estimadores de

mínimos quadrados podem ser obtidos através da

expressão

Erro Padrão dos Estimadores de MQO

)1(ˆˆ 2

2

ˆjj

jxx RSQT

22

Teorema 4. (TEOREMA DE GAUSS-MARKOV)

Sob as suposições MLR.1 a MLR.5,

são os melhores estimadores, na classe dos lineares não-

viesados (BLUE) para 0, 1, ..., k, respectivamente.

..., k ˆ,ˆ,ˆ10

Eficiência dos Estimadores de MQO

23

Restringindo a classe de estimadores não viesados a

todos os estimadores lineares em y, o teorema de

Gauss-Markov prova que o estimador de mínimos

quadrados é o “melhor” (no sentido em que

apresenta variância mínima)

Diz-se que, sob as suposições MLR.1 a MLR.5, os

estimadores de mínimos quadrados são BLUEs (best

linear unbiased estimators)

Eficiência dos Estimadores de MQO

MLR.6 – O vetor de erro estocástico é

independente dos regressores e segue uma

distribuição normal multivariada, com vetor de

médias igual a zero e matriz de variâncias e

covariâncias igual a .

24


~In

2

Observações

1) Para aplicações de regressão com dados do tipo cross-

sectional, as suposições MLR.1 a MLR.6 são conhecidas

como suposições do modelo linear clássico (suposições

CLM).

2) Uma maneira sucinta de resumir as suposições CLM na

população é

y | (x1, x2, ..., xk) ~ N(0+1 x1+2 x2+ ... +k xk; 2).

3) Sob as suposições CLM os estimadores de mínimos

quadrados são estimadores não-viesados de variância

mínima.


28

Teorema 4.1 – Sob as suposições CLM (MLR.1 a MLR.6),

condicionado nos valores amostrais das

variáveis explicativas,

Distribuição amostral de jβ̂

)1(ˆ

2

2

jj xxjj RSQT

βNβ ;~

Do teorema anterior segue que,

Distribuição amostral de jβ̂

~ 10

)1(

ˆ

2

2; N

RSQT

ββ

jj xx

jj

Como 2 é um parâmetro desconhecido, então será proposto

um estimador para tal parâmetro. Dessa maneira, será

necessário estudar a distribuição de probabilidades da nova

v.a. que será gerada.

2

Exemplo

Tomando por base o modelo

a senhorita Jolie, gerente do departamento de RH da

empresa TEMCO, desconfia que ao menos um dos

regressores é relevante para explicar a variável resposta.

Utilizando um nível de significância de 1%, conduza um teste

de hipóteses adequado.

iiiii prevanosempeducsalario explog 3210

re de zerometro difeos um parâ: pelo menH

βββ:H

A

0 3210

Modelo


Hipóteses de Interesse

Exemplo

SST = SSR + SSE

Se H0 for verdadeira, espera-se que SSE seja pequena e SSR grande.

4

TESTE F(Análise de Variâncias – ANOVA)

5

;0 , 2 1

2

2 k(k) βse βχ~

σ

SSE.

É possível demonstrar que, sob certas condições, as v.a.

SSR, SSE e SST apresentam as seguintes características:

; 1 2

12 knχ~σ

SSR.

tes.independen são SSE e SSR 3.

Teste F

Consequências:

2

2 11 (a) σMSRE

kn

SSRE kn

σ

SSRE

Logo, MSR é um estimador não-viesado de s2

Se 1 = 2 = ... = k = 0, então MSE = SSE/k é um estimador não-viesado de

s2.

2

12σMSEE

k

SSEE 0 k,

SSEE (b)

kββse

s

Teste F

7

Logo, SST/(n-1) é estimador não-viesado de s2

Teste F

222

1

11

,0 Se (c)

) σ(n- σkσkn

SSEESSRESST E

ββ k

Consequências: (cont.)

8

12

2

1

1

1

1

,0 Se (d)

kn-,k

k

F~MSR

MSE

kn-

SSRk-

SSE

kn-

SSR/ σk

SSE/ σ

F

ββ

Teste FConsequências: (cont.)

9

1k-n

SSRMSR

k

SSEMSE

Fonte de

variação SS gl MS F

Regressão SSE k MSE MSE/MSR

Erro SSR n-(k+1) MSR

Total SST n-1


10

1)(k-n ,k

H sob

2

2

F ~

1)(k-n)R-(1

(k)R

MSR

MSEF

0

Fc

Região crítica:


11

Exemplo


a senhorita Jolie, gerente do departamento de RH da

empresa TEMCO, desconfia que ao menos um dos

regressores é relevante para explicar a variável resposta.

Utilizando um nível de significância de 1%, conduza um teste

de hipóteses adequado.


12


βββ:H

A

0 3210

Modelo



Resolução do Exemplo

13


15

valor-p se H Rejeito 0

p-valor

Fobs


βββ:H

A

0 4320


16

Voltando ao Exemplo

A senhorita Jolie sabe que, a 1% de significância, ao menos

um dos regressores é relevante para explicar a variável

resposta. Todavia, a senhorita Jolie desconfia que expprev

seja irrelevante, dado que os funcionários da TEMCO passam

por um processo de treinamento assim que são admitidos na

empresa. Dessa forma, adotando um nível de significância de

1%, existem evidências favoráveis à desconfiança da gerente

de RH?

0

0

3

30

β:H

β:H

A

Modelo



Voltando ao Exemplo

18

Teste t

Já foi visto que

~ 10

)1(

ˆ

2

2; N

RSQT

ββ

jj xx

jj

s

e como s2 é um parâmetro desconhecido, então deverá ser

estimado. Dessa maneira, será necessário estudar a

distribuição de probabilidades da nova v.a. resultante.

Teste t

Nos slides anteriores foi dito que SSR, SSE e SST são v.a. e,

ainda, não é difícil provar que, sob certas condições:

;~σ

SSR 2

12 kn

Assim,

MSR é um estimador não-viesado de s2

Teste t

2

2 11 σMSRE

kn

SSRE kn

σ

SSRE

21

Assim, substituindo s2, pelo seu estimador, MSR, na

expressão do slide 19, temos que

em que

j

jX

depadrãoerroRsn

j

j

s

s

ˆ :)1(1

ˆˆ

22

2

ˆ

regressãodapadrãoerroMSR :ˆˆ 2 ss

Teste t

)1(

ˆ

2

jj xx

jj

RSQT

MSR

ββ

22

Logo, para testarmos as hipóteses

H0: j = b (em particular b = 0)

HA: j b (HA: j < b ou HA: j > b),

utilizaremos o fato que, sob H0,

e construiremos a região crítica de acordo com a hipótese

alternativa adotada.

1

ˆ

t~ˆ

ˆ

kn-

j

j

bβ

s

Teste t

0

0

3

30

β:H

β:H

A

Modelo



Voltando ao Exemplo

24


25cri to b s0 t t se H Rejeito

/2/2

tcrit- tcrit

0

0

3

30

β:H

β:H

A


51004100053640

00027360,

,

,tobs

26

/2/2

tcrit- tcrit

valo r-p se H Rejeito 0


0

0

3

30

β:H

β:H

A

51004100053640

00027360,

,

,tobs

27

Voltando ao Exemplo


existem evidências sobre a relevância da variável educ, com

99% de confiança? Toda a sua análise deve ser baseada na

construção de um intervalo de confiança.


28

Intervalo de Confiança

29

Intervalo de Confiança para j

Prova-se que

j

kn-jj tββIC

s ˆ2/

1ˆˆ);(

é um intervalo de confiança para o parâmetro j, com

coeficiente de confiança de 1-.

em que

jβado a o assoacierro padrãj

ˆˆ ˆ s

0

0

1

10

β:H

β:H

A

Modelo



Voltando ao Exemplo

31


/2/2

tcrit- tcrit


068924,0;021126,0008858,0698,2045025,0);(

023899,0

jβIC

0

0

1

10

β:H

β:H

A

Como o IC não engloba o zero, então, com 99% de confiança, existem evidências

contrárias à hipótese nula.

ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA

COM INFORMAÇÃO QUALITATIVA:

O USO DA VARIÁVEL DUMMY

Variável Dummy

Uma forma de introduzir características qualitativas em

modelos econométricos consiste na utilização de variáveis

dummy (fictícia, postiça), frequentemente chamadas de

variáveis binárias ou dicotômicas, uma vez que assumem

apenas um de dois valores – em geral 0 ou 1 – para indicar a

presença ou ausência de determinada característica.

3

4

Assim, uma variável dummy, D, pode ser descrita da seguinte

maneira:

presente estiver ticacaracterís a se

presente estiver não ticacaracterís a se

,1

,0D

Variável Dummy

Vale lembrar que a variável dummy representa estados ou

níveis de fatores, ou seja representa algo que não possui

valores numéricos ou, caso possua, estes valores não têm

realmente um significado numérico.

A senhorita Rose Jolie, gerente do departamento de RH da

empresa TEMCO, gostaria de estimar os parâmetros de um

modelo de regressão linear que levasse em consideração as

variáveis explicativas educ e dept na explicação da variável

resposta salário. Auxilie a senhorita Jolie nesta proposição.

Voltando à Empresa TEMCO

Apenas para lembrar, a senhorita Jolie, coletou informações

de uma amostra aleatória de 46 funcionários da empresa,

sobre as seguintes variáveis:

id – número cadastral do funcionário;

salario – anual, em dólares;

anosemp – tempo (em anos) na empresa;

expprev – experiência anterior (em anos);

educ – anos de estudo após o segundo grau;

sexo – (feminino = 0, masculino = 1);

dept – departamento no qual o funcionário atua

(Compras = 1, Engenharia = 2, Propaganda = 3, Vendas = 4);

super – número de empregados sob responsabilidade do empregado.


7

À primeira vista, como existem quatro departamentos na

empresa TEMCO, Rose Jolie poderia optar por usar a variável

dept, com os valores 1, 2, 3 e 4.

depteducsalário 321


No entanto, ao fazer isto, Rose Jolie estaria introduzindo uma

ideia de espaçamento, que ficará mais clara nos resultados

descritos nos slides a seguir.

Dessa maneira,

8

Escrevendo a equação de regressão de interesse, para cada

um dos departamentos, temos que:

educdepteducsalárioE



educβ)depteduc,E(salário|

231

231

231

231

)4()4,|(

)3()3,|(

)2()2,|(

)(1


Dessa forma, admitiríamos, por exemplo, que

3

)3 ,|()4 ,|(

1 )2 ,|(

depteducsalárioEdepteducsalárioE

)depteduc,E(salário|depteducsalárioE

ou seja, que a diferença entre os salários esperados dos

funcionários dos departamentos de Engenharia e Compras é

a mesma que a dos funcionários dos departamentos de

Propaganda e Engenharia, mantendo constante o tempo de

escolaridade.


10

Assim, se Rose Jolie utilizasse dept da forma como foi

construída, então ela estaria impondo uma restrição ao

modelo, que não sabemos se é real.

Ainda, se a ordem das categorias da variável departamento

fosse alterada, estaríamos propondo um novo conjunto de

restrições ao modelo, o que muito provavelmente nos levaria

a resultados completamente diferentes do caso anterior.


11

Portanto, o ideal seria utilizar um grupo de variáveis que

representasse os estados de interesse, que no nosso caso

não apresentam nenhuma ordenação natural, de tal sorte a

nunca alterar o resultado final, qualquer que seja o critério de

criação adotado para a construção destas variáveis.


A solução é, portanto, trabalharmos com algumas variáveis

dummy.

No geral, se temos p estados, devemos trabalhar com p – 1

variáveis dummy.

Variável Dummy

13

dept DC

Compras 1 0 0

Engenharia 0 1 0

Propaganda 0 0 1

Vendas 0 0 0

DE DP

Variável Dummy

Para o nosso exemplo, poderíamos definir as variáveis

dummy DC, DE e DP da seguinte maneira, para representar os

estados da variável departamento:

14

Variável Dummy

Assim, partindo do modelo de regressão linear

yi = 1 + 2 educi + 1 DCi + 2 DEi + 3 DPi + I

temos que:

Compras: yi = (1 + 1) + 2educi + i

Engenharia: yi = (1 + 2) + 2educi + i

Propaganda: yi = (1 + 3) + 2educi + i

Vendas: yi = 1 + 2 educi + i

15

Variável Dummy

Do slide 14, o parâmetro 1, por exemplo, pode ser

interpretado como a diferença esperada entre os salários dos

profissionais das áreas de Compras e Vendas, que

apresentam o mesmo tempo de escolaridade.

Ainda, vale lembrar que, estamos admitindo que o acréscimo

médio no salário correspondente ao acréscimo em um ano

de escolaridade é o mesmo para os quatro departamentos.

16

Variáveis binárias como DC, DE e DP, que são incorporadas

num modelo de regressão para dar conta de um

deslocamento do intercepto como resultado de algum fator

qualitativo, são chamadas de variáveis binárias de intercepto

ou, simplesmente, variáveis dummy de intercepto.

Variável Dummy

18

Estimação dos Parâmetros do Modelo de Interesse

PEC DDDeducariolsa 36,666452,806597,539396,295272,19235ˆ


19

educpropaganday

educengenhariay

educcomprasy

educvendasy

9629520825900

9629522427301

9629526924629

9629527219235

,,ˆ

,,ˆ

,,ˆ

,,ˆ

Interprete as estimativas dos parâmetros


20

Observação 1

INTERPRETAÇÃO DOS COEFICIENTES LIGADOS ÀS VARIÁVEIS DUMMY

Correspondem à diferença em relação ao valor do intercepto e, portanto,

à categoria que ele representa (“benchmark”, ou categoria de referência)

Vale recordar que a escolha dos valores de DC, DE e DV não é única.

Entretanto, qualquer que seja a escolha, os resultados finais da

estimação deverão ser sempre os mesmos.

Observação 2

21

Num modelo de regressão linear que já que

acomodou educ como variável explicativa para

salário, seria interessante inserir a variável sexo em

tal modelo?

Exercício

Anos de estudos após o segundo grau

14121086420-2

Salá

rio (U

S$)

70000

60000

50000

40000

30000

20000

SEXO

masculino

feminino

22

Sexo DS

Masculino 1

Feminino 0

Modelo:

yi = 1 + 2 educi + 3 DSi + i

Feminino: yi = 1 + 2educi + i

Masculino: yi = (1 + 3) + 2educi + i

Exercício (cont.)

23

Exercício (cont.)Estimação dos Parâmetros do Modelo de Interesse

24

Forma usual

SD,educ,,áriolsa 2622381629337526040ˆ

educmascy

educfemy

1629334923802

1629337526040

,,ˆ

,,ˆ


Exercício (cont.)

25

20.000

25.000

30.000

35.000

40.000

45.000

0 1 2 3 4 5 6 7

Fem

M asc

Modelo estimado com EDUC e SEXO

Deste modo, estamos admitindo que a reta de regressãodo salário em função da educação para homens éparalela à reta de regressão para as mulheres.

26

Variável Dummy

de

Inclinação

27

Variável Dummy de Inclinação

No exemplo anterior, utilizando variáveis dummy de

intercepto, ajustamos quatro retas com a mesma inclinação e

diferentes interceptos.

Veremos agora como podemos ajustar um modelo mais

geral, no qual, por exemplo, também as inclinações podem

ser distintas.

28

Sejam DC, DE e DP as variáveis dummy do exemplo

anteriormente citado.

Considere, ainda, o seguinte modelo

y = 1 + 2 educ +

+ DC(0 + 1educ) + DE(2 + 3educ) + DP(4 + 5educ) +


29

Assim, para cada um dos departamentos, teríamos os

seguintes modelos de regressão:

yvendas = 1 + 2educ +

ycompras = (1 + 0) + (2 + 1)educ +

yengenharia = (1 + 2) + (2 + 3)educ +

ypropaganda = (1 + 4) + (2 + 5)educ +


30


Ou seja, o modelo de regressão linear

y = 1 + 2 educ + DC(0 + 1educ) +

+ DE(2 + 3educ) + DP(4 + 5educ) +

faz com que sejam ajustadas quatro retas com interceptos e

inclinações diferentes.

Observe que o modelo anterior pode ser reescrito como

y = 1 + 2educ + 0DC + 2DE + 4DP +

+ 1educDC + 3educDE + 5educDP +


Donde, não é difícil observar que os parâmetros associados

às variáveis dummy DC, DE e DP, isoladamente, serão

responsáveis pela alteração dos interceptos.

Ainda, os parâmetros associados aos produtos de DC, DE e

DP por educ serão responsáveis pela alteração dos

coeficientes angulares.

32

Finalmente, as variáveis educDC, educDE e educDP são

chamadas de variáveis de interação, pois são responsáveis

por capturar o efeito de interação entre a escolaridade e

departamento sobre o salário. Traduzindo, o impacto na

variação do salário esperado de indivíduos de setores

diferentes, dada a variação de um ano na escolaridade

desses indivíduos, podem ser diferentes.


33

Modelo Estimado


34

Resultado da estimação com EDUC, DEPT e interações

educpropaganday

educengenhariay

educcomprasy

educvendasy

0328787326274

2535451624114

9142117719121

4911970628013

,,ˆ

,,ˆ

,,ˆ

,,ˆ



35

As quatro retas ajustadas simultaneamente, neste exemplo,

são equivalentes às retas que obteríamos se ajustássemos

separadamente um modelo para cada departamento.

No entanto, este procedimento tem a vantagem de facilitar a

construção dos testes de hipóteses envolvendo

simultaneamente parâmetros das quatro retas.

Observação

Documents

Análise de Regressão Linear Múltipla - Hediberthedibert.org/wp-content/uploads/2016/03/regressaolinear... · 2016-03-14 · 0 – salário médio dos funcionários da empresa TEMCO,