42
ECONOMETRIA Prof. Patricia Maria Bortolon, D. Sc.

ECONOMETRIA - pmbortolon.wdfiles.compmbortolon.wdfiles.com/local--files/home/Econometria_Capitulos 9.pdf · Variáveis Binárias • = variáveis dummy –assumem valores 0 ou 1 •

  • Upload
    lamtram

  • View
    239

  • Download
    0

Embed Size (px)

Citation preview

ECONOMETRIA

Prof. Patricia Maria Bortolon, D. Sc.

Cap. 9 – Modelos de Regressão com

Variáveis Binárias

Fonte: GUJARATI; D. N. Econometria Básica: 4ª Edição.

Rio de Janeiro. Elsevier- Campus, 2006

Variáveis Binárias

• = variáveis dummy – assumem valores 0 ou 1

• = variáveis indicadoras, de categoria, qualitativas ou

binárias

• São essencialmente variáveis nominais

• Um artifício para classificar dados em categorias

mutuamente exclusivas como masculino e feminino

• Modelos com regressores de natureza exclusivamente

binária são chamados modelos de análise de variância

(ANOVA)

Ver exemplo 9.1 em dummy1.txt

Exemplo 9.1

Cautela no uso de variáveis binárias

• Colinearidade perfeita

• No exemplo com 3 regiões se criarmos uma terceira

dummy D1 teremos ao somar as três dummies uma

coluna com 51 uns, igual aos 1’s implícitos em α

𝑌1 = 𝛼. 1 + 𝛽1𝐷11 + 𝛽2𝐷21 + 𝛽3𝐷31 + 𝑢1

𝑌2 = 𝛼. 1 + 𝛽1𝐷12 + 𝛽2𝐷22 + 𝛽3𝐷32 + 𝑢2

𝑌3 = 𝛼. 1 + 𝛽1𝐷13 + 𝛽2𝐷23 + 𝛽3𝐷33 + 𝑢3

⋮𝑌𝑛 = 𝛼. 1 + 𝛽1𝐷1𝑛 + 𝛽2𝐷2𝑛 + 𝛽3𝐷3𝑛 + 𝑢𝑛

Cautela no uso de variáveis binárias

• Na forma matricial

𝑌1

𝑌2

⋮𝑌𝑛

=

1 𝐷11 𝐷21

1 𝐷12 𝐷22

⋮1

⋮𝐷1𝑛

⋮𝐷2𝑛

𝐷31

𝐷32

⋮𝐷3𝑛

𝛼𝛽1

𝛽2

𝛽3

+

𝑢1

𝑢2

⋮𝑢𝑛

1 = 𝟏

Colinearidade perfeita => essa matriz não tem inversa

Regra: se a variável qualitativa tem m categorias teremos

que usar (m-1) variáveis dummies!!

Cautela no uso de variáveis binárias

• Categoria de base, de referência, de controle, de

comparação ou omitida => não se designa variável

binária

• 𝛽1 é o valor médio dessa categoria

• Outros 𝛽𝑠 são coeficientes diferenciais de intercepto

• Se não usarmos a regra das classificações menos 1,

então temos que rodar o modelo sem intercepto

• Daí os valores médios serão obtidos diretamente

Modelos ANOVA com duas variáveis

qualitativas

• Qual a categoria de

referência nesse caso?

• Qual o salário médio dos

casados?

• Qual o salário médio dos

que residem no Sul?

• Esses salários são

estatisticamente diferentes

daqueles da categoria

referencial?

Regressões com variáveis quantitativas e

qualitativas: os modelos ANCOVA

• Um método de controlar estatisticamente os efeitos de

regressores quantitativos, chamados de covariáveis ou

variáveis de controle, em um modelo que inclui tanto

regressores quantitativos quanto qualitativos ou

binários.

• Será que o gasto público com educação afeta o salário

dos professores?

𝑌𝑖 = 𝛽1 + 𝛽2𝐷2𝑖 + 𝛽3𝐷3𝑖 + 𝛽4𝑋4𝑖 + 𝑢𝑖Yi = salário médio anual dos professores em US$

D2i = 1 se NE ou CO; 0 c.c.

D3i = 1 se Sul e 0 c.c.

Xi = gastos com ensino público em US$/aluno

Ver exemplo 9.3 em dummy2.txt

A variável binária como alternativa ao teste de

Chow

• No teste de Chow não é possível dizer se a diferença se

devia ao intercepto, aos coeficientes angulares ou a

ambos.

• Há quatro situações possíveis:

1. Regressões coincidentes = interceptos e inclinações são

iguais

2. Regressões paralelas = interceptos diferentes e inclinações

iguais

3. Regressões concorrentes = interceptos iguais e inclinações

diferentes

4. Regressões dessemelhantes = interceptos e inclinações são

diferentes

A variável binária como alternativa ao teste de

Chow

• Exemplo poupança e renda americana de 1970 a 1995

𝑌𝑡 = 𝛼1 + 𝛼2𝐷𝑡 + 𝛽1𝑋𝑡 + 𝛽2 𝐷𝑡𝑋𝑡 + 𝑢𝑡Y = poupança

X = renda

t = anos

D = 1 para o período 1982 a 1995

0, nos demais casos (1970 – 1981)

Função de poupança média, 1970 – 1981:𝐸 𝑌𝑡 𝐷𝑡 = 0, 𝑋𝑡 = 𝛼1 + 𝛽1𝑋𝑡

Função de poupança média, 1982 – 1995:𝐸 𝑌𝑡 𝐷𝑡 = 1, 𝑋𝑡 = (𝛼1 + 𝛼2) + (𝛽1 + 𝛽2)𝑋𝑡

Se significativo indica

que a inclinação é diferente

Se significativo indica

que o intercepto é diferente

A variável binária como alternativa ao teste de

Chow

• Variável binária

ADITIVA => para avaliar interceptos

MULTIPLICATIVA => para avaliar inclinações

• Para saber se as retas são coincidentes é preciso testar

simultaneamente 𝛼2 = 𝛽2 = 0

Ver exemplo 9.4 em pouprenda.txt

Efeitos de interação com o uso de

variáveis binárias

𝑌𝑖 = 𝛼1 + 𝛼2𝐷2𝑖 + 𝛼3𝐷3𝑖 + 𝛽𝑋𝑖 + 𝑢𝑖Yi = salários-hora em US$

D2i = 1 se mulheres, 0 se homens

D3i = 1 se não brancos e não hispânicos, 0 outros

Xi = escolaridade (anos de frequência à escola)

• O efeito diferencial da variável gênero é constante nas

duas categorias de raça (a diferença de salário por ser

mulher não depende de ser branco e hispânico)

• O efeito diferencial da variável raça é constante nos

dois gêneros.

• E se a diferença de salário pelo gênero depender

também da raça?

Efeitos de interação com o uso de

variáveis binárias

𝑌𝑖 = 𝛼1 + 𝛼2𝐷2𝑖 + 𝛼3𝐷3𝑖 + 𝛽𝑋𝑖 + 𝑢𝑖

• Pode haver uma interação entre as variáveis D2 e D3. O

efeito sobre Y médio pode não ser aditivo, mas também

multiplicativo.

𝑌𝑖 = 𝛼1 + 𝛼2𝐷2𝑖 + 𝛼3𝐷3𝑖 + 𝛼4(𝐷2𝑖𝐷3𝑖) + 𝛽𝑋𝑖 + 𝑢𝑖Mulher não branca não hispânica: D2=1 D3=1

𝐸 𝑌𝑖 𝐷2𝑖 = 1, 𝐷3𝑖 = 1, 𝑋𝑖 = (𝛼1 + 𝛼2 + 𝛼3 + 𝛼4) + 𝛽𝑋𝑖

Homem não branco não hispânico: D2=0 D3=1

𝐸 𝑌𝑖 𝐷2𝑖 = 0, 𝐷3𝑖 = 1, 𝑋𝑖 = (𝛼1 + 𝛼3) + 𝛽𝑋𝑖

Homem branco e hispânico: D2=0 D3=0

𝐸 𝑌𝑖 𝐷2𝑖 = 0, 𝐷3𝑖 = 0, 𝑋𝑖 = 𝛼1 + 𝛽𝑋𝑖

Mulher branca e hispânica: D2=1 D3=0

𝐸 𝑌𝑖 𝐷2𝑖 = 1, 𝐷3𝑖 = 0, 𝑋𝑖 = (𝛼1 + 𝛼2) + 𝛽𝑋𝑖

Em todos esses

caso a inclinação não

se altera. Poderíamos

criar variáveis de interação

para ver se a inclinação

se altera.

Variáveis binárias em análises sazonais

• Uma solução é usar uma dummy para cada período

tendo o cuidado de estimar o modelo sem intercepto.

• Usar um período como referência tem a vantagem de

podermos identificar se o intercepto diferencial em

algum período não é estatisticamente significante.

• Os resíduos dessa regressão serão a séria

dessazonalizada, com os componentes de tendência,

cíclico e aleatório.

ST = s + c + t + u

Ver exemplo 9.6

Regressão linear segmentada

• Quando há mudança na inclinação a partir de um

determinado valor do regressor.

𝑌𝑖 = 𝛼1 + 𝛽1𝑋𝑖 + 𝛽2 𝑋𝑖 − 𝑋∗ 𝐷𝑖 + 𝑢𝑖Yi = comissão sobre vendas

Xi = volume de vendas geradas por um

vendedor

X* = valor limiar de vendas, nó

D = 1 se Xi > X* e 0 se Xi < X*

Regressão linear segmentada

Para X < X* => D = 0

𝐸(𝑌𝑖|𝐷𝑖 = 0, 𝑋𝑖, 𝑋∗) = 𝛼1 + 𝛽1𝑋𝑖

Para X > X* => D = 1

𝐸 𝑌𝑖 𝐷𝑖 = 1, 𝑋𝑖, 𝑋∗ = 𝛼1 − 𝛽2𝑋∗ + (𝛽1 + 𝛽2)𝑋𝑖

Variáveis binárias em regressões

semilogarítmicas

• Nessas regressões o coeficiente nos dá a semi-elasticidade

(variação percentual da variável dependente para uma variação

unitária da variável explicativa).

• Só se aplica se o regressor for variável quantitativa.

• Para um modelo do tipo

𝑙𝑛𝑌𝑖 = 𝛽1 + 𝛽2𝐷𝑖 + 𝑢𝑖

Onde Y = salário hora em US$ e D = 1 se mulher

A função salário para homens será:

𝐸(𝑙𝑛𝑌𝑖|𝐷𝑖 = 0) = 𝛽1

A função salário para mulheres será:

𝐸 𝑙𝑛𝑌𝑖 𝐷𝑖 = 1 = 𝛽1 + 𝛽2

Dá a variação

no logaritmo médio

dos salários-hora

Variáveis binárias em regressões

semilogarítmicas

• O antilogaritmo dos coeficientes nos dá o salário

mediano e não o médio (antilog x = ex)

• 𝑙𝑛𝑌𝑖 = 𝛽1 + 𝛽2𝐷𝑖

• 𝑙𝑛𝑌𝑖 = 𝛽1 + ln(𝑒𝛽2𝐷𝑖) => 𝑠𝑒 𝐷 = 0 𝑒𝛽2𝐷𝑖 = 1

𝑠𝑒 𝐷 = 1 𝑒𝛽2𝐷𝑖 = 𝑒𝛽2

• Logo, quando D varia de 0 para 1 o ln Y varia (𝑒𝛽2 −1)

• A variação no logaritmo é uma variação relativa

• Se multiplicarmos por 100 teremos a variação %

Variáveis binárias em regressões

semilogarítmicas

• No modelo do exemplo 9.8

• Para verificar a variação percentual no salário mediano

de homens e mulheres fazemos:

𝑒−0,2437 − 1 . 100 = −21,63%

O salário mediano da trabalhadora (D=1) é inferior ao

masculino em cerca de 21,63%.

A hipótese da normalidade

𝑡 = 𝛽1 − 𝛽1

𝑒𝑝( 𝛽1)

𝑡 = 𝛽2 − 𝛽2

𝑒𝑝( 𝛽2)

𝑡 = 𝛽3 − 𝛽3

𝑒𝑝( 𝛽3)

Segue a distribuição t com n – 3 graus de liberdade.

Por que 3 graus de liberdade?

t => para testar coeficientes parciais da regressão múltipla

χ2=> para testar hipóteses sobre o verdadeiro σ2 da

população

Testes de hipóteses relativos aos coeficientes

de regressão individuais

• H0: β2 = 0

• H1: β2 ≠ 0

– Comparar t com tcrítico

– Qual seria o tcrítico para o caso da MI?

– Na prática olhamos o p-valor

– E se eu espero um determinado sinal?

• O teste não é mais bilateral... no exemplo da MI poderia supor que o

coeficiente de PNBpc seja negativo. Então:

H0: β2 ≥ 0

H1: β2 < 0

Teste de significância geral da regressão

amostral

• Testa se há uma relação linear entre o Y e as variáveis

explicativas em conjunto

H0: β2 = β3 = 0

• É o mesmo que testar β2 = 0 e β3 = 0?

– Não!

– Usamos a mesma amostra para testar β2 = 0 e β3 = 0, portanto

não são independentes

– 𝑃 𝛽2 = 0 𝛽3 = 0 ≠ 𝑃 𝛽2 = 0 . 𝑃(𝛽3 = 0)

– 𝑃[ 𝛽2 ± 𝑡 𝛼2𝑒𝑝 𝛽2 , 𝑃[ 𝛽3 ± 𝑡 𝛼

2𝑒𝑝 𝛽3 ] ≠ (1 − 𝛼)(1 − 𝛼)

– Então, como testar β2 = β3 = 0?

A abordagem da ANOVA: teste F

𝑦𝑖2 = 𝛽2 𝑦𝑖𝑥2𝑖 + 𝛽3 𝑦𝑖𝑥3𝑖 + 𝑢𝑖

𝐹 =

𝛽2 𝑦𝑖𝑥2𝑖 + 𝛽3 𝑦𝑖𝑥3𝑖2

𝑢𝑖

2

𝑛 − 3

=

𝑆𝑄𝐸𝑔𝑙

𝑆𝑄𝑅

𝑔𝑙

Se distribui como a distribuição F, com 2 e n-3 graus de liberdade.

Se β2 = β3 = 0 for verdadeira SQE e SQR serão muito próximos. O

modelo não agrega explicação. Não se rejeitará H0. Se SQE for

muito maior que SQR rejeita-se H0.

STQ SQE SQR

Significância geral de uma regressão

múltipla

Dado o modelo de regressão com k variáveis:

𝑌𝑖 = 𝛽1 + 𝛽2𝑋2𝑖 + 𝛽3𝑋3𝑖 + ⋯ + 𝛽𝑘𝑋𝑘𝑖 + 𝑢𝑖

Para testar a hipótese:

H0: β2 = β3 =...= βk = 0

H1: nem todos os coeficientes angulares são simultaneamente

iguais a zero

𝐹 =

𝑆𝑄𝐸𝑔𝑙

𝑆𝑄𝑅

𝑔𝑙

=

𝑆𝑄𝐸(𝑘 − 1)

𝑆𝑄𝑅

(𝑛 − 𝑘)

Se F > Fα(k-1,n-k), rejeite H0.

k =3 no caso de 3 variáveis (Y, X2 e X3)

Significância geral de uma regressão

múltipla

• Testes dos coeficientes individuais não substituem o

teste geral da regressão linear múltipla.

• É possível ter regressão significativa como um todo

com poucos ou nenhum coeficiente significativo

individualmente.

• E também R2 baixos em regressões com coeficientes

significativos. Essa é uma situação comum em dados

em corte transversal.

• O importante é a especificação correta do modelo,

sinais corretos e significância estatística.

Relação entre R2 e F

𝑅2 =𝑆𝑄𝐸

𝑆𝑄𝑇

𝐹 =

𝑆𝑄𝐸(𝑘 − 1)

𝑆𝑄𝑅(𝑛 − 𝑘)

=𝑛 − 𝑘

𝑘 − 1.𝑆𝑄𝐸

𝑆𝑄𝑅

𝐹 =𝑛 − 𝑘

𝑘 − 1.

𝑆𝑄𝐸

𝑆𝑇𝑄 − 𝑆𝑄𝐸

÷ 𝑆𝑄𝑇÷ 𝑆𝑄𝑇

𝐹 =𝑛 − 𝑘

𝑘 − 1.

𝑅2

1 − 𝑅2

𝐹 = 𝑅2

(𝑘 − 1)

(1 − 𝑅2)

(𝑛 − 𝑘)

Relação entre R2 e F

𝐹 = 𝑅2

(𝑘 − 1)

(1 − 𝑅2)

(𝑛 − 𝑘)

R2 = 0 => F = 0 => regressão não é significante

R2 = 1 => F => ∞

Quando acrescentar uma nova variável?

𝐹 =

(𝑆𝑄𝐸𝑛𝑜𝑣𝑜−𝑆𝑄𝐸𝑣𝑒𝑙ℎ𝑜)𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑜𝑣𝑜𝑠 𝑟𝑒𝑔.

𝑆𝑄𝐸𝑛𝑜𝑣𝑜

(𝑛 − 𝑘)

Se as variáveis dependentes dos modelos novo e antigo

são as mesmas posso usar:

𝐹 =

𝑅𝑛𝑜𝑣𝑜2 − 𝑅𝑣𝑒𝑙ℎ𝑜

2

𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑜𝑣𝑜𝑠 𝑟𝑒𝑔.

1 − 𝑅𝑛𝑜𝑣𝑜2

𝑛 − 𝑘

Quando acrescentar uma nova variável?

• A prática de escolher modelo com 𝑅𝑎𝑗𝑢𝑠𝑡2 mais alto não

é adequada, pois não há certeza de que o aumento é

significativo.

• 𝑅𝑎𝑗𝑢𝑠𝑡2 aumenta se | t | da nova variável é maior que 1,

sendo | t | calculado sob a hipótese de que o coeficiente

é igual a zero.

• 𝑅𝑎𝑗𝑢𝑠𝑡2 aumentará se t2 = F for maior que 1

Quando acrescentar um grupo de

variáveis?

Quando F dado por

𝐹 =

𝑅𝑛𝑜𝑣𝑜2 − 𝑅𝑣𝑒𝑙ℎ𝑜

2

𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑜𝑣𝑜𝑠 𝑟𝑒𝑔.

1 − 𝑅𝑛𝑜𝑣𝑜2

𝑛 − 𝑘

for maior que 1.

Teste da igualdade de dois coeficientes da

regressão

𝑌𝑖 = 𝛽1 + 𝛽2𝑋2𝑖 + 𝛽3𝑋3𝑖 + 𝛽4𝑋4𝑖 + 𝑢𝑖

• X3 = renda, X4 = riqueza, Y = demanda do bem

H0: β3 = β4 => (β3 - β4) = 0

H0: β3 ≠ β4 => (β3 - β4) ≠ 0

𝑡 = 𝛽3 − 𝛽4 − (𝛽3 − 𝛽4)

𝑒𝑝 𝛽3 − 𝛽4

𝑒𝑝 𝛽3 − 𝛽4 = 𝑣𝑎𝑟 𝛽3 + 𝑣𝑎𝑟 𝛽4 − 2𝑐𝑜𝑣( 𝛽3, 𝛽4)

Onde obter as var e cov?

Ver comandos em funcaocusto.txt

Mínimos quadrados restritos: teste das

restrições de igualdade linear

Função Cobb-Douglas

𝑌𝑖 = 𝛽1𝑋2𝑖𝛽2𝑋3𝑖

𝛽3𝑒𝑢𝑖

Onde X2 = insumo de mão de obra, X3 = insumo de

capital, Y = produção

𝑙𝑛𝑌𝑖 = 𝛽0 + 𝛽2𝑙𝑛𝑋2𝑖 + 𝛽3𝑙𝑛𝑋3𝑖 + 𝑢𝑖

Onde 𝛽0 = 𝑙𝑛𝛽1

Se houver retornos constantes de escala = variação

equiproporcional da produção para uma variação

equiproporcional nos insumos

𝛽2 + 𝛽3 = 1

Mínimos quadrados restritos: teste das

restrições de igualdade linear

A abordagem do teste t:

𝑡 = 𝛽2 + 𝛽3 − (𝛽2 + 𝛽3)

𝑒𝑝 𝛽2 + 𝛽3

𝑒𝑝 𝛽2 + 𝛽3 = 𝑣𝑎𝑟 𝛽2 + 𝑣𝑎𝑟 𝛽3 + 2𝑐𝑜𝑣( 𝛽2, 𝛽3)

Mínimos quadrados restritos: teste das

restrições de igualdade linear

A abordagem do teste F:

𝐹 = 𝑆𝑄𝑅𝑅 − 𝑆𝑄𝑅𝑆𝑅𝑚

𝑆𝑄𝑅𝑆𝑅

𝑛 − 𝑘

𝐹 = 𝑅𝑆𝑅

2 − 𝑅𝑅2

𝑚

1 − 𝑅𝑆𝑅

2

𝑛 − 𝑘

Mínimos quadrados restritos: teste das

restrições de igualdade linear

Como obter o modelo restrito?

𝛽2 + 𝛽3 = 1𝛽2 − 1 = 𝛽3

𝑙𝑛𝑌𝑖 = 𝛽0 + (1 − 𝛽3)𝑙𝑛𝑋2𝑖 + 𝛽3𝑙𝑛𝑋3𝑖 + 𝑢𝑖

𝑙𝑛𝑌𝑖 = 𝛽0 + 𝑙𝑛𝑋2𝑖 − 𝛽3𝑙𝑛𝑋2𝑖 + 𝛽3𝑙𝑛𝑋3𝑖 + 𝑢𝑖

𝑙𝑛𝑌𝑖 − 𝑙𝑛𝑋2𝑖 = 𝛽0 + 𝛽3(𝑙𝑛𝑋3𝑖 − 𝑙𝑛𝑋2𝑖) + 𝑢𝑖

𝑙𝑛𝑌𝑖

𝑋2𝑖= 𝛽0 + 𝛽3𝑙𝑛

𝑋3𝑖

𝑋2𝑖+ 𝑢𝑖

Ver comandos em cobbdouglas.txt

Teste da estabilidade estrutural ou dos

parâmetros nos modelos de regressão: Teste de

Chow

• Quando empregamos um modelo de regressão que

envolve o uso de séries temporais pode haver mudança

dos coeficientes ao longo do tempo.

• Exemplos: (i) exportações no Brasil antes e depois da

liberação do câmbio em 1999; (ii) demonstrações

contábeis antes e depois do IFRS

• Como saber se há quebra de estrutura?

Teste de Chow

• Nada mais é que um teste de modelo restrito x modelo

sem restrições

• Aqui o restrito é o que supõe que os coeficientes são

iguais ao longo de todo o tempo

• Premissas:

– 𝑢1𝑡~𝑁 0 , 𝜎2

– 𝑢2𝑡~𝑁(0 , 𝜎2)

– 𝑢1𝑡 e 𝑢2𝑡 têm distribuições independentes

Distribuição Normal

com mesma variância

Teste de Chow

• Etapas do teste:

1. Estima-se as regressões separadas

2. Estima-se a regressão para o período completo

3. Obtém-se os SQR (soma quad. resíduos)

4. Teste F

𝐹 = 𝑆𝑄𝑅𝑅 − 𝑆𝑄𝑅𝑆𝑅𝑘

𝑆𝑄𝑅𝑆𝑅

(𝑛1 + 𝑛2 − 2𝑘)

~ 𝐹𝑘 ,𝑛1+𝑛2−2𝑘

Ver comandos em pouprenda.txt

Teste de Chow

• Advertências:

1. As premissas devem ser respeitadas. É preciso verificar se

as variâncias dos erros das regressão são iguais.

2. O teste não diz se a diferença entre as regressões decorre

dos interceptos, coeficientes angulares ou de ambos.

3. O teste pressupõe que conhecemos o ponto de quebra

estrutural.

Ver comandos em pouprenda.txt