1. C.Dougherty Introduction to Econometrics 2. Capítulo 16. Bussab&Morettin Estatística Básica 7ª Edição

Aula 9. Regressão Linear Simples. Qualidade de modelo

1. C.Dougherty “Introduction to Econometrics”

2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição

n

n

y

x

y

x

y

x,,,

2

2

1

1

amostra

populaçãoModelo – relação entre

variável x e yy = F(x) ?

xy

parte não aleatória

termo de perturbação – parte aleatória do modelo

termo de perturbação – omissão de variável explicative– agregação de variáveis– espicificação incorreta do modelo– espicificação incorreta de dependência funcional– erros de medição

Modelo: F(x) é simples linear

Estimação de parâmetros. Método de mínimos quadrados

n

n

y

x

y

x

y

x,,,

2

2

1

1 observações

x

y

1x

1y

objeto de estudo, por exemplo x é renda familiar y é gasto em alimentos

2x

2y

x

y

xy

mas parâmetros são desconhecidos

?

?


xy

verdadeiro

bxay ˆ

estimaçãocomo?

x

y

bxay ˆ

ix

iy

iy)(ˆ iiiii bxayyye desvio (erro)

ideia – minimirar soma total dos errosrealizamos – minimizar soma total de quadrados dos erros

min),())((

)ˆ(

1

2

1

2

1

2

baSSbxay

yye

n

iii

n

iii

n

ii


min),( baSS achar a e b tais que SS(a, b) possue o valor minimo possível

),(minarg),(),(

baSSbaba

0),(

0),(

b

baSSa

baSS

n

iii bxaybaSS

1

2))((),(

0))((2

0))((2

1

1n

iiii

n

iii

bxayx

bxay

0))((

0))((

1

1n

iiii

n

iii

bxayx

bxay

n

ii

n

ii

n

iii

n

ii

n

ii

xbxayx

xbnay

1

2

11

11

2

1

2

1

xnx

yxnyxb

xbay

n

ii

n

iii


2

1

2

1

xnx

yxnyxb

xbay

n

ii

n

iii

2222

1

2

1

11)(

1),(

sn

nxxxnx

nxVar

yxxyyxyxn

yxCov

n

ii

n

iii

)(

),(

xVar

yxCovb

xbya


Media de x e a média de y estão na reta de regressão: bxay ˆ

x

y

x

yxbxbyxba )(

y

Interpretação de equação de regressão

FOOD = 53.044 + 0.097 DPI

FOODnew = 53.044 + 0.097 (DPI+1) = FOOD + 0.097 literalmente, o coeficiente de Inclinação significa que se x aumenta em uma unidade então y aumenta em 0.097As duas variável são em $billion, por isso se a renda aumenta em 1$billion então gasto em alimentos aumenta em média em 97$milhões. Em outras palavras, para cada aumento da renda em 1$ o gasto em alimentos aumenta em 9.7 cents.

Constante? Literalmente, ela mostra o valor do y quando x = 0. As vezes isso pode levar a alguma interpretação adequada, mas não nesse caso.

xy

verdadeiro

bxay ˆ

estimação

Modelo estatístico

xy parte aleatória do modelo

Gauss-Markov conditions

1. para todos os

2. para todos os (homoscedasticidade)

para todos os 3. são independentes

4. não depende do são independentes – termo de perturbação não depende de variáveis explicativas

5. tem distribuição normal

1. são i.i.d. 2. e são independentes

OBS: em curso vamos considerar como constante

Propriedades estatísticas de coeficientes

e são não viesados:

)(

),(

xVar

yxCovb

)(

),(

xVar

xxCov

)(

),(),(),(

xVar

xCovxxCovxCov

)(),(),(0),( xVarxxCovxxCovxCov

)(

),()(

xVar

xCovxVar

)(

),(

xVar

xCov

)(

),(][

xVar

xCovEbE

)(

),(

xVar

xCovE

)(

)],([

xVar

xCovE

xnxEn

xCovEn

iii

1

1)],([ 0][][

1

1

ExnExn

n

iii

EX.DOMÉSTICO: provar que a não viesado


)(1][

22

xVar

x

naD

)(][

2

xnVarbD

como estimar a variância de termo de perturbação?

)(ˆ),,,( 21 iiiiin bxayyyeeeee

um candidato para estimar e é

n

ii ee

neVar

1

2)(1

)(

n

iien

e1

1

n

iii bxay

n 1

)(1

xbay 0)( xbxbyy

n

iien 1

21

Mas Var(e) é viesado: 22)]([

n

neVarE

)(2

2 eVarn

nse

não viesado

)().(.

)(1).(.

222

xnVar

sbes

xVar

x

n

saes

sub-estima a variação verdareira

)().(.

)(1).(.

222

xnVar

sbes

xVar

x

n

saes


)(1][

22

xVar

x

naD

)(][

2

xnVarbD

menor σ2 →

menor variação de b

maior Var(x) →

menor variação de b


2).(.

ntaes

a 2).(.

ntbes

b

FOOD = 53.044 + 0.097 DPI (s.e.) (3.48) (0.0043)

Teste de hipótese

e são estatisticamente significados?

0:

0:0

A

H

estatística do teste é

).(. aes

bt

).(. bes

b 6.22

0043.0

097.0

graus de liberdade

valor critico de bilateral é

Call:lm(formula = x$FOOD ~ x$DPI)

Residuals: Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***x$DPI 0.097104 0.004381 22.16 < 2e-16 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.061 on 23 degrees of freedomMultiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16

Teste de hipótese

saida do programa R www.r-project.org

http://www.r-project.org/

Teste de hipótese

wp

Supomos que taxa percentual da inflação de preços depende da taxa percentualda inflação salarial de accordo com o modelo linear:

pw

Nos podemos supor tambem que na realidade a taxa pecentual da inflação depreços é igual à taxa percentual da inflação salarial.

1:

1:0

A

H

Em estudo longo de 20 anos (20 observações) o modelo de regressão obtida é

)10.0()05.0(.).(

82.021.1

es

wp

estatística do teste correspondente nesse caso é

8.110.0

00.182.0

).(.

aes

bt

graus de liberade n – 2 = 20 – 2 = 18 e o valor crítico é 2.101

n

n

y

x

y

x

y

x,,,

2

2

1

1

população

xy

MODELO

bxay

MODELODEESTIMAÇÂO

ˆ

qualidade de modelo é a significância de coeficientes a e b

qualidade de modelo “inteiro” em “total” ?

podemos analizar variação de dados – se o modelo explica bem a variação total de dados

ANOVA e qualidade de ajuste (goodness of fit) R2

ANOVA, e qualidade de ajuste (goodness of fit) R2

n

iiegR yySS

1

2)ˆ(

n

iiTotal yySS

1

2)(

variação total:

variação de dados ajustados:

variação “não explicada”, erro:

n

iii

n

iiErro yyeSS

1

2

1

2 )ˆ(Erro

egR

Total

SS

SS

SS

?

n

iiTotal yySS

1

2)(

n

iiii yyyy

1

2)ˆˆ(

n

iiiiiii yyyyyyyy

1

22 )ˆ)(ˆ(2)ˆ()ˆ(

n

iii yy

1

2)ˆ(

n

ii yy

1

2)ˆ(

n

iiii yyyy

1

)ˆ)(ˆ(2

ErroSS egRSS

n

iiii yyyy

1

)ˆ)(ˆ(2

)ˆ,()ˆ)(ˆ(1

1

yeCovyyyyn

n

iiii


n

iii

n

iiii yyeyyyy

11

)ˆ()ˆ)(ˆ(

n

ii

n

iii eyye

11

ˆ

n

iii ye

1

ˆ

n

iii bxae

1

)(

n

iii

n

ii xebae

11

n

iiixeb

1

n

iiii

n

iii xbxayxe

11

)(

n

ii

n

ii

n

iii xbxaxy

1

2

11

n

ii

n

ii

n

iii xbxxbyxy

1

2

11

)(

n

ii

n

iii xbnxbnxyxy

1

22

1

nxxbnxyxyn

ii

n

iii

2

1

2

1

)(),( xbnVarxynCov

)(),( xbVarxyCovn 0)()(

),(),(

xVar

xVar

xyCovxyCovn

0)ˆ)(ˆ(1

n

iiii yyyy ou 0)ˆ,( yeCov


causas devariação

graus deliberades

somaquadrados

quadradosmédios

F-estatística níveldescritivo

Regressão k -1 SSReg

SSErro

SSTotal

n - k

MSSReg=SSReg/(k-1)

MSSErro=SSErro/(n - k)

MSSReg

MSSErroResíduo

Total n -1

p

Tabela ANOVA para modelo de regressão

knkErro

egR FMSS

MSS ,1

n número de observaçõesk numero de parâmtros

causas devariação

graus deliberades

somaquadrados

quadradosmédios

F-estatística níveldescritivo

Regressão 1 SSReg

SSErro

SSTotal

n - 2

MSSReg=SSReg

SSErro/(n - 2)=s2e

SSReg

s2e

Resíduo

Total n -1

p

Tabela ANOVA para modelo de regressão caso k=2


Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo,usando a estatística que chama se coeficiente de determinação (coefficient of determination)

Total

egR

SS

SSR 2

Erro

egR

MSS

MSSF

F estatistica de análise de variância pode ser representada em modo alternativo

)/(

)1/(

knSS

kSS

Erro

egR

)/()/(

)1/()/(

knSSSS

kSSSS

TotalErro

TotalegR

knkFknR

kRF

,12

2

)/()1(

)1/(

em caso k = 2

2,12

2

)2/()1(

nFnR

RF

Call:lm(formula = x$FOOD ~ x$DPI)

Residuals: Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591



saida do programa R www.r-project.orgANOVA, e qualidade de ajuste (goodness of fit) R2

R-squared: 0.9552744

F=23*R2/(1-R2)=23*0.9553/(1-0.9553)=491.5414

F=23*R2/(1-R2)=23*0.9552744/(1-0.9552744)=491.2469

http://www.r-project.org/

Teste de hipóteses

Qual hipótese testa

F-estatística (ANOVA)? t-estatística?

0:

0:0

A

H

0:

0:0

A

H

testes tem que ser equivalentes

2tF



22.162=491.1

Modelos não lineares que podem ser estimados atraves de regressão linear

Transformação básica:

)(xfy zy)(xfz

consumo anual de bananas (y)salario anual (x) foram oservadas 10 familias

y = 5.09 + 0.73 x R2 = 0.64(s.e.) (1.23) (0.20)

coeficiente estao significantesconstruimos gráfico:

Modelos não lineares que podem ser estimados atraves de regressão linear

z = 1 / x

y = 5.09 + 0.73 x R2 = 0.64(s.e.) (1.23) (0.20)

y = 12.08 - 10.08 z R2 = 0.9989(s.e.) (0.04) (0.12)

Modelos não lineares que podem ser estimados atraves de regressão linearTransformação logaritmica.

xy lnlnlnln xy

),0(ln

ln´

ln

2 N

xx

yy

´´´ xy

se a elasticidade de y ao respeito de x é constante, entao usaremos a funçãopotência.

Elasticidade de y ao respeito da variável x é, pela definição, incremento proporcional de y pelo dado incremento proporcional de x

xdx

ydyElast

/

/.

xy

dxdy

/

/

xy

x

/

1

xy

xy

/

)/(

Modelos não lineares que podem ser estimados atraves de regressão linearTransformação logaritmica.

para o periodo 1959-1983 in EU a curva de Engel foi aplicada para gastos emalimentos (y) em relação ao salario (x). A regressão realizada é

ln y = 1.20 + 0.55 ln x

transformando pela função potência temos

y = e1.20 x0.55 = 3.32 x0.55

esse resultado sugere que elasticidade de demanda de alimentos em relacãoao salario é 0.55, o que significa que aumento em 1% de salario leva ao aumentode demanda de alimentos em 0.55%.

Fator multiplicativo 3.32 não tem a interpretação direta. Esse valor ajuda prevero valor de y quando valor do x é dado

Modelos não lineares que podem ser estimados atraves de regressão linearTrend exponencial.

xey trey lnlnln rty rty ´´

Incremento absoluto em y pela unidade de tempo é dada por

ryerdt

dy tr

Incremento proporcional em y pela unidade de tempo é dada por

ry

ry

y

dtdy

/

Incremento proporcional em y pela unidade de tempo (taxa) é constante

Modelos não lineares que podem ser estimados atraves de regressão linearTrend exponencial.

para o periodo 1959-1983 in EU a curva de trendo exponencial foi aplicada para gastos em alimentos (y). A regressão realizada é

ln y = 4.58 + 0.02 T

transformando pela função potência temos

y = e4.58 e0.02 T = 97.5 e0.02 T

esse resultado sugere que os gastos em alimentos cresce com a taxa de 2% ao anodesta vez constante pode ter interpretação: ela mostra quanto foi gasto em alimentosem ano calendario 1958 (o que corresponde T = 0) que deu $97.5 bilhões.

Referencias:

C.Dougherty’s course internet access:http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/

http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/

Documents

1. C.Dougherty Introduction to Econometrics 2. Capítulo 16. Bussab&Morettin Estatística Básica 7ª Edição