Upload
internet
View
133
Download
17
Embed Size (px)
Citation preview
Aula 9. Regressão Linear Simples. Qualidade de modelo
1. C.Dougherty “Introduction to Econometrics”
2. Capítulo 16. Bussab&Morettin “Estatística Básica” 7ª Edição
n
n
y
x
y
x
y
x,,,
2
2
1
1
amostra
populaçãoModelo – relação entre
variável x e yy = F(x) ?
xy
parte não aleatória
termo de perturbação – parte aleatória do modelo
termo de perturbação – omissão de variável explicative– agregação de variáveis– espicificação incorreta do modelo– espicificação incorreta de dependência funcional– erros de medição
Modelo: F(x) é simples linear
Estimação de parâmetros. Método de mínimos quadrados
n
n
y
x
y
x
y
x,,,
2
2
1
1 observações
x
y
1x
1y
objeto de estudo, por exemplo x é renda familiar y é gasto em alimentos
2x
2y
x
y
xy
mas parâmetros são desconhecidos
?
?
Estimação de parâmetros. Método de mínimos quadrados
xy
verdadeiro
bxay ˆ
estimaçãocomo?
x
y
bxay ˆ
ix
iy
iy)(ˆ iiiii bxayyye desvio (erro)
ideia – minimirar soma total dos errosrealizamos – minimizar soma total de quadrados dos erros
min),())((
)ˆ(
1
2
1
2
1
2
baSSbxay
yye
n
iii
n
iii
n
ii
Estimação de parâmetros. Método de mínimos quadrados
min),( baSS achar a e b tais que SS(a, b) possue o valor minimo possível
),(minarg),(),(
baSSbaba
0),(
0),(
b
baSSa
baSS
n
iii bxaybaSS
1
2))((),(
0))((2
0))((2
1
1n
iiii
n
iii
bxayx
bxay
0))((
0))((
1
1n
iiii
n
iii
bxayx
bxay
n
ii
n
ii
n
iii
n
ii
n
ii
xbxayx
xbnay
1
2
11
11
2
1
2
1
xnx
yxnyxb
xbay
n
ii
n
iii
Estimação de parâmetros. Método de mínimos quadrados
2
1
2
1
xnx
yxnyxb
xbay
n
ii
n
iii
2222
1
2
1
11)(
1),(
sn
nxxxnx
nxVar
yxxyyxyxn
yxCov
n
ii
n
iii
)(
),(
xVar
yxCovb
xbya
Estimação de parâmetros. Método de mínimos quadrados
Media de x e a média de y estão na reta de regressão: bxay ˆ
x
y
x
yxbxbyxba )(
y
Interpretação de equação de regressão
FOOD = 53.044 + 0.097 DPI
FOODnew = 53.044 + 0.097 (DPI+1) = FOOD + 0.097 literalmente, o coeficiente de Inclinação significa que se x aumenta em uma unidade então y aumenta em 0.097As duas variável são em $billion, por isso se a renda aumenta em 1$billion então gasto em alimentos aumenta em média em 97$milhões. Em outras palavras, para cada aumento da renda em 1$ o gasto em alimentos aumenta em 9.7 cents.
Constante? Literalmente, ela mostra o valor do y quando x = 0. As vezes isso pode levar a alguma interpretação adequada, mas não nesse caso.
xy
verdadeiro
bxay ˆ
estimação
Modelo estatístico
xy parte aleatória do modelo
Gauss-Markov conditions
1. para todos os
2. para todos os (homoscedasticidade)
para todos os 3. são independentes
4. não depende do são independentes – termo de perturbação não depende de variáveis explicativas
5. tem distribuição normal
1. são i.i.d. 2. e são independentes
OBS: em curso vamos considerar como constante
Propriedades estatísticas de coeficientes
e são não viesados:
)(
),(
xVar
yxCovb
)(
),(
xVar
xxCov
)(
),(),(),(
xVar
xCovxxCovxCov
)(),(),(0),( xVarxxCovxxCovxCov
)(
),()(
xVar
xCovxVar
)(
),(
xVar
xCov
)(
),(][
xVar
xCovEbE
)(
),(
xVar
xCovE
)(
)],([
xVar
xCovE
xnxEn
xCovEn
iii
1
1)],([ 0][][
1
1
ExnExn
n
iii
EX.DOMÉSTICO: provar que a não viesado
Propriedades estatísticas de coeficientes
)(1][
22
xVar
x
naD
)(][
2
xnVarbD
como estimar a variância de termo de perturbação?
)(ˆ),,,( 21 iiiiin bxayyyeeeee
um candidato para estimar e é
n
ii ee
neVar
1
2)(1
)(
n
iien
e1
1
n
iii bxay
n 1
)(1
xbay 0)( xbxbyy
n
iien 1
21
Mas Var(e) é viesado: 22)]([
n
neVarE
)(2
2 eVarn
nse
não viesado
)().(.
)(1).(.
222
xnVar
sbes
xVar
x
n
saes
sub-estima a variação verdareira
)().(.
)(1).(.
222
xnVar
sbes
xVar
x
n
saes
Propriedades estatísticas de coeficientes
)(1][
22
xVar
x
naD
)(][
2
xnVarbD
menor σ2 →
menor variação de b
maior Var(x) →
menor variação de b
Propriedades estatísticas de coeficientes
2).(.
ntaes
a 2).(.
ntbes
b
FOOD = 53.044 + 0.097 DPI (s.e.) (3.48) (0.0043)
Teste de hipótese
e são estatisticamente significados?
0:
0:0
A
H
estatística do teste é
).(. aes
bt
).(. bes
b 6.22
0043.0
097.0
graus de liberdade
valor critico de bilateral é
Call:lm(formula = x$FOOD ~ x$DPI)
Residuals: Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***x$DPI 0.097104 0.004381 22.16 < 2e-16 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedomMultiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
Teste de hipótese
saida do programa R www.r-project.org
Teste de hipótese
wp
Supomos que taxa percentual da inflação de preços depende da taxa percentualda inflação salarial de accordo com o modelo linear:
pw
Nos podemos supor tambem que na realidade a taxa pecentual da inflação depreços é igual à taxa percentual da inflação salarial.
1:
1:0
A
H
Em estudo longo de 20 anos (20 observações) o modelo de regressão obtida é
)10.0()05.0(.).(
82.021.1
es
wp
estatística do teste correspondente nesse caso é
8.110.0
00.182.0
).(.
aes
bt
graus de liberade n – 2 = 20 – 2 = 18 e o valor crítico é 2.101
n
n
y
x
y
x
y
x,,,
2
2
1
1
população
xy
MODELO
bxay
MODELODEESTIMAÇÂO
ˆ
qualidade de modelo é a significância de coeficientes a e b
qualidade de modelo “inteiro” em “total” ?
podemos analizar variação de dados – se o modelo explica bem a variação total de dados
ANOVA e qualidade de ajuste (goodness of fit) R2
ANOVA, e qualidade de ajuste (goodness of fit) R2
n
iiegR yySS
1
2)ˆ(
n
iiTotal yySS
1
2)(
variação total:
variação de dados ajustados:
variação “não explicada”, erro:
n
iii
n
iiErro yyeSS
1
2
1
2 )ˆ(Erro
egR
Total
SS
SS
SS
?
n
iiTotal yySS
1
2)(
n
iiii yyyy
1
2)ˆˆ(
n
iiiiiii yyyyyyyy
1
22 )ˆ)(ˆ(2)ˆ()ˆ(
n
iii yy
1
2)ˆ(
n
ii yy
1
2)ˆ(
n
iiii yyyy
1
)ˆ)(ˆ(2
ErroSS egRSS
n
iiii yyyy
1
)ˆ)(ˆ(2
)ˆ,()ˆ)(ˆ(1
1
yeCovyyyyn
n
iiii
ANOVA, e qualidade de ajuste (goodness of fit) R2
n
iii
n
iiii yyeyyyy
11
)ˆ()ˆ)(ˆ(
n
ii
n
iii eyye
11
ˆ
n
iii ye
1
ˆ
n
iii bxae
1
)(
n
iii
n
ii xebae
11
n
iiixeb
1
n
iiii
n
iii xbxayxe
11
)(
n
ii
n
ii
n
iii xbxaxy
1
2
11
n
ii
n
ii
n
iii xbxxbyxy
1
2
11
)(
n
ii
n
iii xbnxbnxyxy
1
22
1
nxxbnxyxyn
ii
n
iii
2
1
2
1
)(),( xbnVarxynCov
)(),( xbVarxyCovn 0)()(
),(),(
xVar
xVar
xyCovxyCovn
0)ˆ)(ˆ(1
n
iiii yyyy ou 0)ˆ,( yeCov
ANOVA, e qualidade de ajuste (goodness of fit) R2
causas devariação
graus deliberades
somaquadrados
quadradosmédios
F-estatística níveldescritivo
Regressão k -1 SSReg
SSErro
SSTotal
n - k
MSSReg=SSReg/(k-1)
MSSErro=SSErro/(n - k)
MSSReg
MSSErroResíduo
Total n -1
p
Tabela ANOVA para modelo de regressão
knkErro
egR FMSS
MSS ,1
n número de observaçõesk numero de parâmtros
causas devariação
graus deliberades
somaquadrados
quadradosmédios
F-estatística níveldescritivo
Regressão 1 SSReg
SSErro
SSTotal
n - 2
MSSReg=SSReg
SSErro/(n - 2)=s2e
SSReg
s2e
Resíduo
Total n -1
p
Tabela ANOVA para modelo de regressão caso k=2
ANOVA, e qualidade de ajuste (goodness of fit) R2
Tambem podemos medir o lucro relativo que se ganha ao introduzir o modelo,usando a estatística que chama se coeficiente de determinação (coefficient of determination)
Total
egR
SS
SSR 2
Erro
egR
MSS
MSSF
F estatistica de análise de variância pode ser representada em modo alternativo
)/(
)1/(
knSS
kSS
Erro
egR
)/()/(
)1/()/(
knSSSS
kSSSS
TotalErro
TotalegR
knkFknR
kRF
,12
2
)/()1(
)1/(
em caso k = 2
2,12
2
)2/()1(
nFnR
RF
Call:lm(formula = x$FOOD ~ x$DPI)
Residuals: Min 1Q Median 3Q Max -8.2976 -1.3975 0.3045 0.9550 10.1591
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***x$DPI 0.097104 0.004381 22.16 < 2e-16 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedomMultiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
saida do programa R www.r-project.orgANOVA, e qualidade de ajuste (goodness of fit) R2
R-squared: 0.9552744
F=23*R2/(1-R2)=23*0.9553/(1-0.9553)=491.5414
F=23*R2/(1-R2)=23*0.9552744/(1-0.9552744)=491.2469
Teste de hipóteses
Qual hipótese testa
F-estatística (ANOVA)? t-estatística?
0:
0:0
A
H
0:
0:0
A
H
testes tem que ser equivalentes
2tF
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 53.043771 3.481715 15.23 1.65e-13 ***x$DPI 0.097104 0.004381 22.16 < 2e-16 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.061 on 23 degrees of freedomMultiple R-squared: 0.9553, Adjusted R-squared: 0.9533 F-statistic: 491.2 on 1 and 23 DF, p-value: < 2.2e-16
22.162=491.1
Modelos não lineares que podem ser estimados atraves de regressão linear
Transformação básica:
)(xfy zy)(xfz
consumo anual de bananas (y)salario anual (x) foram oservadas 10 familias
y = 5.09 + 0.73 x R2 = 0.64(s.e.) (1.23) (0.20)
coeficiente estao significantesconstruimos gráfico:
Modelos não lineares que podem ser estimados atraves de regressão linear
z = 1 / x
y = 5.09 + 0.73 x R2 = 0.64(s.e.) (1.23) (0.20)
y = 12.08 - 10.08 z R2 = 0.9989(s.e.) (0.04) (0.12)
Modelos não lineares que podem ser estimados atraves de regressão linearTransformação logaritmica.
xy lnlnlnln xy
),0(ln
ln´
ln
2 N
xx
yy
´´´ xy
se a elasticidade de y ao respeito de x é constante, entao usaremos a funçãopotência.
Elasticidade de y ao respeito da variável x é, pela definição, incremento proporcional de y pelo dado incremento proporcional de x
xdx
ydyElast
/
/.
xy
dxdy
/
/
xy
x
/
1
xy
xy
/
)/(
Modelos não lineares que podem ser estimados atraves de regressão linearTransformação logaritmica.
para o periodo 1959-1983 in EU a curva de Engel foi aplicada para gastos emalimentos (y) em relação ao salario (x). A regressão realizada é
ln y = 1.20 + 0.55 ln x
transformando pela função potência temos
y = e1.20 x0.55 = 3.32 x0.55
esse resultado sugere que elasticidade de demanda de alimentos em relacãoao salario é 0.55, o que significa que aumento em 1% de salario leva ao aumentode demanda de alimentos em 0.55%.
Fator multiplicativo 3.32 não tem a interpretação direta. Esse valor ajuda prevero valor de y quando valor do x é dado
Modelos não lineares que podem ser estimados atraves de regressão linearTrend exponencial.
xey trey lnlnln rty rty ´´
Incremento absoluto em y pela unidade de tempo é dada por
ryerdt
dy tr
Incremento proporcional em y pela unidade de tempo é dada por
ry
ry
y
dtdy
/
Incremento proporcional em y pela unidade de tempo (taxa) é constante
Modelos não lineares que podem ser estimados atraves de regressão linearTrend exponencial.
para o periodo 1959-1983 in EU a curva de trendo exponencial foi aplicada para gastos em alimentos (y). A regressão realizada é
ln y = 4.58 + 0.02 T
transformando pela função potência temos
y = e4.58 e0.02 T = 97.5 e0.02 T
esse resultado sugere que os gastos em alimentos cresce com a taxa de 2% ao anodesta vez constante pode ter interpretação: ela mostra quanto foi gasto em alimentosem ano calendario 1958 (o que corresponde T = 0) que deu $97.5 bilhões.
Referencias:
C.Dougherty’s course internet access:http://econ.lse.ac.uk/courses/ec220/G/ieppt/series2/