View
233
Download
0
Embed Size (px)
Citation preview
Estatística Econômica II: Regressão Linear e Análise Estatística Econômica II: Regressão Linear e Análise de Variânciade Variância
ANO 2015ANO 2015
“método estatístico que utiliza a relação entre duas ou mais variáveis de modo que uma variável pode ser estimada (ou predita) a partir da outra ou das
outras”
Regressão Linear SimplesRegressão Linear Simples
Análise de Regressão
relação
Neter, J. et al. Applied Linear Statistical Models. McGraw Hill, 1996
Relação funcional x Relação estatísticaRelação funcional x Relação estatística
As variáveis podem possuir dois tipos de relações:1) Funcional: a relação é expressa por uma fórmula
matemática: Y = f(X)Ex: relação entre o perímetro (P) e o lado de um quadrado (L)
y = 4x
0
50
100
150
0 10 20 30 40
Lado do Quadrado
Perím
etro
P = 4 L
Todos os pontos caem na curva da relação funcional
Relação funcional x Relação estatísticaRelação funcional x Relação estatística
2) Estatística: não há uma relação perfeita como no caso da relação funcional.As observações em geral não caem exatamente na curva da relação.
Ex: relação entre o peso (P) e a altura (A) de uma pessoa
50556065707580859095
100
150 160 170 180 190
Altura (cm)
Peso
(kg)
A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y dependa de X, ou que exista uma relação de causa-efeito entre X e Y.
Medida de AssociaçãoMedida de Associação
X
Y
XY
X
YX
Y
Coeficiente de Correlação (de Pearson)mede o grau de relação linear entre X e Y
( , )( ) * ( )
Cov X YrVar X Var Y
1
2 2
1 1
n
i ii
n n
i ii i
X X Y Yr
X X Y Y
1 1r
1 1 1
2 22 2
1 1 1 1
n n n
i i i ii i i
n n n n
i i i ii i i i
n X Y X Y
n X X n Y Y
r = 0,9 r = 0,3 r = 0
r = - 0,9
Coeficiente de CorrelaçãoCoeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação1. Um alto coeficiente de correlação nem sempre
indica que a equação de regressão estimada está bem ajustada aos dados.
X
Y
X
Y
X
Y
1
1
00
i i i i
i i i i
Y Y y yX X x x
XY
X
Y
?
?
Coeficiente de CorrelaçãoCoeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação2. Um coeficiente de correlação próximo de zero nem
sempre indica que X e Y não são relacionadas.
X
Y
X
Y X
Y A
X
Y B
Análise de RegressãoAnálise de Regressão
1. Determinar como duas ou mais variáveis se relacionam.
2. Estimar a função que determina a relação entre as variáveis.
3. Usar a equação ajustada para prever valores da variável dependente.
Regressão Linear SimplesYi = 0 + 1Xi + i
2
E 0
Var
, 0
i
i
i jCOV i j
Modelo de Regressão Linear SimplesModelo de Regressão Linear Simples
iii XY 10
Inclinaçãopopulacional
Interceptopopulacional Erro Aleatório
Variável Independente
Variável Dependente
i
X
Y
0
1 Coeficienteangular
E(Y) = 0 + 1 X
Em geral não se conhece os valores de 0, 1 e 2 Eles podem ser estimados através de dados obtidos por
amostras. O método utilizado na estimação dos parâmetros é o
método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado:
i = Yi – (0 + 1 Xi)
Em particular, o método dos mínimos quadrados requer que consideremos a soma dos n desvios quadrados, denotado por Q:
210
1
][ ii
n
i
XYQ
Estimação dos parâmetrosEstimação dos parâmetros
Estimação dos parâmetrosEstimação dos parâmetros
De acordo com o método dos mínimos quadrados, os estimadores de 0 e 1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor de Q.
Derivando ][2 1010
ii
n
i
XYQ
iii
n
i
XXYQ ][2 1011
2
1
11
)(
))((
XX
YYXXb
i
n
i
ii
n
i
XbYb 10 iii YYe
XbbY
XYE
ˆ
ˆ)(
10
10
(resíduo)
Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:
1)
2) é mínima
3)
4) A reta de regressão passa sempre pelo ponto
01
n
iie
n
iie
1
2
n
ii
n
ii YY
11
ˆ
Propriedades da equação de regressãoPropriedades da equação de regressão
),( YX
X
Y
X
Y
A variância dos erros i,, denotada por 2, é um parâmetro do modelo de regressão, e necessita ser estimada.
A variância de uma v.a. qualquer é calculada pela soma dos desvios quadráticos dividido pelo no de graus de liberdade. O cálculo da variância 2 é feito da mesma maneira.
É importante notar que a variância dos Yi é também 2. Entretanto, cada Yi vêm de distribuições de probabilidade diferentes, com diferentes médias dependendo do nível de Xi.
n
iii YY
1
2)ˆ(SQRes
Estimação da Variância do Erro (Estimação da Variância do Erro (22))
iYAssim, os desvios de Yi devem ser calculados em torno de sua
própria média estimada , e a soma dos quadrados, denominada soma de quadrados dos resíduos será:
Estimação da Variância do Erro (Estimação da Variância do Erro (22))
Soma de quadrados dos resíduos (SQRes):
A soma dos quadrados dos resíduos tem n – 2 graus de liberdade, pois 2 graus de liberdade foram perdidos por estimar 0 e 1.
Portanto, o estimador de 2, denominado de Quadrado Médio do Resíduo (QMRes), é dado pela razão entre a soma dos quadrados dos resíduos e (n – 2):
Pode ser demonstrado que:
n
ii
n
iii
n
iii eXbbYYY
1
2
1
210
1
2 )()ˆ(SQRes
2
)(
2
)ˆ(
2SQResQMResˆ 1
210
1
2
2
n
XbbY
n
YY
n
n
iii
n
iii
2E[QMRes]
Inferência em Análise de RegressãoInferência em Análise de RegressãoConsidere o modelo:
Yi = 0 + 1 Xi + i
~ N(0; 2) e COV (i,j)= 0
n
ii XX
bs
1
21
2
)(
QMRes)(2
1
11 ~)(
ntbs
bt
n
ii XX
Xn
s
1
2
2
02
)(
1QMRes)(b 20
00 ~)(
ntbs
bt 0:H0:H
11
10
se H0 verdadeira E(t) = 0se H0 falso E(t) <<<< 0
IC para 0 e 1
IC para Ynovo
0 = 0 ? 1 = 0 ? (teste de hipótese)
X
Y ?
21
1 ~)( ntbs
bt
YYi
Yi
ii YY ˆ
YYi ˆiY
Abordagem da Análise de Variância na Análise de RegressãoAbordagem da Análise de Variância na Análise de Regressão
0 20 40 60 80 X
Y
n
iii
n
ii
n
ii YYYYYY
1
2
1
2
1
2 )ˆ()ˆ()(
SQTo = SQReg + SQRes
SQToSQRes1
SQToSQRes-SQTo
SQToSQReg2
RCoeficiente
de determinação
0 R2 1
XbbY 10ˆ
Y
Interpretação: R2 mede a fração da variação total de Y explicada pela regressão.
Abordagem da Análise de Variância na Análise de RegressãoAbordagem da Análise de Variância na Análise de Regressão
Causas da Variação
Soma de Quadrados
Graus de Liberdade
Quadrados Médios
Regressão
1
Resíduo
n - 2
Total
n - 1
n
ii YY
1
2)ˆ(
n
iii YY
1
2)ˆ(
n
ii YY
1
2)(
n
ii YY
1
2)ˆ(
2
)ˆ(1
2
n
YYn
iii
2;1~QMResQMReg
nFF 0:H0:H
11
10
se H0 verdadeiro E(F) = 1se H0 falso E(F) >>>> 1
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
Análise de Regressão no EXCELAnálise de Regressão no EXCELX Y
1 1.1
2 1.9
3 2.5
4 4.3
5 6.1
6 6.3
7 7.8
8 7.0
9 9.1
RESUMO DOS RESULTADOS
Estatística de regressãoR múltiplo 0.9745R-Quadrado 0.9496R-quadrado ajustado 0.9424Erro padrão 0.6735Observações 9
ANOVAgl SQ MQ F F de significação
Regressão 1 59.8002 59.8002 131.8267 8.54714E-06Resíduo 7 3.1754 0.4536Total 8 62.9756
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superioresInterseção 0.1306 0.4893 0.2668 0.7973 -1.0265 1.2876X 0.9983 0.0870 11.4816 0.0000 0.7927 1.2039
Y = 0,9983X + 0,1306R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
9496,0
1306,09983,0ˆ2
R
XY
s
valor-P
OBS: Para regressão linear simples: teste F = teste t bilateralF = t2
s2
Modelos LinearizáveisModelos Linearizáveis
Modelo Padrão: Yi = 0 + 1Xi + i
iiiiXY
0 iii XY lnlnlnln 10 iii XY 10
iX
iieY 1
0 iii XY lnlnln 10 iii XY 10
exponencial
potencial
iii XY 10
logaritmopotênciainverso
),0(~ 2 Ni
Análise de ResíduosAnálise de Resíduos
Resíduo = iii YYe ˆ
Y = 0,9983X + 0,1306R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
0 2 4 6 8 10
XR
esíd
uos
9496,0
1306,09983,0ˆ2
R
XY
Análise de ResíduosAnálise de Resíduos
MQReseiResíduo Padronizado =
Y = 0,9983X + 0,1306R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
XR
esíd
uos
Padr
oniz
ado9496,0
1306,09983,0ˆ2
R
XY
Análise de ResíduosAnálise de Resíduos
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
“ideal”
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
2 não constante
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
não linearidade
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
não independência
tempo-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
“outlier”
Regressão passando pela origem (Regressão passando pela origem (00 = 0 = 0))
y = 1.2121xR2 = 0.8862
0
2
4
6
8
10
12
0 2 4 6 8 10
X
Y
8862,0
2121,1ˆ2
R
XYy = 1.1721xR2 = -0.1268
0
2
4
6
8
10
12
0 2 4 6 8 10
X
Y
1268,0
1721,1ˆ2
R
XY
n
ii
n
iii
X
YXb
1
2
11
n
iiX
bs
1
21
2 QMRes)( SQRes/SQToR 12 (R2 pode ser negativo!)
n
ii
n
iii
YSQTo
XbYSQRes
1
2
1
21
*