Upload
tranthu
View
297
Download
7
Embed Size (px)
Citation preview
A Previsão com o Modelo de Regressão.................................................................................... 1 1. Introdução ao Modelo de Regressão .............................................................................. 1 2. Exemplos de Modelos Lineares ..................................................................................... 2 3. Derivação dos Mínimos Quadrados no Modelo de Regressão ...................................... 6 4. A Natureza Probabilística do Modelo de Regressão...................................................... 9 5. Propriedades Estatísticas dos Estimadores................................................................... 13 6. Critérios de Avaliação dos Estimadores....................................................................... 14 7. Obtenção da Média e o Desvio Padrão dos Melhores Estimadores Lineares Não Tendenciosos ou “Best Linear Unbiased Estimators” (BLUEs) .......................................... 16 8. Aplicação de Testes de Hipóteses e Intervalos de Confiança aos EstimadoresErro! Indicador não definido. 9. O Coeficiente de Ajustamento ou Determinação: Erro! Indicador não definido. 10. Interpretação da Variação em Y em termos da Análise de VariânciaErro! Indicador não definido. 11. O Modelo de Regressão Múltipla......................... Erro! Indicador não definido. 12. Considerações Adicionais: a Correlação Parcial.................................................34 13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos ................36 14. O Modelo de Regressão Múltipla com Variáveis Explanatórias Estocásticas......36 15. Violação dos Pressupostos Básicos do Modelo de Regressão Clássico..............37 16. O Problema da Multicolinearidade .....................................................................38 17. O Problema de Heteroscedasticidade..................................................................40 18. O Problema da Correlação Serial ......................... Erro! Indicador não definido. 19. A Previsão com o Modelo de Regressão.............. Erro! Indicador não definido.
Leituras recomendadas (Pindyck e Rubinfeld(1976)): 1. Variáveis instrumentais e mínimos quadrados em dois estágios (Leitura
recomendada) (Pindyck e Rubinfeld)
2. Tópicos avançados em estimação de uma equação singular (Leitura recomendada)
3. Modelos de escolha qualitativa (Leitura recomendada) (Pindyck e Rubinfeld)
Referências Bibliográficas:
• Kmenta, Jan, “Elementos de Econometria”, Ed. Atlas.
• Thomas, J. J. (1978), “Introdução à Análise Estatística para Economistas”, Zahar Editores.
• Pindyck, R. S. e Rubinfeld, D. L. (1976), “Econometric Models and Economic Forecasts”, McGraw-Hill Kogakusha Ltd., Tokyo.
• Pindyck, R.S. e Rubinfeld, D.L. (1991), “Econometric Models and Economic Forecasts”, Mcgraw-Hill International Editors.
• Bowerman, B.L. e O`Connel, R.T. (1987), “Times Series Forecasting-Unified Concepts and Computer Implementation”, Duxbury Press, Boston.
• Levenbach, H. e Cleary, J.P. (1984), “ The Modern Forecaster: The Forecasting Process Through Data Analysis”, Lifetime Learning Publications, Belmonnt, Califórnia.
1
A Previsão com o Modelo de Regressão
1. Introdução ao Modelo de Regressão
A teoria da Regressão permite que se estabeleçam relações entre variáveis que se
interrelacionam cujas informações estão disponíveis (dados pré-coletados), relações às quais
associam-se os modelos de regressão. Dessa forma, os economistas e os administradores
procuram compreender a natureza e o funcionamento de sistemas econômicos que são
descritos por meio dessas variáveis. Por exemplo, o volume do comércio internacional pode
ser modelado como uma função linear do produto interno bruto dos países. As vendas de um
produto podem ser estimadas por uma relação entre a variável que as representa e variáveis
relativas aos preços desse produto e de seus concorrentes no mercado e aos respectivos gastos
relativos com propaganda. Uma vez estabelecida essa relação pelo modelo de regressão, é
preciso avaliar a confiança que nela se pode colocar, realizando testes estatísticos.
Temos dois tipos básicos de informação a considerar:
(1) • Informação descrevendo as mudanças assumidas por uma variável através
do tempo (dados de séries temporais)
(2) • Informação descrevendo as atividades de pessoas, firmas etc. num dado
instante de tempo (dados de corte transversal)
Para esses dois tipos de informação é possível estabelecer relações que descrevem as
situações observadas por meio de modelos de regressão.
Ou seja, dado um conjunto finito de observações X e Y, por meio do modelo de
regressão é buscado estabelecer relações entre X e Y. Esse conjunto finito de observações
corresponde a uma amostra representativa do universo de informações ou população, a qual
permitiria estabelecer a verdadeira relação entre X e Y (Figura 1).
Amostra População (verdadeira relação entre X e Y)
Figura 1- Relação entre a amostra e a população ou universo de informações
2
Tome-se por hipótese que exista a relação linear li entre X e Y. No diagrama de
dispersão da Figura 2 são representadas as linhas l1 e l2 que se procurou ajustar ao conjunto de
pares ordenados (X, Y) do conjunto amostral, assim como os desvios (positivos e negativos)
em relação a l2 .
Figura 2 - Diagrama de dispersão e desvios em relação à linha ajustada
Definem-se desvios como os valores, segundo Y, das diferenças entre os valores
observados e os valores sobre a linha li ajustada ao conjunto de pares (X, Y). Como regra
estabelece-se que a melhor linha li corresponde àquela cujo somatório dos desvios tende a
zero (é minimizado). A melhor linha ajustada define o modelo de regressão e pode ser obtida
pela derivação de mínimos quadrados ordinários, apresentada mais à frente.
2. Exemplos de Modelos Lineares
(A) Modelagem de Tendência e Sazonalidade através de Funções do Tempo
Seja por exemplo o modelo Yt = St + Tt , onde Tt representa a tendência no período
t. Por outro lado, St representa a sazonalidade no período t, sendo L o comprimento da
sazonalidade. Exemplos de situações onde a tendência é modelada, em que β0, β1 e β2 são os
parâmetros do modelo, são:
3
Modelo
∗ Tendência inexistente, ou constante
horizontal
Tt = β0
∗ Tendência linear Tt = β0 + β1t
∗ Tendência quadrática (Figura 3) Tt = β0 + β1t + β2t2
Tt
t
Tt
t
que se transforma em:
Tt = β0 + β1t + β2v,
fazendo v=t2, o que torna possível transformação do grau da relação.
Tt
t
Tt
t
Figura 3- Gráficos de dados com tendência quadrática
Em algumas situações observa-se sazonalidade ou seja, os valores observados variam
de forma característica por período de tempo t ao longo do comprimento da sazonalidade.
Assim, pode-se escrever que:
St = t1),(L1)(Lt2,2t1,1 SSSSSS Xβ...XβXβ
−−+++
Variáveis “dummies”
Define-se cada variável “dummy” por:
t1,SX =
t2,SX =
t1),-(LSX =
1 se t é o período sazonal 2 0 senão
1 se t é o período sazonal 1 0 senão
1 se t é o período sazonal (L-1) 0 senão
4
Observa-se que o período sazonal L corresponde ao período base da representação de St
(poderia ser outro qualquer, definindo-o a priori).
(B) Exemplos de Transformação Linear
Seja o modelo:
• y = ea+bx ⇒ = (a + bx) ⇒ y = a + bx (transformação
linear).
Substituindo-se x = 1/t, obtém-se a curva S ou curva do aprendizado (Figura 4):
Figura 4- Gráfico da curva do aprendizado
• Modelo recíproco
bxa1Y+
= ⇒ Y1 = a + bx ⇒ y=a+bx (transformação linear)
• Modelo semilogarítmico
Y = a + b log x ⇒ Y = a + bv (transformação linear)
Da mesma forma:
Y = α0 + α1 x12 + α2 log x2 ⇒ Y = α0 + α1 V1 + α2 V2
V1 V2
Seja a equação não linear nas variáveis independentes:
Y = α0 x1α1 x2
α2
Esta equação é não linear nos coeficientes, mas linearizável, por meio de aplicação
de logaritmos.
y logey
1 logee
v
t
5
Seja o exemplo das vendas de um produto introduzido no mercado e com vendas,
posteriormente, em expansão. Esta situação é típica do modelo que representa a curva do
aprendizado do tipo Y = ea – (b/t), pois observa-se o começo lento, crescimento forte e período
de saturação (Figura 5).
Resultados do ajuste do modelo ao
conjunto de observações:
Parâmetros (a) 20.7867
(b) -21.0389
R2 = 0.953, Fteste = 442.6
Dados
tempo(t) vendas(Y) 1/t Loge(vendas) 1 0.023 1 -3.77226 2 0.157 0.5 -1.851151 3 0.329 4 0.48 5 1.205 6 1.748 7 1.996 8 2.509 9 2.366
10 2.94 11 2.8714 12 2.9346 13 3.1346 14 3.24 15 3.148 16 3.522 17 3.54 18 3.31 19 3.547 20 3.374 21 3.3745 22 3.401 23 3.6971 24 3.493
Figura 5- Exemplo de situação típica da curva do aprendizado (vendas de T.V.
a cores, Makridakis e Wheelwright, Forecasting, pág. 203)
(C) Uso do tempo como uma das variáveis explanatórias
Situações-Exemplo:
1) Qt = γ Ltα Kt
β A(t) εt
2) Inclusão da variável tempo em modelo “pouco aderente”
Yt = β1 + β2 x2t + β3t + εt, sendo que o termo β3t modela o efeito líquido de
conjunto de variáveis excluídas. O efeito da inclusão desse termo é estatístico.
Y = e1,478 – (5,786/t)
função de produção
mudança técnica
funcional de tex.: A(t) = eδt
6
3. Derivação dos Mínimos Quadrados no Modelo de Regressão
A derivação dos mínimos quadrados permite testes estatísticos sobre o
ajustamento entre X e Y, da forma Y = a + bX, sendo, por hipótese, Y a variável
dependente e X a variável independente.
Y = a + bX
⇓ ⇓ Variável dependente Variável independente
Figura 6 – Linha de mínimos quadrados ajustada ao conjunto amostral
Define-se o resíduo ou desvio (εi) como εi = iY – iY , onde iY = a + bXi , e N
corresponde ao número de observações amostrais.
Busca-se obter Min ∑ −−=
N
1i
2ii )bXa(Y ou seja, a minimização do somatório dos N
desvios ao quadrado (Figura 6).
Dessa forma, define-se o sistema de equações normais:
0)bXa(Ya
2ii =−−∑
∂∂ ⇒ ... ⇒ ∑ Yi = a N + b∑Xi (I)
0)bXa(Yb
2ii =−−∑
∂∂ ⇒ ... ⇒ ∑ Xi Yi = a ∑Xi + b∑Xi
2 (II)
que multiplicadas, respectivamente, por ∑ Xi e N, são reescritas:
equações normais
εi
-2 ∑iεi = 0
-2 ∑Xiεi = 0
7
(I) ∗ ∑ Xi ⇒ equações ⇒ (∗∑Xi) ∑Yi = (∗∑Xi) (a N + b ∑Xi)
(II) ∗ N normais (∗ N) ∑Xi Yi = (∗ N) (a ∑Xi + b ∑Xi2)
Fazendo (II) – (I), pode-se obter os parâmetros (a e b) do modelo de regressão:
b = 2
i2
i
iiii
)X(XNYXYXN
∑−∑
∑∑−∑
a = NXb
NY ii ∑
−∑
onde se definem as médias amostrais Y e X .
Se Y = X = 0 isto significa a = 0, e
b = 2
2
N)(N)(...
÷÷ ⇒ b =
2i
2i
iiii
/N)X(ΣNX
/N)Y(Σ/N)X(ΣN)/YX(
−∑
−∑ , que pode ser escrito:
b = 2
2i
ii
X-NX
YX/N)YX(∑
−∑
Tomando-se a situação onde X = Y = 0 ⇒ b = /N)X(/N)YX(
2i
ii
∑∑
.
Esses resultados sugerem a conveniência de escrever a estimativa de mínimos
quadrados por meio de variáveis que representam desvios em relação às médias, sejam
essas nulas ou não. Dessa forma, deve-se obter a transformação: xi = Xi - X e yi = Yi - Y ,
pois x = NΣxi = 0 = y (são nulas as médias das variáveis que correspondem à uma
transformação de defasagem em relação às médias das variáveis originais, pois:
0NXN
NX
N)X(Xx ii =−
∑=
−∑= ).
Assim, reescrevem-se as estimativas dos parâmetros de mínimos quadrados da
relação linear ajustada entre X e Y, antes da transformação, como:
X
Y
“inclinação”
“coeficiente linear”
“intercepto”
“constante” Y X
X
8
onde o significado dessas estimativas de a e b é:
b → dXdY razão da variação (marginal) em Y com a variação em X.
a → Y = a, quando Xi = 0 ⇒ tal conclusão em geral não diz muita coisa sobre o
evento observado, sendo apenas um valor para o intercepto da relação linear do ajuste
feito. Para que essa informação tenha significado para a situação modelada, deve-se ter
informação próxima de X = 0.
Na Tabela 1 a seguir exemplifica-se a obtenção dos valores de a e b, sendo os
gráficos da linha ajustada representados na Figura 7.
Tabela 1- Obtenção das estimativas dos parâmetros
(introduzir planilha EXCEL)
Y X 4.0 21.0 3.0 15.0 3.5 15.0 2.0 9.0 3.0 12.0 3.5 18.0 2.5 6.0 2.5 12.0
Calcula-se: X = 13.5 e Y = 3.0
∑xi = 0
∑yi = 0
∑xiyi = 19.50
∑xi2 = 162.00
b = 2i
ii
ΣxyΣx = 0,120
a = 1,375
Y = 1,375 + 0,12 X
(R2 = 0.77; F1,6 = 21.2)
b = 2i
ii
ΣxyΣx
a = XbY −
9
Regressão transformada
Figura 7- Exemplo do ajustamento da linha de regressão e da linha de regressão
transformada
Exercício (casa)
Prove que a linha de regressão estimada passa sobre o ponto de média ( X , Y ).
Sugestão: mostre que X e Y satisfazem à equação Y = a + bX, sendo a e b
definidos como: b = 2
i2
i
iiii
)X(XNYXYXN
∑−∑
∑∑−∑ e a = N
XbNY ii ∑
−∑
4. A Natureza Probabilística do Modelo de Regressão
Para que se possa avaliar a qualidade da relação linear ajustada às informações
amostrais das variáveis, é preciso realizar testes estatísticos no modelo de regressão. Por
exemplo, como realizar esses testes estatísticos no modelo de regressão de mínimos
quadrados com uma variável independente e uma variável dependente? Para isso, é
preciso, em primeiro lugar, reconhecer a natureza probabilística do modelo de regressão.
Seja o exemplo da Figura 8, no qual observa-se que para um mesmo valor de X
(renda) existem vários valores de Y (gastos com alimentação). Isto se explica porque,
embora a renda de grupos de indivíduos esteja, por exemplo, em torno de R$ 60.000/ano, o
meio e fatores aleatórios fazem existir uma significativa oscilação nos gastos com
alimentação nessa faixa de renda.
10
Renda dos Indivíduos
Meio/ Fatores aleatórios
Gastos com alimentação
Figura 8- Relação entre amostra de renda dos indivíduos e seus gastos com
alimentação
Dessa forma, definem-se as variáveis aleatórias Yi e Xi e, por hipótese, a
verdadeira relação linear entre elas, como Yi = α + βXi + εi (Figura 9).
Yi = α + β Xi + εi “TRUE MODEL”
(população) erro aleatório
variável aleatória
“Fixados”
(distribuição de probabilidade)
(omissão de variáveis explicativas) (erro de coleta de dados)
Figura 9- A verdadeira relação linear ou “true model” entre as variáveis aleatórias
O valor esperado E(Yi) = E(α + βXi + εi) = α + βX corresponde ao verdadeiro
modelo, representado na Figura 10 a seguir. Embora Xi ´s tenham seus valores fixados, são
variáveis aleatórias com distribuição de probabilidades.
Figura 10 – Natureza probabilística das variáveis do modelo de regressão
X
observados
Y
εi
11
Assim, são pressupostos básicos do modelo clássico de regressão linear a duas
variáveis:
(i) Relação linear entre Y e X como descrita em Yi = α + βXi + εi
(ii) Xi`s não-estocásticos e fixados (será relaxado mais tarde)
(iii) a) O erro εi tem (zero) e E(εi)2 = σ2 (constante), para
todas as observações.
b) εi`s não correlacionados estatisticamente, de forma que: E (εi εj) = 0,
para i ≠ j.
No caso de (iii), supondo-se E (εi) = α`, sendo α` um valor constante qualquer,
pode-se escrever: Yi = α + βXi + εi + (α` - α`) = (α + α`) + βXi + (εi - α`), definindo-se
assim um novo coeficiente α*.
Obtém-se E (εi*) como: E (εi - α`) = E (εi ) – E (α`) = E (εi ) - α` = 0 (!),
constante α`
ou seja: E (εi*) = 0, mantendo válidas as suposições do modelo de regressão clássico.
As suposições (ii) (a) e (b) tratam de garantir a homocedasticidade (variância do
erro aleatório constante) e a ausência de correlação serial. No caso contrário, tem-se a
presença de heteroscedasticidade e correlação serial (Figuras 11 e 12):
1) Presença de heteroscedasticidade: E(εi2) não é constante e igual a σ2
2) Erros correlacionados → correlação serial ou autocorrelação,
onde E (εi εj) ≠ 0 (existe um padrão na disposição dos dados em
relação à linha ajustada)
E (εi) = 0
εi* α*
12
Variância decresce ou cresce (heteroscedasticidade) Figura 11- Exemplos de heteroscedasticidade
Correlação serial negativa Correlação serial positiva
Figura 12- Exemplos de correlação serial
Às afirmações acima deve-se acrescentar as seguintes observações:
* Corolário de (ii) e iii (a)
E (Xi εi) = Xi E (εi) = 0, ou seja: erro aleatório não correlacionado com Xi, onde
Xi`s são valores fixados.
* E (∑ εi) = ∑ E (εi) = 0, que se refere a uma amostra de erros de uma população,
sendo que esses erros são não-correlacionados.
Além disso, são válidas as seguintes suposições do modelo de regressão em
termos da distribuição de probabilidade da variável Y:
13
(iii) (a`) Y → E (Yi) = α + βX
VAR (Yi) = σ2 , sendo α, β e σ2 a determinar.
(b`) Yi`s → não correlacionados
5. Propriedades Estatísticas dos Estimadores
Assume-se que:
(iii) c) O termo do erro é normalmente distribuído (erros de medida e omissão
de variáveis pequenos e independentes entre si).
Yi → combinação dos εi`s, normalmente distribuída, sendo: Yi = α + βXi +εi.
Assim, a linha de regressão estimada XβαY += deve estar próxima ao
verdadeiro modelo Y = α + βX, onde as estimativas de α e β, os estimadores βeα , são
variáveis aleatórias ou seja, tem E ( α ), VAR( α ), E ( β ) e VAR ( β ) (Figura 13). Para que
se possa entender melhor este ponto supõe-se que se tenha N valores fixados de Xi, em
uma determinada amostra (A1), de forma que se tenha Yi valores associados a esses N
valores de Xi. Com esses valores de X e Y, estima-se β → )β( .
E )β( e VAR )β( ,
E )α( e VAR )α( .
Figura 13- A natureza probabilística dos estimadores βeα
β / )β(
α / )α(
A1 A2
X1
população Yi
Yi ↔ Xi N
14
Toma-se outra amostra de pares de valores Xi e Yi, obtendo novos N valores de Yi
associados aos N valores de Xi, com os quais estima-se um novo β → )β( . Note-se que os
εi`s são diferentes, sempre. Com esse procedimento, pode-se obter uma distribuição de
estimativas de β )β( , sendo: β = 2i
ii
xyx
∑∑ com respectivos valor esperado e variância, aos
quais aplica-se os testes estatísticos. O mesmo raciocínio se estende ao estimador α .
6. Critérios de Avaliação dos Estimadores
São exemplicados a seguir quatro critérios de avaliação dos estimadores.
1) Ausência de tendenciosidade (viés = 0)
Define-se o viés como: Viés = E )β( - β, onde β é o verdadeiro parâmetro
(Figura 14).
Figura 14- Exemplo de viés
Quando N → número grande, NXi∑ é estimador não-viesado da verdadeira média
da população. Da mesma forma, observa-se que: 1N
)X(X 2i
−∑ − é estimador não-viesado da
verdadeira variância da população, em cujo denominador tem-se N-1, pois X foi fixado
para estabelecer os desvios.
2) Eficiência
15
β é um estimador não-viesado eficiente se a VAR )β( é menor que a variância de
qualquer outro estimador não-viesado.
Maior eficiência implica que são mais fortes as afirmações estatísticas sobre os
estimadores. Quando a variância é igual a zero (0), isto implica que se está tratando do
parâmetro verdadeiro da regressão.
3) Erro Quadrático Médio Mínimo (MSE)
MSE )β( = E 2β)-β( = E [ 2β)]β()β-β( −+ = ... = VAR )β( + [viés )β( ]2, sendo
E )β( = β .
Observa-se uma interrelação (“trade-off”) entre viés e variância para se obter
maior precisão ou seja, o “trade-off” de maior precisão entre o viés e a variância
implicando pequena variância e algum viés.
4) Consistência
Este critério diz respeito a quando o tamanho da amostra N tender a ser grande
(Figura 15) verificar-se propriedades assintóticas, definidas pelo limite em probabilidade
de β ou p lim β :
p lim β ⇔ lim Prob 1 δ) |)β-β| (( =< , de forma que: p lim β = β.
N → ∞
δ > 0, pequeno
Figura 15- Exemplo das propriedades assintóticas com aumento do tamanho amostral
Na prática, o critério de estimação é a consistência ou seja: estimador viesado mas
consistente pode não ser igual ao valor de β na média mas aproxima-se dele para N muito
Prob β
ββ
N muito grande
Pequeno N
16
grande. Como exemplo, usa-se N no denominador para obter estimador da variância
populacional, de forma a ter ∑−N
)X(X 2i como um estimador viesado mas consistente da
variância populacional (base das estimações robustas).
Como alternativa para a consistência pode-se ter por critério:
MSE → 0 quando N → ∞, o que significa que se tem um estimador não-viesado
assintóticamente cuja variância → 0 quando N → ∞.
7. Obtenção da Média e o Desvio Padrão dos Melhores Estimadores Lineares Não Tendenciosos ou “Best Linear Unbiased Estimators” (BLUEs)
Considerando-se que βeα são os estimadores de mínimos quadrados do modelo
de regressão Yi = α + βXi + εi, pelo Teorema de Gauss-Markov se estabelece que “ βeα
são os melhores (mais eficientes) estimadores lineares não tendenciosos de α e β” no
sentido de que esses estimadores tem variância mínima em relação aos estimadores não
tendenciosos de α e β, ou seja: βeα são BLUEs.
O Teorema não se aplica a estimadores não-lineares. É possível que existam
estimadores não-lineares não tendenciosos e com variância menor que a dos estimadores
de mínimos quadrados. Além disso, um estimador tendencioso pode ter variância menor
que os estimadores de mínimos quadrados. Estimadores ditos robustos, não-lineares e
tendenciosos, com mínimos MSE, tem sido estudados e utilizados em aplicações práticas
(embora não sejam objeto do presente estudo).
Como já visto, os estimadores βeα são variáveis aleatórias, com respectivas
média e variância. Considerando-se que XXx ii −= e YYy ii −= , pode-se escrever
E (yi) = βxi e β = ∑ ∑ 2iii x/yx , onde é definida a constante ci =
∑ 2i
ix
x de forma que
β = ∑=
N
1iiiyc .
Assim:
β = ∑ ∑ ∑+∑=+= iiiiiiiii εcβxc)εβx(cyc (I)
Obtém-se:
17
E )β( = )E(εcβxc iiii ∑+∑
* E )β( = βxcββxc iiii =∑=∑ , logo β é estimador não tendencioso,
onde 1xx
xxc i2i
iii =⎥
⎦
⎤⎢⎣
⎡∑
∑=∑ (II)
De modo similar:
VAR )β( = E 2 β) -β(
Substituindo (I) em VAR )β( , tem-se que VAR )β( = E 2iiii ]βεcβxc[ −∑+∑ .
β -β Observa-se que β -β = =−∑+∑ βεcβxc iiii ( iiii εcβ1)xc ∑+−∑
De (II) tem-se que 1xc ii =∑ , logo
β -β = iiεc∑ , sendo ( β -β )2 = ( iiεc∑ )2
∴ VAR )β( = E ( β -β )2 = E [ iiεc∑ ]2
VAR )β( = E [( 11εc )2 + ( 22εc )2 + ...] + E [(2c1c2ε1ε2) + ...]
Ora, E (εiεj) = 0, i ≠ j, assim:
VAR )β( = E ( 11εc )2 + E ( 22εc )2 + ... =
= c12 E (ε1)2 + c2
2 E (ε2)2 + ... =
= c12 σ1
2 + c22 σ2
2 + ... = σ2∑ci2, pois, na presença de
homocedasticidade, E (εi)2 = cte = σi2 = σ2.
Ora, ∑ci2 =
∑=
∑∑
2i
22i
2i
x1
)x(x , logo:
VAR )β( = σ2 / ∑xi2 , xi = Xi - X
De forma similar pode-se obter que:
E )α( = α
0
18
VAR )α( = ⎥⎦
⎤⎢⎣
⎡−∑
∑2
i
2i2
)X(XNX
σ
COV ( β,α ) = 2i
2
xσX
∑−
É preciso remarcar que se β =∑ iiyc é uma combinação linear de variáveis yi e se
yi é normalmente distribuída, β é uma variável aleatória normalmente distribuída, o que
implica que os testes de hipótese são válidos para β . Além disso, observa-se que, de
acordo com o Teorema do Limite Central, se o tamanho da amostra cresce, a distribuição
da média amostral de uma variável independentemente distribuída tende para a
normalidade. Com isso pode-se afirmar que, mesmo no caso dos yi não serem
normalmente distribuídos, a distribuição de β é, ainda assim, assintóticamente normal.
Ou seja, para amostras de grande tamanho:
⎥⎦
⎤⎢⎣
⎡∑ 2
i
2
xσβ,N~β , de onde extrai-se o critério amostral: maior variância na amostra
de Xi leva a menor variância de β .
⎥⎦
⎤⎢⎣
⎡∑
∑2i
2i2
xNX
σα,N~α , cuja variância reduz-se a σ2/N se X = 0 na amostra.
2i
2
xσX )β,α( COV
∑−= , onde se observa que, se X > 0, superestimar α corresponde
a subestimar β e vice-versa.
Observa-se que: 2σ é o verdadeiro valor da variância do erro. Utiliza-se S2 como
estimador não-viesado 2σ de 2σ ou seja: S2 = 2σ = 2N
)Xβα(Y2N
ε 2ii
2i
−−−∑
=−
∑ .
8. Aplicação de Testes de Hipóteses e Intervalos de Confiança aos Estimadores
Define-se o intervalo de confiança como o intervalo de valores que contém, com
uma determinada probabilidade (1-n.s.), ou um nível de significância estatística (n.s.), os
verdadeiros parâmetros da regressão. Nele se baseiam os testes de hipóteses estatísticas.
19
Em geral estabelece-se a hipótese nula ou seja, de que o efeito não está presente. Para o
modelo ser explicativo, a hipótese nula deve ser rejeitada. Ao associar-se ao conjunto
amostral um modelo de regressão, é objetivo analisar os dados de forma a testar o modelo
ajustado e avaliar a adequação de novos modelos. Desta forma, realizam-se os testes de
hipóteses, tendo resultados que podem levar a uma seqüência de testes de modelos. Ou
seja:
(a) Informação inconsistente com o modelo:
Rejeição do modelo; novo modelo é considerado.
(b) Informação consistente com o modelo:
Modelo aceito até que novas hipóteses ou nova informação permitam novos testes.
Os testes são aplicados a um nível de significância (n.s.). Por exemplo, o que
significa: nível de significância de 5%? Significa que, se a hipótese nula for rejeitada neste
nível, é fato que ela estava correta pelo menos 5% das vezes. O nível de significância pode
ser compreendido como o índice de erro aceito ao estabelecer o modelo de regressão (ou
erro Tipo 1).
O teste estatístico para rejeitar a hipótese nula associada ao coeficiente da
regressão baseia-se usualmente na distribuição t de “Students”. Essa distribuição é
relevante pois nela utiliza-se a estimativa amostral da variância do erro, ao invés de seu
valor verdadeiro (na população).
Para compreender a formação dos intervalos de confiança e o procedimento do
teste, inicialmente obtém-se a estatística t com N-2 graus de liberdade (considerando-se o
modelo com dois estimadores) como:
tN-2 = 1/22iβ )xS/(ββ
Sββ
∑−
=− , com a qual se obtém a padronização do valor estimado
β .
Constrói-se em torno de estatística tN-2 um intervalo de confiança tal que:
-tc < tN-2 < tc , que tem (1-n.s.)% de probabilidade de conter o verdadeiro valor do
parâmetro, onde tc corresponde ao valor tabelado da estatística t de “Students” para um
nível de significância (n.s.) ou probabilidade (1-n.s.), com N-2 graus de liberdade (N é o
tamanho da amostra e 2 representa o número de estimadores).
20
Assim, seja por exemplo a probabilidade de 95% de que o valor padronizado
pertença ao intervalo de confiança:
Prob (- tc < tN-2 < tc) = 0,95 por exemplo, onde tc = 1,96, com N – 2 graus de
liberdade, N tendendo a um número grande.
Prob 0,95t)xS/(ββt c1/22i
c =⎥⎥⎦
⎤
⎢⎢⎣
⎡<
∑−
<− significa que há 95% de probabilidade de
que β está contido no intervalo entre β ± tc 1/22i )x(
S∑
= β ± tc S β .
Da mesma forma, estabelece-se o intervalo:
α ± tc S α = α ± tc ∑∑
1/22i
1/22i
)x(N)X(S
O teste de hipótese é definido de forma que:
Ho = hipótese nula β = 0,
Hipótese alternativa β ≠ 0.
Nesse caso, sendo o valor padronizado:
βSββ− , se β = 0 ⇒ c
β
tSβ
≥ , sendo tc = 1,96, por exemplo.
1.96
condição de rejeição de Ho
Como regra prática: a 5% n.s., se 2Sβ
β
> → rejeito Ho.
Deve ser remarcado que não rejeitar Ho não significa aceitá-la. O procedimento
de teste nos fala sobre a situação de rejeitar a hipótese nula (e aceitar a estimativa de β)
quando na verdade a hipótese nula é verdadeira em n.s. % das vezes.
São exemplos de testes de hipóteses para situações com presença de sazonalidade:
Caso 1
21
Ct = β1 + β2 Yt + εt não há variação do tipo sazonal, logo não
há teste de hipótese para avaliar a
presença de sazonalidade.
Caso 2
Ct = β1 + β2 Yt + α Dt + εt , onde Dt representa a variação sazonal.
E (Ct) = β1 + β2 E (Yt)
ou
E (Ct) = (β1 + α) + β2 E (Yt)
Caso 3
Ct = β1 + β2 Yt + γ (Dt Yt) + εt
E (Ct) = β1 + β2 Yt
ou
E (Ct) = β1 + (β2 + γ) Yt
Caso 4
Ct = β1 + β2 Yt + α Dt + γ (Dt Yt) + εt
9. O Coeficiente de Ajustamento ou Determinação:
Os resíduos de uma regressão dão uma medida da qualidade do ajustamento.
Como regra, tem-se que:
0 paz
1 guerra
σ2 constante teste: α=0, verifica se a mudança é significativa entre diferentes períodos.
Os testes para α=0 e para γ=0 avaliam se há mudança significativa entre diferentes períodos sazonais.
teste: γ=0, verifica se a mudança é significativa e altera a taxa de mudança em Ct associada a Yt.
22
Grandes resíduos → ajuste ruim
Pequenos resíduos → bom ajuste
Observe-se que os resíduos têm unidade relativa ao problema. Intuitivamente, ao
obter-se 2y
2
σ)resíduo( tem-se a geração de parâmetros para comparações. É esse raciocínio
que inspira a definição de uma medida de qualidade do ajustamento ou aderência, o
coeficiente de ajustamento R2 (ou coeficiente de determinação).
Seja a Figura 16 a seguir, onde se tem a representação da linha ajustada a um
conjunto de observações de X e Y.
Figura 16- Obtenção dos desvios entre a variável observada, a linha ajustada e o seu valor médio
Analisando o valor Y, pode-se obter a variação total de Y como o somatório do
quadrado dos desvios das observações em relação à média amostral:
Variação (Y) = ∑ − 2i )Y(Y , onde:
)YY()Y(YYY iiii −+−=− ,
De forma que:
23
∑ ∑ ∑ −−+−+−=∑ − )YY()Y(Y2)YY()Y(Y)Y(Y iii2
i2
ii2
i
De forma simbólica, escreve-se:
TSS = ESS + RSS
Regressão Erro Total Dividindo-se os dois lados da equação por TSS (a variação total de Y):
1 = TSSRSS
TSSESS
+
Define-se o coeficiente de ajustamento R2 como a relação entre a variação de Y
explicada pela regressão e a variação total. Assim,
, sem , 0 ≤ R2 ≤ 1.
Observe-se que R2 é função dos parâmetros estimados. Na Figura 17 são
representadas duas situações-limite para o valor de R2: ajustamento perfeito (a), e caso em
que a relação linear não se ajusta aos dados amostrais (b).
Figura 17 – Exemplos de situações-limite do ajustamento
iy
0
⇓
variação residual
de Y (não explicada)
(ESS)
⇓
variação total de
Y (TSS)
⇓
variação explicada
de Y (RSS)
ii xβy =
iiεxβ2∑
iε
R2 = 1 - TSSRSS
TSSESS
=
24
Uma outra maneira de se obter R2 é mostrada a seguir. Seja:
XXx;YYy iiii −=−=
ii xβy =
iii εyy += ∑ ∑ ∑ ∑++= ii2i
2i
2i εy2εyy
⇓
⇓ = 0
(nas equações normais da regressão)
∑ 2iy = + 2
iε∑ + ( 00β2 = ), onde
2i
2 xβ ∑ = ∑ 2iy - 2
iε∑ .
Lembrando que o coeficiente de ajustamento é função de 2i
2i yey , ou seja, as
variações 2i )YY( − e 2
i )Y(Y − , e considerando-se a relação anterior obtida:
R2 = ∑∑=
∑∑
= 2i
2i2
2i
2i
yxβ
yy
TSSRSS => R2 = 1 -
∑∑
2i
2i
yε
10. Interpretação da Variação em Y em termos da Análise de Variância
As medidas relativas a TSS, RSS e ESS devem ser convertidas em variâncias, por
sua divisão pelos graus de liberdade associados ao processo de sua obtenção. Assim,
Variância total em Y = 1N
TSS−
Variância explicada em Y = 1
RSS
(explicado)
(total)
média
Resíduo da regressão
∑ ii εxβ2
∑ ii εxβ2
2i
2 xβ ∑
25
Variância residual em Y = 2N
ESS−
β,Xouβ,α
Define-se a relação de variâncias: explicadanãovariância
explicadavariância−
, como uma boa
medida (complementar ao coeficiente de determinação) da qualidade do ajustamento,
permitindo que se avalie a existência de relação linear em Y e X. Essa medida permite que
se aplique o teste estatístico da equação de regressão. O teste da equação de regressão que
testa a existência de relação linear entre Y e X baseia-se na estatística F de “Snedecor”
associada à essa relação de variâncias.
Assim, obtém-se a estatística F1,N-2, com 1 e N-2 graus de liberdade, como:
F1,N-2 = explicadanãovariância
explicadavariância−
= 2ESS/N
RSS/1−
,
que segue a distribuição F com 1, N-2 graus de liberdade no numerador e no denominador,
respectivamente.
F1, N-2 = 2
2i
2
Sxβ ∑ ⇔ F1, N-2 = 0 → somente quando 0
1RSS
= ,
onde S2 = 2-Nε 2
i∑
Como orientação,
Dessa forma, estabelece-se o teste da equação de regressão onde:
Hipótese Nula (H0): Relação linear não explicada (F1, N-2 = 0)
Xi
S2
F1, N-2 pequenos Relação linear fraca Relação linear forte F1, N-2 grandes
26
Os valores da distribuição F estão tabelados, onde se obtém valores de Fcrítico (Fc).
Dessa forma,
Tabela F1, N-2 → Fc
n.s. %
1, N-2 graus de liberdade
11. O Modelo de Regressão Múltipla
O caso geral de modelo de regressão múltipla significa que existem várias
variáveis Xi explicativas da variação em uma outra (Yi). Assim, escreve-se o modelo de
regressão múltipla a k variáveis ou parâmetros:
Yi = β1 X1i + β2 X2i + ... + βk Xki + εi
onde X1i = 1
i = 1,2,…, N β1, β2, ... βk são os coeficientes parciais da regressão.
São válidas as seguintes suposições para o modelo:
i) A especificação do modelo é linear
ii) X`s não-estocásticos. Não há relação linear exata entre os X`s (senão:
multicolinearidade).
iii) E (εi) = 0
E (εi)2 = σ2
E (εi . εj) = 0, i ≠ j
εi ~ N [0, σ2]
Por simplicidade, considere-se o modelo a 2 variáveis independentes:
Yi = β1 + β2 X2i + β3 X3i + εi ⇒ 3i32i21i XβXββY ++=
E (Yi) = β1 + β2X2i + β3X3i
E (Yi)2 = σ2
Os coeficientes da regressão podem ser obtidos por:
22 Sσ =
se F1, N-2 > Fc rejeito Ho
se F1, N-2 < Fc não posso rejeitar
27
33221 XβXβYβ −−=
∑ ∑ ∑∑ ∑ ∑ ∑
−
−=
23i2i
23i
22i
3i2ii3i2
3ii2i2 )xx()x()x(
)xx()yx()x()yx(β
∑ ∑ ∑∑ ∑ ∑ ∑
−
−=
23i2i
23i
22i
3i2ii2i2
2ii3i3 )xx()x()x(
)xx()yx()x()yx(β
sendo que as estimativas das variâncias podem ser obtidas por:
...S2jβ= =
−
−=−
∑ ∑ ∑∑ ∑ ∑ ∑
223i2i
23i
22i
23i2i
23i
22i
23i
22
22 ])xx(x.x[])xx(xx[xσ
])βE[(b
j = 1, ..., k
k = 3 ∑ ∑ ∑
∑−
= 23i2i
23i
22i
23i
2
)xx(xxxσ
22 bβ = E[(b3 - β3)2] = ... ∑ ∑ ∑
∑−
= 23i2i
23i
22i
22i
2
)xx(xxxσ
33 bβ =
Pode-se demonstrar também que:
,])xx(xx[ N
)XX(XX[σ])βE[(b 2
3i2i23i
22i
23i2i
23i
22i
22
11 ∑−∑∑∑−∑∑
=− sendo .βb 11 =
Cov (b2, b3) = 23i2i
23i
22i
3i2i2
)xx(xxxxσ∑−∑∑
∑−
(a) A Significância dos Coeficientes do Modelo de Regressão Múltipla
A derivação das estatísticas dos estimadores no modelo de regressão múltipla é
obtida através da Álgebra Matricial. Apresenta-se a seguir sumário dos resultados mais
relevantes:
i) Os estimadores de mínimos quadrados de βj, j = 1, ... , k são BLUEs
Quando o erro ~ N (0, σ2), estes estimadores são também os estimadores de
máxima verossimilhança.
28
ii) S2 = kN
ε 2i
−∑
é uma estimativa consistente e não-viesada de σ2.
iii) Quando o erro é normalmente distribuído, testes t podem ser aplicados pois
os valores padronizados dos parâmetros βj seguem essa distribuição de probabilidade de
forma que:
jβ
jj
Sββ −
~ tN-k, j = 1, ..., k
(b) Avaliação da Qualidade do Ajustamento: Teste F, R2 e R2 Corrigido
Seja:
Yi = β1 + β2 X2i + ... + εi, com k variáveis ou k parâmetros
Yi - Y = )YY()Y(Y ii −+−
⇓ Total = Residual + Explicada
∑ 2i
2ii
2i )YY()Y(Y)Y-(Y −∑+−∑= ⇒
O coeficiente de ajustamento:
R2 = )Y(Y
ε1
)Y(Y)YY(
TSSRSS
i
2i
2i
2i
−∑∑
−=−∑−∑
=
mede a qualidade do ajustamento
Algumas questões se impõem ao uso isolado do R2 como medida do ajustamento.
Entre elas:
1) Em sua obtenção parte-se do pressuposto da boa especificação
2) R2 → depende do número de variáveis independentes.
A adição de variável independente pode não ser adequada, mas não
deve baixar R2
Além disso, o uso isolado do R2 tem valor limitado, pois pode ocorrer bom ajustamento
(leia-se aqui: bom R2) do modelo global porque variáveis independentes estão fortemente
correlacionadas entre si, com baixos valores de t e altos desvios padrão individuais.
TSS = ESS + RSS
29
Para avaliar a significância do R2 realiza-se o teste F k-1, N-k , com k-1 e N-k graus
de liberdade no numerador e denominador, respectivamente, representando o número de
variáveis independentes e o grau de variação não explicada. Para realizar o teste de
hipótese Fk-1, N-k, obtém-se:
Define-se medida complementar da qualidade do ajustamento: R2 corrigido ou 2R ,
que é obtido, por definição, em função de variâncias.
kNε
S2i2
−= ∑
2R = 1 - var(Y)
)εvar(
1N)Y(Y 2
i
−∑ −
Note-se que:
Variação não explicada
R2 = 1 - ∑ −
∑2
i
2i
)Y(Yε é igual a 1 -
1)-(N var(Y)k)(NS2 −
Variação total
Assim, pode-se derivar a relação entre R2 e 2R :
2R = 1 – (1 – R2) kN1N
−− (N>k), para a qual:
1. k = 1 ⇔ R2 = 2R
2. k > 1, R2 ≥ 2R , sendo que 2R pode ser negativo.
2R é sensível à informação usada para estimar k parâmetros.
Fk-1, N-k = 1kkN
R1R
2
2
−−
−
30
(c) Comparando Modelos de Regressão
Seja o 2R obtido por:
2R = 1 - Var(Y)
)εVar( -, onde (1 - 2R ) = 2Y
2
SS e S2 = (1 - 2R ) 2
YS .
A equação de S2 permite concluir que S2 decresce se 2R aumenta, pois 2YS
(variância de Y) depende de Yi e Y e independe do modelo formulado.
Neste ponto são necessárias algumas considerações. Por exemplo, R2 ≈ 1 indica
bom modelo explicativo. Mas qual é seu valor na previsão?
Para nortear essa resposta, deve ser destacado que R2 deve aumentar ao adicionar-
se uma variável explicativa pouco importante ao modelo, mas se esse aumento ocorrer com
um decréscimo em 2R e um aumento em S2 (impacta a variância do erro de previsão;
significa perda de precisão do modelo de previsão), essa variável não deve constar da
formulação definitiva do modelo.
Nota-se que a adição de uma variável explicativa (k cresce) irá diminuir a
variação não explicada em Y (ESS = ∑ −=
N
1i
2i ))Y(Y , entretanto a variância S2 =
kNESS−
poderá diminuir ou aumentar (depende da variação do numerador e do denominador).
(d) Construindo Modelos de Regressão com o Método de Máxima Melhoria em
R2 (MAXR)
O Método da Máxima Melhoria em R2 é composto de etapas sucessivas para
ajustar modelo composto de n variáveis explicativas aos dados:
Y ↔ Xi ... Xn
S2
2YS
31
Etapas:
1) Avaliação dos coeficientes de ajustamento dos modelos a 2 variáveis:
11,11 XbaY += → 21R
. . .
21,22 XbaY += → 22R
. . .
nn1,n XbaY += → 2nR
Assim,
t1xbaY += modelo a duas variáveis
2) Modelos a 3 variáveis:
pp2,t1 XbXbaY ++= , novo modelo, onde Xp é a variável associada ao maior R2
(valor abaixo do R2 do modelo escolhido na etapa anterior).
Estratégia:
“Troca-se” cada variável no modelo (Xt e Xp) com cada variável fora do modelo,
de forma a saber se haverá uma troca de variável (entre as dentro e as fora do
modelo) que irá melhorar o R2 do modelo.
Resultado:
Novo modelo a três variáveis.
3) Modelos a 4 variáveis:
Toma-se o melhor modelo a três variáveis e adiciona-se uma nova variável
(aquela associada ao maior R2 na etapa 1, por exemplo). Procede-se à troca entre
as três variáveis de dentro com as de fora do modelo. A composição com maior
R2 ⇒ novo modelo a 4 variáveis.
4) Repete-se o procedimento, até obter o modelo a n variáveis.
Busca do maior R2: t1XbaY +=
t1,1 bb = do modelo com o maior R2
32
Exercício 1 - Regressão
Estabeleça, com suas palavras, um paralelo entre o método MAXR e o processo
de comparação de modelos a partir de R2, R 2 e S2, considerando-se o modelo de vendas
do detergente Fresh (30 observações semanais) (Bowerman e O´Connel, 1987), onde:
Yt ≡ centenas de milhares de embalagens vendidas em cada período de observações t;
xt1 ≡ preço (US$) do detergente Fresh no período t;
xt2 ≡ o preço médio dos detergentes competidores (US$);
xt3 ≡ o gasto em propaganda no período t (em centenas de milhares de US$);
xt4 ≡ xt2 – xt1 ≡ diferença de preços entre a média do mercado e o Fresh;
xt5 ≡ t1
t2
xx
≡ razão entre preços (alternativa a xt4).
O modelo a quatro variáveis independentes (ou a 5 variáveis):
Yt = βo + β1xt4 + β2xt3 + β3 x2t3 + β4 xt4xt3 + εt tem as seguintes estatísticas associadas:
1. ESS = 1,0644
2. Variação Explicada = 12,3942
3. R2 = 9209,04586,133942,12
TotalVariaçãoExplicadaVariação
==
4. S2 = 0426,0250644,1
5300644,1
kNESS
==−
=−
5. =⎥⎦
⎤⎢⎣
⎡−−
⎥⎦
⎤⎢⎣
⎡−−
−=kN1N
1N1kRR 22
= 9083,0530130
130159029,0 =⎥
⎦
⎤⎢⎣
⎡−−
⎥⎦
⎤⎢⎣
⎡−−
−
O mesmo que kN1N)R(11R 22
−−
−−= N > k
Adicionando-se a variável independente xt4 x2t3
v3
v1 (⇒ linearizado) ...)v2
33
Yt = βo + β1xt4 + β2xt3 + β3 x2t3 + β4 xt4xt3 + β5 xt4 x2
t3 + εt
1. ESS decresce para 1,0425
2. Variação explicada pelo modelo cresce para 12,4161
3. R2 (cresce) = 9225,04586,134161,12
=
4. S2 (cresce) = 0,0434630
1,0425npN
ESS=
−=
−
5. 0,8701R 2 =
Embora R2 cresça, S2 cresce e 2R diminui, logo o poder preditivo decresce,
desaconselhando a manter a nova variável independente no modelo.
34
Exemplo: DATA (QUATERLY, 1954-1 até 1971-4, em US$)
Função de con.s.umo (Ct)
Variáveis independentes: yt renda disponível, Ct-1 con.s.umo no período anterior.
Modelo III → St = Yt - Ct ⇒ variável dependente representando renda disponível
após con.s.umo (“savings function”).
St = α3 + β3Yt + ε3t
Coeficientes Valores Estatístico t Modelo
I 1α
1β R2 = 0,9977
14,51
0,88
ESS = 966,50
7,03
173,06
SER = 3,72 Modelo
II 2α
2β
2y R2 = 0,9989
5,52
0,31
0,65
ESS = 440,70
3,06
4,85
8,78
SER = 2,55
Modelo III
3α
3β R2 = 0,8961
-14,51
0,12
ESS = 966,5
-7,03
24,57
SER = 3,72
12. Considerações Adicionais: a Correlação Parcial
As correlações parciais variam no intervalo [-1,1]. Elas são medida de
importância relativa das variáveis independentes no modelo.
Seja: i3i32i21i εXβXββY +++= .
σ
Cresceu pois não
há multicoli-nearidade
disposição ao con.s.umo
Abaixou em relação ao R2 mod. I
)65,01(31,0
− = 0,88
significante
mod I Ct = α1 + β1 yt + ε1t
mod II Ct = α2 + β2 yt + γ2Ct-1 + ε2t
35
O coeficiente de correlação parcial entre Y e X2 mede o efeito de X2 em Y sem
levar em conta outra variável do modelo.
Os passos para sua obtenção são:
1. Regressão Y em X3 321 XααY +=
2. Regressão X2 em X3 3212 XγγX +=
3. Remover influência de X3 em Y e X2
Assim, obtém-se: Y* = Y – Y
X2* = X2 - 2X
4. A correlação parcial entre X2 e Y é a correlação simples entre Y* e X2*.
Conhecendo-se a definição de correlação parcial, pode-se derivar a relação entre a
correlação parcial e a correlação simples (2YXr ,
3YXr , 3YXr ), de forma que:
32 .XYXr
2YXr 32 .XYXr = 1/22
YX1/22
XX
XXYXYX
)r(1)r(1r.rr
332
3232
−−−
, onde:
3YXr 32 .XYXr é o coeficiente de correlação parcial
32 .XXr
É possível também derivar a seguinte relação entre o coeficiente de ajustamento
R2, que mede a múltipla correlação no modelo, e a correlação parcial:
32 X2YX .r =
3
3
YX2
YX22
r1rR
−− ou 1-R2 = )r(1)r(1 323 .XYX
2YX
2 −−
Observa-se uso freqüente do coeficiente de correlação parcial como apoio nas
escolhas do procedimento de composição do modelo de regressão denominado “Stepwise”
(as variáveis adicionadas ao modelo devem maximizar 2R ). Esse coeficiente dá medida do
impacto de cada variável independente sobre a variável dependente, sendo particularmente
útil com grande número de variáveis independentes.
36
13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos
É importante saber se a estabilidade estrutural do modelo se mantém ao longo do
tempo em que se obtém informações de suas variáveis. O teste de Chow é um teste da
estatística F que permite avaliar se um modelo adequado a um conjunto de informações
continua válido para valores mais recentes amostrais.
O procedimento do teste é o seguinte:
• Combinar todas as (N1 + N2) informações e ajustar um modelo de regressão a esse
conjunto amostral. Calcular a soma do quadrado dos resíduos (ESS0) com N1 + N2– k
graus de liberdade, onde k é o número de parâmetros estimados (incluindo o termo
constante).
• Ajustar dois modelos aos N1 e N2 subconjuntos amostrais, que não precisam ser de
mesmo tamanho, calculando as respectivas somas do quadrado dos resíduos (ESS1 e
ESS2), com graus de liberdade N1-k e N2-k.
• Adicionar as somas do quadrado dos resíduos desses dois subconjuntos amostrais e
subtrair essa adição do valor ESS0 inicialmente calculado (modelo ajustado ao conjunto
total de dados).
• Calcular a estatística F:
)2N N/()(/)}({
2121
210
kESSESSkESSESSESS
F−++
+−= , com k e N1 + N2– k graus de liberdade.
• Se o valor da estatística F for significativo a n.s. % , a hipótese de que não existe
significativa diferença entre os modelos deve ser rejeitada e pode-se concluir que o
modelo completo é estruturalmente instável.
Observe-se que: S2 = kN
ESS−
, onde ESS é soma do quadrado dos resíduos e S2 é a
estimativa amostral da variância do erro para amostras de tamanho N.
14. O Modelo de Regressão Múltipla com Variáveis Explanatórias Estocásticas
Suposição: X´s ~ distribuição de probabilidade.
São pressupostos:
1. A distribuição de cada variável explanatória é independente dos verdadeiros
parâmetros de regressão.
37
2. Cada variável explanatória é distribuída independente dos verdadeiros erros no
modelo.
Pode-se afirmar que as propriedades dos estimadores de mínimos quadrados
ordinários (MQO) de consistência e eficiência permanecem para grandes amostras, não
sendo afetadas na condição de que os valores das variáveis independentes e os erros sejam
independentes um do outro. Os parâmetros de regressão estimados são estimados
condicionados a determinados valores de X`s. Sob os pressupostos acima, continuam a ser
estimadores de máxima verossimilhança.
15. Violação dos Pressupostos Básicos do Modelo de Regressão Clássico
É preciso determinar quando os pressupostos são violados e quais os
procedimentos de estimação são adequados nesses casos.
Sejam exemplos de violação:
1) Em relação à forma funcional:
Yi = β1 + β2X2i + ... + βk Xki + εi
erro de especificação
erro de construção do modelo
2) Em relação às variáveis explanatórias:
X`s média e variância finitas não correlacionadas com erros
(variável estocástica)
erros de medida solução através de variáveis instrumentais
não existe relação linear entre X´s
forte relação linear entre variáveis explanatórias (multicolinearidade)
3) Em relação ao pressuposto de normalidade dos resíduos:
εi ~ N (0, σ2) e distribuídos independentemente
E (εi) ≠ 0 muda intercepto (α*)
ausência de normalidade: os estimadores de MQO permanecem não-
viesados e consistentes mas nada se pode dizer sobre a verossimilhança.
38
Nesse caso diz-se que os testes são aproximadamente válidos ou seja, são
válidos quando o tamanho da amostra N → ∞.
Outras violações são os casos de heteroscedasticidade e correlação serial,
discutidos a seguir.
16. O Problema da Multicolinearidade
Uma forma de detectar multicolinearidade é através da porcentagem de variação
explicada (RSS/TSS) associada a alguma variável sendo introduzida no modelo de
regressão. Se a porcentagem RSS/TSS decrescer, a multicolinearidade explica este fato.
Como regra prática, quando o coeficiente de correlação simples entre duas
variáveis aleatórias independentes for ≥ 0,7, isso significa indício de problema de
multicolineariedade.
A multicolinearidade é um problema associado à amostra de dados. A presença
da multicolinearidade implica que há pouca informação na amostra para dar confiança na
interpretação da situação em análise.
Se existe multicolineariedade, os resultados da regressão podem estar errados.
Passos para avaliar a multicolineariedade:
Passo no 1: Testar nova amostra de dados.
Há indicação de multicolineariedade, por exemplo, quando o teste t indica
insignificância estatística dos estimadores e R2 ou estatística F são altos.
Passo no 2: Nessa situação, a matriz de correlação deve ser investigada.
Todas as variáveis independentes altamente correlacionadas devem ser retiradas
exceto uma. Embora essa seja uma solução, há perda de valor dos estimadores dos
parâmetros.
É importante ressaltar que:
1. É possível haver variáveis independentes altamente correlacionadas (altos
coeficientes de correlação) e a regressão não ter problemas de multicolinearidade.
2. Se o teste t indicar significância do estimador, é sinal que a
multicolinearidade não é séria para fins de previsão.
39
Entretanto na presença de multicolinearidade os parâmetros individuais não são
valores satisfatórios.
O exame dos desvios padrão dos coeficientes pode indicar se a multicolinearidade
está causando problemas. Assim, se vários coeficientes tem altos desvios padrão e, ao
retirar-se duas ou mais variáveis do modelo, observa-se baixarem os desvios padrão, a
multicolinearidade é provavelmente a origem disto.
Uma outra regra prática, válida para o caso de duas variáveis independentes:
Se a correlação simples entre duas variáveis independentes for maior que a
correlação de pelo menos uma delas com a variável dependente, a multicolinearidade é um
problema.
A multicolinearidade é um problema computacional que se amplia quando duas
ou mais variáveis independentes estão altamente correlacionadas (nos cálculos aparece a
indeterminação 0/0).
(a) Explicação do Problema
Considere-se o modelo:
i3i32i21i εXβXββY +++= , i = 1, ..., N
No caso extremo, por exemplo, tem-se: 3i2i δXγX += , uma relação exata. Se
essa relação for conhecida: não há problema.
Essa relação pode ser reescrita: 3i2i δxx = , fazendo 22i2i XXx −= e
33i3i XXx −= , por exemplo. Dessa forma,
00
)x(δ)x(δxxyδxxyδ
β 223i
2223i
2
23i3ii
23i3ii
2 =∑−∑
∑∑−∑∑= e
00...β3 == indeterminação.
Var )β( 2 = )r(1x
σ)xx(xx
xσ23
222i
2
23i2i
23i
22i
23i
2
−∑=
∑−∑∑∑
, onde r23 é o coeficiente de
correlação simples entre X2 e X3, de forma que:
r23 = 21
23
22
32
)xx(
xx
∑
∑ (Thomas, (1978), págs. 132, 217).
40
Como r23 → ± 1 (alta correlação), e Var )β( 2 → ∞ e Var )β( 3 → ∞, a aplicação
dos mínimos quadrados falha neste caso.
O problema da multicolinearidade é razoavelmente fácil de reconhecer, mas
difícil de resolver, pois exige soluções como a retirada de variáveis explicativas do
modelo, o que não deve ser feito sob risco de retirar-se importante variável por causa de
seu baixo valor de t. Quando o modelo é projetado para a previsão, muitas vezes é
preferível manter no modelo as variáveis que a teoria indica que explicam a variável
independente e que sejam fáceis de prever. Uma vez que a multicolinearidade tenha sido
resolvida, deve-se verificar se outros pressupostos do modelo clássico foram violados.
17. O Problema de Heteroscedasticidade
A heteroscedasticidade ocorre quando as variâncias são variáveis. Seja por
exemplo os gastos de indivíduos de renda baixa e alta. É esperado que exista uma
impossibilidade de variar no caso de renda baixa e uma grande variabilidade nos gastos de
indivíduos de renda alta, com excedente em relação aos gastos obrigatórios mensais
(Figura 18).
Figura 18- Variabilidade nos gastos de indivíduos de acordo com a renda
Em conjuntos de dados de séries temporais, é raro observar-se a
heteroscedasticidade, pois a relação é com tempo. Entretanto, ela é frequente em conjuntos
de dados de corte transversal, como o exemplo citado acima.
Na presença de heteroscedasticidade, assume-se;
εi ~ N (0, σ2i)
Var(εi) = E(εi2) = σ2
i
Gastos de indivíduos de renda
baixa
alta
41
Em presença de σ2i, o procedimento de MQO dá maior peso, naturalmente, às
observações com maiores variâncias, o que leva a estimadores não-viesados e consistentes,
mas que não são eficientes (variâncias do MQO não são as mínimas).
Na derivação de β , onde ii XβαY += ou, com a transformação de variáveis,
ii xβy = , iii εβxy += , logo iii εyy += ,
2i
ii
xyxβ
∑∑
= ⇒ β + 2i
ii
xεx
∑∑
E )β( = β + βx
)εxE(2i
ii =∑∑ , logo 2
iσ não importa na derivação do valor esperado.
Entretanto, na derivação de Var )β( = 2i
2
xσ∑
, σ2 não pode ser concluído. O uso da
expressão Var )β( = 2i
2
xσ∑
para obtenção da variância do estimador leva a estimativas
tendenciosas das verdadeiras variâncias e a aplicação dos testes a resultados incorretos.
Dessa maneira são definidos procedimentos para a correção e teste da
heteroscedasticidade.
(a) Procedimentos para correção da heteroscedasticidade
Caso 1: Variâncias são conhecidas
Var(εi) = σi2 conhecidas a priori.
Uso dos Mínimos Quadrados Ponderados (caso especial dos mínimos quadrados
generalizados). Seja o modelo a duas variáveis:
ii XβαY +=
min 2
i
ii
σXβαY
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −−∑ ou min
2
i
ii
σxβy
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −∑
∴ β = 2*
i
*i
*i
)(xyx
∑
∑ , i
i*i σ
xx = e i
i*i σ
yy = ,
onde primeiro obtém-se a transformação das variáveis dividindo-as por σi, para
em seguida subtraí-las dos seus valores médios.
42
No caso do modelo de regressão múltipla, obtém-se:
i
i*i σ
YY = , i
ji*ji σ
XX = ,
i
i*i σ
εε = , j = 1, ..., k
*i
*2i2
*1i1
*i ε...XβXβY +++= , onde
i
*1i σ
1X = ou seja, a equação ajustada não tem
intercepto, sendo que: Var(εi*) = Var ⎥
⎦
⎤⎢⎣
⎡
i
i
σε = 1
σσ
σ)Var(ε
2i
2i
2i
i == .
Caso 2: Variâncias desconhecidas mas estimadas nas amostras
Seja a Tabela 2, onde são tabulados os gastos com a casa de indivíduos, agrupados
em grupos de acordo com a variação nesses gastos, com as faixas de renda familiar
variando entre R$ 5.000,00 e R$20.000,00. Após proceder à análise dos dados em que
observa-se que os gastos variam diferentemente por cada uma das faixas de renda, obtém-
se as variâncias desses gastos por grupo, o que é apresentado na Tabela 3.
Tabela 2
Grupos (Yi) gastos com a casa ($1.000)
(Xi) renda familiar ($1.000)
1 1,8 2,0 2,0 2,0 2,1 5,0 2 3,0 3,2 3,5 3,5 3,6 10,0 iii εβXαY ++= 3 4,2 4,2 4,5 4,8 5,0 15,0 4 4,8 5,0 5,7 6,0 6,2 20,0
Yi = 890,0 + 0,237 Xi
(4,4) (15,9)
estimativa de MQO
R2 = 0,93 F = 252,7
Análise do Dados (plotar)
Heteroscedasticidade
As variâncias estimadas por grupo representam uma possibilidade de correção
para o Caso 2. A correção sugerida sege a correção do Caso 1, por exemplo.
Tabela 3-
Variâncias estimadas por grupo 1 9.800 2 50.400 3 102.400 4 302.400
A correção sugerida segue a correção do Caso 1.
43
Caso 3: Variâncias do erro variam diretamente com uma variável
independente
Assume-se: Var(εi) = C Xi2
uma das variáveis independentes
≠ 0
Por exemplo: Var(εi) = 22iXC em ikik2i21i εXβ...XββY ++++=
onde a transformação das variáveis do modelo define o novo intercepto:
22i
2i2 βX
Xβ= .
Aplica-se os mínimos quadrados ponderados com as variáveis:
21
i*i X
YY = 21
ji*ji X
XX =
21
i*i X
εε =
onde: Var(εi*) = Var
2i
i
Xε = C
X)Var(ε
22i
i =
A estimação com dados do exemplo do Caso 2 permite obter:
*i
i
**
i
i εX1αβ
XY
++= ii
i
X1752,90,249
XY
+=
R2 = 0,76 F = 58,7
Houve transformação na variável
dependente (R2 não deve ser comparado
ao anterior).
(b) Testes para Verificar Heteroscedasticidade
Hipótese Nula (Ho): σ12 = σ2
2 = ... = σN2, em N observações (Homocedasticidade)
Hipótese Alternativa: Heteroscedasticidade
Teste 1: Teste de Bartlett (a partir dos dados amostrais).
Passos do teste:
44
1. Estima-se Sg2 =
⎥⎥⎦
⎤
⎢⎢⎣
⎡
gN1 ∑ −
=
Ng
1i
2i )Y(Y para cada grupo de observações, g = 1, 2, ..., G,
onde: Sg2 = 2
gσ
2. Teste S, sendo S = ∑ −−+
∑ ∑−
=
= =G
1gg
G
1g
G
1g
2gg
2gg
(1/N)])(1/N[]1)(G[1/31
SlogN]S/N)(N[logN
3. Na situação de homocedasticidade ⇒ S ~ Qui-quadrado com (G-1) graus de liberdade
Hipótese Nula: Variâncias iguais em todos os grupos
Se S > Scrítico (tabela χ2) ⇒ rejeito Ho
4. Rejeição de Ho ⇒ modificação de MQO
No exemplo do Caso 2: S = 10,7 Scrítico, 3 graus de liberdade = 7,81, 5% n.s.
Teste 2: Teste de Goldfeld-Quandt
Hipótese Nula: Homocedasticidade
Hipótese Alternativa: σi2 = C Xi
2
45
Procedimentos gerais do teste:
Linha de regressão com dados
associados às baixas variâncias
* Cálculo de duas linhas de regressão +
linha de regressão com dados associados
às grandes variâncias
Assim:
1. Ordenação dos dados de acordo com a magnitude de uma das variáveis independentes
(relacionada à magnitude da variância do erro).
2. Omite-se d informações centrais (d ≈ 1/5 N), e ajusta-se 2 regressões aos 2
dN − dados
e k2
d)(N−
− graus de liberdade.
3 Calcula-se ESS1 (menores valores) e ESS2.
4. Pressupõe-se
1
2
ESSESS ⇒ distribuição F[N-d-2k)/2 graus de liberdade no numerador e no denominador]
Se 1
2
ESSESS > Fcrítico ⇒ rejeito Ho
Ao utilizar-se maiores valores de d, melhora-se o teste.
Erros normalmente distribuídos Erros não correlacionados serialmente
46
Seja o mesmo exemplo anterior (em que d = 0):
1. Rendas menores ($5.000 e $10.000)
Yi = 600,00 + 0,276 Xi
(3,1) (11,3)
R2 = 0,94 ESS1 = 3,0 x 105
2. Rendas maiores ($15.000 e $20.000)
Yi = 1.540,0 + 0,20 Xi
(1,4) (3,1)
R2 = 0,55 ESS2 = 20,2 x 105
Teste 3: Teste de White
O procedimento do teste de White determina que, em um primeiro passo, se avalie
o ajustamento entre os resíduos da regressão original estimada e as variáveis explanatórias
formuladas conforme o modelo:
ε 2i = γ+ φ X 2
i + δ Z 2i + θ Xi Zi + νi,
que permite não-linearidades e para o qual se obtém o coeficiente de ajustamento
ou determinação R2,
sendo que Zi e Xi correspondem às variáveis explanatórias da regressão original
das quais se suspeita serem a origem da heteroscedasticidade.
Em seguida é obtida a estatística Qui-quadrado para o teste, em que se calcula o
valor:
χ 2 = N R2, onde N é o tamanho da amostra que ajustou a regressão que deu
origem aos resíduos ε 2i .
Se N R2 for um valor significativo com p graus de liberdade e (1-n.s.)% de
probabilidade significa que o modelo sugerido para relacionar o quadrado dos resíduos e as
p variáveis explanatórias indica heteroscedasticidade (no modelo formulado, p=3).
6,7ESSESS
1
2 =
Fcrítico = 6,03 (8,8) graus de liberdade 6,7 > 6,3, logo, rejeito Ho
47
Por exemplo, se Xi for a única variável da qual se suspeita ser a origem da
heteroscedasticidade, deve-se calcular a estatística χ 2 para o modelo:
a) ε 2i = γ+ φ X 2
i + νi , e avaliar sua significância com 1 grau de liberdade, ou
b) Sugere-se que o modelo inclua as variáveis explanatórias X i e X 2i , e o teste
seja feito com 2 graus de liberdade.
48
Exemplo
Considere-se o modelo de regressão estimado:
1t61t51t41t36t21t PβEβIβISβDIββDS −−−−− +++++= (highly trended time-series).
N = 88 graus de liberdade = 82
S = 263,4 R2 = 0,93 0,92R 2 =
Soma dos (Resíduos2) = 5,7 x 106 F5,82 = 220,6
Coeficiente Valor Desvio Padrão t Média Coeficientes parciais
(de correlação)
1β 12.091,0 2.321,0 5,2 1,0
2β 0,109 0,06 1,8 15.507,9 0,19373
3β -1.690,3 483,6 -3,5 1,96 -0,36010
4β -76,2 65,6 -1,2 5,28 -0,12719
5β 5.585,6 974,4 5,7 2,96 0,53486
6β -175,6 34,4 -5,1 105,1 -049147
(coef. corr. parcial)2 = (0,53)2 = 0,28 da variância da variável dependente SD.
Exercício: Questão 1 escolher uma série sazonal e estimar seus parâmetros, R2,
testes, ...
49
18. O Problema da Correlação Serial
Na análise de dados de séries temporais, principalmente, é freqüente a correlação
entre os termos de erro em períodos de tempo adjacentes. A presença de correlação serial
de 1ª ordem significa que os erros em um período estão correlacionados diretamente aos
erros no período seguinte. Por exemplo, a previsão superestimada de taxa de vendas para
um período provavelmente induz a superestimativas dos períodos seguintes (exemplo de
correlação serial positiva). A correlação serial entre termos de erro é positiva, na maioria
das séries temporais. Isto deve-se, por exemplo, ao efeito de variáveis omitidas ou erros de
medida.
Como regra geral, a presença de correlação serial não afeta a não-tendenciosidade
e a consistência dos estimadores de mínimos quadrados (MQO) mas afeta a eficiência
(variância). No caso de correlação serial positiva a “perda” de eficiência é mascarada pelo
fato de que as estimativas dos desvios padrão obtidas (pelo MQO) são menores que os
verdadeiros desvios padrão (desvio padrão viesado para menos). Com isso os parâmetros
da regressão podem ser considerados mais precisos do que realmente são. Além disso, o
intervalo de confiança é mais estreito, fazendo com que a hipótese nula seja rejeitada
quando ela não deveria sê-lo.
Intuitivamente, as duas situações da Figura 19 ocorrem:
Figura 19- Exemplos de ajustamentos de modelos de regressão a dados
serialmente correlacionados (positivamente)
No caso de correlação serial positiva, R2 é melhor do que deveria ser. Como
representado na Figura 19, são observadas duas situações de ajustamento ao longo do
50
conjunto amostral: (a) β < β e (b) β > β . Na média, entretanto, há ausência de viés (ou
seja, os estimadores estão corretos). Entretanto, a medida do sucesso da estimação estará
super avaliada se a variância estimada for utilizada em testes.
Desta forma, devem ser introduzidas medidas de correção e de teste sobre a
presença da correlação serial dos erros ou autocorrelação.
a) Correção para a autocorrelação:
Assume-se erros ~ N (0, σε2) mas E (εt εt-1) ≠ 0
T...,1,t,εXβ...XββY tktk2t21t =++++=
Assume-se que os erros correlacionem-se serialmente conforme:
1ρ0,vερε t1tt ≤≤+= − Processo autoregressivo de 1ª ordem,
onde 0)vE(v);σN(0,~v 1tt2vt =− e 0)εE(v tt = .
O efeito do erro num determinado instante de tempo sobre os demais períodos
decresce no tempo. Isto é fácil de observar por meio das covariâncias dos erros. Assim,
se:
Var (εt) = E (ε2t) = E [(ρ εt-1 + vt)2] =
= E[ρ2ε2t-1 + v2
t + 2 (ρεt-1 . vt)] = ρ2 Var (εt-1) + Var (vt) = ρ2 Var (εt) + Var (vt)
Var (εt) = σ2ε = 2
v2
ρ1σ−
,
Cov (εt, εt-1) = E (εt, εt-1) =
= E [(ρ εt-1 + vt) . εt-1] = E [ρ ε2t-1 + vt . εt-1] = ρ E (ε2
t-1) = ρ Var(εt) = ρ σ2ε ,
de forma similar obtém-se:
Cov (εt, εt-2) = E (εt, εt-2) = ρ2 σ2ε
Cov (εt, εt-3) = E (εt, εt-3) = ρ3 σ2ε
São válidas as seguintes observações adicionais no estudo de correlação serial:
1. Sobre o termo de erro para o primeiro período: Não há dados sobre valores
anteriores que o influenciaram. Assim, assume-se: ε1 ~ N (0, )ρ1
σ2
v2
−
51
2. Assume-se a seguinte expressão para obtenção de ρ: ρ = ε
21tt
σ)ε,(εCov − ,
sendo 21
1t2
1
tε2 )Var(ε)Var(εσ −=
(I) Correção na hipótese: ρ conhecido a priori
Neste caso, é feito um ajustamento do procedimento de regressão por mínimos
quadrados, aplicando o método das diferenças generalizadas para recálculo das variáveis,
de forma que:
1tt*t YρYY −−=
Assim:
Yt = ....
Yt-1 = β1 + β2 X2t-1 + ... + βk Xkt-1 + εt-1
Essa equação é multiplicada por ρ x (-1), de forma que se obtém:
*tY = β1(1-ρ) + β2 X*2t + ... + βk X*kt + vt , onde vt não são correlacionados entre si, sendo:
Y*t = Yt - ρYt-1, X*
2t = X2t - ρX2t-1, vt = εt - ρεt-1
var(εt) = 2v
2
ρ1σ−
0 ≤ ρ < 1 .
Observa-se que o intercepto do modelo original (β1) deve ser calculado a partir do
intercepto obtido para a equação transformada *tY .
Quando:
ρ = 1 ⇒ “primeira diferença”. Obtém-se. ∑−=k
2ii1 XβYβ , pois nessa situação
o intercepto é nulo. Ou seja: Y*t = β2 X*
2t + ... + βkX*kt + vt
Y*t = Yt – Yt-1, X*
2t = X2t – X2t-1, vt = εt - εt-1
(II) Correção na hipótese: ρ não é conhecido a priori
Neste caso são sugeridos três procedimentos alternativos:
- O Procedimento de Cochrane - Orcutt
52
1º passo: Estimação do modelo original por mínimos quadrados.
Definição de “erros estimados” (resíduos)
2º passo: Utilização dos resíduos como dados de base para a estimação.
t1tt vερε += −
parâmetro estimado )ρ(
3º passo: Uso do parâmetro estimado )ρ( para compor as diferenças
generalizadas.
1tt*t YρYY −−=
1ktkt*kt XρXX −−=
4º passo: Estimar parâmetros da equação transformada
Y*t = β1(1- ρ ) + β2X*
2t + ... + vt
k321 β,...,β,β,β
5º passo: Definir e obter:
ktk2t21tt Xβ...XββYε −−−−=
6º passo: Estimar parâmetro da regressão.
t1tt ερε v+= −
Nova estimativa de ρ
7º passo: Pare o procedimento ou continue até que,
1º, 2º estimativas de ρ foram obtidas
por exemplo:
ρ - ρanterior ≤ 0,01 ou 0,005
Problema: valor obtido pela minimização da soma dos quadrados dos resíduos
pode ser mínimo local (x mínimo global).
- O Procedimento de Hildreth-Lu
53
Os passos do procedimento são os seguintes:
1º passo: Escolha de valores alternativos para ρ ⇒ escolhido em um conjunto
de valores entre 0 e 1.
Por exemplo
ρ= ρ
2º passo: Para cada ρ , estimar Y*t = β1 (1- ρ ) + β2X*
2t + ... + vt e calcular a
soma dos quadrados dos resíduos
3º passo: ρ ótimo ⇒ menor soma dos quadrados dos resíduos.
4º passo: Pare o procedimento (estabelecendo critério de parada) ou continue
estabelecendo nova variação de valores em torno do ρ ótimo, recomeçando no
1º passo.
Esse procedimento pode garantir máxima verossimilhança. Como precaução, no
entanto, deve-se ter atenção na escolha de valores dos coeficientes para definir ρ ótimo de
forma que sejam bem espaçados e deve-se também variar o conjunto inicial.
- O Procedimento de Durbin
1º passo: A partir das diferenças generalizadas do modelo linear:
Yt - ρ Yt-1 = β1 (1-ρ) + β2 (X2t - ρX2t-1) + ... + vt, que permite obter:
Yt = β1 (1-ρ) + ρ Yt-1 + β2X2t - ρβ2X2t-1 +...+ βkXkt - ρβkXkt-1 + vt,
estima-se ρ aplicando a estimação de mínimos quadrados (ρ é o coeficiente
estimado para a variável Yt-1).
2º passo: Substitui-se ρ na equação:
Yt - ρ Yt-1 = β1 (1- ρ ) + β2 (X2t - ρ X2t-1) +...+ βk (Xkt - ρ Xkt-1) + vt
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
54
Com esse conjunto de variáveis estima-se novo conjunto de parâmetros (mais
eficiente que o anteriormente obtido).
(b) Testes para correlação serial
Hipótese nula ⇒ ρ = 0
Hipótese Alternativa ⇒ ρ ≠ 0 (ou ρ > 0 ou ρ < 0)
O teste mais popular para a correlação serial é o teste de Durbin-Watson.
Existem testes alternativos, como o teste de Durbin, que se aplicam a situações
específicas observados na amostra e modeladas (ver Durbin, J. (1970), “Testing for Serial
Correlation in Least-Squares Regression When Some of the Regressors are Lagged
Variables”, Econometrica, vol. 38, pp.410-421; Siegel, S. (1956), “Nonparametric
Statistics for the Behavioral Sciences”, Mc Graw-Hill e Theil. H. (1965), “The Analysis of
Disturbances in Regression Analysis”, Journal of the American Statistical Association,
Vol. 60, pp. 1067-1079).
(b1) Teste de Durbin-Watson
No teste de Durbin-Watson, é calculada a estatística DW, cujo valor permite
concluir sobre a presença ou não de significativa correlação serial. São procedimentos do
teste:
Sejam 1tt ε,ε − ⇒ resíduos da aplicação de MQO
Calcula-se: DW = ∑
∑ −
=
=−
T
1t
2t
T
2t
21tt
ε
)εε( , situando essa estatística de acordo com valores
tabelados conforme a Figura 20.
O teste não pode ser usado (por definição) quando o modelo de regressão inclui,
como variável explanatória, a variável dependente defasada.
Observa-se que, quando(Figura 20):
tε próximos a 1-tε (autocorrelação positiva) ⇒ baixos DW
Nova Variável Dependente
Nova Variável Independente
Nova Variável Independente
55
tε opostos a 1-tε (autocorrelação negativa) ⇒ altos DW
Caso DW = 2 ⇒ correlação serial de 1ª ordem: ausente.
dL e dU ⇒ obtidos na Tabela DW, a 5% n.s, k’ variáveis, onde k’= k-1
(exclui-se o intercepto) e de acordo com o tamanho (T) da amostra.
4 – dL < DW < 4: rejeito Ho; há correlação serial negativa.
4 – dU < DW < 4 – dL: inconclusivo.
2 < DW < 4 - dU: não há.
dU < DW < 2: não há.
dL < DW < dU: inconclusivo.
0 < DW < dL: há correlação positiva.
Figura 20- Variação de valores para a avaliação da presença de correlação
serial
As regiões de indeterminação do teste devem-se à seqüência de resíduos ser
influenciada pelas variáveis independentes. Por outro lado, a análise do modelo de
regressão a duas variáveis leva à conclusão que DW ≈ 2 (1 - ρ ) podendo este resultado ser
obtido a partir da relação DW = ∑
∑
=
=−−
T
1t
2t
T
2t
21tt
ε
)εε( inicial.
Exemplo:
COAL = 12,262 + 92,34 FIS + 118,57 FEU- 48,90 PCOAL + 118,91 PGAS
(Demanda) (3,51) (6,46) (7,14) (-3,82) (3,18)
R2 = 0,692 F(4,91) = 51,0 DW = 0,95 (DW< dL, logo há correlação positiva)
Hildreth-Lu ⇒ ρ = 0,6
56
COAL* = 16,245 + 75,29 FIS* + 100,26 FEU*- 38,98 PCOAL* + 105,99 PFAS*
(3,3) (4,4) (3,7) (-2,0) (2,0)
DW = 2,07 ⇒ Ho aceita (2<DW< 4-dU) nas condições: 5% n.s., 96 observações e
4 variáveis independentes, para os valores de dL = 1,58 e dU = 1,75 tabelados.
(b2) O teste de Durbin
Este teste aplica-se ao caso em que a variável dependente defasada é variável
independente no modelo.
Para isto calcula-se a estatística h que vai testar a presença de correlação serial no
caso citado. Essa estatística é definida por:
h = ρ { N/(1-N VAR ( β )}1/2 para N VAR ( β ) <1, onde:
ρ = (1-1/2 DW),
VAR ( β ) é a variância estimada do coeficiente da variável defasada Y t-1.
O teste é válido para amostras de grande tamanho (N>30) (embora na prática seja
aplicado também em amostras pequenas). A estatística é testada como um desvio da
distribuição normal. Se h > 1,645, rejeita-se a hipótese nula de que os resíduos não tem
correlação serial a 5 % de nível de significância.
19. A Previsão com o Modelo de Regressão
O modelo de regressão de uma equação (singular) é base para dois tipos de
previsão: (a) as previsões pontuais, às quais associam-se intervalos de confiança, dando
origem a (b) previsões de intervalos de confiança da previsão, construídos de forma a que
se observe uma margem de erro em torno da previsão pontual, definindo bandas de (1-
n.s.)% de confiança (n.s. é o nível de significância).
As previsões são guias para as decisões e dão orientação para a (re)construção do
modelo de regressão, na medida que se tenha informação atual da situação em análise.
Elas se distinguem em ex “post” e ex “ante”, conforme o período previsto se baseie ou
não no conjunto de dados amostrais correntes das variáveis independentes (Figura 21):
57
(a) Período das previsões ex “post”: usado para a avaliação do modelo de
previsão. Essas são previsões ditas incondicionais (valores das variáveis
independentes conhecidos).
(b) Período das previsões ex “ante”: essas previsões podem ser incondicionais ou
condicionais. Seja por exemplo:
Figura 21- Distinção entre previsão ex “post” e ex “ante”
Pode-se definir como sendo a melhor previsão aquela com variância mínima em
seu erro de previsão. Pode-se afirmar que as estimativas de MQO levam às melhores
previsões não tendenciosas com modelos lineares (BLUEs). O erro do procedimento de
previsão está associado aos seguintes pontos:
1. Natureza aleatória do termo aditivo do erro.
2. O processo de estimação envolve erro ao estimar parâmetros que tendem aos
verdadeiros parâmetros, mas diferindo deles.
3. Previsão condicional introduz erros ao calcular valores esperados para as
variáveis independentes ou explanatórias.
4. Erro de especificação do modelo (≠ do modelo real).
O erro de previsão é, aqui, avaliado em três situações: (A) previsão incondicional,
(B) previsão incondicional com erros serialmente correlacionados e (C) previsão
condicional, que traz inerente maior dificuldade.
Períodos de previsão
T1
ex“post” estimação
Período da
Tempo T
ex “ante”
T2 T3 (atual)
S(t) = ao + b1 X(t-3) + b2 Y(t-4) Incondicional até 3 períodos no futuro S(t) = ao t b1 X(t) + b2 Y(t) condicional
58
(A) Previsão Incondicional
Na previsão incondicional os valores assumidos pelas variáveis independentes são
conhecidos no período da previsão. Nesse caso diz-se que os valores são previstos quase
– perfeitamente. Cita-se como exemplo de variáveis explanatórias: mês do ano e
população no mês do ano, em um período de previsão (mensal) total de 1 ano.
Os modelos para previsão incondicional são desejáveis pois removem erros do
processo de previsão, ao serem construídos com base em variáveis explanatórias de
previsão fácil e precisa.
Seja:
Yt = α + β Xt + εt, t = 1, 2, ..., T
εt ~ N (0, σ2), a variável independente XT+1 conhecida.
Pressuposto: α e β conhecidos ∴ Y T+1 = E (YT+1) = α + β XT+1
erro de previsão: êT+1 = Y T+1 – YT+1
Nesse caso, são válidas as seguintes propriedades do erro de previsão:
1. E ( 1Te + ) = E ( 1TY + - 1TY + ) = 0 = E (-εT+1) , ou seja: a previsão de YT+1 é um
valor não-enviesado (isto é: correto na média).
2. A variância do erro de previsão (σp2 )
σp2 = E [( 1Te + )2] = E [( 1Tε + )2] = σ2 ou seja, é a variância de MQO.
Assim: erro de previsão ~ N (0, σ2)
Para a avaliação da significância estatística dos valores previstos deve ser obtido o
erro normalizado: λ = σ
YY 1T1T ++ − , onde λ ~ N (0, 1).
Constrói-se o intervalo de confiança em torno do erro normalizado com 5% de
nível de significância (Figura 22), de forma que:
- λ0,0 5 ≤ σ
YY 1T1T ++ − ≤ λ0,05, onde λ0,05 é o valor de λcrítico que se obtém segundo
a tabela da distribuição normal.
59
Figura 22- A previsão pontual e o intervalo de previsão com bandas de 95 % de confiança para a previsão incondicional
Pode ser feita a avaliação do modelo de previsão após obter-se YT+1 e comparar-se
seu valor com valores previstos para os limites do intervalo de previsão. São possíveis as
situações:
− O valor obtido ∈ intervalo de previsão; com isto, conclui-se que o modelo é
satisfatório.
− Se o valor estiver fora do intervalo, deve ser analisado se trata-se de um
evento extraordinário, ou se o modelo deve ser revisto. Novas observações
devem, neste caso, ser obtidas antes de uma conclusão.
Ao se utilizar os modelos de regressão para a previsão é possível ter:
* Modelos com estatísticas t com valores significativos e bom R2 mas que
podem não explicar mudanças estruturais resultando em previsões pobres.
* Modelos com baixos R2 e algum(s) coeficiente(s) não significativos que
podem fornecer boas previsões pois embora os modelos não sejam muito
explicativos, houve pouca variação em Yt, e a previsão é fácil de ser obtida.
Yt = α + βX σλYYσλY 0,051T1T0,051T +≤≤− +++
* intervalo de previsão
60
No caso de violação do pressuposto: α e β conhecidos, tem-se a situação mais
realista ou seja, supõe-se que α e β são variáveis aleatórias que podem ser estimadas e σ2
desconhecido, podendo ser, também, estimado.
Nesse caso, a previsão de Yt+1 é obtida por procedimento de dois estágios,
apresentado a seguir, sendo que o valor previsto é BLUE. (Johnston, J., “Econometric
Methods”, pp. 38-40, 1972).
O procedimento de 2 estágios:
1. Yt = α + βXt + εt
Com a aplicação dos Mínimos Quadrados Ordinários obtém-se α , β , 2σ .
2. 1TY + = E ( 1TY + ) = α + β XT+1
O erro de previsão é 1Te + = 1TY + - 1TY + = ( α - α) + ( β - β) XT+1 - εT+1
As origens de erro em 1Te + são:
1) Presença de um termo εT+1 aditivo, devido à variância de Y.
2) Natureza aleatória dos coeficientes estimados, sensível aos graus de
liberdade do processo de estimação.
O erro de previsão, combinação linear de variáveis normalmente distribuídas α ,
β e εT+1, também é considerado normalmente distribuído. O valor esperado do erro de
previsão é:
E ( 1Te + ) = E ( α - α) + E [( β - β)XT+1] + E (-εT+1) = E ( α - α) + XT+1 E ( β - β) =
0, pois XT+1 é considerado conhecido e E(εT+1) = 0.
A variância de 1Te + (σp2) pode ser obtida:
σp2 = E [( 1Te + )2] = E [( α - α)2] + E [( β - β)2] . X2
T+1 +
+ E [(εT+1)2] + E [( α - α) ( β - β)] 2XT+1
Observe-se que α , β dependem de ε1, ... , εt mas são independentes de εT+1.
Assim,
σp2 = Var( α ) + 2Xt+1 COV ( α , β ) + X2
T+1 Var( β ) + σ2 ,
sendo:
61
Var( α ) = 2t
2t
2
)X(XTXσ−∑
∑ , Var( β ) = 2
t
2
)X(Xσ−∑
,
Cov( α , β ) = 2t
2
)X(XσX-−∑
e X ≡ média amostral .
∴ σp2 = σ2 ⎥
⎦
⎤⎢⎣
⎡−∑
+−++ ++
2t
1T2
1T2
)X(XXXX2X
T11
ou
σp2 = σ2 ⎥
⎦
⎤⎢⎣
⎡−∑
++ +2
t
21T
)X(X)X-(X
T11
Ou seja, o erro de previsão é sensível a (a), (b) e (c). Dessa forma, (XT+1 - X )
permite ter uma medida da variação que pode-se assumir para o período de previsão. Em
pacotes estatísticos, são gerados valores para a variável hzz , definida para o modelo a 2
variáveis por hzz = ∑ −
−+
t
22t
2
XTX)X(X
T1 z sendo σp
2 = σ2 (1 + hzz), onde z é o período da
previsão.
Para construir o intervalo de confiança em torno dos valores previstos, obtém-se o
valor do erro normalizado λ tal que, se σ for conhecido, λ = p
1t1t
σYY ++ −
~ N (0,1), e se σ2
não é conhecido, utiliza-se S2 ≡ estimativa amostral de σ2 , sendo:
S2 = 2tt )Y(Y
2T1
−∑−
Assim, conhecida Sp2 = S2 ⎥
⎦
⎤⎢⎣
⎡−∑−
++ +2
t
21t
)X(X)X(X
T11 e o valor do erro normalizado λ:
p
1T1T
SYY ++ − , que segue a distribuição da estatística t, com (T-2) graus de liberdade:
“distância” entre Xt+1 e X
Variância na amostra de dados de X
Tamanho da amostra (estimação)
(a)
(b)
(c)
62
p0.051T1Tp0.051T StYYStY +≤≤− +++ é o intervalo de previsão com 95% de
confiança de conter o verdadeiro valor a ser observado da variável independente (Figura
23). Como foi visto, ele varia com o tamanho da amostra, a variância na amostra da
variável independente e com a diferença entre o valor da média amostral da variável
independente e o seu valor no período da previsão.
Figura 23 – Intervalo de previsão com bandas de confiança quando α , β e σ2 são variáveis
aleatórias
Exemplo-
Previsão de padrão médio (Yi) x rendas familiares (Xi)
N = 8, linha de regressão estimada: iY = 1,375 + 0,120 Xi
S2 = 0,111
X = 13,5 ∑ (Xi - X )2 = 162
XN+1 Y N+1 Sf2
Y N+1 – 1,96 Sf Y N+1 + 1,96 Sf
6,5 2,155 0,158 1,375 2,935
10,0 2,575 0,133 1,860 3,415
X 13,5 2,995 0,125 2,303 3,687
17,0 3,315 0,133 2,600 4,030
20,5 3,835 0,158 3,055 4,615
24,00 4,155 0,259 3,677 5,673
menor Sp2
bem fora dos valores observados
63
(B) A Previsão incondicional com erros serialmente correlacionados
É preciso atenção pois o erro da previsão em séries com erros serialmente
correlacionados será menor do que quando a autocorrelação não for levada em conta.
Seja:
Yt = α + β Xt + εt , onde os erros são serialmente correlacionados segundo:
εt = ρ εt-1 + vt
vt ~ N (0, σv2), E (vt vt-1) = 0
|ρ| < 1
Tome-se como pressuposto: α, β e ρ conhecidos a priori
1T1T1T εXβαY +++ ++=
Uma vez que εT+1 = ρ εT + vT , pode-se escrever T1T ερε =+ , logo:
T1T1T ερXβαY ++= ++ .
Observe-se que, quanto mais para o futuro T+s, a informação sobre a correlação
dos erros se torna pouco expressiva:
t2
1t2t ερερε == ++ . .
0ρs,ερε st
sSt →⇒∞→=+
A expressão T1T1T ερXβαY ++= ++ também pode ser derivada do modelo na
forma de diferenças generalizadas em (1) a seguir. Esse é um resultado interessante, pois a
correlação serial é comumente corrigida introduzindo essa modificação nas variáveis do
modelo.
Yt* = α (1 - ρ) + β Xt
* + vt
onde:
Yt* = Yt - ρ Yt-1
Xt* = Xt - ρ Xt-1
(1)
64
Nessa forma, a previsão para o período T+1 pode ser obtida pela equação (2):
*1TY + = α (1 - ρ) + β *
1TX + (2)
onde:
Y *T+1 = Y T+1 - ρ YT (3)
*1TX + = XT+1 - ρ XT (4)
Assim, substituindo-se (2) em (3) pode-se escrever:
Y T+1 = *1TY + + ρ YT = α (1 - ρ) + β X*
T+1 + ρ YT
Sabendo de (4) que *1TX + = XT+1 - ρ XT ,
Y T+1 = α (1 - ρ) + β (XT+1 - ρ XT) + ρYT =
= α (1 - ρ) + β XT+1 + ρ (YT - β XT),
devendo ser lembrado que YT = α + β XT + εt ∴YT - β XT = α + εT ,
logo:
Y T+1 = α (1 - ρ) + β XT+1 + ρ (α + εT) = α + β XT+1 + ρ εT
Além disso:
* e T+1 = Y T+1 – YT+1 = ρ εT - εT+1 = - vT+1 ∴ E ( e T+1) = 0
* σp2 = E [(ρ εT - εT+1)2] =
= ρ2 E (εT2) + E ( 2
1Tε + ) – 2 ρ E (εT εT+1) =
= ρ2 E (εT2) + E (ε2
T+1) – 2 ρ2 E (εT2) =
= ρ2 σ2 + σ2 – 2 ρ2 σ2 = σ2 - ρ2 σ2 = (1 - ρ2) σ2,
onde (1 - ρ2) é o fator de redução no erro de previsão (em relação à situação com ausência
de autocorrelação). Observe-se que (1 - ρ2) σ2 = 2vσ .
Na prática, há violação do pressuposto, pois α, β e ρ não são conhecidos, embora
possam ser estimados (veja: Goldberger, A.S. (1962), “Best Linear Unbiased Prediction in
the Linear Regression Model”, Journal of the American Statistical Association, vol. 57, pp.
369-375).
εT+1 = ρ εT + vT+1
65
Nessa situação, o valor previsto 1TY + pode ser calculado por:
)Xρ(Xβ)ρ(1αYρY T1TT1T −+−+= ++ ou seja, na forma das diferenças
generalizadas. Pode ser provado que E ( e T+1) → 0 quando T → ∞. Na prática assume-se
ρρ = (isto é, que foi estimado com exatidão), para se obter a variância do erro de previsão
(na realidade há correlação entre parâmetros estimados e os resíduos).
A variância do erro de previsão é obtida por:
Sp2 = S2 ⎥
⎦
⎤⎢⎣
⎡−∑−
++ +2**
t
2**1T
)X(X)X(X
T11 , onde o termo do erro é vt ao invés de εt, fazendo
com que se obtenha S2 = Sv2 , pois Sp
2 é obtida a partir do modelo de diferenças
generalizadas (baseado em Pindyck e Rubinfeld (1976), “Economic Models and Economic
Forecasts”, pp. 172).
(C) A Previsão Condicional
Neste caso é reconhecida a natureza estocástica dos Xi`s. Os intervalos de
previsão crescem quando os valores assumidos para as variáveis independentes Xi forem
também previstos. É difícil derivar resultados para o erro de previsão no caso geral. Para
o modelo a duas variáveis, supõe-se:
Yt = α + β Xt + εt , t = 1, 2, ..., T
X T+1 = XT+1 + uT+1
εt ~ N (0, σ2), ut ~ N (0, σu2), εt e ut não correlacionados
E [( X t+1 – Xt+1) ( β - β)] = E [( X t+1 – Xt+1) ( α - α)] = 0
onde α , β são as estimativas de MQO.
Nesse caso, pode-se concluir que:
1T1T XβαY ++ += , sendo a variância do erro de previsão:
σp2 = σ2 2
u2
2t
2u
21T σβ
)X(Xσ)X(X
T11 +
⎥⎥⎦
⎤
⎢⎢⎣
⎡
−∑+−
++ +
1TY + não é normalmente distribuído, envolvendo a soma de produtos de variáveis
normalmente distribuídas.
66
Assim, uma estimativa robusta para o intervalo de previsão pode ser obtida por:
1. Calcula-se os intervalos de previsão que são obtidos a partir dos intervalos
de confiança associados à variável dependente, considerando a variável
independente 1TX + conhecida dois desvios padrão acima ( 1T*X + ) e dois
desvios padrão abaixo ( 1T**X + ) do seu valor no período da previsão (T+1)
ou seja, os intervalos de confiança associados a:
)σ2X(βαY u1T*
1T ++= ++ e )σ2X(βαY u1T**
1T −+= ++ , sendo
σp2 ≈ σ2 ⎥
⎦
⎤⎢⎣
⎡−∑−
++ +
2t
21T
*
X)(X)X(X
T11 , com cálculo similar para 1T
**X + .
2. O intervalo final da previsão é a união dos dois intervalos, isto é, contém
todos os valores de 1TY + comuns a ambos os intervalos (Figura 24).
Figura 24- Aproximação do intervalo de previsão com base em bandas de
confiança de 95% de confiança, assumindo Xt conhecido