Upload
afonso-vilas-novas
View
94
Download
3
Embed Size (px)
Citation preview
Econometria – Prof. Adriano M. R. Figueiredo
1
UNIVERSIDADE FEDERAL DE MATO GROSSO FACULDADE DE ECONOMIA
Econometria Básica Prof. Adriano Marcos Rodrigues Figueiredo
Versão de 21/03/20121
http://br.groups.yahoo.com/group/econometria_ufmt/
CUIABÁ – MT
2012
1 Os direitos de reprodução pertencem ao autor e requer citação apropriada.
Econometria – Prof. Adriano M. R. Figueiredo
2
Not everything that can be counted
counts, and not everything that
counts can be counted.
Albert Einstein, (atribuído)
Cientista, Físico Alemão (1879 -
1955)
Econometria – Prof. Adriano M. R. Figueiredo
3
SUMÁRIO
1. Introdução.......................................................................................................................... 4 2. Pressuposições do Modelo de Regressão Linear Clássico .............................................. 12
2.1. Pressuposição 1: a relação entre Y e X é linear ........................................................ 12 2.2. Pressuposição 2: O erro aleatório tem média zero ................................................... 15
2.3. Pressuposição 3: O erro aleatório tem variância constante (presença de
homocedasticidade) ............................................................................................................. 18 2.4. Pressuposição 4: Os erros aleatórios são independentes (ou não
autocorrelacionados) ............................................................................................................ 18 2.5. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas) ............... 21 2.6. Pressuposição 6: O erro tem distribuição normal, com média zero e variância
constante: ............................................................................................................................. 22
2.7. Pressuposição 7: Ausência de relação linear exata entre as variáveis
explicativas (não multicolinearidade) .................................................................................. 22 2.8. Resumo das pressuposições ...................................................................................... 24
3 Estimação ........................................................................................................................ 26
Anexo 1: Estimação utilizando matrizes no Excel: ............................................................. 31 Anexo 2: Exercícios: ............................................................................................................ 33
4 Violações nas Pressuposições Clássicas do Modelo de Regressão Linear ..................... 36
4.1. Pressuposição 1: A relação entre Y e X é linear....................................................... 36
4.2. Pressuposição 2: O erro aleatório tem média zero ................................................... 43 4.3. Pressuposição 3: O erro aleatório tem variância constante (presença de
homocedasticidade) ............................................................................................................. 49
4.4. Pressuposição 4: Os erros aleatórios são independentes (ou não
autocorrelacionados) ............................................................................................................ 64
4.5. Pressuposição 6: O erro tem distribuição normal, com média zero e variância
constante: ............................................................................................................................. 74 4.6. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas) ............... 78
4.7. Pressuposição 7: Ausência de relação linear exata entre as variáveis
explicativas (não multicolinearidade) .................................................................................. 78
4.8. Resumo ..................................................................................................................... 82 5 Referências Bibliográficas .............................................................................................. 83
7. Programas Recomendados .............................................................................................. 83
Econometria – Prof. Adriano M. R. Figueiredo
4
1. Introdução
A Econometria é um ramo da ciência econômica que trata da quantificação das
relações econômicas. Combina a teoria econômica, a matemática e a estatística para a análise
de problemas econômicos como a oferta e demanda de moeda, oferta e demanda de produtos,
a função investimento, o emprego e a renda entre outros.
O objetivo básico da econometria é Analisar conjuntos de dados econômicos de modo
a poder verificar e dar sustentação às teorias econômicas. Da teoria econômica elaboram-se
hipóteses, traduzidas em linguagem pelas ferramentas da matemática [ex.: uma função
y=f(x1, x2, x3,..., xn)] e faz-se a inferência ou dedução pelo raciocínio, tirando por conclusão
com técnicas da estatística.
Tem como instrumento fundamental a análise de regressão, que consiste na obtenção
dos parâmetros para uma dada relação existente entre as variáveis dependentes e
independentes. Muitas vezes trabalha-se com uma amostra de dados obtidos de uma
população. Assim, têm-se alguns conceitos importantes aqui detalhados.
A população, ou também chamada de universo, é o conjunto de indivíduos com
características comuns para um determinado fenômeno. O fenômeno é definido pela variável,
no presente caso, um fenômeno econômico definido por uma ou mais variáveis econômicas.
Estas variáveis são as características medidas, podendo ser quantitativas como a produção e a
renda, ou qualitativas como o gênero e a religião.
A amostra é um subconjunto da população, uma parte do todo. Normalmente se utiliza
a amostra quando existe algum empecilho (financeiro, prático ou outro) para o uso da
população. Neste caso, espera-se que a amostra tenha características tais que representem
adequadamente o todo, e de preferência que seja ao acaso. Para tanto, utilizam-se técnicas
estatísticas para garantir maior representatividade da amostra. Muitas vezes a amostra é
estratificada ou separada em estratos, de acordo com a necessidade de se detalhar os
diferentes grupos.
Econometria – Prof. Adriano M. R. Figueiredo
5
As variáveis podem ser chamadas de aleatórias quando seus valores estiverem
relacionados com uma probabilidade de ocorrência. A probabilidade é a relação entre os casos
favoráveis entre todos os possíveis. Serão variáveis discretas quando não houver
probabilidade de ocorrência.
Uma técnica para analisar a relação entre variáveis econômicas é por meio da
regressão. Na regressão linear simples (RLS), estima-se a relação existente entre apenas duas
(2) variáveis: uma dependente (ou também chamada de endógena ou explicada), Y; e uma
independente (ou também chamada de exógena ou explicativa ou explicadora), X. Com o uso
da matemática, a relação se expressa como uma função f qualquer: Y = f (X).
No caso mais geral, com mais de duas variáveis, tem-se a regressão linear múltipla
(RLM), estimando-se a relação Y = f (X1, X2, ..., Xn). Neste caso, portanto, tem-se n variáveis
explicativas X para uma variável explicada Y, sendo que existem situações em que se pode ter
mais de uma variável explicada assim como mais de uma equação dentro do modelo analítico
em estudo.
Para melhor compreensão da econometria, convém explicar a estrutura do método de
análise empírica.
Econometria – Prof. Adriano M. R. Figueiredo
6
A estrutura da análise empírica do método é composta inicialmente por um problema –
uma questão a ser investigada. Com base na teoria econômica referendada em artigos, livros e
observação, elaboram-se hipóteses teóricas (que poderão ou não ser aceitas) compondo o
modelo teórico.
A validação e verificação do modelo e confirmação ou não das hipóteses requer o uso
de dados e técnicas estatísticas e matemáticas as quais compõem o que aqui chamamos de
estimação do modelo, além de critérios econômicos e estatísticos. A validação do modelo
também pode ser realizada com economia política e uso de argumentos não quantitativos,
normalmente associados aos enfoques da sociologia, do direito, das ciências políticas as quais
se relacionarão com a econometria na fase de análise e interpretação dos resultados. Assim, na
análise dos resultados pode-se ter um detalhamento da consistência do modelo teórico
adotado, refutação ou indicação de modelos teóricos, e principalmente a sugestão de políticas
econômicas para tratar o fenômeno econômico estudado.
Portanto, o método implica na origem numa teoria e numa linguagem teórica
econômica, passando por uma tradução desta para a linguagem matemática, muitas vezes com
o uso de estatística descritiva e emprego de tabelas, gráficos, cartogramas ou outros objetos
que melhoram a visualização dos resultados. É importante frisar que a base teórica deve ser a
Econometria – Prof. Adriano M. R. Figueiredo
7
origem da investigação do problema. Os dados serão associados às variáveis detectadas nesta
teoria. Ao passar para a linguagem matemática, compõe-se o que chamamos de modelo
analítico ou modelo operacional ou ainda modelo econométrico.
O modelo econométrico será uma representação simplificada de um processo real, ou
ainda, o conjunto de equações comportamentais derivadas do modelo econômico,
(VASCONCELOS, 2000: p.14)2. É a operacionalização do modelo em linguagem
matemática.
O modelo a ser estimado normalmente possui componente aleatório, requerendo a
inclusão de um erro que captará os efeitos das variáveis importantes para explicar Y, mas que
não estão no modelo. Representa-se então, o efeito das demais variáveis explicativas por um
termo aditivo ui, denominado resíduo ou erro. O modelo torna-se:
cuja expressão geral matricial é
Y = Xβ + ε
em que é uma matriz de parâmetros a serem estimados (incluindo o intercepto e os
coeficientes angulares) e ε é um vetor de resíduos ou erros aleatórios. Os parâmetros são
constantes às quais cabem papéis particulares em termos de efeitos de uma variável sobre
outra.
O formato matricial linear aberto será:
1 11 1 0 1
2 21 2 1 2
1
1
1
1
k
k
n n nk k n
Y X X
Y X X
Y X X
Portanto, têm-se as matrizes assim nomeadas:
1 11 1 0 1
2 21 2 1 2
1 x 1 x 1 1 x 1 x 1
1
1
1
k
k
n n nk k nn n ( k ) ( k ) n
Y X X
Y X XY ; X ; ;
Y X X
Neste cenário, tem-se uma relação entre variáveis X e a Y, podendo-se ilustrar
graficamente como uma dispersão de pontos em dois eixos. A dispersão dos pontos em torno
de uma reta de tendência é o resultado de um grande número de pequenas causas, cada uma
delas produzindo um desvio positivo (+) ou negativo (–). O desvio será a diferença entre o
2 VASCONCELLOS, M.A.S.; ALVES, D. (coords.). Manual de econometria. São Paulo: Atlas, 2000.
Econometria – Prof. Adriano M. R. Figueiredo
8
valor observado e o valor estimado da variável dependente do modelo. Portanto, tem-se ui
devido a:
omissão de variáveis
problemas de especificação
erros de medida da variável dependente
Pode-se dizer que Y nunca pode ser previsto exatamente. Portanto, para cada valor de
X, existe uma distribuição de probabilidade dos valores de Y, com média E(Yi) = Y = X e
variância constante 2.
O objetivo da análise de regressão é estimar uma curva através da nuvem de pontos,
relacionando uma variável dependente como função de outras variáveis ditas independentes,
sendo que a forma funcional deve ser pressuposta pelo pesquisador. Neste caso, a teoria a
respeito da relação estudada, a análise da dispersão dos pontos e os estudos anteriores acerca
desta relação ajudarão nesta definição.
Por exemplo, pode-se observar a relação entre o PIB dos municípios de Mato Grosso e
sua componente da agropecuária para o ano de 2005. A mera descrição gráfica destes valores
indica uma dispersão mais concentrada entre os valores de PIB inferiores a R$1.000.000 e de
agropecuária inferior a R$100.000, mesmo havendo valores atípicos maiores que os
mencionados, mas para poucos municípios. A mesma observação poderia ser conduzida com
cartogramas, ou com tabelas, mas que talvez não permitissem ao leitor a mesma impressão
que o gráfico de dispersão.
0
1,000,000
2,000,000
3,000,000
4,000,000
5,000,000
6,000,000
7,000,000
0 100,000 300,000 500,000 700,000
AGRO05
PIB
05
Econometria – Prof. Adriano M. R. Figueiredo
9
Uma inspeção visual nos dados, como nos gráficos ou com uso de medidas estatísticas
descritivas como média, mediana, moda, máximos e mínimos, é importante para o
investigador ter maior conhecimento do comportamento das variáveis, o que permitirá melhor
especificação do modelo analítico. A ocorrência de valores atípicos é uma preocupação que o
investigador deve tentar “tratar” adequadamente e melhorando as estimações.
As variáveis como mencionadas anteriormente, podem ser quantitativas ou
qualitativas. Os dados a ela associados, portanto, poderão ter diferentes características,
diferenciando-se entre séries temporais, de seção cruzada, ou combinação entre estes dois
tipos.
Podem-se ter dados de uma variável acompanhada no tempo, ou seja, o que se chama
de série temporal como no gráfico do índice do PIB brasileiro no período de 1994 a 2003,
com dados trimestrais. Por exemplo, o preço de uma ação ou a renda de um indivíduo pode
ser acompanhada semanalmente, ou mensalmente ou anualmente, e neste caso procura-se
avaliar as alterações desta no tempo, ou a dinâmica da série. Neste caso, não se trata de uma
amostra aleatória, embora o pesquisador deva ter argumentos para a escolha do período
analisado.
As investigações das relações entre séries temporais têm ocupado vasto espaço na
literatura econométrica recente, preocupando-se principalmente com a possibilidade de
relações espúrias, quando a relação decorre do comportamento temporal (tendência e
sazonalidade) e não precisamente do efeito entre as variáveis, dando origem aos modelos
autoregressivos, médias móveis e outros a serem desenvolvidos mais a frente.
Figura. Valor do índice do PIB trimestral brasileiro de 1994 a 2003.
96
100
104
108
112
116
120
124
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
PIB
Econometria – Prof. Adriano M. R. Figueiredo
10
Alguns dados podem estar relacionados ao mesmo período de tempo, para diferentes
indivíduos, empresas, regiões. Neste caso, dá-se o nome de séries de secção cruzada. Quando
se tratam de indivíduos ou empresas e são amostras, chamamos de amostra aleatória. Cada
observação é um novo indivíduo, firma ou município com informação em um ponto no
tempo. São típicos os casos de dados municipais, como o PIB dos municípios de Mato Grosso
para um dado ano. Nestes dados, em geral se preocupa com a variabilidade entre as unidades
da série, ou seja, entre os municípios. Os dados neste caso ficam mais bem expressos em
cartogramas, ou em gráficos de barras ou colunas, pois não é possível “unir pontos” como
num gráfico no tempo.
Figura. Valor do PIB dos municípios de Mato Grosso em 2005.
Mapa. Arrecadação de ICMS de combustíveis em Mato Grosso em 2008.
0
1,000,000
2,000,000
3,000,000
4,000,000
5,000,000
6,000,000
7,000,000
25 50 75 100 125
PIB05
Econometria – Prof. Adriano M. R. Figueiredo
11
Os dados podem ainda relacionar os dois tipos anteriores, ou seja, dados de diferentes
unidades ou indivíduos acompanhados para diferentes períodos de tempo, originando o que se
chama de combinação de séries temporais e seção cruzada (STSC), ou dados longitudinais.
Como exemplo, pode-se ter uma amostra de consumidores de Mato Grosso como no caso da
Pesquisa Nacional de Amostragem por Domicílio (PNAD) conduzida pelo IBGE, cujos
detalhes do consumo são investigados anualmente. Neste caso, a preocupação é tanto na
variabilidade entre indivíduos como na dinâmica ou no comportamento temporal de cada
individuo. No caso de se ter os mesmos indivíduos nos mesmos períodos de tempo, tem-se a
especificidade de uma combinação STSC chamada “painel”.
A forma de relacionar as variáveis no modelo econométrico observará aspectos
matemáticos e estatísticos, sempre com base na teoria. As previsões a serem obtidas devem
ser olhadas com cautela, pois o uso de funções matemáticas ou escolhas de variáveis
inadequadas poderá resultar em má especificação do modelo e outros problemas estatísticos
que invalidarão as estimativas. Por este motivo, é fundamental ter uma boa revisão de
literatura investigando o que outros pesquisadores realizaram, de que modo trabalharam, e
quais os principais resultados, tudo isto previamente ao desenvolvimento do modelo
econométrico. Este modelo ainda estará sujeito a verificações estatísticas de pressupostos
importantes, detalhados a seguir.
Econometria – Prof. Adriano M. R. Figueiredo
12
2. Pressuposições do Modelo de Regressão Linear Clássico
O modelo clássico de análise de regressão é construído com base numa série de
pressuposições referentes ao comportamento da população. Conhecidas essas pressuposições,
será possível estimar os parâmetros do modelo, assim como a matriz de variância e
covariância dos mesmos e a respectiva matriz para os resíduos.
A seguir faz-se a descrição rápida das pressuposições do modelo clássico de regressão.
2.1. Pressuposição 1: a relação entre Y e X é linear
Forma funcional
Esta pressuposição em princípio implica na consideração de uma reta estimada, ou seja,
uma função linear nas variáveis do tipo
0 1 1 2 2i i i k ki iY X X X
ou pela forma matricial:
Y = X + ε
em que Y é o vetor de variáveis explicadas, X é uma matriz de variáveis explicativas
(incluindo uma coluna de uns para o intercepto) e ε é um vetor de resíduos aleatórios.
Entretanto, deve-se atentar para outros tipos de linearidades implícitas na
pressuposição. Têm-se os seguintes tipos de linearidades: linearidade das variáveis
explicativas (X) e linearidade dos parâmetros (). A não linearidade nas variáveis às vezes
pode ser contornada por transformações nas variáveis, mas a não linearidade dos parâmetros é
mais complicada e requer outros métodos de estimação não lineares.
É fácil imaginar que o comportamento de um fenômeno econômico não segue a
relação retilínea, como por exemplo, as tradicionais relações de oferta e demanda não
necessariamente serão retas que se cruzam. É muito mais fácil admitir que o comportamento
de variáveis econômicas seja curvilíneo. Na figura dos retornos das ações das Lojas
Americanas em função de uma variável Z qualquer, observa-se que as possibilidades de
ajustamentos em reta ou em parábola apresentam diferentes resultados em termos de melhor
representar a nuvem de pontos.
Quando as variáveis explicativas são elevadas a alguma potência diferente de um, a
função que relaciona o comportamento dessas variáveis com a variável explicada será
Econometria – Prof. Adriano M. R. Figueiredo
13
diferente de uma reta e os estimadores tradicionais de Mínimos Quadrados Ordinários (MQO)
não mais serão válidos.
Existem modelos que são chamados de “intrinsecamente lineares”, ou que podem se
tornar lineares por transformação das variáveis. O caso mais comum na literatura econômica é
o de funções do tipo Cobb-Douglas, ou seja,
eXXAXY 3
3
2
2
1
1
em que os parâmetros podem assumir valores diferentes de um e, ainda, tem-se a
multiplicação de variáveis explicativas. A função acima pode ser linearizada transformando-
se as variáveis em logaritmos, obtendo:
ou, simbolizando o ln por *:
*
33
*
22
*
110
* XXXY
A função linearizada pode ser estimada da forma tradicional lembrando que os
parâmetros estimados serão agora da função transformada, que no caso log-log (Cobb-
Douglas), equivalem às elasticidades. A função transformada pode ser vista como linear nos
y = 0.0018x + 0.0048
y = 0.2541x2 - 0.0188x + 0.0016
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
RLAME x Z
Z Linear (Z) Polinômio (Z)
Econometria – Prof. Adriano M. R. Figueiredo
14
parâmetros (os parâmetros β são todos em primeira potência) e nas variáveis transformadas
(X*=lnX).
Outros modelos não podem ser transformados e são os chamados intrinsecamente não
lineares. Por exemplo, é possível perceber que a função abaixo não pode ser linearizada:
eeeAY 2513 X
4
X
21
Esses modelos devem ser estimados por Mínimos Quadrados não lineares ou Máxima
Verossimilhança não linear. Algumas formas funcionais utilizadas em economia da produção
podem ser:
Cobb-Douglas logaritmizada:
n
1iii0 xlogaaylog
Elasticidade Constante de Substituição ou CES:
n
1iii0 xaay
Generalizada Leontief:
n
1i
n
1jjiij
n
1iii0 xxaxaay
Transcendental Logaritmica ou Translog:
n
1i
n
1jjiij
n
1iii0 xlogxlogaxlogaaylog
Quadrática:
n
1i
n
1jjiij
n
1iii0 xxaxaay
A utilização de uma forma mais complexa em detrimento de uma mais simples
dependerá da disposição dos dados e do rigor científico desejado. A função Cobb-Douglas de
modo geral oferece um ajustamento satisfatório e é fácil de executar. As funções elasticidade
de substituição constante (CES), Generalizada Leontief, Transcendental Logarítmica e
Quadrática são generalizações da função Cobb-Douglas para contornar pressuposições
econômicas de substitutibilidade dos fatores e produtos ou ainda de concorrência perfeita,
entre outras situações.
Juntamente ao problema da forma funcional (linearidade dos parâmetros e variáveis),
quando se especifica um modelo, automaticamente estão sendo cometidos outros dois tipos de
erros que poderão ou não comprometer a análise. Um está associado à “omissão de uma
variável relevante” e outro associado à “inclusão de variável irrelevante”.
Omissão de variável relevante
Imagine que a revisão de literatura, revisão teórica, indique que a quantidade
demandada (Q) de um produto seja função do preço do produto (P) e da renda (R), e que o
Econometria – Prof. Adriano M. R. Figueiredo
15
comportamento da demanda do produto analisado na realidade está em conformidade com a
teoria. O modelo “correto” seria:
(A) Qt = β0 + β1.Pt + β2.Rt + εt*
em que os β são parâmetros estimados e ε é o resíduo aleatório.
Imagine agora que, por algum motivo, estimou-se a demanda em função apenas do
preço do produto, fazendo:
(B) Qt = α 0 + α 1.Pt + εt.
em que α são parâmetros e as demais variáveis como anteriormente citadas.
A questão é: quais as consequências sobre os estimadores de MQO (ou sobre os β
estimados)? Qual o efeito sobre α 0 e α 1 em razão da exclusão de R do modelo?
Se Pt for altamente correlacionado com Rt, a retirada de Rt trará um alto viés (alta
tendenciosidade) e os parâmetros estimados serão muito diferentes do valor esperado:
βestimado ≠ E(β)
ou seja, os parâmetros estimados serão inconsistentes e no limite E(β) ≠ β.
Os testes de hipóteses não serão válidos e as estimativas de variâncias também serão
tendenciosas.
Inclusão de variável irrelevante
Imagine agora a situação inversa: o modelo estimado contempla mais variáveis
explicativas do que as que deveriam estar no modelo “correto”. Imagine que o modelo deveria
ter apenas P e que foi estimado com P e Z, sendo Z uma variável irrelevante no modelo.
(A) Qt = β0 + β1.Pt + εt. modelo correto
(B) Qt = α 0 + α 1.Pt + α 2.Zt + εt* modelo estimado
e que Z não tem relevância teórica.
A questão é: quais as consequências de α, em razão da inclusão de Zt, sobre β?
As consequências da inclusão de uma variável irrelevante serão menos problemáticas
que no caso da omissão de uma variável relevante. Primeiro, a presença das variáveis
“irrelevantes” não viesa as outras estimativas. Segundo, aumentam-se a variância dos
parâmetros e o desvio-padrão. Tende, portanto, a fazer com que “α” seja não significativo,
mas aumenta o coeficiente R2.
2.2. Pressuposição 2: O erro aleatório tem média zero
Econometria – Prof. Adriano M. R. Figueiredo
16
Significa que o erro tem uma distribuição de probabilidade centralizada em zero (com
média zero). O erro é o efeito das variáveis que não consigo explicar no modelo. A média
pode ser considerada como o valor esperado do erro, ou seja,
Ou na forma matricial,
Dado que
Portanto, E(Y) = Xβ e o modelo fornece soluções adequadas estatisticamente. Essa
pressuposição é importante para ter confiança na estimação por β = (X´X)-1
X´Y. Caso os
erros não tenham média zero, o estimador β = (X´X)-1
X´Y será tendencioso.
Observe na figura que traz as taxas de retorno observadas e estimadas para a ação das
Lojas Americanas S.A., verifique que existem momentos em que os pontos vermelhos (com
marcador quadrado) estão acima que os verdes (com marcador de x) e em outros momentos
estão abaixo. O gráfico dos resíduos obtidos fazendo resíduo igual a diferença entre o
observado e o estimado, tem-se valores positivos e negativos. A pressuposição prevê que
estes, na média, sejam nulos. Ainda, no gráfico de dispersão de RLAME x RREN, pode-se
observar que existem resíduos ui positivos e negativos e que a reta de regressão estimada
como a reta de tendência passa aproximadamente no meio da nuvem de pontos.
Econometria – Prof. Adriano M. R. Figueiredo
17
-.3
-.2
-.1
.0
.1
.2
.3
-.4
-.2
.0
.2
.4
2005 2006 2007 2008 2009 2010 2011
Residual = observado menos estimadoActual - observado
Fitted - estimado
Resultados de RLAME = f(RREN, RBVSP) e resíduos
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
RLAME x RREN
RREN Linear (RREN)
ui>0
ui<0
Econometria – Prof. Adriano M. R. Figueiredo
18
2.3. Pressuposição 3: O erro aleatório tem variância constante (presença de homocedasticidade)
A variância é calculada com base no valor esperado do quadrado da diferença entre a
média e o valor esperado da média. Ou seja, a definição estatística é
V(ei) = E [ei – E (ei)]2
V(ei) = E (ei2) =
2 (populacional) para todo i
ou seja, presença de Homocedasticidade nos resíduos. A presença da homocedasticidade
implica que a variância para todos os resíduos é a mesma.
O caso contrário será:
V(ei) = E (ei2) = i
2 presença de Heterocedasticidade
O problema de heterocedasticidade é típico de dados de seção cruzada. Pode
significar, por exemplo, uma heterogeneidade da amostra. A dispersão dos valores para cada
observação é diferente entre as observações. A amostra vem de uma população onde os erros
não são homogêneos. Na figura 3.2 de Pindyck e Rubinfeld (2004), observa-se que a nuvem
de pontos não tem uma dispersão constante em torno da reta estimada, o que caracteriza a
variabilidade distinta ao longo da amostra de X. A variância dos resíduos reduz com X no
caso (a) e aumenta no caso (b), caracterizando a presença de heterocedasticidade.
2.4. Pressuposição 4: Os erros aleatórios são independentes (ou não autocorrelacionados)
Neste caso pressupõe-se que os erros de uma observação não afetam os erros do
período seguinte, e assim sucessivamente.
Econometria – Prof. Adriano M. R. Figueiredo
19
COV(ei ,ej) = E { [ei – E(ei)] [ej – E(ej)] }
E (ei, ej) = 0, i j
esta pressuposição é denominada “ausência de autocorrelação”. A violação desta
pressuposição é um problema típico de séries temporais.
Quando se trabalha com ajustamentos de séries temporais, essa pressuposição em geral
não é obedecida, visto que nas séries temporais como, por exemplo, as séries de preços, de
salários e de produção têm no seu comportamento o reflexo de movimentos cíclicos e/ou
sazonais. Observa-se na figura 3.3. de Pindyck e Rubinfeld (2004) que existem relações entre
os resíduos das observações à medida que X aumenta – correlação negativa (caso a) e positiva
(caso b).
Algumas causas da autocorrelação nos resíduos estão relacionadas a variáveis não
especificadas no modelo, forma funcional inadequada e inércia temporal no fenômeno.
A principal consequência da violação desta pressuposição é a ineficiência dos
estimadores de MQO, mas continuam não tendenciosos. Nesta situação, da mesma forma que
para a heterocedasticidade, é melhor utilizar o método de Mínimos Quadrados Generalizados
(MQG).
Uma forma usual é olhar os gráficos de dispersão entre os resíduos da regressão.
Padrões geométricos podem indicar o tipo de correlação, como na Figura de Gujarati (2006).
Econometria – Prof. Adriano M. R. Figueiredo
20
2.4.1 Investigação acerca da Matriz de Variância e Covariância dos resíduos
A análise da Matriz de Variância e Covariância dos resíduos, doravante chamada de
Var-cov(εε´), permite interpretar as pressuposições de presença de homocedasticidade dos
resíduos e presença da não autocorrelação dos resíduos numa mesma matriz.
Seja o vetor de resíduos ε do tipo:
1
2
x 1n n
Então, sua transposta será: 1 2 1 x n n' . Assim, a matriz var-cov(εε´) será:
Econometria – Prof. Adriano M. R. Figueiredo
21
1
2
2
1 2 1
2
2 1 2
2
1 2
2
2
2
2
0 0
0 0
0 0
n
n
n
n n
Var Cov E E
E I E
Assim, ao escrever que var-cov(εε´) = 2.I, ao mesmo tempo se diz que as variâncias são
homocedásticas iguais a 2 (diagonal principal tem todos os valores iguais a
2, i=j) e que as
autocorrelações entre resíduos de observações distintas são nulas (valores nulos fora da
diagonal principal, i≠j).
2.5. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas)
Neste caso, pressupõem-se fixos os valores da variável explicativa e observa-se o que
ocorre com a variável dependente. Se o X é aleatório, mas independente do erro, pode-se
mostrar que os parâmetros estimados serão não tendenciosos. Assim, a confirmação esta
pressuposição significa dizer que as variáveis explicativas são distribuídas independentemente
dos resíduos.
Em linguagem matemática, pode-se dizer que a covariância entre os resíduos ui e Xi é
igual a zero ( . Formalmente,
Entretanto, se as variáveis explicativas e os termos aleatórios forem correlacionados,
haverá inconsistência dos estimadores de mínimos quadrados ordinários. Deve-se utilizar o
estimador de variáveis instrumentais. O método de Variáveis instrumentais prevê que
β = (Z´X)-1
Z´Y , e Z é uma matriz de instrumentos independentes dos erros aleatórios.
Econometria – Prof. Adriano M. R. Figueiredo
22
2.6. Pressuposição 6: O erro tem distribuição normal, com média zero e variância constante:
Esta pressuposição pode ser especificada da forma:
εi ∼ N (0, 2) , i = 1, 2, ..., n
As consequências associadas a não normalidade dos resíduos são parâmetros
estimados não normais e não será possível fazer os testes de hipóteses com distribuições
baseadas na normal, como os usuais testes “t” e “F” para avaliar a qualidade dos
ajustamentos, e para construir intervalos de confiança para os parâmetros conforme exposto
ao longo do curso. Em termos gráficos, pode-se plotar o histograma da série de resíduos e
comparar com a distribuição normal teórica como na figura.
Os estimadores continuam sendo os Melhores Estimadores Lineares Não-
Tendenciosos (MELNT).
2.7. Pressuposição 7: Ausência de relação linear exata entre as variáveis explicativas (não multicolinearidade)
0
2
4
6
8
10
-.3 -.2 -.1 .0 .1 .2 .3
Histogram Normal
De
nsit
y
RESID01
Econometria – Prof. Adriano M. R. Figueiredo
23
A multicolinearidade é um problema relacionado com fortes relações entre as variáveis
explicativas no modelo de regressão. Considere a matriz de variáveis explicativas como
composta por colunas das variáveis X1, X2, ... , Xn e ainda uma coluna de “1” para incluir o
intercepto.
A pressuposição prevê a não existência de qualquer relação linear entre as variáveis
explicativas X, como por exemplo,
X1 = 2.X2
X1 + 3.X2 = X5
No método de mínimos quadrados ordinários, a existência de uma relação linear entre
os X´s representa uma redução no oposto da matriz (X) e o determinante de X´X será próximo
de zero. No caso de uma relação linear exata, haverá uma singularidade perfeita na matriz
X´X e seu determinante será zero. Como o método de mínimos quadrados ordinários prevê a
inversão da matriz X´X, o determinante próximo de zero fará com que os parâmetros sejam
indeterminados. A matriz (X´X)-1
não existirá e não será possível estimar o modelo. No caso
exato, o sistema interrompe e acusará erro. Em muitos casos aplicados, o que se observa são
valores de determinantes muito próximo de zeros, e muitas vezes o sistema não interrompe,
requerendo a observância das estatísticas de teste.
O problema da correlação entre as variáveis explicativas pode ser visto da seguinte
maneira:
1) ausência de correlação ou ausência de multicolinearidade: a regressão múltipla dá o mesmo
resultado que as regressões simples quando as correlações parciais entre as variáveis
explicativas forem nulas;
2) correlação perfeita ou multicolinearidade perfeita: a relação linear perfeita entre os X´s
causa a indeterminação de β = (X´X)-1
X´Y pois (X´X)-1
é singular;
3) alto grau de correlação entre os X´s ou multicolinearidade imperfeita: multicolinearidade
O enfoque é diferente das outras pressuposições: é um problema da amostra, enquanto
as outras pressuposições se referiam mais ao erro e à população, enquanto esta se refere mais
à amostra. Não se trata, portanto, de testar a pressuposição, mas sim de pensar como lidar com
o problema.
Consequências da multicolinearidade:
Teóricas: consequências sobre as propriedades dos estimadores de M.Q.O.; a
multicolinearidade não afeta em nada as propriedades dos estimadores de M.Q.O.,
que continuam os melhores estimadores lineares não tendenciosos (MELNT);
Econometria – Prof. Adriano M. R. Figueiredo
24
Práticas:
1. aumenta as variâncias dos parâmetros estimados:
aumenta V(β) = s2(X´X)
-1
(X´X)-1
= (1/|X´X|) . Adj(X´X)
como |X´X| → 0 => (X´X)-1
→ ∞ e V(β) → ∞
2. aumenta erro-padrão
3. reduz “t” => induz à não significância => estarei aceitando o fato de que a
variável não é importante no modelo em virtude da multicolinearidade, mas
que na realidade a variável poderá ser importante ao corrigir o modelo
4. Estimativas muito sensíveis: tirando uma ou duas observações, as estimativas
alteram muito => é melhor ter um modelo onde as alterações não alteram
muito as estimativas, uma certa estabilidade do modelo em termos de
magnitudes e sinais
2.8. Resumo das pressuposições
Apresentadas as pressuposições, o Quadro 1 tem um resumo com a expressão
matemática em forma escalar e matricial, assim como o problema que se tem caso as
pressuposições sejam violadas ou não atendidas. Em geral, pode-se dizer que se testará o
modelo e, em caso de violação, se “tratará” ou corrigirá adequadamente.
Econometria – Prof. Adriano M. R. Figueiredo
25
Quadro 1. Pressuposições do Modelo de Regressão Linear Clássico Normal
Pressuposição
Expressão Matemática* Problema (o que acontece se as pressuposições
não forem atendidas) Notação Escalar Notação Matricial
1. Relação Linear Yi=β0 + β1 Xi1 + ... + βk Xik + εi
em que i =1, 2, 3,..., n Y = Xβ + ε
Não linearidade, Erro de especificação dos X´s
2 . Média do erro é zero E(εi) = 0 para todo i E(ε) = 0, onde ε e 0 são vetores nX1 Erro de especificação
3. Variância do erro é constante E(εi²) = δ², para todo i E(εε´) = δ² I
Heterocedasticidade
4. Erros independentes E(εiεj) = 0, i ≠ j Autocorrelação
5. Variáveis explicativas são não estocásticas ou fixas
X1, X2, ..., Xk são fixos Cov(Xij, εi) = 0
p/ j= 1, 2, 3, ..., n
A matriz X é não estocástica Cov(X, ε) = 0
Erros nas variáveis, Variável dependente defasada, Relações
simultâneas
6. Independência linear entre as variáveis explicativas
Ausência de relação linear entre os X´s
Posto de X igual ao seu número de colunas, isto é,
ρ(X) = p < n Multicolinearidade
7. Erro tem distribuição normal εi ~ N (0, δ²)
i = 1, 2, 3, ..., n ε ~ N (0, δ²I) Erros não normais
* Em que Y = [Yi] é um vetor (n x 1) das observações da variável dependente; X = [Xij] é uma matriz (n x p) das observações das variáveis independentes; ε = [εi] é um vetor (nx1) dos erros aleatórios; β = [βj], j = 0, 1, 2, ..., k é um vetor pX1 de parâmetros a serem estimados; δ² é a variância do erro, também a ser estimada; I é uma matriz identidade de ordem (m x n); k é o número de variáveis independentes; p = (K + 1) é o número de parâmetros; n é o número de observações; E significa valor esperado ou esperança matemática.
Econometria – Prof. Adriano M. R. Figueiredo
26
3 Estimação
A estimação dos parâmetros do modelo linear pressupõe a satisfação aos pressupostos
básicos anteriormente mencionados. O princípio que norteia os cálculos é “obter valores de
parâmetros que minimizem a Soma do Quadrado dos Resíduos - SQRes”, ou comumente
chamado de Mínimos Quadrados Ordinários - MQO.
Ou seja, para o modelo Y = Xβ + ε a estimação requer a minimização conforme a seguir:
FORMA ALGÉBRICA: Min Σ εi2 =
Σ (Yi – β0 – β1X1i – β2X2i)2
FORMA MATRICIAL: Min ε’ε ou Min SQRes
O problema matemático é de otimizar, ou seja, minimizar um produto de um vetor
linha por um vetor coluna. Portanto, deriva-se e iguala a zero obtendo a solução para o vetor
de parâmetros. Segue abaixo:
1
2 2 0
ˆ ˆ' Y X Y X
ˆ ˆ ˆ ˆ' Y Y Y X X Y X X
( ' ) ˆX Y X Xˆ
ˆX X X Y
ˆ X X X Y
Portanto, o estimador dos parâmetros pelo método de Mínimos Quadrados Ordinários
(MQO) é:
1
(k+1 x 1)ˆ X X X Y
Assim, com as matrizes X e Y posso obter os parâmetros estimados.
O estimador da variância dos resíduos será s2, para os (n-p) Graus de Liberdade (GL =
número de observações, n, menos o número de parâmetros, p):
2 SQRes SQRese es
n p n p G.L.
A matriz de variância-covariância dos parâmetros será:
Sistema de equações normais dos
mínimos quadrados
Válida para não multicolinearidade de X
Econometria – Prof. Adriano M. R. Figueiredo
27
1
1 1 1
1
1
1 1
1 1
ˆ ˆ ˆVar Cov( ) E
mas
ˆ X X X Y
ˆ X X X X X X X X X X X
ˆ I . X X X
ˆ X X X
ˆVar Cov( ) E X X X X X X
ˆVar Cov( ) E X X X X X X
Mas como X são fixas, independentes dos resíduos, o valor esperado se reduz a:
1 1
1 12
ˆVar Cov( ) X X X E X X X
ˆVar Cov( ) X X X IX X X
Ou seja,
1 12
12
12
12
ˆVar Cov( ) X X X X X X
ˆVar Cov( ) I X X
ˆVar Cov( ) X X
ou
ˆVar Cov( ) s X X
Desta forma, têm-se as equações essenciais para a estimação. Segue quadro resumo
abaixo, com os estimadores de MQO.
Quadro 2. Estimadores de Mínimos Quadrados Ordinários.
1
2
12
SQRes SQRes
ˆ X X X Y
e es
n p n p G.L.
ˆVar Cov( ) s X X
Estimadores dos
parâmetros
Estimador da
variância-
covariância dos
resíduos
Estimador da
variância-
covariância dos
parâmetros
Econometria – Prof. Adriano M. R. Figueiredo
28
O valor dos erros padrões dos parâmetros será obtido a partir da raiz da variância dos
parâmetros, ou seja, tirando-se a raiz da diagonal principal da var-cov(β).
Os parâmetros devem ter análise de significância, por meio de um teste de hipótese do
tipo t:
0
1
0
0
j
j
j
j
calculado n p
G.L.ˆ
H :
H : ( bilateral )
ˆt ~ t
s
Os softwares econométricos em geral disponibilizam o valor da probabilidade (p-
value) associado ao valor de t calculado. Desta forma, pode-se comparar com níveis
predeterminados de significância para rejeitar ou não a hipótese nula. Em geral, costuma-se
observar os valores das probabilidades comparando a 10%, 5% ou 1% para concluir a respeito
da hipótese nula. Espera-se, para que a variável X tenha efeito não nulo sobre Y, que se rejeite
a hipótese nula e que assim, os valores calculados dos parâmetros permitam uma interpretação
econômica deste efeito.
Para auxiliar o entendimento, é possível decompor a variação de Y como abaixo:
Variação total = variação explicada por X + variação não explicada
: variação devida à regressão
SQTot=SQReg + SQRes
Y
X
+ (reta estimada)
Econometria – Prof. Adriano M. R. Figueiredo
29
Em que SQTot é a soma dos quadrados totais (relativa à variação total), SQRes é a
soma do quadrado dos resíduos (relativa à variação não explicada) e SQReg é a soma dos
quadrados da regressão (relativa à variação explicada por X).
22 2 2 2
2
22 2
SQTot 2
SQRes
SQReg
SQTot SQReg + SQRes
i i i i i i
i
i i
ˆ ˆ ˆ ˆy y y e e Y Y Y Y nY
ˆe e' e Y Y X Y
ˆ ˆ ˆy Y Y Y Y nY
O coeficiente de determinação (R2
– R-squared ou R quadrado) é utilizado para avaliar
quanto da variação total é explicada. Define-se como:
Seu intervalo de variação é de zero a um em condições normais: 0 < R2 < 1.
Se SQRes=SQT então R2=0.
Se SQRes ≈ 0 então R2=1.
Ou seja, mede quanto da Variação de Y está sendo explicada por Variações de X, ou
seja, mede a qualidade do ajustamento. Procura-se estimar um modelo com o maior R2
possível. Em geral, acredita-se ter um modelo bem ajustado para valores maiores que 0,8, mas
sempre se deve ter cautela quanto a esses indicadores usualmente aceitos.
Na forma matricial, o cálculo será;
22
2 21
ˆ ˆX Y nY Y Y X YR
Y Y nY Y Y nY
Outro indicador útil, principalmente para comparações entre modelos é o R2
ajustado
(adjusted R-squared). Ele recebe este nome, pois se faz um ajustamento de SQRes e de SQTot
quanto aos graus de liberdade da respectiva variação. Assim, tem-se:
2
SQRes
n-p1
SQTot
n-1
R
Em geral, quanto maior o número de variáveis X, maior é o valor de R2, mas para o R
2
ajustado esta regra não vale. Justamente para evitar a inclusão equivocada de variáveis
Econometria – Prof. Adriano M. R. Figueiredo
30
explicativas é que se usa o R2
ajustado. Assim, a inclusão de uma variável irrelevante poderá
elevar o valor de R2, mas não necessariamente elevará o valor de R
2 ajustado.
Se n for grande e p pequeno em relação a n, a diferença entre 2R (R quadrado
ajustado) e R² será pequena. Se n for pequeno e p grande em relação a n, a diferença entre
ambos pode ser grande e o valor ajustado será mais importante.
Outro indicador é o Teste F da regressão (F-statistic). Procura-se saber se o modelo
tem suporte estatístico. É o Teste de significância global da regressão: os X’s em conjunto
explicam Y de forma significativa. A hipótese nula é de que todos os parâmetros em conjunto
são nulos. A Hipótese alternativa prevê pelo menos um parâmetro não nulo.
0 1 2
1
0 0 0
0
k
i
H : , ,...,
H : pelo menos um
Define-se a estatística de teste F como:
1
SQReg
p-1
SQRes
n-p
p ,n p
G.L.
F ~ F
Se Fcalculado > Ftabelado , então rejeita-se H0 e concluo pela existência de ao menos um X
explicando Y. Deseja-se um P-value (F de significação) menor que 10%, 5% ou 1%,
similarmente ao teste de t dos parâmetros.
Esses indicadores em geral são obtidos em todos os softwares econométricos ou
estatísticos. Pode-se mencionar alguns: Excel, Eviews, Stata, Gretl, SAS, SPSS, Gauss, e
MatLab.
Alguns sites podem auxiliar ao leitor:
http://www.oswego.edu/~economic/econsoftware.htm
http://www.economics.ltsn.ac.uk/software/econometrics.htm
http://emlab.berkeley.edu/eml/index.shtml
O anexo apresenta rotinas para execução dos cálculos usando matrizes no Excel. Um
software bastante interessante, plataforma livre e com versão em português é o Gretl, no link:
<http://gretl.sourceforge.net/gretl_portugues.html>.
Os estimadores do MQO são os Melhores Estimadores Lineares Não tendenciosos
(MELNT). Ou seja, quanto maior a amostra, tendendo ao infinito, os estimadores de MQO
tenderão aos valores verdadeiros, os que se teria para a população, não tendenciosos, de
variância mínima.
Econometria – Prof. Adriano M. R. Figueiredo
31
Anexo 1: Estimação utilizando matrizes no Excel:
1. Entrada dos dados:
a. Digitar matriz de dados X e Y no Excel
i. Gujarati (2006: p.71) X(10x2) e Y(10x1)
Tabela. Despesas familiares de consumo semanal Y e renda familiar semanal X – dados
hipotéticos.
obs Y
(consumo)
X
X0 (intercepto)
X1 (renda)
1 70 1 80
2 65 1 100
3 90 1 120
4 95 1 140
5 110 1 160
6 115 1 180
7 120 1 200
8 140 1 220
9 155 1 240
10 150 1 260
Fonte: Gujarati (2006: p.71).
2. Copiar X e colar especial selecionando transpor, fazendo X’ (2x10)
3. Fazer multiplicação X’.X (2x10).(10x2) = X’X(2x2)
a. Seleciona a área de saída (2x2)
b. Inserir fórmula matemática Matriz.mult
i. Matriz 1 = X’
ii. Matriz 2 = X
c. Teclar OK
d. Teclar F2
e. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os
dados da matriz X’X (2x2)
4. Fazer inversa de X’X fazendo (X’X)-1
a. Selecionar área de saída (2x2)
b. Inserir fórmula matemática Matriz.inverso
c. Matriz = X’X
d. Teclar OK
e. Teclar F2
f. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os
dados da matriz (X’X)-1
(2x2)
5. Fazer X’Y (2x10).(10x1) = X’Y(2x1)
a. Selecionar área de saída (2x1)
b. Inserir fórmula Matriz.mult
i. Matriz 1 = X’
ii. Matriz 2 = Y
Econometria – Prof. Adriano M. R. Figueiredo
32
c. Teclar OK
d. Teclar F2
e. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os
dados da matriz (X’Y) (2x1)
6. Cálculo de beta estimado
a. Betaest = (X’X)-1
(2x2) (X’Y)(2x1) = (X’X)-1
(X’Y)(2x1)
i. Selecionar saída 2x1
ii. Inserir fórmula Matriz.mult
1. matriz 1 = (X’X)-1
2. matriz 2 = (X’Y)
b. Teclar OK
c. Teclar F2
d. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os
dados da matriz (betaest) (2x1)
7. Para obter Matriz de var-cov(betaest) fazer
a. û'û = Y’Y – betaest’. X’Y
i. Calcular Y’Y pela função Matriz.mult
ii. Calcular betaest’. X’Y pela função Matriz.mult
1. matriz 1 = betaest’
2. matriz 2 = X’Y
iii. Fazer diferença i – ii
b. Calcular sigma quadrado: s2 = û’û/(n-k)
i. n-k = graus de liberdade
c. Calcular var-cov(betaest) = s2.(X’X)
-1 (2x2)
i. Fazer multiplicação de escalar por cada elemento de (X’X)-1
8. Fazer a raiz quadrada dos elementos da diagonal, obtendo os erros padrões dos
parâmetros estimados: utilizar a função RAIZ(·) do Excel.
9. Calcular o valor de t fazendo tβ = betaest/erropbeta . O valor da probabilidade do teste
pode ser obtido pela função estatística do Excel, fazendo DISTT(tβ;n-p;2) que
retornará o valor da probabilidade para P(t> tβ) para o valor tβ, para n-p graus de
liberdade e 2 caudas (bicaudal).
10. Calcular R2
a. R2 = SQE/SQT = (betaest.X’Y – n.Y
2)/(Y’Y - n.Y
2)
i. Y = média de Y
b.
1n
SQT
pn
sReSQ
1
1n
SQT
1p
SQE
R 2
c. )GL(pn,1pF~
pn
sReSQ
1p
SQE
F
Econometria – Prof. Adriano M. R. Figueiredo
33
Anexo 2: Exercícios:
1. De acordo com a metodologia econométrica, responda verdadeiro (V) ou falso (F):
( ) A heterocedasticidade é um problema no modelo de regressão clássico pois altera os erros-
padrões dos parâmetros.
( ) A expressão YXXX ''ˆ 1 permite o cálculo dos parâmetros por MQO.
( ) A existência de resíduos autocorrelacionados implica em interdependência entre os mesmos.
( ) A aceitação da hipótese nula do teste t-Student dos parâmetros implica na existência de efeitos da
variável X sobre Y no modelo Y = f(X) + ε
( ) É sempre desejável acrescentar variáveis ao modelo de regressão até o limite de dez regressores.
( ) A expressão para obtenção dos parâmetros por Mínimos Quadrados Ordinários,
YXXX ''ˆ 1 pode ser utilizada para um modelo logaritmizado linear.
( ) A pressuposição de não-autocorrelação dos resíduos implica em covariâncias nulas entre os
mesmos.
( ) A estimação realizada pela Ferramenta de Análise de Dados de Regressão no Excel fornece os
mesmos parâmetros estimados que em YXXX ''ˆ 1
.
( ) A idéia básica da estimação econométrica é obter os parâmetros de tal forma que a soma dos erros
seja, na média, nula, e a soma de seus quadrados seja mínima.
( ) A expressão para obtenção dos parâmetros por Mínimos Quadrados Ordinários,
YXXX ''ˆ 1 refere-se a um modelo linearizado qualquer.
( ) A heterocedasticidade dos resíduos implica em variâncias constantes dos resíduos ao longo da
amostra.
( ) A estimação realizada pelas operações matriciais no Excel fornecem os mesmos parâmetros
estimados que a Ferramenta de Análise de Dados de Regressão do referido software.
( ) A especificação do modelo não precisa ser feita antes da estimação, pois as vezes será necessário
excluir alguma variável do modelo.
( ) A fase de estimação do modelo consiste em determinar os parâmetros da equação estimada.
( ) Todo modelo estimado pode ser utilizado para fazer previsões da variável explicada.
( ) A econometria pode favorecer todas as áreas da economia, pois sempre é possível explicar tudo
que se quer com a econometria.
( ) O modelo de regressão linear simples é um caso específico do modelo de regressão linear
múltiplo, podendo estimar os parâmetros matricialmente nos dois casos.
2. Cite e comente a pressuposição de linearidade do modelo de regressão clássico.
3. O método de estimação de Mínimos Quadrados Ordinários é um dos mais utilizados para estimar
parâmetros econométricos. Explique o que significa e o raciocínio por trás desse método.
4. Cite e comente a pressuposição de presença de homocedasticidade dos resíduos do modelo de
regressão clássico.
5. Suponha que se tem dados municipais para o modelo lnQi = βo + β1.lnJUROSi1 + β2.lnRDi2
+ εi, em que Q é a quantidade demandada de moeda no município i, em milhares de reais; JUROS é a
taxa de juros interbancária (CDI) em valores nominais; RD é a renda disponível per capita em reais;
β’s são parâmetros do modelo e ε é o erro aleatório tal que ε ~ N(0,s2). Pergunta-se:
a) Como você faria para obter os valores dos β’s num ambiente computacional do Microsoft Excel?
Quais os passos necessários para execução da estimação?
b) É possível fazer por meio matricial? Quais os passos necessários para execução da estimação?
Econometria – Prof. Adriano M. R. Figueiredo
34
6. Seja um exemplo da versão modificada da Curva de Phillips macroeconômica, relacionando o
índice de salários como variável dependente (W) como função dos preços (IGP), da taxa de
desemprego (U) e do produto nacional bruto (PNB) como variáveis independentes. O modelo será do
tipo: tt3t2t10t UPNBIGPW . Interprete os resultados abaixo e avalie
comparativamente os dois resultados. Fonte: dados mensais de W, U e IGP-DI, coletados no
www.ipeadata.gov.br e realizaram-se médias anuais. O PIB per capita anual foi obtido diretamente do
mesmo site.
Dependent Variable: LOG(W)
Method: Least Squares
Date: 03/22/06 Time: 11:05
Sample: 1980 2004
Included observations: 25
Variable Coefficient Std. Error t-Statistic Prob.
C -17.74151 3.737840 -4.746459 0.0001
LOG(IGP) -0.020270 0.002273 -8.918010 0.0000
LOG(PIB) 2.450833 0.407685 6.011589 0.0000
LOG(U) 0.425183 0.068249 6.229885 0.0000
R-squared 0.818600 Mean dependent var 5.414171
Adjusted R-squared 0.792686 S.D. dependent var 0.181513
S.E. of regression 0.082646 Akaike info criterion -2.002847
Sum squared resid 0.143439 Schwarz criterion -1.807827
Log likelihood 29.03559 F-statistic 31.58878
Durbin-Watson stat 1.724283 Prob(F-statistic) 0.000000
Dependent Variable: W
Method: Least Squares
Date: 03/22/06 Time: 11:10
Sample: 1980 2004
Included observations: 25
Variable Coefficient Std. Error t-Statistic Prob.
C -290.8117 327.1702 -0.888870 0.3841
IGP -0.326847 0.193898 -1.685664 0.1067
PIB 0.046182 0.034176 1.351321 0.1910
U 21.07782 8.048040 2.619000 0.0160
R-squared 0.255609 Mean dependent var 228.0943
Adjusted R-squared 0.149268 S.D. dependent var 40.64528
S.E. of regression 37.48923 Akaike info criterion 10.23163
Sum squared resid 29514.30 Schwarz criterion 10.42665
Log likelihood -123.8954 F-statistic 2.403666
Durbin-Watson stat 0.607152 Prob(F-statistic) 0.096187
7. Seja um exemplo do PIB Real (REALGDP) como função do Consumo Real (REALCONS),
Investimento Real (REALINVS), Gastos Reais do Governo (REALGOVT), e Transações Líquidas
Reais com o Exterior (REALINT), OBS é a variável de tendência. Encontre o R2, R
2 ajustado, os
coeficientes, erros-padrões e valores de t para completar os resultados e analise-os a seguir:
Econometria – Prof. Adriano M. R. Figueiredo
35
Dependent Variable: REALGDP Method: Least Squares Date: 03/09/06 Time: 08:29 Sample: 1950:1 2000:4 Included observations: 204
Variable Coefficient Std. Error t-Statistic Prob.
REALCONS 1.123936 44.48754 0.0000
REALINVS 0.516396 0.044046 11.72401 0.0000 REALGOVT 0.538837 0.056164 9.594029 0.0000
REALINT 1.089732 -1.558385 0.1207
OBS 1.928942 0.370999 0.0000
C 121.9011 24.04763 5.069154 0.0000
R-squared Mean dependent var 4562.646
Adjusted R-squared S.D. dependent var 2113.962
S.E. of regression 40.65281 Akaike info criterion 10.27698 Sum squared resid 327224.9 Schwarz criterion 10.37458 Log likelihood -1042.252 F-statistic 109744.5 Durbin-Watson stat 0.246057 Prob(F-statistic) 0.000000
Econometria – Prof. Adriano M. R. Figueiredo
36
4 Violações nas Pressuposições Clássicas do Modelo de Regressão Linear
O modelo clássico de análise de regressão é construído com base numa série de
pressuposições referentes ao comportamento da população. Estas pressuposições foram descritas
nas seções anteriores e aqui se discute principalmente a forma de testar a hipótese e a
operacionalização da solução.
4.1. Pressuposição 1: A relação entre Y e X é linear
Detecção do problema:
Entre outros testes, o teste RESET de Ramsey (1969)3 é um dos mais aplicados na literatura.
O nome vem do pesquisador Ramsey para o Regression Specification Error Test ou teste de erro de
especificação da regressão (No Eviews, ver na janela da equação o teste de estabilidade (Stability
Tests) e definir o número de termos estimados).
O teste é baseado na regressão aumentada
Y = Xβ + Zα + ε
em que X são as variáveis explicativas e Z são variáveis dependentes estimadas e elevadas a uma
potência
Z = [ Yest2 Yest
3 Yest
4] exemplo para três fitted terms (termos acrescentados na regressão
aumentada).
A idéia é olhar a significância dos α para ver se os termos acrescentados são relevantes no
modelo, indicando erro de especificação.
Procedimento do teste:
1) estima-se Y = Xβ + ε
2) obtém-se os valores previstos de Y e gera-se Yest2 Yest
3 ou mais se
desejar. Recomenda-se no máximo até 3 termos, ou seja, até Yest4.
3) Ajusta-se a regressão aumentada, colocando-se os X e as variáveis do item 2 :
Y = f ( X, Yest2, Yest
3 )
4) Com as regressões de 1 e de 3, observam-se os valores de R2 novo (de 3) e R
2
velho (de 1) e calcula-se a estatística de teste:
3Ramsey, J. B. (1969) “Tests for Specification Errors in Classical Linear Least Squares Regression Analysis,” Journal
of the Royal Statistical Society, Series B, 31, 350–371.
Econometria – Prof. Adriano M. R. Figueiredo
37
5) Estatística de Teste;
(p) mod
1
)( 2
22
elonovonoparametrosnúmeron
R
msregressorenovosdenúmero
RR
Fnovo
velhonovo
F ~ Fm,n-p
m é o número de novos regressores
n-p é o número de observações menos o número de parâmetros no
novo modelo
6) Comparar o F do item 5 com o F da tabela, para o nível de significância,
numerador m e denominador n-p. Como a hipótese nula é de que não há
erro de especificação, espera-se que a hipótese nula não seja rejeitada, ou
seja, que F seja muito pequeno.
O teste RESET indica apenas se o modelo está especificado incorretamente, mas não diz
qual seria a solução. A solução para um problema seria incluir outras variáveis relevantes no
modelo, retirar as irrelevantes, ou mudar a forma funcional. Portanto, o bom senso indica que é
melhor incluir variáveis do que excluir, pois a exclusão pode causar viés, enquanto a inclusão tende
a melhorar o modelo, a não ser pela possibilidade de não-significância dos parâmetros.
Implementação no Eviews:
No Eviews, após a estimação dos parâmetros, abre-se a janela da equação e depois clica-se
em View, e posteriormente em Stability Tests. A opção do teste RESET aparecerá em outra janela
perguntando quantos termos ajustados serão incluídos (fitted terms). O aluno deve estabelecer
quantos termos (sugere-se até 3) e clica-se em ok. O programa gerará a estatística de teste RESET
de Ramsey, mas aqui a hipótese nula é um pouco diferente do teste calculado anterior, pois o
programa testa se todos os parâmetros α são zeros, o que indicará que não há erro. Portanto, se a
probabilidade de F do Eviews for abaixo do nível de significância (por exemplo, 10%) (F alto),
pode-se dizer que rejeita-se a hipótese nula e existe um erro de especificação. Se o F for baixo,
aceita-se que α =0 e, portanto, não há erro de especificação.
No exemplo, mostra-se que existe erro de especificação.
Econometria – Prof. Adriano M. R. Figueiredo
38
Tabela 1. Exemplo de saída do Eviews para o Ramsey RESET Test.
Ramsey RESET Test:
F-statistic 5.281559 Probability 0.001932 Log likelihood ratio 15.74446 Probability 0.001279
Test Equation: Dependent Variable: QSOJA Method: Least Squares Date: 06/06/03 Time: 14:57 Sample: 1988:09 1998:05 Included observations: 117
Variable Coefficient Std. Error t-Statistic Prob.
FERTILIZANTE 304.1298 135.0469 2.252031 0.0263 TRATOR 18591.29 8231.767 2.258481 0.0259
MO 115237.7 51069.36 2.256493 0.0260 C -230604.7 101861.3 -2.263908 0.0255
FITTED^2 2.664804 1.165269 2.286857 0.0241 FITTED^3 -0.005642 0.002453 -2.300025 0.0233 FITTED^4 4.43E-06 1.92E-06 2.302617 0.0232
R-squared 0.532456 Mean dependent var 322.2544 Adjusted R-squared 0.506954 S.D. dependent var 56.01272 S.E. of regression 39.33059 Akaike info criterion 10.23985 Sum squared resid 170158.4 Schwarz criterion 10.40510 Log likelihood -592.0310 F-statistic 20.87869 Durbin-Watson stat 0.770973 Prob(F-statistic) 0.000000
Outra forma é olhar os diferentes modelos e comparar o R2 ajustado. Quanto mais próximo
de 1 melhor será a estimação. É deficiente para o caso de variável omitida.
Outras opções são observar os coeficientes do critério de Akaike e Schwarz, fornecidos na
saída da estimação do Eviews. Menores coeficientes AIC e SIC indicam melhores ajustamentos da
regressão, mas só podem ser comparados se as unidades das variáveis das diferentes regressões
forem as mesmas (por exemplo, não se aplica numa comparação entre Y e outra com LogY). Deve-
se olhar todos os critérios para melhor análise dos resultados.
O Critério de Informação de Akaike (ou AIC de Akaike’s Information Criterion) ou o
Critério de Informação de Schwarz ou Bayesiano (ou SIC de Schwarz’s Information Criterion ou
em alguns livros BIC de Bayesian Information Criterion) são expressos no Eviews da forma já
logaritmizada como:
Econometria – Prof. Adriano M. R. Figueiredo
39
em que k é o número de regressores incluindo-se o intercepto; n é o número de observações; l é o
log Verossimilhança da regressão; e são os resíduos estimados do modelo.
No formato mais simplificado exposto por Greene (2002), tem-se:
Econometria – Prof. Adriano M. R. Figueiredo
40 Anexo
Fazendo o teste RESET para investigar se existe erro de especificação:
1) fazer a estimação original a ser testada
Econometria – Prof. Adriano M. R. Figueiredo
41 2) na janela Equation, entrar em View, Stability Tests, Ramsey Reset Test como na figura a
seguir:
3) na janela RESET Specification, colocar o número de variáveis a serem adicionadas no teste
(número de variáveis dos valores previstos de Y)
entesucessivamassim
3 digitar então (FITTED^4)Ye (FITTED^3) Ye (FITTED^2) Yapenas inserirse
2 digitar então (FITTED^3)Ye (FITTED^2) Yapenas inserirse
1 digitar então (FITTED^2) Yapenas inserirse
432
32
2
ˆˆˆ
ˆˆ
ˆ
O RESULTADO SAIRÁ CONFORME A ÚLTIMA IMAGEM A SEGUIR
Econometria – Prof. Adriano M. R. Figueiredo
42
Econometria – Prof. Adriano M. R. Figueiredo
43
4.2. Pressuposição 2: O erro aleatório tem média zero
A maior dificuldade é que não existe teste formal para essa pressuposição. É similar a um
erro de especificação do modelo, como por exemplo, com variáveis relevantes omitidas do modelo.
O modelo com uma correta especificação provavelmente não terá problemas com média dos
resíduos não nula.
Normalmente se faz o teste simples de “H0: média igual a zero” para investigar a violação
ou não da pressuposição. Valores elevados para a probabilidade indicarão a aceitação da hipótese
nula e confirmação da pressuposição.
Econometria – Prof. Adriano M. R. Figueiredo
44 Anexo:
Roteiro para testar média dos resíduos é nula:
Econometria – Prof. Adriano M. R. Figueiredo
45 Tabela dos resíduos
observação observado previsto resíduos obs Actual Fitted Residual
1971Q3 11484.0 10943.9 540.083 1971Q4 9348.00 9417.85 -69.8452 1972Q1 8429.00 9502.75 -1073.75 1972Q2 10079.0 9184.43 894.568 1972Q3 9240.00 8884.84 355.164 1972Q4 8862.00 9288.01 -426.006 1973Q1 6216.00 7311.47 -1095.47 1973Q2 8253.00 7595.20 657.800 1973Q3 8038.00 8297.50 -259.501 1973Q4 7476.00 7559.49 -83.4900 1974Q1 5911.00 5955.55 -44.5506 1974Q2 7950.00 6004.86 1945.14 1974Q3 6134.00 6802.14 -668.142 1974Q4 5868.00 6544.46 -676.458 1975Q1 3160.00 3992.40 -832.395 1975Q2 5872.00 5035.14 836.855
Econometria – Prof. Adriano M. R. Figueiredo
46 Na janela do Workfile, na serie “Resid”, é possível fazer o teste t para a média dos erros igual a
zero:
Econometria – Prof. Adriano M. R. Figueiredo
47
Na janela View da Series: Resid, escolher a opção “Tests for Description Stats”, Simple
Hypothesis Tests:
A janela do “simple Hypothesis tests” permitirá especificar se a média é igual a zero,
especificando zero e teclando ok:
Econometria – Prof. Adriano M. R. Figueiredo
48
Hypothesis Testing for RESID Date: 03/16/06 Time: 17:12 Sample: 1971Q3 1975Q2 Included observations: 16 Test of Hypothesis: Mean = 0.000000
Sample Mean = -4.16e-16
Sample Std. Dev. = 0.144606 Method Value Probability t-statistic -1.15E-14 1.0000
Como o valor da probabilidade implica na aceitação da hipótese nula, ou seja,
H0: média = 0
Econometria – Prof. Adriano M. R. Figueiredo
49
4.3. Pressuposição 3: O erro aleatório tem variância constante (presença de homocedasticidade)
A presença de heterocedasticidade não gera viés ou tendenciosidade nos parâmetros
angulares. Entretanto, os parâmetros de M.Q.O. não serão os mais eficientes (pois o M.Q. O.
superestimará o verdadeiro erro-padrão e presença de heterocedasticidade) e a estimação
deverá ser feita por Mínimos Quadrados Generalizados (M.Q.G.), que consiste em um
M.Q.O. para variáveis transformadas que satisfazem as hipóteses usuais de mínimos
quadrados. A mecânica passa pela divisão de todas as variáveis, por exemplo, pelo respectivo
desvio-padrão do resíduo, ou caso o desconheça, pela variável explicativa correlacionada ao
resíduo.
Procede-se da seguinte forma. Primeiro realiza-se o teste de Glejser, que entre outros
como o de Goldfeld-Quandt, apresenta-se mais eficiente e auxilia na implementação da
correção do problema. Esse teste permite que se indique a exata relação existente entre a
variável X e os resíduos (Diaz, 2000)4.
Passos:
1. estimar o modelo inicial: Y = Xβ + ε
2. com os resíduos de 1, estimar as regressões auxiliares:
a. |ei| = α0 + α1Xi
b. |ei| = α0 + α1Xi2
c. |ei| = α0 + α1(1/Xi)
d. |ei| = α0 + α1(√Xi)
e. |ei| = α0 + α1Xih
em que h denota uma potência.
Se o α1 for diferente de zero em alguma das regressões auxiliares (pelo teste
usual de t), então rejeita-se a hipótese nula de que não há heterocedasticidade.
Portanto, existe heterocedasticidade. Caso todas as regressões tenham α1= 0,
então não existe heterocedasticidade.
4 DIAZ, M.D.M. Problemas econométricos no modelo linear geral. In: VASCONCELLOS, M.A.S.; ALVES, D.
(Coords.) Manual de econometria. São Paulo:Atlas, 2000. p.105-137.
Econometria – Prof. Adriano M. R. Figueiredo
50
Este problema de presença de heterocedasticidade também pode ser detectado por
meio de análise gráfica. Pode-se estimar a função e fazer o gráfico dos resíduos ao longo da
amostra:
ei x Xi
ei x Yi ou Yi,estimado
Conhecido o resultado do teste de Glejser, utiliza-se a variável da regressão auxiliar
que acusou o problema para ponderar as variáveis, transformando-as, e procedendo a
estimação de M.Q.G., ou seja, M.Q.O. nas variáveis transformadas.
A estimação por M.Q.G. será para o modelo:
P.Y = PXβ + Pε
e o vetor de parâmetros estimados será
β = (X´P´PX)-1
X´P´PY
que é o mesmo que estimar o M.Q.O. para Y* = X*β + ε*.
Os resíduos podem ser obtidos no Eviews fazendo, na janela de uma equação,
Procs/make residual series. O programa pergunta o nome da série a conter os resíduos e uma
vez feito isso é só especificar a série como variável.
O método como descrito acima é uma alternativa apresentada em vários livros de
econometria, mas como a transformação fazendo Y/Xi pode gerar uma correlação espúria,
indicando uma correlação entre Y/X que na realidade não ocorreria entre Y e X caso não
fosse feita a transformação, sugere-se então os testes de White e de Breusch-Pagan e a
correção de White5.
Por exemplo, para uma regressão da forma
o teste de White é implementado manualmente da seguinte forma:
a) estima-se a regressão inicial e obtêm-se os resíduos ei;
b) faz-se uma regressão auxiliar do tipo
ou seja, o quadrado dos resíduos estimados como função das variáveis explicativas, dos
quadrados das variáveis explicativas e do produto cruzado das variáveis explicativas. Deve-se
incluir o termo do intercepto (α1) mesmo que na regressão original não o tenha.
5 White, Halbert (1980) “A Heteroskedasticity-Consistent Covariance Matrix and a Direct Test for
Heteroskedasticity,” Econometrica, 48, 817–838.
Econometria – Prof. Adriano M. R. Figueiredo
51
c) Analisa-se o R2 da regressão auxiliar multiplicado pelo tamanho da amostra (n)
comparando com o valor da tabela qui-quadrado para graus de liberdade iguais ao número
total de regressores da equação auxiliar. No nosso exemplo,
n. R2 ~ χ
2 com gl = 5 (X2i, X3i , X2i
2, X3i
2 , X2i.X3i)
Se n.R2 > χ
2 tabelado, então existe heterocedasticidade.
Se n.R2
< χ2 tabelado, então α2 = α3 = α4 = α5 = α6 = 0 , e não existe
heterocedasticidade.
Deve-se tomar cuidado com este teste, pois ele prevê a inclusão de termos adicionais
que, em presença de muitas variáveis X, poderá comprometer o modelo com relação aos seus
graus de liberdade.
A correção do modelo neste caso pode ser feita utilizando os estimadores de matrizes
de covariâncias heterocedástico-consistentes de White, que podem ser obtidos rapidamente
pelo software Eviews.
A operacionalização no Eviews é bastante simples. Primeiro o estudante deve estimar
o modelo e, na janela da equação estimada, selecionar View/Residual Tests e depois clicar em
White Heteroskedasticity (no cross terms ou cross terms). A diferença das duas opções é que
na primeira não inclui termos multiplicativos das variáveis Xi.Xj. Na primeira opção, se
economizam graus de liberdade mas representa uma distorção do teste original. Na segunda
opção, no rigor científico, incluem-se termos cruzados e, em presença de muitos regressores,
pode causar problemas de reduzidos graus de liberdade.
Sugere-se utilizar a primeira opção quando tiver mais de 5 regressores Xi, e a segunda
quando tiver menos de 5, pois com os termos cruzados, ocorreria uma inclusão de mais outros
5 termos.
Para a mesma regressão da Tabela 1, mostram-se os resultados do teste de White para
termos cruzados e sem termos cruzados. Procure distinguir as diferenças nos resultados.
A hipótese nula do teste é que não há heterocedasticidade, ou seja, de que os erros
são homocedásticos e independentes dos regressores, e que a especificação do modelo é
correta. Assim, é desejável ter a aceitação da hipótese nula, com probabilidade acima de
10%, e baixo valor de n.R2.
Econometria – Prof. Adriano M. R. Figueiredo
52
Tabela 2. Teste de White – no cross terms
White Heteroskedasticity Test:
F-statistic 2.956033 Probability 0.010300 Obs*R-squared 16.24547 Probability 0.012495
Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 06/06/03 Time: 17:59 Sample: 1988:09 1998:05 Included observations: 117
Variable Coefficient Std. Error t-Statistic Prob.
C 9515.997 6550.445 1.452725 0.1491 FERTILIZANTE -810.4509 551.7908 -1.468765 0.1448
FERTILIZANTE^2 18.85117 15.37210 1.226324 0.2227 TRATOR -2061.748 2106.302 -0.978848 0.3298
TRATOR^2 245.7209 236.7449 1.037914 0.3016 MO 76907.49 29850.12 2.576455 0.0113
MO^2 -230942.8 103719.0 -2.226620 0.0280
R-squared 0.138850 Mean dependent var 1663.833 Adjusted R-squared 0.091878 S.D. dependent var 2943.689 S.E. of regression 2805.201 Akaike info criterion 18.77430 Sum squared resid 8.66E+08 Schwarz criterion 18.93956 Log likelihood -1091.297 F-statistic 2.956033 Durbin-Watson stat 1.307013 Prob(F-statistic) 0.010300
Tabela 3. Teste de White – cross terms
White Heteroskedasticity Test:
F-statistic 4.638220 Probability 0.000034 Obs*R-squared 32.83525 Probability 0.000143
Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 06/06/03 Time: 18:01 Sample: 1988:09 1998:05 Included observations: 117
Variable Coefficient Std. Error t-Statistic Prob.
C -20557.49 9888.589 -2.078910 0.0400 FERTILIZANTE 445.3517 600.7180 0.741366 0.4601
FERTILIZANTE^2 25.26911 15.80557 1.598748 0.1128 FERTILIZANTE*TRA
TOR -120.1672 87.69892 -1.370224 0.1735
FERTILIZANTE*MO -13077.63 3137.312 -4.168419 0.0001 TRATOR 864.9398 3116.365 0.277548 0.7819
TRATOR^2 309.3549 253.6114 1.219799 0.2252 TRATOR*MO -22449.97 12081.31 -1.858240 0.0659
MO 426444.0 90390.39 4.717802 0.0000 MO^2 -365960.5 130236.2 -2.809975 0.0059
R-squared 0.280643 Mean dependent var 1663.833 Adjusted R-squared 0.220136 S.D. dependent var 2943.689 S.E. of regression 2599.568 Akaike info criterion 18.64567 Sum squared resid 7.23E+08 Schwarz criterion 18.88176 Log likelihood -1080.772 F-statistic 4.638220 Durbin-Watson stat 1.549746 Prob(F-statistic) 0.000034
Econometria – Prof. Adriano M. R. Figueiredo
53
Observe que no exemplo dado, existem indícios de que há heterocedasticidade.
Sabendo anteriormente que ocorre erro de especificação e que os dados originais são de série
temporal, conclui-se pela existência de erro de especificação, mas deve-se analisar com maior
detalhe a questão da homocedasticidade, pois esta geralmente não ocorre em séries temporais,
mas sim em seção cruzada. Talvez o resultado do teste possa estar mais ligado à dependência
dos resultados em relação aos regressores.
Num outro exemplo, com os dados de Gujarati (2000:p.388), para gastos com P&D
em relação as vendas, obteve-se o teste de White com cross terms e os resultados a seguir.
Primeiro apresenta-se os resultados da estimação sem a correção para heterocedasticidade,
faz-se o teste de White e depois re-estima-se o modelo com a correção de White.
Tabela 4. Resultados da estimação inicial.
Dependent Variable: RD Method: Least Squares Date: 06/06/03 Time: 18:38 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
SALES 0.031900 0.008329 3.830033 0.0015 C 192.9931 990.9858 0.194749 0.8480
R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
Tabela 5. Teste de White para o exemplo de Gujarati, p.388.
White Heteroskedasticity Test:
F-statistic 3.057178 Probability 0.076975 Obs*R-squared 5.212492 Probability 0.073811
Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 06/06/03 Time: 18:32 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
C -6219665. 6459809. -0.962825 0.3509 SALES 229.3508 126.2197 1.817077 0.0892
SALES^2 -0.000537 0.000449 -1.194952 0.2507
R-squared 0.289583 Mean dependent var 6767046. Adjusted R-squared 0.194861 S.D. dependent var 14706011 S.E. of regression 13195639 Akaike info criterion 35.77968 Sum squared resid 2.61E+15 Schwarz criterion 35.92808 Log likelihood -319.0171 F-statistic 3.057178 Durbin-Watson stat 1.694567 Prob(F-statistic) 0.076975
Econometria – Prof. Adriano M. R. Figueiredo
54
Neste caso, com os dados em seção cruzada (indústrias dos EUA), não foi possível
deixar de rejeitar a hipótese nula de homocedasticidade ao nível de 10% de significância,
como observado pelo valor da probabilidade de Obs*R-squared = 0,073811, menor que 0,10.
Existe problema de heterocedasticidade nos resíduos.
Mostram-se agora os resultados com a correção de White, obtidos no Eviews fazendo
alteração na janela da estimação, clicando em Options e selecionando a caixa
heteroskedasticity, e clicando em White. Os resultados são:
Tabela 6. Resultados da estimação com a correção de White para heterocedasticidade.
Dependent Variable: RD Method: Least Squares Date: 06/06/03 Time: 18:42 Sample: 1 18 Included observations: 18 White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
SALES 0.031900 0.010147 3.143815 0.0063 C 192.9931 533.9317 0.361457 0.7225
R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
Observe que agora na saída do Eviews, indica-se que foi utilizada a opção White
Heteroskedasticity-Consistent Standard Errors & Covariance, e pode-se comparar os
resultados com os da Tabela 4, sem essa opção de White. De modo geral, nesse exemplo, os
erros-padrões estavam subestimados. Pode-se observar que o modelo com heterocedasticidade
apresenta viés nos erros padrões, podendo ser negativo ou positivo, dependendo do estudo.
Quanto aos parâmetros, não ocorrem alterações.
Após a correção de White não cabe mais a nova realização do teste, pois os resultados
já foram obtidos com os resíduos alterados pelo critério de White.
Econometria – Prof. Adriano M. R. Figueiredo
55
Anexo Roteiro para estimação no Eviews – Heterocedasticidade Gujarati, Tabela 11.5 (Table11-5.wf1), p. 388 – Teste de Glejser 1. estimar modelo normalmente:
Estimation Command: ===================== LS (PD) (VENDAS) C Estimation Equation: ===================== PD = C(1)*VENDAS + C(2) Substituted Coefficients: ===================== PD = 0.03190033243*VENDAS + 192.9931098 Dependent Variable: PD Method: Least Squares Date: 03/04/05 Time: 16:00 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
VENDAS 0.031900 0.008329 3.830033 0.0015 C 192.9931 990.9858 0.194749 0.8480
R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
Econometria – Prof. Adriano M. R. Figueiredo
56
Gerar séries de resíduos em Procs/Make residual series:
Econometria – Prof. Adriano M. R. Figueiredo
57
Fazer série de resíduos absolutos: me=@abs(e)
Estimar “me” em função de Vendas: ou seja, módulo dos resíduos em função de vendas:
Econometria – Prof. Adriano M. R. Figueiredo
58
Dependent Variable: ME Method: Least Squares Date: 03/04/05 Time: 18:18 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
VENDAS 0.011939 0.005704 2.093059 0.0526 C 578.5710 678.6950 0.852476 0.4065
R-squared 0.214951 Mean dependent var 1650.432 Adjusted R-squared 0.165886 S.D. dependent var 2069.046 S.E. of regression 1889.657 Akaike info criterion 18.03062 Sum squared resid 57132868 Schwarz criterion 18.12955 Log likelihood -160.2756 F-statistic 4.380896 Durbin-Watson stat 1.743294 Prob(F-statistic) 0.052633
Econometria – Prof. Adriano M. R. Figueiredo
59
Me em função da raiz de vendas:
Dependent Variable: ME Method: Least Squares Date: 03/04/05 Time: 18:18 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
SQR(VENDAS) 7.971957 3.363146 2.370387 0.0307 C -507.0202 1007.684 -0.503154 0.6217
R-squared 0.259901 Mean dependent var 1650.432 Adjusted R-squared 0.213645 S.D. dependent var 2069.046 S.E. of regression 1834.761 Akaike info criterion 17.97166 Sum squared resid 53861578 Schwarz criterion 18.07059 Log likelihood -159.7449 F-statistic 5.618732 Durbin-Watson stat 1.785727 Prob(F-statistic) 0.030672
Econometria – Prof. Adriano M. R. Figueiredo
60
Me em função de 1/vendas:
Dependent Variable: ME Method: Least Squares Date: 03/04/05 Time: 18:20 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
1/(VENDAS) -19924566 12318138 -1.617498 0.1253 C 2273.702 604.6990 3.760056 0.0017
R-squared 0.140538 Mean dependent var 1650.432 Adjusted R-squared 0.086822 S.D. dependent var 2069.046 S.E. of regression 1977.188 Akaike info criterion 18.12118 Sum squared resid 62548360 Schwarz criterion 18.22011 Log likelihood -161.0906 F-statistic 2.616300 Durbin-Watson stat 1.505561 Prob(F-statistic) 0.125313
Correção: Fazer PD/(SQR(Vendas)) em função de 1/(SQR(Vendas)) e de (SQR(Vendas))
Econometria – Prof. Adriano M. R. Figueiredo
61
Dependent Variable: PD/SQR(VENDAS) Method: Least Squares Date: 03/04/05 Time: 18:23 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
1/SQR(VENDAS) -246.6769 381.1285 -0.647228 0.5267 SQR(VENDAS) 0.036798 0.007114 5.172315 0.0001
R-squared 0.364889 Mean dependent var 8.855264 Adjusted R-squared 0.325195 S.D. dependent var 8.834378 S.E. of regression 7.257134 Akaike info criterion 6.906286 Sum squared resid 842.6560 Schwarz criterion 7.005216 Log likelihood -60.15658 F-statistic 9.192455 Durbin-Watson stat 2.885313 Prob(F-statistic) 0.007933
Econometria – Prof. Adriano M. R. Figueiredo
62
Método de White: TESTE
White Heteroskedasticity Test:
F-statistic 3.057178 Probability 0.076975 Obs*R-squared 5.212492 Probability 0.073811
Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 03/04/05 Time: 18:32 Sample: 1 18 Included observations: 18
Variable Coefficient Std. Error t-Statistic Prob.
C -6219665. 6459809. -0.962825 0.3509 VENDAS 229.3508 126.2197 1.817077 0.0892
VENDAS^2 -0.000537 0.000449 -1.194952 0.2507
R-squared 0.289583 Mean dependent var 6767046. Adjusted R-squared 0.194861 S.D. dependent var 14706011 S.E. of regression 13195639 Akaike info criterion 35.77968 Sum squared resid 2.61E+15 Schwarz criterion 35.92808 Log likelihood -319.0171 F-statistic 3.057178 Durbin-Watson stat 1.694567 Prob(F-statistic) 0.076975
Rejeita-se a hipótese nula , portanto temos presença de erros heterocedásticos a 10% de significância. Não teríamos se fosse considerado 5%!!!!
Econometria – Prof. Adriano M. R. Figueiredo
63
Correção de heterocedasticidade pelo método de White:
Dependent Variable: PD Method: Least Squares Date: 03/04/05 Time: 18:29 Sample: 1 18 Included observations: 18 White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
C 192.9931 533.9317 0.361457 0.7225 VENDAS 0.031900 0.010147 3.143815 0.0063
R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476
Observar que os erros-padrões entre a regressão principal e a regressão com correção de White se alteraram, ou seja, a correção de White retirou os vieses nos erros-padrões estimados.
Econometria – Prof. Adriano M. R. Figueiredo
64
4.4. Pressuposição 4: Os erros aleatórios são independentes (ou não autocorrelacionados)
A principal conseqüência da violação desta pressuposição é a ineficiência dos
estimadores de M.Q.O. mas, continuam não-tendenciosos. Nesta situação, da mesma forma
que para a heterocedasticidade, é melhor utilizar o método de Mínimos Quadrados
Generalizados (M.Q.G.).
Imagine um modelo mais comum, com autocorrelação de 1ª. Ordem:
ttt 1
em que ρ é o parâmetro de autocorrelação e υ é um termo de erro “bem comportado”, ou seja,
não autocorrelacionado normal de média zero e variância σ2
υ, ou também chamado de ruído
branco (white noise).
O coeficiente de autocorrelação ρ pode ser obtido pela expressão
2/1
1t
2/1
t
1tt
)](Var[)](Var[
),(Covˆ
O teste mais comum para detectar a presença de erros autocorrelacionados é o Teste de
Durbin-Watson. A hipótese nula a ser testada é que
Ho: ρ = 0 => não há autocorrelação
Contra a hipótese alternativa
H1: ρ ≠ 0 => ρ > 0 autocorrelação positiva => ρ < 0 autocorrelação negativa
A estatística de teste é o chamado DW, calculado como:
ˆ12
ˆ
ˆˆ
DWT
1t
2
t
T
2t
2
1tt
em que
ρ = 0 DW = 2 => ausência de autocorrelação
ρ = +1 DW = 0 => autocorrelação positiva e perfeita
ρ = -1 DW = 4 => autocorrelação negativa e perfeita
Portanto, deseja-se DW próximo de 2, ou seja, ausência de autocorrelação.
Econometria – Prof. Adriano M. R. Figueiredo
65
A análise requer a comparação dos valores de DW com valores tabelados, que
prevêem duas distribuições de probabilidade entrelaçadas: uma distribuição inferior e outra
superior. Elas determinam áreas de aceitação e rejeição da hipótese nula, como na figura a
seguir:
em que
dL = limite inferior => vem da tabela para n observações e k variáveis explanatórias
dU = limite superior => vem da tabela para n observações e k variáveis explanatórias
Exemplo:
Para k = 3 (referente a um modelo com X1, X2 e X3), para n = 30 observações, a tabela de
DW para 5% de significância nos fornece dL = 1,21 e dU=1,65, e portanto,
4-dL = 4 – 1,21 = 2,79
4 – dU = 4 – 1,65 = 2,35
Para 0<DW<1,21 = rejeição de Ho e autocorrelação positiva
Para 1,21<DW<1,65 = área inconclusiva
Para 1,65<DW<2,35 = aceitação de Ho e não-autocorrelação
Para 2,35<DW<2,79 = área inconclusiva
Para 2,79<DW<4 = rejeição de Ho e autocorrelação negativa
As deficiências neste método são:
presença de áreas inconclusivas
só testa autocorrelação de primeira ordem
deve incluir intercepto na regressão
o teste não é válido quando o modelo tem variável dependente defasada como
variável explicativa
Econometria – Prof. Adriano M. R. Figueiredo
66
Uma alternativa para contornar essas deficiências é via teste h de Durbin, para casos
de variável dependente defasada como variável explicativa. O teste é calculado por
)(Var.T1
Th
~ N(0,1) = comparar com o limite de ±1,96 p/ 5%
em que
T – número de observações
β – parâmetro da variável dependente defasada.
Outro procedimento que contorna as deficiências do teste DW e tem sido incorporado
à maioria dos softwares econométricos é o teste de Breusch-Godfrey de autocorrelação
superior, ou de Multiplicador de Lagrange para Correlação Serial (Serial Correlation LM
Test).
Este teste é bastante útil para detectar autocorrelação de ordens maiores que a
primeira, ou seja, para AR(P>1) em que P é a ordem da autocorrelação. A hipótese nula será
H0: não autocorrelação dos resíduos
H1: εt = AR(P) ou εt = MA(P)
Por exemplo, suponha o seguinte processo auto-regressivo:
tptp3t32t21t1t
A hipótese nula será de que todos os coeficientes de autocorrelação são
simultaneamente nulos, ou seja, todos os ρi = 0 e não há autocorrelação de qualquer ordem.
A estatística de teste será um multiplicador de Lagrange do tipo
2
p
'
0
1
0
'
002
0 ~e'e
eX)XX(X'e)pn(R)pn(LM
O procedimento será:
1. estimar o modelo de regressão pelo método usual de MQO e obter resíduos εt;
2. estimar o modelo de εt como função das demais variáveis X do modelo “a” e
também de variáveis εt defasadas (εt-1 εt-2 ... etc), utilizando para estas defasagens
os resíduos obtidos em “a”;
3. obter o valor de R2
desta regressão “b”;
Econometria – Prof. Adriano M. R. Figueiredo
67
4. A estatística de teste será LMBG = (n-p).R2 ~ χ
2p graus de liberdade. P é o número
de defasagens incluídas na regressão “b”.
Se a estatística de teste LMBG > valor crítico de χ2
p então se rejeita a hipótese nula e
existe autocorrelação serial de ordem P, ou seja, pelo menos um ρi ≠ 0. Neste teste, pode-se
ter variáveis X ou mesmo Y defasadas, o que representa uma vantagem sobre o teste DW.
Estimação solucionando o problema de autocorrelação:
Estima-se o modelo inicial por M.Q.O. e depois segue um procedimento iterativo até
alcançar a convergência nos parâmetros. Abaixo estão os passos da estimação de Cochrane-
Orcutt:
1) Estima-se modelo inicial por MQO e obtém DW
2) Calcula-se ρ = 1 – 0,5.DW
3) Estima equação transformada:
t1tt211tt XX1YY
ou
4) Recalcula-se (2) e verifica-se a convergência para ρ.
5) Repetem-se os passos (2) a (4) até que a convergência seja menor que 0,01.
A implementação no Eviews prevê a inserção de um termo AR(1) na especificação das
variáveis da equação. O programa fará a estimação considerando a correção para o
autoregressivo de primeira ordem.
Econometria – Prof. Adriano M. R. Figueiredo
68
Anexo Autocorrelação Para a equação da taxa de retorno RR em função do crescimento (Growth) e da inflação (Inflation):
Dependent Variable: RR Method: Least Squares Date: 03/07/05 Time: 20:19 Sample: 1954 1981 Included observations: 28
Variable Coefficient Std. Error t-Statistic Prob.
GROWTH 3.943315 1.293445 3.048693 0.0054 INFLATION -2.499426 1.082101 -2.309789 0.0294
C 3.531812 8.111369 0.435415 0.6670
R-squared 0.572374 Mean dependent var 5.875000 Adjusted R-squared 0.538164 S.D. dependent var 20.89837 S.E. of regression 14.20223 Akaike info criterion 8.245632 Sum squared resid 5042.582 Schwarz criterion 8.388368 Log likelihood -112.4388 F-statistic 16.73114 Durbin-Watson stat 1.896592 Prob(F-statistic) 0.000024
DW = 1,8965 Teste de Breusch-Godfrey: SERIAL CORRELATION LM TEST
Econometria – Prof. Adriano M. R. Figueiredo
69
Especificar número de variáveis a adicionar em Xo, ou seja, se 1 (AR(1)), se 2 (AR(2)):
Breusch-Godfrey Serial Correlation LM Test:
F-statistic 0.319962 Probability 0.729357 Obs*R-squared 0.757950 Probability 0.684563
Test Equation: Dependent Variable: RESID Method: Least Squares Date: 03/07/05 Time: 20:23
Variable Coefficient Std. Error t-Statistic Prob.
GROWTH -0.371429 1.426117 -0.260448 0.7968 INFLATION -0.131592 1.125693 -0.116898 0.9080
C 1.737633 8.657860 0.200700 0.8427 RESID(-1) -0.014931 0.211928 -0.070455 0.9444 RESID(-2) -0.177451 0.222006 -0.799306 0.4323
R-squared 0.027070 Mean dependent var -3.68E-15 Adjusted R-squared -0.142136 S.D. dependent var 13.66610 S.E. of regression 14.60506 Akaike info criterion 8.361046 Sum squared resid 4906.081 Schwarz criterion 8.598940 Log likelihood -112.0546 F-statistic 0.159981 Durbin-Watson stat 1.787912 Prob(F-statistic) 0.956406
Não há evidencias de autocorrelação no modelo, pois Obs*R-squared=0.75 com Probabilidade de 0.68, indicando aceitação de Ho: não-autocorrelação
Econometria – Prof. Adriano M. R. Figueiredo
70
Exercicio Gujarati, p.447-448:
Dependent Variable: LOG(PCDOM) Method: Least Squares Date: 03/07/05 Time: 21:10 Sample: 1951 1980 Included observations: 30
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) 0.467509 0.165987 2.816541 0.0093 LOG(PCBOLSA) 0.279443 0.114726 2.435745 0.0223
LOG(CONST) -0.005152 0.142947 -0.036038 0.9715 LOG(PALU) 0.441449 0.106508 4.144737 0.0003
C -1.500441 1.003020 -1.495923 0.1472
R-squared 0.936090 Mean dependent var 3.721145 Adjusted R-squared 0.925864 S.D. dependent var 0.447149 S.E. of regression 0.121749 Akaike info criterion -1.222692 Sum squared resid 0.370573 Schwarz criterion -0.989160 Log likelihood 23.34039 F-statistic 91.54312 Durbin-Watson stat 0.954940 Prob(F-statistic) 0.000000
Neste caso, DW=0.9549 Para gl=30, k’=4, dl=1,143 e du=1,739, portanto, DW<dl => rejeita Ho, tenho indicação de autocorrelação positiva Teste LM para AR(1): Breusch-Godfrey Serial Correlation LM Test:
F-statistic 10.02749 Probability 0.004163 Obs*R-squared 8.840634 Probability 0.002946
Test Equation: Dependent Variable: RESID Method: Least Squares Date: 03/07/05 Time: 21:12
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) -0.104877 0.146079 -0.717946 0.4797 LOG(PCBOLSA) 0.089288 0.102299 0.872811 0.3914
LOG(CONST) 0.045395 0.123362 0.367981 0.7161 LOG(PALU) -0.009785 0.091346 -0.107125 0.9156
C -0.368385 0.867570 -0.424617 0.6749 RESID(-1) 0.567066 0.179076 3.166620 0.0042
R-squared 0.294688 Mean dependent var 8.14E-17 Adjusted R-squared 0.147748 S.D. dependent var 0.113041 S.E. of regression 0.104357 Akaike info criterion -1.505141 Sum squared resid 0.261370 Schwarz criterion -1.224901 Log likelihood 28.57711 F-statistic 2.005497 Durbin-Watson stat 1.521486 Prob(F-statistic) 0.114145
Existe problema pois rejeita-se Ho a 1%. Existe AR(1)
Econometria – Prof. Adriano M. R. Figueiredo
71
Para AR(2): Breusch-Godfrey Serial Correlation LM Test:
F-statistic 9.417751 Probability 0.001028 Obs*R-squared 13.50683 Probability 0.001167
Test Equation: Dependent Variable: RESID Method: Least Squares Date: 03/07/05 Time: 21:13
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) -0.036780 0.134421 -0.273620 0.7868 LOG(PCBOLSA) 0.028677 0.095271 0.301008 0.7661
LOG(CONST) 0.082020 0.112179 0.731149 0.4721 LOG(PALU) -0.017166 0.082432 -0.208239 0.8369
C -0.552588 0.785758 -0.703255 0.4890 RESID(-1) 0.795135 0.184599 4.307363 0.0003 RESID(-2) -0.489015 0.191703 -2.550900 0.0179
R-squared 0.450228 Mean dependent var 8.14E-17 Adjusted R-squared 0.306809 S.D. dependent var 0.113041 S.E. of regression 0.094116 Akaike info criterion -1.687610 Sum squared resid 0.203731 Schwarz criterion -1.360664 Log likelihood 32.31415 F-statistic 3.139250 Durbin-Watson stat 1.918606 Prob(F-statistic) 0.021333
Também existe problema para AR(2). Ficou mais expressivo o problema de autocorrelação. Para AR(3): Breusch-Godfrey Serial Correlation LM Test:
F-statistic 6.169355 Probability 0.003321 Obs*R-squared 13.70695 Probability 0.003332
Test Equation: Dependent Variable: RESID Method: Least Squares Date: 03/07/05 Time: 21:25
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) -0.029746 0.137274 -0.216691 0.8304 LOG(PCBOLSA) 0.025964 0.096960 0.267780 0.7914
LOG(CONST) 0.078075 0.114254 0.683340 0.5015 LOG(PALU) -0.025278 0.085213 -0.296644 0.7695
C -0.512105 0.802317 -0.638283 0.5299 RESID(-1) 0.854409 0.219535 3.891895 0.0008 RESID(-2) -0.592317 0.278293 -2.128395 0.0447 RESID(-3) 0.126950 0.244219 0.519819 0.6084
R-squared 0.456898 Mean dependent var 8.14E-17 Adjusted R-squared 0.284093 S.D. dependent var 0.113041 S.E. of regression 0.095646 Akaike info criterion -1.633151 Sum squared resid 0.201259 Schwarz criterion -1.259498 Log likelihood 32.49727 F-statistic 2.644009 Durbin-Watson stat 2.002055 Prob(F-statistic) 0.038212
Ainda tem, mas menos que para AR(2). Observe que o termo de RESID(-3) já não é significativo. Optar por corrigir para AR(2).
Econometria – Prof. Adriano M. R. Figueiredo
72
Estimação com AR(1) e AR(2):
Dependent Variable: LOG(PCDOM) Method: Least Squares Date: 03/07/05 Time: 21:31 Sample(adjusted): 1953 1980 Included observations: 28 after adjusting endpoints Convergence achieved after 9 iterations
Variable Coefficient Std. Error t-Statistic Prob.
LOG(IPI) 0.440700 0.165083 2.669563 0.0143 LOG(PCBOLSA) 0.291534 0.103733 2.810420 0.0105
LOG(CONST) 0.102063 0.175677 0.580969 0.5674 LOG(PALU) 0.429664 0.118912 3.613298 0.0016
C -2.197667 1.211239 -1.814395 0.0839 AR(1) 0.773165 0.187424 4.125212 0.0005 AR(2) -0.531683 0.192075 -2.768097 0.0115
R-squared 0.960153 Mean dependent var 3.765864 Adjusted R-squared 0.948768 S.D. dependent var 0.428531 S.E. of regression 0.096996 Akaike info criterion -1.615986 Sum squared resid 0.197571 Schwarz criterion -1.282935 Log likelihood 29.62381 F-statistic 84.33634 Durbin-Watson stat 1.850840 Prob(F-statistic) 0.000000
Inverted AR Roots .39+.62i .39 -.62i
Comparar com resultados da primeira regressão! Melhores indicadores!
Econometria – Prof. Adriano M. R. Figueiredo
73
Anexo: Tabela de Durbin-Watson para 5% de significância, reproduzida a partir de Gujarati,
Damodar. Basic Econometrics. McGraw-Hill, 2004.
Econometria – Prof. Adriano M. R. Figueiredo
74
Exemplo: Se n = 40 e k’ = 4, dL = 1,285 e dU = 1,721. Se o valor de DW calculado é menor
que 1,285, existe evidência de autocorrelação serial de primeira ordem e positiva; se DW for
maior que 1,721 e menor que 4-dU = 2,279, então não existe evidência de autocorrelação de
primeira ordem, mas se DW estiver entre os limites dL e DU, ou entre 4-dU e 4-dL então
existe uma área inconclusiva sobre autocorrelação.
4.5. Pressuposição 6: O erro tem distribuição normal, com média zero e variância constante:
Econometria – Prof. Adriano M. R. Figueiredo
75
O teste para detecção mais usual é o Bera-Jarque, ou teste BJ, o qual testa a simetria e
a curtose da distribuição dos resíduos em relação à curva normal.
A curtose está associada ao achatamento da distribuição, quanto mais chata menor o
valor da curtose (K). Exemplo: K>3 (distribuição mais “em pé”), K<3 (distribuição mais
“chata”).
A curtose (em inglês kurtosis) é definida pela expressão:
N
t
i
Var
YY
NK
1
4
1
A simetria (do inglês skewness) é dada pela expressão:
N
t
i
Var
YY
NS
1
3
1
N
NsVarˆ
12
A estatística do teste BJ será:
2
2
2
412 3
6
1 gl~KSpnBJ
Se rejeitar H0:erros normais, tenho que descobrir qual é a distribuição real dos
resíduos e fazer nova dedução do estimador dos parâmetros.
Em geral, para amostras grandes, aplica-se o Teorema do Limite Central
argumentando que no limite tem-se a normalidade da distribuição dos resíduos.
Roteiro para testar no Eviews:
1) estimar a regressão
2) no menu “equation”, acionar View/Residual Tests/histogram
3) a análise fornece o histograma com uma tabela de estatísticas descritivas da serie de
resíduos, contendo o skewness (simetria) e a kurtosis (curtose). Se K for próximo de 3,
então é próxima da normal.
Exemplo 1: se K=2,95 e χ2
tab = 1,76 e o p-value=0,41, para H0: erro normal, então p-value
maior que 0,10 indica a aceitação de H0, ou seja, os erros são normais.
Exemplo 2:
Econometria – Prof. Adriano M. R. Figueiredo
76
Ex12_22, Gujarati (p.447):
Std. Dev = 0,085542
Skewness = 0,047155
Kurtosis = 2,367936
BJ = 0,47 e p-value = 0,78 => aceita H0: erros normais
Econometria – Prof. Adriano M. R. Figueiredo
77
Anexo Erros Normais: Equation/View/Residual Tests/Histogram – Normality Test
Econometria – Prof. Adriano M. R. Figueiredo
78
4.6. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas)
Se as variáveis explicativas e os termos aleatórios forem correlacionados, haverá
inconsistência dos estimadores de mínimos quadrados ordinários. Deve-se utilizar o estimador
de variáveis instrumentais. O método de Variáveis instrumentais prevê que
β = (Z´X)-1
Z´Y , e Z é uma matriz de instrumentos independentes dos erros aleatórios.
Não se tem testes formais para investigar esta pressuposição. O que é feito em geral é
investigar as correlações entre as variáveis explicativas e os termos aleatórios via matriz de
correlações entre eles.
Outra alternativa é fazer o Teste de exogeneidade das variáveis utilizando o
procedimento de Hausmann.
4.7. Pressuposição 7: Ausência de relação linear exata entre as variáveis explicativas (não multicolinearidade)
A detecção do problema passa por diversas análises:
1. Ocorrência de R2 alto e “t”´s não-significativos;
2. Altas correlações simples entre as variáveis explicativas, por exemplo, acima de 0,8;
3. Altas correlações parciais entre os X´s: verificar o coeficiente de correlação parcial quando
algumas variáveis são consideradas constantes;
4. Regressões auxiliares: fazer a regressão considerando o Xi como variável dependente das
demais variáveis Xj
X1 = f(X2, X3, X4, ... , Xn)
X2 = g(X1, X3, X4, ... , Xn)
X3 = h(X1, X2, X4, ... , Xn)
Etc
Esta alternativa permite identificar quais variáveis estão mais relacionadas. Se o R2 da
regressão auxiliar for alto, então se tem a indicação de multicolinearidade;
5. Regra de Klein: a multicolinearidade não é prejudicial se
R2
Y∙ X1, X2, ... , Xk > R2
Xi ∙ X1, X2... , Xk
Econometria – Prof. Adriano M. R. Figueiredo
79
6. Verificar a estabilidade das estimativas
Y = f(X1)
Y = f(X1,X2)
Y = f(X1, X2, X3)
As soluções para a presença de multicolinearidade passam pela retirada de variáveis
problemáticas, ou omissão de variáveis, deixando aquela mais relevante para a pesquisa. As
regressões auxiliares auxiliarão na escolha entre as variáveis para decidir qual será retirada do
modelo. O problema com a omissão de variáveis é a inserção de erro de especificação. Outra
opção é aumentar o tamanho da amostra, caso possível. O aumento da amostra é o mesmo que
reduzir a micronumerosidade e com isto ganha-se observações que tendem a não estar
observando uma perfeita relação com outras variáveis. Uma terceira opção é transformar as
variáveis problemáticas, fazendo razões entre elas (Xi/Xj), como os preços relativos. A
limitação com este procedimento é que se perde a relação direta, ficando apenas com
parâmetros que refletem relações para a razão.
O cálculo das correlações parciais não é direto nem simples quando se tratar de
regressão múltipla. Uma alternativa é usar pacotes que já contêm a rotina, como por exemplo
o Stata, fazendo uso de comandos como a seguir, para o exemplo dado em Greene
(2002:p.30): . pcorr y year g interest p
Partial correlation of y with
Variable | Corr. Sig.
-------------+------------------
year | -0.9385 0.000
g | 0.9693 0.000
interest | -0.5410 0.069
p | 0.0153 0.962
Ou seja, retorna as correlações parciais de y com respeito a cada variável da lista (year,
g, interest, p).
Outro método é a análise do Fator de variância inflacionária (FVI), ou no inglês
Variance Inflation Factor (VIF), ou ainda, Fator de inflação da Variância (Gujarati, 2006:
Econometria – Prof. Adriano M. R. Figueiredo
80
p.282), para cada variável explicativa. Neste caso, faz-se a estimação de
e obtém-se o para cada variável. O FVI da variável i será:
Se o conjunto de variáveis explicativas for independente, não-correlacionado, o FVI
será igual a um ( ). O gretl estabelece uma comparação de FVI com 10, ou seja,
valores superiores a FVI= 10 indicariam multicolinearidade entre estas variáveis. Já Santana
(2003: p.244) recomenda o valor de FVI = 5. Já Greene (2002: p.58) cita autores os quais
recomendam atenção para valores de FVI maiores que 20. Acredito ser mais prudente ficar
com o valor de FIV = 5, a favor da segurança! Gujarati (2006: p.284) faz uma análise
interessante para averiguar a tolerância implícita no modelo.
A seguir tem-se uma saída do Gretl. Na janela da estimação do modelo, clicando em
Testes e em Colinearidade, tem-se a saída do teste de FVI (ou Factores de Inflaccionamento
da Variância – VIF – no Gretl).
Econometria – Prof. Adriano M. R. Figueiredo
81
No exemplo reproduzido acima, as variáveis índex e G apresentam multicolinearidade
preocupante, com valores da ordem de 24, bem acima dos 10,0 recomendados pelo Gretl.
Naquele caso, a variável G é o crescimento do PIB e índex é uma variável tendência, que
normalmente apresentam colinearidade.
Econometria – Prof. Adriano M. R. Figueiredo
82
4.8. Resumo
Pressuposição Teste Hipótese Nula: H0 Problema
1. Relação Linear / especificação RESET de Ramsey H0: Não há erro de especificação Se rejeitar H0
2 . Média do erro é zero Teste de hipótese simples (t) H0: média igual a zero Se rejeitar H0
3. Variância do erro é constante
Glejser H0: β1=0 => variável de β1 não
causa heterocedasticidade Se rejeitar H0
White H0:β=0 => não há
heterocedasticidade Se rejeitar H0
Breusch-Pagan LM Test H0: não há heterocedasticidade Se rejeitar H0
4. Erros independentes
Durbin-Watson (DW) H0: erros não autocorrelacionados Se rejeitar H0
h-Durbin H0: erros não autocorrelacionados Se rejeitar H0
LM de Breusch-Godfrey H0: erros não autocorrelacionados Se rejeitar H0
5. Variáveis explicativas são não-estocásticas ou fixas
Matriz de correlação Não há correlação
6. Independência linear entre as variáveis explicativas
Equações auxiliares e regra de Klein
H0: R2
Y∙ X1, X2, ... , Xk > R2 Xi ∙ X2, ... , Xk R
2Y∙ X1, X2, ... , Xk < R
2 Xi ∙ X2, ... , Xk
7. Erro tem distribuição normal Bera-Jarque H0: erros são normais Se rejeitar H0
* Em que Y = [Yi] é um vetor nX1 das observações da variável dependente; X = [Xij] é uma matriz nXp das observações das variáveis independentes; ε = [εi] é um vetor nX1 dos erros aleatórios; β = [βj], j = 0, 1, 2, ..., k é um vetor pX1 de parâmetros a serem estimados; δ² é a variância do erro, também a ser estimada; I é uma matriz identidade de ordem mXn; k é o número de variáveis independentes; p = K + 1 é o número de parâmetros; n é o número de observações; E significa valor esperado ou esperança matemática.
6.
Econometria – Prof. Adriano M. R. Figueiredo
83
5 Referências Bibliográficas
GREENE, W. Econometric analysis. 5th
Edition. New Jersey: Prentice-Hall, 2002.
GUJARATI, D.N. Econometria Básica. 4.ed. São Paulo: Campus, 2006.
HILL, C.; GRIFFITHS, W.; JUDGE, G. Econometria. São Paulo: Saraiva, 1999.
KENNEDY, P. A guide to econometrics. Cambridge: The MIT Press, 1998.
MATOS, O.C. Econometria Básica: teoria e aplicações. São Paulo: Atlas, 1995.
PINDYCK, Robert S.; RUBINFELD, Daniel L. Econometria: modelos e previsões. 4.ed.
Rio de Janeiro: Elsevier/Campus, 2004.
SANTANA, Antônio Cordeiro. Métodos Quantitativos em Economia: elementos e
aplicações. Belém: UFRA, 2003.
VASCONCELLOS, M.A.S.; ALVES, D. (coords.). Manual de econometria. São Paulo:
Atlas, 2000.
WOOLDRIDGE, J.M. Introdução a Econometria: uma abordagem moderna. São Paulo:
Pioneira Thomson Learning, 2006.
7. Programas Recomendados
GRETL - http://gretl.sourceforge.net/gretl_portugues.html EVIEWS - http://www.eviews.com/ STATA - http://www.stata.com/ LIMDEP - http://www.limdep.com/