Econometria I

5/11/2018 Econometria I - slidepdf.com

http://slidepdf.com/reader/full/econometria-i-55a2342ded013 1/43

ECONOMETRIA

Notas de Aula

Prof. Cláud io And ré



PARTE I

A Econometria através de um estudo de caso...

O Sr. Econop oulos é o rep resentante e xclusivo em Forta leza das c amionetasAPRIGIUS, as ma is espaç osas e resistentes do m ercado.

O p reç o d e uma c am ioneta nova e de seus opc ionais é d eterminad o p ela fábric a

e, portanto, não é uma variáve l de c ontrole dele.

Entreta nto, a sua loja enc arrega-se ta mb ém da venda de c am ioneta s usad as e os

seus preç os não sofrem qua lque r ingerênc ia d a monta dora.

O problema seria, então, determinar o preço de um modelo usado. De posse dessa

informa ç ão, o ga nho em ca da venda po deria ser otimizad o.

Ma is espec ificamente, o Sr. Ec onopoulos está p reocupado q ue os p reç os

dete rminad os pe lo Sr. Pic arett i, o seu g erente de ve ndas de c amionetas usad as,

não estejam send o d ete rminad os de forma c la ra e previsível.

Depois de comparecer a um seminário sobre vendas, ele decidiu implantar um

sistema de determinação de preços em sua revendedora. Mas, que sistema

implantar?

O Sr. Ec ono poulos pensou b asta nte sob re o a ssunto , e lembrou-se q ue um dospa lestrantes fa lou sobre a possibilidade d e utiliza r a ECONOMETRIA na

de terminaç ão do s preço s de revend a d e veíc ulos.

Mas, o que é Econometria?

O Sr. Ec onopoulos não sab ia , mas ficou b astante c urioso p ara aprend er na

tenta tiva de soluc iona r o seu p rob lema .

E, entã o, o que é a Ec onometria?

Em suas leituras introd utó rias, o Sr. Ec onopoulos desc ob riu que a Ec onom etria

consiste basicamente da util ização da teoria econômica, da Matemática e daEstatística na tentativa de mensurar as relações existentes entre variáveis

econômicas.

No c aso, o pap el da teo ria seria o de suge rir variáveis e relaç ões imp ortantes entre

elas, enquanto que a Matemática e a Estatística serviriam para quantificar estas

relações.

Co m b ase ne ssas idé ias básicas, o Sr. Ec onop oulos pensou:

“ Se e u c onseg uir esc olher um c onjunto d e va riáveis imp ortantes pa ra dete rminar o

preço de revenda de camionetas usadas, então, eu poderei aumentar os lucros

obtidos em c ada venda .”



Muito e ntusiasma do, ele conversou c om o Sr. Pica ret ti a este respeito q ue

prontam ente respo ndeu:

“ Eu sinceramente a c ho que isto é uma to tal perda de temp o! A de terminaç ão do

preço d e veículos usad os é a ntes de tudo uma arte. No fundo, é a experiênc ia e a

percep çã o do avaliad or que c ontam.”

Ma s, o Sr. Ec onopoulos não c onc ordou... Ele já havia p ercebido q ue a Ec onometria

seria capaz de lhe dar uma resposta mais precisa, isto é, menos dependente de

juízos de va lor.

Então, como os preços seriam determinados?

O Sr. Ec onopoulos verific ou que as aná lises ec onométric as partem sempre de uma

ab orda gem teórica do tema em q uestão.

Portanto, o p rimeiro p asso p ara implanta r um sistema de ava liaç ão de c am ioneta s

usad as seria a formulaç ão de um m od elo teórico.

No caso, os modelos mais simples tratam da relação entre duas variáveis, uma

chamada de dependente (a que se quer explicar) e outra chamada de variável

independente ou explicativa.

E, então? Qua is seriam a s va riáve is que ma is se a deq uariam neste c ontexto?

O Sr. Ec onopo ulos não teve d úvidas quanto à va riável depend ente neste c aso. Esta

seria e xata mente o p reç o d e revend a d a c am ioneta , em reais, que d oravante será

rep resentado po r pr.

Ma s, qua l seria a va riáve l exp lic ativa neste c aso? Utilizando a sua experiênc ia, o Sr.

Ec onopo ulos verific ou q ue o a no d e fab ric aç ão da c am ioneta (af) seria

fundamenta l pa ra d eterminar o seu va lor de revend a.

E, que tipo de relaç ão existiria entre esta s duas va riáve is? No c aso, o Sr.

Ec onopoulos espera q ue a relaç ão e ntre elas seja positiva, ou seja, ele espera que

quanto mais nova a camioneta (i.e., quanto maior for o seu ano de fabricação),

ma ior tenderá a ser o seu p reç o d e revenda .

BOX: Os tipos de relações

Basicamente as relações, se existirem, entre variáveis econômicas podem ser de

dois tipos:

- Positivas: quando dos dados tend em a se move r na mesma d ireç ão (e.g., Lei

da Oferta)

- Negativas: quando dos dados tendem a se mover na direção oposta (e.g.,

Lei da Dema nda ).

Ob s.: duas va riáveis que tendem a se move r em um p adrão rela tivamente p revisível

não possuem necessariamente uma relação que possa ser teoricamenteinterpretada.



BOX: Os tipos de relações (continuação)

Por exemp lo, pod e ha ver uma c orrelaç ão muito forte entre a ta xa d e c resc imento

do PIB brasileiro e a taxa d e c resc imento da po pulaç ão de bo rbo leta s na Mongólia.

Será q ue voc ê p od eria e xp lic ar esse fenô meno? Este é um exemplo d e uma

relação espúria.

Ma s, c om o representa r esta idéia matem atica me nte? Com b ase em seus estudos, o

Sr. Ec ono poulos rep resentou a sua relaç ão teó rica ent re a s va riáve is da seg uinte

forma:

⎟ ⎠

⎞⎜⎝

⎛ ψ=+

a fp r

No caso, o preço da camioneta seria uma função (representada pela letra grega

psi ) do ano de fabricação da camioneta. O sinal positivo acima da variável

explicativa significa que a relação entre ela e a dependente é positiva oudireta mente p rop orcional.

Mas, na prática, que forma deveria assumir esta função genérica especificada

ac ima ? O Sr. Ec onopoulos havia lido que os mo delos ma tem áticos ma is bá sic os são

os mo delos lineares. Portanto , o seu mod elo pod eria ser esc rito da seg uinte fo rma :

( ) a f.a fp r 21 β+β=ψ=

β1 rep resenta o intercepto desta função, ou seja, seria o va lor de pr quando af = 0.

Neste c aso, este termo não teria um significad o ec onôm ico ób vio.

β2, por sua vez, representa o coeficiente de declividade desta função, isto é, ele

mede a variaç ão d e pr da da uma variaç ão em af.

Formalmente:

da f

dp r

a f

pr2 ≈

∆∆

=β

Graficamente:



Com o, neste c aso, a relaç ão espe rad a entre pr e af é positiva , entã o, supõe -se q ue

β2 > 0.

Em termos práticos, tem-se que cada ano adicional de uso reduz o preço de

revenda da ca mioneta em β2 reais.

Exemplo:

Co nsidere a funç ão Y = 5 + 2.X

Verifique que, neste c aso, β1 = 5 e β2 = 2.

Logo:

Se X = 0, entã o Y = 5 = β1

Se X = 1, então Y = 5 + 2.1 = 7

Co nsiderando-se esses dois c asos, entã o, te m-se que:

∆Y = 7 – 5 = 2 e ∆X = 1 – 0 =1

Logo, ∆Y/ ∆X = 2/1 = 2 = β2

Assim, pa ra c ad a unida de que X aumenta , Y c resc erá em 2 unidades.

Um p onto funda me nta l é q ue o Sr. Ec onopoulos desc onhec e os va lores de β1 e deβ2 e, por conseguinte, o mod elo econôm ic o p rop osto terá utilida de limitada p ara a

realização de seus objetivos.

Outro ponto de essencial importância é que, na prática, as relações entre variáveis

econômicas nunca é perfeita. Os economistas formulam modelos simplificando a

rea lida de , pois, ela é muito co mp lexa. O argumento funda menta l é q ue os mod elos

não precisam ser realistas, desde que proporcionem boas previsões (e.g., um

mapa).

Desta forma, para levar em consideração esses dois aspectos, faz-se necessário

de senvolver um mo de lo ec onom étric o a pa rtir do mode lo ec onôm ic o p rop osto. E,o que diferencia o mod elo ec onométric o do mo delo matemá tic o?

O modelo econométrico

O Sr. Ec onop oulos ap rendeu q ue o mode lo ec onom étric o d iferenc ia-se d o m od elo

ec onômico, po is, deixa explíc ito que a relaç ão entre a s va riáveis não é perfeita , i.e.,

que outras variáve is po de m a feta r a variáve l de pendente em aná lise.

No c aso em q uestão, qua is seriam, po rtanto, as outras variáveis que p od em a feta r o

valor de uma camioneta usada mas que não foram incluídas no modelo? Vários



exemplos poderiam ser mencionados, tais como a inclusão ou não de acessórios

op c iona is, o c uida do do do no anterior, o tipo d e p intura, etc .

Os econometristas também consideram que os modelos teóricos não são perfeitos

por dois out ros mo tivos ad iciona is, qua is sejam :

- as relações entre variáveis econômicas possuem sempre um certo grau deinde terminaç ão (fator huma no); e

- pod em haver erros de med iç ão d as variáveis em análise.

De fato, o Sr. Ec onopoulos já ha via perceb ido q ue, em c ertos c asos, c amionetas

com mais anos de uso poderiam ser vendidas por preços maiores que os das mais

novas. Isto se d eve exatamente ao s outros fato res além d o a no d e fa bric aç ão que

afeta m o preço e não e stão c ontidos no mod elo.

Então, o primeiro passo para se formular um modelo econométrico é admitir

c larame nte o que está imp líc ito na aná lise ec onôm ic a, de que os mode los teóric osnão tem a p retensão d e d esc rever tod os os c asos possíve is, ma s sim “ apena s”

c om o a s relaç õe s ent re a s va riáveis se ve rific am na média.

Log o, o mod elo teó ric o d eve ria ser reesc rito d a seg uinte fo rma :

( ) ( ) a f.a fa f|p rE 21 β+β=ψ=

onde “ E “ rep resenta a espe ranç a ma temática . Note que utiliza-se, na ve rda de , a

esperança condicional, i.e., considera-se como variável dependente o valor

esperad o do preço de revenda d ado o ano d e fabrica çã o.

Nessa nova formulação do modelo, que será a forma utilizada daqui em diante,

tem-se que:

β1 rep resenta o intercep to d a função, ou seja, seria o va lor de E(pr|af) quando af =

0. Neste c aso, este termo não teria um significad o ec onôm ico ób vio.

β2, por sua vez, rep resenta o c oe fic iente de dec lividade da função, isto é, ele

mede a variaç ão d e E(pr|af) da da uma variaç ão em af.

Considera-se, portanto, que cada ano adicional de uso reduz o preço de revenda

da ca mioneta em β2 reais, em média.

Após essa reformulação do modelo econômico, então, é possível construireconométrico, que se divide em duas partes: um termo determinístico (dado pelo

modelo teórico reformulado) e um componente aleatório, ε (imprevisível a priori ),

que representaria exatamente os fatores que tendem a distorcer as relações entre

as variáveis econômicas. Desta forma, o modelo econométrico poderia ser escrito

c omo se segue:

( ) ε+β+β=ε+= a f.a f|p rEpr 21



Para perceber verdadeiramente a necessidade de se incluir o termo aleatório no

mo delo, o Sr. Ec onopoulos deve ria tenta r p rime iramente c oleta r dados referentes às

va riáveis em questão.

Mas, que tipo de dados coletar? Os tipos de dados mais básicos que existem são

aq ueles que são c oletad os pa ra as variáve is ao longo d o temp o (séries temporais)ou aqueles que são coletados em um determinado ponto do tempo (sériestransversais).

BOX: Séries temporais X séries transversais

Séries temporais são aq uelas c oletad as, c omo o nome sugere, ao longo do tempo .

A freqüência depende da situação, podendo ser anuais, semestrais, trimestrais,

mensais, semanais, diárias etc.

Séries transversais são aquelas coletadas em um ponto do tempo (que depende

do c ontexto).

Então, como reconhecer esses tipos de séries? Nos modelos com séries temporais,

as variáveis têm observações referentes a um país, empresa, família etc. durante

vários períodos de tempo. Já nos modelos com séries transversais, em um

dete rminad o pe ríod o, são c oletadas informações de vá rios pa íses, reg iões, estados,

munic íp ios, empresas, pessoas, fam ílias etc .

Exemplos:

- PIB anua l do Brasil de 1970 a 2000 ⇒ Séries tempora is (ob servaç õe s do PIB anua l do

Brasil em um c erto p eríod o, ano a ano).

- PIBs dos países da Comunidade Européia em 2000 ⇒ Séries transve rsa is

(ob servaç õe s dos PIBs de vá rios pa íses em um d eterminado a no).

Então, o Sr. Ec onopoulos c oletou uma amo stra q ue c onsistia na s camionetas usadasvendidas por sua firma durante o ano de 20031. Esta amostra consiste de 30

observações, de dados transversais, cujos valores das variáveis em questão são

apresentados a seguir:

1 Para que o s va lores de pr sejam c om paráv eis, eles são d ad os em termos rea is, i.e., já desc onta da a

inflaç ão mensal.

o b s a f p r

1 2002 386002 2001 419003 2001 46800

4 2001 38500

5 2000 465006 2000 41000

7 2000 272008 2000 33100

9 2000 51200

10 1999 30000

o b s a f p r

11 1999 2900012 1999 2780013 1999 42300

14 1999 44200

15 1999 3860016 1999 32300

17 1998 3650018 1998 39400

19 1998 25000

20 1998 32400

o b s a f p r

21 1997 3250022 1997 2520023 1997 30600

24 1996 28900

25 1996 2930026 1996 23100

27 1996 2540028 1995 22700

29 1995 21500

30 1995 19800



Graficamente,

Após tabular os dados e de representá-los graficamente através de um diagramade dispersão, o Sr. Ec onop oulos c onstato u q ue c am ioneta s que foram fab ric ad as

no mesmo ano, de fa to, foram revend idos por preç os d iferentes.

Ademais, ele também confirmou a hipótese que, na média, carros mais novos são

ma is c aros que os ma is antigo s.

BOX: Construção e interpretação de um diagrama de dispersão

De acordo com os dados disponíveis, crie uma caixa retangular onde os valores da

variáve l explic ativa (generic am ente representada po r X) devem ser co loc ados na linha

e os da dependente (genericamente representada por Y) na coluna. Para cada

ob servaç ão, forme ponto s definidos por suas respe c tivas c oo rdena das de X e Y.

Interprete o diag ram a da seguinte forma:

Uma relação positiva Uma relação negativa

10000

20000

30000

40000

50000

60000

1994 1996 1998 2000 2002 2004

af

p r

XX

Y Y



Ma s, c onfo rme foi sa lientad o a ntes, ele ainda desc onhece os va lores de β1 e de β2.

Com o ele tem ap enas informa ç ões de uma am ostra c om 30 ob servaç ões, ele será

capaz de estimar os valores destes parâmetros desde que certas hipóteses sejam

satisfeita s. E que hipó teses são esta s? Isto é o que será visto na p róxima parte .



PARTE IILinea ridad e e estima ção dos pa râm etros do mode lo de regressão

O Sr. Ec ono poulos deseja estima r os parâme tros desc onhec idos de seu mod elo

econométrico (os β’s). Mas, antes de utilizar um método para tanto, ele verificouque a hipó tese de linea rida de do s pa râm etros do mode lo é funda mental.

No caso, essa hipótese atesta que a relação entre as variáveis explicativas X2, ....XK, e a variável dependente Y é linear “nos parâmetros”, ou seja, o modelo poderá

ser escrito da seguinte forma:

n,,1i,X.X.Y iKiKi221i KK =ε+β++β+β=

onde β1 é o parâmetro de intercepto, e os βk’s, para k = 2,...,K, representam os

coeficientes de declividade entre cada uma das variáveis independentes X e avariável d epe ndente Y.

BOX: Linearidade “ nos parâmetros”

Basicamente, um modelo linear “nos parâmetros” é aquele apresenta o formatoacima, i.e., todos os parâmetros desconhecidos devem estar multiplicandovariáveis explicativas ou transformações delas.

Considere os seguintes exemplos:

(i) ii3i21i Z.X.Y ε+β+β+β=

(ii) i2i3i21i X.X.Y ε+β+β+β=

(iii) ii3i21i X.X.Y ε+β+β+β= θ

(iv) ii21i )Xlog(.)Ylog( ε+β+β=

(v) iii .X.AY ε= θ

(vi) iii X.AY ε+= θ

Então, quais são lineares “nos parâmetros”? De acordo com o conceito, seriam osmod elos (i), (ii) e (iv). Por quê?

Obs.: Não confundir a terminologia. Linear “nos parâmetros” não quer dizernecessariamente que a relação entre a variável dependente e cada uma dasexplic a tivas é linea r “nas variáveis” , i.e., que pod e ser expressa por uma reta oueq uiva lente . Veja o c aso d os exemp los (ii) e (iv) ac ima.

Se d ispusermos de uma a mo stra c om n observações distintas, então, será possívelesc reve r o sistem a d e eq uaç ões da seg uinte fo rma :



nKnKn221n

33KK23213

22KK22212

11KK21211

X.X.Y

X.X.Y

X.X.Y

X.X.Y

ε+β++β+β=

ε+β++β+β=

ε+β++β+β=

ε+β++β+β=

K

KKKKKK

K

K

K

Na forma ma tric ial:

( ) ( ) ( ) ( )1n1KKn1n

.

xXX1

XXX1

XXX1

Y

Y

Y

n

2

1

K

2

1

Knn3n2

2K3222

1K3121

n

2

1

××××

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

ε

ε

ε

+

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

β

β

β

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

MM

K

MMMM

L

L

M

Ou simplesmente:

ε+β= .XY

Essa é a representação genérica de um modelo linear de regressão (apenas deve-se ter em m ente que a ca da c aso n e K pod em ser d iferentes).

Estimação dos Parâm etros do Mod elo

A p artir do mod elo ge ral ap resenta do ante riormente, tem-se q ue:

β−=ε .XY

O método de estimação dos Mínimos Quadrados Ordinários (M.Q.O.) consiste emde terminar uma solução pa ra o seguinte p rob lema :

( )εεεβ

=β

∑ '.MinouMinn

1i

2i

s'i

Portanto, o vetor b seria aquele que m inimizaria a soma dos resíduos ao quad rado.Assim, enc ontraria-se a c urva que me lhor desc reveria o c omp ortamento méd io darelaç ão entre a s variáve is explic ativas e a de pe ndente.

Pod e-se m ostrar que, na forma ma tricial:

( ) Y'XX'Xb1−=

No m od elo d e reg ressão linea r simples, esta fórmula é eq uiva lente a



( )( )

( )X.bYbe

XX

YY.XX

b 21n

1i

2

i

n

1iii

2 −=−

−−=

∑

∑

=

=.

Observação:

No c aso d o m od elo linear (cuja curva estima da é uma reta ), a reta estima da pa ssa

exatamente no p onto em que XXi = e YYi = . Por quê?

i21 X.bbY += e X.bbYX.bYb 2121 +=⇒−=

Logo: Se XXi = , então YYi = .

Um exe mp lo

O Sr. Ec onopoulos ago ra será c apa z de ob ter estimativas para os parâmetrosdesc onhec idos de seu mod elo, utilizando os estimadores de mínimo s quadrados.

O m od elo propo sto e ra o seguinte:

ε+β+β= a f.pr 21

Logo , a eq uaç ão estima da será da da po r:

ii af.02,31136187470rp +−=

Observações:

[a ] Perc eb a que na e qua ç ão estima da utiliza-se rp já que através de ssa eq uaç ão

serão obtidas estimativas de pr e não necessariamente os seus reais valores.

[b ] Não faz sentido somar o termo a lea tório na eq uaç ão estima da . Por quê?

Com o interpretar os resultado s do po nto d e vista ec onôm ic o?

- Neste c aso, a c onstante não po ssui significad o e c onôm ic o, ap enas ma temático.

Seria o va lor de rp c aso o ano de fab ric aç ão fosse igual a zero.

- De acordo com a estimativa do coeficiente de declividade, a cada ano maisnova for a camioneta o seu preço de revenda tenderá a aumentar emaproximadamente R$ 3.113,02 ou c ada a no ad ic iona l de uso red uz o p reç o derevend a em R$ 3.113,02, em méd ia .



Graficamente:

E, para q ue servem esses resultados?

Para fazer p revisões da va riável dep end ente . Por exemp lo:

570.38$2000.02,31136187470rp2000a fSe ii =+−=⇒=

Então, o p reç o e sperado de revenda pa ra uma ca mioneta fabric ad a no a no 2000seria d e $38.570, aproximadame nte . Com isto , o Sr. Ec onop oulos pod eria tenta rmaximizar os seus lucros, já que ele teria uma boa idéia de qual seria o preço derevenda d e uma determinada ca mioneta.

10000

20000

30000

40000

50000

60000

1994 1996 1998 2000 2002 2004

AF

PR

PR vs. AF

)PR(E

)AF(E



ANEXO II.1

DERIVAÇÃO DOS ESTIMADORES DE M.Q.O.

Considere o seg uinte mo delo d e reg ressão:

ii21i X.Y ε+β+β=

Então:

( )i21ii X.Y β+β−=ε

Pelo método dos Mínimos Quadrados Ordinários (MQO) deseja-se

( )∑∑ β−β−=ε= ββββi

2i21i

,i

2i

,X.YSMinouSMin

2121

Cond iç ões de primeira ordem do problema :

( ) ( )10X.Y.2S

i

i21i

1

=β−β−−=β∂∂

∑

( ) ( )20X.X.Y.2S

i

ii21i

2

=β−β−−=β∂∂

∑

Reescrevendo essas equações, temos que:

( )∗=β−β− ∑∑ 10X..nYi

i21

i

i

( )∗=β−β− ∑∑∑ 20X.X.X.Yi

2

i2

i

i1

i

ii

Então:

∑∑ =β+βi

i

i

i21 YX..n

∑∑∑ =β+βi

ii

i

2

i2

i

i1 X.YX.X.

Log o, na forma m atric ia l:

⎥⎥

⎥

⎦

⎤

⎢⎢

⎢

⎣

⎡=⎥

⎦

⎤⎢⎣

⎡

β

β

⎥⎥

⎥

⎦

⎤

⎢⎢

⎢

⎣

⎡

∑

∑

∑∑

∑

iii

i

i

2

1

i

2

ii

i

i

i

X.Y

Y

.

XX

Xn



Então, utilizando-se a Regra de Cramer temos que:

∑∑∑

∑∑∑

=β= ∗

i

2

i

i

i

i

i

i

ii

i

i

i

i

22

XX

Xn

X.YX

Yn

b

de sde q ue 0XX

Xn

i

2

i

i

i

i

i

≠∑∑∑

Logo:

2

i

i

i

2

i

i

i

i

i

i

ii

2

XX.n

X.YX.Y.n

b

⎟ ⎠

⎞⎜⎝

⎛ −

−=

∑∑

∑∑∑

Ma s, esta expressão p od e ta mb ém ser esc rita de uma fo rma a lternat iva :

n

X

X

n

X.Y

X.Yb

2

i

i

i

2

i

i

i

i

i

iii

2

⎟ ⎠

⎞⎜⎝

⎛

−

−=

∑∑

∑∑

∑

n

X

n

X.2X

n

X.Y

n

X.Y

n

X.Y

X.Y

b2

ii

2

ii

i

2

i

i

i

i

i

i

i

i

i

i

i

i

i

i

ii

2

⎟ ⎠

⎞

⎜⎝

⎛

+⎟ ⎠

⎞

⎜⎝

⎛

−

+−−=

∑∑∑

∑∑∑∑∑∑∑

n

X

.n

X

.nn

X

.2X

n

Y

.n

X

.nn

X.Y

n

X.Y

X.Y

b

i

i

i

i

2

i

i

i

2

i

i

i

i

i

i

i

i

i

i

i

i

i

i

ii

2

∑∑∑∑

∑∑∑∑∑∑∑

+⎟ ⎠

⎞⎜⎝

⎛

−

+−−=



2

i

i

i

2

i

i

i

i

i

i

ii

2

X.nX.X.2X

Y.X.nX.YY.XX.Y

b+−

+−−=

∑∑

∑∑∑

( )( )∑

∑+−

+−−=

i

2

i

2

i

i

iiii

2

XX.X.2X

Y.XYXX.YX.Y

b

( )( )

( )

( )( )

( )( )( )XVâr

Y,XCôv

1n

XX

1n

XX.YY

XX

XX.YY

b2

i

i

i

ii

2

i

i

i

ii

2 =

−

−

−

−−

=−

−−=

∑

∑

∑

∑

Agora, 1b po de rá ser fac ilmente derivad o a pa rtir de ( )∗1 :

0X.bb.nYi

i21

i

i =−− ∑∑

∑∑ −=i

i2

i

i1 X.bYb.n

n

X

.bn

Y

b i

i

2i

i

1

∑∑−=

X.bYb 21 −=

Desta forma, diz-se que ( ) SMinArgb,b 21 = já que eles formam a solução para o

problema p rop osto.

Uma forma ma is ge ra l de deriva r os estimad ores de M.Q.O., que p od erá ser utilizadapara qualquer modelo linear de regressão simples ou múltipla é apresentada aseguir:


ε+β= .XY ⇒ β−=ε .XY

Pelo método dos Mínimos Quadrados Ordinários (MQO) deseja-se

( ) ( ) ββ+β−β−=β−β−=εε=β

.X'.X'.Y'.X'..X'.YY'.Y.XY'..XY'.SMin



Condiçã o d e p rimeira o rdem do problema :

0.X'.XY'.X'

S=β+−=

β∂∂

Então:

( ) ( ) ( ) ( ) Y'.X.X'.XbY'.X.X'.X.X'.X.X'.XY'.X.X'.X111 −∗−− =β=⇒=β⇒=β

Aqui diz-se que SMinArgb = po is é o vetor soluç ão pa ra o problema .



ANEXO II.2

UM EXEMPLO UTILIZANDO MATRIZES

Considere os valores da tabela abaixo:

Y X2 X3 Y X2 X3

800 2 0,8 2070 11 0,81160 4 0,7 1890 10 0,71580 6 0,5 1830 9 0,62010 8 0,4 1740 8 0,11890 7 0,2 1380 6 0,52600 12 0,2 1060 4 0,4

Estime a regressão de Y em função de X2 e X3.

O modelo a ser estimado é o seguinte:

.12,...,1i,X.X.Y ii33i221i =ε+β+β+β=

Em notação matricial:

⎥⎥⎥⎥

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎥

⎦

⎤

⎢⎢⎢⎢

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎢

⎣

⎡

ε

εε

ε

ε

ε

ε

ε

ε

ε

ε

ε

+

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

β

β

β

⎥⎥⎥⎥

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎥

⎦

⎤

⎢⎢⎢⎢

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎢

⎣

⎡

=

⎥⎥⎥⎥

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎥

⎦

⎤

⎢⎢⎢⎢

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎢

⎣

⎡

⇒

⎥⎥⎥⎥

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎥

⎦

⎤

⎢⎢⎢⎢

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎢

⎣

⎡

ε

εε

ε

ε

ε

ε

ε

ε

ε

ε

ε

+

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

β

β

β

⎥⎥⎥⎥

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎥

⎦

⎤

⎢⎢⎢⎢

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎢

⎣

⎡

=

⎥⎥⎥⎥

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎥

⎦

⎤

⎢⎢⎢⎢

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎢

⎣

⎡

12

11

10

9

8

7

6

5

4

3

2

1

3

2

1

12

11

10

9

8

7

6

5

4

3

2

1

3

2

1

312212

311211

310210

3929

3828

3727

3626

3525

3424

3323

3222

3121

12

11

10

9

8

7

6

5

4

3

2

1

.

4,041

5,0611,081

6,091

7,0101

8,0111

2,0121

2,071

4,081

5,061

7,041

8,021

1060

13801740

1830

1890

2070

2600

1890

2010

1580

1160

800

.

XX1

XX1XX1

XX1

XX1

XX1

XX1

XX1

XX1

XX1

XX1

XX1

Y

YY

Y

Y

Y

Y

Y

Y

Y

Y

Y

( ) ( ) ( ) ( )1x121x33x121x12 .XY ε+β=



A matriz X’X e a sua inversa serão dadas por:

⎥⎥⎥

⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎥⎥

⎦

⎤

⎢⎢⎢

⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎢⎢

⎣

⎡

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

=

4,041

5,061

1,081

6,091

7,0101

8,0111

2,0121

2,071

4,0815,061

7,041

8,021

.

4,05,01,06,07,08,02,02,04,05,07,08,0

468910111278642

111111111111

X'X

( )⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−

−

−−

=⇒⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

= −

67,103,004,1

03,001,009,0

04,109,025,1

X'X

53,3419,5

4173187

9,58712

X'X1

E, a matriz X’Y será:

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

=

9309

160810

20010

Y'X

A estimativa de β será dada, então, por:

( )⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−

=⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−

−−−

== −

26,419

56,149

33,789

9309

160810

20010

.

67,103,004,1

03,001,009,0

04,109,025,1

Y'XX'Xb1

Portanto, o modelo estimado é:

32 X.26,419X.56,14933,789Y −+=



PARTE IIIO coefic iente de determinaçã o

Considerand o-se o mo delo básico de regressão

n,,1i,X.X.Y iKiKi221i KK =ε+β++β+β=

Vale relembrar que a variável dependente (Y) varia em função das variáveisindepe ndentes (X’s).

Em termos gerais, o que se procura é escolher as variáveis independentes de talforma que esta explique o m áximo po ssível da variaç ão de Y.

Para se estabelecer uma medida de variação em Y que seja explicada pelo

modelo, deve-se separar os seus componentes explicável e não explicável. Assim,tem -se q ue

( ) iiiKiKi221i YEX.X.Y ε+=ε+β++β+β= K

onde E(Yi) é o c ompo nente explic áve l (ou sistemático ) e εi é o com ponente não-explic ável (alea tório).

Como os verda deiros va lores dos β’s não são c onhec idos, então , utiliza -se o mé tod odos mínimos quadrados ordinários para se obter suas estimativas para umdete rminad o c onjunto d e d ad os.Assim, será p ossível decom por o va lor de Yi em

iii eYY +=

onde KiKi221i X.bX.bbY +++= K e iii YYe −= .

Subtraindo a m éd ia d e Y de am bos os memb ros da equa çã o a c ima , ob teremos

( ) iii eYYYY +−=− ,

evidenciando que a diferença entre Y e a sua média consiste em uma parteexplic ad a pelo mod elo e outra pa rte não-explic ad a.

Após a lgumas transforma ç õe s (ver o Anexo III.1), pode-se m ostrar que

Onde:SQT = Soma de Quad rad os Tota lSQR = Soma de Qua drados da Reg ressãoSQE = Som a de Quadrados dos Erros

( ) ( ) ( )⇓⇓⇓

∑∑∑ +−=−2

i

2

i

2

ieYYYY

SQT SQR SQE



Portanto, SQT seria uma medida de variação total em Y em relação à sua médiaamostral, enquanto que SQR seria a parcela desta variação total que seriaexplic ad a pe lo m od elo de reg ressão .

Logo, SQE seria a parcela de variação total de Y em relaç ão à sua méd ia q ue não

é explic ad a p elo mod elo.

Assim, pod e-se esc rever simp lesme nte que:

SQESQRSQT +=

Entã o, te r-se-á que:

SQTSQE

SQTSQR

SQTSQT

+=

O q ue imp lica que

O componente SQR / SQT representa o c hama do Coefic iente d e Determinaç ão e

é usualmente rep resentado po r R2.

O c oeficiente de determinaçã o mo stra a ca pa cidade de explica çã o d o mod elode reg ressão.

Note que se o modelo for capaz de explicar 100% da variação em Y, o R2 serianec essariame nte igua l a 1, po is, SQE = 0, neste c aso.

Ca so o mod elo nã o c onsiga explic ar de forma a lguma a variaç ão total de Y, entãoserá o c aso q ue R2 = 0.

Portanto , pod e-se c onc luir que 0 ≤ R2 ≤ 1.

Uma observaç ão imp ortante é que o R2 não med e p or si mesmo a qualida de domodelo de regressão. Portanto, não é recomendável seguir uma estratégia dereg ressão que vise a pena s a sua ma ximizaç ão.

⇒ Lembre-se que a escolha do modelo econométrico deve estar intrinsecamentevinculad a à teoria ec onômica.

Perceba ainda que o R2 é sensível tanto às variáveis independentes escolhidasco mo ao tipo d e modelo eco nométrico a dotad o.

Ademais, é mais fácil obter um R2 alto quando se lida com séries temporais. Noc aso, séries transversa is, em ge ral, ap resenta m uma ma ior heteroge neida de.

SQTSQE

1SQTSQR

R2 −==



Um exemplo:

O Sr. Econopoulos deseja, portanto, saber o grau de ajustamento de seu modelo.No seu c aso:

ou

5413,04587,0182,12531

896,57481

SQTSQE

1R2 =−=−=−= .

Como interpreta r este resulta do?

No caso, o modelo econométrico escolhido explica 54,13% da variação de pr emrelaç ão a sua média. O mod elo possui um grau d e a justam ento razoá vel.

Diferentes Formas Funcionais e o R2

O R2, que representa o grau de ajustamento do modelo, e este indicador é sensívelà forma func iona l esc olhida pa ra o mode lo.

A fo rma ma is utilizada é a forma linea r (nas va riáveis), que é a que se tem utilizadoaté o p resente mo mento.

[ ] ( )LINEARX.Y1 ii21i ε+β+β=

Outras forma s funcionais po de m ser utilizad as de ac ordo c om o c ontexto e/ ou c oma teoria q ue funda menta o m ode lo ec onométric o.

Ma s, que out ras forma s func iona is são ma is utilizadas?

[ ] ( ) ( ) ( )LOGLOGXlog.Ylog2 ii21i −ε+β+β=

O modelo LOG-LOG é derivado a partir de uma função potência, tal como:

iii u.X.AY 2β=

No c aso d o m od elo a c ima , tem-se q ue:

( ) ( )ii1 ulogeAlog =ε=β

O modelo LOG-LOG é muito importante especialmente devido ao significado doparâmetro β2 .

No caso, este parâmetro mede a elasticidade de X em relação a Y, representadapor η. Relemb rando :

5413,082,1253192,6782SQTSQRR2 ===



( )( ) 2Y

X.

dXdY

XlogdYlogd

X%Y%

β===∆∆

=η

A elasticidade mede a variação percentual de Y dada uma variação percentualem X, i.e., pa ra c ada 1% que X varia r, Y va riará em β2%.

Este mo delo tam bém é c onhecido c omo o m od elo d e elastic ida de c onstante.

O modelo LOG-LINEAR é derivado a partir de uma função exponencial, tal como:

i

X.

i u.e.AY i2β=

No c aso d o m od elo a c ima , tem-se q ue:

( ) ( )ii1 ulogeAlog =ε=β

[ ] ( ) ( )LOGLINEARXlog.Y4 ii21i −ε+β+β=

O modelo LINEAR-LOG é apropriado para descrever valores crescentes, mas quec resc em a ta xas dec resc entes.

O modelo RECÍPROCO é apropriado para descrever valores que se comportamc omo uma funç ão Hipérbole.

[ ] ( )POLINOMIALX.X.Y6 i1n

ini21i ε+β++β+β= −K

O modelo POLINOMIAL é apropriado para descrever várias situações.

O forma to d a c urva estima da dep enderá do grau d o p olinômio em questão.

Neste c aso, o g rau do polinôm io será igua l a “ n - 1”.

Perceb a que se o grau for 1, o mode lo p olinomial será exatam ente igua l ao m od elolinear.

[ ] ( ) ( )LINEARLOGX.Ylog3 ii21i −ε+β+β=

[ ] ( )RECÍPROCOX1.Y5 i

i21i ε+β+β=



ANEXO III.1

DERIVAÇÃO DO R2


ii21i X.Y ε+β+β=

Apó s a estima ç ão d o mode lo tem-se que :

iii eYY += , onde i21i X.bbY += .

Então, a lgum as op eraç ões po dem ser feitas na expressão ac ima , qua is sejam:

iii eYYYY +−=−

( ) ( )∑∑ +−=−i

2

iii

2

i eYYYY

( ) ( ) ( ) ( )∑∑∑∑ +−+−=−i

2ii

ii

i

2

ii

2

i ee.YYYYYY

Mas, pode-se mostrar que ( ) 0e.YY ii

i =−∑ . No c aso:

( ) ∑∑∑ −=−i

ii

iiii

i e.Ye.Ye.YY

Mas, 0ei

i =∑ , pois:

( ) ( )∑∑∑∑∑∑ +−=−=−=i

i21i

ii

ii

ii

iii

i X.bbYYYYYe

( ) ∑∑∑∑∑ −−−=−−=i

i22i

ii

i21i

ii

i X.bX.bY.nYX.bb.nYe

∑∑∑ −+−=i

i22i

ii

i X.bX.b.nY.nYe



0X.bX.bYYei

i2i

i2i

ii

ii

i =−+−= ∑∑∑∑∑

Logo:

( ) ( )∑∑∑ +==−i

ii21i

iiii

i e.X.bbe.Ye.YY

( ) ∑∑∑∑ =+=−i

ii2i

ii2i

i1ii

i e.X.be.X.be.be.YY

que só será igua l a zero se e som ente se 0e.Xi

ii =∑ . Ma s,

( ) ( )∑∑∑∑∑∑ +−=−=−=i

i21ii

iii

iii

iii

iiii

ii X.bb.XY.XY.XY.XYY.Xe.X

∑∑∑∑ −−=i

2i2

ii1

iii

iii X.bX.bY.Xe.X

( ) ∑∑∑∑ −−−=i

2i2

ii2

iii

iii X.bX.X.bYY.Xe.X

∑∑∑∑∑ −+−=i

2i2

ii2

ii

iii

iii X.bX.X.bX.YY.Xe.X

⎥⎥⎦

⎤

⎢⎢⎣

⎡⎟ ⎠

⎞⎜⎝

⎛ −−−= ∑∑∑∑∑∑

2

ii

i

2i2

ii

ii

iii

iii X.

n1

X.bX.Y.n1

Y.Xe.X

Mas,

( ) ( )

( ) 2

ii

i

2i

ii

ii

iii

2

ii

i

2i

ii

ii

iii

i

2

i

iii

2

X.n1

X

Y.X.n1

Y.X

XX.n

Y.XY.X.n

XX

YY.XXb

⎟ ⎠

⎞⎜⎝

⎛ −

−=

⎟ ⎠

⎞⎜⎝

⎛ −

−=

−

−−=

∑∑

∑∑∑

∑∑

∑∑∑

∑

∑

Então:



0X.Y.n1

Y.XX.Y.n1

Y.Xe.Xi

ii

ii

iii

ii

ii

iii

ii =⎥⎦

⎤⎢⎣

⎡−−−= ∑∑∑∑∑∑∑

Portanto:

( ) ( ) ( )

SQESQRSQT

eYYYYi

2i

i

2

ii

2

i

⇓⇓⇓

+−=− ∑∑∑

onde:SQT = Som a de Qua drados Tota l

SQR = Som a de Qua drados da Reg ressão

SQE = Som a de Q ua drad os do Erro

Assim:

1SQTSQE

SQTSQR

SQTSQESQR

SQTSQT

SQESQRSQT

=+

+=

+=

Então, defina:

SQTSQE

1SQTSQR

R2 −==

Ou alternativame nte:

( )

( ) ( )∑

∑

∑

∑

−

−=

−

−=

i

2

i

i

2i

i

2

i

i

2

i2

YY

e1

YY

YYR

(C.Q.D.)



PARTE IV

Hipóteses do modelo de regressão linear e as propriedades dosestimadores de mínimos quadrados

Hipóteses do modelo de regressão

O modelo geral de regressão pode ser completamente especificado com base nasoito hipóteses a seguir:

[1] Linearidade dos parâmetros ⇒ Ver a explicação na Parte II.

[2] As variáveis explicativas devem ser consideradas determinísticas (i.e., não sãoaleatórias) e linearmente independentes entre si, i.e., uma variável X não pode ser uma função linear de outra.

De uma maneira geral, uma variável é determinística quando se considera que osseus valores podem ser pré-fixados, i.e., quando são fixos em repetidas amostras.Assim, no caso do Sr. Econopoulos poderíamos pré-determinar um ano defabricação qualquer, digamos 2000, e então sortear aleatoriamente umacamioneta usada e observar o seu preço de revenda. Depois, mantendo-se omesmo ano de fabricação, poderíamos sortear mais uma camioneta usada eobservar mais uma vez o preço por que foi revendida. E, assim por diante.

As variáveis explicativas também devem ser linearmente independentes, i.e., não épossível estimar um modelo em que uma variável explicativa é uma combinação

linear de outras variáveis explicativas. Portanto, como ficará mais claro futuramente,não será possível estimar, por exemplo o seguinte modelo:

ii3i3i21i SBC.M.X.Y ε+β+β+β+β=

onde Xi representa exportações do país “ i ”, Mi as importações do país “ i ”, e SBCi osaldo da balança comercial do país “ i ”. É fácil perceber que:

iii MXSBC −=

Essa hipótese também implica que os valores de uma determinada variávelexplicativa não podem ser todos iguais.

[3] ( ) ( ) ( ) ( ) 0EX|Eoui,0EX,,X|E iKii2i =ε=ε∀=ε=ε K .

Essa hipótese diz que, dados os valores de X, o valor esperado do termo aleatóriodeve ser zero para todas as observações. Em outras palavras, o modelo nãocomete erros sistemáticos, i.e., comete erros para mais ou para menos, mas quetendem a se cancelar.Essa hipótese é equivalente a dizer que

( ) ( ) β=ε∀β++β+β= .XX|Eoui,X.X.X,,X|YE KiKi221Kii2i KK ,



ou seja, o modelo teórico está, na média, correto.

Graficamente (em uma regressão simples):

[4] A distribuição de probabilidade de cada termo aleatório εi (i = 1,2, ...,n) é tal que

todas as distribuições apresentam a mesma variância (Homocedasticidade).

Formalmente, tem-se que:

Var(ε1) = Var(ε2) = ... = Var(εn) = σ2 (cte.)

Graficamente:



[5] A distribuição de probabilidade de cada termo aleatório εi (i = 1,2, ...,n) é tal quetodos eles não se correlacionam (hipótese da não-autocorrelação dos resíduos).

Formalmente, tem-se que:

Cov(εp, εq) = 0, ∀p,q , tal que p ≠ q.

[6] O número de observações n deve ser maior que o número de parâmetros aserem estimados. Caso contrário, o modelo de regressão não poderá ser estimado.

[7] O modelo econométrico está bem especificado, i.e., ele deve ser compatívelcom a teoria que deseja testar e não conter erros de especificação.

[8] Os valores aleatórios εi (i = 1,2, ...,n) tem distribuição normal com média 0 e

variância σ2, ou seja:

εi ~ N(0, σ2) ou ε ~ N(0, σ2.I) (Forma matricial)

Estas hipóteses, em conjunto, vão garantir propriedades estatísticas desejáveis aomodelo, permitindo a estimação dos parâmetros desconhecidos.

Propriedades dos estimadores de mínimos quadrados

O Sr. Econopoulos ficou muito contente com os resultados encontrados através da

utilização dos estimadores de mínimos quadrados na estimação dos parâmetrosdesconhecidos.



Mas, uma questão específica o preocupou: “Será que se eu coletasse outra

amostra diferente as estimativas obtidas para o modelo seriam as mesmas?”

Ele pensou a respeito e percebeu que já que a fórmula utilizada é a mesma, então,obviamente, amostras diferentes gerariam estimativas diferentes para os parâmetros

desconhecidos.

Assim, ele percebeu que o valor assumido pelos estimadores não poderiam ser previstos a priori. Logo, os estimadores de M.Q. seriam, na verdade, variáveisaleatórias.

E, se são V.A.’s, podem ser calculadas suas médias e variâncias.

Assim, utilizando o conceito de esperança matemática, o Sr. Econopoulos foi capazde mostrar que

nou, em forma matricial

nOu seja, o Sr. Econopoulos descobriu que o valor esperado dos estimadores de M.Q.é igual ao verdadeiro valor, desde que as hipóteses básicas do modelo deregressão sejam mantidas.

Desta forma, os estimadores de M.Q. satisfazem uma propriedade estatística muito

importante. Eles são ditos não tendenciosos ou não viesados.

Perceba que esta propriedade não garante que, ao estimar um modelo por estemétodo, os resultados serão os verdadeiros valores dos parâmetros.

Ela garante que, se forem computadas as estimativas de um número muito grandede amostras, os valores médios destas estimativas deverão ser iguais aosverdadeiros valores dos parâmetros. Esta é, sem dúvida, uma propriedadedesejável.

Já que o Sr. Econopoulos não pode ter certeza absoluta se os valores dos

parâmetros estimados são iguais aos verdadeiros valores, ele pelo menos gostariade ter um certo grau de confiança de que os valores estimados pelo modelo sãorepresentativos da realidade.

Para que isto seja possível, primeiramente é necessário calcular a variância dosestimadores de M.Q. No caso, pode-se mostrar que

( ) ( ) 12 X ' X .bVar −σ=

Mais especificamente, as variâncias dos parâmetros serão das pelos elementos da

diagonal principal da matriz acima.

( ) k ,b E k k ∀β=

( ) β=b E



O problema é que a variância do termo aleatório, σ2, também é desconhecida.Então, o que fazer?O Sr. Econopoulos leu a respeito e verificou que um estimador não tendencioso de

σ2 é o seguinte:

( )K ne K n

e'.es

n

1i

2

i

2 −⎟ ⎠ ⎞⎜

⎝ ⎛ =

−= ∑

=

onde,

b. X Y Y ˆ Y e −=−=

ou

KiK i221iiii X .b... X .bbY Y ˆ Y e −−−−=−=

que representa o resíduo estimado de mínimos quadrados.

Assim, ele poderia estimar Var(b) da seguinte forma:

E, então, os erros padrões dos parâmetros poderiam ser calculados da seguintefórmula:

O erro padrão é uma estimativa do desvio-padrão do parâmetro e é uma medida

da variabilidade do parâmetro.

Um Exemplo Numérico

Utilizando a sua amostra, o Sr. Econopoulos foi capaz de fazer os cálculos vistosanteriormente. No caso:

714.035.33230

10.25 ,9

K n

e'.es

82 ≈

−=

−=

( ) 12

1 1017 ,1br a V ×=

( ) ( )

( ) 318.082.1bep

br a V bep

1

11

=

=

( ) 5 ,341.293br a V 2 =

( ) ( )

( ) 6101 ,541bep

br a V bep

2

22

=

=

( ) ( ) 12 X ' X .sbr a V

−=

( ) ( )k k br a V bep =



O Caso do Modelo de Regressão Simples

Modelo básico: ii21i X .Y ε+β+β=

Equação estimada: i21iX .bbY ˆ +=

Erro amostral: i21iiiiX .bbY Y ˆ Y e −−=−=

Estimador da variância dos erros:2n

e

s

n

1i

2

i2

−=∑=

Variância amostral e erro padrão de b1 e b2:

( )( )

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

−=

∑

∑

=

=n

1i

2

i

n

1i

2

i2

1

X X .n

X

.sbr a v e ( ) ( )11 br a vbep =

( )( )∑

=

−=n

1i

2

i

2

2

X X

sbr a v e ( ) ( )

22 br a vbep =

O Teorema de Gauss-Markov

O Sr. Econopoulos ficou intrigado, pois, havia descoberto fórmulas para as médias evariâncias dos estimadores de M.Q., mas não sabia ainda se os resultados obtidoseram confiáveis.

Neste sentido, a primeira coisa a verificar seria se existem outros estimadores queproduzem resultados melhores que os de M.Q.

O teorema de Gauss-Markov garante que, se as hipóteses do modelo de regressãolinear forem satisfeitas (a hipótese de normalidade não é necessária), então, osestimadores de M.Q. serão MELNT (Melhores Estimadores Lineares NãoTendenciosos).No caso, os estimadores de M.Q. serão os melhores estimadores lineares nãotendenciosos, pois, possuem a menor variância se comparados a qualquer outroestimador não-tendencioso.

Em outras palavras, os estimadores de M.Q. são eficientes.



O teorema de Gauss Markov, portanto, mostra que nenhum outro estimador nãotendencioso poderá produzir resultados melhores do que os dos estimadores deM.Q. dado o conjunto de hipóteses do modelo de regressão linear.

Se o modelo não der bons resultados utilizando-se os estimadores de M.Q., então,

com certeza não melhorará utilizando-se qualquer outro estimador.

A Consistência dos Estimadores de Mínimos Quadrados

Quais são as propriedades dos estimadores de mínimos quadrados se temos umaamostra grande, i.e., quando n → ∞?

A resposta para os estimadores de mínimos quadrados – quer os erros sejam normaisou não – encontra-se em duas propriedades já estabelecidas para eles:

– Os estimadores de mínimos quadrados são não-tendenciosos. – As variâncias dos estimadores de mínimos quadrados convergem parazero quando n → ∞.

À medida que o tamanho da amostra aumenta, as distribuições dos estimadores demínimos quadrados tendem a concentrar-se em torno dos verdadeiros parâmetros.

E, quando n → ∞, a probabilidade de uma estimativa b estar próxima de β tendepara um. Assim, dizemos que os estimadores de mínimos quadrados sãoconsistentes.



PARTE V

O teste de significância dos parâmetros

O Sr. Econopoulos continua em sua busca por uma maior confiabilidade nosresultados obtidos através da estimação do modelo.

Ele percebeu que, apesar dos estimadores de M.Q. possuírem propriedadesestatísticas desejáveis, não se pode ter certeza absoluta se os valores estimados dosparâmetros são verdadeiramente representativos da realidade.

Mais especificamente, além da estimativa pontual dos parâmetros, faz sentido levar também em consideração a sua variabilidade amostral. E, assim, deseja-se excluir ahipótese de que cada um dos parâmetros possa ser igual a zero.

Se a hipótese de normalidade dos resíduos for satisfeita, então, será possíveldesempenhar um teste para verificar se tal hipótese pode ou não pode ser refutada.

Testes de Hipóteses

Um teste de hipóteses é constituído por 4 elementos:

[1] Uma hipótese nula (H0)

[2] Uma hipótese alternativa (H1)

[3] Um teste estatístico

[4] Uma região de rejeição de H0.

O Teste de Significância dos Parâmetros

O teste de significância dos parâmetros é um teste de hipóteses particular em queas hipóteses nula e alternativa são sempre as seguintes:

H0: β

k = 0

H1: βk ≠ 0para k = 1,...,K, ou seja, o teste deve ser efetuado para todos os parâmetros domodelo individualmente.

Perceba que a hipótese nula é aquela que se quer colocar à prova. De acordocom o teste estatístico será possível rejeitá-la ou, então, não haverá como afirmar com um alto grau de certeza que o parâmetro em questão é, de fato, diferente dezero.

No caso em análise, o teste que será utilizado será o teste t, cuja estatística é dadapor:

( )k

kk

bep

bt

β−=



Se H0 for verdadeira, então, pode-se mostrar que

Caso contrário, t não seguirá a distribuição t com n - K graus de liberdade.

E, como saber se o teste rejeita ou não rejeita a hipótese nula?

Deve-se comparar o valor obtido da estatística t com um valor crítico determinadode acordo com a distribuição t. Este valor será representado por tc. No caso, tem-seque

α é o nível de significância do teste, que representa um valor de probabilidade que

usualmente é escolhido como 5%.

Perceba que o valor de tc também depende do número de graus de liberdade domodelo que é igual a n – K. Em geral, quanto mais graus de liberdade, menoresserão os valores de tc.

Perceba que a probabilidade do valor de t estar à direita de tc ou à esquerda de -tc é igual à metade do nível de significância, ou 2,5%.

Como a distribuição t é simétrica, isto significa dizer que a probabilidade do tcalculado estar em cada uma das caudas da distribuição é de 2,5%.Como conseqüência,

A partir dessas idéias, então, é possível definir um regra clara para a rejeição ou nãorejeição de H0.

Assim, como regra geral, tem-se que se t < - tc ou se t > tc então rejeita-se a hipótese

nula e, portanto, diz-se que o parâmetro é estatisticamente significante ousignificativamente diferente de zero ao nível de significância α.

( ) ( )Kn

k

k t~bep

bt −=

( ) ( )2

ttPttP cc

α=−<=>

( ) %951tttP cc =α−=≤≤−



Mas, se - tc ≤ t ≤ tc então não se poderá rejeitar a hipótese nula e, portanto, diz-seque o parâmetro em questão não é estatisticamente significante ao nível designificância α.

Note ainda que no teste de significância usualmente deseja-se rejeitar a hipótese

de que os parâmetros sejam individualmente iguais a zero, para que as variáveisexplicativas escolhidas tenham realmente algum poder de explicação da variáveldependente.

Caso contrário, ter-se-á, por exemplo, que:

Ou seja, o impacto da variável explicativa X j sobre Y será desprezível.

No caso do teste de significância, quando não se rejeita a hipótese nula, isto não

quer dizer que o verdadeiro valor do parâmetro é igual a zero.

O ponto fundamental é que não será possível afirmar com um alto nível deconfiança que o parâmetro é diferente de zero.

Portanto, do ponto de vista estatístico, se pode ser igual a zero, então, deve sertratado como se fosse zero.

Exemplo: Preço de revenda de camionetas (I)

Seja α=0,05. O valor crítico tc é 2,048 para uma distribuição t com (T−2) = 28 graus deliberdade.

A estimativa de mínimos quadrados de β2 é b2 = 3.133,02 com erro padrão ep(b2)=541,61. O valor da estatística do teste é

Conclusão: Já que t = 5,74 > tc = 2,048, nós rejeitamos H0: β2=0 e não rejeitamos aalternativa, H1: β2≠0. Assim, existe uma relação estatisticamente significante entre a

o preço de revenda e o ano de fabricação da camioneta.

O P-Valor do Teste de Hipótese

Um problema com a análise anterior é que nem sempre o valor do t crítico éfornecido pelos pacotes econométricos.

Assim, o p-valor do teste é calculado encontrando qual é a probabilidade dadistribuição t tomar um valor igual ou maior do que o valor absoluto do valor amostral da estatística do teste.

iKiK jii221i X....X.0...X.Y ε+β++++β+β=

( )048,2t747710,5

61,541

02,3113

bep

bt c

2

2 =>===



Regra de rejeição: quando o p-valor do teste de hipótese é menor do que o valor escolhido de α, então o procedimento do teste leva à rejeição da hipótese nula.

Se o p-valor for maior do que α, nós não rejeitamos a hipótese nula.

Exemplos gráficos: t1 < tc e t2 > tc

Exemplo: Preço de revenda de camionetas (II)

Considerando-se agora o p-valor tem-se que para β2 :

O p-valor para o teste de hipótese é p = 0,0000 que é a área nas caudas dadistribuição t(28), onde |t| ≥ 5,74. Já que p ≤ α, nós rejeitamos a hipótese nula deque β2 = 0 e não rejeitamos a alternativa de que β2 ≠ 0. Assim, existe uma relação“estatisticamente significante” entre pr e af.

Perceba esta análise deve também ser feita para β1 e para os demais parâmetrosdo modelo quando for o caso. Mais especificamente, neste exemplo, p-valor paraβ1 foi igual a zero, mostrando que a constante é neste caso estatisticamentediferente de zero.

Exemplo: Preço de revenda de camionetas (III)

Considere agora o seguinte modelo:

ii3i21i nf .af .pr ε+β+β+β=



onde nf representa o número de filhos dos donos anteriores.

A estimação do modelo mostra que os p-valores de β1 e de β2 são iguais a 0,0000enquanto que o p-valor de β3 é igual a 0,8961.

Assim, conclui-se β3 não é estatisticamente significante, i.e., pode ser igual a zero, e,portanto, esta variável adicionada não possui qualquer impacto sobre o modelo.

Em outras palavras, a variável adicionada é redundante, pois, ela não explica osmovimentos de pr.



PARTE VI

O R2 ajustado e o teste de significâ nc ia do modelo

Depois de aprender sobre o coeficiente de determinação, o Sr. Econopoulos

pe rc eb eu que a inda po de ria m elhorar o grau de a justam ento d e seu mod elo.

No caso, a forma funcional escolhida parecia-lhe apropriada para analisar op rob lema em questão. Então, o que fazer?

Uma opção seria incluir variáveis explicativas no modelo, pois, à medida em queelas são acrescentadas, o R2 do modelo necessariamente não se reduzirá (éprovável que a umente).

Log o, a q uestã o será q ue va riáve l ou va riáve is exp lica tivas incluir.

O Sr. Econopoulos pensou bastante e lembrou-se que as camionetas APRIGIUSpossuem três tipos de mo to rizaç ão.

O mo de lo p ad rão vem c om m oto r de 2000 c ilindrada s, ma s o c liente p od erá o pta rpor mo to res de 3000 ou 4000 c ilindrad as.

Então, o Sr. Econopoulos decidiu acrescentar o número de cilindradas (cc) dac am ioneta c omo uma variável explic ativa ad ic ional do m od elo.

No caso, ele espera que o sinal do coeficiente que multiplica esta variável sejapositivo, pois, quanto mais cilindradas maior deverá ser o preço de revenda da

c am ioneta, em méd ia.

O seu mo de lo ec onom étric o será a go ra:

ii3i21i cc.af.pr ε+β+β+β=

A estimaç ão do mo delo p or M.Q. p rod uziu os seg uintes resultados:

( ) ( ) ( )

804755,0R

04,684,782,7t

cc.02,7af.19,28435664873rp

2

iii

=

−

++−=

Como pod e-se p erc ebe r, o pa râm etro d a variável c c é significativamente diferentede zero, conforme indica o seu teste t. E, o sinal de seu coeficiente foi compatívelc om o q ue era e sperado.

⇒ O c oeficiente estima do indica , neste c aso, que c ad a c ilindrada a ma is no mo tor,aum enta rá o preço d e revend a em R$ 7,02 ap roxima da mente .

Ade ma is, o g rau d e a justamento do mode lo a umentou ba stante de po is da inc lusão

desta va riáve l, passando d e 54% para ma is de 80%.



Este resultado foi bastante animador para o Sr. Econopoulos, pois, a sua confiançano mod elo aumentou.

O R2 ajustado Uma dific ulda de c om o R2 é q ue ele p od e ser aumenta do pela inc lusão de novas

variáveis, mesmo se as variáveis acrescentadas não apresentarem qualquer justificativa econômica.

⇒ Novas variáveis tendem a reduzir SQE.

Uma medida alternativa para mensurar a qualidade do ajustamento é chamadade R2 ajustado . Ele é c alculado c omo

( )( )1nSQTKnSQE

1R2

−

−−=

Perceba que, no caso do R2 ajustado, o SQE está dividido por (n - K) e se foremad ic iona das nova s va riáveis ao mo delo ele não nec essariamente c resc erá.

Mais especificamente, o quanto mais elevados e próximos forem o R2 e o R2 ajustad o, melhor será a qua lida de do mode lo estima do .

Quanto mais variáveis insignificantes forem introduzidas no modelo, maior tende aser a d iferença e ntre o R2 e o R2 ajustado.

Isto sugere que não se deve adotar a estratégia de aumentar o R2

incluindoind isc riminad amente o ma ior número d e va riáveis explica tivas possível.Para testar estas idéias, o Sr. Econopoulos resolveu acrescentar a variável nf aomodelo para comparar os resultados com o seu modelo atual. Ele obteve osseg uintes resultados:

( ) ( ) ( )

790292,0R804755,0R

04,684,782,7t

cc.02,7af.19,28435664873rp

22

iii

==

−

++−=

( ) ( ) ( ) ( )

790256,0R811954,0R

00,111,636,734,7t

nf.71,439cc.17,7af.47,27515482767rp

22

iiii

==

−

+++−=

Como se pode perceber, a introdução de uma variável que não é significativa no

mod elo aumentou o R2 e ainda provocou uma p equena queda no R2 ajustad o d omodelo.



Mais especificamente, pode-se notar que a diferença entre estes dois indicadoresaum entou, o que indica que esta va riáve l ad ic iona l está infland o o R2 sem me lhorarnece ssariam ente o pod er de explica ç ão do mod elo.

O R2 ajustado não tem o mesmo significado que o R2. Ele apenas mostra se ainclusão d e va riáve is ad iciona is é justific áve l.

O teste de significâ ncia do m od elo

O Sr. Econopoulos também verificou que não é suficiente verificar a significânciados parâme tros ind ividua lmente.

⇒ “ Claro! ”, pensou o Sr. Econopoulos. “ Quand o a ssisto a uma pa rtida de futebo l eu

não a naliso a pe nas a performance individua l dos jog adores. Eu ta mb ém estou interessado e m saber se o time jogou b em! ”

Assim, o Sr. Econopoulos deve encontrar uma maneira de verificar se o modeloescolhido é significante. Como fazer isto?O Sr. Econopoulos considerou o seguintemodelo:

ii3i21i cc.af.pr ε+β+β+β=

Este será considerado o mo delo sem restriç õe s.

Ele deseja, então, testar as seguintes hipóteses:H0: β2 = 0 e β3 = 0

H1: β2 ≠ 0 e/ ou β3 ≠ 0

Se a hipóte se nula fo r verda deira, entã o:

i1ipr ε+β=

Este será o mo delo restrito , rep resentado por R.

Desta forma, o teste q ue será efe tuado é o seg uinte:

( )( )KnSQEJSQESQE

F R

−

−=

J é o número de hipóteses, que no c aso d o te ste d e significânc ia do mod elo é iguala “ K - 1” .

Deve-se p erc eb er que: 0SQESQER ≥−



Ou seja, a soma de q uad rados dos erros do m od elo restrito é sempre ma ior ou igua là som a de q uadrados dos erros do modelo irrestrito.

⇒ Lembre-se que a inclusão de variáveis explicativas no modelo não pode piorar o

seu p od er de explic aç ão !

Portanto, o que o teste tenta medir é exatamente se a inclusão de todas asva riáveis explic at ivas desejad as p rovo c aram uma red ução significa tiva em SQE.Sea hipótese nula for verdadeira, então a estatística F tem uma distribuição F com Jgraus de libe rdad e no numerado r e (n - K) graus de libe rda de no d enominad or.

Deve-se rejeitar a hipótese nula se o valor da estatística do teste F se tornar muitogrande (os dois mo delos serão muito d iferentes).

É prec iso c ompa rar o va lor de F com um va lor crític o q ue d eixa uma proba bilida de

α na c auda supe rior da d istribuiç ão F c om J e (n - K) graus de liberda de.

Assim, como no teste t, um nível de significância de 5% é usualmente utilizado nestecaso.

A figura abaixo mostra o valor de Fc no c aso e m q ue há do is graus de libe rda de nonumerad or (m=2) e 27 graus de libe rdade no denominad or (n=27). Tem-se q ue Fc =3,36.

Existe uma fórmula ma is simp les para o te ste d e signific ânc ia do m od elo c om a qua lnão é necessário comparar dois modelos diferentes. Basta pensar no modelo semrestriç ão (que é o mode lo proposto).

Esta fórmula parte da idéia que SQER = SQT (Som a de Quadrados Tota l do mod elosem restriçõ es). Então:

( ) ( )( )

( )( )KnSQE1KSQR

KnSQE

1KSQESQTF

−

−=

−

−−=



( ) ( )( ) ( )

( )( ) ( )KnR1

1KR

KnSQTSQE

1KSQTSQRF

2

2

−−

−=

−

−=

Exemplo

No caso do modelo do Sr. Econopoulos, tem-se que n = 30; K = 3; e R2

= 0,804755.Então:

( )( ) ( )

64,55330804755,01

13804755,0F ≅

−−

−=

Entã o, p od e-se perceb er que F = 55,64 > 3,36 = Fc .

Assim, rejeita-se a hipótese nula de que os parâmetros β2 e β3 são simultane amenteigua is a zero. Log o, o mo delo é esta tistica me nte signific a tivo.

P-va lor = 0,0500

P-valor = 0,0000

Documents

Econometria I