29
ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO

ANÁLISE DE REGRESSÃO

  • Upload
    kris

  • View
    44

  • Download
    0

Embed Size (px)

DESCRIPTION

ANÁLISE DE REGRESSÃO. UM GUIA PRÁTICO. O QUE É “REGRESSÃO”?. - PowerPoint PPT Presentation

Citation preview

Page 1: ANÁLISE DE REGRESSÃO

ANÁLISE DE REGRESSÃO

UM GUIA PRÁTICO

Page 2: ANÁLISE DE REGRESSÃO

O QUE É “REGRESSÃO”?• Na análise bidimensional de variáveis, foi introduzida a

noção de condicionalidade: a proporção da população que fazia parte de um determinado grupo, condicional ao fato de ter uma característica. No exemplo, calculou-se a freqüência de mulheres que são chefes de família dada a informação que trabalham.

• “Regressão” é o cálculo do valor esperado de uma variável Y, dado o conjunto de informações fornecido por um conjunto de características X. Ou seja, é a média de Y, condicional às informações de X (E[Y|X]).

Page 3: ANÁLISE DE REGRESSÃO

O MODELO LINEAR DE REGRESSÃO

• O modelo linear de regressão é a forma utilizada para calcular médias condicionais de uma variável a partir de dados disponíveis sobre variáveis supostamente relacionadas.

• O modelo assume o seguinte formato:

Y = + 1X1 + 2X2 + ... +

– A variável Y é chamada de variável dependente ou explicada.

– As variáveis X1, X2, X3, ... são chamadas de explicativas.

– O termo é chamado de erro ou distúrbio.

Page 4: ANÁLISE DE REGRESSÃO

HIPÓTESES BÁSICAS:

• Relacionamento linear entre as variáveis• E() = 0• E(2) = 2 (constante)• Os resíduos são independentes entre si:

E(i j) = 0, i,j = 1, 2, 3...

• Os resíduos e as variáveis são independentes: E(X) = 0

• As variáveis Xn não podem ser combinações lineares entre si

Page 5: ANÁLISE DE REGRESSÃO

O AJUSTE DA REGRESSÃO

• Graficamente, a análise de regressão implica no ajuste de uma reta que represente de uma “boa forma” a estrutura dos dados.

10

20

30

40

50

60

70

5 6 7

Page 6: ANÁLISE DE REGRESSÃO

• Mas o que é “boa forma” de ajuste da reta?

• Note que a diferença entre a reta ajustada (que é produto do valor esperado condicional) e a observação realizada corresponde ao resíduo.

• Logo, o ajuste ideal da reta deve respeitar a condição de “menor distância possível” em relação aos valores observados.

15

20

25

30

35

40

45

50

55

60

5 6 7

i

E[Y|X]

Page 7: ANÁLISE DE REGRESSÃO

• Logo, a idéia de ajuste dos parâmetros do valor esperado condicional passa por “Minimizar a Soma dos Quadrados dos Resíduos”.

• O estimador de Mínimos Quadrados Ordinários possui propriedades interessantes, quando as hipóteses básicas não são violadas: ele é não-viesado e é o mais eficiente entre os estimadores lineares.

• O estimador de mínimos quadrados, escrito na forma matricial, é:

= (X’X)-1(X’Y)

Page 8: ANÁLISE DE REGRESSÃO

ESTATÍSTICAS DE AVALIAÇÃO

• R2 busca decompor a variação total de Y entre variação prevista e variação não explicada pelo modelo (variação dos resíduos). Fazendo a separação, temos:

SQT = SQE + SQR

onde SQT = Soma dos quadrados total (Y-Y)2), SQE = Soma dos quadrados explicada (Y*-Y)2) e SQR = Soma dos quadrados dos resíduos (e), Y é a média de Y e Y* o valor previsto de Y

Page 9: ANÁLISE DE REGRESSÃO

Logo, temos:

1 = (SQE/SQT) + (SQR/SQT)

O R2 busca verificar o quanto de Y foi explicado pelo modelo. Logo:

R2 = SQE/SQT = 1 - (SQR/SQT)

Note que, por definição, 0 < R2 < 1.• R2 ajustado: o problema da estatística de R2 é o seu

comportamento diante do acréscimo de variáveis no modelo. Qualquer variável adicionada, por menor que seja o seu poder de explicação, gera um crescimento no R2 normal. Logo, o R2 ajustado busca penalizar a estatística pelo acréscimo de variáveis irrelevantes.

Page 10: ANÁLISE DE REGRESSÃO

ESTATÍSTICAS DOS PARÂMETROS

• Toda estimativa de mínimos quadrados ordinários gerada de possui média igual ao valor esperado para a população e uma variância constante. Logo, qualquer inferência pode ser feita através da estatística “t” sobre os seus valores.

• Para a estimativa conjunta dos parâmetros estimados, é necessário fazer a decomposição da variância, de tal forma que se separe a porção da variação de Y que é explicada pelo conjunto de parâmetros em questão. Tendo como hipótese nula a ausência de influência (por conseqüência, hipótese alternativa é a presença de influência das variáveis), temos:

Page 11: ANÁLISE DE REGRESSÃO

F = [(SQE)/SQR][(n-k-1)/k]

onde SQE e SQR foram definidos acima, e n = tamanho da amostra, k = número de coeficientes angulares.

Page 12: ANÁLISE DE REGRESSÃO

ESTIMAÇÃO DE MODELOS: POR QUE USAR O LOGARITMO

NATURAL?• O logaritmo natural enquanto expressão de taxa

média de crescimento: uma variável qualquer no tempo pode ser expressa como uma progressão do seu valor no instante “zero”

Yt = A.et.g.Y0.t

Aplicando o logaritmo natural em ambos os lados da equação:

Ln(Yt) = (Ln(A) + Ln(Y0)) + t.g + t

Page 13: ANÁLISE DE REGRESSÃO

• O logaritmo natural como expressão da elasticidade:

Ln(Yt) = A + B Ln(Xt)

Ln(Yt) = B Ln(Xt)

Ln(Yt)/Ln(Xt) = B

Mas: Ln(Yt) = Ln(Yt) - Ln(Yt-1) = Ln(Yt / Yt-1)

(Yt - Yt-1)/Yt-1

Então:

Ln(Yt)/Ln(Xt) = [(Yt - Yt-1)/Yt-1]/[(Xt - Xt-1)/Xt-1]

= elasticidade = B

Page 14: ANÁLISE DE REGRESSÃO

Exercício Prático:

CAPM - calculando o Beta de uma ação

Page 15: ANÁLISE DE REGRESSÃO

VIOLAÇÕES DAS HIPÓTESES - HETEROCEDASTICIDADE

• Se E(2) 2 (constante) E(2) = 2i

Este problema é conhecido como:

heteroscedasticidade

Esta violação normalmente é verificada em questões como:– Lucro X Tamanho da empresa: empresas maiores

tendem a ter maior dispersão nos seus lucros.– Consumo de um Bem X Renda: pessoas ricas podem

escolher melhor a proporção da renda consumida em determinado bem.

Page 16: ANÁLISE DE REGRESSÃO

Exemplo: Relação entre Renda e Gastos com Cartão de Crédito

0

2

4

6

8

10

12

0 5 10 15 20

Gastos com Cartão de Crédito (dividido por 100)

Ren

da (

divi

dida

por

100

0)

Page 17: ANÁLISE DE REGRESSÃO

Teste para Detectar Heteroscedasticidade

• A hipótese nula para qualquer teste é variância constante. Hipótese alternativa é variância inconstante na amostra.

• Teste de White:

É o mais popular dos testes e consiste em efetuar uma regressão dos resíduos elevados ao quadrado contra o as variáveis explicativas usadas na regressão, seus quadrados e os produtos cruzados. A estatística “F” de significância de todos os parâmetros é o valor do teste.

Testes semelhantes, como o de Breush-Pagan, são variações sobre os termos acrescentados na regressão de teste.

Page 18: ANÁLISE DE REGRESSÃO

VIOLAÇÕES DAS HIPÓTESES - AUTOCORRELAÇÃO SERIAL

• Se E(i j) 0, para i,j = 1, 2, 3... temos que o valor de um resíduo passa a influenciar os resultados futuros da média condicional estimada para Y.

Problema: Autocorrelação Serial• Fontes de autocorrelação serial:

– Omissão de variável relevante;– Má especificação da forma funcional;– Má especificação dinâmica do modelo.

Page 19: ANÁLISE DE REGRESSÃO

• A idéia da autocorrelação serial é que os resíduos contém mais informação sobre a variável dependente do que aquilo que foi “filtrado” pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser sistematizado.

• Exemplos de autocorrelação são normalmente encontrados em trabalhos que utilizam séries de tempo como dados de análise.

Page 20: ANÁLISE DE REGRESSÃO

Teste para Detectar Autocorrelação Serial

• A hipótese nula do teste de autocorrelação é a ausência do problema. Hipótese alternativa, sua presença.

• Teste de Durbin-Watson:

Talvez o mais popular dos testes para detectar o problema, consiste em computar uma soma ponderada dos resíduos, de tal forma que seja possível detectar algum padrão no seu comportamento. Possui o problema de captar apenas a autocorrelação de primeira ordem.

Page 21: ANÁLISE DE REGRESSÃO

• Teste de Breush-Godfrey:

Teste de certa forma semelhante ao teste de White, consiste em efetuar uma regressão do resíduo como variável explicada tendo como explicativas o próprio resíduo defasado no tempo e as variáveis explicativas do modelo original. Usa-se a estatística “F” de significância conjunta dos parâmetros da equação de teste.

Este teste talvez seja o mais indicado para verificar autocorrelação, pois considera a possibilidade de resíduos correlacionados com valores defasados acima de um período e pode ser usada com variáveis explicativas defasadas.

Page 22: ANÁLISE DE REGRESSÃO

CONSEQÜÊNCIA DAS VIOLAÇÕES DAS HIPÓTESES

• No caso da heteroscedasticidade, a presença do problema tende a não viesar as estimativas dos parâmetros. Todavia, as suas variâncias estimadas não serão as corretas. Logo, inferências sobre os parâmetros estarão má especificadas.

• No caso da autocorrelação serial, além do problema da variância, temos a possibilidade de viés nas estimativas se o problema for decorrente de ausência de variáveis relevantes no modelo.

Page 23: ANÁLISE DE REGRESSÃO

QUEBRAS ESTRUTURAIS E VARIÁVEIS “DUMMIES”

• Algumas vezes queremos incluir no modelo de regressão variáveis qualitativas ou categóricas, como planos econômicos, região, etc...

• Inclusive porque fenômenos pouco usuais podem determinar viés nas estimativas se não forem controlados. Este tipo de fenômeno é conhecido na literatura como “quebra estrutural”.

• Para controlar este tipo de fenômeno e modelar as variáveis qualitativas, são utilizadas variáveis binárias, ou “dummies”

Page 24: ANÁLISE DE REGRESSÃO

• As variáveis recebem este nome por assumirem apenas dois valores ao longo de toda a amostra: zero ou um. O funcionamento da variável é o seguinte:– Período sem a quebra: D = 0

Yt = D Xt + t

Portanto: Yt = Xt + t

– Período da quebra: D = 1

Yt = ( Xt + t

Page 25: ANÁLISE DE REGRESSÃO

• Outro formato possível que a variável “dummy” pode assumir refere-se a mudanças na inclinação. A variável, assim, assume o valor zero para o período sem a mudança e o valor igual ao da variável cuja inclinação mudou para o período com mudança.

• O modelo passa a funcionar da seguinte forma:

– Período sem a quebra: D = 0

Yt = Xt Xt + t

Portanto: Yt = Xt + t

– Período da quebra: D = Xt

Yt = Xt + t

Page 26: ANÁLISE DE REGRESSÃO

Exemplo de Quebra Estrutural: Demanda por Importações - Brasil

1980 - 2001

0

1.000

2.000

3.000

4.000

5.000

6.000

Jan/80

Jan/81

Jan/82

Jan/83

Jan/84

Jan/85

Jan/86

Jan/87

Jan/88

Jan/89

Jan/90

Jan/91

Jan/92

Jan/93

Jan/94

Jan/95

Jan/96

Jan/97

Jan/98

Jan/99

Jan/00

Jan/01

Período

Imp

ort

açõ

es (

em

US

$ m

ilh

ões)

Page 27: ANÁLISE DE REGRESSÃO

• Uma função de demanda por importações assume o seguinte formato:

lnMt = + 1t + 2lnYt + 3lnRERt + t

onde: Mt = importações; t = tendência linear; Yt = PIB real; RERt = taxa de câmbio real. O uso de uma tendência justifica-se por não existir com freqüência mensal uma medida de utilização da capacidade instalada da economia. Todas as variáveis, pelos motivos já conhecidos, encontram-se transformadas para o seu logaritmo natural.

• Estimando-se a regressão por OLS, temos o seguinte gráfico dos resíduos:

Page 28: ANÁLISE DE REGRESSÃO

Resíduos: Modelo para demanda por importações - Brasil

-0,8

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

Jan/80

Jan/81

Jan/82

Jan/83

Jan/84

Jan/85

Jan/86

Jan/87

Jan/88

Jan/89

Jan/90

Jan/91

Jan/92

Jan/93

Jan/94

Jan/95

Jan/96

Jan/97

Jan/98

Jan/99

Jan/00

Jan/01

Período

Resíd

uo

s

Page 29: ANÁLISE DE REGRESSÃO

• Note como o resíduo exibe, aparentemente, um padrão sazonal, além de uma quebra estrutural localizada no início dos anos 90. Como o resíduo corresponde a tudo aquilo que não foi explicado pelo modelo, temos aqui o problema de especificação por não termos considerado a quebra estrutural indicado pela mudança de tendência dos resíduos.

• Lembre-se: devem existir motivos relevantes para a quebra!!! A presença de “outliers” por si só não quer dizer que existam quebras. No nosso caso, devemos lembrar a mudança ocorrida na economia com a sua abertura comercial no início dos anos 90. Logo, justifica-se uma correção no modelo.