Aula 2

Aula 2

13 de setembro de 2013Dados em painel

Dados e econometria• A econometria evoluiu como uma disciplina separada da estatística

matemática, porque enfoca problemas inerentes à coleta e à análise de dados econômicos não-experimentais.

• Dados não-experimentais: não são acumulados por meio de experimentos controlados de indivíduos, firmas ou segmentos da economia.– também chamados de dados observacionais para enfatizar o fato de que o

pesquisador é um coletor passivo de dados.• Dados experimentais: são frequentemente coletados em

ambientes de laboratório nas ciências naturais, mas são muito mais difíceis de serem obtidos nas ciências sociais.

• O método de análise da regressão múltipla é utilizado por econometristas e estatísticos matemáticos, mas o foco e interpretação pode diferir significantemente.

Modelo econômico

• O modelo econômico é a formulação teórica de uma relação entre variáveis econômicas.• A quantidade de tempo gasto na atividade criminosa é uma função de vários fatores

(Gary Becker 1968):

y=f(x1, x2, x3, x4, x5, x6, x7),y= horas gastas em atividades criminosas.x1= “salário” por hora ocupada em atividade criminosa.x2= salário-hora em emprego legal.x3= renda de outras atividades que não o crime ou um emprego legal.x4= probabilidade de ser capturado.x5= probabilidade de ser condenado se capturado.x6= sentença esperada se condenado.x7= idade.

Modelo econométrico

• Após elaborar o modelo econômico, é especificado um modelo econométrico, que será aplicado a dados existentes.

• A forma da função f(.)deveria ser especificada antes de realizar uma análise econométrica.• Se uma variável não pode ser obtida, é possível utilizar uma variável que se aproxima desta

que se quer medir (proxy).• Outros fatores são considerados no termo de erro u (ou termo de disturbância):Erro

amostral é a diferença entre o resultado amostral e o verdadeiro resultado da população (devidos ao acaso).

• Erro não-amostral ocorre quando os dados amostrais são coletados, registrados ou analisados incorretamente.

• Modelo econométrico de Becker (1968):

crime = β0 + β1salário + β2outrenda + β3freqpris + β4freqcond + β5sentmed + β6idade + u

Na prática

• Na maioria dos casos, a análise econométrica começa pela especificação de um modelo econométrico, sem consideração de detalhes da criação do modelo econômico.

• É comum começar com um modelo econométrico e usar o raciocínio econômico e conhecimentos científicos como guias para escolher as variáveis.

• Após a especificação do modelo econométrico, várias hipóteses podem ser formuladas em termos das direções e influências dos parâmetros desconhecidos (independentes) sobre a variável de interesse (dependente).

• Após os dados terem sido coletados, os métodos econométricos são usados para estimar os parâmetros do modelo econométrico e para testar as hipóteses de interesse.

ESTRUTURA DO DADOS ECONÔMICOS

• Dados de corte transversal.• Dados de séries de tempo.• Cortes transversais agrupados.• Dados de painel ou longitudinais

Dados de corte transversal

• Um conjunto de dados de corte transversal consiste em uma amostra de uma unidade de análise, tomada em um determinado ponto no tempo.

• Dados em um determinado ponto do tempo são importantes para testar hipóteses e avaliar políticas.

• A ordenação das observações nos dados de corte transversal não importa para a análise econométrica.

• Os dados podem apresentar problemas, em casos que a amostragem aleatória não é a técnica apropriada:

– seleção amostral– indivíduos não revelam informações acuradas.

• Observações não são extrações independentes: unidades próximas possuem características semelhantes.

Exemplo

• Conjunto de dados de corte transversal para o ano de 2011 de trabalhadores do SE (Pnad):

V0101 uf V0102 V0103 V0301 V0302 V3031 V3032 V3033

2011 11 11000015 1 1 2 25 12 1961

2011 11 11000015 2 1 4 16 10 1959

2011 11 11000015 2 2 2 23 2 1989

2011 11 11000015 4 1 4 28 5 1981

2011 11 11000015 4 2 4 22 11 1999

2011 11 11000015 5 2 2 29 5 1960

2011 11 11000015 5 6 4 15 11 1943

2011 11 11000015 6 3 4 29 11 1961

Dados de séries de tempo

• Observações sobre uma ou mais variáveis ao longo do tempo.• Como eventos passados podem influenciar eventos futuros, o tempo é

uma dimensão importante em um conjunto de dados de séries de tempo.

• A ordenação cronológica das observações transmite informações importantes.

• A análise desses dados pode ser dificultada, porque observações econômicas não são independentes ao longo do tempo (variáveis possuem tendências temporais).

• As frequências mais comuns são: diária, semanal, mensal, trimestral e anual.

• Atenção aos dados que possuem algum tipo padrão sazonal.

Exemplo

No. Indigentes Proporção Razão do Hiato Hiato Quadrático 1990 24.118.265 0,17384 0,41663 0,0449419911992 23.295.587 0,16638 0,46771 0,053261993 22.861.630 0,16104 0,46917 0,0516419941995 15.354.868 0,10401 0,49482 0,038241996 15.148.274 0,10148 0,52747 0,041521997 14.267.794 0,09383 0,54096 0,039881998 13.897.795 0,09059 0,52305 0,037191999 13.614.127 0,08739 0,53800 0,03712

2001 15.797.467 0,09563 0,56322 0,044952002 14.579.401 0,08689 0,54350 0,037002003 16.941.855 0,09969 0,53288 0,041042004 13.927.738 0,08001 0,54957 0,034372005 11.995.054 0,06761 0,56633 0,030592006 10.135.618 0,05642 0,58093 0,026192007 10.504.728 0,05794 0,60561 0,028522008 9.264.466 0,05119 0,58259 0,023722009 9.438.922 0,05173 0,58493 0,02424

Indigência - Brasil, exceto região Norte Rural

Ano Indicadores de Renda

Cortes transversais agrupados

• Alguns conjuntos de dados têm características de corte transversal e de séries de tempo.

• Um mesmo conjunto de variáveis é coletado em diferentes períodos do tempo, em distintas amostras aleatórias de uma mesma população (Censo Demográfico, Pesquisa Nacional por Amostra de Domicílios –PNAD).

• Agrupar cortes transversais de diferentes anos é eficaz para analisar os efeitos de uma política pública.

• O ideal é coletar dados de anos anteriores e posteriores a uma importante mudança de política governamental.

• Além de aumentar o tamanho da amostra, a análise de corte transversal agrupada é importante para estimar como uma relação fundamental mudou ao longo do tempo.

Exemplo• Conjunto de dados sobre os preços da

moradia em 1993 e 1995 nos Estados Unidos

Dados em painel• Um conjunto de dados de painel (ou dados longitudinais) consiste em uma

série de tempo para cada membro do corte transversal do conjunto de dados.• Uma medida no decorrer do tempo (T1, T2, T3…) ocorre para cada pessoa (ou

instituições, ou países...)• Podem ser coletados para indivíduos, domicílios, instituições ou unidades

geográficas.• São distintos dos dados de corte transversal agrupados, porque as mesmas

unidades são acompanhadas ao longo de um determinado período.• Assim como no corte transversal puro, a ordenação dos dados de painel não é

importante.• Ter múltiplas observações sobre as mesmas unidades permite controlar por

características não observáveis.• Esses dados permitem estudar defasagens de resultados (impacto de políticas

pode ser sentido após algum tempo).• Esses dados são mais difíceis e caros de se obter.

Exemplo

• Cada tempo é considerado uma onda (“wave”).

micro ano tempo setor salPorto Velho 2009 1 tot 3.62Porto Velho 2009 1 ind 3.97Porto Velho 2009 1 cc 3.15Porto Velho 1999 0 com 2.56Porto Velho 1999 0 serv 7.01Porto Velho 2009 1 com 1.91Porto Velho 1999 0 ind 5.39Porto Velho 1999 0 cc 4.85Porto Velho 2009 1 serv 4.1Porto Velho 1999 0 tot 6.4Guajará-Mirim 1999 0 serv 2.57Guajará-Mirim 1999 0 ind 1.84Guajará-Mirim 1999 0 com 1.86Guajará-Mirim 1999 0 tot 2.27Guajará-Mirim 1999 0 cc 2.09Guajará-Mirim 2009 1 ind 1.58Guajará-Mirim 2009 1 tot 1.98Guajará-Mirim 2009 1 com 1.66Guajará-Mirim 2009 1 serv 2.23Guajará-Mirim 2009 1 cc 1.28

Dados de painel–Informação sobre múltiplas causas:Um componente interseccional ou transversal (“cross-sectional”).

–Informação sobre casos no decorrer do tempo:Um componente longitudinal ou de série temporal.

Banco de dados de painel é descrito em termos de:

N: número de casos individuais.T: número de ondas.• Se N é grande em relação a T, o banco é dominante transversalmente (“cross-

sectionally dominant”).• Se T é grande em relação a N, o banco é dominante em séries de tempo (“time-

series dominant”):

• “Time-series Cross-section” (“TSCS data”): pequeno número de unidades (usualmente 10-30) e moderado T.

Alguns pontos sobre painel• Painel significa duas coisas:

Painel é um tempo amplo para todos dados com séries temporais e componentes interseccionais.

Painel se refere especificamente a bancos com N grande e T pequeno (dominante transversalmente):

•Ex.: uma pesquisa com 1000 pessoas em 3 pontos no tempo.

• Balanceado X Não Balanceado:–Dados de painel são chamados de balanceados se informação de cada pessoa é

disponível para todos T’s.

–Se há dados “missing” para alguns casos em certos pontos no tempo, os dados são não balanceados: (comum para muitos bancos de países ou instituições).

Benefícios do dado em painel• Agregação (“pooling”) de casos ou tempo promove informação

mais rica:–Quanto mais observações, melhor.

•Dados de painel são longitudinais:–Casos individuais são seguidos no decorrer do tempo.–Permite o estudo de processos dinâmicos.–Promove oportunidades para melhor entender relações causais.

•Modelos de painel permitem o controle de heterogeneidade individual.

Problemas• Viola pressuposto de independência de MQO:–Aglomeração (“clustering”) por casos.–Aglomeração por tempo.–Outras fontes? Ex.: correlação espacial.

•Para N pequeno e T grande (TSCS): “Poolability”–É apropriado combinar casos muito diferentes?

•Correlação serial:–Casos adjacentes temporalmente podem ter erro correlacionado.

•Não-estacionário para dados com T grande.•Outros problemas: heterogeneidade.

Documents

Aula 2