Analise de Indicadores Sociais Utilizando o Stata

ANALISE DE INDICADORES SOCIAIS UTILIZANDO O STATA

Henrique Dantas Neder

Professor Associado Instituto de Economia Universidade Federal de Uberlndia

Contedo1.Introduo32.O ndice de Desenvolvimento Humano (IDH)33.ndices de pobreza183.1Linhas de Pobreza194.ndices de distribuio de renda245.Decomposio de ndices de Pobreza e ndices de Distribuio de Renda316. Clculos de coeficientes de elasticidade-crescimento e elasticidade-Gini da pobreza346. Clculos de coeficientes de elasticidade-crescimento e elasticidade-Gini da pobreza347.Elaborao de mapas com indicadores sociais408. Avaliao de polticas sociais447.1 Mtodos Quantitativos de Avaliao de Programas Sociais457.2 Introduo a Inferncia Causal497.3 Estimao pela Dupla Diferena517.4 O Modelo de Regresso Logstica527.5 Mtodo do Propensity Score Matching547.6 Anlise de Sensibilidade para o Mtodo do Propensity Score Matching577.7 Modelo de Heckman598. Referencias Bibliogrficas62ANEXOS64

Quadro 1 Sistema de ponderao do IDH e do ICV municipal5

Figura 1- Clculo do IDH municipal de acordo com um exemplo7Figura 2 Editor de dados do STATA com os dados do IDH para os municipios do Estado de Minas Gerais9Figura 3 Matriz de correlao entre os valores do IDH e de seus componentes para os municpios do Estado de Minas Gerais10Figura 4 Coeficientes de correlao de Spearman entre os diversos componentes do IDH e para os municpios do Estado de Minas Gerais11Figura 5 Estatsticas descritivas para o IDH e seus componentes e para os municpios de Minas Gerais14

Grfico 1 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000 dos municpios do Estado de Minas Gerais12Grfico 2 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000 dos municpios do Estado de Minas Gerais13Grfico 3 Histogramas do IDH educao para os municpios de Minas Gerais15

Tabela 1 Linhas de Pobreza calculadas a partir da POF87-88(IBGE) e ajustadas a cada ano pela variao dos INPC regionais em nvel de grupos de produtos20

1. Introduo

Os princpios gerais para a estimativa e anlise de indicadores sociais baseiam-se em diversas teorias e neste trabalho no vamos nos concentrar detalhadamente nas mesmas. O que pretendemos enumerar e descrever algumas metodologias que se relacionam ao clculo, estimativa e analise destes indicadores. O objetivo geral do trabalho est circunscrito a analise de dados que se relacionam a pesquisas socioeconmicas e relativas a polticas publicas. 2. O ndice de Desenvolvimento Humano (IDH)O primeiro indicador a ser tratado e o que mais consagrado, devido ao seu uso disseminado, o IDH. Este ndice um indicador sinttico de desenvolvimento calculado em termos agregados e tem sido utilizado para medir comparativamente o nvel de desenvolvimento de pases e regies. De imediato este indicador ganhou grande amplitude e aceitao universal devido a sua simplicidade de calculo e facilidade de obteno mesmo para pases com sistemas estatsticos no desenvolvidos. Trata-se de uma media ponderada de trs variveis que representam trs dimenses bsicas de desenvolvimento: a renda, a educao e a sade. Para o Brasil, a Fundao Joo Pinheiro em conjunto com o IPEA desenvolveu uma metodologia de calculo do IDH municipal (ndice de Desenvolvimento Humano Municipal) e do ICV (ndice de Condies de Vida Municipal) baseados em 5 dimenses bsicas: renda, educao, infncia, habitao e longevidade. Cada uma destas dimenses representada por um conjunto de indicadores. A dimenso Renda formada pelos indicadores renda familiar per capita, ndice de Theil, proporo de pobres (P0), hiato de pobreza (P1) e hiato de renda quadrtico mdio (P2). A dimenso Educao representada pelas variveis numero mdio de anos de estudo, Porcentagem da populao com menos de quatro anos de estudo, Porcentagem da populao com menos de oito anos de estudo, Porcentagem da populao com mais de 11 anos de estudo e Taxa de analfabetismo. A dimenso Infncia formada pelos seguintes indicadores: Defasagem escolar mdia, Porcentagem de crianas com mais de um ano de defasagem escolar, Porcentagem de crianas que no freqentam a escola e Porcentagem de crianas que trabalham. A dimenso Habitao composta pelas variveis: Porcentagem da populao que vive em domiclios com densidade acima de duas pessoas por dormitrio, Porcentagem da populao que vive em domiclios durveis, Porcentagem da populao urbana que vive em domiclios com abastecimento adequado de gua, Porcentagem da populao urbana que vive em domiclios com instalaes adequadas de esgoto. Finalmente a dimenso Longevidade composta pelos indicadores Esperana de vida ao nascer e a Taxa de mortalidade infantil. Mostramos a seguir o sistema de ponderao destes dois ndices[footnoteRef:1]: [1: Esta tabela foi diretamente reproduzida da DEFINIO E METODOLOGIADE CLCULO DOS INDICADORESE NDICES DE DESENVOVIMENTO HUMANO E CONDIES DE VIDA - Fundao Joo Pinheiro (FJP) e do Instituto de Pesquisas Econmicas Aplicadas (IPEA.)]

Quadro 1 Sistema de ponderao do IDH e do ICV municipal

Como se observa da tabela acima, cada ndice constitui-se de uma media ponderada obtida a partir de algumas variveis. No caso do IDH municipal, calculado como uma media ponderada das dimenses Renda, Educao e Longevidade, com pesos iguais a 1/3 para cada destas dimenses. Conseqentemente o IDH municipal simplesmente uma media ponderada dos trs subndices que o compem. Para a dimenso Renda temos que no caso do IDH municipal, esta apenas composta pela renda familiar per capita media ajustada. O mesmo se d para a dimenso de Longevidade que representada apenas pelo indicador Esperana de Vida ao Nascer (anos). No entanto, para a dimenso Educao, o IDH municipal utiliza em seu calculo duas variveis: taxa de analfabetismo (%) com peso 2/9 e numero mdio de anos de estudo (anos) com peso 1/9. Estes pesos se referem ao ndice final. Por exemplo, suponhamos que um determinado municpio tenha uma renda media per capita familiar ajustada igual a 0,950 salrios mnimos de setembro de 1991[footnoteRef:2], uma taxa de analfabetismo de 40 %, um numero mdio de anos de estudo de 5,3 anos e uma esperana de vida ao nascer de 61 anos. [2: Os valores da renda familiar per capita esto expressos em salrios mnimos de setembro de 1991, sendo de Cr$ 36.161,60 o valor do salrio mnimo nesta data.]

O valor de seu IDH ser dado pela expresso:IDH = 1/3 x ndice de Renda + 1/3 x ndice de Habitao + 1/3 x ndice de Longevidade = 1/3 x renda familiar per capita media ajustada + 2/9 x Taxa de analfabetismo (%) + 1/9 x numero mdio de anos de estudo padronizado + 1/3 x Esperana de Vida ao Nascer padronizada =1/3 x (0,950 0,050)/ (1,364 0,050) + 2/9 x 0,40 + 1/9 x (5,3 0)/(15 0) + 1/3 x (61 25) / (85 25) = 0,556No Stata este calculo pode ser realizado atravs do comando (ver tela abaixo): disp 1/3*(0.950-0.050)/(1.364-0.050)+2/9*0.40+1/9*(5.3-0)/(15-0)+1/3*(61-25)/(85-25) Esta expresso deve ser escrita na linha de comando e em seguida ativar a tecla enter.

Figura 1- Clculo do IDH municipal de acordo com um exemplo

A Fundao Joo Pinheiro e o IPEA na divulgao da metodologia de calculo adotam um procedimento de padronizao dos ndices utilizando a expresso a seguir:ndice padronizado = (valor observado para o indicador - pior valor) / (melhor valor - pior valor)Esta expresso foi empregada no calculo anterior para a padronizao da renda familiar per capita media em salrios mnimos, do numero mdio de anos de estudo e da esperana de vida ao nascer. No caso da taxa de analfabetismo no necessria padronizao pois a mesma varia de 0 (0%) a 1 (100%). Esta operao de padronizao previa dos indicadores necessria para que a escala original de variao e as unidades de medida dos mesmos no distoram o calculo final do IDH favorecendo o efeito de alguns ndices no calculo da media ponderada.Suponhamos outro exemplo em que se deseja calcular o ICV para um determinado municpio. Com mostrado no Quadro 1, este ndice calculado com base em um numero maior de indicadores e dimenses bsicas. A renda familiar per capita definida a soma da renda pessoal de todas as pessoas da famlia excludos os pensionistas e os empregados domsticos e seus parentes (so tambm excludas as famlias que no pertencem a domiclios particulares por exemplo, famlias ou indivduos que fazem parte de domiclios coletivos que so hotis, penses, alojamentos). Para obter os indicadores utilizados no calculo do ndice de Desenvolvimento Humano Municipal, faa o download do Atlas de Desenvolvimento Humano no site http://www.fjp.gov.br/produtos/cees/idh/atlas_idh.php e o instale no seu computador. Vamos fazer um pequeno exerccio analtico utilizando os valores do IDH (e de seus componentes) para todos os municpios de Minas Gerais. Depois de exportar estes valores para uma planilha Excel (existe uma opo para isto no Atlas de Desenvolvimento Humano), copiamos e colamos estes valores para o editor de dados do STATA. Mas antes disto necessrio alterar o separado de decimal de vrgula para ponto no Excel. Isto necessrio porque o STATA reconhece o separador de decimal como ponto. importante antes de copiar os dados do Excel para o STATA, colocar na primeira linha os nomes abreviados das variveis. Quando for feita a copia para o editor de dados, o STATA automaticamente ir reconhecer os valores da primeira linha como sendo os nomes das variveis.

Figura 2 Editor de dados do STATA com os dados do IDH para os municipios do Estado de Minas Gerais

Podemos iniciar a nossa analise calculando a matriz de correlao entre os valores dos diversos componentes do IDH para 853 municpios de Minas Gerais. Para isto, na janela de comandos do STATA digite correlate e passe os nomes das variveis que esto na janela de variveis para a janela de comandos (basta clicar nas variveis que seus nomes vo se transferindo para a janela de comandos em seguida a palavra chave correlate. Aperte a tecla enter e surgir na janela de resultados a matriz de correlao.

Figura 3 Matriz de correlao entre os valores do IDH e de seus componentes para os municpios do Estado de Minas Gerais

Observe que o IDH1991 e o IDH2000 tem uma elevada correlao (0,9618) o que indica que praticamente os municpios conservaram as mesmas colocaes durante o perodo. Para confirmar isto execute o comando spearman idh1991 idh2000. O resultado para o coeficiente de correlao de Sperman (correlao de ordem) de 0,9623 confirmando que os municpios de Minas Gerais no alteraram substancialmente as suas posies no ranking do IDH global. Faamos esta verificao para os componentes individuais do IDH.spearman idhedu1991 idhedu2000 spearman idhlong1991 idhlong2000 spearman idhrend1991 idhrend2000

Pode-se observar que o componente do IDH que mais alterou o seu ranking entre os municpios do Estado de Minas Gerais no perodo 1991-2000 foi o de longevidade.

Figura 4 Coeficientes de correlao de Spearman entre os diversos componentes do IDH e para os municpios do Estado de Minas Gerais

Um grfico muito interessante para a anlise comparativa das distribuies estatsticas do IDH1991 e IDH2000 pode ser obtido atravs do comando:graph box idh1991 idh2000, marker(1,mlabel(municipio))

Este grfico tambm poderia ser obtido atravs do menu Graphics => Box plot No entanto, preferimos utilizar diretamente o comando dada a maior flexibilidade de recursos (por exemplo, incluir a possibilidade de marcar os municpios com baixo valor do IDH 1991 que aparecem no grfico). Pelo Grfico 1 pode-se observar que a distribuio do IDH desloca-se para valores mais elevados: a mediana (que a linha intermediaria no meio da caixa) vai para cima de 1991 para 2000, assim como tambm o primeiro quartil (face inferior da caixa) e o terceiro quartil (face superior da caixa). O valor mnimo do IDH em 1991 que correspondia ao municpio de Santo Antonio do Retiro era igual a 0,42 e passa a ser 0,57 (correspondente a ordenada da extremidade inferior da linha vertical que sai da caixa) em 2000. Ao mesmo tempo o valor mximo passa de 0,79 em 1991 para 0,84 em 2000 (que corresponde a extremidade superior da linha vertical que sai da caixa central do diagrama).

Grfico 1 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000 dos municpios do Estado de Minas Gerais Para a comparao entre os dois ndices correspondentes a longevidade tentamos o seguinte comando:graph box idhlong1991 idhlong2000, marker(1, mlabel(municipio) msize(tiny) mlabsize(municipio)) marker(2, mlabel(municipio) msize(tiny) mlabsize(tiny)) Este ultimo comando especifica nas opes msize e mlabsize os tamanhos dos labels ds municpios que aparecem no grfico como dados discrepantes (outliers). Mas infelizmente este comando no apropriado pois ocorre muita sobreposio de nomes de municpios como outliers no grfico. Estes outliers so observaes cujo valor da varivel inferior (superior) a 1,5 vezes a distancia entre as duas faces da caixa (desvio interquartlico) contada a partir da ordenada correspondente a face inferior (superior). A ultima observao encontrada acima (abaixo) deste limite denominada valor extremo e as observaes inferiores (superiores) so outliers. Para maior visibilidade e evitando a sobreposio de labels vamos executar o comando:Grfico 2 Diagrama Box Plot para as distribuies do IDH 1991 e IDH 2000 dos municpios do Estado de Minas Gerais

Vemos que para o ano 1991 temos diversos outliers inferiores que correspondem a municpios com valores do IDH longevidade inferiores de forma discrepante em relao ao conjunto da distribuio desta varivel. Outra importante considerao pode ser obtida atravs da analise de um simples calculo de estatsticas descritivas para os indicadores:summa idh1991 idh2000 idhedu1991 idhedu2000 idhlong1991 idhlong2000 idhrend1991 idhrend2000

Para todos os indicadores observa-se uma elevao dos valores mnimos, valores mximos e medias das distribuies. Ocorre tambm uma reduo do desvio padro do idh e idhedu. Uma tabulao mais detalhada de estatsticas descritivas (e com melhor disposio tabular mais apropriada para a copia em um documento de texto) pode ser obtida atravs do comando:tabstat idh1991 idh2000 idhedu1991 idhedu2000 idhlong1991 idhlong2000 idhrend1991 idhrend2000, s(min max mean sd cv sk) c(s)Este comando tambem pode ser ativado via menu atraves da sequencia Statistics => Summaries, tables and tests => Tables => Table of Summary Statistics (tabstat). Deve-se ento incluir as variveis na janela Variables localizada na aba Main, colocar as estatsticas na janela Statistics to display e na aba options colocar Statistics na janela Use as columns. Figura 5 Estatsticas descritivas para o IDH e seus componentes e para os municpios de Minas Gerais

Pela Figura 5 interessante observar duas caractersticas importantes das distribuies do IDH municipal e de seus componentes: a disperso relativa medida pelo coeficiente de variao (cv) e a assimetria medida pelo coeficiente de assimetria de Pearson (skewness). Verifica-se que todas as variveis tm sua disperso relativa reduzida no perodo 1991-2000 e com exceo do ndice de renda, todos os demais tem sua assimetria (em termos de valor absoluto) reduzida no mesmo perodo. As distribuies tornam-se menos dispersas em relao as suas respectivas medias e com assimetria menos acentuada em direo a valores mais elevados (assimetrias menos negativas). Vamos analisar o que efetivamente ocorre com a distribuio do IDH educao que tem o seu coeficiente de variao reduzido de 0,1369 para 0,0764 e seu coeficiente de assimetria reduzido em termos absolutos de 0,6905 para 0,4166. Uma analise grfica pode ser obtida atravs dos seguintes comandos:histogram idhedu1991, name(idh1991educ, replace)histogram idhedu2000, name(idh2000educ, replace)graph combine idh1991educ idh2000educ

Grfico 3 Histogramas do IDH educao para os municpios de Minas Gerais

A reduo do coeficiente de variao pode ser em grande parte explicada pelo aumento do IDH educao dos municpios com pior situao em termos deste indicador em 1991 e que tinha um valor de 0,4 a 0,57 que tiveram seus valores elevados a valores superiores a este ultimo limite. Portanto os municpios que anteriormente tinham valores muito distanciados da media estadual passaram a ter valores mais prximos da mesma. As redues do coeficiente de variao e do valor absoluto do coeficiente de assimetria indicam que ocorreu um processo de uniformizao dos valores do IDH educao para os municpios. O grande salto do limite inferior para este indicador de 0,35 em 1991 para 0,57 em 2000 comprova esta uniformizao. Outro ndice que foi desenvolvido recentemente em trabalhos de pesquisa o ndice de Desenvolvimento Rural (IDR). Este indicador guarda semelhanas de metodologia com o IDH e o ICV municipal, dentro de uma concepo de simplicidade. No entanto ele foi proposto para medir especificamente o nvel de desenvolvimento rural, concentrando-se em indicadores bsicos mais apropriados a esta realidade. A definio destes indicadores bsicos e como o clculo do IDR encontra-se na tabela a seguir:

O IDR baseia-se em 4 dimenses bsicas (populao, bem estar social, econmica e ambiental) sendo cada uma destas calculada com base em alguns indicadores. Cada uma destas dimenses uma media aritmtica das variveis que a compem e o IDR por sua vez uma media aritmtica dos indicadores compostos que representam as 4 dimenses. O mesmo procedimento de padronizao empregado no calculo do IDH e ICV municipal tambm adotado para algumas variveis que requerem esta transformao. A fundamentao terica para a utilizao de cada varivel pode ser encontrada em Silva (2006) e em Kageyama (2004).

3. ndices de pobreza

Os ndices de pobreza mais utilizados na literatura so: o Poverty Headcount (proporo de pobres P0), o Poverty Gap (Gap de Pobreza P1) e o Squared Poverty Gap (Gap de Pobreza elevado ao quadrado P2), todos fazendo parte da classe de ndices FGT (Foster, Greer e Thorbecke, 1984). Estes ndices so calculados com base nas seguintes expresses:

onde:q o nmero de pobres (pessoas cuja renda per capita domiciliar menor que a linha de pobreza).n o tamanho da populaoz a linha de pobrezayi a renda per capita domiciliar da i-sima pessoaO primeiro ndice (Poverty Headcount) mede a proporo de pessoas pobres, ou seja, a proporo de pessoas que tm renda per capita domiciliar inferior linha de pobreza. Tal indicador utilizado como ponto de partida para estudos sobre pobreza, mas insuficiente para analis-la dado que viola dois importantes axiomas. Em primeiro lugar, o indicador no se altera ao se reduzir a renda de uma pessoa situada abaixo da linha de pobreza ou o inverso, isto , quando a renda eleva-se sem alcanar a linha de pobreza o indicador permanece o mesmo. Em segundo lugar, a proporo tambm insensvel distribuio de renda entre os pobres, no se alterando quando se transfere renda de um indivduo mais pobre para outro menos pobre. Sendo assim, a proporo de pobres deve ser utilizada em conjunto com outros dois indicadores, que se complementam mutuamente. O segundo ndice (poverty gap) mede a intensidade de pobreza para o conjunto da populao pobre atravs do clculo do desvio mdio entre a renda dos pobres e o valor da linha de pobreza e pode ser interpretado como um indicador do dficit de pobreza, ou seja, os recursos necessrios para elevar a renda de todos os pobres ao nvel da linha de pobreza, atravs de uma perfeita focalizao das transferncias de renda. O terceiro ndice (Squared Poverty Gap) geralmente descrito como um indicador de severidade da pobreza. Na construo deste ndice utiliza-se um peso maior para as pessoas mais pobres (o gap de pobreza ponderado por si mesmo) e leva-se em conta a desigualdade de renda entre os pobres. Considerando-se a utilizao destes ndices para os propsitos de polticas pblicas de combate pobreza a proporo de pobres (P0) atribui maior efetividade polticas que elevam a renda dos menos pobres (aqueles cuja renda mais prxima de z). J o gap de pobreza (P1) e o gap de pobreza ao quadrado (P2) colocam nfase naqueles que esto muito abaixo de z, ou seja, os mais pobres dos pobres. 3.1 Linhas de Pobreza

Existe uma imensa discusso sobre mtodos de obteno de linhas de pobreza. Os mtodos baseiam-se invariavelmente em procedimentos de obteno de um valor monetrio mnimo necessrio para uma famlia (em termos per capita) conseguir manter-se em termos de necessidades nutricionais, habitacionais, sade, educao, etc. Parte-se da obteno de uma linha de indigncia e sobre o valor desta acrescenta-se um fator que representar os gastos no alimentares. A linha de indigncia normalmente baseada em termos normativos, ou seja, os valores de um conjunto de bens alimentares necessrios para a manuteno de uma famlia. O fator que multiplica este valor igual ao inverso do coeficiente de Engel que por sua vez igual a relao media, vigente entre as famlias pobres, entre os gastos com consumo alimentar sobre o total dos gastos. Este ltimo indicador obtido atravs das Pesquisas de Oramento Familiares que so realizadas periodicamente pelo IBGE. Como exemplo apresenta-se na Tabela 1 a seguir, as linhas de pobreza, para os anos da dcada atual. Tabela 1 Linhas de Pobreza calculadas a partir da POF87-88(IBGE) e ajustadas a cada ano pela variao dos INPC regionais em nvel de grupos de produtos Regies e Estratosset. / 01set. / 02set. / 03set. / 04set. / 05set. / 06

em R$em S.M.em R$em S.M.em R$em S.M.em R$em S.M.em R$em S.M.em R$em S.M.

Norte

Belm103.650.58114.760.57134.570.56142.860.55151.370.50155.040.44

Urbano90.350.50100.040.50117.300.49124.530.48131.950.44135.150.39

Rural66.190.2267.800.19

Nordeste

Fortaleza100.600.56112.410.56132.290.55140.350.54146.610.49150.790.43

Recife146.120.81159.120.80192.030.80199.810.77212.020.71222.750.64

Salvador132.950.74146.730.73174.640.73181.190.70187.580.63195.440.56

Urbano89.300.5098.370.49117.350.49122.620.47128.470.43133.820.38

Rural53.860.3059.340.3070.790.2973.960.2877.490.2680.720.23

Minas G./Esp.S.

Belo Horizonte126.100.70137.200.69163.450.68175.240.67186.350.62195.820.56

Urbano84.780.4792.240.46109.890.46117.820.45125.290.42131.650.38

Rural50.190.2854.610.2765.050.2769.750.2774.170.2577.940.22

Rio de Janeiro

Metrpole150.800.84165.710.83196.690.82209.780.81218.440.73227.370.65

Urbano93.820.52103.100.52122.380.51130.520.50135.910.45141.470.40

Rural68.490.3875.260.3889.340.3795.280.3799.210.33103.270.30

So Paulo

Metrpole188.041.04205.851.03238.200.99250.790.96261.600.87266.150.76

Urbano120.160.67131.540.66152.210.63160.250.62167.160.56170.070.49

Rural75.590.4282.750.4195.760.40100.820.39105.160.35106.990.31

Sul

Curitiba124.130.69134.600.67156.080.65168.540.65173.590.58175.730.50

P.Alegre96.200.53105.720.53124.120.52132.280.51138.380.46141.570.40

Urbano82.730.4690.240.45105.220.44112.960.43117.150.39119.140.34

Rural55.780.3160.840.3070.930.3076.150.2978.980.2680.320.23

Centro-Oeste

Braslia171.440.95187.160.94225.830.94240.150.92251.570.84265.420.76

Goinia159.640.89175.960.88207.330.86222.860.86234.810.78243.300.70

Urbano121.550.68133.980.67157.860.66169.690.65178.790.60185.250.53

Rural 69.810.3976.950.3890.660.3897.460.37102.680.34106.390.30

Para utilizar estas linhas de pobreza em clculos de ndices de pobreza procede-se da seguinte forma. A partir do CD de micro-dados de uma PNAD (por exemplo, a PNAD 2006), utiliza-se o comando infix do STATA para importar os dados em formato txt. Para a utilizao correta deste comando deve-se levar em conta o lay-out do arquivo de micro-dados. Este arquivo que fornecido dentro do CD de micro-dados pelo IBGE apresenta o formato de disposio dos dados. As variveis so organizadas em um formato fixo, de forma que todas ocupam a mesma posio nas linhas de registro do arquivo. Um exemplo tpico deste comando mostrado a seguir:

*/////////////////////////////////////////////////////////////////////* LEITURA DOS DADOS DA PNAD 2004 - VARIAVEIS DO ARQUIVO DE PESSOAS*/////////////////////////////////////////////////////////////////////infix ano 1-4 uf 5-6 controle 5-12 serie 13-15 ordem 16-17 sexo 18-18 idade 27-29 ///conddom 30-30 condfam 31-31 numfam 32-32 cor 33-33 sabeler 61-61 freqescol 62-62 ///sitescol 78-78 trabinfano 90-90 trabinfsem 93-93 trabalha 147-147 afastado 148-148 /// subsist 149-149 construcao 150-150 numtrab 151-152 rend_apos 534-545 ///rend_pens 548-559 rend_oapo 562-573 rend_open 576-587 rend_abon 590-601 ///rend_alug 604-615 rend_doac 618-629 rend_jur 632-643 anosest 681-682 /// condativ 683-683 condocu 684-684 posocup 685-686 horastrab 687-687 ///ativprin 688-688 ramos 689-690 grupoocup 691-692 contrib 693-693 rend_tra1 703-714 /// rend_tra2 715-726 rend_toda 727-738 rend_dom 739-750 rend_fa1 751-762 ///tipofam 763-764 numfam1 765-766 numfam2 767-768 rend_fa2 769-780 ///areacen 781-781 sitcen 782-782 pesopes 783-787 pesofam 788-792 ///numcri 796-797 numdom1 798-799 rend_dom1 800-811 ///using "D:\PNAD\PNAD2004\Dados\pes2004.txt" Este comando le para o STATA um arquivo txt contendo os microdados do CD da PNAD. Aps a leitura executamos os comandos para a definio da situao de pobreza de cada pessoa na amostra. Em primeiro lugar geramos uma varivel (LP) que conter os valores das linhas de pobreza de acordo com a localizao da pessoa da amostra (Unidade da Federao, situao censitria e rea censitria).

*//////////////////////////////////////////////////////////////////////////////////////////////* COLOCACAO DAS LINHAS DE POBREZA NO ARQUIVO*//////////////////////////////////////////////////////////////////////////////////////////////gene lp = .replace lp = 142.86 if uf == 15 & areacen == 1 replace lp = 124.53 if uf >= 11 & uf = 21 & uf = 31 & uf = 33 & uf = 35 & uf = 41 & uf = 50 & uf 1000000000gen rendapc = rend_fa1 / numfam1inequal rendapc [fw=pesopes]Podemos tambm calcular ndices de distribuio de renda para diversos cortes da amostra PNAD, correspondendo estes ndices a estimativas para os cortes correspondentes do universo de pessoas da populao brasileira de 2004.

inequal rendapc [fw=pesopes] if uf == 31gen urb = 1 if sitcen 3 label define urb 1 "urbano"label define urb 2 "rural", addlabel values urb urb

inequal rendapc [fw=pesopes] if urb == 1

inequal rendapc [fw=pesopes] if urb == 2

inequal rendapc [fw=pesopes] if areacen == 1



Observa-se pela execuo dos comandos acima que o Indice de Gini mais elevado para as reas urbanas do que para as reas rurais. Quando estimamos os indicadores de desigualdade para diversos cortes de amostra considerando a varivel areacen (rea censitria) verificamos que o Gini para as reas metropolitanas o mais elevado sendo o mais reduzido para os municpios no auto-representativos (municpios pequenos). Isto j seria esperado dado que a desigualdade de renda reflete a maior ou menor estratificao social que torna a renda mais heterognea. Apesar de que desigualdade de renda e variabilidade de renda so dois conceitos marcantemente distintos, podemos dizer com certa cautela que universos com maior heterogeneidade de renda so tambm universos com maior concentrao de renda (podem ocorrer contra-exemplos hipotticos). Observa-se que um dos indicadores de desigualdade que o STATA estima o coeficiente de variao que nada mais do que um indicador de variabilidade relativa (o resultado da diviso do desvio padro da renda per capita familiar pela media da renda per capita familiar). Seria a diferena to pequena entre o indice de Gini para as rea metropolitanas (.57836556) e os municpios auto-representativos (.56434655) que na populao no poderamos rejeitar a hiptese nula entre os ndices? Em outras palavras, ser que esta diferena nas amostras to pequena que poderia ser explicada apelas pela aleatoriedade das amostras extradas de duas populaes com ndices de Gini (paramtricos) exatamente iguais? Para responder a esta importante pergunta temos que considerar o delineamento da amostra PNAD. Para fazer isto iremos executar uma rotina (do file) que preparar os microdados para realizar uma estimativa mais detalhada. O objetivo fundamental desta rotina agregar estratos com unidades primarias de amostragem (psu) nicas em outros estratos da mesma unidade da federao que tenham maior numero de observaes (o detalhamento explicativo deste procedimento poder ser encontrado em um dos textos da bibliografia). Para que estas modificaes no arquivo sejam feitas necessrio que seja executada a seguinte seqncia de comandos a partir do editor de do files do STATA. Esta seqncia de comandos uma rotina que realiza a operao para todos as Unidades da Federao.

* ROTINA DE ALOCACAO DE ESTRATOS COM UM UNICO PSU EM ESTRATOS COM MAIOR NUMERO* DE OBSERVACOES UTILIZANDO O DO.FILE idonepsu rendapc - PARA A VARIAVEL RENDPC - ANO DE 2004

*/////////////////////////////////////////////////////////////////////* LEITURA DOS DADOS DA PNAD 2004 - VARIAVEIS DO ARQUIVO DE DOMICILIOS*/////////////////////////////////////////////////////////////////////

set more off

infix uf 5-6 controle 5-12 serie 13-15 tipoentrev 16-17 strat 219-225 psu 226-232 ///if tipoentrev == 1 using "D:\PNAD\PNAD2004\Dados\dom2004.txt", clear

sort uf controle seriesave "D:\CURSO POLITICAS SOCIAIS\dom2004", replace

use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clearsort uf controle seriemerge uf controle serie using "D:\CURSO POLITICAS SOCIAIS\dom2004.dta", uniqusing

tab _mergedrop _merge

save "D:\CURSO POLITICAS SOCIAIS\pes2004", replace

use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clearkeep if uf < 11gene novo_str = .gene novo_psu = .save "D:\CURSO POLITICAS SOCIAIS\acum.dta",replace

capture program drop prog1program define prog1use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clearkeep if uf == estado gene novo_str = strat gene novo_psu = psu quietly { save "D:\CURSO POLITICAS SOCIAIS\transf.dta",replaceuse "D:\CURSO POLITICAS SOCIAIS\acum.dta", clearappend using "D:\CURSO POLITICAS SOCIAIS\transf.dta"save "D:\CURSO POLITICAS SOCIAIS\acum.dta",replace}end

capture program drop prog2program define prog2use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clearkeep if uf == estado idonepsu rendapc , generate(novo_) strata(strat) psu(psu)quietly {save "D:\CURSO POLITICAS SOCIAIS\transf.dta",replaceuse "D:\CURSO POLITICAS SOCIAIS\acum.dta", clearappend using "D:\CURSO POLITICAS SOCIAIS\transf.dta"save "D:\CURSO POLITICAS SOCIAIS\acum.dta",replace}end

scalar estado = .

foreach i in 53 { scalar estado = `i' prog1}

foreach i in 11 12 13 14 15 16 17 21 22 23 24 25 26 27 28 29 31 32 33 35 41 42 43 50 51 52 { scalar estado = `i' prog2}

drop strat psurename novo_str stratrename novo_psu psu

svyset [pw=pesopes], strata(strat) psu(psu)

save "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", replace Aps a execuo desta rotina que demanda um considervel intervalo de tempo (a depender da velocidade do seu microprocessador e de sua disponibilidade de memria RAM) podemos definir as variveis de delineamento da amostra PNAD:svyset psu, strata(psu) vce(linearized) singleunit(missing)findit svylorenzhelp svylorenzsvylorenz rendapcObserve que a sada deste comando ir mostrar nao apenas uma estimativa por intervalo para o ndice de Gini como tambm o percentual de renda acumulado para cada quantil. O numero de quantis default 10, o que significa que o comando subdivide a distribuio em parcelas correspondentes a 10, 20, 30, ..., 100 % dos indivduos em ordem crescente de renda e calcula a o percentual de renda acumulada em cada um destes quantis. Por exemplo, os 10 % mais pobres da distribuio de renda no Brasil em 2004 acumulavam 0,6898 % da renda total. Seguem- se os 10 % seguintes mais pobres que acrescentam uma parcela 1,8376 % o que acumula 2,5274 % da renda total. Vemos que a metade mais pobre da populao brasileira cumula apenas 13,47 % da renda total enquanto a metade mais rica acumula o restante (86,53 %). Para cada um destes valores de quantis (tanto o valor para a faixa de percentual da populao como o quantil correspondente ao percentual da populao acumulado) o comando fornece tambm estimativas por intervalo, o que permite aferir a preciso das mesmas. Para a estimativa global do ndice de Gini para toda a populao brasileira podemos ver uma preciso elevada a partir da amostra de microdados da PNAD as extremidades do intervalo de confiana de 95 % de probabilidade so respectivamente,.5720261 e .5831693. Disto se verifica que o erro de amostragem de (.5831693 - .5720261)/2 = 0.005. O erro relativo 100*(.5831693 - .5720261)/(2*0.5783651) = 0.96 % !!! No podemos garantir a mesma preciso de estimativa para cortes da amostra mais reduzidos. Vejamos por exemplo o valor do ndice de Gini para o estado do Acre:svylorenz rendapc if uf == 11

Temos aqui uma variabilidade no intervalo de.4847863 a .5640556 que corresponde a um erro relativo de 7,55 %. Este comando , desta forma, muito til para irmos controlando os erros de amostragem de acordo com os cortes amostrais (e populacionais correspondentes). Isto importante para nos permitir uma analise mais detalhada do comportamento espacial deste indicador. Um importante ponto a ser observado que na sintaxe do comando svylorenz no exigida a especificao do peso da pessoa na amostra. Esta especificao atravs do comando svyset (que j est incorporado a rotina de eliminao de estrato com psu nico). O comando svylorenz busca automaticamente esta especificao de peso e de delineamento da amostra que j est incorporado ao arquivo de dados.

use "D:\CURSO POLITICAS SOCIAIS\pes2004_area_1.dta", clearsvylorenz rendapc if areacen == 1use "D:\CURSO POLITICAS SOCIAIS\pes2004_area_2.dta", clearsvylorenz rendapc if areacen == 2 Ao executar o conjunto de 4 comandos acima verificamos que os intervalos de confiana para os ndices de Gini e paras as reas censitrias regio metropolitana e municpios auto-representativos tem uma sobreposio (overlap). Isto uma indicao de que as estimativas no tm diferena significativa. Mas para sermos mais rigorosos em termos de inferncia vamos executar o comando ereturn list para verificar quais so os valores que o comando svylorenz armazena em localizaes especificas de memria. Uma das alternativas seria executar o comando svylorenz simultabeamente atravs do mesmo comando para as duas subamostras e imediatamente (como uma operao de pos-estimaao) fazer um teste de diferenas atravs de um comando denominado lincom. Mas este procedimento no possvel porque o comando svylorenz no admite uma operao de estimativa de diversos indices de Gini (um para cada sub-amostra). A alternativa mais pratica (e acessvel) para resolver este problema ser a utilizao da tcnica (j popularizada) denominada bootstrapping. Esta tcnica consiste em estimar a varincia de um indicador com base na realizao de diversas replicaes amostrais. Estas replicaes amostrais so selees de amostras com reposio de mesmo tamanho a partir da mesma amostra. Por exemplo, se quisermos realizar uma estimativa por bootstrapping a partir da amostra total da PNAD 2004 para todo o Brasil, um comando apropriado ir realizar uma seleo aleatria com reposio de, por exemplo, 200 amostras aleatrias a partir da mesma amostra da PNAD. , portanto, uma operao repetitiva de amostragem (com mesmo tamanho e com reposio) a partir de uma mesma amostra. Como curiosidade este nome originou-se de um conto do celebre contador de mentiras alemo que inventou as Aventuras do Baro de Munchausen. Em um destes contos o Baro viu-se em um lago afundando e com duas longas botas caladas em suas pernas. Depois de afundar inteiramente no lago e como ele tinha dificuldade para nadar, para salvar-se teve que utilizar o seguinte fantstico expediente: puxava as abas superiores de suas duas botas para cima e desta forma foi fazendo o seu corpo subir at atingir a superfcie. Esta uma analogia muito interessante com o bootstrapping. Neste fazemos com que a partir da prpria amostra construamos a distribuio amostral do estimador. Na estatstica clssica, as distribuies amostrais dos estimadores so obtidas teoricamente a partir da realizao repetida de diversas selees de amostras com mesmo tamanho a partir de uma mesma populao. Para cada uma destas amostras calcula-se o valor da estimativa e quando tem-se todas as estimativas constri-se a distribuio do estimador. J no bootstrapping a diferena que no se dispondo da populao (e apenas dos valores de uma nica amostra) selecionam-se amostras replicadas (de mesmo tamanho e segundo as mesmas regras de seleo) a partir da prpria amostra. Mas para fazer isto necessrio que as operaes de replicao das diversas amostras siga o mesmo procedimento de amostragem que foi utilizado na seleo da amostra original. Se a amostra selecionada da populao foi por AAS ento as replicaes amostrais devero ser realizadas atravs de AAS tambm. No caso da PNAD, como a amostra complexa (amostragem em estgios), as replicaes amostrais (amostras com reposio e de mesmo tamanho feitas a partir da prpria amostra da PNAD) devero seguir o mesmo padro de delineamento da amostra original. bootstrap r(gini), reps(200) strata(strat) cluster(psu) force nowarn: inequalr rendapc [fw=pesopes] if uf == 11

Compare os resultados do intervalo de confiana para este ultimo comando com o que vem a seguir:svylorenz rendapc if uf == 11

O primeiro estima a varincia do Gini atravs do bootstrapping e o segundo estima atravs do mtodo da linearizao de Taylor. Os resultados so muito prximos. Outro comando que pode ser utilizado para a estimativa de ndices de desigualdade estimados a partir de amostras complexas o svygei. Este comando calcula ndices de entropia generalizada.version 8svyset [pweight=pesopes], psu(psu) strata(strat)

svygei rendapc

Os ndices de desigualdade no precisam ser aplicados necessariamente a renda. Podem tambm ser aplicados a outros indicadores como veremos em outra seo adiante. 5. Decomposio de ndices de Pobreza e ndices de Distribuio de Renda

A anlise dos valores dos ndices de pobreza e de distribuio de renda para o conjunto da populao tem validade, mas fica limitada quando desejamos aprofundar o comportamento destes indicadores para grupos sociais mais detalhados. Uma boa maneira de superar esta limitao estimar estes indicadores para cortes da amostra e controlar a preciso das estimativas, como foi visto anteriormente. Mas existem diversos mtodos que permitem decompor alguns ndices. Comecemos com os ndices de pobreza. Vamos incorporar o comando povdeco ao corpo de cdigos do STATA:findit povdecoSuponhamos que desejamos decompor a pobreza nas 5 grande regies do pais:gen regiao = 1 if uf >= 11 & uf= 21 & uf = 31 & uf = 41 & uf = 50 & uf = 21 & uf = 21 keep rendapc pesopes lp strat psuelast

use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clearkeep if uf >= 22 keep rendapc pesopes lp strat psuelast







use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clearkeep if uf >= 29keep rendapc pesopes lp strat psuelast





use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clearkeep if uf >= 40 & uf = 40 keep rendapc pesopes lp strat psuelast



use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clearkeep if uf >= 50 & uf = 50 keep rendapc pesopes lp strat psuelast




postclose saidaelast

* coloca codigos no arquivo de saida

use "D:\CURSO POLITICAS SOCIAIS\saidaelast",clear

#delimit ;label define codlabel 1 "TO" 2 "NE" 3 "MA"4 "PI"5 "CE"6 "RN"7 "PB"8 "PE"9 "AL"10 "SE"11 "BA"12 "MG"13 "ES"14 "RJ"15 "SP"16 "SU"17 "PR"18 "SC"19 "RS"20 "CO"21 "MS"22 "MT"23 "GO"24 "DF";#delimit cr

label values codigo codlabel

save "D:\CURSO POLITICAS SOCIAIS\saidaelast",replace

7. Elaborao de mapas com indicadores sociaisA elaborao de mapas com indicadores sociais muito til para o entendimento da realidade mais detalhada do desenvolvimento j que em muitas situaes verifica-se um elevado grau de heterogeneidade espacial dos nveis regionais para as variveis que consideramos. O Stata assim como muitos outros softwares mais especializados para aplicaes de anlises geogrficas espaciais permite esta espacializao das variveis. Para construir estes mapas necessrio instalar no Stata dois programas: o shp2dta e o spmap. O primeiro (shp2dta) transforma os arquivos que esto no formato arqview para o formato Stata. O programa l os arquivos arqview e converte os mesmo em arquivos com extenso .dta (que o formato Stata) e que contem as informaes das coordenadas que so os limites das Unidades da Federao, dos municpios, das microrregies ou qualquer unidade de agregao que estiver contida e especificada nos arquivos arqview. O programa spmap desenha os mapas a partir do Stata. Para instalar estes dois programas digite na linha de comandos do Stata:ssc install shp2dta, replaceessc install spmap, replaceAps a instalao destes programas v at o site do ibge (www.ibge.gov.br) busque a aba indicada por geocincias, v para o link Mapeamento das unidades territoriais, entre em produtos, Malha Municipal Digital 2007, no canto direito onde est Disponibilidade, baixe os arquivos arqview de projeo geogrfica. Podem ser baixados os arquivos para o Brasil, Regio ou UF, dependendo se queremos fazer uma anlise dos indicadores para todos os municpios do Brasil, uma determinada regio, ou uma determinada UF. Vamos supor que foram baixados os arquivos 55mu500gc.dbf, 55mu500gc.shp e 55mu500gc.shx Depois de baixado estes arquivos (que so 3, um no formato .dbf, outro no formato .shp e outro no formato .shx) deve-se converter os mesmos para o formato Stata. Para isto, execute o comando:shp2dta using 55mu500gc, data("dadosbrasil") coor("coordenadasbrasil") replace

O nome 55mu500gc obrigatrio, mas os nomes entre aspas duplas podem definidos seguindo as regras de construo de nomes de arquivos no Stata (por exemplo, no podem iniciar com nmeros). Pode ser observado que aps a execuo deste comando so criados dois arquivos denominados dadosbrasil.dta e coordenadasbrasil.dta. Ateno para o detalhe: antes de executar o comando shp2dta necessrio apontar para o diretrio onde foram salvos os arquivos arqview salvos do IBGE. Isto deve ser feito atravs do comando:cd D:\nome do diretrio\A opo replace que foi colocada no final do comando shp2dta para substituir os arquivos sempre que for executado o comando. Isto pode ser necessrio caso j existam arquivos com os nomes escolhidos. Aps a execuo do comando shp2dta possvel executar o comando spmap para a construo de mapas. Para isto vamos importar alguns dados do IBGE referentes ao Censo Demogrfico 2010. Para isto, no site do IBGE, busquem a aba populao entre no link do Censo e cliquem em Resultados preliminares do universo, Tabelas adicionais em formato zip e baixem o arquivo Abastecimento de gua rural. Deve ser feita a descompresso destes arquivos atravs do programa winzip e a importao o contedo do primeiro dos arquivos Excel para o editor de dados do Stata e finalmente salv-lo como arquivo Stata (.dta). Mas para a juno deste arquivo de dados com o arquivo dadosbrasil.dta necessrio colocar os cdigos de municpios do IBGE. possvel fazer isto atravs do banco de dados SIDRA do IBGE, salvar um arquivo com os nomes dos municpios e respectivos cdigos e atravs do comando merge colocar os cdigos de municpios no arquivo de Abastecimento de gua rural. Finalmente podemos executar o comando spmap para fazer o mapa. Podemos realizar tudo isto atravs da seguinte seqncia de comandos em um do-file:

cd "D:\CURSO CEPES\"shp2dta using 55mu500gc, data("dadosbrasil") coor("coordenadasbrasil") genid(id) replaceuse dadosbrasil, clearrename GEOCODIGO codigodestring codigo, replace save dadosbrasil, replaceuse "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL.dta", clearmerge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL0.dta"drop _mergemerge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL1.dta"drop _mergemerge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL2.dta"drop _mergemerge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\ABASTAGUARURAL3.dta"drop _mergemerge m:m municipio coduf using "D:\IICA\MAPAS\abast_agua_rural\CODIGOS MUNICIPIOS.dta"drop _mergemerge m:m codigo using "D:\CURSO CEPES\dadosbrasil.dta"keep if _merge == 3

keep if uf == "MINAS GERAIS"spmap taxaagua using "D:\CURSO CEPES\coordenadasbrasil.dta", id(id) title("") subtitle("")

Esta seqncia de comandos gera o seguinte mapa:

Mas possvel tambm gerar um mapa com a definio dos intervalos atravs da opo clbreak (ver detalhes atravs de help spmap):

spmap taxaagua using "D:\CURSO CEPES\coordenadasbrasil.dta", id(id) ///title("Taxa de no acesso a gua(rural)", size(*0.8)) ///subtitle("") clmethod(custom) fcolor(Reds) ///clbreak(.0 .10 .20 .30 .40 .50 .60 .70 1.00) legtitle("") ndfcolor(green) /// legend(ring(1) position(3)) /// note("Fonte: Censo 2010 - IBGE", size(*0.75))

possvel tambm usar uma escala gradual para o mapa a partir do comando:

format taxaagua %4.3f

spmap taxaagua using "D:\CURSO CEPES\coordenadasbrasil.dta", id(id) /// clnumber(20) fcolor(Greens2) ocolor(white ..) osize(thin ..) /// title("Taxa de no acesso a gua(rural)", size(*0.8)) /// subtitle("domiclios sem rede geral ou poo prprio" " ", size(*0.8)) /// legstyle(3) legend(ring(1) position(3)) /// plotregion(icolor(stone)) graphregion(icolor(stone))

Este ltimo comando foi construdo a partir do help do spmap (digitar na linha de comandos help spmap) considerando-se um dos exemplos que esto no final e modificando-se apenas alguns parmetros do comando tais como o arquivo de coordenadas, ttulo do grfico e outras opes que foram retiradas ou adaptadas. Isto gera o seguinte mapa:

8. Avaliao de polticas sociaisNeste tpico sero apresentados e discutidos os resultados das estimaes de impactos de programas sociais (ou polticas sociais). So discutidos em linhas gerais os principais mtodos quantitativos de avaliao. Na seo 7.2 aborda-se de uma forma sucinta e introdutria o tema da inferncia causal que se refere ao desafio economtrico voltado para a mensurao de impactos baseado em dados de pesquisas em nvel de registros unitrios (micro-dados). Como isolar os efeitos de uma determinada poltica sobre um indicador de resultados? Que parcela da melhoria do bem-estar dos beneficirios pode ser atribuda nica e exclusivamente a influencia da poltica, desconsiderando-se os fatores exgenos (aqueles que atuariam mesmo sem a ocorrncia da poltica)? Na seo 7.3 aborda-se o mtodo da dupla diferena. Neste mtodo considera-se a diferena da variao do valor do indicador de bem estar entre o grupo de beneficirios e o grupo de controle. Este mtodo, que muito utilizado na literatura de avaliao, apresenta a virtude de eliminar parcialmente vieses na avaliao de impactos que advm da influencia de variveis no observveis, alm de controlar os efeitos de variveis exgenas a atuao do programa ou poltica (como por exemplo, determinadas medidas macroeconmicas ou outras polticas que afetam de forma generalizada os beneficirios e no beneficirios). Os mtodos de pareamento baseiam-se na probabilidade de seleo aos programas. Para isto, devido importncia de entenderem-se como tais probabilidades so calculadas, a seo 7.4 trata do modelo de regresso logstica, que nesta avaliao utilizado para as estimativas dos propensities scores (probabilidades de seleo). A estimativa destes modelos crucial para a determinao do impacto no mtodo adotado a seguir (propensity score matching). Na seo 7.5 feita uma apresentao dos principais aspectos do mtodo propensity score matching que em termos sucintos, utiliza a informao proveniente dos modelos de regresso (probabilidade de seleo ao programa ou poltica). Na seo 7.6 introduz-se uma explanao sobre a analise de sensibilidade das estimativas baseadas nos mtodos de pareamento. Como os resultados das estimativas de impacto baseadas nestes mtodos so muito sensveis a influencia de fatores no observveis (assim como a especificao dos modelos logit), importante avaliar como estas estimativas podem ser afetadas por estes fatores. Na subseo 7.7 feita uma reviso do modelo de Heckman. Este modelo, tambm muito utilizado na literatura de avaliao, estaria longe de ser suficientemente discutido tal como feito aqui. A idia foi somente a de apresentar as suas principais caractersticas e que permitissem a compreenso e interpretao dos elementos apresentados na seo de resultados. 7.1 Mtodos Quantitativos de Avaliao de Programas SociaisAvaliao de Programas pode ser entendida como um exame sistemtico da importncia, operao e resultados de programas e polticas pblicas, no sentido de torn-los mais efetivos. O objetivo especfico detectar to claramente quanto possvel se e como um dado programa est tendo efeitos sobre os indivduos, famlias ou instituies, e em que extenso estes efeitos so atribuveis interveno do respectivo programa. Com as avaliaes, geralmente pretende-se determinar mais amplamente se um programa tem efeitos sobre os indivduos, domiclios e instituies e em que medida estes efeitos so atribuveis interveno do programa. Algumas das questes colocadas em uma avaliao de impactos podem ser: Como o projeto afeta os beneficirios? Pode o desenho do programa ser modificado para melhorar os impactos? Tais questes no podem, no entanto, ser simplesmente avaliadas pelo resultado ex-post do projeto. Existem outros fatores ou eventos que so correlacionados com os resultados, mas no so causados pelo projeto. Para garantir rigor metodolgico uma avaliao precisa estimar o counterfactual, ou seja, o que teria ocorrido com os beneficirios se o projeto no tivesse sido implementado. Em uma linguagem tcnica, qual deveria ser a esperana matemtica da varivel monitorada (por exemplo, um indicador de bem-estar) no grupo submetido ao tratamento e condicionada a no ocorrncia do tratamento. Para determinar o counterfactual, necessrio descontar do efeito das intervenes o efeito dos outros fatores o que , sem dvida, uma tarefa complexa. A determinao do counterfactual o ponto fundamental de um desenho de avaliao e pode ser obtido atravs de metodologias que podem ser classificadas em duas grandes categorias: desenhos experimentais (aleatrios) e desenhos quase-experimentais (no aleatrios). Mas tambm devem ser consideradas metodologias qualitativas e participativas que fornecem freqentemente insights crticos na perspectiva dos beneficirios, como os mesmos avaliam subjetivamente os impactos do programa e que podem contribuir para uma interpretao mais aprofundada dos resultados obtidos na anlise quantitativa.O desenho experimental costuma ser considerado como a mais robusta dentre as metodologias de avaliao de impacto. Os beneficirios devem ser eleitos a partir de um processo aleatrio, permitindo que se crie, por meio do prprio mecanismo de focalizao, grupos perfeitamente comparveis de beneficirios e no beneficirios, ou seja, dois grupos estatisticamente equivalentes, dado o tamanho das amostras. Nesse caso, o grupo de controle opera como um perfeito counterfactual, livre de problemas relacionados ao vis de seleo. A seleo aleatria no remove inteiramente o vis de seleo, mas equilibra o vis entre as amostras de participantes e no participantes. O principal benefcio dessa tcnica a simplicidade com que os resultados podem ser interpretados.Os mtodos quase-experimentais podem ser usados para empreender uma avaliao quando no possvel construir grupos de tratamento e de comparao atravs de procedimentos aleatrios. Estas tcnicas quase-experimentais geram grupos de comparao que se assemelham ao grupo de tratamento, pelo menos nas suas caractersticas observadas, fazendo uso de mtodos economtricos. So utilizados controles estatsticos para identificar diferenas entre os grupos de tratamento e de comparao e tcnicas sofisticadas de matching so usadas para construir um grupo de comparao to similar quanto possvel ao grupo de tratamento. Um grupo de controle (ou de comparao) deve ser necessariamente selecionado aleatoriamente da mesma populao em que se encontra o grupo de beneficirios e deve ser o mais semelhante possvel ao grupo de beneficirios em todos os aspectos, exceto o fato de participarem ou no do programa.O problema do vis de seleo na avaliao de impacto causado pelo fato de que os participantes no projeto diferem dos no participantes em caractersticas que afetam tanto a probabilidade de participar do projeto como seus resultados. Normalmente, procede-se em uma avaliao comparando-se os resultados mdios do grupo sob o tratamento (participantes do projeto) com o grupo de controle (no participantes do projeto). No entanto, essa simples comparao (por exemplo, entre mdias de resultados alcanados pelos programas para os membros dos dois grupos) resulta em vis. Este ocorre j que o efetivo impacto do projeto a diferena entre a mdia (valor esperado) do resultado entre os participantes do projeto e a mdia para os mesmos participantes caso estes no tivessem recebido o tratamento. Se chamarmos E[Y1/D=1], o valor esperado do efeito sobre os beneficiados (Y1) quando submetidos a tratamento (D=1), E[Y1/D=0], valor esperado do efeito sobre os beneficiados (Y1) caso estes no recebam o tratamento (D=0), o verdadeiro impacto do projeto sobre a varivel resultado :

(1)

Infelizmente, E[Y1/D=0] no observada (latente) e a sua substituio indevida por E[Y0/D=0], o resultado mdio dos no participantes (Y0) que efetivamente no recebem o tratamento, conduz ao vis de seleo. A forma ideal de eliminar o vis de seleo selecionar aleatoriamente os participantes do projeto. Dessa forma, participantes e no participantes do projeto tero o mesmo valor esperado da varivel resultado (no caso, bem-estar) na hiptese de no receberem o tratamento, ou seja, E[Y1/D=0] = E[Y0/D=0] e I pode ser calculado sem vis pela diferena I = E[Y1/D=1] - E[Y0/D=0] que so dois valores observveis.O vis de seleo pode ser decorrncia de dois conjuntos de variveis: aquelas que estabelecem diferenas observveis (observables) no conjunto de dados disponveis e aquelas devido a diferenas no observveis ou latentes. Um vis observvel poderia ser em decorrncia de um critrio de seleo por meio do qual uma comunidade torna-se eleita em funo de uma caracterstica que esteja relacionada explicitamente a um critrio de elegibilidade (por exemplo, consideram-se como municpios prioritrios aqueles cujo IDH menor do que um dado valor). Em modelos de auto-seleo as condies sociais e econmicas iniciais (grau de organizao, capital fsico e social inicial) tambm estabeleceriam um vis de seleo observvel por meio de dados (indicadores ou proxies) que podem ser facilmente coletados. Dentre as variveis no observveis que podem criar um vis esto aquelas no reveladas diretamente pelos dados, como capacidade individual, conexes familiares e processos subjetivos de seleo (politicamente dirigidos pelas elites). Ambos os tipos de vieses podem levar a concluses imprecisas, incluindo a sub ou superestimao dos impactos, impactos negativos quando de fato so positivos (e vice-versa), e impactos estatisticamente significantes quando verdadeiramente seriam insignificantes (e vice-versa). possvel controlar esses vieses por meio de tcnicas estatsticas, como pareamento, fixed-effects e variveis instrumentais. Entretanto, extremamente difcil remove-los, sendo esse o maior desafio dos pesquisadores que trabalham com anlise de impacto. Em desenhos quase-experimentais, com o uso de modelos estatsticos e economtricos busca-se tratar o problema modelando o processo de seleo com o objetivo de obter estimativas no viesados a partir dados no-experimentais. A idia comparar os participantes do programa com os no participantes, mantendo o processo de seleo constante. Entre as tcnicas de desenho quase-experimental, as tcnicas de comparao-pareada so geralmente consideradas boas alternativas aos desenhos experimentais. A literatura sobre metodologias de avaliao tem dado muita ateno a essas tcnicas, refletindo no apenas a freqncia com que tm sido utilizadas como tambm os desafios enfrentados para se obter bons grupos de comparao. Algumas tcnicas tm sido apontadas com grande interesse, como a propensity score matching. Contudo, podem ser exigentes quanto qualidade, quantidade e disponibilidade de dados. Em especial, dependem de um processo de dupla amostragem em que, a partir de uma primeira grande amostragem, ser obtida uma segunda amostra de grupos pareados. Por exemplo, a partir de dados coletados por meio de uma pesquisa de dimenso nacional, ou regional, seriam construdas sub-amostras de beneficirios e de controle, pareadas segundo variveis observadas. Essas duas sub-amostras seriam ento objeto de nova coleta de dados, necessrias para a avaliao, mas no coletados na pesquisa mais ampla. Modelos economtricos so utilizados para controlar o efeito de variveis exgenas que impedem um perfeito pareamento. Estas variveis so introduzidas para isolar o efeito do programa, controlando o conjunto de caractersticas que diferenciam as comunidades e os domiclios. Certas variveis so tambm introduzidas para controlar os problemas do vis de seleo. Por exemplo, um modelo simples de avaliao de impactos pode ser dado por:

(2)

Onde Yiv pode ser qualquer dos indicadores de bem-estar para o domiclio i localizado na comunidade v; Xi o conjunto de caractersticas dos domiclios consideradas importantes na determinao dos indicadores; Cv o conjunto de caractersticas das comunidades consideradas importantes na determinao dos indicadores; Pv um indicador binrio igual a 1 quando existe o programa na comunidade v e 0 quando no; iv o erro aleatrio; a, b, c e d so os parmetros. O impacto do programa, desconsiderando o vis de seleo dado por:

(3)

As variveis do lado direito da equao devem ser determinadas independentemente do indicador de bem-estar, no podendo estar correlacionadas com o termo de erro da regresso. Como existe o problema da auto-seleo, a participao no programa no exgena e isso pode afetar o clculo do impacto do programa. Essa situao pode ser explicitada com uma equao explcita para P,

(4)

onde Z o vetor de variveis que incluem todas as proxies observadas que determinam o foco, ou a participao no programa. Existiro ainda algumas influncias aleatrias e erros que sero capturadas no termo de erro i. Como P binrio, um modelo probit melhor indicado para estimar os parmetros. Alm do mtodo das variveis instrumentais, outro mtodo amplamente utilizado para eliminao do vis devido as no observveis a correo de Heckman (conhecido na literatura como procedimento Heckit). Um mtodo amplamente utilizado consiste na construo de modelos de seleo (tratados atravs de modelos de regresso logstica) que sero posteriormente utilizados no emprego de mtodos de pareamento, em particular o mtodo denominado propensity score matching. Este consiste em encontrar uma amostra de no beneficirios o mais semelhante possvel da amostra de beneficirios, sendo que esta semelhana medida em termos de diversas caractersticas observveis. A seguir estimam-se modelos de regresso logstica, tendo a participao no programa como varivel dependente binria e como variveis explicativas da seleo todas as variveis nos dados que determinam provavelmente a participao. Em uma terceira etapa criam-se valores de probabilidade de participao a partir dos modelos de regresso para todos os indivduos da amostra de beneficirios e no beneficirios, sendo estes valores denominados propensity scores. Com estes valores, escolhem para cada participante do programa alguns vizinhos prximos e calcula-se a mdia da varivel de avaliao para estes e a diferena dessa mdia em relao ao valor da varivel para o participante. Finalmente, calculam-se as mdias das diferenas, sendo esta uma verso mais simples do mtodo.

7.2 Introduo a Inferncia Causal

Para iniciar a discusso de inferncia causal, suponhamos um exemplo.[footnoteRef:5] Um grupo de indivduos foi treinado para preparao no mercado de trabalho. Seis meses depois de completado o programa de treinamento, verificamos a sua situao de emprego e encontramos que 40 % do grupo esto trabalhando. Podemos concluir que estes 40 % que estavam desempregados antes do treinamento, encontraram emprego devido ao programa. Como podemos saber se estes indivduos encontrariam emprego mesmo que no tivessem feito o treinamento? Ou seja, como podemos isolar do efeito (estarem empregados 40 % dos indivduos investigados) a parcela que pode ser atribuda somente ao tratamento (treinamento)? [5: A apresentao desta seo baseia-se no trabalho de Vanetoklis (2002).]

Suponhamos que desejamos encontrar a relao entre interveno de uma poltica (causa X) e o impacto (efeito Y). Temos que examinar se uma mudana ou variao na varivel X (a causa potencial) causou de fato uma mudana em Y (a varivel de impacto). O modelo de regresso normalmente utilizado :

(5)

onde Yi o indicador de efeito, TREAT igual a 1 se a unidade (por exemplo, o domicilio) exposta ao tratamento (poltica) e 0 se no, Xi um conjunto de variveis de controle e o termo estocstico com distribuio normal, media zero e varincia constante. A estimativa de da varivel de tratamento (TREAT) a estimativa do efeito mdio causal ajustado aos efeitos das variveis de controle Xi. A varivel TREAT pode ser uma varivel binria (dummy) tomando dois valores (1 e 0) como indicado acima. Mas tambm pode ser uma varivel contnua, caso desejssemos medir, de acordo com este exemplo, o efeito do numero de dias (ou semanas) de treinamento.

Aqui estamos empregando a noo de ceteris paribus, to conhecida na cincia econmica. Estamos estimando o valor esperado de Y condicionado a (ou dado o) varivel TREAT e o vetor de varivel de controle Xi, ou seja,. Na abordagem de regresso consideramos que o parmetro estimado pode ser interpretado como o efeito do tratamento considerados fixos os valores das variveis de controle.

Se a varivel TREAT binria estamos interessados em estimar a diferena mdia no resultado Y, entre a condio de tratamento e de no tratamento, ou seja, . Se a varivel TREAT continua, o foco muda para o efeito parcial de uma mudana unitria em TREAT no valor mdio de Y, dados os valores do vetor de controle Xi. A deciso a respeito do conjunto de variveis de controle que devem ser consideradas no modelo no trivial. justamente neste ponto que a analise de causalidade se torna ambgua, ficando a critrio do avaliador a deciso de quais fatores devem ser levados em conta. E utilizar distintos conjuntos de controle nas equaes conduzem a distintas concluses a respeito da relao causal entre Y e TREAT. Alem disso, em analise de efeitos de polticas, muitas variveis de controle importantes no so sempre observveis e muitas no so nunca observveis. No entanto, a teoria na maior parte das aplicaes deve ter uma importante funo na seleo das variveis de controle. Por exemplo, na aplicao presente tratada neste estudo, capital social dever ser considerado como uma importante varivel de controle, dado que em verificaes anteriores surgem algumas evidencias de sua importante funo na reduo do nvel de pobreza das comunidades rurais.

7.3 Estimao pela Dupla DiferenaNo caso de uma aplicao de avaliao podemos ter um conjunto de dados em painel com uma observao para o ano 2000 e outra observao para o ano 2006. Esta uma vantagem do ponto de vista da estimao dos impactos do programa pelas razoes expostas a seguir. Sabemos que impossvel conhecer todos os fatores exgenos do lado direito da equao (1) e que influenciam o impacto do programa. Desta forma nossas estimativas sero viesadas devido existncia de variveis omitidas. Podemos classificar estes fatores no observveis em dois tipos: aqueles que permanecem fixos no decorrer da atuao do programa e aqueles que variam neste perodo. De um ponto de vista economtrico, muito pouco podemos fazer para evitar que a omisso destes fatores no observveis e variveis no tempo possam causar vieses em nossas estimativas de impacto. Mas podemos eliminar as variveis no observveis constantes no tempo. De uma forma temporal podemos re-escrever a equao (1) como:

(6)

O termo erro pode ser decomposto em duas parcelas: as variveis no observveis fixas () e as variveis no observveis que variam no tempo (u) de forma que . A expresso dois pode ser expressa em duas equaes:

(7)

Mas como constante no tempo quando subtramos a primeira equao da segunda teremos:

ou

7.4 O Modelo de Regresso Logstica

A influncia das caractersticas dos agricultores sobre o processo de seleo nos programas ser avaliada atravs de modelos de regresso com variveis dependentes binrias (modelos logit binrio). Apesar da utilizao deste tipo de modelos ser bastante conhecida na literatura de anlise de bem-estar, iniciaremos com uma apresentao sucinta da sua especificao geral, caractersticas, alcances e limitaes. A regresso logstica um modelo de regresso no linear onde a varivel resposta (varivel dependente) a probabilidade de ter um resultado ou outra baseada em uma funo no linear da melhor combinao linear das variveis independentes. Seja o valor da varivel dependente para o i-simo caso . Pode-se definir como:

(8)e

(9)

Ou seja, a varivel dependente no modelo o logaritmo natural da probabilidade de estar em um grupo dividida pela probabilidade de estar no outro grupo. O procedimento para estimar os coeficientes o mtodo da mxima verossimilhana e o objetivo o de encontrar a melhor combinao de variveis independentes que maximizam a verossimilhana de obter as freqncias observadas nos grupos. Ao contrrio da anlise discriminante, a regresso logstica no se fundamenta em hipteses a respeito da distribuio das variveis independentes: estas variveis no precisam ser normalmente distribudas e o modelo comporta (como no caso da regresso linear mltipla) o uso conjunto de variveis quantitativas mtricas (denominadas co-variates) e variveis qualitativas (tratadas como dummies). A significncia estatstica de cada um dos coeficientes (parmetros estimados) do modelo avaliada utilizando-se o teste de Wald (que semelhante ao teste t de Student) onde o coeficiente dividido pelo seu erro padro:

(10)

O ajuste dos modelos logit avaliado calculando-se a estatstica log-likelihood (logaritmo da verossimilhana), baseado na soma das probabilidades associadas aos valores previstos e observados para cada caso:

(11)A comparao da adequao do ajuste de dois modelos feita atravs da diferena de seus log-likelihoods que uma distribuio qui-quadrado:

(12)

Os coeficientes estimados (, i = 1,2, ...,k) do modelo logit devem ser interpretados como a variao do logaritmo natural da relao das probabilidades de sucesso e fracasso, esta relao sendo conhecida na literatura como odd ratio. Portanto se um coeficiente possui um valor este o valor da variao no logaritmo natural do odd ratio (tambm chamado este logaritmo de logit) causado pela elevao unitria da varivel Xi , supondo-se fixos os valores de todas as outras variveis. mais direta a interpretao da funo exp() pois esta o valor da variao no prprio odd ratio. Desta forma, se for igual a 10 %, isto significa que um aumento unitrio em Xi causa uma elevao de 10 % na relao de probabilidade (aumentando portanto a probabilidade do caso pertencer ao grupo cujo valor da dummy varivel dependente foi definido como igual a 1). Para o melhor entendimento dos resultados dos modelos suponhamos que tenhamos a seguinte equao com apenas uma varivel independente:

para x = 50 temos:

para x = 51 temos:

e Portanto a relao de odd ratios ser:

Ou seja, a relao de odd ratios para dois valores com variao unitria para a varivel independente ser igual a . Esta relao constante para qualquer valor de X1. Por exemplo:

para x = 60 temos:

para x = 61 temos:

e

Desta forma, o valor de indica a variao no odd ratio (relao de probabilidade) e independe do valor da varivel independente. No caso deste exemplo, uma variao unitria em X1 acarreta uma reduo de 7,8 % no odd ratio. Para a aplicao que ser aqui realizada isto significa reduzir a probabilidade de ser selecionado para um programa em relao probabilidade de no ser selecionado.7.5 Mtodo do Propensity Score Matching

O mtodo do pareamento (matching) por propensity score amplamente utilizado na literatura de avaliao de impactos. Este mtodo fundamenta-se na construo de sub-amostras contrafactuais para o grupo de controle e ento comparar os resultados entre os tratados e contrafactuais. No presente trabalho o mtodo ser utilizado para avaliar os efeitos do Programa Cdula da Terra (PCT) sobre diversas variveis (indicadores) que caracterizam a evoluo do bem-estar (renda domiciliar, segurana alimentar, acesso sade) e caractersticas econmicas e de desenvolvimento (patrimnio e capital social).O propensity score definido por Rosembaum e Rubin(1983) como a probabilidade condicional de receber o tratamento dado diversas caractersticas pr-tratamento.

(13) onde D = {0,1} um indicador de exposio ao tratamento e X um vetor multidimensional de caractersticas pr-tratamento. possvel demonstrar que se a exposio ao tratamento aleatria dentro de clulas definidas por X, ela tambm aleatria dentro das clulas definidas pelos valores de uma varivel unidimensional p(X).

so os resultados potenciais nas duas situaes de tratamento ( o valor da varivel resultado para o individuo i sujeito ao tratamento e o valor da varivel resultado para o indivduo i no sujeito ao tratamento). Uma expresso geral para a varivel resultado pode ser expressa como:

(14)

O efeito causal do tratamento para o indivduo i pode ser escrito como:

(15)

O segundo valor do lado direito da expresso (16) no pode ser calculado porque no observado ( o valor da varivel resultado para o individuo i caso ele no tivesse sido submetido ao tratamento). Se o propensity score p(X) conhecido ento o efeito mdio do tratamento sobre os tratados (ATT) pode ser estimado de acordo com a seguinte expresso:

(16)

A expresso acima representa o valor esperado (mdia) da diferena da varivel resultado referente situao de cada individuo receber o tratamento e no receber o tratamento para o grupo de indivduos tratados. De acordo com Ichino (2006), o no conhecimento do valor da varivel de resultado para a situao de tratamento contra factual, pode ser interpretado como um problema de missing data e os mtodos de pareamento so uma forma de imputar valores aos resultados contra factuais (). Desta forma a validade destes mtodos baseia-se na hiptese de que as observaes contra factuais so missing aleatoriamente (missing at random). A equao (16) pode ser transformada, considerando-se os valores de p(X),como:

(17)

Conhecidos os valores dos propensity scores (de acordo com a expresso de todas as observaes duas hipteses devem ser satisfeitas para que possamos derivar a expresso do ATT (equao 17) a partir dos valores de , dados pela expresso 13. A primeira hiptese a do balanceamento das variveis pr-tratamento dados os valores do propensity score. Se p(X) o propensity score ento:

(18)

De acordo com esta hiptese, dados os valores dos propensity scores, os valores das caractersticas observveis pr tratamento (X) independem do tratamento. A segunda hiptese (unconfoundedness dado o propensity score) supe que se:

(19)

De acordo com primeira hiptese (expresso 18), ou hiptese de balanceamento, observaes com o mesmo propensity score precisam ter a mesma distribuio das caractersticas observveis (e no observveis) independentemente de serem tratadas ou no. Para um dado propensity score a exposio ao tratamento aleatria e desta forma as unidades tratadas e de controle devem ter medias iguais para todas as caractersticas. Veremos adiante que esta hiptese dever ser testada atravs do comando Stata pstest. A segunda hiptese (expresso 19) exige somente que se o valor da varivel de resposta independente do status de tratamento dadas as caractersticas X ento estes valores tambm sero independentes dados os valores dos propensity scores. Esta hiptese conhecida na literatura sobre propensity score matching como hiptese da independncia condicional. Para a implementao computacional do mtodo do propensity score so necessrias as seguintes etapas:

1) Estimao do propensity score. Atravs de um modelo de regresso logstica ou modelo probit estima-se a probabilidade de cada observao (individuo) pertencer ao grupo de beneficirios do programa (grupo de tratados).2) Estimao do efeito mdio do tratamento, dado o propensity score. Nesta etapa, idealmente queremos:

- emparelhar observaes tratadas e controle com exatamente o mesmo valor estimado para o propensity score;- calcular o efeito do tratamento para cada valor do propensity score estimado;- obter a mdia destes efeitos condicionais.

impraticvel realizar o mtodo da forma indicada acima pois muito difcil encontrar duas unidades com exatamente o mesmo valor do propensity score. Existem, no entanto, diversos mtodos alternativos e viveis computacionalmente:

- Estratificao no escore;- Mtodo do vizinho mais prximo;- Pareamento radial no escore;- Pareamento de Kernel no escore;- Pareamento pela distancia de Mahalanobis.

Na presente avaliao utilizaremos o segundo e o ultimo mtodos da lista acima. Na literatura sugerido que se faam estimativas por mais de um mtodo para verificar a robustez dos resultados.

7.6 Anlise de Sensibilidade para o Mtodo do Propensity Score Matching

De acordo com Becker e Caliendo (2007), a hiptese de independncia condicional estabelece que o pesquisador observaria todas as variveis simultaneamente influenciando a deciso de participao e as variveis de resultado. De acordo com isto pode-se avaliar a sensibilidade dos impactos estimados com relao aos desvios desta hiptese de identificao. Se existem variveis no observveis que simultaneamente afetam a participao no programa e a varivel de resultado, um vis oculto pode surgir para o qual os estimadores de pareamento no so robustos. Este mtodo baseia-se no modelo descrito a seguir.

Vamos assumir que a probabilidade de seleo ao programa dada por onde xi so as caractersticas observveis para o individuo i, ui a varivel no observvel e o efeito de ui na deciso de participao. Se existe um vis oculto devido a influencia de variveis no observveis, dois indivduos com as mesmas variveis x observadas tem diferentes chances de receber o tratamento. Consideremos uma dupla pareada de indivduos e seja F a distribuio logstica. As probabilidades relativas para os indivduos i e j desta dupla receberem versus no receberem o tratamento so dadas por Pi /(1-Pi) e Pj /(1-Pj) e a razo destas probabilidades relativas (conhecidas como vimos na seo 1.5 como odds ratios) dada por:

(20)

Se ambos os indivduos tm variveis x idnticas, tal como supe o procedimento de pareamento, o vetor x cancela implicando que:

(21)

Ento, se no h diferenas nas variveis no observadas (ui = uj) ou se estas variveis no influenciam a probabilidade de participar no programa, o odd ratio igual a 1 implicando na no existncia de vis de seleo no observado. A analise de sensibilidade avalia o quanto a mudana nos valores de e em ui - uj altera a inferncia acerca do efeito do programa.Segundo Becker e Caliendo (2007), a expresso (20) implica que

(22)

Esta ultima expresso indica que uma medida do grau de afastamento que uma estimativa por pareamento est livre de vis oculto. No caso de ser igual a 1 os dois indivduos, com valores iguais para as caractersticas x, tem a mesma probabilidade de participarem do programa e neste caso o vis oculto no existe. 7.7 Modelo de HeckmanConsideremos o seguinte modelo de duas equaes:

(23)

(24)

O modelo consiste de uma equao de resultados (23) e de uma funo de seleo (24). O exemplo clssico refere-se ao mercado de trabalho onde se busca estimar os determinantes da renda de mulheres. A equao (23) refere-se determinao da renda das mulheres e a varivel D uma dummy que especifica se a mulher est ou no ocupada. A idia consiste em que se a mulher est desocupada e tem renda zero pode ser porque assim decidiu por no achar compensador o salrio oferecido no mercado. Se for estimada a equao (23) apenas com a amostra de mulheres ocupadas, a estimativa do vetor de parmetros c seria viesada. As variveis observadas no vetor Xi so caractersticas fixas de cada observao (individuo). Este modelo pode ser empregado na avaliao de impactos de uma determinada poltica se considerarmos que a varivel D uma dummy de seleo e um indicador de resultado. O modelo de Heckman (formado pelas equaes (23) e (24)) requer as seguintes hipteses:

i) so iid com distribuio normal padronizada;

ii) {Xi: i = 1,..,N} independente de {: i = 1,..,N};

iii) {Zi: i = 1,..,N} independente de {: i = 1,..,N}

No existem restries impostas relao entre e e, portanto a varivel D pode ser correlacionada com o termo de erro . Esta relao representada pelo parmetro que o coeficiente de correlao entre os dois termos de erro e pode assumir qualquer valor no intervalo [-1,1]. Se 0, a varivel D ser endgena e o parmetro b (que representa o impacto da poltica) ter um vis de seleo.[footnoteRef:6] Se e no forem correlacionados no haver problema de vis de seleo e apenas a equao (23) poder ser utilizada para estimar o efeito no viesado da poltica. Ocorre um valor de 0 se uma varivel no observada que um fator explicativo da seleo na poltica est correlacionado com um fator no observado de determinao do indicador de resultado. Se 0, a varivel D endgena e . A estratgia do modelo de Heckman obter uma estimativa para este ltimo termo e trata-lo como se fosse uma varivel de controle na equao (23). Se conhecida para a observao i, ento regredindo Yi com uma constante, D, Xi e produzir estimativas no viesadas para a, b, c e h, onde h o coeficiente de regresso associado com . Com este procedimento, e considerando-se as hipteses i-iii, o vis de seleo eliminado da estimativa do parmetro b. [6: Existe uma distino conceitual entre vis de seleo e endogeneidade. Aqui utilizaremos as duas expresses como se fossem equivalentes mas uma rpida distino pode ser encontrada em ....]

Se considerarmos que a equao de seleo um modelo Probit, podemos represent-la por:

(25)

onde a funo de distribuio cumulativa da normal padronizada.

Obtem-se a estimativa do termo de vis atravs do valor esperado de uma varivel aleatria normal truncada, sendo esta estimativa conhecida na literatura como inversa de Mills, que pode ser expressa como:

(26)

onde t o ponto onde a distribuio truncada e a funo densidade da distribuio normal padro.

A estimativa para o termo de vis para a observao i pode ser decomposta em e . Seja uma varivel aleatria igual a . De acordo com esta definio tem mdia zero e independente de . O termo de erro pode ser relacionado e atravs da seguinte expresso:

(27)

Seja .Segue-se que:

(28)

Da mesma forma:

(29)

O efeito da regresso de Y em uma constante, Di e Xi sem a correo de Heckman pode ser decomposto como a combinao de dois termos: o efeito principal e o efeito de interao devido inversa de Mills. Se a estimativa de positiva, isto sugere que o efeito da poltica estimado sem a correo de Heckman seria viesado para cima. De outra forma, se a estimativa de negativa, isto sugere que o efeito da poltica estimado sem a correo de Heckman seria viesado para baixo.

8. Referencias Bibliogrficas

Briggs, D.C. (2004). Causal Inference and the Heckman Model. Journal of Educational and Behavorial Statistics. Winter 2004, Vol. 29, No. 4, pp. 397-420. Resende, A.C.R. (2006). Avaliando Resultados de um Programa de Transferncia de Renda: o Impacto do Bolsa-Escola sobre os Gastos das Famlias Brasileiras. Dissertao de Mestrado. UFMG, CEDEPLAR. Baum, C. F. (2006). An Introduction to Modern Econometrics Using Stata. Stata Press. College Station, TX: StataCorp LP.Becker, S.O. e Ichino, A. (2002) Estimation of Average Treatment Effects based on Propensity Scores. The Stata Journal 2, Number 4, pp. 358377.Becker, S.O. e Caliendo, M. (2007) Sensitivity Analysis for Average Treatment Effects. The Stata Journal 7, Number 1, pp. 7183.

Ichino, A. Methods for the evaluation of labor market policies. University of Bologna and Cepr.Mohr, L.B. (1995) Impact Analysis for Program Evaluation. Sage Publications, London.Mooney, C.Z. e Duval, R.D. (1993) Bootstrapping: a nonparametric Approach to Statistical Inference. Sage Publications, London. Rosenbaum, P. R. and D. B. Rubin. (1983) The central role of the propensity score in observational studies for causal effects. Biometrika 70(1): 4155.StataCorp. (2005). Stata Statistical Software: Release 9. College Station, TX: StataCorp LP.Resende, A.C.C. e Oliveira, A.M.H.C. (2006). Avaliando Resultados de um Programa de Transferncias de Renda: o Impacto do Bolsa-Familia sobre os Gastos das Famlias Brasileiras. Anais do XXXIV Encontro Nacional de Economia. Salvador.

Sianesi, B. (2001) Implementing Propensity Score Matching Estimators with STATA. UK Stata Users Group, VII Meeting London.Vanetoklis, T. (2002). Public Policy Evaluation: Introduction to Quantitative Methodologies. VATT-Research Reports. Government Institute for Economic Research. Helsinki.

ANEXOS

Regies e Estratosset. / 1985out. / 1987 (base)set. / 1990ago. / 1991set. / 1992set. / 1993set. / 1995set. / 1996set. / 1997set. / 1998set. / 1999jul./00(censo)

em Cr$em Cz$em Cr$em Cr$em Cr$em CR$em R$em R$em R$em R$em R$em R$

Norte

Belm137,979.321915.855,400.0521,848.14311,019.226,186.6872.2480.5481.0483.1487.7392.63

Urbano120,276.571705.11 4,707.2219,483.03271,115.455,392.9362.9770.2170.6472.4776.4880.74

Rural

Nordeste

Fortaleza149,883.531983.54 5,457.8423,078.95330,337.476,507.7972.1479.7881.7084.6988.5892.76

Recife183,081.612463.55 7,679.5434,530.36461,350.318,967.7998.72111.97114.46121.15128.78133.38

Salvador186,976.492529.12 7,200.0228,690.26408,973.028,400.9392.37102.94106.07109.32114.93119.80

Urbano122,290.271627.78 4,783.3620,297.85282,395.425,615.7661.9169.3171.0874.1378.1581.37

Rural73,762.39976.67 2,885.2012,253.07170,333.753,387.2837.3441.8142.8844.7147.1449.08

Minas G./Esp.S.

Belo Horizonte169,480.892241.326,493.8025,440.75373,016.867,394.2182.1195.1699.82103.37109.78116.43

Urbano113,942.001501.68 4,365.7817,104.38250,779.234,971.1355.2063.9867.1169.5073.8178.28

Rural67,453.40874.11 2,584.5310,125.89148,460.712,942.8932.6837.8739.7341.1443.6946.34

Rio de Janeiro

Metrpole187,367.852530.897,466.5530,487.01449,740.349,134.8199.21113.34119.78125.85130.74137.25

Urbano116,580.281569.15 4,645.6918,969.62279,828.445,683.6861.7370.5274.5378.3181.3585.40

Rural85,102.481138.90 3,391.3113,847.80204,272.064,149.0345.0651.4854.4057.1659.3862.34

So Paulo

Metrpole200,952.712856.158,368.7836,531.08519,964.6110,369.32119.55141.95152.51156.02167.97174.85

Urbano128,408.781799.37 5,347.6523,343.12332,257.396,626.0076.3990.7197.4699.70107.33111.73

Rural80,782.991142.46 3,364.2514,684.69209,025.774,168.4748.0657.0661.3162.7267.5270.29

Sul

Curitiba165,639.412201.926,538.4025,449.52364,165.557,437.0780.6990.8595.0498.81106.55113.84

P.Alegre126,046.201689.785,005.3019,890.63294,534.415,966.8462.2869.6073.0276.7583.5189.26

Urbano109,527.941459.39 4,334.6617,024.86247,341.845,033.1753.6860.2563.1165.9271.3776.26

Rural73,840.21972.93 2,922.2911,478.88166,749.903,393.2036.1940.6242.5544.4448.1151.41

Centro-Oeste

Braslia210,744.952876.109,194.9438,592.68514,524.2110,356.13113.82129.98135.14139.05148.81158.15

Goinia204,735.012751.569,467.4236,012.98484,635.379,854.47106.88120.34124.93129.85138.25145.51

Urbano155,885.232091.19 7,208.5027,421.40369,001.377,503.1981.3891.6395.1298.87105.26110.79

Rural 89,530.621183.17 4,140.1015,748.55211,931.054,309.3646.7452.6254.6356.7860.4663.63

Fonte: Elaborao de Sonia Rocha com base na POF ("Do Consumop Observado Linha de Pobreza", in Pesquisa e Planejamento Econmico, vol.27 (2), agosto de 1997.

Documents

Analise de Indicadores Sociais Utilizando o Stata