Análise estatística de dados da PNAD: incorporando a ... · PDF filetente na época do censo demográfico. No se-gundo estágio de seleção, o sorteio de setores foi feito dentro

AR

TIG

O A

RT

ICL

E

659

Análise estatística de dados da PNAD:incorporando a estrutura do plano amostral

Statistical analysis of data from PNAD:incorporating the sample design

1 Departamento deMetodologia, InstitutoBrasileiro de Geografia e Estatística. Av. Chile500/10o andar 20031-170Rio de Janeiro [email protected] Departamento deEmprego e Rendimento,Instituto Brasileiro deGeografia e Estatística.

Pedro Luis do Nascimento Silva 1

Djalma Galvão Carneiro Pessoa 1

Maurício Franca Lila 2

Abstract This paper describes how the com-plex sample design aspects of stratification,clustering, unequal selection probabilities andcalibration adjustments of the sample weightsaffecting the National Household Sample Sur-vey (PNAD) of IBGE can be incorporated intothe analysis of its data. For this purpose, it in-cludes: a brief but comprehensive descriptionof this survey’s sample design; indication ofhow its data can be used for estimating totals;and also a description of the essential methodsrequired to fit parametric models taking intoaccount the complex sample survey design as-pects mentioned. It also presents some estimatesfor household and personal characteristics ob-tained from PNAD/1998, for which standarderrors and design effects are computed as anillustration. It concludes with an indication ofthe precautions users must take when analysingdata from PNAD in their survey practice.Key words Design effect, Estimation, Surveydata analysis, Structured data, Household sur-vey, Parametric models

Resumo Este artigo descreve como podem serconsiderados na análise dos dados da Pesqui-sa Nacional por Amostra de Domicílios (PNAD)do IBGE os diversos aspectos de seu planoamostral complexo: estratificação, conglome-ração, probabilidades desiguais de seleção eajustes dos pesos para calibração. Para isso, in-clui: uma descrição resumida porém comple-ta do plano amostral dessa pesquisa; indica-ção de como seus dados podem ser usados pa-ra estimar totais; e também uma descrição re-sumida dos métodos essenciais para ajustarmodelos paramétricos regulares com os dadosda pesquisa levando em conta os aspectos deamostragem complexa. Apresenta ainda os re-sultados de algumas estimativas para caracte-rísticas de pessoas e domicílios calculadas combase nos dados da PNAD/1998, para as quaissão apresentadas estimativas dos respectivosdesvios padrão e dos efeitos do plano amostral.Conclui com uma indicação dos cuidados queos usuários devem ter ao analisar tais dadosem sua prática de pesquisa.Palavras-chave Efeito do plano amostral, Es-timação, Análise de dados amostrais, Dadosestruturados, Pesquisa domiciliar, Modelos pa-ramétricos

Silv

a,P.

L.

N.

et a

l.660

Introdução

Este artigo trata de problema de grande impor-tância para os usuários de dados obtidos atra-vés de pesquisas amostrais “complexas”, como éo caso da PNAD (Pesquisa Nacional por Amos-tra de Domicílios, do IBGE – ver IBGE, 1981).Dados da PNAD são usados rotineiramente pa-ra análises descritivas que envolvem o cálculo,comparação e interpretação de estimativas pa-ra totais, médias, taxas, proporções e razões po-pulacionais. Quando são considerados nos cál-culos os pesos das unidades amostrais (forne-cidos nos arquivos de microdados), as estima-tivas obtidas para os parâmetros populacionaiscorrespondentes são não viciadas. A incorpo-ração dos pesos na estimação de medidas des-critivas, como as citadas acima, pode ser feitacom simplicidade empregando-se as opções deponderação disponíveis nos pacotes e sistemasestatísticos padrão, tais como SAS, SPSS, SPLUS,STATA e muitos outros.

Já se o interesse for a estimação de medidasde dispersão (variância, desvio padrão), con-centração (índices de Gini e similares), funçãode distribuição empírica e quantis associados(quartis, decis, percentis, etc.), soluções ade-quadas muitas vezes ainda não estão disponí-veis nos pacotes padrão. Isso ocorre porque aestimação de tais medidas requer considerar di-versos aspectos adicionais do planejamento daamostra que foi usada para obter os dados alémdos pesos usualmente disponíveis. Por esse mo-tivo, a estimação de medidas de precisão dasestimativas de medidas descritivas (desvios pa-drão e coeficientes de variação), que dependeda estimação de variâncias e é essencial paraanálises qualificadas da significância dessas es-timativas e de diferenças entre elas, tambémenfrenta as mesmas dificuldades.

É comum, também, a utilização de dadosda PNAD para a construção e ajuste de mode-los em análises secundárias usando, por exem-plo, modelos de regressão (Reis et al., 2001),modelos de regressão logística (Leote, 1996;Pessoa et al., 1997), modelos de regressão mul-tinomial logística (Leite, 2001), e outros. Taisanálises, muitas vezes feitas por analistas quetrabalham fora da agência produtora dos da-dos, freqüentemente utilizam para a modela-gem pacotes estatísticos que se baseiam em hi-póteses válidas somente quando os dados sãoobtidos através de amostras aleatórias simplescom reposição (AASC). As exceções são os tra-balhos de Pessoa et al. (1997) e Leite (2001).

Acontece que o plano (desenho) amostralda PNAD incorpora todos os aspectos que de-finem um “plano amostral complexo”: estrati-ficação das unidades de amostragem, conglo-meração (seleção da amostra em vários estágios,com unidades compostas de amostragem),probabilidades desiguais de seleção em um oumais estágios, e ajustes dos pesos amostrais pa-ra calibração com totais populacionais conhe-cidos. Por esse motivo, dados obtidos atravésdas amostras das PNADs geralmente não po-dem ser tratados como se fossem observaçõesindependentes e identicamente distribuídas (is-to é, como se tivessem sido gerados por amos-tras aleatórias simples com reposição), comofazem os procedimentos usuais de análise dis-poníveis nos pacotes estatísticos padrão.

As estimativas pontuais de medidas descri-tivas da população são influenciadas pelos pe-sos distintos das observações. Já as estimativasde variância e desvio padrão (medidas de pre-cisão dos estimadores) e as estimativas de pa-râmetros para ajustes de alguns tipos de mode-los são influenciadas conjuntamente pela estra-tificação, conglomeração e pesos. Ao ignoraresses aspectos, as técnicas e sistemas de análisetradicionais podem produzir resultados incor-retos tanto para as estimativas pontuais comopara os respectivos desvios padrão e níveis designificância, o que pode comprometer a quali-dade do ajuste de modelos e a interpretaçãodos resultados obtidos.

O assunto tem recebido maior atenção nasúltimas duas décadas, e já são muitos os recur-sos disponíveis para tornar mais fácil e prática aaplicação das técnicas de análise capazes de in-corporar adequadamente os diversos aspectosde planos amostrais complexos, tanto na esti-mação de medidas descritivas e da precisão des-sas estimativas, como no ajuste de modelos, nodiagnóstico e avaliação de significância dos mo-delos ajustados, e na interpretação de resultados.Algumas referências úteis sobre o tema incluem:Pessoa e Nascimento Silva (1998), Skinner, Holt& Smith (1989), Korn e Graubard (1999), e Leh-tonen e Pahkinen (1995), entre outras.

O objetivo deste artigo é apresentar umadescrição de como os métodos modernos deanálise de dados incorporando os aspectos decomplexidade do plano amostral podem seraplicados para análise dos dados da PNAD, to-mando como exemplo os dados coletados naedição de 1998 dessa pesquisa.

A seção 2 contém uma descrição do planoamostral utilizado na PNAD durante a década

de 1990, e indicações de como podem ser cons-truídas as variáveis descritoras da estrutura doplano amostral a partir das informações exis-tentes nos arquivos de microdados. A seção 3apresenta estimadores para totais e suas variân-cias, bem como o método de cálculo dos pesosque acompanham os microdados da PNAD. Aseção 4 apresenta uma breve revisão dos méto-dos requeridos para ajuste de modelos paramé-tricos regulares com dados de pesquisas amos-trais complexas, os quais formam a base para odesenvolvimento de pacotes estatísticos espe-cializados tais como SUDAAN, entre outros.Na seção 5 são apresentadas estimativas de al-gumas medidas descritivas para variáveis depessoas e domicílios com base na PNAD/1998,junto com uma avaliação do impacto de igno-rar o plano amostral ao estimar a precisão des-tas estimativas. Finalmente, na seção 6 são dis-cutidas as dificuldades encontradas pelos usuá-rios dos dados da PNAD para incorporar ade-quadamente na modelagem aspectos impor-tantes do plano amostral como os que aqui fo-ram discutidos.

Plano amostral da PNAD

A PNAD é uma pesquisa anual por amostra-gem probabilística de domicílios, realizada emtodo o território nacional exclusive a área ruralda região Norte. A população alvo é compostapelos domicílios e pessoas residentes em domi-cílios na área de abrangência da pesquisa. APNAD adota um plano amostral estratificado econglomerado com um, dois ou três estágiosde seleção, dependendo do estrato.

A estratificação da amostra básica da PNADfoi feita em duas etapas. Primeiro há uma es-tratificação geográfica que dividiu o país em 36estratos “naturais”. Nesta estratificação, 18 uni-dades da federação formaram cada uma um es-trato independente para fins de amostragem.As outras nove unidades da federação (PA, CE,PE, BA, MG, RJ, SP, PR, RS) deram origem aoutros 18 estratos, pois em cada uma delas fo-ram definidos dois estratos naturais: um comtodos os municípios da Região Metropolitanasediada na capital, e o outro com os demaismunicípios da unidade da federação.

Nos nove estratos naturais formados pelasregiões metropolitanas, o plano amostral daPNAD é estratificado adicionalmente por mu-nicípio e conglomerado em dois estágios. Nes-tes estratos (municípios), as unidades primá-

Ciên

cia & Saú

de C

oletiva,7(4):659-670,2002

661

rias de amostragem (UPAs) são os setores cen-sitários. As unidades secundárias de amostra-gem (USAs) são os domicílios. Dentro de cadamunicípio, a seleção dos setores (UPAs) foi feitausando amostragem sistemática com probabi-lidades proporcionais ao tamanho (PPT), usan-do como medida de tamanho o número de do-micílios conforme obtido do Censo Demográ-fico de 1991. Antes de efetuar a seleção dos se-tores em cada estrato (município), os setoresforam ordenados segundo a situação (urbano,rural) e o código geográfico, conferindo umefeito de estratificação implícita por situaçãodevido ao uso do sorteio sistemático.

Nos 27 estratos naturais formados com osmunicípios que não são situados em regiõesmetropolitanas ou ficam nas unidades da fede-ração sem região metropolitana, o plano amos-tral da PNAD é conglomerado em três estágios.As unidades primárias de amostragem são osmunicípios, as unidades secundárias são os se-tores e as unidades terciárias de amostragemsão os domicílios. Nesses estratos naturais, al-guns municípios considerados grandes em ter-mos populacionais foram incluídos na amostracom certeza. Tais municípios são chamados deauto-representativos. Os municípios auto-re-presentativos são, portanto, estratos geográfi-cos dentro dos quais o plano amostral é igualao utilizado nos municípios das regiões metro-politanas, isto é, conglomerado em dois está-gios, com os setores como unidades primáriasde amostragem e os domicílios como unidadessecundárias de amostragem.

Os demais municípios não situados nas re-giões metropolitanas são chamados de não au-to-representativos. Os municípios não auto-re-presentativos foram estratificados por tama-nho e proximidade geográfica, buscando for-mar estratos com população total aproximada-mente igual, conforme os dados do último cen-so demográfico.

Em cada um dos estratos de municípios nãoauto-representativos, municípios foram sele-cionados através de sorteio sistemático, comprobabilidades proporcionais à população exis-tente na época do censo demográfico. No se-gundo estágio de seleção, o sorteio de setoresfoi feito dentro de cada município contido naamostra do primeiro estágio, usando o mesmométodo já descrito para a seleção de setores nosestratos de regiões metropolitanas.

A cada ano, antes da última etapa de sele-ção da amostra (amostragem de domicílios), éfeita uma Operação de Listagem dentro de ca-

Silv

a,P.

L.

N.

et a

l.662

da setor selecionado. Essa operação fornece ocadastro atualizado para a seleção de domicí-lios em cada setor, permitindo assim localizar,identificar e quantificar as unidades domicilia-res ali existentes no ano de realização da pes-quisa.

Usando a listagem atualizada de unidadesdomiciliares existentes nos setores da amostra,faz-se então a seleção das unidades domicilia-res a serem pesquisadas a cada ano medianteamostragem sistemática simples. As unidadesdomiciliares são formadas pelos domicíliosparticulares e unidades de habitação em domi-cílios coletivos com moradores na ocasião daOperação de Listagem. Nos domicílios selecio-nados, as entrevistas são realizadas face a face,usando-se questionários em papel. Todos osmoradores das unidades domiciliares selecio-nadas são incluídos na pesquisa.

A descrição acima indica como é seleciona-da a amostra básica da PNAD. Esta é comple-mentada com unidades domiciliares seleciona-das do Cadastro de Projetos de Novas Constru-ções. Este cadastro inclui projetos habitacionaiscom mais de 30 domicílios que surgiram apóso censo realizado na década. O universo dasNovas Construções é estratificado por municí-pios, e nesses estratos o plano amostral é con-glomerado em apenas um estágio, pois nestecaso as unidades primárias de amostragem sãoos domicílios, cujo sorteio é efetuado medianteamostragem sistemática simples.

Em cada estrato natural, o plano amostralda PNAD é autoponderado, isto é, procura as-segurar que todos os domicílios tenham igualprobabilidade de seleção. Entretanto, as proba-bilidades de seleção podem variar bastante deum estrato natural para outro. No caso das 18

unidades da federação que formam cada umaum único estrato natural, a fração amostral éfixa e constante para todos os municípios. Nocaso das nove unidades da federação em queexistem dois estratos naturais, os estratos natu-rais contendo os municípios das regiões metro-politanas podem ter frações amostrais diferen-tes dos estratos contendo os demais municípiosque pertencem à mesma unidade da federação.O quadro 1 apresenta as frações amostrais usa-das em cada um dos estratos naturais da pes-quisa durante a década de 1990.

No momento em que foi feita a primeiraseleção de setores no início da década, o núme-ro de domicílios a selecionar para a amostrapor setor foi fixado em 13 e seria igual para to-dos os setores da amostra (Bianchini e Albieri,1999). Quando as listagens de domicílios nossetores selecionados são atualizadas a cada ano,o número de domicílios a selecionar por setorpode variar, pois é mantido fixo o intervalo deseleção de domicílios calculado por ocasião daprimeira seleção. Por exemplo, num setor ondeo número de domicílios existente no ano dapesquisa tivesse dobrado em relação ao númeroexistente no último censo demográfico, seriadobrado o número de domicílios a selecionarpara a PNAD desse ano, passando de 13 para 26.

A figura 1 ilustra as partes do plano amos-tral da PNAD indicando, para cada parte, co-mo devem ser construídas as variáveis que de-finem a estrutura do plano amostral. Vale no-tar que a primeira parte, referente à populaçãoresidente em regiões metropolitanas, não existeem 18 das 27 unidades da federação.

Considerando este esquema geral do planoamostral da PNAD numa unidade da federaçãoqualquer, pode-se empregar o algoritmo a se-

Quadro 1Frações amostrais da PNAD por estratos naturais da pesquisa durante a década de 1990.

Áreas de abrangência Fração amostral

Região metropolitana de Belém 1/150Distrito Federal e regiões metropolitanas de Fortaleza, Recife, Salvador e Porto Alegre 1/200Regiões metropolitanas de Belo Horizonte e Curitiba 1/250Rondônia, Acre, Amazonas, Roraima, Amapá, Tocantins, Sergipe, Mato Grosso do Sul, 1/300Mato Grosso e GoiásPará 1/350Piauí, Ceará, Rio Grande do Norte, Paraíba, Pernambuco, Alagoas, Bahia, Minas Gerais, 1/500Espírito Santo, Rio de Janeiro e região metropolitana do Rio de JaneiroParaná, Santa Catarina e Rio Grande do Sul 1/550Maranhão, São Paulo e região metropolitana de São Paulo 1/750

Ciên

cia & Saú

de C

oletiva,7(4):659-670,2002

663

guir para definir os valores das variáveis quedescrevem a estrutura do plano amostral.

Algoritmo para criação das variáveisque definem a estrutura do plano amostral da PNAD (ESTRATO e UPA)

Este algoritmo é descrito como deve ser aplica-do para os registros de domicílios nos arquivosde microdados da PNAD. Uma vez criadas asvariáveis de estrutura do plano amostral paraos domicílios, estas podem ser repassadas paraos registros das pessoas moradoras correspon-dentes. Note que a variável “município” estácontida na variável denominada UPA no arqui-vo de domicílios da PNAD. A nova variávelUPA criada no algoritmo abaixo deve ser guar-dada em nome distinto.

Processa amostra básica

Domicílio de região metropolitana ou municí-pio auto-representativoSE (1<=V4107<=2) ENTÃO FAÇA:

ESTRATO = UF*100000000 + MUNICÍPIO.UPA = V0102*1000;

FIM1.

Domicílio na amostra de município não auto-representativoSE (V4107=3) ENTÃO FAÇA:

ESTRATO =UF*100000000 + 99*1000000+ V4602*10000;UPA= UF*1000000 + V4602*10000 + MU-NICÍPIO;

FIM2.

Processa amostra de novas construções

SE Novas Construções ENTÃO FAÇA:ESTRATO = UF*100000000 + 98*1000000+ MUNICÍPIO;UPA=V0102*1000+V0103;

FIM3.

Estimação de totais na PNAD

Boa parte das estimativas publicadas pela PNADcorresponde à estimação de totais populacio-nais. Além disso, a estimação de totais é a basesobre a qual se assenta a estimação de médias,

razões, taxas e proporções. Por esse motivo,apresenta-se aqui uma breve revisão de comosão estimados totais usando os dados da amos-tra da PNAD para um ano qualquer (o ano de1998 não foge à regra). O estimador simplespara o total de uma característica y qualquerobservada na amostra da PNAD para um estra-to natural especificado é definido por:

Y = ΣH

h = 1Σnh

i = 1Σnhi

j = 1dhij yhij (1)

onde H é o número de estratos existentes noestrato natural, nh é número de unidades pri-márias de amostragem (UPAs) selecionadas pa-ra a amostra no estrato h, nhi é numero de uni-dades elementares de interesse (domicílios oupessoas) pesquisadas na amostra da UPA i doestrato h, dhij é o peso amostral básico da j-ési-

Figura 1Ilustração do plano amostral da PNAD durante a década de 1990.

Área 1 = Região metropolitanaEstrato = Município

UPA = SetorUSA = Domicílio

Amostra PNAD numa unidade da federação

Área 2 = Municípios auto-representativosEstrato = Município

UPA = SetorUSA = Domicílio

Área 3 = Municípios não auto-representativosEstrato = Grupo de Municípios

UPA = MunicípioUSA = Setor

Cadastro = Novas construçõesEstrato = Município

UPA = Domicílio

Silv

a,P.

L.

N.

et a

l.664

ma unidade elementar pesquisada na UPA i doestrato h, e yhij é o valor observado da variávelde interesse y para a j-ésima unidade elementarpesquisada na UPA i do estrato h, cujo total sedeseja estimar.

Os pesos amostrais dhij correspondem aosvalores inversos das probabilidades de inclusãodos domicílios em cada estrato, isto é, aos de-nominadores das frações amostrais apresenta-das no quadro 1. Variam, portanto, entre 150 e750, dependendo do estrato natural a que per-tence a unidade pesquisada. Como todas as pes-soas residentes num domicílio selecionado sãopesquisadas (não há sorteio de moradores), to-das recebem o peso calculado para o domicílio.Vale destacar que não são estes os pesos usual-mente gravados nos arquivos de dados da PNAD,como se verá mais adiante.

Um estimador da variância do estimadorsimples do total Y pode ser obtido usando:

V (Y) = ΣH

h = 1

s2hy

(2)nh

onde s2hy =

1Σnh

i = 1( Yhi - Yh)2

,nh - 1 phi

Yh =1

Σnh

i = 1

Yhi ,nh phi

Yhi = Σnhi

j = 1nh phi dhij yhij

e phi é o tamanho relativo da UPA i, no estratoh, conforme o último censo demográfico.

Este estimador em (2) corresponde à apro-ximação do plano amostral PPT sistemáticoadotado para seleção da amostra de unidadesprimárias na PNAD por um plano PPT comreposição no momento de estimar variânciasdas estimativas, chamado de método do Con-glomerado Primário por Pessoa e NascimentoSilva (1998). O método está descrito tambémem Cochran (1977) ou Korn e Graubard (1999).Essa é a opção usual em casos como esse, por-que quando o plano amostral tem sorteio siste-mático de UPAs não existem estimadores exa-tamente não viciados de variância das estimati-vas pontuais de totais. O estimador de variân-cia adotado é considerado “conservador”, nosentido de que seu valor esperado deve ser li-geiramente maior que a variância do estimadorsob o plano efetivamente utilizado que temsorteio sem reposição das UPAs. Na PNAD, ovício desse estimador de variância deve ser mo-desto, de vez que a fração amostral é no máxi-

mo igual a 1/150 (ver quadro 1), o que faz comque o efeito do fator de correção de populaçãofinita (1 - f) desprezado com a aproximaçãoadotada seja muito próximo de 1 (1 - 1/150 =149/150 ≅ 0,993).

O estimador (1) é não viciado para o totalpopulacional de y no estrato natural, mas podeser melhorado com a incorporação de ajustesde calibração que aproveitam informações po-pulacionais auxiliares disponíveis. Na PNAD, ométodo efetivamente empregado no processode expansão da amostra utiliza estimadores derazão (caso particular dos estimadores de cali-bração – ver Särndal, Swensson & Wretman,1992), considerando informação auxiliar as pro-jeções independentes da população total paracada um dos 36 estratos naturais.

O estimador de razão empregado em umestrato natural qualquer é definido como:

YR = Y x P = P x Y = P x R (3)P P

onde P representa a população residente proje-tada para o estrato natural obtida através de umprocesso de projeção independente da amos-tra, e é o total estimado da população residenteno estrato natural através da amostra com baseno estimador simples do plano amostral, isto é,

P = ΣH

h = 1Σnh

i = 1Σnhi

j = 1dhij xhij ,

onde xhij é o número de moradores do j-ésimodomicílio pesquisado na UPA i do estrato h.

Correspondendo ao estimador (3) para ototal, cada unidade amostrada tem um pesoajustado, que é calculado e adicionado aos re-gistros de dados da PNAD. Esse peso ajustadocorresponde ao valor do peso básico dhij refe-rente ao estimador (1) multiplicado pela razãoou fator de ajuste P/P, e é dado por

whij = dhij P (4)P

Com esses pesos, o estimador de razão (3)para o total populacional da variável de inte-resse y pode ser escrito como um estimador li-near, da forma

Y R = ΣH

h = 1Σnh

i = 1Σnhi

j = 1whij yhij ,

e fica portanto igualmente simples de calcularusando qualquer pacote estatístico padrão, des-de que os pesos corretos whij sejam considera-

Ciên

cia & Saú

de C

oletiva,7(4):659-670,2002

665

dos, motivo da simplicidade da estimação pon-tual de totais, médias, taxas e razões partindoda amostra da PNAD.

Todas as pessoas residentes num domicíliorecebem o peso whij calculado para o domicílioonde residem. Os pesos assim ajustados, quan-do usados para estimar o total da populaçãoem cada estrato natural, produzem uma esti-mativa que é igual ao valor da população resi-dente projetada para o estrato natural pelo IB-GE, conferindo assim a propriedade de calibra-ção no total populacional à amostra da PNAD.

A variância do estimador YR pode ser esti-mada usando o método de linearização de Tay-lor (Pessoa e Nascimento Silva, 1998; Korn eGraubard, 1999) através da expressão:

V(YR) = ΣH

h = 1

1 [s2hy + R2 s2

hp - 2R shpy] (5)nh

onde s2hp =

1Σnh

i = 1( Phi - Ph)2

,nh - 1 Phi

s2hpy =

1Σnh

i = 1( Phi - Ph) ( Yhi - Yh),

nh - 1 Phi Phi

Ph =1

Σnh

i = 1

Phi , enh phi

Phi = Σnhi

j = 1nh phi dhij xhij .

Usando (5), estimativas dos desvios padrão(DPs) e coeficientes de variação (CVs) associadosàs estimativas de totais da PNAD podem ser fa-cilmente calculadas usando, respectivamente,dp (YR) = ��V(YR) e cv (YR) = ��V(YR) / YR.

Para obter estimativas de total e das respec-tivas variâncias para áreas definidas como agre-gações de estratos naturais (como por exemplo,os totais de unidades da federação ou os totaisnacionais), basta somar as estimativas dos to-tais e das respectivas variâncias obtidas usando(3) e (5) para todos os estratos naturais com-ponentes da área de interesse.

Vale aqui notar que os procedimentos usuaisdos pacotes estatísticos padrão não permitemestimar diretamente as variâncias e os desviospadrão das estimativas de totais considerandoas fórmulas aqui apresentadas. Entretanto, jáhá vários pacotes estatísticos especializados pa-ra estimação em pesquisas amostrais comple-xas, entre os quais se destaca o SUDAAN (ver arevisão no último capítulo de Pessoa e Nasci-mento Silva, 1998). Mais recentemente, come-çaram a ficar disponíveis procedimentos im-

plementando essa metodologia de estimaçãode totais e suas variâncias incorporando o pla-no amostral em alguns dos pacotes estatísticospadrão, entre os quais o SAS, o STATA, e as fun-ções em R desenvolvidas por Pessoa (2002).

Ajuste de modelos considerando o plano amostral

Esta seção descreve resumidamente o método deMáxima Pseudoverossimilhança (MPV), devidoa Binder (1983), comumente empregado paraajuste de modelos paramétricos quando se con-sidera o plano amostral (estratificação, conglo-meração, etc.) e os pesos no processo de inferên-cia com dados de amostras complexas. O mate-rial aqui apresentado é resumido da discussãoapresentada em Pessoa e Nascimento Silva (1998).

Seja yj=(yj1, ..., yjR)’ o vetor Rx1 das variá-veis de pesquisa observadas para a unidade ele-mentar j, gerado por um vetor aleatório Yj, pa-ra j∈U, onde U={1, ..., N} é o conjunto de ró-tulos das unidades elementares da populaçãode interesse. Suponha também que Y1,...,YN sãoindependentes e identicamente distribuídoscom densidade f(y;θ), onde θ = (θ1, θ2,..., θK) éo vetor Kx1 de parâmetros desconhecidos deinteresse. Se todas as unidades elementares dapopulação finita U fossem pesquisadas, a fun-ção de log-verossimilhança populacional seriadada por:

LU (θ) = Σj∈U

log[f (yj ; θ)] (6)

Sob certas condições de regularidade, igua-lando-se as derivadas parciais de LU (θ) com re-lação a cada componente de θ a 0, temos umsistema de equações Σ

j∈U uj (θ) = 0,

onde uj (θ) = ∂ log[f (yj ; θ)]/∂θ é o vetor Kx1dos escores da unidade elementar j, para j∈U.A solução θU deste sistema seria o estimador deMáxima Verossimilhança de θ no caso de umcenso. Podemos considerar θU uma quantidadedesconhecida da população finita, sobre a qualse deseja fazer inferências baseadas em infor-mações da amostra. Para populações onde Nfor grande, θU será muito próximo de θ, e fazerinferência para θU será o mesmo que fazer in-ferência para θ.

Seja T(θ) = Σj∈U

uj (θ)

a soma dos escores, que é um vetor de totaispopulacionais. Para estimar este vetor de totais,

Silv

a,P.

L.

N.

et a

l.666

pode-se usar um estimador linear ponderadoda forma T(θ) = Σ

j∈s wj uj (θ),

onde os wj são pesos amostrais adequados paraa estimação de totais populacionais a partir daamostra s, tais como os implicados pelos esti-madores (1) ou (3) por exemplo. O vetor deparâmetros θ do modelo definido por f(y ; θ)para a população finita pode ser estimadousando o estimador de Máxima Pseudoverossi-milhança θ

MPV que é um valor de θ que servede solução das equações dadas por

T(θ) = Σj∈s

wj uj (θ) = 0 (7)

A variância assintótica do estimador θ MPV,sob a distribuição conjunta gerada pelo mode-lo e o plano amostral, pode ser estimada por:

V(θ MPV) = [J (θ

MPV)]-1 V [ Σj∈s

wj uj (θ MPV)]

[J(θ MPV)]-1

(8)

onde J(θ MPV) =∂T(θ) | = ∂θ θ = θ MPV

= Σj∈s

wj∂uj (θ) | e∂θ θ = θ MPV

V [ Σj∈s

wj uj (θ MPV)]é um estimador consistente para a matriz devariância (do desenho) do estimador do totalpopulacional dos escores, obtido por exemplousando (5) no caso da PNAD.

Muitos modelos paramétricos podem serajustados empregando o método da MáximaPseudoverossimilhança para estimar os parâ-metros, com dados obtidos através de diferen-tes planos amostrais. Os estimadores de MPVnão serão únicos, entretanto, já que existem di-versas maneiras de se definir os pesos wj cor-respondentes a diferentes estimadores de to-tais. Os pesos mais usados são os do estimadorsimples para totais-estimador (1). No caso daPNAD, são usados os pesos (4) corresponden-tes ao estimador de razão (3). Dependendo domodelo que se quer ajustar, basta calcular osescores uj(θ) adequados e usar os estimadoresde total (3) e da correspondente variância (5)para calcular as estimativas pontuais θ MPV dosparâmetros θ do modelo e as estimativas damatriz de variâncias V(θ

MPV), mediante as ex-pressões (7) e (8) devidamente adaptadas. Taisestimativas de θ

MPV e V(θ MPV) podem então

ser usadas para calcular intervalos de confiança

ou estatísticas de teste baseadas na distribuiçãoassintótica normal para fazer inferência sobreos componentes de θ (Binder, 1983).

Para amostras autoponderadas (como é ocaso da PNAD dentro de um estrato naturalqualquer), os pesos wj serão constantes e o esti-mador pontual θ

MPV será idêntico ao estima-dor usual de Máxima Verossimilhança (MV)em uma amostra de observações independen-tes e identicamente distribuídas com distribui-ção f(y ; θ). Porém o mesmo não ocorre quan-do se trata da variância do estimador de θ, poisesta é afetada por outros aspectos do planoamostral, tais como a estratificação e conglo-meração. Mesmo para amostras em que o esti-mador pontual coincide com o estimador usualde Máxima Verossimilhança, a estimativa davariância obtida pelo procedimento de MPV épreferível à estimativa usual da variância basea-da no método de MV, pois esta última descon-sidera os efeitos do plano amostral usado paraobter os dados. Além disso, para áreas defini-das por agregações de estratos naturais comfrações amostrais distintas, nem mesmo as es-timativas pontuais θ de obtidas por MPV coin-cidirão com as estimativas obtidas por MáximaVerossimilhança.

O procedimento de MPV proporciona esti-mativas consistentes e razoavelmente simplesde calcular tanto para os parâmetros como pa-ra as variâncias dos estimadores pontuais dosparâmetros. Este procedimento é a base para odesenvolvimento de vários pacotes computa-cionais especializados, tais como SUDAAN, oude procedimentos capazes de incorporar ade-quadamente os efeitos de planos amostraiscomplexos já disponíveis em pacotes padrãotais como SAS e STATA, entre outros.

Por outro lado, o procedimento de MPVrequer conhecimento de informações detalha-das sobre a estrutura do plano amostral paracada uma das unidades da amostra, tais comopertinência a estratos e conglomerados ou uni-dades primárias de amostragem, e seus respec-tivos pesos. Além disso, as propriedades dos es-timadores de MPV não são conhecidas para pe-quenas amostras. Este problema não será obs-táculo em análises que usam os dados da amos-tra inteira da PNAD, ou, no caso de domínios deestudo separados, quando estes tiverem amos-tras suficientemente grandes. Porém, tal difi-culdade deve ser considerada quando as amos-tras nos domínios de interesse forem pequenasem termos do número de unidades primáriasamostradas no domínio. Outra dificuldade do

Ciên

cia & Saú

de C

oletiva,7(4):659-670,2002

667

procedimento é que não podem ser utilizadosmétodos usuais de diagnóstico e outros proce-dimentos da inferência clássica, tais como grá-ficos de resíduos e testes estatísticos de Razõesde Verossimilhança. Entretanto, há recursos al-ternativos para diagnóstico que consideram osefeitos dos diferentes aspectos do desenho amos-tral complexo empregado (Eltinge, 1999 ouKorn e Graubard, 1999).

Estimativas de efeitos do plano amostral para variáveis selecionadas na PNAD/1998

Como forma de ilustrar o efeito de ignorar oplano amostral e os pesos na análise de dadosda PNAD, foram calculadas estimativas para al-gumas medidas descritivas, juntamente com osrespectivos desvios padrão, usando os dados daPNAD/1998 e aplicando os métodos descritosnas seções 3 e 4. Tais estimativas foram calcula-das utilizando o pacote SUDAAN (Shah et al.,1995), de forma que foram incorporados osefeitos do plano amostral (estratificação, con-glomeração, sorteio PPT das UPAs) e do ajustedos pesos para calibração nos totais populacio-nais de pessoas por estrato natural ao calcularas estimativas de variâncias e desvios padrão dasestimativas pontuais de médias e proporções.

Qualquer sistema empregado para estimaros desvios padrão das estimativas amostraiscom dados da PNAD (SUDAAN não foge à re-gra) requer informação sobre três aspectos doplano amostral para poder calcular correta-mente as estimativas. Primeiro, é preciso indi-car qual o tipo de plano amostral e/ou estima-dor de variância deve ser usado. A opção ade-quada de plano amostral e estimador de va-riância a ser utilizada quando se emprega oSUDAAN é DESIGN=WR, que corresponde àaproximação do plano amostral PPT sistemáti-co adotado para seleção da amostra por umplano PPT com reposição no momento de esti-mar variâncias das estimativas, e à aplicaçãodas fórmulas relevantes para estimação de va-riâncias apresentadas nas seções 3 e 4 deste ar-tigo. Segundo, é necessário identificar a estru-tura do plano amostral, isto é, a que estrato eunidade primária de amostragem pertence ca-da unidade amostral elementar (domicílio oupessoa). Para este fim, devem ser usadas as va-riáveis ESTRATO e UPA construídas com o al-goritmo apresentado no anexo 1. Por último,falta indicar qual é o peso da unidade amostral

a ser usado no cálculo das estimativas. Os ar-quivos de microdados da PNAD fornecem essainformação já pronta. Para 1998, trata-se da va-riável V4729 do arquivo de pessoas, ou V4611do arquivo de domicílios. Esses pesos já são ospesos ajustados (ou calibrados) definidos em (4).

Usando essas informações e considerandoos dados de pessoas e domicílios da PNAD/1998foram produzidas as estimativas das tabelas 1 e2, respectivamente. Nessas tabelas, a última co-luna apresenta estimativas do EPA (Efeito doPlano Amostral – ver Pessoa e Nascimento Sil-va, 1998), definido como a razão da variânciaobtida considerando o plano amostral atravésda metodologia descrita na seção 3, e a variân-cia obtida ignorando o plano amostral (isto é,a variância estimada como se a amostra fosseAASC). Valores de EPA afastados de 1 indicamque ignorar o plano amostral na estimação davariância leva a estimativas viciadas e incorre-tas. Valores grandes (> 1) de EPA indicam queo estimador “ingênuo” da variância obtido ig-norando o plano amostral complexo leva a su-bestimar a variância verdadeira do estimador.

As estimativas apresentadas nas tabelas 1 e2 se referem ao total do país menos a zona ru-ral da região Norte (área de abrangência daPNAD). Um exame dos valores dos EPAs apre-sentados nessas tabelas revela com clareza queignorar o plano amostral é contra-indicado nocaso da PNAD/1998. Para as variáveis de pes-soas consideradas, os EPAs variam de 1,9 a13,7, com um valor médio de 5,5. Isto indicaque estimativas ingênuas de variância teriamvalor esperado muito menor que os valores dasvariâncias sob o plano amostral efetivamenteutilizado. Este efeito é maior para variáveis comgrande homogeneidade intraconglomerados,como é o caso das variáveis nas linhas 1 e 2 databela 1. Nota-se também que o efeito do planoamostral pode variar bastante de uma variávelpara outra.

Já para as variáveis de domicílio (tabela 2),os EPAs variam entre 2,3 e 8,4, com média de4,7. Embora menos dispersos, os valores dosEPAs para domicílios também indicam que éinadequada a opção de ignorar o plano amos-tral ao tentar estimar a precisão de estimativasderivadas da PNAD/1998. Verifica-se tambéma mesma diferenciação do EPA entre distintasvariáveis, tendo maiores valores ocorrido paraas variáveis cuja homogeneidade intraconglome-rados é maior (linhas 8, 10, 14 e 15 da tabela 2).

Todas as estimativas apresentadas nas tabe-las 1 e 2, como derivam do uso da amostra in-

Silv

a,P.

L.

N.

et a

l.668

Tabela 2Estimativas, desvios padrão, coeficientes de variação e efeitos do plano amostral para variáveis de domicílios – PNAD – 1998.

Linha Descrição da variável Estimativa Desvio CV(%) EPApadrão

1 Proporção com paredes de material adequado 96,0% 0,2% 0,2 6,12 Proporção com cobertura de material adequado 97,1% 0,1% 0,1 5,83 Número médio de cômodos por domicílio 5,65 0,0166 0,3 4,94 Número médio de cômodos servindo de dormitório 1,97 0,0043 0,2 2,35 Proporção de domicílios próprios 74,3% 0,2% 0,3 2,86 Proporção de domicílios alugados 13,5% 0,2% 1,3 2,47 Média do aluguel 223,2 3,0 1,4 2,58 Proporção com terreno próprio 92,3% 0,3% 0,3 7,49 Proporção com água canalizada pelo menos 84,8% 0,3% 0,3 4,3

um cômodo10 Proporção com água de rede geral 89,0% 0,3% 0,4 8,411 Proporção com água canalizada de rede geral 23,9% 0,9% 3,6 5,712 Proporção com água de poço ou nascente 52,0% 1,3% 2,5 6,613 Proporção com ao menos um banheiro 91,0% 0,2% 0,2 5,714 Proporção com esgotamento adequado 70,2% 0,4% 0,6 7,715 Proporção com energia elétrica 94,2% 0,2% 0,2 7,216 Proporção com telefone 31,7% 0,3% 1,0 4,617 Proporção com filtro d’água 56,2% 0,3% 0,5 3,018 Proporção com rádio 90,4% 0,2% 0,2 2,619 Proporção com TV em cores 78,0% 0,3% 0,3 3,820 Proporção com TV em preto e branco 43,6% 0,6% 1,4 2,821 Proporção com geladeira 81,7% 0,3% 0,3 3,722 Proporção com freezer 19,5% 0,2% 1,2 3,023 Proporção com máquina de lavar roupa 32,0% 0,3% 1,0 3,9

Tabela 1Estimativas, desvios padrão, coeficientes de variação e efeitos do plano amostral para variáveis de pessoas – PNAD – 1998.

Linha Descrição da variável Estimativa Desvio CV(%) EPApadrão

1 Proporção de pessoas brancas 53,8% 0,3% 0,6 13,72 Proporção de pessoas negras ou pardas 45,4% 0,3% 0,7 13,73 Proporção de pessoas analfabetas 24,4% 0,2% 0,7 5,84 Proporção de pessoas que freqüentam escola 30,9% 0,1% 0,4 2,35 Proporção de pessoas exercendo trabalho infantil 2,8% 0,2% 5,2 2,66 Proporção de pessoas que trabalham 54,8% 0,2% 0,3 3,47 Proporção de pessoas empregadas 2,7% 0,1% 2,9 8,48 Proporção de pessoas conta própria 2,7% 0,1% 2,5 6,29 Proporção de pessoas empregadoras 0,3% 0,0% 5,3 3,0

10 Proporção de pessoas com auxílio-moradia 7,8% 0,2% 2,4 4,511 Proporção de pessoas com auxílio-alimentação 37,2% 0,3% 0,8 3,312 Proporção de pessoas com auxílio-transporte 34,2% 0,3% 0,9 3,713 Proporção de pessoas com auxílio-creche/educação 2,6% 0,1% 2,8 1,914 Proporção de pessoas com auxílio-saúde 16,5% 0,3% 1,6 4,815 Renda média do trabalho principal 512,8 5,8 1,1 5,416 Proporção de pessoas com previdência 44,2% 0,3% 0,7 5,6

Ciên

cia & Saú

de C

oletiva,7(4):659-670,2002

669

teira da PNAD/1998 em nível nacional (90.913domicílios com entrevistas realizadas e 344.975pessoas entrevistadas), apresentam elevadograu de precisão (seus coeficientes de variaçãoestimados variam entre 0,1% e 5,3%, com va-lor médio de 1,2%). Quando a amostra daPNAD for utilizada para estimar para domí-nios de estudo mais detalhados (estados, regiõesmetropolitanas, e outros), há que prestar maioratenção aos valores dos desvios padrão e/oucoeficientes de variação das estimativas, poisestas podem ser imprecisas. Nascimento Silva ePessoa (2002) observaram, por exemplo, que es-timativas diretas e indiretas das taxas de mor-talidade infantil obtidas dos dados de fecundi-dade da PNAD podem ser bastante imprecisaspara alguns estados da federação.

Como os efeitos do plano amostral sobre asestimativas de variância não são uniformes pa-ra diferentes variáveis, ao contrário, são bas-tante diversos, a prática recomendada é semprebuscar calcular estimativas das medidas de pre-cisão das estimativas de interesse considerandotodos os aspectos relevantes do plano amostral.Hoje em dia, isso não representa mais um pro-blema sério, de vez que estão disponíveis recur-sos computacionais adequados para esse fim.

Comentários finais

Uma das principais dificuldades que os usuá-rios da PNAD têm para considerar adequada-mente os efeitos do plano amostral complexoutilizado na hora de fazer suas análises é a pou-ca exposição aos métodos e técnicas necessá-rios para fazer uso correto dos dados. Este arti-

go busca enfrentar essa dificuldade, apresen-tando uma exposição compreensiva, emboraresumida, dos métodos e técnicas disponíveispara estimação e análise de dados de pesquisasamostrais complexas, como é o caso da PNAD.

Outra dificuldade enfrentada pelos usuá-rios é a decodificação das informações sobre ametodologia da PNAD de maneira a aplicaremcorretamente os métodos aqui expostos, comauxílio dos pacotes computacionais especiali-zados disponíveis. Esta dificuldade também foiatacada com a exposição detalhada dos métodosde amostragem e estimação usados na PNAD, ede como as informações sobre a estrutura doplano amostral podem ser trabalhadas para usonum pacote estatístico especializado (SUDAAN).Usuários de outros pacotes podem aproveitarimediatamente grande parte da informação pa-ra uso com seus pacotes preferidos, desde quebaseados em metodologia similar para estima-ção de variâncias.

Por último, outra dificuldade dos usuáriosé aceitar que a idéia de usar os pacotes estatísti-cos padrão nas análises pode levar a resultadosincorretos na inferência. Foi demonstrada demaneira incontestável com os valores das esti-mativas de EPA apresentados para uma amos-tra intencional de variáveis da PNAD que taisefeitos não podem ser ignorados, sob pena deinferências grosseiramente viciadas. Como taisefeitos são importantes para um número gran-de de variáveis de tipos diferentes (tanto carac-terísticas de pessoas como de domicílios foramconsideradas), e variam bastante de uma variá-vel para outra, a lição a ser extraída é que asanálises devem sempre considerar os aspectosrelevantes do plano amostral da PNAD.

Referências bibliográficas

Bianchini ZM & Albieri S 1999. Uma revisão dos princi-pais aspectos dos planos amostrais das pesquisasdomiciliares realizadas pelo IBGE. Revista Brasileirade Estatística 60(213):7-23.

Binder DA 1983. On the variances of asymptotically nor-mal estimators from complex surveys. InternationalStatistical Review 51:279-292.

Cochran WG 1977. Sampling techniques. (3a ed.) JohnWiley and Sons, Nova York.

Silv

a,P.

L.

N.

et a

l.670

Eltinge J 1999. Assessment of information capacity andsensitivity in the analysis of complex surveys. Bul-letin of the International Statistical Institute, Proceed-ings of the 52nd session, Tomo LVIII. Helsinque.

IBGE 1981. Metodologia da Pesquisa Nacional por Amos-tra de Domicílios na Década de 70. Rio de Janeiro.Série Relatórios Metodológicos, volume 1.

Korn EL & Graubard BI 1999. Analysis of health surveys.John Wiley and Sons, Nova York.

Lehtonen R & Pahkinen EJ 1995. Practical methods fordesign and analysis of complex surveys. John Wiley& Sons, Chichester.

Leite PGPG 2001. Análise da situação ocupacional de cri-anças e adolescentes nas regiões Sudeste e Nordeste doBrasil utilizando informações da PNAD/1999. Disser-tação de mestrado da Escola Nacional de CiênciasEstatísticas, Rio de Janeiro.

Leote RMD 1996. Um perfil socioeconômico das pessoasocupadas no setor informal na área urbana do Rio deJaneiro. Relatórios Técnicos no 02/96. Escola Na-cional de Ciências Estatísticas, Rio de Janeiro.

Nascimento Silva PL 1996. Utilizing auxiliary informa-tion for estimation and analysis in sample surveys.Tese de doutorado, Universidade de Southampton.

Nascimento Silva PL & Pessoa DGC 2002. Estimando aprecisão das estimativas indiretas das taxas de mortali-dade obtidas a partir da PNAD. Trabalho aceito parao XIII Encontro da ABEP.

Pessoa DGC 2002. ADAC: Biblioteca de Funções em Rpara a Análise de Dados Amostrais Complexos. 15o

Simpósio Nacional de Probabilidade e Estatística.Associação Brasileira de Estatística, São Paulo.

Pessoa DGC, Nascimento Silva PL & Duarte RPN 1997.Análise estatística de dados de pesquisas por amos-tragem: problemas no uso de pacotes padrões. Revis-ta Brasileira de Estatística 58(210):53-75.

Pessoa DGC & Nascimento Silva PL 1998. Análise de da-dos amostrais complexos. Associação Brasileira de Es-tatística, São Paulo.

Reis EJ, Tafner P & Reiss LO 2001. Distribuição de riquezaimobiliária e de renda no Brasil: 1992-1999. IPEA-DI-MAC, Rio de Janeiro.

Särndal CE, Swensson B & Wretman JH 1992. Model as-sisted survey sampling. Springer-Verlag, Nova York.

Shah BV et al. 1995. Statistical methods and mathematicalalgorithms used in SUDAAN. Research Triangle Insti-tute.

Skinner CJ, Holt D & Smith TMF (eds.). 1989. Analysis ofcomplex surveys. John Wiley & Sons, Chichester.

Artigo apresentado em 18/9/2002Aprovado em 31/10/2002Versão final apresentada em 11/11/2002

Documents

Análise estatística de dados da PNAD: incorporando a ... · PDF filetente na época do censo demográfico. No se-gundo estágio de seleção, o sorteio de setores foi feito dentro