17
METODOLOGIA DPE – DIRETORIA DE PESQUISAS COREN – COORDENAÇÃO DE TRABALHO E RENDIMENTO GEPME – GERÊNCIA DE PESQUISA MENSAL Imputação de Valores Faltantes Referentes às Variáveis de Rendimento do Trabalho Pesquisa Mensal de Emprego 02/04/2007

METODOLOGIA

  • Upload
    dannon

  • View
    21

  • Download
    1

Embed Size (px)

DESCRIPTION

DPE – DIRETORIA DE PESQUISAS COREN – COORDENAÇÃO DE TRABALHO E RENDIMENTO GEPME – GERÊNCIA DE PESQUISA MENSAL. Imputação de Valores Faltantes Referentes às Variáveis de Rendimento do Trabalho Pesquisa Mensal de Emprego. METODOLOGIA. 02/04/2007. Rendimentos do Trabalho na PME. habitual. - PowerPoint PPT Presentation

Citation preview

Page 1: METODOLOGIA

METODOLOGIA

DPE – DIRETORIA DE PESQUISASCOREN – COORDENAÇÃO DE TRABALHO E RENDIMENTOGEPME – GERÊNCIA DE PESQUISA MENSAL

Imputação de Valores Faltantes Referentes às

Variáveis de Rendimento do Trabalho

Pesquisa Mensal de Emprego

02/04/2007

Page 2: METODOLOGIA

Metodologia de Imputação de Rendimentos

Adotou-se a metodologia que combina Árvores de Regressão com seleção probabilística de doadores em cada estrato construído através da árvore (Breiman et al, 1984) .

Rendimentos do Trabalho na PME

Rendimento no trabalho principal

Rendimento no(s) outro(s) trabalho(s)

habitual

efetivo

habitual

efetivo

Page 3: METODOLOGIA

Árvore de Regressão

O que é?O que é?

É um método de estratificação que utiliza os valores

respondidos de uma ou mais variáveis, para classificar

registros em grupos homogêneos, a partir de um

conjunto de variáveis explicativas.

Em geral, chamamos estes grupos de nós ou estratos.

Cada estrato é subdividido em outros dois estratos e

assim por diante, criando-se a árvore.

Page 4: METODOLOGIA

Como escolher a partição?Como escolher a partição?

• Escolher a variável a ser particionada;

• Escolher a partição desta variável que faça dos dois

estratos resultantes, os mais homogêneos possíveis,

quanto a variável dependente.

Árvore de Regressão

Page 5: METODOLOGIA

- Esse processo de partição se repete até a chegada do

nó terminal, definido por um critério de parada;

- Os estratos finais formarão as classes de imputação;

- No caso da PME, os registros são os indivíduos que

são agrupados em estratos homogêneos, em relação

ao rendimento.

Árvore de Regressão

Page 6: METODOLOGIA

Definições para a construção da árvore na PME

• Utilização da função RPART do software R;

• Uma árvore por mês para cada região metropolitana

investigada pela PME (Recife, Salvador, Belo Horizonte, Rio de

Janeiro, São Paulo e Porto Alegre);

• Critério de parada: mínimo de 1% do total de registros no nó

terminal;

• Variável dependente: rendimento habitual no trabalho

principal;

Page 7: METODOLOGIA

Definições para a construção da árvore na PME

• Variáveis explicativas para o rendimento habitual no

trabalho principal:

Sexo;

Condição do Morador no Domicílio;

Idade;

Anos de Estudo;

Posição na ocupação no Trabalho Principal;

Tamanho do Empreendimento do Trabalho Principal;

Horas Habitualmente Trabalhadas na Semana no

Trabalho Principal.

Page 8: METODOLOGIA

Anos_estudo < 14,5

Nó Raiz

Nó terminal

Pos_ocup = 1,2,3,4,5 Condição = 2

Anos_est < 12,5

Anos_est < 10,5

Sexo = 2

Figura: Exemplo de Árvore construída para a Região Metropolitana de São Paulo em dezembro de 2005.

Tam = 1

Mulheres, que não são empregadoras e com menos de 11 anos de estudo

Empregadores com menos de 15 anos de estudo em empreendimentos com mais de 6 funcionários

Page 9: METODOLOGIA

Figura: Posições de entrada das variáveis explicativas na construção da árvore

(Região metropolitana de São Paulo - março de 2002 a dezembro de 2006).

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

1ª 2ª 3ª 4ª 5ª ou mais Não entra

Tamanho do Empreendimento

Horas Trabalhadas

Condição noDomicílio

Idade

Sexo

Posição naOcupação

Anos de Estudo

Page 10: METODOLOGIA

Procedimento de Imputação

• Procedimento diferenciado para o tipo de não-resposta de

rendimento:

Não resposta total de rendimento: rendimento habitual e

rendimento efetivo ignorados (tanto para o rendimento no

trabalho principal quanto para o rendimento do(s) outro(s)

trabalho(s));

Não resposta parcial de rendimento: um dos rendimentos

respondidos e o outro ignorado;

Page 11: METODOLOGIA

Procedimento de Imputação

• Para a não resposta total dos rendimentos utiliza-se a árvore

construída da seguinte forma:

- Procedimento hot-deck com seleção aleatória dentro de

classes, ou seja, em cada nó seleciona-se aleatoriamente, com

probabilidade proporcional ao peso de cada indivíduo, um

doador para os rendimentos ignorados.

- Os doadores são aqueles que possuem rendimentos habituais

e efetivos respondidos, excluindo em cada nó aqueles que

apresentam valores extremos :

Page 12: METODOLOGIA

Procedimento de Imputação

LI = Q1 - 2,0(Q3-Q1) e LS = Q3 + 2,0(Q3-Q1),

- Para uma pessoa com 2 rendimentos ignorados, seleciona-se

um doador que irá ceder seus 2 rendimentos a este receptor.

- Para uma pessoa que tenha o vetor de 4 rendimentos

ignorados, seleciona-se um doador para ceder os 4

rendimentos.

- Caso não haja doadores a seleção é feita no nó raiz, com

doadores com a mesma posição na ocupação. Se ainda não

houver, a seleção é feita no nó raiz, sem restrições.

Page 13: METODOLOGIA

Procedimento de Imputação

• Para a não resposta parcial dos rendimentos optou-se por aproveitar a informação do outro rendimento respondido:

- Cerca de 90% dos indivíduos declaram rendimento habitual e efetivo com valores iguais;

- Se respondeu efetivo e não respondeu habitual - imputa o rendimento habitual pelo efetivo respondido;

- Se respondeu habitual e não respondeu efetivo - imputa o rendimento efetivo pelo habitual respondido;

- Procedimento utilizado tanto para os rendimentos no trabalho principal quanto no rendimento do(s) outro(s) trabalho(s).

Page 14: METODOLOGIA

Procedimento de Imputação

• Exceções para a não resposta parcial:

Meses de janeiro: influência do 13º salário no rendimento

efetivo

É uma razão (efetivo/habitual) média calculada dentro de cada

nó para três grupos distintos:

- Trabalhadores domésticos

- Militares ou funcionários públicos e empregados com carteira

- Empregados sem carteira, conta própria e empregadores.

Razão

efetivo Rendimento habitual Rendimento

Razão x habitual Rendimento efetivo Rendimento

Page 15: METODOLOGIA

Procedimento de Imputação

• Exceções para a não resposta parcial:

Rendimento efetivo igual a zero e rendimento habitual

ignorado:

- Utiliza-se as classes de imputação obtidas pela árvore e

seleciona-se um doador para o rendimento habitual

Page 16: METODOLOGIA

Procedimento de Imputação

• Avaliação:

- Após o procedimento de imputação, em cada nó terminal

da árvore efetua-se o teste de Kolmogorov-Smirnov;

- Avalia se duas distribuições foram extraídas de uma

mesma população;

- Efetuado com os rendimentos antes e após da imputação;

- Para os meses de março de 2002 até dezembro de 2006,

não foram encontrados p-valores abaixo do nível de

significância (5%).

Page 17: METODOLOGIA

Referências

BREIMAN, L., FRIEDMAN, J.H., OLSHEN R.H. and STONE, C.J. Classification

and Regression Trees, 1984, Monterrey:Wadsworth and Brooks/Cole.

PESSOA, D.G.C. e SANTOS, A.R. Imputação de renda dos responsáveis por

domicílios - conjunto universo do Censo Demográfico 2000, 2003, Relatório

Técnico, DEMET/DPE/IBGE.

PESSOA,D.G.C., MOREIRA, G.G. e SANTOS, A.R. Imputação de rendimentos

no questionário da amostra do Censo Demográfico 2000, 2003, Relatório

Técnico, DEMET/DPE/IBGE.