Upload
dannon
View
21
Download
1
Embed Size (px)
DESCRIPTION
DPE – DIRETORIA DE PESQUISAS COREN – COORDENAÇÃO DE TRABALHO E RENDIMENTO GEPME – GERÊNCIA DE PESQUISA MENSAL. Imputação de Valores Faltantes Referentes às Variáveis de Rendimento do Trabalho Pesquisa Mensal de Emprego. METODOLOGIA. 02/04/2007. Rendimentos do Trabalho na PME. habitual. - PowerPoint PPT Presentation
Citation preview
METODOLOGIA
DPE – DIRETORIA DE PESQUISASCOREN – COORDENAÇÃO DE TRABALHO E RENDIMENTOGEPME – GERÊNCIA DE PESQUISA MENSAL
Imputação de Valores Faltantes Referentes às
Variáveis de Rendimento do Trabalho
Pesquisa Mensal de Emprego
02/04/2007
Metodologia de Imputação de Rendimentos
Adotou-se a metodologia que combina Árvores de Regressão com seleção probabilística de doadores em cada estrato construído através da árvore (Breiman et al, 1984) .
Rendimentos do Trabalho na PME
Rendimento no trabalho principal
Rendimento no(s) outro(s) trabalho(s)
habitual
efetivo
habitual
efetivo
Árvore de Regressão
O que é?O que é?
É um método de estratificação que utiliza os valores
respondidos de uma ou mais variáveis, para classificar
registros em grupos homogêneos, a partir de um
conjunto de variáveis explicativas.
Em geral, chamamos estes grupos de nós ou estratos.
Cada estrato é subdividido em outros dois estratos e
assim por diante, criando-se a árvore.
Como escolher a partição?Como escolher a partição?
• Escolher a variável a ser particionada;
• Escolher a partição desta variável que faça dos dois
estratos resultantes, os mais homogêneos possíveis,
quanto a variável dependente.
Árvore de Regressão
- Esse processo de partição se repete até a chegada do
nó terminal, definido por um critério de parada;
- Os estratos finais formarão as classes de imputação;
- No caso da PME, os registros são os indivíduos que
são agrupados em estratos homogêneos, em relação
ao rendimento.
Árvore de Regressão
Definições para a construção da árvore na PME
• Utilização da função RPART do software R;
• Uma árvore por mês para cada região metropolitana
investigada pela PME (Recife, Salvador, Belo Horizonte, Rio de
Janeiro, São Paulo e Porto Alegre);
• Critério de parada: mínimo de 1% do total de registros no nó
terminal;
• Variável dependente: rendimento habitual no trabalho
principal;
Definições para a construção da árvore na PME
• Variáveis explicativas para o rendimento habitual no
trabalho principal:
Sexo;
Condição do Morador no Domicílio;
Idade;
Anos de Estudo;
Posição na ocupação no Trabalho Principal;
Tamanho do Empreendimento do Trabalho Principal;
Horas Habitualmente Trabalhadas na Semana no
Trabalho Principal.
Anos_estudo < 14,5
Nó Raiz
Nó terminal
Pos_ocup = 1,2,3,4,5 Condição = 2
Anos_est < 12,5
Anos_est < 10,5
Sexo = 2
Figura: Exemplo de Árvore construída para a Região Metropolitana de São Paulo em dezembro de 2005.
Tam = 1
Mulheres, que não são empregadoras e com menos de 11 anos de estudo
Empregadores com menos de 15 anos de estudo em empreendimentos com mais de 6 funcionários
Figura: Posições de entrada das variáveis explicativas na construção da árvore
(Região metropolitana de São Paulo - março de 2002 a dezembro de 2006).
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
1ª 2ª 3ª 4ª 5ª ou mais Não entra
Tamanho do Empreendimento
Horas Trabalhadas
Condição noDomicílio
Idade
Sexo
Posição naOcupação
Anos de Estudo
Procedimento de Imputação
• Procedimento diferenciado para o tipo de não-resposta de
rendimento:
Não resposta total de rendimento: rendimento habitual e
rendimento efetivo ignorados (tanto para o rendimento no
trabalho principal quanto para o rendimento do(s) outro(s)
trabalho(s));
Não resposta parcial de rendimento: um dos rendimentos
respondidos e o outro ignorado;
Procedimento de Imputação
• Para a não resposta total dos rendimentos utiliza-se a árvore
construída da seguinte forma:
- Procedimento hot-deck com seleção aleatória dentro de
classes, ou seja, em cada nó seleciona-se aleatoriamente, com
probabilidade proporcional ao peso de cada indivíduo, um
doador para os rendimentos ignorados.
- Os doadores são aqueles que possuem rendimentos habituais
e efetivos respondidos, excluindo em cada nó aqueles que
apresentam valores extremos :
Procedimento de Imputação
LI = Q1 - 2,0(Q3-Q1) e LS = Q3 + 2,0(Q3-Q1),
- Para uma pessoa com 2 rendimentos ignorados, seleciona-se
um doador que irá ceder seus 2 rendimentos a este receptor.
- Para uma pessoa que tenha o vetor de 4 rendimentos
ignorados, seleciona-se um doador para ceder os 4
rendimentos.
- Caso não haja doadores a seleção é feita no nó raiz, com
doadores com a mesma posição na ocupação. Se ainda não
houver, a seleção é feita no nó raiz, sem restrições.
Procedimento de Imputação
• Para a não resposta parcial dos rendimentos optou-se por aproveitar a informação do outro rendimento respondido:
- Cerca de 90% dos indivíduos declaram rendimento habitual e efetivo com valores iguais;
- Se respondeu efetivo e não respondeu habitual - imputa o rendimento habitual pelo efetivo respondido;
- Se respondeu habitual e não respondeu efetivo - imputa o rendimento efetivo pelo habitual respondido;
- Procedimento utilizado tanto para os rendimentos no trabalho principal quanto no rendimento do(s) outro(s) trabalho(s).
Procedimento de Imputação
• Exceções para a não resposta parcial:
Meses de janeiro: influência do 13º salário no rendimento
efetivo
É uma razão (efetivo/habitual) média calculada dentro de cada
nó para três grupos distintos:
- Trabalhadores domésticos
- Militares ou funcionários públicos e empregados com carteira
- Empregados sem carteira, conta própria e empregadores.
Razão
efetivo Rendimento habitual Rendimento
Razão x habitual Rendimento efetivo Rendimento
Procedimento de Imputação
• Exceções para a não resposta parcial:
Rendimento efetivo igual a zero e rendimento habitual
ignorado:
- Utiliza-se as classes de imputação obtidas pela árvore e
seleciona-se um doador para o rendimento habitual
Procedimento de Imputação
• Avaliação:
- Após o procedimento de imputação, em cada nó terminal
da árvore efetua-se o teste de Kolmogorov-Smirnov;
- Avalia se duas distribuições foram extraídas de uma
mesma população;
- Efetuado com os rendimentos antes e após da imputação;
- Para os meses de março de 2002 até dezembro de 2006,
não foram encontrados p-valores abaixo do nível de
significância (5%).
Referências
BREIMAN, L., FRIEDMAN, J.H., OLSHEN R.H. and STONE, C.J. Classification
and Regression Trees, 1984, Monterrey:Wadsworth and Brooks/Cole.
PESSOA, D.G.C. e SANTOS, A.R. Imputação de renda dos responsáveis por
domicílios - conjunto universo do Censo Demográfico 2000, 2003, Relatório
Técnico, DEMET/DPE/IBGE.
PESSOA,D.G.C., MOREIRA, G.G. e SANTOS, A.R. Imputação de rendimentos
no questionário da amostra do Censo Demográfico 2000, 2003, Relatório
Técnico, DEMET/DPE/IBGE.