32
Econometra 2 Modelos Truncados y Censurados Luis Bendezœ M. Ponticia Universidad Catlica del Perœ Junio 2010 Luis Bendezœ M. (PUCP) Modelos Truncados y Censurados Junio 2010 1 / 32

Censura y Truncamiento

Embed Size (px)

Citation preview

Page 1: Censura y Truncamiento

Econometría 2Modelos Truncados y Censurados

Luis Bendezú M.

Ponti�cia Universidad Católica del Perú

Junio 2010

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 1 / 32

Page 2: Censura y Truncamiento

Modelos Censurados y Truncados Introducción

Introducción

Se dice que la variable dependiente de un modelo está censurada sila información referente a dicha variable no está disponible, peroaquella correspondiente a las variables independientes si lo está.

En contraste, si ambas clases de datos no están disponibles para undeterminado grupo de personas, se dice que los datos estántruncados.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 2 / 32

Page 3: Censura y Truncamiento

Modelos Censurados y Truncados Introducción

Introducción

Algunos ejemplos de datos censurados son:1 Observamos los salarios de mujeres que trabajan, pero no el salario dereserva de aquellas que no trabajan.

2 Hacemos una encuesta para estudiar la compra de bienes durables. Sepuede calcular sólo el gasto de aquellos que optaron por comprar elbien, pero se desconoce el máximo que habrían estado dispuestos apagar aquellos que no compraron un auto.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 3 / 32

Page 4: Censura y Truncamiento

Modelos Censurados y Truncados Introducción

Introducción

Un ejemplo de datos truncados es:1 Una encuesta menciona que el ingreso promedio es de S/.1500 al mes.Sin embargo, únicamente se recogieron datos de aquellos jefes de hogarque tenían ingresos superiores a S/.1000. Por consiguiente, elpromedio no es representativo de la población completa, puesto queparte de ella ha sido ignorada en los cálculos. En este caso, estamoshablando de una media condicional.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 4 / 32

Page 5: Censura y Truncamiento

Modelos Censurados y Truncados Introducción

Introducción

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 5 / 32

Page 6: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Densidad de una variable aleatoria truncada

Es la parte de una distribución que queda por encima o debajo de uncierto valor dado:

f (x j x > a) = f (x)Pr (x > a)

Esto es, truncar equivale a introducir un factor de escala en la funciónde densidad, de manera que integre a 1.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 6 / 32

Page 7: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Densidad de una variable aleatoria truncada

En trabajos aplicados se utiliza comúnmente la distribución normaltruncada. Si x � N

�µ, σ2

�, entonces:

Pr (x > a) = 1�Φ�a� µ

σ

�= 1�Φ (α)

donde α = a�µσ .

Entonces:

f (x j x > a) =�2πσ2

��1/2 e�12 (

x�µσ )

2

1�Φ (α)=

σ�1φ�x�µ

σ

�1�Φ (α)

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 7 / 32

Page 8: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Momentos de una variable aleatoria truncada

Recordemos las de�niciones de valor esperado y varianza de unadistribución truncada:

E (x j x > a) =Z ∞

axf (x j x > a) dx

Var (x j x > a) =Z ∞

a(x � E (x j x > a))2 f (x j x > a) dx

Para una variable aleatoria normal, con esperanza µ y varianza σ2,truncada en cierta constante a, se tiene que:

E (x j truncamiento) = µ+ σλ (α)

Var (x j truncamiento) = σ2 (1� δ (α))

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 8 / 32

Page 9: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Momentos de una variable aleatoria truncada

Donde:

α = a�µσ

δ (α) = λ (α) [λ (α)� α]

λ (α) =

(φ(α)

1�Φ(α) si x > a�φ(α)Φ(α) si x < a

Se tiene además que δ (α) 2 (0, 1) , 8α. (Intuitivamente, si lavarianza de x es σ2, la varianza de x condicional al truncamientodebería ser menor a σ2.

La variable λ (α) se llama la razón de Mills inversa.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 9 / 32

Page 10: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Modelo de Regresión Truncada

Sea:yi = β0xi + εi εi � N

�0, σ2

�lo cual implica que:

yi j xi � N�

β0xi , σ2�

Supongamos que yi se encuentra truncada por sobre un valor a.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 10 / 32

Page 11: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Modelo de Regresión Truncada

Entonces, de acuerdo al valor esperado de una variable aleatoriasujeta a truncamiento:

E (yi j xi , yi > a) = β0xi + σφ�a�β0xi

σ

�1�Φ

�a�β0xi

σ

�Equivalentemente, usando la de�nición de la razón de Mills inversa:

E (yi j xi , yi > a) = β0xi + σλ (αi )

donde:

λ (αi ) =φ

�a�β0xi

σ

�1�Φ

�a�β0xi

σ

� , αi =a�β0xi

σ

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 11 / 32

Page 12: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Modelo de Regresión Truncada

Por otra parte, la varianza de yi , condicional en yi > a, viene dadapor:

Var (yi j xi , yi > a) = σ2 [1� δ (αi )]

Adicionalmente, dada la expresión para el valor esperado condicionalal truncamiento, se pueden obtener los efectos marginales para lasubpoblación (es decir, aquellos individuos que cumplen con yi > a):

∂E (yi j xi , yi > a)∂xi

= β+ σ

�∂λ (αi )

∂αi

��∂αi∂xi

�= β [1� δ (αi )]

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 12 / 32

Page 13: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Estimación de una Regresión Truncada (I): MínimosCuadrados No Lineales

Sea el modelo:

E (yi j xi , yi > a) + ui = β0xi + σλ (αi ) + ui

donde Var (ui j xi ) = σ2 [1� δ (αi )]. Esto implica que ui esheterocedástico.Además, es claro que estimar una regresión de yi , con yi > a en x , elestimador de β estaría sesgado.

Nótese además que λi es una función no lineal de β y σ. Por ello, enuna primera etapa, puede estimarse la ecuación por mínimoscuadrados no lineales, ignorando la heterocedasticidad de ui .

Una vez que se cuenta con estimadores de β y σ, se corrige porheterocedasticidad, a �n de lograr ganancias en e�ciencia.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 13 / 32

Page 14: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Estimación de una Regresión Truncada (I): MáximaVerosimilitud

Para estimar el modelo por MV, partimos de la función dedistribución sujeta a truncamiento:

f (yi j xi , yi > a) =σ�1φ

�a�β0xi

σ

�1�Φ

�a�β0xi

σ

�En este contexto, el logaritmo de la función de verosimilitud de unamuestra de n observaciones independientes viene dado por:

ln L = �n2

�ln (2π) + ln

�σ2��� 12σ2

n

∑i=1

�yi � β0xi

�2�

n

∑i=1ln�1�Φ

�a� β0xi

σ

��Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 14 / 32

Page 15: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Estimación de una Regresión Truncada (I): MáximaVerosimilitud

Las condiciones de primer orden son:

∂ ln L∂β

=n

∑i=1

�yi � β0xi

σ2� λi

σ

�xi = 0

∂ ln L∂β

=n

∑i=1

� 12σ2

+

�yi � β0xi

�22σ4

� αiλi2σ2

!= 0

donde: αi =a�β0xi

σ , λi =φ(αi )

1�Φ(αi )

La varianza se puede aproximar por:

Var (θ) =

0@ n

∑i=1

∂ ln�yi , xi , bβ, bσ2�

∂θ

∂ ln�yi , xi , bβ, bσ2�

∂θ0

1A�1

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 15 / 32

Page 16: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Ejemplo:

Rubinfeld llevó a cabo un estudio de decisiones de voto en unamuestra de 95 individuos en un referéndum sobre impuestos escolaresen una comunidad de Michigan.

Las respuestas a la encuesta proporcionaron una lista de atributos delos votantes, así como estimaciones del ingreso familiar y el precio dela educación.

Esta variable fue calculada como el costo para un individuo de�nanciar un dólar extra por alumno por concepto de gasto escolar enla comunidad.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 16 / 32

Page 17: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Ejemplo:

Supongamos que sólo se tiene información del gasto deseado eneducación para aquellos individuos que votaron "sí" en el referéndum.En nuestra notación, podríamos asumir que el punto de corte deltruncamiento es a = 0.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 17 / 32

Page 18: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Ejemplo: Estimación vía Máxima Verosimilitud

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 18 / 32

Page 19: Censura y Truncamiento

Modelos Censurados y Truncados Truncamiento

Ejemplo: Estimación vía MCO

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 19 / 32

Page 20: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Introducción

En este caso, todos los valores contenidos en un cierto rango se hantransformado en un único valor. Por ejemplo, consideremos elnúmero de alumnos que desea inscribirse en una determinada secciónde un curso. Si se llena el total de las vacantes disponibles en dichasección, el número de cupos demandados es censurado al número decupos totales.

Supongamos, por simplicidad, que tenemos una variable aleatoria y �

censurada en cero. Sólo la parte de la distribución por encima de cerocontiene información relevante sobre y �.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 20 / 32

Page 21: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Introducción

Cuando los datos están censurados, la distribución de probabilidadesde la variable a analizar es una mezcla de una distribución discreta yotra contínua.

De�namos una variable y que posee el siguiente comportamiento:

y =�0 si y � � 0y � si y � > 0

donde y � es una variable aleatoria con función de distribución f (y �).

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 21 / 32

Page 22: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Introducción

Por ejemplo, si y � � N�µ, σ2

�, se tiene que:

f (y) =

8<: Φ��µσ

�= 1�Φ

� µσ

�si y � � 0�

2πσ2��1/2 exp

��0.5σ�2 (y � µ)2

�si y � > 0

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 22 / 32

Page 23: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Momentos de una variable aleatoria normal censurada

Sea y � � N�µ, σ2

�una variable censurada en el valor de a:

y =�0 si y � � ay � si y � > a

Entonces el valor esperado y la varianza vienen dados por:

E (y) = aΦ (α) + [1�Φ (α)] [µ+ σλ (α)]

Var (y) = σ2 [1�Φ (α)]h1� δ (α) + (α� λ (α))2 Φ (α)

idonde Pr (y � � a) = Φ (α), α = a�µ

σ , λ = φ(α)1�Φ(α) ,

δ (α) = λ (α) [λ (α)� α]

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 23 / 32

Page 24: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Modelo Tobit

Supongamos que y � es una función lineal de x más un componentealeatorio:

y �i = β0xi + εi

Por ejemplo, supongamos que y � mide el gasto efectivo enautomóviles en el caso de aquellos individuos que han comprado y elgasto deseado en el caso de aquellos que no. El vector de regresoresxi incluye, por ejemplo, el nivel de ingreso y el número de individuosen el grupo familiar.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 24 / 32

Page 25: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Modelo Tobit

En la práctica, y � no es observable para aquellos individuos que nohan comprado. Por consiguiente, esta variable se encuentra censuradaen cero. Como resultado, la variable dependiente está dada por:

yi =�0 si y �i � 0y �i si y �i > 0

Si utilizamos la expresión de valor esperado presentada anteriormente,obtenemos que:

E (yi j xi ) = Φ�

β0xiσ

� �β0xi + σλi

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 25 / 32

Page 26: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Modelo Tobit

Los impactos marginales de xi sobre la esperanza de la variableobservada son:

∂E (yi j xi )∂xi

= βΦ�

β0xiσ

�Mientras que para la variable latente y � se tiene:

∂E (y �i j xi )∂xi

= β

De lo anterior, vemos que el primer efecto marginal se calculare-escalando el vector β por la probabilidad de ubicarse en la regióncensurada, esto es, por la probabilidad de que y �i > 0.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 26 / 32

Page 27: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Modelo Tobit

Dado que Φ�

β0xiσ

�λi = φ

�β0xi

σ

�, podemos reescribir el efecto

marginal sobre la variable observada como:

∂E (yi j xi )∂xi

= β [Φi (1� λi (λi � αi )) + φi (λi � αi )]

= Φiβ (1� δi ) + βφi (λi � αi )

donde Φi = Φ�

β0xiσ

�, φi

�β0xi

σ

�, αi = � β0xi

σ , λi =φi

�β0xi

σ

�Φ�

β0xiσ

� ,δi = λi (λi � αi ).

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 27 / 32

Page 28: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Modelo Tobit

Este efecto marginal puede presentarse de una forma un poco másintuitiva:

∂E (yi j xi )∂xi

= Pr (y �i > 0 j xi )∂E (y �i j xi , y �i > 0)

∂xi

+E (y �i j xi , y �i > 0)∂Pr (y �i > 0 j xi )

∂xi

Con ello, el efecto de un cambio marginal en xi sobre yi puededescomponerse en dos efectos:

1 El efecto sobre la media y�i condicional a que y�i > 0.

2 El efecto sobre la probabilidad de que la observación caiga en aquellaparte de la distribución en que y�i > 0.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 28 / 32

Page 29: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Estimación (I): Modelo de Heckman en Dos EtapasRecordemos que:

E (y �i j xi , y �i > 0) = β0xi + σλi

Este procedimiento consiste, en una primera etapa, en estimar el ratio

inverso de Mills λi =φ

�β0xi

σ

�Φ�

β0xiσ

� mediante un modelo probit.Este último es estimado vía máxima verosimilitud distinguiendoaquellas observaciones para las cuales y �i > 0 de aquellas para lascuales y �i � 0. Esto es, de�nimos z = 1 si y �i > 0 y z = 0 si y �i � 0.En una segunda etapa se estima el modelo:

yi j yi > 0 = β0xi + σbλi + uies decir, se incluye λi como una variable explicativa adicional. Nóteseque esta regresión se estima únicamente para aquellas observacionesen las que yi > 0.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 29 / 32

Page 30: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Estimación (I): Modelo de Heckman en Dos Etapas

Sin embargo, este procedimiento posee algunos inconvenientes:1 El error ui es heterocedástico: Var (ui j xi ) = σ2 [1� δ (αi )], con locual los estadígrafos t calculados sin tomar en cuenta este problemaestarán sesgados.

2 Dado que la variable λi es estimada en un paso previo, es una funciónde parámetros que tienen asociados una determinada varianza. Elloconduce a que los errores estándar de la regresión de la segunda etapano sean los correctos.

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 30 / 32

Page 31: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Estimación (II): Máxima Verosimilitud

Para una muestra de n observaciones independientes, el logaritmo dela función de verosimilitud vendrá dado por:

ln L = ∑yi>0

�12

"ln (2π) + ln

�σ2�+

�yi � β0xi

�2σ2

#

+ ∑yi=0

ln�1�Φ

�β0xi

σ

��

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 31 / 32

Page 32: Censura y Truncamiento

Modelos Censurados y Truncados Datos Censurados

Ejemplo:La siguiente tabla muestra la estimación de un modelo Tobit para losdatos de los votantes del referéndum descritos anteriormente:

Luis Bendezú M. (PUCP) Modelos Truncados y Censurados Junio 2010 32 / 32