Click here to load reader
Upload
phamphuc
View
213
Download
0
Embed Size (px)
Citation preview
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Analise de dados censurados sob distribuicoes simetricas comaplicacoes no R
Dr. Aldo Medina Garay()
[email protected] de Estatstica
Universidade Estadual de Campinas -Brasil
23 Setembro, 2015
(*)Trabalho conjunto com Prof. Dr. Vctor H. Lachos, Celso R.B. Cabral eHeleno Bolfarine.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Sumario
1 Introducao
2 Modelo Tobit
3 SMN-CR
4 Enfoque Frequentista
5 Conclusoes
6 Referencias
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Censura ou Truncamento?
Uma censura ocorre em diversas situacoes praticas e por diversas razoes, sejapor limitacoes do equipamento de mensuracao ou por causa do delineamentoexperimental.
Tuncamento
O truncamento ocorre quando algumas observacoes, tanto da variavel resposta comodas variaveis regressoras, nao estao disponveis, isto e, o truncamento e caracterizadopor uma condicao que exclui certos indivduos do estudo.
Censura
A censura ocorre quando a informacao da variavel resposta nao esta completamentedisponvel para algumas unidades da amostra, no entanto, para estas unidades, osdados sobre as variaveis regressoras sao totalmente conhecidos.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Exemplo de Dados
Participacao na forca de trabalho das mulheres casadas (Mroz, 1987)
Este conjunto de dados foi retirado de Mroz (1987, Econometrica). Em 1975, foramavaliados os ganhos de 753 mulheres brancas e casadas, com idade entre 30 e 60 anos.Destas 753, 428 trabalharam em algum perodo de 1975. Se a Taxa salarial for igual azero, considera-se que elas nao trabalharam em 1975. Assim, temos um caso derespostas censuradas.As variaveis observadas foram: yi : Taxas salariais, definidas como sendo o ganhomedio por hora.
Covariaveis
xi1 : idade.
xi2 : anos de escolaridade.
xi3 : o numero de criancas menores de seis anos de idade na casa.
xi4 : o numero de criancas com idade entre seis e dezenove anos.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Modelo de Regressao Normal Censurada (N-CR)
A maioria dos resultados nos modelos de regressao normal com a variavelresposta censurada se baseia no desenvolvimento do Modelo de Tobit (vejaTobin, 1958 e Arellano-Valle et al.2012)
Yi = xi + i , i = 1, . . . , n,
= (1, . . . , p) e xi = (xi1, . . . , xip) e o vetor de variaveis regressoras.
i N(0, 2).
Yobsi =
{i if Yi i ;Yi if Yi > i ,
i = 1, . . . , n. Assim, denotaremos este modelo por N-CR.
No Modelo Tobit classico, assumimos que i = 0
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Funcao de log-verossimilhanca do Modelo Tobit
Seja = (, 2). Entao, a funcao de Log-verossimilhanca e dada por:
(|yobs ) = log
n
i=1
[
(i xi
)]1di [1
((yi xi
)
)]di
.
(.) e (.) representam a fdp e fda da normal padrao, respectivamente.
di = 0 indica que a iesima observacao e censurada.
Estimacao via Maxima Verossimilhanca (MLE)
Maximizacao Direta: OX, Optim (no R) or fmincon (no Matlab)
Algoritmo EM :
-Util na presenca de variaveis latentes.
-Imputacao de valores censurados.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Algortmo EM
Sejam os dados aumentados {yobs, yL}, em que yL = (y1, . . . , ym) sao os valoresreais das respostas nao observadas (censuradas). Assim,
c(|yobs, yL) = C n
2log(2) 1
22
n
i=1
(yi xi
)2.
Passo E
Q(|(k)) = E(k)
[c (|Yobs ,YL) |yobs ] .
Dado = (k), para i = 1, . . . , n;
- Se i e nao censurado entao, para s = 1, 2, calculamos Esi ((k)) = y si ;
- Se i e censurado entao, para s = 1, 2, calcule Esi ((k)) = E(k) [Ysi |Yi i ].
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Algortmo EM
Passo M
Atualizar (k)
pela maximizacao Q(|(k)) = E [c ()|y, (k)
] sobre ,
(k+1) =
(n
i=1
xixi
)1 n
i=1
xiE1i ((k)),
2(k+1)
=1
n
n
i=1
[E2i ((k)) 2E1i ((k))xi (k+1) + (xi (k+1))2
].
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Alguns resultados basicos
Distribuicao Normal Truncada.
- Se a variavel aleatoria contnua Y tem a fdp f (y) e e umaconstante, entao temos
f (y |y < ) = f (y)P (Y < )
,
- em que =
e (.) e a fda da normal padrao. Assim, adensidade da Distribuicao Normal Truncada e
f (y |y < ) = f (y) ()
=1(
y
)
()
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Momentos da Distribuicao Normal Truncada
Se Y N(, 2) e e o ponto de truncamento, entao
E [y |y < ] = () ()
,
e
Var [y |y < ] = 2[1 ()
()
( ()
()+
)],
em que =
e (.) e a densidade da normal padrao.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Aplicacao: Dados de rendimento
Utilizaremos os dados referentes a salarios descritos por Mroz (1987).
yi : conhecido como rendimento medio por hora (wage rates).
xi1 : idade.
xi2 : anos de escolaridade.
xi3 : o numero de criancas menores de seis anos de idade na casa.
xi4 : o numero de criancas com idade entre seis e dezenove anos.
Yi = xi + i , i N(0, 2),
Yobsi =
{0 if Yi 0;Yi if Yi > 0,
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Avaliacao do modelo N-CR
Histogram of y
y
Fre
quen
cy
0 5 10 15 20 25
010
020
030
040
0
NCR
Standard normal quantile
r_M
Ti
3 2 1 0 1 2 3
5
4
3
2
1
01
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Motivacao
Modelos de regressao, cuja variavel resposta e censurada (denotados por CR)sao aplicados em muitas areas do conhecimento, tais como econometria, ensaiosclnicos, pesquisas medicas, estudos de engenharia, entre outros.
Em geral, por razoes matematicas, e assumido que os erros aleatorios seguemdistribuicao normal (Wei and Tanner, 1990).
Para lidar com o problema de observacoes atpicas em modelos de regressaocom respostas completas, foram propostas na literatura classes de distribuicoesmais flexveis que a distribuicao normal.
Para contornar o problema da presenca de outliers, a famlia de distribuicoessimetricas (Fang et al., 1990) e utilizada como alternativa para os modeloslinear e nao linear, respectivamente.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Trabalhos relacionados no contexto simetrico:
Sem observacoes censuradas
Galea, M., Paula, G. A. & Cysneiros, F. J. A. (2005). On diagnostics in symmetrical nonlinear models.Statistics & Probability Letters, pages 459467.
Osorio, F. Paula., G. A., Galea, M., 2007. Assesment of local influence in elliptical linear models withlongitudinal structure. Computational Statistics and Data Analysis 51, 43544368.
Villegas, C., Paula, G., Cysneiros, F., Galea, M., 2012. Influence diagnostics in generalized symmetric linearmodels. Computational Statistics and Data Analysis 59, 161170.
Com observacoes censuradas
Barros, M., Galea, M., Gonzalez, M., Leiva, V. (2010) Influence diagnostics in the tobit censored responsemodel. Statistical Methods & Applications 19, 716723.
Arellano-Valle, R., Castro, L., Gonzalez-Faras, G., Munoz-Gajardo, K. (2012) Student-t censoredregression model: properties and inference. Statistical Methods & Applications. 21(4), pages 453473.
Massuia, M., Cabral, C. R . B., Matos, L. A., Lachos, V. H. (2012) Influence Diagnostics for Student-tCensored Linear Regression Models. Technical Report No. 0923.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Distribuicoes simetricas
Definicao
Dizemos que a variavel aleatoria Y tem uma distribuicao simetrica univariadacom o parametro de locacao e parametro de escala 2, quando a densidade edada por:
f (y) = 1g (z) ,
em que:
z = (y )2/2
g : R [0,) satisfaz0
z12 g(z)dz < .
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Distribuicoes da famlia SMN
Y = + U1/2Z ,
U e Z sao independentes.
Z N(0, 2). U e uma variavel aleatoria positiva, com fdp H(; ) (com densidade h(;)). A funcao de densidade de Y e dada por:
fSMN(y |, 2;
)=
12
0
u exp
[
u2
(y
)2]
dH (u; ) .
Notacao: Y SMN(, 2;).
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Exemplos de distribuicoes SMN
A distribuicao Pearson type VII: Y PVII (0, 1; , ), U Gamma(/2, /2) :
fPVII (y |, ) =1
B (/2, 1/2)
(
1 +y2
)
+12
, y R.
A distribuicao Slash: Y SL(0, 1; ), U Beta(, 1):
fsl(y |) = 1
0
u1(yu)du, y R.
A distribuicao Normal contaminada: Y CN(0, 1; , )
h(u|, ) = I(u=) + (1 )I(u=1), , (0, 1),
fCN(y |, ) = (y |0, 12 ) + (1 )(y).
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Comparacao entre as distribuicoes SMN
6 4 2 0 2 4 6
0.0
0.1
0.2
0.3
0.4
Den
sida
deNormalTSLCN
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Modelo de regressao linear censurado SMN
Yi = xi + i , i = 1, . . . , n,
= (1, . . . , p) e o vetor de parametros. xi = (xi1, . . . , xip) e o vetor das
variaveis regressoras.
i SMN(0, 2,).
Yobsi =
{i se Yi i ;Yi se Yi > i ,
i = 1, . . . , n, para alguns pontos de corte i .
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Funcao de log-verossimilhanca
Seja = (, 2,) e yobs = {1, . . . , m, ym+1, . . . , yn}.
Entao, a funcao de log-verossimilhanca e dada por:
(|yobs ) =m
i=1
log
[
FSMN
(i xi
)]
+n
i=m+1
log[fSMN (yi |xi , 2,)
].
Representacao hierarquica (dados completos):
Yi |Ui = ui N(xi , u
1i
2),
Ui H(.; ),
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
PERSPECTIVA FREQUENTISTA
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Estimacao dos parametros via algoritmo EM
Sejam os dados aumentados {yobs, yL, u}, com yL = (y1, . . . , ym) eu = (u1, . . . , un)
.
c (|yobs, yL, u) = C n
2log(2) +
1
2
n
i=1
log ui 1
22
n
i=1
ui (yi xi )2 +n
i=1
log h(ui |).
Passo E
Q(|(k)) = E(k)
[c (|Yobs ,YL,U) |yobs ] ,
dado = (k), para i = 1, . . . , n;
- Se i e nao censurada entao, para s = 0, 1, 2, calcular Esi ((k)) = y si E(k) [Ui |yi ];
- Se i e censurada entao, para s = 0, 1, 2, calcularEsi ((k)) = E(k) [UiY
si |Yi i ].
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Resultados previos
Lema (1)
Se Z TN(a,b) (0, 1), entao
(k + 1)E[Z k] E
[Z k+2
]=
(b)k+1 (b) (a)k+1 (a) (b) (a)
,
para k = 1, 0, 1, 2, . . .
Kim, H. J., Moments of truncated Student-t distribution. (2008). Journal ofthe Korean Statistical Society, (37). 8187
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Resultados previos
Lema (2)
Seja U uma variavel aletoria positiva. Entao FSMN (a) = EU[(aU
12
)], em que
FSMN () denota a fda da variavel aleatoria SMN padronizada.
Teorema (1)
Seja X TSMN(a,b), entao
E(X k+2
)=
1
FSMN (b) FSMN (a)EU
(U(k+2)/2Rk+2
)em que,
(k + 1)Rk Rk+2 =(buk+1)(buk+1)(auk+1)(auk+1)
para k = 1, 0, 1, 2, . . . com R0 = (buk+1)
(auk+1).
Genc, A. I., Moments of truncated normal/independent distributions. StatisticalPapers. (2013). 54(3), 741764.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Proposicao
Sejam X SMN(0, 1), A = (a, b) e U e uma variavel aleatoria positiva, entao
E [Ur |X A] = 1FSMN (b) FSMN (a)
[E (r , b) E (r , a)] ;
E [UrX |X A] = 1FSMN (b) FSMN (a)
[E
(r 1
2, a
) E
(r 1
2, b
)];
E[UrX 2|X A
]=
1
FSMN (b) FSMN (a)[E (r 1, b) E (r 1, a)
+ aE
(r 1
2, a
) bE
(r 1
2, b
)],
E (r, h) = EU
[
Ur(
h
U)]
=
0ur(
h
u)
dH (u) ,
E (r, h) = EU
[
Ur(
h
U)]
=
0ur(
h
u)
dH (u) .
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Proposicao
Distribuicao Pearson tipo VII:
E (r , h) =(+2r
2
)
(2
)(
2
)rFPVII (h| + 2r , ) e
E (r , h) =(+2r
2
)
(2
)2
(
2
)/2(h2 + 2
) (+2r)2
em que (a) e a funcao gama.
Distribuicao Slash:
E (r , h) =
(
+ r
)FSL(h| + r) e
E (r , h) =2
(h2
2
)(+r)
( + r ,
h2
2
),
em que (a, b) = b0et ta1dt e a funcao gama incompleta.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Proposicao
Distribuicao Normal contaminada:
E (r , h) = (r )FCN (h|, ) + (1 r ) (1 ) (h) e
E (r , h) = r (h
) + (1 ) (h) ,
em que FCN(.) e a fda da distribuicao normal contaminada.
Referencias
Ho, J. H., Lin, T. I., Chen, H. Y. and Wan, W. L. Some results of theMultivariate t distribution. (2012). Journal of Statistical Planning andInference. (142). 2540.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Estimacao dos parametros via algoritmo EM
Passo CM
Atualizar (k)
pela maximizacao Q(|(k)) = E [c ()|y, (k)
] sobre ,
(k+1) =
(n
i=1
E0i ((k))xixi
)1 n
i=1
xiE1i ((k)),
2(k+1)
=1
n
n
i=1
[E2i ((k)) 2E1i ((k))xi (k+1) + E0i ((k))(xi (k+1))2
].
Passo CML
Atualizar (k) pela maximizacao da funcao de verossimilhanca marginal atualizada,
(k+1)
= argmax
m
i=1
log
[
FSMN
(
i xi (k+1)
(k+1)
)]
+n
i=m+1
log
[
fSMN (yi |xi (k+1)
, 2(k+1)
, )
]
.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Analise de resduos
Com o intuito de identificar observacoes atpicas, assim como verificar se ashipoteses do modelo considerado sao satisfeitas, iremos analisar os resduosmartingais transformados, rMTi (Barros et. al, 2010), definidos por
rMTi = sign(rMi )
2[rMi + i log
(i rMi
)], i = 1, . . . , n,
em que rMi = i + log(S(yi , )
)e o resduo martingal (Therneau et al., 1990 e
Ortega et al., 2003).
i = 0, 1 indica se a i -esima observacao e censurada ou nao, respectivamente,sign(z) denota o sinal de z e S(yi , ) representa a funcao de sobrevivencia de y
avaliada nas estimativas de MV ().
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Erro padrao aproximado para os efeitos fixos
Com o objetivo de avaliar a variabilidade , a matriz de variancia-covarianciaestimada, para as observacoes censuradas, e ajustada utilizando a formula deLouis (Louis, (1982), veja tambem Vaida et. al., 2007(sec 2) e Matos, et. al.,2013 (Sec 3).
A estimacao da matriz de variancia-covariancia de e dada pela matriz
(
n
i=1
{
E
[2(|yobsi )T
]
Var[c (|Zi )
|yobsi
]})1,
avaliada em .
A Matriz de Informacao ajustada, para as observacoes censuradas, e dada por
m
i=1
Var
[c (|Zi )
|Yi i
]=
m
i=1
Var
{1
2xi (UiYi Uixi )|Yi i
}.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Simulacao: Propriedades assintoticas
Foi realizado um estudo de simulacao Monte Carlo baseado no modelo linearSMN-CR.
Geramos k = 1000 amostras de diferentes tamanhos n considerandoXi = (1, xi ), para i = 1, . . . , n, um nvel de censura p = 10%, 1 = 1.5, 2 = 4e 2 = 0.5. A variavel x considerada foi uma sequencia de valores entre 0.1 e 20.
Os tamanhos da amostra considerados foram n = 50, 100, 150, 200, 300, 400,500, 700 e 800.
Calculamos os valores medios do Vies e do EQM para i , dados por:
Vies(i
)=
1
k
k
j=1
((j)i i
)e EQM
(i
)=
1
k
k
j=1
((j)i i
)2,
em que =(1, 2, 2
)e
(j)i e a estimativa de MV de i para a j-esima
amostra.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Samples Sizes (n)
Bia
s
1
0.
08
0.06
0.
04
0.02
0.00
0.02
50 100 150 200 300 400 500 700 800
NormalTSlashCN
Samples Sizes (n)
Bia
s
2
0.
002
0.00
20.
004
0.00
60.
008
0.01
0
50 100 150 200 300 400 500 700 800
NormalTSlashCN
Samples Sizes (n)
Bia
s
2
0.
040.
000.
020.
040.
060.
08
50 100 150 200 300 400 500 700 800
NormalTSlashCN
Samples Sizes (n)
MS
E
1
0.00
0.02
0.04
0.06
0.08
0.10
0.12
50 100 150 200 300 400 500 700 800
NormalTSlashCN
Samples Sizes (n)
MS
E
20e
+00
2e
044e
04
6e
04
50 100 150 200 300 400 500 700 800
NormalTSlashCN
Samples Sizes (n)
MS
E
2
0.00
0.01
0.02
0.03
0.04
0.05
50 100 150 200 300 400 500 700 800
NormalTSlashCN
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Aplicacao
Utilizaremos os dados referentes a salarios descritos por Mroz (1987) eanalisados por Arellano-Valle et al. (2012).
Os dados consistem em 753 mulheres brancas casadas, com idades entre 30 e 60anos. Este estudo foi desenvolvido durante o ano de 1975 e, dentre as 753mulheres consideradas neste estudo, 428 trabalharam em algum momentodurante esse ano.
A variavel resposta e y : Rendimento medio por hora. Se o valor do rendimentofor igual a zero, significa que essas mulheres nao trabalharam no ano do estudo.
As variaveis explicativas consideradas foram: a idade da mulher(x1), anos deescolaridade (x2), o numero de criancas menores de seis anos de idade (x3) e onumero de criancas com idade entre seis e dezenove anos (x4).
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Pacote SMNCensReg
Descricao:
Descricao: Estimacao dos modelos de regressao linear censurados (esquerda,direita e intervalar) sob a classe de distribuicoes SMN.
Versao: 2.2
Administrador: Aldo M. Garay: [email protected]
Site: http://cran.r-project.org/web/packages/SMNCensReg
Funcao:CensReg.SMN(cc,x,y,LS=NULL,nu=3,delta=NULL,cens=left,dist=Normal,show.envelope=FALSE, error=0.0001,iter.max=300).
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Pacote SMNCensReg
Aplicacao:
data(wage.rates)
attach(wage.rates)
y < wagex < cbind(1, age, educ, kidslt6, kidsge6)cc < c(rep(0,428),rep(1,325))
### Distribuicao Normal ###
N < CensReg.SMN(cc, x, y, LS=NULL, nu=NULL, delta=NULL,cens=left,dist=Normal, show.envelope=TRUE, error=0.0001,iter.max=300).
### Distribuicao T de Student ###
T < CensReg.SMN(cc, x, y, LS=NULL, nu=3, delta=NULL,cens=left,dist=T, show.envelope=TRUE, error=0.0001, iter.max=300).
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Ajuste dos modelos
Tabela: EMV e erros padroes (EP) nos modelos SMN-CR.
N-CR T-CR SL-CR CN-CRParametros EMV EP EMV EP EMV EP EMV EP
1 -2.751 1.637 -1.047 1.464 -1.144 1.759 -1.290 1.4322 -0.110 0.025 -0.110 0.023 -0.108 0.027 -0.106 0.0223 0.728 0.076 0.647 0.067 0.643 0.081 0.646 0.0664 -0.214 0.140 -0.296 0.123 -0.294 0.144 -0.299 0.1215 -3.026 0.345 -3.163 0.293 -3.095 0.343 -3.064 0.294
2 20.940 - 10.637 - 6.738 - 11.169 - - - 4.199 - 1.406 - 0.1 - - - - - - - 0.1 -
log-ver -1481.655 -1440.145 -1436.286 -1432.085AIC 2975.311 2894.291 2886.573 2880.171BIC 3003.055 2926.659 2918.941 2917.163
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Envelopes
NCR
Standard normal quantile
r_M
Ti
3 2 1 0 1 2 3
54
32
10
1
TCR
Standard t quantile
r_M
Ti
3 2 1 0 1 2 3
32
10
1
SLCR
Standard slash quantile
r_M
Ti
3 2 1 0 1 2 3
21
01
CNCR
Standard contaminated normal quantile
r_M
Ti
3 2 1 0 1 2 3
32
10
1
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Conclusoes
Neste texto apresentamos uma abordagem classica e Bayesiana dos modelos lineares censurados, sob aclasse de distribuicoes SMN denotados por SMN-CR, que e uma generalizacao dos trabalhos apresentadospor Barros et al. (2010), Arellano-Valle et al. (2012) e Massuia et al. (2012).
A partir de uma perspectiva classica, foi desenvolvido um algoritmo tipo EM, utilizando as formulas paraos momentos da distribuicoes SMN truncadas, para encontrar as estimativas de MV dos parametros.
Esta metodologia foi aplicada e testada em um conjunto de dados reais (Salarios), assim como em dadossimulados, com o intuito de mostrar como os procedimentos propostos podem ser utilizados para avaliarmodelos censurados.
A partir de uma perspectiva Bayesiana, apresentamos um algoritmo tipo Gibbs com um passoMetropolis-Hasting para determinar as estimativas Bayesianas dos modelos SMN-CR, implementandotambem algumas medidas de divergencia e de influencia Bayesiana baseadas no metodo de eliminacao decasos.
Estas tecnicas foram codificadas e implementadas em dois pacotes do sistema R: SMNCensReg e BayesCR,os quais podem ser livremente instalados e que estao constantemente sendo atualizados, para melhorutilizacao por parte dos usuarios.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Referencias
Principais Referencias
Aldo M. Garay, Victor H. Lachos, Heleno Bolfarine, Celso R. B. Cabral, (2015).Linear censored regression models with scale mixtures of normal distributions.Statistical Papers. DOI 10.1007/s00362-015-0696-9.
Aldo M. Garay, Victor H. Lachos, Heleno Bolfarine, Celso R. B. Cabral, (2015).Bayesian analysis of censored linear regression models with scale mixtures ofnormal distributions. Journal of Applied Statistics. DOI10.1080/02664763.2015.1048671.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Referencias
Arellano-Valle, R. and Castro, L. and Gonzalez-Faras, G. and Munoz-Gajardo, K. Student-t censoredregression model: properties and inference. Statistical Methods & Applications. 2012. 21(4), 453473.
Barros, M., and Galea, M., and Gonzalez, M. and Leiva, V. Influence diagnostics in the Tobit censoredresponse model. Statistical Methods & Applications, 2010. 19,716723.
Cabral, C. R. B., Lachos, V. H. & Madruga, M. R. (2012). Bayesian analysis of skew-normal independentlinear mixed models with heterogeneity in the randomeffects population. Journal of Statistical Planningand Inference, 142, 181200.
Genc, A. I., Moments of truncated normal/independent distributions. Statistical Papers. 2013. 54,741764..
Louis, T. A. Finding the observed information matrix when using the EM algorithm, Journal of the RoyalStatistical Society. Series B (Methodological), 1982, 226233.
Massuia, M.B. and Cabral, C.R.B. and Matos, L.A. and Lachos, V. H., Influence Diagnostics for Student-tCensored Linear Regression Models. Technical Report No. 0923, 2012.
Mroz, Thomas A. The Sensitivity of an Empirical Model of Married Womens Hours of Work to Economicand Statistical Assumptions. Econometrica, 1987 55, 765799.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Referencias
Ortega, E. M. and Bolfarine, H. and Paula, G. A. Influence diagnostics in generalized log-gamma regressionmodels. Computational Statistics and Data Analysis, 2007 51, 43544368.
Osorio F. and Paula G. A. and Galea M. Assessment of local influence in elliptical linear models withlongitudinal structure, Computational Statistics and Data Analysis, 2007 42, 165186.
Peng, F. & Dey, D. K. (1995). Bayesian analysis of outlier problems using divergence measures. TheCanadian Journal of Statistics, 23, 199213.
Vaida F. and Fitzgerald A. P. and DeGruttola V. The Sensitivity of an Empirical Model of MarriedWomens Hours of Work to Economic and Statistical Assumptions. Computational statistics & dataanalysis, 2007 51, 57185730.
Vaida F. and Liu L. Fast implementation for normal mixed effects models with censored response, Journalof Computational and Graphical Statistics, 2009, 18, 797817.
Vidal I. and Castro, L. M., Influential observations in the independent Student-t measurement error modelwith weak nondifferential error, Chilean Journal of Statistics, 2010, 1, 1734.
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias
Muito Obrigado!!!!
Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP
IntroduoModelo TobitSMN-CREnfoque FrequentistaConclusesReferncias