Click here to load reader

Análise de dados censurados sob distribuições simétricas com …sites.ieee.org/sb-unicampcis/files/2015/10/Minicurso... · 2015-10-19 · Xn i=1 h E2i(θ (k)) − 2E 1i ... -

Embed Size (px)

Citation preview

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Analise de dados censurados sob distribuicoes simetricas comaplicacoes no R

Dr. Aldo Medina Garay()

[email protected] de Estatstica

Universidade Estadual de Campinas -Brasil

23 Setembro, 2015

(*)Trabalho conjunto com Prof. Dr. Vctor H. Lachos, Celso R.B. Cabral eHeleno Bolfarine.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Sumario

1 Introducao

2 Modelo Tobit

3 SMN-CR

4 Enfoque Frequentista

5 Conclusoes

6 Referencias

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Censura ou Truncamento?

Uma censura ocorre em diversas situacoes praticas e por diversas razoes, sejapor limitacoes do equipamento de mensuracao ou por causa do delineamentoexperimental.

Tuncamento

O truncamento ocorre quando algumas observacoes, tanto da variavel resposta comodas variaveis regressoras, nao estao disponveis, isto e, o truncamento e caracterizadopor uma condicao que exclui certos indivduos do estudo.

Censura

A censura ocorre quando a informacao da variavel resposta nao esta completamentedisponvel para algumas unidades da amostra, no entanto, para estas unidades, osdados sobre as variaveis regressoras sao totalmente conhecidos.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Exemplo de Dados

Participacao na forca de trabalho das mulheres casadas (Mroz, 1987)

Este conjunto de dados foi retirado de Mroz (1987, Econometrica). Em 1975, foramavaliados os ganhos de 753 mulheres brancas e casadas, com idade entre 30 e 60 anos.Destas 753, 428 trabalharam em algum perodo de 1975. Se a Taxa salarial for igual azero, considera-se que elas nao trabalharam em 1975. Assim, temos um caso derespostas censuradas.As variaveis observadas foram: yi : Taxas salariais, definidas como sendo o ganhomedio por hora.

Covariaveis

xi1 : idade.

xi2 : anos de escolaridade.

xi3 : o numero de criancas menores de seis anos de idade na casa.

xi4 : o numero de criancas com idade entre seis e dezenove anos.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Modelo de Regressao Normal Censurada (N-CR)

A maioria dos resultados nos modelos de regressao normal com a variavelresposta censurada se baseia no desenvolvimento do Modelo de Tobit (vejaTobin, 1958 e Arellano-Valle et al.2012)

Yi = xi + i , i = 1, . . . , n,

= (1, . . . , p) e xi = (xi1, . . . , xip) e o vetor de variaveis regressoras.

i N(0, 2).

Yobsi =

{i if Yi i ;Yi if Yi > i ,

i = 1, . . . , n. Assim, denotaremos este modelo por N-CR.

No Modelo Tobit classico, assumimos que i = 0

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Funcao de log-verossimilhanca do Modelo Tobit

Seja = (, 2). Entao, a funcao de Log-verossimilhanca e dada por:

(|yobs ) = log

n

i=1

[

(i xi

)]1di [1

((yi xi

)

)]di

.

(.) e (.) representam a fdp e fda da normal padrao, respectivamente.

di = 0 indica que a iesima observacao e censurada.

Estimacao via Maxima Verossimilhanca (MLE)

Maximizacao Direta: OX, Optim (no R) or fmincon (no Matlab)

Algoritmo EM :

-Util na presenca de variaveis latentes.

-Imputacao de valores censurados.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Algortmo EM

Sejam os dados aumentados {yobs, yL}, em que yL = (y1, . . . , ym) sao os valoresreais das respostas nao observadas (censuradas). Assim,

c(|yobs, yL) = C n

2log(2) 1

22

n

i=1

(yi xi

)2.

Passo E

Q(|(k)) = E(k)

[c (|Yobs ,YL) |yobs ] .

Dado = (k), para i = 1, . . . , n;

- Se i e nao censurado entao, para s = 1, 2, calculamos Esi ((k)) = y si ;

- Se i e censurado entao, para s = 1, 2, calcule Esi ((k)) = E(k) [Ysi |Yi i ].

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Algortmo EM

Passo M

Atualizar (k)

pela maximizacao Q(|(k)) = E [c ()|y, (k)

] sobre ,

(k+1) =

(n

i=1

xixi

)1 n

i=1

xiE1i ((k)),

2(k+1)

=1

n

n

i=1

[E2i ((k)) 2E1i ((k))xi (k+1) + (xi (k+1))2

].

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Alguns resultados basicos

Distribuicao Normal Truncada.

- Se a variavel aleatoria contnua Y tem a fdp f (y) e e umaconstante, entao temos

f (y |y < ) = f (y)P (Y < )

,

- em que =

e (.) e a fda da normal padrao. Assim, adensidade da Distribuicao Normal Truncada e

f (y |y < ) = f (y) ()

=1(

y

)

()

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Momentos da Distribuicao Normal Truncada

Se Y N(, 2) e e o ponto de truncamento, entao

E [y |y < ] = () ()

,

e

Var [y |y < ] = 2[1 ()

()

( ()

()+

)],

em que =

e (.) e a densidade da normal padrao.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Aplicacao: Dados de rendimento

Utilizaremos os dados referentes a salarios descritos por Mroz (1987).

yi : conhecido como rendimento medio por hora (wage rates).

xi1 : idade.

xi2 : anos de escolaridade.

xi3 : o numero de criancas menores de seis anos de idade na casa.

xi4 : o numero de criancas com idade entre seis e dezenove anos.

Yi = xi + i , i N(0, 2),

Yobsi =

{0 if Yi 0;Yi if Yi > 0,

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Avaliacao do modelo N-CR

Histogram of y

y

Fre

quen

cy

0 5 10 15 20 25

010

020

030

040

0

NCR

Standard normal quantile

r_M

Ti

3 2 1 0 1 2 3

5

4

3

2

1

01

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Motivacao

Modelos de regressao, cuja variavel resposta e censurada (denotados por CR)sao aplicados em muitas areas do conhecimento, tais como econometria, ensaiosclnicos, pesquisas medicas, estudos de engenharia, entre outros.

Em geral, por razoes matematicas, e assumido que os erros aleatorios seguemdistribuicao normal (Wei and Tanner, 1990).

Para lidar com o problema de observacoes atpicas em modelos de regressaocom respostas completas, foram propostas na literatura classes de distribuicoesmais flexveis que a distribuicao normal.

Para contornar o problema da presenca de outliers, a famlia de distribuicoessimetricas (Fang et al., 1990) e utilizada como alternativa para os modeloslinear e nao linear, respectivamente.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Trabalhos relacionados no contexto simetrico:

Sem observacoes censuradas

Galea, M., Paula, G. A. & Cysneiros, F. J. A. (2005). On diagnostics in symmetrical nonlinear models.Statistics & Probability Letters, pages 459467.

Osorio, F. Paula., G. A., Galea, M., 2007. Assesment of local influence in elliptical linear models withlongitudinal structure. Computational Statistics and Data Analysis 51, 43544368.

Villegas, C., Paula, G., Cysneiros, F., Galea, M., 2012. Influence diagnostics in generalized symmetric linearmodels. Computational Statistics and Data Analysis 59, 161170.

Com observacoes censuradas

Barros, M., Galea, M., Gonzalez, M., Leiva, V. (2010) Influence diagnostics in the tobit censored responsemodel. Statistical Methods & Applications 19, 716723.

Arellano-Valle, R., Castro, L., Gonzalez-Faras, G., Munoz-Gajardo, K. (2012) Student-t censoredregression model: properties and inference. Statistical Methods & Applications. 21(4), pages 453473.

Massuia, M., Cabral, C. R . B., Matos, L. A., Lachos, V. H. (2012) Influence Diagnostics for Student-tCensored Linear Regression Models. Technical Report No. 0923.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Distribuicoes simetricas

Definicao

Dizemos que a variavel aleatoria Y tem uma distribuicao simetrica univariadacom o parametro de locacao e parametro de escala 2, quando a densidade edada por:

f (y) = 1g (z) ,

em que:

z = (y )2/2

g : R [0,) satisfaz0

z12 g(z)dz < .

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Distribuicoes da famlia SMN

Y = + U1/2Z ,

U e Z sao independentes.

Z N(0, 2). U e uma variavel aleatoria positiva, com fdp H(; ) (com densidade h(;)). A funcao de densidade de Y e dada por:

fSMN(y |, 2;

)=

12

0

u exp

[

u2

(y

)2]

dH (u; ) .

Notacao: Y SMN(, 2;).

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Exemplos de distribuicoes SMN

A distribuicao Pearson type VII: Y PVII (0, 1; , ), U Gamma(/2, /2) :

fPVII (y |, ) =1

B (/2, 1/2)

(

1 +y2

)

+12

, y R.

A distribuicao Slash: Y SL(0, 1; ), U Beta(, 1):

fsl(y |) = 1

0

u1(yu)du, y R.

A distribuicao Normal contaminada: Y CN(0, 1; , )

h(u|, ) = I(u=) + (1 )I(u=1), , (0, 1),

fCN(y |, ) = (y |0, 12 ) + (1 )(y).

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Comparacao entre as distribuicoes SMN

6 4 2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

Den

sida

deNormalTSLCN

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Modelo de regressao linear censurado SMN

Yi = xi + i , i = 1, . . . , n,

= (1, . . . , p) e o vetor de parametros. xi = (xi1, . . . , xip) e o vetor das

variaveis regressoras.

i SMN(0, 2,).

Yobsi =

{i se Yi i ;Yi se Yi > i ,

i = 1, . . . , n, para alguns pontos de corte i .

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Funcao de log-verossimilhanca

Seja = (, 2,) e yobs = {1, . . . , m, ym+1, . . . , yn}.

Entao, a funcao de log-verossimilhanca e dada por:

(|yobs ) =m

i=1

log

[

FSMN

(i xi

)]

+n

i=m+1

log[fSMN (yi |xi , 2,)

].

Representacao hierarquica (dados completos):

Yi |Ui = ui N(xi , u

1i

2),

Ui H(.; ),

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

PERSPECTIVA FREQUENTISTA

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Estimacao dos parametros via algoritmo EM

Sejam os dados aumentados {yobs, yL, u}, com yL = (y1, . . . , ym) eu = (u1, . . . , un)

.

c (|yobs, yL, u) = C n

2log(2) +

1

2

n

i=1

log ui 1

22

n

i=1

ui (yi xi )2 +n

i=1

log h(ui |).

Passo E

Q(|(k)) = E(k)

[c (|Yobs ,YL,U) |yobs ] ,

dado = (k), para i = 1, . . . , n;

- Se i e nao censurada entao, para s = 0, 1, 2, calcular Esi ((k)) = y si E(k) [Ui |yi ];

- Se i e censurada entao, para s = 0, 1, 2, calcularEsi ((k)) = E(k) [UiY

si |Yi i ].

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Resultados previos

Lema (1)

Se Z TN(a,b) (0, 1), entao

(k + 1)E[Z k] E

[Z k+2

]=

(b)k+1 (b) (a)k+1 (a) (b) (a)

,

para k = 1, 0, 1, 2, . . .

Kim, H. J., Moments of truncated Student-t distribution. (2008). Journal ofthe Korean Statistical Society, (37). 8187

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Resultados previos

Lema (2)

Seja U uma variavel aletoria positiva. Entao FSMN (a) = EU[(aU

12

)], em que

FSMN () denota a fda da variavel aleatoria SMN padronizada.

Teorema (1)

Seja X TSMN(a,b), entao

E(X k+2

)=

1

FSMN (b) FSMN (a)EU

(U(k+2)/2Rk+2

)em que,

(k + 1)Rk Rk+2 =(buk+1)(buk+1)(auk+1)(auk+1)

para k = 1, 0, 1, 2, . . . com R0 = (buk+1)

(auk+1).

Genc, A. I., Moments of truncated normal/independent distributions. StatisticalPapers. (2013). 54(3), 741764.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Proposicao

Sejam X SMN(0, 1), A = (a, b) e U e uma variavel aleatoria positiva, entao

E [Ur |X A] = 1FSMN (b) FSMN (a)

[E (r , b) E (r , a)] ;

E [UrX |X A] = 1FSMN (b) FSMN (a)

[E

(r 1

2, a

) E

(r 1

2, b

)];

E[UrX 2|X A

]=

1

FSMN (b) FSMN (a)[E (r 1, b) E (r 1, a)

+ aE

(r 1

2, a

) bE

(r 1

2, b

)],

E (r, h) = EU

[

Ur(

h

U)]

=

0ur(

h

u)

dH (u) ,

E (r, h) = EU

[

Ur(

h

U)]

=

0ur(

h

u)

dH (u) .

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Proposicao

Distribuicao Pearson tipo VII:

E (r , h) =(+2r

2

)

(2

)(

2

)rFPVII (h| + 2r , ) e

E (r , h) =(+2r

2

)

(2

)2

(

2

)/2(h2 + 2

) (+2r)2

em que (a) e a funcao gama.

Distribuicao Slash:

E (r , h) =

(

+ r

)FSL(h| + r) e

E (r , h) =2

(h2

2

)(+r)

( + r ,

h2

2

),

em que (a, b) = b0et ta1dt e a funcao gama incompleta.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Proposicao

Distribuicao Normal contaminada:

E (r , h) = (r )FCN (h|, ) + (1 r ) (1 ) (h) e

E (r , h) = r (h

) + (1 ) (h) ,

em que FCN(.) e a fda da distribuicao normal contaminada.

Referencias

Ho, J. H., Lin, T. I., Chen, H. Y. and Wan, W. L. Some results of theMultivariate t distribution. (2012). Journal of Statistical Planning andInference. (142). 2540.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Estimacao dos parametros via algoritmo EM

Passo CM

Atualizar (k)

pela maximizacao Q(|(k)) = E [c ()|y, (k)

] sobre ,

(k+1) =

(n

i=1

E0i ((k))xixi

)1 n

i=1

xiE1i ((k)),

2(k+1)

=1

n

n

i=1

[E2i ((k)) 2E1i ((k))xi (k+1) + E0i ((k))(xi (k+1))2

].

Passo CML

Atualizar (k) pela maximizacao da funcao de verossimilhanca marginal atualizada,

(k+1)

= argmax

m

i=1

log

[

FSMN

(

i xi (k+1)

(k+1)

)]

+n

i=m+1

log

[

fSMN (yi |xi (k+1)

, 2(k+1)

, )

]

.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Analise de resduos

Com o intuito de identificar observacoes atpicas, assim como verificar se ashipoteses do modelo considerado sao satisfeitas, iremos analisar os resduosmartingais transformados, rMTi (Barros et. al, 2010), definidos por

rMTi = sign(rMi )

2[rMi + i log

(i rMi

)], i = 1, . . . , n,

em que rMi = i + log(S(yi , )

)e o resduo martingal (Therneau et al., 1990 e

Ortega et al., 2003).

i = 0, 1 indica se a i -esima observacao e censurada ou nao, respectivamente,sign(z) denota o sinal de z e S(yi , ) representa a funcao de sobrevivencia de y

avaliada nas estimativas de MV ().

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Erro padrao aproximado para os efeitos fixos

Com o objetivo de avaliar a variabilidade , a matriz de variancia-covarianciaestimada, para as observacoes censuradas, e ajustada utilizando a formula deLouis (Louis, (1982), veja tambem Vaida et. al., 2007(sec 2) e Matos, et. al.,2013 (Sec 3).

A estimacao da matriz de variancia-covariancia de e dada pela matriz

(

n

i=1

{

E

[2(|yobsi )T

]

Var[c (|Zi )

|yobsi

]})1,

avaliada em .

A Matriz de Informacao ajustada, para as observacoes censuradas, e dada por

m

i=1

Var

[c (|Zi )

|Yi i

]=

m

i=1

Var

{1

2xi (UiYi Uixi )|Yi i

}.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Simulacao: Propriedades assintoticas

Foi realizado um estudo de simulacao Monte Carlo baseado no modelo linearSMN-CR.

Geramos k = 1000 amostras de diferentes tamanhos n considerandoXi = (1, xi ), para i = 1, . . . , n, um nvel de censura p = 10%, 1 = 1.5, 2 = 4e 2 = 0.5. A variavel x considerada foi uma sequencia de valores entre 0.1 e 20.

Os tamanhos da amostra considerados foram n = 50, 100, 150, 200, 300, 400,500, 700 e 800.

Calculamos os valores medios do Vies e do EQM para i , dados por:

Vies(i

)=

1

k

k

j=1

((j)i i

)e EQM

(i

)=

1

k

k

j=1

((j)i i

)2,

em que =(1, 2, 2

)e

(j)i e a estimativa de MV de i para a j-esima

amostra.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Samples Sizes (n)

Bia

s

1

0.

08

0.06

0.

04

0.02

0.00

0.02

50 100 150 200 300 400 500 700 800

NormalTSlashCN

Samples Sizes (n)

Bia

s

2

0.

002

0.00

20.

004

0.00

60.

008

0.01

0

50 100 150 200 300 400 500 700 800

NormalTSlashCN

Samples Sizes (n)

Bia

s

2

0.

040.

000.

020.

040.

060.

08

50 100 150 200 300 400 500 700 800

NormalTSlashCN

Samples Sizes (n)

MS

E

1

0.00

0.02

0.04

0.06

0.08

0.10

0.12

50 100 150 200 300 400 500 700 800

NormalTSlashCN

Samples Sizes (n)

MS

E

20e

+00

2e

044e

04

6e

04

50 100 150 200 300 400 500 700 800

NormalTSlashCN

Samples Sizes (n)

MS

E

2

0.00

0.01

0.02

0.03

0.04

0.05

50 100 150 200 300 400 500 700 800

NormalTSlashCN

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Aplicacao

Utilizaremos os dados referentes a salarios descritos por Mroz (1987) eanalisados por Arellano-Valle et al. (2012).

Os dados consistem em 753 mulheres brancas casadas, com idades entre 30 e 60anos. Este estudo foi desenvolvido durante o ano de 1975 e, dentre as 753mulheres consideradas neste estudo, 428 trabalharam em algum momentodurante esse ano.

A variavel resposta e y : Rendimento medio por hora. Se o valor do rendimentofor igual a zero, significa que essas mulheres nao trabalharam no ano do estudo.

As variaveis explicativas consideradas foram: a idade da mulher(x1), anos deescolaridade (x2), o numero de criancas menores de seis anos de idade (x3) e onumero de criancas com idade entre seis e dezenove anos (x4).

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Pacote SMNCensReg

Descricao:

Descricao: Estimacao dos modelos de regressao linear censurados (esquerda,direita e intervalar) sob a classe de distribuicoes SMN.

Versao: 2.2

Administrador: Aldo M. Garay: [email protected]

Site: http://cran.r-project.org/web/packages/SMNCensReg

Funcao:CensReg.SMN(cc,x,y,LS=NULL,nu=3,delta=NULL,cens=left,dist=Normal,show.envelope=FALSE, error=0.0001,iter.max=300).

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Pacote SMNCensReg

Aplicacao:

data(wage.rates)

attach(wage.rates)

y < wagex < cbind(1, age, educ, kidslt6, kidsge6)cc < c(rep(0,428),rep(1,325))

### Distribuicao Normal ###

N < CensReg.SMN(cc, x, y, LS=NULL, nu=NULL, delta=NULL,cens=left,dist=Normal, show.envelope=TRUE, error=0.0001,iter.max=300).

### Distribuicao T de Student ###

T < CensReg.SMN(cc, x, y, LS=NULL, nu=3, delta=NULL,cens=left,dist=T, show.envelope=TRUE, error=0.0001, iter.max=300).

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Ajuste dos modelos

Tabela: EMV e erros padroes (EP) nos modelos SMN-CR.

N-CR T-CR SL-CR CN-CRParametros EMV EP EMV EP EMV EP EMV EP

1 -2.751 1.637 -1.047 1.464 -1.144 1.759 -1.290 1.4322 -0.110 0.025 -0.110 0.023 -0.108 0.027 -0.106 0.0223 0.728 0.076 0.647 0.067 0.643 0.081 0.646 0.0664 -0.214 0.140 -0.296 0.123 -0.294 0.144 -0.299 0.1215 -3.026 0.345 -3.163 0.293 -3.095 0.343 -3.064 0.294

2 20.940 - 10.637 - 6.738 - 11.169 - - - 4.199 - 1.406 - 0.1 - - - - - - - 0.1 -

log-ver -1481.655 -1440.145 -1436.286 -1432.085AIC 2975.311 2894.291 2886.573 2880.171BIC 3003.055 2926.659 2918.941 2917.163

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Envelopes

NCR

Standard normal quantile

r_M

Ti

3 2 1 0 1 2 3

54

32

10

1

TCR

Standard t quantile

r_M

Ti

3 2 1 0 1 2 3

32

10

1

SLCR

Standard slash quantile

r_M

Ti

3 2 1 0 1 2 3

21

01

CNCR

Standard contaminated normal quantile

r_M

Ti

3 2 1 0 1 2 3

32

10

1

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Conclusoes

Neste texto apresentamos uma abordagem classica e Bayesiana dos modelos lineares censurados, sob aclasse de distribuicoes SMN denotados por SMN-CR, que e uma generalizacao dos trabalhos apresentadospor Barros et al. (2010), Arellano-Valle et al. (2012) e Massuia et al. (2012).

A partir de uma perspectiva classica, foi desenvolvido um algoritmo tipo EM, utilizando as formulas paraos momentos da distribuicoes SMN truncadas, para encontrar as estimativas de MV dos parametros.

Esta metodologia foi aplicada e testada em um conjunto de dados reais (Salarios), assim como em dadossimulados, com o intuito de mostrar como os procedimentos propostos podem ser utilizados para avaliarmodelos censurados.

A partir de uma perspectiva Bayesiana, apresentamos um algoritmo tipo Gibbs com um passoMetropolis-Hasting para determinar as estimativas Bayesianas dos modelos SMN-CR, implementandotambem algumas medidas de divergencia e de influencia Bayesiana baseadas no metodo de eliminacao decasos.

Estas tecnicas foram codificadas e implementadas em dois pacotes do sistema R: SMNCensReg e BayesCR,os quais podem ser livremente instalados e que estao constantemente sendo atualizados, para melhorutilizacao por parte dos usuarios.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Referencias

Principais Referencias

Aldo M. Garay, Victor H. Lachos, Heleno Bolfarine, Celso R. B. Cabral, (2015).Linear censored regression models with scale mixtures of normal distributions.Statistical Papers. DOI 10.1007/s00362-015-0696-9.

Aldo M. Garay, Victor H. Lachos, Heleno Bolfarine, Celso R. B. Cabral, (2015).Bayesian analysis of censored linear regression models with scale mixtures ofnormal distributions. Journal of Applied Statistics. DOI10.1080/02664763.2015.1048671.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Referencias

Arellano-Valle, R. and Castro, L. and Gonzalez-Faras, G. and Munoz-Gajardo, K. Student-t censoredregression model: properties and inference. Statistical Methods & Applications. 2012. 21(4), 453473.

Barros, M., and Galea, M., and Gonzalez, M. and Leiva, V. Influence diagnostics in the Tobit censoredresponse model. Statistical Methods & Applications, 2010. 19,716723.

Cabral, C. R. B., Lachos, V. H. & Madruga, M. R. (2012). Bayesian analysis of skew-normal independentlinear mixed models with heterogeneity in the randomeffects population. Journal of Statistical Planningand Inference, 142, 181200.

Genc, A. I., Moments of truncated normal/independent distributions. Statistical Papers. 2013. 54,741764..

Louis, T. A. Finding the observed information matrix when using the EM algorithm, Journal of the RoyalStatistical Society. Series B (Methodological), 1982, 226233.

Massuia, M.B. and Cabral, C.R.B. and Matos, L.A. and Lachos, V. H., Influence Diagnostics for Student-tCensored Linear Regression Models. Technical Report No. 0923, 2012.

Mroz, Thomas A. The Sensitivity of an Empirical Model of Married Womens Hours of Work to Economicand Statistical Assumptions. Econometrica, 1987 55, 765799.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Referencias

Ortega, E. M. and Bolfarine, H. and Paula, G. A. Influence diagnostics in generalized log-gamma regressionmodels. Computational Statistics and Data Analysis, 2007 51, 43544368.

Osorio F. and Paula G. A. and Galea M. Assessment of local influence in elliptical linear models withlongitudinal structure, Computational Statistics and Data Analysis, 2007 42, 165186.

Peng, F. & Dey, D. K. (1995). Bayesian analysis of outlier problems using divergence measures. TheCanadian Journal of Statistics, 23, 199213.

Vaida F. and Fitzgerald A. P. and DeGruttola V. The Sensitivity of an Empirical Model of MarriedWomens Hours of Work to Economic and Statistical Assumptions. Computational statistics & dataanalysis, 2007 51, 57185730.

Vaida F. and Liu L. Fast implementation for normal mixed effects models with censored response, Journalof Computational and Graphical Statistics, 2009, 18, 797817.

Vidal I. and Castro, L. M., Influential observations in the independent Student-t measurement error modelwith weak nondifferential error, Chilean Journal of Statistics, 2010, 1, 1734.

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

Introducao Modelo Tobit SMN-CR Enfoque Frequentista Conclusoes Referencias

Muito Obrigado!!!!

Universidade Federal de Pernanbuco - UFPE IMECC - UNICAMP

IntroduoModelo TobitSMN-CREnfoque FrequentistaConclusesReferncias