4
Utiliza¸ ao de M´ etodos MCMC na estima¸ ao da fra¸ ao de cura em Modelos de Longa Dura¸ ao Josemir R. de Almeida , Heleno Bolfarine, Bernardo B. de Andrade PPGMAE - UFRN, IME - USP, PPGMAE - UFRN Natal-RN, ao Paulo, SP, Natal, RN [email protected], [email protected], [email protected] Palavras-chave: etodos Estoc´asticos e Estat´ ısticos, Modelos de Longa Dura¸ c˜ao,An´alisede Sobrevivˆ encia Resumo: Os modelos de longa dura¸ c˜ao aparecem com frequˆ encia na An´alise de Sobrevivˆ encia, permitindo que uma parcela da popula¸ c˜ao em estudo seja imune ao evento de interesse. Neste trabalho ilustramos e comparamos as estima¸ c˜oes Bayesiana e Frequentista com base nos modelos de mistura padr˜ao exponencial [Boag (1949) e Berkson e Gage (1952)] e de tempo de promo¸ c˜ao [Yakovlev e Tsodikov (1996)] aplicados a uma base de dados descrita em Kersey et al. (1987), que consiste em um grupo de pacientes com leucemia submetidos a um transplante conhecido como autogˆ enico. Os procedimentos de estima¸ c˜aoilustradoss˜aoom´ etodo MCMC (Monte Carlo via Cadeias de Markov), com uma abordagem bayesiana, e o m´ etodo de m´axima verossimilhan¸ ca. 1 Introdu¸ ao A An´ alise de Sobrevivˆ encia se ocupa do tempo at´ e a ocorrˆ encia de um evento de interesse, em geral apresentando-se censuras no tempo. Os modelos convencionais n˜ ao incorporam a possibilidade de cura do paciente, ou seja, considera-se que a fra¸c˜ ao de cura ´ e zero ao longo do tempo. A inclus˜ ao da possibilidade de cura nos modelos ´ e abordada atrav´ es dos modelos de longa dura¸ ao, tamb´ em conhecidos como modelos com fra¸c˜ ao de cura, pois admite-se que uma parcela da popula¸ ao em estudo seja imune ao evento de interesse (parcela de curados). Neste trabalho iremos abordar dois tipos de modelos. O modelo de mistura padr˜ao exponencial eo modelo de tempo de promo¸ c˜ao. Dentre os muitos estudos com modelos de longa dura¸ ao podemos citar: Boag (1949); Berk- son e Gage (1952); Maller e Zhou (1996); Yakovlev e Tsodikov (1996); Chen et al. (1999) e Rodrigues et al. (2008). 2 Modelos de longa dura¸ ao 2.1 Modelo de Mistura Padr˜ ao Exponencial (MMPexp) Boag (1949) e Berkson e Gage (1952), propuseram um modelo de mistura que incorpora uma vari´ avel de classifica¸ ao, com o objetivo de separar os indiv´ ıduos imunes ao evento de interesse dos indiv´ ıduos suscet´ ıveis. Podemos escrever o modelo de mistura padr˜ ao como sendo: S pop (t)= θ + (1 - θ)S p (t), onde: S pop (t) denota a fun¸ ao de sobrevivˆ encia dos indiv´ ıduos da popula¸c˜ ao, S p (te a fun¸ ao de sobrevivˆ encia dos indiv´ ıduos n˜ ao-curados, θ ´ e a fra¸ ao de curados e 1 - θ ´ e a fra¸ ao de ao-curados. O objeto principal da inferˆ encia ´ e ent˜ ao o parˆ ametro θ. 244 ISSN 2317-3297

Utiliza˘c~ao de M etodos MCMC na estima˘c~ao da fra˘c ... · em Modelos de Longa ... modelo de tempo de promo˘c~ao. Dentre os muitos estudos com modelos de longa ... valores gerados

Embed Size (px)

Citation preview

Utilizacao de Metodos MCMC na estimacao da fracao de curaem Modelos de Longa Duracao

Josemir R. de Almeida , Heleno Bolfarine, Bernardo B. de AndradePPGMAE - UFRN, IME - USP, PPGMAE - UFRN

Natal-RN, Sao Paulo, SP, Natal, RN

[email protected], [email protected], [email protected]

Palavras-chave: Metodos Estocasticos e Estatısticos, Modelos de Longa Duracao, Analise deSobrevivencia

Resumo: Os modelos de longa duracao aparecem com frequencia na Analise de Sobrevivencia,permitindo que uma parcela da populacao em estudo seja imune ao evento de interesse. Nestetrabalho ilustramos e comparamos as estimacoes Bayesiana e Frequentista com base nos modelosde mistura padrao exponencial [Boag (1949) e Berkson e Gage (1952)] e de tempo de promocao[Yakovlev e Tsodikov (1996)] aplicados a uma base de dados descrita em Kersey et al. (1987),que consiste em um grupo de pacientes com leucemia submetidos a um transplante conhecidocomo autogenico. Os procedimentos de estimacao ilustrados sao o metodo MCMC (Monte Carlovia Cadeias de Markov), com uma abordagem bayesiana, e o metodo de maxima verossimilhanca.

1 Introducao

A Analise de Sobrevivencia se ocupa do tempo ate a ocorrencia de um evento de interesse,em geral apresentando-se censuras no tempo. Os modelos convencionais nao incorporam apossibilidade de cura do paciente, ou seja, considera-se que a fracao de cura e zero ao longo dotempo. A inclusao da possibilidade de cura nos modelos e abordada atraves dos modelos delonga duracao, tambem conhecidos como modelos com fracao de cura, pois admite-se que umaparcela da populacao em estudo seja imune ao evento de interesse (parcela de curados). Nestetrabalho iremos abordar dois tipos de modelos. O modelo de mistura padrao exponencial e omodelo de tempo de promocao.

Dentre os muitos estudos com modelos de longa duracao podemos citar: Boag (1949); Berk-son e Gage (1952); Maller e Zhou (1996); Yakovlev e Tsodikov (1996); Chen et al. (1999) eRodrigues et al. (2008).

2 Modelos de longa duracao

2.1 Modelo de Mistura Padrao Exponencial (MMPexp)

Boag (1949) e Berkson e Gage (1952), propuseram um modelo de mistura que incorpora umavariavel de classificacao, com o objetivo de separar os indivıduos imunes ao evento de interessedos indivıduos suscetıveis.

Podemos escrever o modelo de mistura padrao como sendo:

Spop(t) = θ + (1− θ)Sp(t),

onde: Spop(t) denota a funcao de sobrevivencia dos indivıduos da populacao, Sp(t) e a funcaode sobrevivencia dos indivıduos nao-curados, θ e a fracao de curados e 1 − θ e a fracao denao-curados. O objeto principal da inferencia e entao o parametro θ.

244

ISSN 2317-3297

Sendo D o conjunto de dados observados, entao, a funcao de verossimilhanca para ξ =(ψT , θ)T , e dada por:

LMMPexp(ξ,D) =∏ni=1 [fpop(ti, ψ)]δi [Spop(ti, ψ)]1−δi , (2.1)

LMMPexp(ξ,D) =∏ni=1 [(1− θ)fp(ti, ψ)]δi [θ + (1− θ)Sp(ti, ψ)]1−δi

sendo δi a variavel indicadora de falha ou censura associada aos tempos de vida.Para o modelo de mistura padrao exponencial temos que o logaritmo da funcao de verossi-

milhanca de ξ = (λ, θ)T , a partir de (2.1), e dada por:

`MMPexp(ξ,D) = log[λ(1− θ)]∑ni=1 δi − λ

∑ni=1(δiti)

+∑ni=1 (1− δi) log[θ + (1− θ) exp(−λti)]. (2.2)

Rodrigues et al. (2008) e Maller e Zhou (1996) podem ser consultados para mais detalhes arespeito deste modelo.

2.2 Modelo de Tempo de Promocao (MTP)

O modelo de tempo de promocao (Yakovlev e Tsodikov, 1996), se torna mais complexo que omodelo de mistura padrao, com o objetivo de melhor explicar o mecanismo biologico envolvidono estudo.

Para este modelo a funcao de sobrevivencia e escrita como sendo:

Spop(t) = exp[−ϕ(1− Sp(t))] = exp[−ϕFp(t)],

de modo que a fracao de cura e dada por θ = exp(−ϕ) > 0. Entao, de (2.1), podemosescrever a funcao verossimilhanca de ξ = (ψ,ϕ)T na forma:

LMTP (ξ,D) =∏ni=1 [ϕfp(ti, ψ) exp {−ϕFp(ti, ψ)}]δi [exp {−ϕFp(ti, ψ)}]1−δi .

Analogo ao caso anterior, a funcao log-verossimilhanca de ξ = (λ, ϕ)T e dada por:

`MTP (ξ,D) =n∑i=1

δi [log(ϕλ)− λti − ϕ+ ϕ exp(−λti)] +n∑i=1

(1− δi) [ϕ(exp(−λti)− 1)]. (2.3)

Para mais detalhes Yakovlev e Tsodikov (1996) e Rodrigues et al. (2008) podem ser consultados.

3 Monte Carlo via Cadeias de Markov (MCMC)

Os metodos de inferencia baseados em simulacao estocastica utilizam amostras da distribuicao aposteriori para sumarizar informacao. Esses metodos sao utilizados para obter uma aproximacaoda distribuicao a posteriori quando nao e possıvel obte-la analiticamente ou como alternativaaos metodos numericos devido a altas dimensoes parametricas (RESENDE, 2000).

Os metodos de Monte Carlo via cadeias de Markov (MCMC) sao uma alternativa aos metodosnao iterativos em problemas complexos. A ideia ainda e obter uma amostra da distribuicao aposteriori e calcular estimativas amostrais de caracterısticas desta distribuicao. A diferenca eque aqui usaremos tecnicas de simulacao iterativa, baseadas em cadeias de Markov, e assim osvalores gerados nao serao mais independentes (EHLERS, 2011).

245

ISSN 2317-3297

4 Aplicacao

Os dados utilizados no referido trabalho refere-se a tempos de recorrencia de pacientes comleucemia submetidos a um tipo de transplantes conhecido como alogenico. O estudo e compostopor 46 pacientes e e descrito em Kersey et al. (1987) e reproduzido em Maller e Zhou (1996).

Para estes dados ajustamos o modelo de mistura padrao exponencial bem como o modelo detempo de promocao, utilizando o metodo da maxima verossimilhanca (software R) e o metodode MCMC (OpenBUGS), na estimacao dos parametros para cada modelo.

4.1 Resultados e Discussao

4.1.1 Modelo de mistura padrao exponencial

Usando o metodo MCMC atraves da abordagem bayesiana, adotamos as seguintes distribuicoesa priori para θ e λ em dois instantes diferentes:i) θ ∼ U(0, 1), π(λ) = a exp(−aλ), a ≥ 0, f(x|θ) = LMMPE(ξ,D).ii) π(θ) = θα−1(1− θ)β−1, π(λ) = a exp(−aλ), a ≥ 0, f(x|θ) = LMMPE(ξ,D),com a = 0.5, α = 1 e β = 2. A Tabela 1 apresenta as estimativas (pontuais, desvios padraoe intervalos de confianca) pelo metodo de maxima verossimilhanca (MV) e MCMC para asespecificacoes i) e ii) acima. Note que o metodo de simulacao estocastica apresenta pequenoganho com relacao aos desvios padroes estimados. Estimativas pontuais para a fracao de curasao proximas e ha uma pequena distancia nas estimativas de λ em relacao aos dois metodos.Em resumo, as metodologias abordadas apresentaram uma fracao de cura que varia de 26,7% a27,5% quando utilizadas as abordagens propostas.

Tabela 1: Estimativas via Maxima verossimilhanca e MCMC para θ e λ (MMP)Estimativas DP Intervalos Intervalos

Metodo θ λ θ λ LI-θ LS-θ LI-λ LS-λ

MV 0,271 1,433 0,068 0,276 0,138 0,404 0,892 1,974

Especificacao i) 0,275 1,323 0,067 0,264 0,151 0,415 0,829 1,876

Especificacao ii) 0,267 1,319 0,065 0,257 0,148 0,402 0,845 1,872

4.1.2 Modelo de tempo de promocao

Analogamente ao caso anterior, sendo ϕ > 0, consideramos as seguintes especificacoes para asprioris:i) ϕ ∼ U(0, 100), π(λ) = a exp(−aλ), a ≥ 0, f(x|ϕ) = LMTP (ξ,D);ii) π(ϕ) = b exp(−bϕ), b ≥ 0, π(λ) = a exp(−aλ), a ≥ 0, f(x|ϕ) = LMMPE(ξ,D),com a = 0.5 e b = 0.5. Os resultados da estimacao sao apresentados nas Tabelas 2. Quandoutilizado a especificacao ii) as estimativas dos parametros via simulacao foram distintas dasencontradas por MV. O que nos indica que o modelo de promocao se torna censıvel a mudancasnas distribuicoes a priori.

Tabela 2: Estimativas via Maxima verossimilhanca e MCMC para θ e λ (MTP)Estimativas DP Intervalos Intervalos

Metodo θ λ θ λ LI-θ LS-θ LI-λ LS-λ

MV 0,263 0,946 0,070 0,249 0,125 0,400 0,459 1,434

Especificacao i) 0,221 0,830 0,070 0,242 0,101 0,382 0,396 1,350

Especificacao ii) 0,269 0,910 0,077 0,223 0,147 0,417 0,500 1,401

Alem da obtencao das estimativas dos parametros, foi observado tambem a estacionariedadedas cadeias, bem como a distribuicao a posteriori simetrica em torno da media e a rapida reducao

246

ISSN 2317-3297

da autocorrelacao dos valores simulados para os dois modelos estudados (MMPexp, MTP).

5 Conclusao

O metodo de simulacao estocastica, dadas as prioris adotadas para o modelo de mistura padraoexponencial, se mostrou eficaz como uma aproximacao no calculo das estimativas dos parametros.Para o modelo de tempo de promocao, o metodo MCMC se mostrou mais proximo ao MV quandoadotado a especificacao ii), ou seja, o referido modelo se tornou censıvel a mudancas das prioris.Por fim, o metodo de Monte Carlo Via Cadeias de Markov e visto como uma boa alternativapara a aproximacao do calculo das estimativas dos parametros dos modelos etudados. O mesmoapresenta razoavel precisao para muitos usos, o que em alguns deles se torna uma opcao aosmetodos analıticos de difıcil solucao.

Referencias

[1] Berkson, J. e Gage, R. (1952). Survival curve for cancer patients following treat-ment. Journal of the American Statistical Association, 47(259), 501-515.

[2] Boag, J. W. (1949). Maximum likelihood estimates of the proportion of patientscured by cancer therapy. Journal of the Royal Statistical Society. Series B (Methodolo-gical),11(1), 15-53.

[3] Chen, M. H.; Ibrahim, J. G.; Sinha, D. (1999). A new Bayesian model for survival datawith a surviving fraction. Journal of the American Statistical Association, 94(447),909-919.

[4] Ehlers, R. S. (2011). Inferencia Bayesiana. Departamento de Matematica Aplicada eEstatıstica, ICMC-USP.

[5] Kersey, J. H.; Weisdorf, D.; Nesbit, M. E.; Lebien, T. W.; Woods, T. W.; McGlave, P. B.;Kim, T.; Vallera, D. A.; Goldman, A. I.; Bostrom, B.; Ramsay, N. K. C. (1987). Compa-rison of autologous and allogeneic bone marrow transplantation for treatmentof high-risk refractory acute lymphoblastic leukemia. New England Journal of Me-dicine, 317(8), 461-467.

[6] Maller, R. A. e Zhou, X. (1996). Survival Analysis with Long-Term Survivors. Wiley,New York, NY.

[7] Resende, M.D.V. (2000). Inferencia Bayesiana e simulacao estocastica (amostragemde Gibbs) na estimacao de componentes de variancia e de valores geneticos emplantas perenes. Colombo: Embrapa Florestas (Documentos 46).

[8] Rodrigues, J.; Cancho, V. G.; De Castro, M. (2008). Teoria Unificada de Analise deSobrevivencia. Associacao Brasileira de Estatıstica, S ao Paulo,SP.

[9] Yakovlev, A. e Tsodikov, A. (1996). Stochastic Models of Tumor Latency and TheirBiostatistical Applications. World Scientific, Singapore.

247

ISSN 2317-3297