1
Análise de sobrevida de pacientes pediátricos com tumores cerebrais com método de aprendizagem automatizada: árvore de decisão pelo método de partição recursiva FRANCISCO HELDER CAVALCANTE FELIX (1)1; JULIANA COSTA ALBUQUERQUE (2)2; JUVENIA BEZERRA FONTENELE (3)3. 1-HOSPITAL INFANTIL ALBERT SABIN, FORTALEZA - CE – BRASIL 2,3-UNIVERSIDADE FEDERAL DO CEAR, FORTALEZA - CE - BRASIL. A B Bibliografia: Bou-Hamad I, Larocque D, Ben-Ameur H. A review of survival trees. Statist Surv 5:44-71, 2011. Breiman L., Friedman JH, Olshen RA, Stone, CJ. Classification and Regression Trees. Wadsworth, Belmont, Ca, 1983. Crichton NJ, Hinde JP, Marchini J. Models for diagnosing chest pain: is CART helpful? Stat Med, 16:717–727, 1997 Therneau, T. and Atkinson, E. Technical Report 61 - An introduction to recursive partitioning using the RPART routine. Section of Biostatistics, Mayo Clinic, Rochester, 1997 Introdução: Estudos com dados censurados são numerosos na área médica. O modelo de regressão com riscos proporcionais de Cox e suas extensões são usados com frequência. Estes métodos paramétricos e semiparamétricos permitem interpretação simples dos efeitos das covariáveis e inferência. Todavia, estes modelos forçam a escolha de relações específicas entre as covariáveis e a resposta, as quais são especificadas pelo analista. Árvores e florestas de decisão são alternativas não- paramétricas populares. Elas podem detectar (“aprender”) automaticamente algumas relações não pré- especificadas. A árvore de decisão pode ser definida como uma estrutura que pode ser usada para dividir uma grande quantidade de registros sucessivamente em conjuntos menores de registros, aplicando-se uma seqência simples de regras de decisão. A cada divisão sucessiva, os membros do subconjunto resultante tornam-se cada vez mais semelhantes entre si. Metodologia: Os dados vêm de dois projetos de pesquisa em andamento, através da análise retrospectiva de prontuários de pacientes de 0-18 anos diagnosticados com tumor cerebral entre 2000 e 2010. Foram construídas árvores de decisão semi-supervisionadas, onde as classes foram escolhidas previamente, porém foram agrupadas automaticamente. Foi utilizado o método de construção de árvores de sobrevida proposto por Breiman et al (CART), com a ajuda do pacote rpart da linguagem de programação estatística R. A resposta foi avaliada utilizando-se o tempo de sobrevida entre o diagnóstico e a censura ou evento (óbito por qualquer causa). O gráfico de erro vs. complexidade e residuais foram checados. Utilizou-se o método de poda baseado no parâmetro de complexidade, a fim de retirar as ramificações menos importantes e originar um subconjunto aninhado, Resultados: Foram incluídos 227 pacientes. Uma árvore de sobrevida foi construída com 21 nodos (ramificações), sendo 11 terminais (folhas), incluindo como variáveis das folhas a topografia (ponte+diencéfalo vs. restante), distância da localidade do paciente ao município do centro hospitalar (≥ 391km), radioterapia (RT), histologia (tumores embrionários vs. outros), região do estado (norte-noroeste vs. centro-sul). Após a poda, a árvore final foi obtida com 9 nodos, sendo 5 terminais. Os subconjuntos discretos de pacientes (folhas) selecionados foram (ordem da maior para a menor sobrevida): portadores de gliomas de baixo grau (22% do total, razão de risco (RR) = 0.24), pacientes com as demais histologias que receberam RT (35% do total, RR = 0.73), pacientes com as demais histologias que não receberam RT e sofreram ressecção completa (16% do total, RR = 1.1), pacientes do último grupo com ressecção parcial (11% do total, RR = 2,9) e, por fim, portadores de tumores pontinos (15% do total, RR = 2,9). Conclusões:: A abordagem de aprendizagem automatizada com árvores de sobrevida por partição recursiva é um atraente método complementar à análise de sobrevida por regressão convencional. Através deste estudo, confirmamos algumas observações da literatura e encontramos nuances novas na relação entre as variáveis e a sobrevida em crianças com tumores cerebrais. Entre os achados, frisamos o impacto do agrupamento dos tumores pontinos numa categoria à parte, devido à sua frequência e prognóstico diferenciado em crianças. Gliom a baixo grau Outro s Ponte Outros locais RT sim Não Outros Bióps ia Gliom a baixo grau Outros Ponte Outros locais RT sim Não Outros Bióps ia Diencéfa lo Ponte Outros locais RT sim Não D>391km <391km Centr o-sul Restante Outros Glioma alto grau, ependimom a Cerebe lo Outros locais Como induzir uma árvore: Existem vários algoritmos para gerar árvores de decisão a partir de dados censurados, um dos mais populares sendo o CART (Classification and Regression Tree), introduzido por Breiman et al. A idéia básica é particionar recursivamente o conjunto de covariáveis a fim de formar grupos cada vez mais similares em relação ao desfecho de interesse. Os conceitos-chave são o critério de partição usado (em sua maioria, derivados de estatísticas de testes comuns, como logrank ou Cox) e o critério para encerrar o crescimento da árvore. No caso deste trabalho, por exemplo, usamos o método de poda: a árvore cresce até um tamanho grande e, então, os nodos são “podados” de acordo com um critério pré- especificado (complexidade). Na figura acima, os nodos contém informação sobre o desfecho: o valor da estatística usada para regressão (modelo exponencial, nesse caso), equivalente ao risco relativo, número de eventos e número de indivíduos em cada nodo e porcentagem do total em cada nodo Exemplo: 22% dos pacientes tinham glioma de baixo grau, com um risco relativo do evento (óbito) de 0,24 (primeiro nodo terminal – folha). Árvore Podada Árvore Inicial

ANÁLISE DE SOBREVIDA DE PACIENTES PEDIÁTRICOS COM TUMORES CEREBRAIS COM MÉTODO DE APRENDIZAGEM AUTOMATIZADA: ÁRVORE DE DECISÃO POR PARTIÇÃO RECURSIVA

Embed Size (px)

Citation preview

Page 1: ANÁLISE DE SOBREVIDA DE PACIENTES PEDIÁTRICOS COM TUMORES CEREBRAIS COM MÉTODO DE APRENDIZAGEM AUTOMATIZADA: ÁRVORE DE DECISÃO POR PARTIÇÃO RECURSIVA

Análise de sobrevida de pacientes pediátricos com tumores cerebrais com método de aprendizagem automatizada: árvore de decisão pelo

método de partição recursiva

Análise de sobrevida de pacientes pediátricos com tumores cerebrais com método de aprendizagem automatizada: árvore de decisão pelo

método de partição recursivaFRANCISCO HELDER CAVALCANTE FELIX (1)1; JULIANA COSTA ALBUQUERQUE (2)2; JUVENIA BEZERRA

FONTENELE (3)3. 1-HOSPITAL INFANTIL ALBERT SABIN, FORTALEZA - CE – BRASIL

2,3-UNIVERSIDADE FEDERAL DO CEARA, FORTALEZA - CE - BRASIL.

A B

Bibliografia:Bou-Hamad I, Larocque D, Ben-Ameur H. A review of survival trees. Statist Surv 5:44-71, 2011.Breiman L., Friedman JH, Olshen RA, Stone, CJ. Classification and Regression Trees. Wadsworth, Belmont, Ca, 1983. Crichton NJ, Hinde JP, Marchini J. Models for diagnosing chest pain: is CART helpful? Stat Med, 16:717–727, 1997Therneau, T. and Atkinson, E. Technical Report 61 - An introduction to recursive partitioning using the RPART routine. Section of Biostatistics, Mayo Clinic, Rochester, 1997

Introdução: Estudos com dados censurados são numerosos na área médica. O modelo de regressão com riscos proporcionais de Cox e suas extensões são usados com frequência. Estes métodos paramétricos e semiparamétricos permitem interpretação simples dos efeitos das covariáveis e inferência. Todavia, estes modelos forçam a escolha de relações específicas entre as covariáveis e a resposta, as quais são especificadas pelo analista. Árvores e florestas de decisão são alternativas não-paramétricas populares. Elas podem detectar (“aprender”) automaticamente algumas relações não pré-especificadas. A árvore de decisão pode ser definida como uma estrutura que pode ser usada para dividir uma grande quantidade de registros sucessivamente em conjuntos menores de registros, aplicando-se uma sequência simples de regras de decisão. A cada divisão sucessiva, os membros do subconjunto resultante tornam-se cada vez mais semelhantes entre si.

Metodologia: Os dados vêm de dois projetos de pesquisa em andamento, através da análise retrospectiva de prontuários de pacientes de 0-18 anos diagnosticados com tumor cerebral entre 2000 e 2010. Foram construídas árvores de decisão semi-supervisionadas, onde as classes foram escolhidas previamente, porém foram agrupadas automaticamente. Foi utilizado o método de construção de árvores de sobrevida proposto por Breiman et al (CART), com a ajuda do pacote rpart da linguagem de programação estatística R. A resposta foi avaliada utilizando-se o tempo de sobrevida entre o diagnóstico e a censura ou evento (óbito por qualquer causa). O gráfico de erro vs. complexidade e residuais foram checados. Utilizou-se o método de poda baseado no parâmetro de complexidade, a fim de retirar as ramificações menos importantes e originar um subconjunto aninhado, formando uma árvore menor e mais robusta.

Resultados: Foram incluídos 227 pacientes. Uma árvore de sobrevida foi construída com 21 nodos (ramificações), sendo 11 terminais (folhas), incluindo como variáveis das folhas a topografia (ponte+diencéfalo vs. restante), distância da localidade do paciente ao município do centro hospitalar (≥ 391km), radioterapia (RT), histologia (tumores embrionários vs. outros), região do estado (norte-noroeste vs. centro-sul). Após a poda, a árvore final foi obtida com 9 nodos, sendo 5 terminais. Os subconjuntos discretos de pacientes (folhas) selecionados foram (ordem da maior para a menor sobrevida): portadores de gliomas de baixo grau (22% do total, razão de risco (RR) = 0.24), pacientes com as demais histologias que receberam RT (35% do total, RR = 0.73), pacientes com as demais histologias que não receberam RT e sofreram ressecção completa (16% do total, RR = 1.1), pacientes do último grupo com ressecção parcial (11% do total, RR = 2,9) e, por fim, portadores de tumores pontinos (15% do total, RR = 2,9).

Conclusões:: A abordagem de aprendizagem automatizada com árvores de sobrevida por partição recursiva é um atraente método complementar à análise de sobrevida por regressão convencional. Através deste estudo, confirmamos algumas observações da literatura e encontramos nuances novas na relação entre as variáveis e a sobrevida em crianças com tumores cerebrais. Entre os achados, frisamos o impacto do agrupamento dos tumores pontinos numa categoria à parte, devido à sua frequência e prognóstico diferenciado em crianças.

Glioma

baixo grau

Outros

Ponte

Outros locais

RT sim Não

OutrosBiópsi

a

Glioma

baixo grau

Outros

Ponte

Outros locais

RT simNão

OutrosBiópsi

a

Diencéfalo Ponte

Outros locais

RT sim

Não

D>391km<391k

m

Centro-sul

Restante OutrosGlioma alto

grau, ependimo

ma

Cerebelo

Outros locais

Como induzir uma árvore:Existem vários algoritmos para gerar árvores de decisão a partir de dados censurados, um dos mais populares sendo o CART (Classification and Regression Tree), introduzido por Breiman et al.A idéia básica é particionar recursivamente o conjunto de covariáveis a fim de formar grupos cada vez mais similares em relação ao desfecho de interesse.Os conceitos-chave são o critério de partição usado (em sua maioria, derivados de estatísticas de testes comuns, como logrank ou Cox) e o critério para encerrar o crescimento da árvore. No caso deste trabalho, por exemplo, usamos o método de poda: a árvore cresce até um tamanho grande e, então, os nodos são “podados” de acordo com um critério pré-especificado (complexidade).

Na figura acima, os nodos contém informação sobre o desfecho: o valor da estatística usada para regressão (modelo exponencial, nesse caso), equivalente ao risco relativo, número de eventos e número de indivíduos em cada nodo e porcentagem do total em cada nodo Exemplo: 22% dos pacientes tinham glioma de baixo grau, com um risco relativo do evento (óbito) de 0,24 (primeiro nodo terminal – folha).

Árvore PodadaÁrvore Inicial