15
DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos João Luiz Moreira 1 , Kelli de Faria Cordeiro 2 , Maria Luiza M. Campos 1 1 Programa de Pós-graduação em Informática Departamento de Ciência da Computação/NCE Universidade Federal do Rio de Janeiro (UFRJ) Rio de Janeiro RJ Brasil 2 Diretoria de Finanças da Marinha (DFM) Marinha do Brasil (MB) [email protected], [email protected], [email protected] Abstract. The environments where medical records are explored for historical analysis of clinical scenes, in general, have focus on integration of data that are, essentially, structured. However, they face difficulties to handle other types of information present, e.g. on anamnesis, due to their unstructured nature. This paper presents an environment for multifaceted analysis of medical records allowing joint exploration of heterogeneous data. To do so, the terms found on several unstructured sources are associated with categories of a faceted taxonomy. These facets are modeled as dimensions on a data mart and used as perspectives for data analysis. Keywords: faceted taxonomy, data warehouse, data mart, unstructured data, medical records Resumo. Os ambientes para análise histórica de quadros clínicos a partir da exploração de prontuários médicos se concentram, de forma geral, na integração de dados essencialmente estruturados. No entanto, enfrentam dificuldades na inclusão de outros tipos de informaç�es presentes, por exemplo, nas anamneses, devido a sua natureza não estruturada. Este artigo apresenta um ambiente para análise multifacetada de prontuários médicos que permite a exploração conjunta de dados heterogêneos. Para isso, os termos encontrados nas diversas fontes de dados não estruturados são associados a categorias de uma taxionomia facetada, sendo as facetas modeladas como dimens�es em um data mart e utilizadas como perspectivas para análise dos dados. Palavras-chave: taxonomia facetada, data warehouse, data mart, dados não- estruturados, prontuário eletrônico 1. Introdução Os dados não estruturados 1 produzidos nas empresas crescem em volume diariamente através de atividades rotineiras como a escrita de relatórios, emails, contratos e mensagens instantâneas [Russom 2007]. Esses dados contêm informações valiosas que podem ser exploradas em conjunto com os dados estruturados em um ambiente analítico [Pérez 2007][Inmon e Nesavich 2008]. No entanto, de maneira geral, 1 No contexto deste trabalho, dados não estruturados referem-se aos dados de natureza textual. XXIV Simp�sio Brasileiro de Banco de Dados 211

DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos

João Luiz Moreira1, Kelli de Faria Cordeiro

2, Maria Luiza M. Campos

1

1Programa de Pós­graduação em InformáticaDepartamento de Ciência da Computação/NCE � Universidade Federal do Rio de 

Janeiro (UFRJ) Rio de Janeiro � RJ � Brasil

2Diretoria de Finanças da Marinha (DFM) � Marinha do Brasil (MB)

[email protected], [email protected], [email protected]

Abstract. The environments where medical records are explored for historical analysis of clinical scenes,  in general, have focus on integration of data that 

are,  essentially,  structured. However,  they  face  difficulties  to  handle  other types  of  information  present, e.g. on  anamnesis,  due to their  unstructured

nature.  This  paper presents  an  environment  for  multifaceted  analysis  of medical  records allowing joint exploration of heterogeneous data. To do so, 

the  terms  found  on  several  unstructured  sources  are  associated  with categories of a faceted taxonomy. These facets are modeled as dimensions ona data mart and used as perspectives for data analysis.

Keywords: faceted  taxonomy, data warehouse, data mart, unstructured data, medical records

Resumo. Os ambientes para análise histórica de quadros clínicos a partir da exploração  de  prontuários  médicos  se  concentram,  de  forma  geral,  na 

integração  de  dados  essencialmente  estruturados.  No  entanto,  enfrentam dificuldades  na  inclusão  de  outros  tipos  de  informaç�es presentes,  por 

exemplo, nas anamneses, devido a sua natureza não estruturada. Este artigo apresenta  um  ambiente  para  análise  multifacetada  de  prontuários  médicos 

que  permite  a  exploração  conjunta  de  dados  heterogêneos.  Para  isso,  os termos  encontrados  nas  diversas  fontes  de  dados  não  estruturados  são 

associados  a  categorias  de  uma  taxionomia  facetada,  sendo  as  facetas modeladas como dimens�es em um data mart e utilizadas como perspectivas 

para análise dos dados.

Palavras­chave: taxonomia facetada, data warehouse, data mart, dados não­

estruturados, prontuário eletrônico

1. Introdução

Os dados não estruturados1 produzidos nas empresas crescem em volume diariamente através  de  atividades  rotineiras  como  a  escrita  de  relatórios,  emails,  contratos  e mensagens instantâneas [Russom 2007]. Esses dados contêm informações valiosas que podem ser exploradas em conjunto com os dados estruturados em um ambiente analítico[Pérez 2007][Inmon  e Nesavich 2008]. No  entanto,  de  maneira  geral,  o 

1 No contexto deste trabalho, dados não estruturados referem­se aos dados de natureza textual.

XXIV Simp�sio Brasileiro de Banco de Dados

211

Page 2: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

desenvolvimento  de  soluções  do  tipo Data Warehousing  tem  contemplado  quase  que exclusivamente  dados  oriundos  dos bancos  de  dados  de  sistemas  transacionais corporativos e outras fontes de dados tipicamente estruturadas.

Na área médica, a análise histórica de quadros clínicos de pacientes a partir da exploração de dados de prontuários tem sido empregada para atender demandas da área de  gestão  do  negócio  [Manfré e Scalabrin 2008][Dallora  2004] e da  área  de  pesquisa científica [STRIDE  2009][CDR  2009][Spitzer 2008][Einbinder e  Scully  2002].Contudo,  de  forma  geral,  essas  aplicações  se  concentram  na  integração  dos  dados oriundos  de  vários  sistemas, com  dados  essencialmente  estruturados,  e  enfrentam dificuldades  na  inclusão  de  outros  tipos  de  informação presentes,  por  exemplo, nos exames, relatórios  de  diagnósticos  associados e nas HDA  (História  da Doença Atual) das anamneses2. A  construção  de  um  ambiente  analítico  sobre  dados  clínicos  (Data Warehouse Clínico ­ DWC) possui desafios próprios [Gray 2004][Pedersen et al. 1998],que  têm  sido  abordados  em  várias  propostas  de  arquitetura  [Sahama  e  Croll 2007][Szirbik  et  al. 2006][Banek  et  al. 2006]. Porém,  a  análise de  dados  não estruturados em DWC ainda é uma questão pouca explorada.

Este  artigo  descreve  uma  abordagem  para  representação  e  acesso multidimensional  a casos  clínicos, para  que os dados  de  natureza  não  estruturada,típicos desse ambiente, possam também ser explorados e analisados. Nessa abordagem,os termos encontrados nas diversas fontes de informação não estruturada são associados a categorias de uma taxonomia, que por sua vez são sintetizadas em um nível mais alto de  classificação  conceitual,  chamado facetas  [Tzitzikas  e  Analyti 2007].  Segundo Prieto­Díaz  (2002),  as  facetas  de  uma  taxonomia  podem  ser  construídas  como perspectivas (pontos de vista ou dimensões) de um domínio particular. Dessa forma, asfacetas,  suas categorias e  termos,  são modeladas  como dimensões  em um data mart eusadas  como  perspectivas  de  análise  das  ocorrências dos  termos  nos  prontuários médicos.

Este  trabalho  tem  como  alvo  análises  sobre  o prontuário  eletrônico  de  um consultório  médico, que  possui  informações  sobre  os  pacientes  armazenadas em  um banco  de  dados  de  forma  estruturada,  semi­estruturada e em textos  livres  redigidos pelos médicos contendo anotações importantes sobre o tratamento. O DoctorOLAP foi construído para  atender questões analíticas dos médicos, como: quais  são os  sintomas mais comuns em pacientes que apresentam determinada doença. Com este ambiente é possível  (i)  analisar os  prontuários  médicos também  considerando  os  dados  não estruturados, (ii)  explorar  de  forma  conjunta  todos  os  dados  disponíveis  sobre  os pacientes por meio do compartilhamento de dimensões entre data marts sobre dados de natureza não estruturada e estruturada, e (iii) navegar do nível mais alto de análise comdados agregados até o detalhe de uma anotação em um relatório de diagnóstico feito por um médico.

Este artigo, além desta seção, inclui outras 5 seções. Na seção 2 são apresentadas as iniciativas e abordagens encontradas na literatura para a construção de DW Clínicos epara o tratamento de dados não estruturados. Na seção 3, é descrita a  fonte dos dados estruturados,  semi­estruturados e não  estruturados  utilizada pelo DoctorOLAP,  sendo

2 Entrevista realizada na primeira consulta médica para obter informações da história clínica do paciente, com a intenção de auxiliar na definição dos procedimentos médicos a serem adotados [Porto 2004].

XXIV Simp�sio Brasileiro de Banco de Dados

212

Page 3: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

este apresentado e discutido na  seção 4. Na seção 5  são  relacionados os resultados de algumas  análises  multifacetadas  sobre  os prontuários  médicos. E, finalmente, as conclusões e trabalhos futuros são discutidos na seção 6.

2. Data Warehouses Clínicos e tratamento de dados não estruturados

O  acompanhamento  de  casos  clínicos  geralmente  é  feito  através  de  prontuários eletrônicos  que  armazenam  informações  sobre  os  pacientes,  como  seus  dados biográficos, o histórico de suas doenças e tratamentos. Muitas vezes esses dados estão espalhados  em  vários  ambientes,  o  que  impossibilita  a  análise  histórica  do  quadro clínico dos pacientes. Os DWC integram essas diversas  fontes de  informação contidas nos ambientes operacionais, o que possibilita a realização de pesquisas médicas através da análise histórica das doenças e tratamentos realizados nos pacientes.

Os  DWC,  em  sua  maioria,  integram  dados  para  atender  demandas  como:controle  de  doenças  [Scully et  al. 2004][Wisniewski et  al. 2003],  estudo  dos  efeitos colaterais de tratamentos [Einbinder e Scully 2002], priorização da alocação do centro cirúrgico  baseado na  análise  do  quadro  clínico  dos  pacientes  [Dallora 2004] e  gestão estratégica do negócio [Manfré e Scalabrin 2008]. Esses DW têm problemas específicos como  o  tratamento  temporal  [Gray  2004][Pedersen  et al. 1998] e  problemas  de integração que têm sido tratados em algumas propostas de arquitetura. Em sua maioria, essas  arquiteturas  de  DWC focam  na  integração  dos  dados  de  natureza  estruturada [Banek et al. 2006][Sahama e Croll 2007][Szirbik  et al. 2006]. Contudo, a arquitetura proposta por Zhou et al. (2008) tem o foco no processamento de dados não estruturados através da extração de termos com uma ferramenta própria e a criação de um data mart para cada conjunto de termos com a mesma classificação.

Fora  do  contexto  de  DW,  a extração  e  o  tratamento  de  textos  de  registros médicos são abordados em diversos trabalhos na literatura [Honorato 2008][Cherman et al. 2007][Harkema et al. 2005], constituindo­se pré­requisitos essenciais para o emprego das  técnicas  de exploração  de  dados  textuais [Zhou  et  al. 2006]. Essas  atividades  são realizadas em várias etapas, dentre as mais gerais  estão: limpeza, extração de  termos, remoção de stopwords, radicalização (stemming) e tratamento de sinônimos [Feldman e 

Sanger  2007].  Para  apoiar  sua execução,  ferramentas  foram  desenvolvidas  atendendo todo o  processo  de  tratamento do texto, como  o  TPDiscover, de Honorato  (2008); oMedIE, de Zhou et al. (2006); e o Forrest Rim de  Inmon e Nesavich (2008), ou para atender etapas específicas, como o PTStemmer3 que  faz o  tratamento de  radicalizaçãode palavras em português, e o Wvtool4 que faz limpeza de pontuação. Essas atividades,apesar de  não utilizadas  com a  finalidade de  alimentar um DW, são essenciais para  a 

incorporação dos dados de natureza não estruturada em um ambiente analítico, o que de 

fato constitui um processo de ETL (sigla em Inglês para Extract, Transform and Load)

Textual.

Inmon  e Nesavich (2008)  abordaram o  tratamento  de  textos  na  arquitetura  do DW  2.0TM onde  os  dados não  estruturados  são  tratados,  analisados  visualmente  e integrados ao  DW através  de  ligações  específicas.  Essas  ligações  associam uma dimensão do DW a um documento por meio de um atributo  identificador,  tal  como oemail  de  um cliente, que  está  presente  tanto  no  seu  cadastro  como  nos  documentos 

3 http://code.google.com/p/ptstemmer/4 The Word & Web Vector Tool ­ http://wvtool.sourceforge.net/

XXIV Simp�sio Brasileiro de Banco de Dados

213

Page 4: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

relacionados  a  ele. Pérez (2007)  também  aborda  o  tratamento  de  documentos  em ambientes  de  DW através  de  uma  proposta  de  framework para  integrar  documentos XML com o DW sobre dados estruturados, chamado warehouse contextualizado. Além dessas  propostas  de  integração  de dados  heterogêneos  no DW, McCabe et  al. (2000) propõem uma  abordagem  para  recuperação  de  informação  através  de  um  modelo multidimensional sobre as ocorrências dos termos em documentos.

Este  trabalho  complementa  vários  aspectos  dos  trabalhos  encontrados  na literatura, como: a abordagem de Zhou et al.  (2008) que usa a categoria de  termos da área médica como uma dimensão em um data mart; a abordagem de McCabe (2008) que analisa as ocorrências dos termos nos documentos pela perspectiva dos próprios termos e de suas categorias; o mecanismo chamado linkage do DW 2.0TM do Inmon (2008) que usa  identificadores comum aos ambientes de dados não estruturado e estruturado para viabilizar  a  exploração  conjunta  de  dados  heterogêneos;  e  o  conceito  de  Prieto­Díaz (2002)  sobre  a  utilização  de  facetas  como  perspectivas  de  análise  de  um  domínio. Porém, este trabalho tem  como  foco  a  análise  de  dados  heterogêneos  visando  à exploração  conjunta  de dados  estruturados  e  textuais  utilizando  facetas  de  uma taxonomia como perspectiva de análise de casos clínicos.

3.  Sistema de Prontuário eDoctor 

A  aplicação  alvo  deste  trabalho teve  como  fonte  de  dados  a  base  de um  sistema  de prontuário eletrônico, chamado eDoctor, onde os médicos registram informações sobre seus  pacientes,  com  a  inclusão  de dados  sobre  as  consultas,  exames  médicos, agendamento, cadastro, convênios, prontuários médicos, anamneses e faturas. 

As informações  são  cadastradas, de  forma  estruturada,  em  tabelas  próprias  no banco  de  dados,  e, de  forma  não  estruturada, em  campos  do  tipo  texto,  nos  quais omédico  registra,  de  forma  livre,  alguns  tópicos  das anamneses,  informações  das consultas  e  retornos,  e  outros  tipos  de  informação, como, por  exemplo,  atestadosmédico, pedidos de exames, receituários e laudos. É registrado, também, o resultado dos exames,  porém  de  forma  semi­estruturada,  onde  são  usadas marcações  padronizadas.Por exemplo: a pressão arterial e freq�ência cardíaca são sempre registradas juntas e da seguinte forma: PA 999x999 FC 99 bpm. A Figura 1 ilustra a interface do eDoctor para o cadastramento das informações das anamneses, consultas e textos sobre o paciente.

Figura 1. Anamneses do eDoctor

O processo de realizar exames é feito pelo médico com o apoio de equipamentos apropriados. Antes do exame existe uma pequena consulta onde o médico verifica pré­requisitos  e  detalhes  como  a  última  vez  que  o  paciente  comeu  ou  a  indicação. Essas 

XXIV Simp�sio Brasileiro de Banco de Dados

214

Page 5: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

informações são armazenadas no prontuário do paciente,  junto com o laudo do exame.Da  mesma  forma  funciona  a  consulta,  porém  com  a  utilização da  funcionalidade  de consultas  e  retornos  provida  pelo  sistema. A Figura  2  ilustra  exemplos  dessas informações.

Figura 2. Textos e consultas do eDoctor

Com  o  crescimento  do  fluxo  de  pacientes  na  clínica,  algumas  questões  foram levantadas  pelos  médicos  e  administradores,  como  quantos  pacientes  usam  certoconvênio  ou  quais  são  os  médicos  que  encaminham  pacientes  para  a  clínica. Muitas dessas questões podem ser respondidas com as informações contidas na base de dados do  eDoctor, entretanto o  sistema  não  oferece  facilidades  analíticas. Surgiu,  assim,  anecessidade de um projeto de Data Warehouse sobre a base original. 

4. DoctorOLAP 

A  partir  dos  requisitos  analíticos  levantados  com  os  médicos,  o  DoctorOLAP  foi desenvolvido  tendo  como  fonte  de  dados  as  tabelas  do  eDoctor.  Porém,  com  o refinamento  das  análises,  começaram  a  surgir  consultas  que  não  poderiam  ser respondidas tendo como fonte de  informação apenas os dados de natureza estruturada. As  respostas  das  novas  análises  estão  contidas  nas  anotações  escritas, de  forma  livre,pelos médicos. 

Para  atender  as  novas  demandas  de  análises,  o  DoctorOLAP  passou  a  ser alimentado  através  de  dois  processos  de  ETL  (Figura  3)  com focos  distintos: um  natransformação de  dados e  o  outro  na  classificação  de  termos, apesar  de  terem  como fonte a mesma base de dados e alimentarem o mesmo cubo. Outro aspecto do ambiente é a disponibilidade  dos  documentos  dos  prontuários  médicos  para  serem acessados  a qualquer momento durante as análises.

Figura 3. Ambiente para análise multifacetada de dados heterogêneos

XXIV Simp�sio Brasileiro de Banco de Dados

215

Page 6: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

As  seções  seguintes  discutem  os  detalhes  desta  solução,  que  foi  desenvolvida utilizando o sistema de gerenciamento de banco de dados MS SQL Server, a ferramenta para extração de termos  IDS­Foundation5, o ambiente de desenvolvimento MS Visual Studio  Development  Kit com  os  serviços Analysis  Service e Integration  Service,  e  aferramenta OLAP Dundas para a navegação nos cubos construídos.

4.1 Ambiente analítico para os dados estruturados

Inicialmente, o DoctorOLAP foi projetado para atender às demandas de análise sobre o faturamento  e  consultas  da  clínica  ao  longo  do  tempo,  tendo  como  perspectivas  de análise o paciente, o serviço e o convênio. Nesse cenário, a modelagem representada na Figura 4 foi utilizada.

Figura 4. Modelagem Multidimensional para os dados estruturados do DoctorOLAP

A partir  desse modelo e  de  um processo  de ETL,  os  dados  do  eDoctor  foram carregados  no  DoctorOLAP.  Com  o  cubo  gerado  nesse  ambiente,  várias  perguntas analíticas puderam  ser  respondidas, por exemplo: convênios mais  lucrativos e serviço mais executado na clínica.

4.2 Ambiente analítico incorporando dados não estruturados

Para  incorporar os  dados  não  estruturados  no  ambiente  analítico  do DoctorOLAP,  foinecessária a  extensão  do  seu  modelo  multidimensional  para  acomodar  os  termos encontrados  nos  prontuários.  Essa  extensão  envolve  a  criação  de  novas  dimensões  e fatos.  Estes  fatos  compartilham dimensões  com  os  fatos  que  já existiam  no  modelo.Assim é possível a exploração conjunta de dados heterogêneos. 

4.2.1 Modelagem multidimensional das facetas

Uma taxonomia facetada se constitui em um vocabulário controlado organizado em uma estrutura  hierárquica  conceitual,  onde  as  categorias  da  taxonomia  são sintetizadas em um nível mais alto de classificação, chamado facetas [Tzitzikas e Analyti 2007].

As facetas de uma taxonomia podem ser construídas como perspectivas, pontos de vista ou dimensões de um domínio particular, provendo uma organização sistemática dos termos de um vocabulário controlado  [Prieto­Díaz 2002]. Assim, as  facetas foram modeladas  como dimensões  no DoctorOLAP para  que  os  dados  oriundos  de  diversas 

5 http://www.inmondatasystems.com/foundation.html

�����������������

PacienteID

Nome

DataNascimento

Sexo

���������

���������

<pk>

Fato Consulta

PacienteID

TempoID

Contador

<pk,fk1>

<pk,fk2>

Fato Faturamento

���������

����������

PacienteID

TempoID

ValorFatura

Contador

<pk,fk1>

<pk,fk2>

<pk,fk3>

<pk,fk4>

��������������

TempoID

Ano

���

Dia

<pk>

����������������

���������

�������

<pk>

�����������������

����������

��������

<pk>

XXIV Simp�sio Brasileiro de Banco de Dados

216

Page 7: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

fontes de informação não estruturadas pudessem ser explorados nas análises. Com isso, o modelo representado na Figura 5 foi elaborado, no qual os termos, suas categorias e facetas  são representadas  como  uma  dimensão  hierárquica  [Kimball et  al. 1998],  e  a ocorrência  dos  termos  nos  documentos  é representada em  um  fato.    Esse  fato  écorrelacionado com o documento onde o termo aparece. Dessa forma, a ocorrência dos termos  nos  documentos  pode  ser  analisada  sob a  perspectiva  das  facetas  e  dos documentos.

Figura 5. Modelagem Multidimensional de Facetas

No contexto do DoctorOLAP, o modelo multidimensional de  facetas  foi usado para acomodar a ocorrência dos termos das consultas, anamneses e textos dos pacientes,como será visto a seguir.

4.2.2 Modelo multidimensional do DoctorOLAP

O  modelo  multidimensional utilizado,  inicialmente, pelo  DoctorOLAP  foi  estendido com  novos  fatos  e  dimensões  para  incorporar  os  dados  de  natureza não  estruturada,como mostra a Figura 6. Foram acrescidas as dimensões Termo, Categoria, Facetas, e um fato com as ocorrências dos termos dos prontuários. Para acomodar o prontuário dopaciente, uma dimensão Prontuário foi criada com um atributo que indica o local onde o documento  do  paciente  está  localizado  fisicamente,  o  que  permitirá  seu  acesso  a qualquer momento durante uma análise. A dimensão Paciente foi compartilhada entre os fatos Ocorrência e os  fatos que  já existiam no modelo, com  isso os dados de natureza estruturada e não estruturada podem ser analisados de forma conjunta.

A modelagem  ilustrada na Figura 6 contempla apenas alguns  fatos, dimensões, métricas  e  atributos do  modelo  do  DoctorOLAP.  Esse  extrato  contém  as  entidades necessárias para o apoio à exploração analítica multifacetada descrita neste trabalho.

��������������

TermoID

CategoriaID

FacetaID

Termo

<pk>

<pk,fk>

<pk,fk>������������������

CategoriaID

FacetaID

Categoria

<pk>

<pk,fk>

���������������

TermoID

CategoriaID

FacetaID

DocumentoID

TempoID

����������

<fk1>

<fk1>

<fk1>

<fk2>

<fk3>

������������������

DocumentoID

�����������������

<pk>

���������������

FacetaID

Faceta

<pk>

��������������

TempoID

Ano

���

<pk>

XXIV Simp�sio Brasileiro de Banco de Dados

217

Page 8: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

Figura 6. Modelagem Multifacetada de Prontuários Médicos

4.3 Construção das Facetas do DoctorOLAP

O processo de construção da taxonomia facetada do DoctorOLAP foi realizado através de  um  ETL  Textual  composto  por  três  etapas:  extração  dos  prontuários  médicos  do eDoctor, classificação dos termos em categorias e facetas, e carga dos fatos e dimensões no DoctorOLAP, conforme ilustrado na Figura 7 e detalhado a seguir.

Figura 7. Processo de Construção das Facetas do DoctorOLAP

Na  primeira  etapa,  os  documentos  com  os  prontuários  médicos  dos  pacientes foram gerados a partir das anamneses, consultas e textos do eDoctor. Todas as palavras desses documentos  foram extraídas, as  stopwords foram excluídas, e os  termos  foram obtidos por  um  processo  de  radicalização.  Essa etapa  foi  executada  com o IDS­

Foundation, que utiliza um cadastro prévio das stopwords e uma engine para a extração dos radicais das palavras, que, entre outras coisas, elimina o plural e o gênero. Qualquer outro  ferramental  ou  biblioteca  poderiam ter  sido  utilizados,  conforme  discutido  na Seção  2.  O  resultado  desta  etapa  foi uma  lista  de  210.798  termos  contidos  nos  506

Data Mart Multifacetado 

sobre os dados 

����������������

������������������������

 entre os Data Marts

Data Mart sobre 

os dados estruturados

������������������

CategoriaID

FacetaID

Categoria

<pk>

<pk,fk> ���������������

FacetaID

Faceta

<pk>

��������������

TermoID

CategoriaID

FacetaID

Termo

<pk>

<pk,fk>

<pk,fk>

�������������������

������������

�����������������

<pk>

���������������

������������

TermoID

CategoriaID

FacetaID

PacienteID

TempoID

����������

<pk,fk2>

<pk,fk3>

<pk,fk3>

<pk,fk3>

<pk,fk4>

<pk,fk1>

�����������������

PacienteID

Nome

DataNascimento

Sexo

���������

���������

<pk>

Fato Consulta

PacienteID

TempoID

Contador

<pk,fk1>

<pk,fk2>

Fato Faturamento

���������

����������

PacienteID

TempoID

ValorFatura

Contador

<pk,fk1>

<pk,fk2>

<pk,fk3>

<pk,fk4>

��������������

TempoID

Ano

���

Dia

<pk>

����������������

���������

�������

<pk>

�����������������

����������

��������

<pk>

��������������

ExameID

Exame

<pk>

�����������������������

ValorExameID

Valor1

Valor2

<pk>

Fato Resultado

ValorExameID

ExameID

PacienteID

TempoID

Contador

<pk,fk1>

<pk,fk2>

<pk,fk3>

<pk,fk4>

Data Mart sobre

os dados semi­estruturados

XXIV Simp�sio Brasileiro de Banco de Dados

218

Page 9: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

documentos.  A  Figura  8 mostra  a  tabela  do  banco  de  dados  com  as  palavras encontradas, o seu radical e a sua localização dentro do documento. Nota­se que tanto as palavras  quanto  os  documentos  possuem  uma  identificação  única  no  banco,  que  seráutilizada para relacionar o documento ao termo.

Figura 8. Relação dos termos extraídos dos prontuários

Na  segunda  etapa,  os  termos  foram classificados  em  categorias,  e  estas sintetizadas  em  facetas com o  apoio  dos médicos  que  utilizam o  eDoctor. Apenas  os termos  empregados  nas  análises  foram classificados.  Essa  tarefa  foi  a  que  mais demandou  tempo  de  interação  com os médicos, tendo  em  vista  o  volume  dos termosobtidos dos prontuários. O tempo gasto poderia ter sido abreviado com a utilização de glossários  da  área  médica,  onde  os  termos  mais  relevantes  para  o  negócio  já  estão previamente selecionados. Ao final deste processo, a seguinte classificação foi gerada emantida em tabelas do banco de dados (Tabela 1).

Tabela 1. Facetas do DoctorOLAP

Na  terceira  e  última  etapa do  ETL  Textual,  os  documentos dos  prontuários,termos,  categorias  e  facetas  geradas  nas  etapas  anteriores  foram carregados  no DoctorOLAP.  Nesta  etapa,  os  termos  classificados  e  os  documentos  dos  prontuários foram relacionados  para  alimentar  o  fato  Ocorrência (Seção  4.2.2),  que  contém  a quantidade de vezes que cada termo aparece em cada documento.

Durante  o  processo  de ETL  textual,  a  localização  de  cada  um dos  termos  nos documentos  foi  mantida  em  uma  tabela  na  área  de transporte  (staging) do  banco  dedados e  depois  carregada  no  data  mart.  Desta  forma,  o  usuário pode  navegar  pelas facetas e categorias, selecionar o termo desejado, e explorar os prontuários que contêm aquele  termo.  Torna­se  possível,  assim,  analisar  os  prontuários  de  pacientes  que apresentaram determinado sintoma.

XXIV Simp�sio Brasileiro de Banco de Dados

219

Page 10: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

5. Análise multifacetada de prontuários médicos

No  DoctorOLAP, os  dados  heterogêneos  clínicos  podem  ser  explorados  de  forma conjunta, os prontuários médicos podem ser analisados sob a perspectiva das  facetas e acessados pontualmente ao longo de todo o processo de análise, conforme ilustrado nos exemplos a seguir.

5.1. Exploração conjunta de dados heterogêneos clínicos

Para  fazer  uma  análise,  por  exemplo,  sobre  os  pacientes  que  reclamaram  de  dores epigástricas  e  que  realizaram  o  serviço  de  Endoscopia,  é  necessária uma  análise conjunta dos dados estruturados e não estruturados, pois as queixas dos pacientes estãoanotadas  de  forma  livre  nas  anamneses e  consultas, e  o  serviço  realizado  está armazenado em uma tabela de atendimentos. Com o DoctorOLAP, é possível responder esta pergunta com o acesso à Dimensão Serviço (data mart sobre dados estruturados) e àDimensão Termo (data mart sobre os dados não estruturados) conforme ilustrado na tela de interface da ferramenta OLAP apresentada na Figura 9.

Figura  9. Pacientes  com  dor  epigástrica  (Dimensão  Termo)  que  fizeram endoscopia no consultório (Dimensão Serviço)

Da mesma forma, e evidenciando o enriquecimento das análises sobre os dados estruturados,  para  explorar  os  sintomas  mais  comuns  nos  pacientes  que  fazem endoscopia,  é  necessário  acessar  a  dimensão  Serviço  e  a  dimensão  Categoria,  esta filtrada por Sintomas. Neste caso, foi observado que o sintoma mais comum é Diarréia. A partir daí, é possível  fazer o drill down para ter acesso à lista dos 22 pacientes que atendem a esses critérios (Figura 10).

           Figura  10. Sintomas (Dimensão  Categoria) mais  comuns  nos  pacientes  que fazem endoscopia (Dimensão Serviço)

XXIV Simp�sio Brasileiro de Banco de Dados

220

Page 11: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

As  ferramentas OLAP,  de  forma  geral,  são  dotadas  de  funcionalidades  para  a geração de gráficos que permitem a análise de dados agregados. No DoctorOLAP, esta funcionalidade  foi  empregada  para  a  análise  das  ocorrências  dos  termos  sob  a perspectiva  dos  serviços  prestados  e  do  sexo  do  paciente.  Para  isso,  as  dimensõesTermo,  Categoria,  Paciente  e  Serviço,  e  os  fatos  Ocorrência  e  Faturamento  foram usadas para a construção do gráfico ilustrado na Figura 11.

Figura 11. Termos mais freqüentes por sexo e Sintomas mais comuns nos pacientes que fazem endoscopia por sexo

A partir do gráfico gerado, observa­se que cirurgia é o termo mais freq�ente nos prontuários e que o principal sintoma dos pacientes que fazem endoscopia é a dor.

5.2. Análise e navegação sobre os prontuários médicos a partir de facetas

Para  identificar  os  pacientes  que  já  tomaram um determinado medicamento (no  caso,Omeprazol)  examinando seu  prontuário,  o  fato  Ocorrência  foi  analisado  sob  a perspectiva  de  uma  faceta.  Neste caso, foi  aplicado  um  filtro  para  mostrar  apenas  a faceta Tratamento. A partir dela, foi feito um drill down para a categoria Medicamento e finalmente para o termo Omeprazol. Depois das operações de slice e drill down no cubo das  Ocorrências  de  termos,  a  lista de  documentos  de  prontuários  que  tomaram Omeprazol foi exibida, conforme ilustrado na Figura 12.

Figura 12. Lista dos prontuários de pacientes que já tomaram Omeprazol

É possível navegar pelos prontuários dos pacientes que já tomaram Omeprazol, tendo  um  contador  de  quantas  vezes  o  termo  aparece  em  seu  prontuário.  Uma  vez selecionado o registro, é possível acessar o prontuário escolhido (Figura 13 e 14).

XXIV Simp�sio Brasileiro de Banco de Dados

221

Page 12: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

Figura 13. Prontuário médico do paciente acessado pela análise multifacetada

Os  resultados  mostram,  também,  novos  aspectos  sobre  o  negócio, que  foram descobertos durante a análise dos prontuários sob a perspectiva das facetas. Nesse caso, foi observado que a maior parte das anotações dos médicos sobre seus pacientes falam sobre  os tratamentos realizados.  Os termos  dessa  faceta  aparecem  5.020 vezes  nos prontuários, que por sua vez, aparecem 2.783 na categoria Cirurgia (Figura 14).

Figura 14: Análise dos prontuários sob a perspectiva das facetas e categorias

Outro requisito  dos  médicos  é  a  análise  dos  pacientes  que  apresentam  um determinado  quadro  clínico, no  caso um  Tumor.  Para  isso,  a dimensão  Termo  foi consultada  e  filtrada  por  Tumor,  o atributo  Nome  da  dimensão  Paciente e  o  fato Ocorrência foram selecionados. O resultado da análise está ilustrado na Figura 15.

XXIV Simp�sio Brasileiro de Banco de Dados

222

Page 13: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

Figura 15: Pacientes com mais ocorrências de tumor em seus prontuários

A  partir  deste  resultado,  o  médico  pode  acessar  os  prontuários  e  analisar pontualmente os casos que estão sendo objeto de seu estudo naquele momento, além de poder adicionar novas perspectivas como a idade e a etnia dos pacientes que têm tumor, assim enriquecendo a sua análise.

6. Conclusões e Trabalhos Futuros

Os  dados  de  natureza  não  estruturada contidos  nos  prontuários  eletrônicos  possuem informações  valiosas  para  análise  clínica.  Este  artigo  apresenta  uma  solução  de ambiente  analítico  para  a  exploração  desses  dados  em  conjunto  com  os  dados estruturados  extraídos  do  ambiente  operacional.  Para  isso,  o  DoctorOLAP  foi desenvolvido utilizando um modelo multidimensional que contempla   uma  taxonomiafacetada,  construída  a  partir  dos  termos  encontrados  nos  prontuários  médicos,caracterizando  uma  das  maiores  contribuições  deste  trabalho. Para  implementar  essa aplicação,  além do ETL  tradicional sobre  os  dados  estruturados,  um ETL Textual  foi utilizado para a extração e limpeza desses termos, que foram classificados em categorias e depois sintetizados em facetas, para serem utilizados como perspectivas de análise dos dados.

Com a  análise multifacetada  dos  prontuários médicos,  novos  aspectos  sobre  o negócio  puderam  ser  descobertos,  como  o  assunto  mais  freq�ente  nas  anotações  dosmédicos ou  os  pacientes  que  apresentam  determinado  quadro  clínico. Outra contribuição do DoctorOLAP é oferecer um ambiente que permite a análise clínica de um escopo mais amplo até o detalhe de uma anotação feita sobre um paciente, onde odocumento do prontuário pode ser acessado a qualquer momento durante a exploração.Essas descobertas  e  facilidades  foram  obtidas  devido  à abordagem  utilizada  na implementação da aplicação onde é possível a análise integrada de dados heterogêneos.

Para  o  aprimoramento  da  abordagem do  DoctorOLAP, é necessário  umtratamento terminológico com a aplicação de técnicas e metodologias mais elaboradas de construção de taxonomias facetadas, como em [Stewart 2008]. Assim como um ETLTextual mais sofisticado para a limpeza, radicalização e tratamento de sinônimos, o que já  vem  sendo  estudado  em  [Louvisse  e  Silva 2009]. Outro  importante  aspecto  a  ser refinado é  a  análise  dos  quadros  clínicos  sob  uma  perspectiva  temporal, pois  estes 

XXIV Simp�sio Brasileiro de Banco de Dados

223

Page 14: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

evoluem a cada dia à medida que o tratamento assume novos rumos devido às reações clínicas do paciente.

Apesar  do  foco  deste  trabalho  ter  sido  o de Data  Warehouses  Clínicos,  o ambiente  proposto  pode  ser  aplicado  em outras  áreas  de  negócio,  trazendo  novas perspectivas  e  aumentando  significativamente  o  potencial  das  soluções  analíticas  nas organizações. Isso  é  possível  com a  construção ou  utilização  de  taxonomias  facetadasdo domínio em questão, servindo como base para classificação dos termos das diversas fontes de dados disponíveis. Esta questão é investigada em mais detalhes em projeto de pesquisa [Heuseler 2009], ainda em  andamento,  que  generaliza  a  abordagem  aqui apresentada.

Referências

Banek, M., Tjoa A. M. e Stolba N. (2006) Integrating different grain  levels  in a medical data warehouse  federation.  Data  Warehousing  and  Knowledge  Discovery,  8th  International 

Conference, DaWaK, Krakow, Polônia, páginas 185­194, Setembro. 

CDR (2009) Waban Clinical Data Repository, Waban Software.

Cherman, E. A., Lee, H. D., Honorato, D. F., Fagundes, J. J., Goes, J. R. N., Coy, C. S. R., Wu, F.C.  (2007)  Metodologia  de  Mapeamento  de  Laudos  Médicos  para  Bases  de  Dados: 

Aplicação em Laudos Colonoscópicos. II Congresso Trinacional de Ciências, Foz do Iguaçu, 

páginas 1­9.

����������������������������������������������������������������������������������������­

��������������������������������������������������������������������������������

Einbinder, J. e Scully, K. (2002) Using a Clinical Data Repository  to Estimate  the Frequency 

and  Costs  of  Adverse  Drug  Events.  Journal  of  the  American  Medical  Informatics Association, páginas 34­38.

Feldman,  R.  e  Sanger,  J.  (2007)  The  Text  Mining  Handbook  ­ Advanced  Approaches  In

Analyzing Unstructured Data, Cambridge University Press.

������ ��� ������� ������������ ��� ��������� ��������� ����� ��������� ���������� ����� ��������

������������������Massachusetts, USA, Elsevier Inc.

Harkema,  H.,  Roberts,  I.,  Gaizauskas,  R.  e  Hepple,  M.  (2005). Information  Extraction  from Clinical Records. In Proceedings of the 4th UK e-Science All Hands Meeting, Nottingham, 

UK.

Heuseler,  F.  (2009) Uma  abordagem  multifacetada  para  exploração  integrada  de  dados estruturados  e não estruturados em ambientes OLAP, Dissertação de Mestrado, DCC/NCE, UFRJ, Em andamento.

Honorato,  D.  F.  (2008)  Metodologia  para  mapeamento  de  informaç�es  não  estruturadas 

descritas  em  laudos  médicos  para  uma  representação  atributo­valor,  Dissertação  de Mestrado, Instituto de Ciências Matemáticas e de Computação (ICMC), USP.

Inmon, W.  e Nesavich,  A.  (2008), Tapping  into  Unstructured Data:  Integrating  Unstructured 

and Textual Analytics into Business Intelligence, Prentice Hall.

Kimball, R., Reeves, L., Ross, M. e Thornthwaite, W. (1998), �The Data Warehouse Lifecycle 

Toolkit���Wiley.

Manfré, P. N. e Scalabrin, E. E. (2008) Uma Proposta de Sistema Integrado de Informação para 

uma Clínica de Estética, Anais do XI Congresso Brasileiro de Informática em Sáude ­ CBIS, Campos do Jordão, São Paulo. Dezembro.

XXIV Simp�sio Brasileiro de Banco de Dados

224

Page 15: DoctorOLAP: Ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… · DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos JoãoLuiz

McCabe, M. C., Lee, J., Chowdhury, A., Grossman, D., Frieder, O.  (2000) On the design and evaluation  of  a multi­dimensional  approach  to  information  retrieval.  In Proceedings of  the 

23rd  Annual  International  ACM  SIGIR  Conference  on  Research  and  Development  in 

Information Retrieval, páginas 363­365.

Louvisse,  D  e  Silva,  T.  L.  (2009) Estratégias  e  mecanismos  para  ETL Textual,  Trabalho  de Conclusão de Curso (Bacharelado em Informática) ­ Universidade Federal do Rio de Janeiro

Pedersen,  T.  B.,  Vej,  P.  O.  e  Jensen,  C.  S.  (1998). ���������� ������� in  Clinical ������������������ ���Proceedings of  the  10th  International Conference on Scientific and 

Statistical Database Management.

������� ��� ������� ����������������� �� ����� ���������� ����� ������������ Ph.  D.  Thesis. 

Universitat Jaume I, Castell´on, Fevereiro.

Porto, C. C. (2009) �����������������������������������������������������������

Prieto­��������������������������������������������������������������������

����������� �������������������������������������������������������� ��� ������������������S�����������������������������������The Data Warehousing Institute.

���������������������������������������������������������������������������������������������

1th Australasian Workshop  on  Health  Knowledge Management  and  Discovery  (HKMD), 

Ballarat, Australia. Vol. 68.

Scully, K.W., Riddle, R.K., Nadkarni, M., Lyman, J.A (2004) Defining Diabetes  in a Clinical 

Data Warehouse, MEDINFO, Amsterdam: IOS Press.

Spitzer,  A.  (2008)  The  electronic  medical  record  and  the  Data  warehouse:  evidence­based Medicine for improving patient Outcomes, The Center for Research and Education, Pediatrix 

Medical Group.

STRIDE  (2009)  Stanford  Translational  Research  Integrated  Database  Environment,  Stanford Center  for  Clinical  Informatics,  Stanford  University  Medical  Center. 

http://stride.stanford.edu

Stewart, D. L. (2008) Building Enterprise Taxonomies, 1a. Edição, Mokita Press.

������������������������������������������������������������������������������������������������������������������������������������������������������������ical Informatics, 683­691.

����������� ��� �� ��������� ��� ������� ��������� ��������­������ ������������ �������������

Database and Expert Systems Applications. DEXA. In Proceedings of the 18th International Conference on Database and Expert Systems Applications, páginas 207­211, Setembro.

Wisniewski, M.F., Kieszkowski,  P.,  Zagorski, B.M., Trick, W.E., Sommers, M.  e Weinstein, 

R.A.  (2003)  Development  of  a  Clinical  Data  Warehouse  for  Hospital  Infection  Control,Journal of the American Medical Informatics Association, páginas 455­62.

Zhou, X., Han, H., Chankai, I., Prestrud, A. e Brooks, A. (2006). Approaches to text mining for 

clinical  medical  records.  In  Proceedings  of  the  ACM  Symposium  on  Applied  Computing,

Dijon, França, páginas 235­239. 

Zhou, X., Liu, B., Wang, Y., Zhang, R., Li, P., Chen, S., Guo, Y., Gao, Z. e Zhang , H. (2008) 

���������� ��������� ����� ���������� ���� ������������ �������� ��������� ����������

������������ �������������� ����������� ��� ����������� ������������ ���� �����������,Washington, DC, USA, páginas 615­620.

XXIV Simp�sio Brasileiro de Banco de Dados

225