8
Armazenamento de Imagens M´ edicas DICOM em Sistemas de Arquivos Distribu´ ıdos Douglas D. J. de Macedo 1,2 , Hilton G. W. Perantunes 1,2 , Aldo von Wangenheim 1 , M. A. R. Dantas 2 Universidade Federal de Santa Catarina Departamento de Inform´ atica e Estat´ ıstica 1 Laborat´ orio de Telemedicina - LABTELEMED 2 Laborat´ orio de Pesquisa em Sistemas Distribu´ ıdos – LAPESD 88040-900 – Florian´ opolis – SC, Brasil {macedo,william,awangenh,mario}@inf.ufsc.br Resumo etodos para armazenamento e recuperac ¸˜ ao de informac ¸˜ oes em sistemas de telemedicina, em sua maio- ria est˜ ao relacionados a utilizac ¸˜ ao de bancos de dados convencionais. Assim, desafios relacionados a escalabili- dade, distribuic ¸˜ ao, desempenho e o alto custo computaci- onal envolvido, induz em pesquisas de novas abordagens para soluc ¸˜ ao destes problemas. Diante disto, neste tra- balho de pesquisa utilizou–se um meio alternativo de alto desempenho para o armazenamento de imagens m´ edicas DICOM. Foi proposto um modelo de dados, baseado na hierarquizac ¸˜ ao das imagens, utilizando o formato de dados HDF5. Para distribuic ¸˜ ao dos dados, foi utilizado o sistemas de arquivos distribu´ ıdos PVFS, como plataforma b´ asica para armazenamento. Desta forma, a presente pesquisa apresenta um m´ etodo diferenciado de armazenamento e de acesso aos dados. Nos resultados experimentais, o armaze- namento das informac ¸˜ oes obteve um desempenho da ordem de 17%, em relac ¸˜ ao a recuperac ¸˜ ao que ocorreu na casa dos 27%. Estes dados indicam um desempenho superior no ar- mazenamento, quando comparado ao meio tradicional uti- lizando bancos de dados relacionais. 1. Introduc ¸˜ ao Na d´ ecada de 60 [6] as primeiras aplicac ¸˜ oes de Teleme- dicina surgiram, e desde ent˜ ao ´ e sugerida e aplicada como uma forma de prover acesso ` a sa ´ ude de pessoas que estejam isoladas ou desprovidas de acesso a pessoal m´ edico qua- lificado. Neste tipo de abordagem, a sua utilizac ¸˜ ao pode reduzir o custo de transporte de pacientes e maximizar a utilizac ¸˜ ao do parque tecnol´ ogico instalado em hospitais e clinicas m´ edicas [15]. No decorrer destes anos, a Telemedicina e conseq¨ uen- temente os Sistemas de Telemedicina evolu´ ıram e vˆ em se disseminando por muitos pa´ ıses. Os principais fatores que culminaram neste desenvolvimento foram a sofisticac ¸˜ ao das redes de comunicac ¸˜ ao, em conjunto com os protocolos de rede, sistemas operacionais e os equipamentos de nova gerac ¸˜ ao para imagens m´ edicas. Entretanto, ainda existem muitos desafios que cerceiam este crescimento, que v˜ ao desde melhores regulac ¸˜ oes e normas de boas pr´ aticas na medicina at´ e melhores infra– estruturas para suportar sua disseminac ¸˜ ao em escala. Por estes motivos, atualmente a grande maioria destes sis- temas est˜ ao instalados dentro dos hospitais. Visando a ampliac ¸˜ ao destes servic ¸os para fora destes limites, existem muitos desafios tecnol´ ogicos a serem resolvidos, tais como: indexac ¸˜ ao de informac ¸˜ oes de forma distribu´ ıda [12], meca- nismos de integrac ¸˜ ao mais eficazes [11], m´ etodos de arma- zenamento alternativo aos bancos de dados (objetivo deste trabalho), entre outros. ´ E importante salientar que o desenvolvimento de novos etodos para tratamento destes problemas devem proporci- onar n´ ıveis de escalabilidade sustent´ aveis e arquiteturas que suportem a inserc ¸˜ ao de mecanismos de alto desempenho. Esta problem´ atica advˆ em do fato de que bancos de dados edicos, que s˜ ao compostos de dados de pacientes, ima- gens e v´ ıdeos, no geral podem ultrapassar facilmente v´ arios terabytes de tamanho. O projeto chamado Rede Catarinense de Telemedicina RCTM [14] do Estado de Santa Catarina, ´ e um exemplo do uso de Telemedicina no Brasil. Este projeto ´ e desen- volvido e mantido pelo Laborat´ orio de Telemedicina [4] da Universidade Federal de Santa Catarina (UFSC) e ´ e constitu´ ıdo por uma s´ erie de servic ¸os para aux´ ılio a sa´ ude [19]. Entre estes servic ¸os est´ a o objeto de estudo deste trabalho, o CyclopsDCMServer, um servidor de imagens IX Simpósio em Sistemas Computacionais 91

Armazenamento de Imagens Me´dicas DICOM em Sistemas de ... · Armazenamento de Imagens Me´dicas DICOM em Sistemas de Arquivos Distribu´ıdos Douglas D. J. de Macedo1,2, Hilton

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Armazenamento de Imagens Me´dicas DICOM em Sistemas de ... · Armazenamento de Imagens Me´dicas DICOM em Sistemas de Arquivos Distribu´ıdos Douglas D. J. de Macedo1,2, Hilton

Armazenamento de Imagens Medicas DICOM emSistemas de Arquivos Distribuıdos

Douglas D. J. de Macedo1,2, Hilton G. W. Perantunes1,2, Aldo von Wangenheim1, M. A. R. Dantas2

Universidade Federal de Santa CatarinaDepartamento de Informatica e Estatıstica

1Laboratorio de Telemedicina - LABTELEMED2Laboratorio de Pesquisa em Sistemas Distribuıdos – LAPESD

88040-900 – Florianopolis – SC, Brasil{macedo,william,awangenh,mario}@inf.ufsc.br

Resumo

Metodos para armazenamento e recuperacao deinformacoes em sistemas de telemedicina, em sua maio-ria estao relacionados a utilizacao de bancos de dadosconvencionais. Assim, desafios relacionados a escalabili-dade, distribuicao, desempenho e o alto custo computaci-onal envolvido, induz em pesquisas de novas abordagenspara solucao destes problemas. Diante disto, neste tra-balho de pesquisa utilizou–se um meio alternativo de altodesempenho para o armazenamento de imagens medicasDICOM. Foi proposto um modelo de dados, baseado nahierarquizacao das imagens, utilizando o formato de dadosHDF5. Para distribuicao dos dados, foi utilizado o sistemasde arquivos distribuıdos PVFS, como plataforma basicapara armazenamento. Desta forma, a presente pesquisaapresenta um metodo diferenciado de armazenamento e deacesso aos dados. Nos resultados experimentais, o armaze-namento das informacoes obteve um desempenho da ordemde 17%, em relacao a recuperacao que ocorreu na casa dos27%. Estes dados indicam um desempenho superior no ar-mazenamento, quando comparado ao meio tradicional uti-lizando bancos de dados relacionais.

1. Introducao

Na decada de 60 [6] as primeiras aplicacoes de Teleme-dicina surgiram, e desde entao e sugerida e aplicada comouma forma de prover acesso a saude de pessoas que estejamisoladas ou desprovidas de acesso a pessoal medico qua-lificado. Neste tipo de abordagem, a sua utilizacao podereduzir o custo de transporte de pacientes e maximizar autilizacao do parque tecnologico instalado em hospitais eclinicas medicas [15].

No decorrer destes anos, a Telemedicina e consequen-temente os Sistemas de Telemedicina evoluıram e vem sedisseminando por muitos paıses. Os principais fatores queculminaram neste desenvolvimento foram a sofisticacao dasredes de comunicacao, em conjunto com os protocolos derede, sistemas operacionais e os equipamentos de novageracao para imagens medicas.

Entretanto, ainda existem muitos desafios que cerceiameste crescimento, que vao desde melhores regulacoes enormas de boas praticas na medicina ate melhores infra–estruturas para suportar sua disseminacao em escala. Porestes motivos, atualmente a grande maioria destes sis-temas estao instalados dentro dos hospitais. Visando aampliacao destes servicos para fora destes limites, existemmuitos desafios tecnologicos a serem resolvidos, tais como:indexacao de informacoes de forma distribuıda [12], meca-nismos de integracao mais eficazes [11], metodos de arma-zenamento alternativo aos bancos de dados (objetivo destetrabalho), entre outros.

E importante salientar que o desenvolvimento de novosmetodos para tratamento destes problemas devem proporci-onar nıveis de escalabilidade sustentaveis e arquiteturas quesuportem a insercao de mecanismos de alto desempenho.Esta problematica advem do fato de que bancos de dadosmedicos, que sao compostos de dados de pacientes, ima-gens e vıdeos, no geral podem ultrapassar facilmente variosterabytesde tamanho.

O projeto chamado Rede Catarinense de TelemedicinaRCTM [14] do Estado de Santa Catarina, e um exemplodo uso de Telemedicina no Brasil. Este projeto e desen-volvido e mantido pelo Laboratorio de Telemedicina [4]da Universidade Federal de Santa Catarina (UFSC) e econstituıdo por uma serie de servicos para auxılio a saude[19]. Entre estes servicos esta o objeto de estudo destetrabalho, o CyclopsDCMServer, um servidor de imagens

IX Simpósio em Sistemas Computacionais 91

Page 2: Armazenamento de Imagens Me´dicas DICOM em Sistemas de ... · Armazenamento de Imagens Me´dicas DICOM em Sistemas de Arquivos Distribu´ıdos Douglas D. J. de Macedo1,2, Hilton

medicas DICOM, projetado para trabalhar em redes de lon-gas distancias e que grava todas suas informacoes em ban-cos de dados relacionais.

No modelo adotado pela RCTM [13], os hospitais dosmunicıpios realizam os exames nos pacientes, tais como:eletrocardiogramas, hemodinamicas, cintilografias, tomo-grafias e ressonancias. Estes exames sao enviados em temporeal no formato de imagens medicas DICOM para oCy-clopsDCMServer, que segmenta as informacoes e trata asimagens, as enviando entao para um banco de dados centra-lizado, no Hospital Universitario. Os medicos entao podemacessar as informacoes dos exames, atraves do Portal de Te-lemedicina [19] para efetuar os procedimentos necessarioscom os dados.

Pensando neste problema, este trabalho abordara o usode sistemas de arquivos distribuıdos, baseados em agre-gados computacionais, para o armazenamento destas ima-gens DICOM. Entretanto, armazenar imagens em for-mato “puro” impossibilitaria ou dificultaria uma futurarecuperacao das informacoes. Para isto, as informacoesserao hierarquizadas e armazenadas no formato de dadosHDF5. Desta forma, esta abordagem tera uma camada dealta performance para o armazenamento das imagens e me-tadados hierarquizados, o que possibilitara a recuperacaodos dados no meio distribuıdo.

No restante deste artigo sera apresentada uma breve re-visao bibliografica, alguns aspectos de trabalhos relaciona-dos, a pesquisa realizada e os resultados experimentais. As-sim, na secao 2 sera apresentado um embasamento teoricosobre imagens medicas e ao formato de dados HDF5. Nasecao 3 serao relacionados e comentados alguns trabalhoscorrelatos ao tema. Na secao 4, a arquitetura proposta dotrabalho sera apresentada. Na secao 5, serao discutidoso ambiente de trabalho, os experimentos realizados, bemcomo os resultados experimentais. Por fim, na secao 6 seraoapresentadas as conclusoes e os possıveis temas para traba-lhos futuros.

2. Imagens Medicas e Armazenamento

2.1. Imagens Medicas

Com o avanco tecnologico, na decada de 70, surgiuuma nova modalidade de equipamentos para diagnosticomedico, a Tomografia Computadorizada (Computed Tomo-graphy). Um exemplo deste tipo de imagem pode ser vi-sualizado na Figura 1. Ela introduziu o uso de tecnicas dearquivamento e transmissao de imagens digitalizadas nosambientes hospitalares.

Apos o surgimento deste tipo de exame, outras modali-dades de diagnostico elaborados por imagens digitais emer-giram. Porem, a inexistencia de um padrao unico de trocade imagens tornou-se um problema, frente a necessidade de

Figura 1. Tomografia Computadorizada

interconectar sistemas de diferentes fabricantes. Por estefato, cada fornecedor criava sua propria solucao para arqui-vamento, impressao, transmissao e visualizacao de imagensdigitais e informacoes de cada modalidade de exame [8].

A partir deste problema o Colegio Americano de Radi-ologia (ACR –American College of Radiology), em con-junto com a Associacao de Fabricantes de EquipamentosEletricos dos Estados Unidos (NEMA –National ElectricalManufactures Association), reconheceram a necessidade daexistencia de um padrao unico para a intercomunicacao en-tre equipamentos fabricados por diferentes fornecedores.

A primeira versao deste padrao foi publicada em 1985e foi denominada ACR-NEMA Standards Publication No.300-1985. Logo apos a primeira versao, ocorreram duasrevisoes, em 1986 e 1988, sendo a ultima denominadaACR-NEMA Standards Publication No. 300-1988. Es-tas regulacoes proviam especificacoes de uma interface dehardware, um conjunto de formatos de dados e um conjuntomınimo de comandos de software.

A maior deficiencia deste padrao era em relacao ao su-porte aos ambientes de redes de computadores. Por estemotivo, o padrao resistiu ate 1992, quando foi lancada aACR-NEMA Standards Publication PS3, tambem chamadade DICOM 3 (Digital Imaging and Communications in Me-dicine), um padrao muito mais robusto que os primeiros.

Atualmente o DICOM 3 e o padrao de fato para os Siste-mas de Arquivamento e Comunicacao de Imagens (PACS– Picture Archiving and Communications System), sendosuportado pela grande maioria dos aparelhos que traba-lham com informacoes medicas digitais. O fato de umaparelho o suportar e a garantia de que este podera serfacilmente integrado em um PACS ja existente devido autilizacao de tecnologias de rede acessıveis e baratas paraa sua implementacao, e ao fato de este poder utilizar-se deservicos disponibilizados por outros aparelhos que tambemsuportem o padrao DICOM [8].

A partir da versao 3 do DICOM, o Laboratorio de

92 29 de Outubro a 1º de Novembro de 2008

Page 3: Armazenamento de Imagens Me´dicas DICOM em Sistemas de ... · Armazenamento de Imagens Me´dicas DICOM em Sistemas de Arquivos Distribu´ıdos Douglas D. J. de Macedo1,2, Hilton

Telemedicina da Universidade Federal de Santa Catarina(UFSC), desenvolveu o seu proprio servidor para arma-zenamento e recuperacao de imagens medicas, chamadoCyclopsDCMServer. Ele foi desenvolvido para funcio-nar em ambientes PACS, dentro de hospitais ou clınicasradiologicas. Entretanto, devido as necessidades de ex-pansao, ele foi remodelado para trabalhar em redes de longadistancia, onde foram incluıdos aspectos de tolerancia a fa-lhas, tratamento de erros, entre outros aspectos [16].

Um dos principais objetivos deste servidor e armazenar efornecer arquivos DICOM indexados em um repositorio dedados gerenciado por SGBDs relacionais, tais como: Post-greSQL, MySQL, Oracle, etc. Toda a comunicacao entre osequipamentos medicos e o servidor e realizada atraves deredes de comunicacao baseadas em TCP/IP [1]. Atualmenteo CyclopsDCMServer suporta as seguintes modalidades deexames medicos:

• Radiografia Computadorizada (CR)

• Tomografia Computadorizada (CT)

• Ressonancia Magnetica (MR)

• Medicina Nuclear (NM)

• Ultra-Som (US)

• Cintilografia (XA)

• Eletrocardiogramas (ECG)

2.2. Formato de Dados Hierarquico

O Formato de Dados Hierarquico [2] (HDF –Hierar-quical Data Format) e um formato portavel de dados de-senvolvido no parque de pesquisas da Universidade de Illi-nois nos Estados Unidos. Trata-se de uma biblioteca paramanipulacao de alto desempenho de dados cientıficos, quepossibilita o armazenamento de objetos com grandes quan-tidades de dados, comoarraysmulti-dimensionais e tabelascom grandes conjuntos de dados, que podem ser utilizadosem conjunto, de forma que atenda as aplicacoes.

A sigla HDF tambem se refere ao conjunto de softwa-res, interfaces de aplicativos e utilitarios que compoem abiblioteca e que possibilitam aos usuarios a manipulacao dearquivos no formato. O software esta em desenvolvimentodesde 1988 e atualmente encontra-se em sua quinta versao,a HDF5. Esta, por questoes de projeto, nao possui com-patibilidade com as versoes anteriores, mas possui diversosaprimoramentos em relacao a elas, em especial no que serefere ao acesso paralelo a dados [18].

O HDF5 implementa um modelo para o gerenciamentoe armazenamento de dados que e um modelo abstrato derepresentacao e armazenamento. Tambem estao presentesbibliotecas para implementar o modelo e mapea-lo para

diferentes mecanismos de armazenamento. A bibliotecatambem implementa um modelo de transferencia de da-dos que prove uma forma eficiente de transferencia de umarepresentacao de armazenamento para outra representacao.Entre suas caracterısticas, destaca-se a capacidade de auto-descricao atraves de metadados sobre o conteudo dos arqui-vos, flexibilidade no uso de diferentes tipos de dados emum unico ou multiplos arquivos, portabilidade entre plata-formas, padronizacao de tipos e formatos de dados e o fatode a biblioteca ser um software de codigo aberto.

O seu modelo de programacao suporta desde pequenossistemas ate grandes multi-processadores e clusters, mani-pulando por meio de instanciacao, registro e recuperacaode dados, objetos do modelo abstrato. A biblioteca e aimplementacao concreta do modelo de programacao, e ex-porta as APIs HDF5 e suas interfaces.

As estruturas conceituais mais importantes do HDF5sao odatasete o group. Um datasete um array multi-dimensional de elementos de um tipo de dados (datatype)especificado. Os tipos de dados podem ser atomicos(numeros inteiros, de ponto flutuante, cadeias de caracteres,etc) ou tipos compostos. Os grupos sao similares a estrutu-ras de diretorio, provendo uma forma de organizar explici-tamente os conjuntos de dados em um arquivo HDF5.

Figura 2. Relacionamento Entre os Modelos

A biblioteca HDF5 possui uma Camada Virtual de Ar-quivos (VFL – Virtual File Layer), que consiste de uma APIpara o tratamento de operacoes de I/O em baixo nıvel, deforma que uma aplicacao possa gravar dados utilizando di-ferentes recursos de armazenamento [17], como pode serobservado na Figura 2.

O Modelo Abstrato de Dados (ADM – Abstract DataModel) define conceitos para a descricao de dados com-plexos armazenados nos arquivos.E um modelo genericoprojetado para conceitualmente abranger diversos modelosespecıficos de dados. Diferentes tipos de dados podem ser

IX Simpósio em Sistemas Computacionais 93

Page 4: Armazenamento de Imagens Me´dicas DICOM em Sistemas de ... · Armazenamento de Imagens Me´dicas DICOM em Sistemas de Arquivos Distribu´ıdos Douglas D. J. de Macedo1,2, Hilton

mapeados para objetos do modelo de dados HDF5, e con-sequentemente armazena-los e recupera-los utilizando a bi-blioteca HDF5 [2].

O HDF5 Lite possui dois conjuntos de funcoes, relacio-nados a manipulacao dedatasetseatributos. Os metodos daAPI consistem de funcoes de maior nıvel de abstracao querealizam mais operacoes por chamada do que as funcoesbasicas da biblioteca HDF5. O proposito e servir como in-terface por meio de funcoes intuitivas que utilizam conjun-tos especıficos de caracterısticas da API existente. Mesmocom a API de alto nıvel, porem, algumas funcoes de criacaoe acesso aos arquivos do HDF5 basico podem precisar serutilizadas por uma aplicacao.

Por outro lado, a API HDF5 Image define um sistemapadrao de armazenamento paradatasetsHDF5 que espera-se que sejam interpretados como imagens. Esta versao daAPI possui metodos para armazenar imagens indexadas de8 bits, nas quais cadapixel e armazenado como um ındiceem uma paleta de cores, e imagenstrue color de 24 bits,em que o armazenamento de cadapixel contem os planosde cores vermelho, verde e azul.

Ambas as APIs serao utilizadas em uma ferramentaconstruıda para servir como ponte de acesso entre o servidorde imagens DICOM e as funcoes da biblioteca HDF5 paraa criacao de arquivos neste formato a partir de um conjuntode imagens medicas. Na proxima secao serao apresentadosalguns trabalhos relacionados a implementacao de sistemasde armazenamento baseados em HDF5.

3. Trabalhos Relacionados

A aplicacao do HDF5, para manipulacao de dadosmedicos e um tema ainda muito pouco estudado. Um dosmotivos e pelo fato de que a maioria dos servidores deimagens medicas, vem comdrivers especıficos para arma-zenamento de informacoes em bancos de dados relacio-nais. Entretanto, o HDF5 e utilizado em uma vasta area deaplicacao, com diferentes abordagem, mas principalmenteem aplicacoes cientıficas e tecnologicas, para tratamento degrandes quantidades de informacoes, como podemos cons-tatar nos trabalhos de Cohenet al. [7], Gosinket al. [9],Lee e Hung [10] e Yuet al. [20].

No trabalho de Cohenet al. [7] e apresentado um es-tudo baseado em extensoes de sistemas gerenciadores debancos de dados relacionais, que permitem a representacaode dados cientıficos e operacoes estatısticas comuns. Fo-ram utilizados o NetCDF e o HDF, que sao os dois dos for-matos cientıficos mais populares. Neste trabalho, ainda fo-ram realizadas operacoes estatısticas, usando as extensoesdos SGBDs em comparacao com as operacoes nativas doNetCFD e do HDF.

Gosink et al. [9] apresentam uma nova abordagempara acelerar os acessos a grandes arquivos HDF5, uti-

lizando indexacao semantica multi–dimensional, denomi-nada HDF5–FastQuery. Os resultados deste trabalho de-mostraram que esta nova abordagem e duas vezes maisrapida que o os metodos padroes do HDF5.

Lee e Hung [10] descrevem o desenvolvimento deuma ferramenta, elaborado pelo time CERES (Clouds andEarth’s Radiant Energy System) de Gerenciamento de Da-dos, que e parte do Sistema de Observacao da Terrada NASA. Esta ferramenta tem a funcao de visualizacaografica via interface com o usuario para analises dedata-setsHDF.

Yu et al. [20] realizam em seu trabalho uma serie deavaliacoes de desempenho em gravacoes de dados parale-las. Sao realizados varios testes de leitura e escrita em in-terfaces paralelas de alto nıvel tais como HDF e o NetCDF,em ambientes com um grande numero de processadores, nocaso e utilizado o supercomputador Blue Gene/L.

4. Arquitetura Proposta

Com o uso da tecnologia descrita, foi iniciada apreparacao de um ambiente em que imagens medicas noformato DICOM pudessem ser armazenadas em um meiodistribuıdo no formato HDF5 em adicao aos metodos ja des-critos, como gravacao em banco de dados relacionais. Talambiente possibilita a realizacao de comparacoes, buscandoanalisar os custos de tempo de gravacao e recuperacao entreos dois metodos.

O primeiro passo para a preparacao do ambiente, foi acriacao do HDF5 Wrapper Library (H5WL). O H5WL euma biblioteca composta de um objetowrapperque contemos metodos de criacao e armazenamento de informacoes es-pecıficas de imagens DICOM, obtidas atraves do servidorde imagens. O objeto e utilizado como um modulo a partedo CyclopsDCMServer e instanciado de forma similar aosoutros metodos de armazenamento disponıveis no servidor.Esta arquitetura pode ser visualizada na Figura 3.

Em seguida, foi construıdo um sistema compartilhado dearquivos entre os diversos nodos de um agregado computa-cional. Esse sistema foi obtido por meio da utilizacao doParallel Virtual File System(PVFS) [5] em cada um dosnodos do agregado. No momento em que o CyclopsDCM-Server solicita a criacao de um novo arquivo HDF5, este ecriado diretamente no ambiente compartilhado.

Para a leitura inicial dos dados, foi necessario separa-los em duas categorias: elementos de dados comuns e ima-gem. Os elementos de dados comuns sao informacoes so-bre a imagem, como dados sobre o paciente (Nome, CPF,RG, etc.) para o qual a imagem foi gerada, dimensoes eoutras caracterısticas da imagem. No caso da imagem, ea representacao binaria da figura gerada pelo equipamentomedico, como uma tomografia ou cardiograma, por exem-plo. Para o armazenamento no formato HDF5 optou-se

94 29 de Outubro a 1º de Novembro de 2008

Page 5: Armazenamento de Imagens Me´dicas DICOM em Sistemas de ... · Armazenamento de Imagens Me´dicas DICOM em Sistemas de Arquivos Distribu´ıdos Douglas D. J. de Macedo1,2, Hilton

Figura 3. Modelo de Operac ao

por referenciar todos os elementos de dados comuns comostrings, enquanto as imagens deveriam ser armazenadas emuma representacao numerica gerada pela API HDF5 Image(H5IM) [2], propria para este fim.

Outro aspecto considerado durante o projeto foi a estru-tura hierarquica adotada para representar cada imagem den-tro de um arquivo HDF5. Considerando as informacoes dis-ponıveis dentro das imagens em formato DICOM, optou-sepor utilizar a estrutura exibida na Figura 4. As cinco cama-das da hierarquia (abaixo do grupo raiz) possibilitam umaorganizacao satisfatoria para o experimento realizado, per-mitindo uma boa visualizacao, um excelente desempenho epraticidade de acesso aos dados.

Figura 4. Hierarquizac ao dos Dados em HDF5

No CyclopsDCMServer, no momento da obtencao dosdados da imagem, a hierarquia e criada por meio de cha-madas aos metodos do H5WL que cria grupos, sendo ne-

cessario informar o “caminho” do grupo que esta sendo cri-ado no arquivo HDF5 e um nome, que sera utilizado comoidentificador dentro do arquivo. Uma vez que o objeto es-teja aberto no grupo desejado, dois metodos de acesso estaodisponıveis para o armazenamento dos dois diferentes tiposde informacoes obtidos do arquivo original. Tais metodostambem permitem que informacoes sobre esses dados sejamrecebidos pelo objetowrappere associados as informacoesoriginais.

Uma vez que todas as informacoes de um determi-nado arquivo DICOM sejam obtidas e gravadas no arquivoHDF5, um ou mais grupos sao fechados e uma nova iteracaoe realizada para o armazenamento de uma nova imagemno mesmo arquivo. Quando o ciclo acaba, observa-se aexistencia de possıveis erros em sua criacao, e em caso ne-gativo o processo de gravacao iniciado pelo CyclopsDCM-Server e encerrado.

5. Resultados Experimentais

Para avaliar o modelo proposto, decidiu-se por realizarum estudo comparativo entre o armazenamento das imagensmedicas no formato HDF5 e pelo metodo atualmente utili-zado pelo CyclopsDCMServer, que e a gravacao dos dadosdas imagens em um banco de dados relacionalPostgreSQL.Neste banco de dados as informacoes sobre as imagens DI-COM obedecem a seguinte estrutura: quatro tabelas para ar-mazenar os elementos de dados comuns e meta-informacoessobre as imagens DICOM e uma tabela com o objetivo degravar os arquivos em formato binario, comolarge objects.

IX Simpósio em Sistemas Computacionais 95

Page 6: Armazenamento de Imagens Me´dicas DICOM em Sistemas de ... · Armazenamento de Imagens Me´dicas DICOM em Sistemas de Arquivos Distribu´ıdos Douglas D. J. de Macedo1,2, Hilton

5.1. Ambiente

Todos os cenarios avaliados foram desenvolvidos em umambiente de teste. Para isto, foram utilizadas 4 maquinas,descritas na Tabela 1. Estas maquinas foram interconec-tadas por meio de uma LAN (Local Area Network) de100Mbits. Todas as maquinas utilizam o sistema operaci-onal Debian GNU/Linux, comkernelversao 2.6.22.

Tabela 1. Especificacoes das Maquinas do Ambiente

Nome Descricao

Master Intel Celeron 2.53GHz, 512Mb RAM, 40Gb HDNodo1 Intel Celeron 2.53GHz, 256Mb RAM, 40Gb HDNodo2 Intel Celeron 2.53GHz, 256Mb RAM, 40Gb HDNodo3 Intel Celeron 2.53GHz, 256Mb RAM, 40Gb HD

Para a realizacao dos experimentos sobre a arquiteturaproposta anteriormante, um ambiente de testes foi criado deforma a atender aos requisitos necessarios para a execucaoda ferramenta. Foi montado um agregado computacionalcomposto por quatro nodos, cada um possuindo uma areacompartilhada de disco rıgido sob o PVFS.

Na Figura 5 pode-se visualizar um ambiente classico desistemas de arquivos distribuıdos em agregados computa-cionais. Nela, os nodos do agregado computacional estaocompartilhando espaco de armazenamento em disco, for-mando assim, um unico grande volume de armazenamento.

Figura 5. Sistemas de Arquivos Distribuıdos

5.2. Experimentos

O primeiro experimento consistiu na gravacao de umconjunto de dados, composto por2.570imagens DICOM,ocupando um espaco total em disco de1.019Mb. Os ar-quivos foram originalmente organizados pelo nome do pa-ciente, sendo que cada paciente pode possuir um ou maisestudos com diversas series de imagens. As imagens saogeradas por equipamentos de tomografia computadorizada,gerando figuras monocromaticas de 512pixelsde altura elargura.

Na Figura 6 e possıvel visualizar um grafico dos resul-tados obtidos no primeiro experimento, relativo ao armaze-namento das imagens no ambiente distribuıdo. Pela analise

Figura 6. Gr afico de Desempenho de Arma-zenamento

dos resultados obtidos, pode-se perceber que existe um ga-nho de desempenho significativo no armazenamento dos ar-quivos DICOM no formato HDF5 em sistemas de arqui-vos distribuıdos, em comparacao ao armazenamento em umbanco de dados relacional. Tambem e possıvel observara menor variacao nos tempos de armazenamento no sis-tema de arquivos distribuıdo. As medias de tempo foramde858,73segundos para a gravacao no PVFS em formatoHDF5 e de1018,77segundos para a gravacao no banco dadados relacional.

Uma segunda experiencia foi realizada para a obtencaodos tempos de acesso a uma imagem especıfica, novamenteem um banco de dados relacional e em um arquivo HDF5gravado em um sistema de arquivos distribuıdos. As tabe-las utilizadas na consulta e o arquivo armazenado sao asmesmas utilizadas na obtencao dos tempos de gravacao dosdados. Iteracoes foram realizadas no acesso aos dados deuma imagem escolhida de forma aleatoria, para ser recupe-rada das duas estruturas de armazenamento. No banco dedados relacional, a consulta aos dados da imagem foi reali-zada de forma que ao final da consulta a imagem estivessecarregada, na memoria principal do servidor, em formatobinario, pronta para ser armazenada em disco.

Ja no acesso ao arquivo no formato HDF5, devido ao fatode os dados nao estarem armazenados em formato binario,foi criada uma extensao no H5WL de forma que os dados deuma imagem DICOM pudessem ser armazenados em umaestrutura de dados projetada apenas para recuperar para amemoria os elementos de dados de uma imagem especıfica,a fim de simular o mesmo metodo que o banco de dadostrabalha.

Na Figura 7 e apresentado um grafico relativo aos re-sultados do segundo experimento.E possıvel perceber queexiste uma diferenca constante entre os tempos obtidos apartir do banco de dados em comparacao aos acessos ao ar-quivo HDF5, sendo que a vantagem agora passa a ser dobanco de dados relacional.

96 29 de Outubro a 1º de Novembro de 2008

Page 7: Armazenamento de Imagens Me´dicas DICOM em Sistemas de ... · Armazenamento de Imagens Me´dicas DICOM em Sistemas de Arquivos Distribu´ıdos Douglas D. J. de Macedo1,2, Hilton

Figura 7. Gr afico de Desempenho daRecuperac ao

Na Figura 8, e possıvel observar o registro dos tempos,em segundos, utilizado na gravacao e leitura do conjuntode imagens para o servidor do banco de dados relacionale para o agregado computacional com sistema de arquivosdistribuıdo, PVFS.E possıvel visualizar tambem que a lei-tura utilizando o metodo HDF5 foi cerca de26,34% maislento, se comparando com a recuperacao das imagens uti-lizando bancos de dados. Entretanto, a gravacao das ima-gens DICOM hierarquizadas, utilizando sistemas de arqui-vos distribuıdos foi16,71% superior.

Figura 8. Resultados

6. Conclusoes e Trabalhos Futuros

Neste trabalho foi abordado um metodo para armaze-namento alternativo para imagens medicas DICOM, utili-zando o formato de dados HDF5 em sistemas de arquivosdistribuıdos, em comparacao com o metodo tradicional uti-lizando bancos de dados relacionais. Foi elaborado um mo-delo de dados a ser utilizado na hierarquizacao das ima-gens e ainda um modelo de acesso aos dados, utilizandoo H5WL. Por fatores elucidativos, e possıvel visualizar nosite oficial do H5WL [3] um exemplo simples de uma ima-gem DICOM formatada com o HDF5.

Como resultado deste estudo, podemos citar que no ar-mazenamento das imagens medicas em sistemas de arqui-vos distribuıdos, sob o formato HDF5, foi constatado quemesmo teve um desempenho cerca de 16,71% superior

comparando com o metodo usando bancos de dados. Deoutra forma, na recuperacao das imagens o metodo utili-zando bancos de dados foi superior cerca de 26,34%, emcomparacao a arquitetura proposta.E importante salientar,que nesta pesquisa nao foram utilizados metodos de aces-sos e escritas paralelas no ambiente distribuıdo, sendo estetema de trabalhos futuros.

Em adicao, um outro resultado alcancado pelo trabalho,e um modelo de operacao e acesso aos dados, represen-tado pelo H5WL, que pode interagir e integrar-se com ou-tros tipos de estruturas distribuıdas, como por exemplo, ma-lhas computacionais. Desta forma, facilitando o desenvol-vimento de novos metodos para acesso a imagens medicasDICOM no formato de dados HDF5.

Estudos mais profundos em relacao a paralelizacao dasconsultas realizadas no arquivo HDF5 sobre o sistema dearquivo distribuıdo, sugerem uma melhora significativa nodesempenho do sistema, visto que, da mesma forma, aaplicacao de metodos de escrita paralela no ambiente dis-tribuıdo tambem pode melhorar significativamente o de-sempenho do armazenamento.

Adicionalmente, um outro estudo possıvel para trabalhosfuturos, seria a utilizacao de armazenamento das imagensem formato HDF5 em malhas computacionais, utilizandode software para armazenamento distribuıdos, tal como oGridFTP. Para a recuperacao das imagens, seria possıvelutilizar webservicespara intermediar as operacoes entre asentidades do sistema.

Referencias

[1] The cyclops project. Disponivel em:http://www.cyclops.ufsc.br. Acessado em: 17/06/2008.

[2] Hdf5 – hierarchical data format 5. user’s guide. Disponıvelem: http://hdf.ncsa.uiuc.edu/products/hdf5/. Acessado em:16/06/2008.

[3] Hdf5 wrapper library. Disponıvel em:http://www.cyclops.ufsc.br/h5wl/. Acessado em:17/06/2008.

[4] Laboratorio de telemedicina. Disponıvel em:http://www.telemedicina.ufsc.br. Acessado em: 18/06/2008.

[5] Pvfs – parallel virtual file system. Disponıvel em:http://www.pvfs.org. Acessado em: 18/06/2008.

[6] R. L. Bashshur. Telemedicine and health care.TelemedicineJournal and E-Health, 8, 2002.

[7] S. Cohen, P. Hurley, K. W. Schulz, W. L. Barth, and B. Ben-ton. Scientific formats for object-relational database sys-tems: a study of suitability and performance.SIGMOD Re-cord, 35(2):10–15, 2006.

[8] P. R. Dellani. Desenvolvimento de um servidor de imagensmedicas digitais no padrao dicom. Master’s thesis, Univer-sidade Federal de Santa Catarina, 2005.

[9] L. J. Gosink, J. Shalf, K. Stockinger, K. Wu, and W. Bethel.HDF5-fastquery: Accelerating complex queries on HDFdatasets using fast bitmap indices. In18th International

IX Simpósio em Sistemas Computacionais 97

Page 8: Armazenamento de Imagens Me´dicas DICOM em Sistemas de ... · Armazenamento de Imagens Me´dicas DICOM em Sistemas de Arquivos Distribu´ıdos Douglas D. J. de Macedo1,2, Hilton

Conference on Scientific and Statistical Database Manage-ment (SSDBM’06), pages 149–158. IEEE Computer Society,2006.

[10] K.-P. Lee and P. Spence. view–hdf: visualization andanalysis tool for hierarchical data format files.Oceans ’02MTS/IEEE, 2:744–750 vol.2, Oct. 2002.

[11] D. D. J. Macedo, H. W. G. Perantunes, R. Andrade, A. vonWangenheim, and M. A. R. Dantas. Asynchronous data re-plication: A national integration strategy for databases on te-lemedicine network. In21th IEEE International Symposiumon Computer-Based Medical Systems, 2008. CBMS 2008.,pages 495–500, 2008.

[12] D. D. J. Macedo, H. W. G. Perantunes, E. Comunello, A. vonWangenheim, and M. A. R. Dantas. An interoperability ap-proach based on asynchronous replication among distributedinternet databases. InIEEE Symposium on Computers andCommunications – ISCC, 2008, 2008.

[13] D. D. J. Macedo, H. W. G. Perantunes, L. F. J. Maia, A. v.Wangenheim, and M. A. R. Dantas. Replicacao assıncronaentre bancos de dados medicos distribuıdos. InEscola Regi-onal de Bancos de Dados, 2008.

[14] R. Maia, A. von Wangenheim, and L. Nobre. A statewide te-lemedicine network for public health in brazil. In19th IEEEInternational Symposium on Computer-Based Medical Sys-tems, 2006. CBMS 2006., pages 495–500, 2006.

[15] K. M. McNeill, R. S. Weinstein, and M. J. Holcomb. Ari-zona telemedicine program: Implementing a statewide he-alth care network.Journal of American Medical InformaticsAssociation, Jan. 18 2002.

[16] L. A. Ribeiro, P. R. Dellani, A. von Wangenheim, M. M.Richter, K. Maximini, and E. Comunello. Cyclopsdist-meddb. - a transparent gateway for distributed medical dataaccess in dicom format. InCBMS ’02: Proceedings of the15th IEEE Symposium on Computer-Based Medical Systems(CBMS’02), page 315, Washington, DC, USA, 2002. IEEEComputer Society.

[17] R. Ross, D. Nurmi, A. Cheng, and M. Zingale. A case studyin application I/O on linux clusters. InACM/IEEE Super-computing Conference (SC’2001), Denver, Nov. 2001. ACMSIGARCH/IEEE.

[18] S. G. Shasharina, N. Wang, and J. R. Cary. Grid service forvisualization and analysis of remote fusion data. InPro-ceedings of the Second International Workshop on Chal-lenges of Large Applications in Distributed Environments(CLADE’04), page 34. IEEE Computer Society, 2004.

[19] J. Wallauer, D. D. J. Macedo, R. Andrade, and A. von Wan-genheim. Building a national telemedicine network.IT Pro-fessional, 10(2):12–17, March-April 2008.

[20] H. Yu, R. Sahoo, C. Howson, G. Almasi, J. Castanos,M. Gupta, J. Moreira, J. Parker, T. Engelsiepen, R. Ross,R. Thakur, R. Latham, and W. Gropp. High performancefile i/o for the blue gene/l supercomputer. InThe Twelfth In-ternational Symposium on High-Performance Computer Ar-chitecture, July 2006.

98 29 de Outubro a 1º de Novembro de 2008