111
SERVIÇO DE PÓS-GRADUAÇÃO DO Data de Depósito: 19/02/2004 Assinatura : 1 Ampliando o poder de recuperação de imagens por conteúdo utilizando histogramas adaptados: aplicações em imagens médicas Camilo Yamauchi Campo Orientadora: Prof a . Dr a . Agma Juci Machado Traina Dissertação apresentada ao Instituto de Ciências Matemá- ticas e de Computação - ICMC-USP como parte dos re- quisitos para obtenção do título de Mestre em Ciências de Computação e Matemática Computacional. USP - São Carlos Fevereiro de 2004

Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

  • Upload
    ledan

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

SERVIÇO DE PÓS-GRADUAÇÃO DO

Data de Depósito: 19/02/2004

Assinatura : 1

Ampliando o poder de recuperação de imagens por conteúdo utilizando

histogramas adaptados: aplicações em imagens médicas

Camilo Yamauchi Campo

Orientadora: Profa. Dra. Agma Juci Machado Traina

Dissertação apresentada ao Instituto de Ciências Matemá-ticas e de Computação - ICMC-USP como parte dos re-quisitos para obtenção do título de Mestre em Ciências de Computação e Matemática Computacional.

USP - São Carlos Fevereiro de 2004

Page 2: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

A Comissão Julgadora:

Profa. Dra. Agma Juci Machado Traina

Prof. Dr. João do Espírito Santo Batista Neto

Profa. Dra. Roseli de Deus Lopes

p J c

» l ^ V.

\J

* —

Page 3: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Este documento foi preparado utilizando o formatador de textos LÍTgX. Sua bibliografia é gerada automaticamente pelo BIBTJTJX, utilizando o estilo Apalike.

© Copyright 2004 - Camilo Yamauchi Campo Todos os direitos Reservados

Page 4: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Agradecimentos

Primeiramente ao meu Senhor Deus por guiar minha vida em direções certas, nos momentos difíceis. Obrigado Senhor pela sua presença. Aos meus pais que muito me ajudaram, ensi-nando valores éticos, morais o sociais. Principalmente pela paciência decorrente de minha ausência nos finais de semana em que não pude voltar para o aconchego do lar. À Patrícia que sempre nu» apoiou, estando ao meu lado nos momentos difíceis de minha vida. Aos meus mestres que passaram seus conhecimentos de forma humilde; e atenciosa. A minha orienta-dora, Profa. Dra. Agma J. M. Traina pela paciência, confiança e incentivo que motivaram meus trabalhos e estudos e ao seu marido, Caetano Traina Jr. pela dedicação, amizade e humildade. Aos membros do GBDI pelo acolhimento, companheirismo e ensinamentos. Em especial à Josiane e a Natália que sempre estiveram dispostas a me atender e tirar quais-quer dúvidas com paciência e simpatia. Aos funcionários do ICMC, setor de pós-graduação. assistência académica, seção de alunos da graduação e funcionárias que, semanalmente, con-tribuíram com o bom funcionamento da infra.-estrut.ura do laboratório e da universidade. Ao pessoal do futebol que. todas as sextas feiras, compareciam ''pontualmente" para a pe-lada. Aos meus companheiros de laboratório, "Beija-Flor" e "Magoo". A minha turma de Bacharelado em Computação de 1998 e aos meus veteranos de 1997. Nunca os esquecerei. Aos companheiros do conjunto residencial universitário, conhecido como Alojamento, pelo espírito fraterno e ao desapego aos bens materiais. Seus ensinamentos foram de grande valia. Ao pessoal do RUA de São Paulo pela amizade, viagens e festas do longa dada. Aos meus amigos e amigas pelos trabalhos, conversas, projetos, discussões, debates, reuniões, comemo-rações, piadas, brincadeiras e festas que passamos juntos. Aos colegas da, pós-graduação e da graduação, pelo companheirismo e unidade em que tenho convivido, em especial à galera da SACIM. Às pessoas que não foram citadas1 pela falta de espaço, mas que muito me ajudaram no decorrer da, vida. Por fim, ao CNPq pela, ajuda financeira e confiança, depositada neste trabalho.

1 Evitei fazer citações às pessoas paia, evitar qualquer tipo de injustiça. Amo todas as pessoas com queiu convivo e, enumera-las, seria um trabalho infinitamente mais complexo que esta dissertação.

Page 5: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Resumo

Os sistemas de recuperação de imagens baseada em conteúdo (CBIR - Content-Based Irnage Retneval) vêm sendo bastante estudados e pesquisados atualmente. Isso ocorre es-pecialmente devido às áreas de aplicabilidade, entre as quais tem-se a área médica, onde há uma enorme quantidade de informação armazenada em forma de imagens. Muitas das con-sultas de interesse dos médicos visam procurar imagens de pacientes que tenham semelhança entre si. Desse modo, estudos de casos, diagnósticos e tratamentos podem ser verificados e comparados baseando-se apenas na imagem e não em descrições textuais sobre elas. Atual-mente, os sistemas PACS (Picture Archiving and Communication Systems) nã,o são capazes de realizar consultas de imagens por similaridades. O trabalho aqui apresentado implementa um recurso adicional para um PACS com suporte a consultas por similaridade, ampliando o poder de recuperação de imagens através de histogramas. Este recurso permite que o sistema seja capaz de realizar buscas em imagens mesmo com algumas variações de intensidade de brilho, o que é um problema comum já que a aquisição de imagens é realizada por diversos equipamentos e mesmo com diferentes configurações.

Page 6: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Abstract

In the last few years there is a great effort on developing the Content-Based Image Retrieval (CBIR) systems. This is due to their applicability in many fields that deal with images, including particularly the medicine, because the ever increasing volume of data generated by image cxams. Many times the physicians try to find images that are similar regarding some specific aspect. Therefore, case studies, diagnosis and treatment can be compared and checked based only on the pictoríal information of the images. The traditional Picture Archiving and Communication Systems (PACS) do not support similarity queries. Thus, this work presents a new technique to improve the execution of similarity queries based on the brightness histogram of images. This technique allows the system to compare, by histograms, images with brightness variations, bypassing a claimed drawback of histograms to characterize images. This brightness variation is a common problern in acquiring images, as different devices and settings can be used to generate them, producing different brightness distribution over the whole image.

Page 7: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Lista de Abreviaturas

ACR American College of Radiology BIC Border/Interior Pixel Classification BLOB Binary Large Object CBIR Content-based Image Retrieval CCD Charge-coupled devices CCIFM Centro de Ciências das Imagens e Física Médica CR Computer Radiography CT Computer Tomography DICOM Digital Imaging and Communications in Medicine DR Direct Radiography FMRP Faculdade de Medicina de Ribeirão Preto GBDI Grupo de Bases de Dados e de Imagens HC Hospital das Clínicas HIS Hospital Information System HM Histograma Métrico HSI Hue, Saturation and Intensity ICMC Instituto de Ciências Matemáticas e dc Computação JPEG Joint Photographic Experts Group MBB Minimum Boundary Box MAE Método de Acesso Espacial

iv

Page 8: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

MAM Método de Acesso Métrico MST Minimal Spanning Tree MRI Medicai Resonance Image NN Nearest Neighbor PACS Picture Archiving and Comm/umcation System RAID Redundant Array of Inexpensive Disks RGB Red, Green and Blue RGHC Registro Geral do Hospital das Clínicas RIS Radiology Information System RM Ressonância Magnética RMN Ressonância Magnética Nuclear RSNA Radiological Society of North Am,eriça SAM Sistema de Arquivo Médico SGBD Sistema de Gerenciamento de Base de Dados SRIS Sistema de Recuperação de Imagens por Similaridade USP Universidade de São Paulo WORM Write-Only Read-Many

IX

Page 9: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Sumário

1 Introdução 1 1.1 Considerações Iniciais 1 1.2 Motivação 3 1.3 Objetivos 4 1.4 Apresentação do Trabalho 5

2 Os Sistemas P A C S 6 2.1 Introdução 6 2.2 Tecnologia de Aquisição de Imagens 9 2.3 Aquisição de Imagens e Interfaces PACS 11 2.4 Tecnologia de Armazenamento no PACS 12 2.5 Exibição de Imagens 14 2.6 Rede PACS 15 2.7 Serviço de Radiologia Digital (filmless) em Hospital Universitário 16 2.8 Sistema de Informação em Radiologia (RIS) do Hospital das Clínicas - HCFMRP 17 2.9 Conclusão 20

3 Extração de Características de Imagens 22 3.1 Considerações Iniciais 22 3.2 Definindo uma Imagem 23 3.3 Atributos das Imagens 24

3.3.1 Cor 25 3.3.2 Textura 26

vi

Page 10: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

3.3.3 Forma 27 3.3.4 Resumo das características de baixo nível das imagens 29

3.4 Importância da Extração de Características 29 3.5 Algumas Abordagens sobre os sistemas CBIR 33

3.5.1 O Histograma Métrico 33 3.5.2 Classificação de Pixels de Borda e Interior - A Técnica BIC 37

3.6 Considerações Finais 39

4 Consultas por Similaridade e Estruturas Métricas 40 4.1 Considerações iniciais 40 4.2 Tipos de Buscas por Similaridade 41 4.3 Métodos de Acesso Métricos 42 4.4 Estruturas Estáticas e Dinâmicas 43 4.5 A Slim-tree 44 4.6 Inserção de Objetos na Slim-tree 46 4.7 Tratamento de Sobreposição 47

4.7.1 Reorganização dos Nós da Árvore - Algoritmo Slim-down 49 4.7.2 Visualização dos Dados Armazenados na Slim-tree 49

4.8 Considerações Finais 49

5 Trabalho Desenvolvido 51 5.1 Considerações Iniciais 51 5.2 Protótipo de um SRIS baseado no DicomViewer 52

5.2.1 Formato de arquivos 53 5.2.2 Filtros e Bordas 54 5.2.3 Visualização e opções 55 5.2.4 LocalcbPACS 56 5.2.5 BIC 57

5.3 O Histograma Métrico Adaptado 58 5.4 O Sistema de Recuperação de Imagens do Hospital das Clínicas de Ribeirão

Preto 63 5.4.1 Arquitetura do SRIS-HC 65

5.5 Resultados 72 5.6 Considerações Finais 75

vii

Page 11: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

6 Conclusão e Trabalho Futuros 79 6.1 Considerações Finais 79 6.2 Trabalhos Futuros 80

Referências Bibliográficas 87

A Demais Resultados 88 A.l Caso 2 88 A.2 Caso 3 90 A.3 Caso 4 9 0

VUl

Page 12: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Lista de Figuras

2.1 Infraestrutura de um PACS em ambiente hospitalar 7 2.2 Esquema das funções de um PACS [Rosa, 2002] 8 2.3 Armazenamento de um PACS combinando arquivamento online, nearhne e

offline através de um gerenciador de base de dados 14 2.4 Tela principal do Sistema RIS do HCFMRP 17 2.5 Esquema do processo global do RIS ilustrando o fluxo de urn exame radiológico

[Rosa, 2002] 18

3.1 Uma imagem e seu histograma normalizado 24 3.2 Exemplos de imagens diferentes (a, b, ce d) que possuem o mesmo histograma

de cores (e) 25 3.3 Exemplo de texturas 26 3.4 Exemplo de uma imagem original em tons de cinza (a) e sua forma segmentada

mostrando 4 objetos identificados (b) [Petrakis and Faloutsos, 1997] 28 3.5 Etapas de reconhecimento de padrões de imagens 31 3.6 Histograma normalizado com os pontos <bk, /ifc> que definem os buckets e seu

Histograma Métrico correspondente 34 3.7 Obtendo o Histograma Métrico sobre o normalizado. Os pontos de controle

são apresentados pelos elementos circulares e o Histograma Métrico pela curva que está ao redor do histograma normalizado 35

IX

Page 13: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

3.8 Imagem original (a), imagem mais semelhante (b) e imagem menos semelhante (c). Os histogramas apresentam a densidade de pixels para 256 níveis de cinza das imagens 36

3.9 Distância entre dois Histogramas Métricos calculando a soma da diferença entre áreas 37

3.10 Análise de imagens pela abordagem BIC. Imagem original (esquerda). Classi-ficação binária entre borda (preto) e interior (branco) (centro), (c) Pixels da borda com suas cores originais e os pixels do interior em branco (direita). . . 38

4.1 A consulta por abrangência (esquerda) seleciona todas as estrelas distantes de um raio r enquanto que a consulta aos vizinhos mais próximos (direita) seleciona as 5 estrelas mais próximas do elemento de consulta 42

4.2 Estrutura lógica dos nós a)índice ( indexNode) e b)folha (leafNode) da Slim-tree [Traina et al., 2000] 45

4.3 Representação da Slim-tree armazenando 17 objetos 45 4.4 Mecanismos de quebras de nós do algoritmo MST 47

5.1 Interface padrão do DicomViewer, software que serviu de base para a imple-mentação do protótipo 53

5.2 Exemplos de utilização dos filtros do DicomViewer. a)imagem original, b)após aplicação do filtro da mediana com fator 2, c)após processamento de auto-levels e d) com adição de 100 unidades de brilho 55

5.3 Consulta por similaridade no protótipo adicionado ao DicomViewer 57 5.4 Imagem de exame de tomografia axial de cabeça humana, (a) imagem original,

(b) imagem com o brilho alterado e (c) imagem com o contraste alterado. . . 59 5.5 Ilustração de como é realizado a invariância ao brilho 110 Histograma Métrico. 60 5.6 Histograma com seu contraste alterado através do stretchmg simples e seu

Histograma Métrico correspondente. A utilização do limite VL elimina os bvns irrelevantes, recuperando sua curva original (à direita) 60

5.7 Ilustração do funcionamento da Warp Distance onde ocorre a "distorção" de área permitindo um melhor cálculo de similaridade entre curvas 61

5.8 Consulta 32-Nearest Neighbors utilizando a abordagem BIC 62 5.9 Consulta 32-Nearest Neighbors utilizando a abordagem do Histograma Métrico. 62 5.10 Integração SRIS-HC com RIS, HIS e mmi-PACS do HCFMRP/USP 63 5.11 Processo global do Sistema de Recuperação de Imagens Similares - SRIS-HC. 65

x

Page 14: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

5.12 Arquitetura do SRIS-HC 66 5.13 Interface em que as imagens GBDI são inseridas para validação 67 5.14 Tela de consulta ao laudos de um paciente e suas respectivas informações. . . 70 5.15 Tela das imagens em miniatura (thurnbnails) do exame e a primeira imagem

em tamanho natural 71 5.16 Tela da apresentação dos logs do banco de imagens 72 5.17 Tela de conexão do usuário com a base de dados e acesso ao SRIS-HC. . . . 72 5.18 Imagem original de crânio (esquerda) e a mesma com o recorde do MBB

(Minimum Boundary Box) 73 5.19 Imagem de referência para o primeiro caso 74 5.20 Resultado da consulta aos 40 vizinhos mais próximos utilizando o histograma

normalizado 75 5.21 Consulta por abrangência com raio de 0.3 utilizando o histograma normalizado. 76 5.22 Consulta aos vizinhos mais próximos através do Histograma Métrico adaptado. 76 5.23 Consulta por abrangência com raio de 0.3 utilizando o Histograma Métrico

adaptado 77

A.l Imagem de referência do Caso 2 88 A.2 Consulta aos 40 vizinhos mais próximos utilizando o histograma normalizado. 89 A.3 Consulta por abrangência (r = 0.3) utilizando o histograma normalizado. . . 89 A.4 Consulta aos 40 vizinhos mais próximos utilizando o Histograma Métrico

adaptado 90 A.5 Consulta por abrangência (r = 0.3) utilizando o Histograma Métrico adaptado. 91 A.6 Imagem de referência do Caso 3 91 A.7 Consulta aos 40 vizinhos mais próximos utilizando o histograma normalizado. 92 A.8 Consulta por abrangência (r = 0.3) utilizando o histograma normalizado. . . 92 A.9 Consulta aos 40 vizinhos mais próximos utilizando o Histograma Métrico

adaptado 93 A. 10 Consulta por abrangência (r — 0.3) utilizando o Histograma Métrico adaptado. 93 A. 11 Imagem de referência do Caso 4 94 A. 12 Consulta aos 40 vizinhos mais próximos utilizando o histograma normalizado. 95 A. 13 Consulta por abrangência (r = 0.3) utilizando o histograma normalizado. . . 95 A. 14 Consulta aos 40 vizinhos mais próximos utilizando o Histograma Métrico

adaptado 96 A. 15 Consulta por abrangência (r = 0.3) utilizando o Histograma Métrico adaptado. 96

XI

Page 15: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Lista de Tabelas

3.1 Atributos de qualidade das características de baixo nível da imagem [Vailaya, 2000] 30

3.2 Taxonomia sobre espaços de características extraídas de imagens[Brown, 1992]. 32

5.1 Tabela de comparação entre o DicomViewer e as incorporações realizadas. . . 54 5.2 Configuração do computador utilizado para os experimentos 74 5.3 Resumo dos resultados obtidos nos experimentos 78

Xll

Page 16: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Capítulo

1

Introdução

1.1 Considerações Iniciais Os Sistemas de Informações Hospitalares (HIS) armazenam informações relativas aos paci-entes destacando-se, entre elas, seu estado de saúde, os exames realizados e os procedimentos médicos adotados. Atualmente, a maioria desses sistemas organiza dados textuais e numéri-cos mas, em alguns casos, já é possível a associação das informações textuais com informações gráficas, provenientes de exames como raio-X, tomografia (CT1 ou RM2) e ultra-som. Re-centemente, com a introdução dos sistemas PACS (Picture Archiving and Communication System) [Cao and Huang, 2000] [Siegel, 1999] [Furuie et al., 1999] [Marsh, 1997], cresceu o interesse por integrar num só sistema todas as informações dos pacientes (textos, imagens, gráficos e dados temporais). Além disso, o custo operacional dos exames de imagens dimi-nui quando se utiliza tecnologia de radiologia sem filme (filmless), o que permite direcionar investimentos maiores para a área de diagnóstico [Siegel, 1999].

Os sistemas PACS devem permitir a transmissão rápida e o armazenamento organizado para as imagens digitais, tanto em termos de disponibilidade do exame em curto prazo como

h o m o g r a f i a Computadorizada. 2 Ressonância Magnética.

1

Page 17: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

também no aspecto de multivisualização. Os cirurgiões devem ser capazes de tomar decisões diagnosticas logo após um exame, bem como acessá-las simultaneamente para discuti-las e analisá-las em salas de ensino ou mesmo durante consultas [Siegel and Kolodner, 1999] [Furuie et al., 1999].

Infelizmente, os poucos sistemas PACS comerciais oferecidos atualmente são extrema-mente caros e não contemplam todas as necessidades do centro médico [Sung et al., 2000]. Desse modo, o estado da arte na área resume-se ao desenvolvimento de soluções locais, mui-tas vezes restritas. Alguns centros médicos integrados a unidades de pesquisa optam, via de regra, por adquirir apenas alguns módulos do sistema, desenvolvendo e adaptando outros módulos e criando soluções próprias conforme sua necessidade. Assim, o custo é diminuído e podem-se contemplar necessidades e características próprias de cada ambiente.

Como os sistemas PACS organizam as imagens provenientes de exames efetuados sobre os pacientes, seria muito interessante que, através desses sistemas, fosse possível realizar con-sultas e recuperar tais imagens baseanclo-se apenas no seu conteúdo. Por exemplo, pode ser necessário recuperar todas as imagens obtidas em exames de tomografias computadorizadas do coração, similares a uma imagem dada. Nesse caso, o cruzamento das informações é inde-pendente das chaves de busca tradicionais, baseadas em dados numéricos e textuais, as quais associam exames e pacientes em um HSI tradicional. A facilidade de recuperação de dados baseada em seu conteúdo é um dos recursos atualmente mais almejados para incorporação aos sistemas PACS [Korn et al., 1996] [Lima et al., 1998]. Através dessa facilidade, podem ser encontrados registros de pacientes cujas imagens associadas apresentam aspectos de si-milaridade (utilizando padrões gráficos), além de se obterem correlações utilizando sintomas previamente registrados e tratamentos efetuados [Marsh, 1997], Assim, um sistema PACS com tal facilidade torna-se, potencialmente, uma ferramenta bastante eficaz no auxílio ao diagnóstico médico.

Um sistema PACS pode então responder à consultas por similaridade, isto é, a questões do tipo: Quais são as 10 imagens mais sem,elha,ntes (próximas) de uma dada imagem ou Quais são as imagens que diferem em até 5 unidades de um,a im,agem padrão. Vale notar que tanto as imagens quanto a função distância (dissimilaridade) definida são, usualmente, dependentes do domínio de dados e do que é considerado "semelhante".

A similaridade entre imagens pode ser medida de várias formas. Características como formato, cor e textura podem ser extraídas de imagens em uma base de dados e podem ser utilizadas em cálculos de distância ou dissimilaridade [Aslandogan and Yu, 1999].

2

Page 18: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

1.2 Motivação Ao efetuar uma consulta por similaridade em um banco de imagens, o sistema retorna o conjunto de imagens que responde à solicitação efetuada. A consulta é realizada através de uma ou mais estruturas de índices que dão suporte a busca por imagens semelhantes, consi-derando a distância entre as características extraídas das imagens. Dessa forma, o conjunto de características extraídas das imagens e a função de dissimilaridade (distância) utilizada têm papel preponderante nessa operação de consulta. "Quais são as características extraídas das imagens que melhor contribuem para a comparação e separação entre as imagens mais precisas?" Os especialistas em visão computacional afirmam que, na realidade, a ciência não sabe dizer como o cérebro humano reconhece as imagens e os objetos que as compõem [Jain and Dubes, 1988]. Porém, existe um consenso de que as principais características são baseadas em atributos de cor, forma e textura. Assim, algumas dessas características po-dem ser obtidas através de histograma para cores [Aslandogan and Yu, 1999], resultados de transformações tais como momentos (singular value decom,position e Karhunen-Loève) [Faloutsos, 1996] para formas, além de coeficientes de transformadas wavelets (principal-mente Gabor)[Albuz et al., 2001] para texturas, entre outras técnicas.

Devido à complexidade de algumas técnicas de extração de características, é mais inte-ressante aplicá-las sobre um conjunto de imagens menor ou que tenha sido refinado por um método menos custoso em termos computacionais. Nesse sentido, as técnicas baseadas em cores e, no caso das imagens médicas, em níveis de brilho ou intensidade, devem ser as pri-meiras utilizadas, pois requerem baixo custo computacional. Isto ocorre pois as informações relativas a cor são as primeiras a serem lidas em um arquivo de imagem.

Os histogramas de intensidades, que indicam o número de pixels da imagem para cada nível de intensidade, são simples de implementar, baratos em termos computacionais e muito utilizados em sistemas CBIR (Content-Based Image Retrieval). Como os histogramas apre-sentam a distribuição global dos níveis de cinza da imagem, eles são também altamente suscetíveis a variações de brilho.

Algumas variações com o uso de histogramas são propostas na literatura. His-togramas que armazenam informações espaciais das cores são apresentados em [Yamamoto et al., 1999], [Chua et al., 1997] e [Rao et al., 1999]. A grande maioria de pu-blicações no tratamento de histogramas para recuperação de imagens por conteúdo traz abordagens nas quais são privilegiados fatores como desempenho e precisão. Nestas abor-

3

Page 19: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

dagens, as técnicas não se detiveram na redução do número de bins3 de uma imagem sem perda significativa de informação. Em [Bueno, 2002] [Traina et al., 2002a] foram propostos os Histogramas Métricos (HM) que são invariantes às transformações geométricas (escala, rotação e translação) efetuadas nas imagens. Os HMs são definidos através de urna função de aproximação linear por partes sobre o histograma normalizado da imagem, sendo que tais funções podem ser ajustadas e comparadas. O presente projeto explora as propriedades de invariância dos HMs e apresenta os resultados que permitem uma melhor discriminação das imagens recuperadas através de seu conteúdo.

O Histograma Métrico é uma forma de reduzir a dimensionalidade do vetor de caracte-rísticas, porém atua sobre cada vetor de característica da imagem (histograma convencional) de forma independente do conjunto completo, o que permite manter as particularidades de cada imagem. Tal fato não foi explorado por outras técnicas de redução de dimensionalidade de histogramas descritas na literatura da área [Brunelli and Mich, 2001]. Assim, o presente trabalho compara o grau de eficiência dos HMs com outros métodos de redução de dimen-sionalidade e demonstra que, com tais características invariantes, os HMs possibilitam um alto grau de recuperação de imagens por conteúdo no âmbito das imagens médicas.

1.3 Objetivos O objetivo deste projeto é estudar e implementar métodos de extração de características baseadas em níveis de intensidade que permitam a comparação entre imagens médicas, sendo um primeiro passo para diminuir o conjunto de resposta para busca de imagens similares. Este passo, permitirá que métodos mais sofisticados, como os baseados em forma, possam ser aplicados a posteriori sobre um volume menor de dados, propiciando uma resposta mais rápida à consulta.

O resultado do extrator de características aplicado a uma imagem é um vetor de carac-terísticas, o qual é utilizado para comparar as imagens através de funções de distância. A técnica utilizada é baseada no Histograma Métrico (HM) que são invariantes às três transfor-mações geométricas. Neste trabalho, eles foram expandidos para o tratamento de variações a brilho, tornando-os mais eficientes.

As técnicas desenvolvidas foram validadas no sistema cb-PACS em construção no ICMC-USP e CCIFM-FMRP-USP.

3 A definição de bin pode ser entendida como a quantidade estatística de uma determinada cor em uma imagem, assim uma imagem com 256 cores possuirá um histograma com 256 bins.

4

Page 20: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

1.4 Apresentação do Trabalho Este trabalho está dividido em 6 capítulos e um apêndice. O primeiro capítulo apresentou algumas considerações iniciais, o contexto no qual se insere este trabalho, a motivação para seu desenvolvimento e seus objetivos finais.

No Capítulo 2 é apresentada a estrutura dos sistemas PACS e suas principais caracterís-ticas, além de introduzir o sistema em desenvolvimento no Hospital das Clínicas de Ribeirão Preto.

No Capítulo 3 é apresentada uma visão sobre os extratores de características de imagens, mostrando as principais características das imagens utilizadas em sistemas de recuperação por conteúdo. Dois exemplos de extratores de características são abordados e analisados. As consultas por similaridade e estruturas métricas são descritas no Capítulo 4

O trabalho desenvolvido, os resultados obtidos e a modificação realizada no Histograma Métrico são tratados no Capítulo 5.

Por fim, no Capítulo 6 é apresentada a conclusão e os trabalhos futuros e em seguida, a bibliografia. Um apêndice foi também adicionado para a apresentação dos demais resultados que não foram detalhados no Capítulo 5.

5

Page 21: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Capítulo

2 Os Sistemas PACS

2.1 Introdução Desde o surgimento do Raio-X, descoberto por Wilhelm Corad Rõntgen em 8 de novembro de 1895, a utilização de imagens para diagnóstico de doenças faz parte do meio médico. Com o avanço tecnológico, os equipamentos foram incorporando sistemas mais complexos como a tomografia computadorizada e a ressonância magnética.

Com o advento dos sistemas computacionais, o tratamento de informações vem avançando diariamente. Os sistemas computacionais fazem parte, mais do que em qualquer época, da vida cotidiana. Os computadores são extremamente necessários, principalmente em ambien-tes em que a quantidade de informações é grande. Exemplos típicos disso são escolas, bancos, empresas e hospitais. Este último possui uma peculiaridade dos demais. Além de necessitar gerenciar informações textuais, há também a necessidade de manipular imagens de exames.

Os chamados Sistemas de Comunicação e Armazenamento de Imagens - PACS, referem-se a sistemas computacionais que são usados para capturar, armazenar, distribuir e exibir imagens médicas. São sistemas de arquivamento e comunicação voltados para o diagnóstico por imagem, que permitem o pronto acesso, em qualquer setor do hospital ou clínica, de imagens médicas em formato digital [Siegel, 1999].

6

Page 22: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

O termo PACS tem sido usado para denotar sistemas nos departamentos de radiologia que lidam com imagens radiológicas, embora alguns PACS tenham ido além desses limi-tes, contendo imagens de outras fontes, tais como patologia e endoscopia. O PACS tem se tornado rapidamente a opção tecnológica preferida para as tarefas de transmissão, armaze-namento, recuperação, visualização e interpretação de grandes volumes de dados. Porém, a implementação de um PACS implica em um trabalho de reengenharia do serviço de radiolo-gia, devido às modificações inseridas na sequência de eventos necessários desde a aquisição da imagem até sua exibição e interpretação [Marques et al., 2000].

Um PACS consiste de pelo menos uma ou múltiplas modalidades (dispositivos de aqui-sição), uma rede de comunicação, um dispositivo de armazenamento intermediário e/ou de longo período, e uma estação de trabalho para visualização e/ou pós-processamento, con-forme esquematizado na Figura 2.1. Um PACS que atende à uma modalidade de exame com imagens, um arquivo e uma estação de trabalho é chamado de mini-PACS ou micro-PACS [Rosa, 2002].

Aquisição de

Imagens

Dual

Gerenciamento de Dados e Imagens Servidor de Base

de Dados Redundante

Servidor de Imagens

Figura 2.1: Infraestrutura de um PACS em ambiente hospitalar.

Um sistema PACS deve executar as seguintes funções utilizando tecnologia digital [G. Giinther, 1999], conforme o esquema elaborado para ilustrar essas funções na Figura 2.2:

• aquisição de imagem

• comunicação de imagens (transferência)

• armazenamento de imagens

7

Page 23: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

• exibição de imagens

• processamento de imagens

Figura 2.2: Esquema das funções de um PACS [Rosa, 2002].

A tecnologia PACS pode ser utilizada para obter operações sem filme (filmless). Radio-logia filmless se refere a um hospital com um ambiente de rede amplo e integrado, no qual o filme foi completamente, ou em grande parte, substituído por sistemas eletrônicos que ad-quirem, arquivam, disponibilizam e exibem as imagens [Siegel, 1999][Marques et al., 2000]. O PACS em conjunto com os Sistemas de Informação em Radiologia (RIS) e de Informação Hospitalar (HIS) formam a base para um serviço de radiologia filmless [Siegel and Kolodner, 1999] [Marques et al., 2000].

A implantação de um serviço de radiologia sem filme deverá trazer melhorias no que se refere à acessibilidade e integração de informações, pela vinculação de imagens ao registro médico eletrônico do paciente, e no que se refere à aplicação de novas técnicas e desenvol-vimentos na aquisição, exibição e processamento de imagens. Segundo a literatura especia-lizada, a maioria dos serviços médicos fará a transição para a radiologia filmless durante os próximos dez ou vinte anos [Siegel and Kolodner, 1999] [Marques et al., 2000].

Um alto nível de integração do PACS na operação dos dados é necessário para garantir sua ótima funcionalidade, o que requer uma quantidade tremenda de planejamento e imple-mentação com analistas de sistemas, engenheiros e a administração e também com os outros

8

Page 24: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

departamentos clínicos. Isso é muito mais complexo de se obter do que qualquer outro pro-cesso de aquisição para o departamento de radiologia e o hospital [Siegel and Kolodner, 1999],

Um PACS é caracterizado por quatro subsistemas: aquisição, exibição, disponibili -zação e armazenamento de imagens [Marques and et. al, 2004], que serão descritos a seguir.

2.2 Tecnologia de Aquisição de Imagens Embora as modalidades mais recentes, tais como imagens de ressonância magnética (MRI), tomografia computadorizada (CT), ultra-som, angiografia digital, fluoroscopia digital e me-dicina nuclear, obtenham imagens em formato digital, aproximadamente 70% da carga de trabalho do departamento de radiologia continuam sendo na área de radiografia convencional (filmes/chapas) [Siegel and Reiner, 1999]. Radiografia geral, com seu alto volume de deta-lhes na imagem, representa um desafio especial para PACS, desafio esse encontrado com a introdução de novas modalidades, tais como radiografia computadorizada, radiografia direta e digitalização de filmes [Siegel and Kolodner, 1999].

A maioria dos equipamentos para as modalidades digitais, tais como CT, MRI, ultra-som, medicina nuclear, CR, radiografia direta (DR), angiografia e fluoroscopia digital, é atual-mente adquirida com interface padrão que utiliza um protocolo de comunicação e formato de imagem conhecido como DICOM (Digital Imaging and Communications in Medicine). O formato DICOM é o padrão para comunicação de imagens médicas e informações associ-adas, atualmente utilizado por diversas modalidades de equipamentos de imagens médicas [Caritá, 2002]. Esse protocolo preserva a fidelidade original completa (resolução espacial e contraste) gerado pela modalidade durante a transferência para o PACS. Na ausência de uma interface DICOM, as imagens podem ser capturadas para transmissão para o PACS usando placas de captura de vídeo, que podem digitalizar a saída de vídeo de um monitor ou câmera. Desafortunadamente existe uma boa quantidade de variação na qualidade das unidades de captura de vídeo e mesmo os melhores podem introduzir artefatos que degradam a qualidade da imagem. Essas unidades estão limitadas à captura de somente 8 bits (256 níveis de cinza), o que é insuficiente para os 12 bits (4096 níveis de cinza) de modalidades tais como CT e MRI [Siegel, 1999].

Um ambiente sem filme requer um nível muito alto de resolução espacial e contraste, resultando em grandes arquivos de imagens (de 6 a 16 Megabytes). Em um ambiente desses, existem somente três métodos atualmente disponíveis para aquisição de radiografias em ge-

9

Page 25: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

ral: Radiografia Computadorizada (CR), Radiografia Direta (DR) e digitalização de filmes [Siegel and Kolodner, 1999].

Radiografia Computadorizada (CR), também conhecida como Storage Phosphor Radio-graphy (SP), é atualmente a única solução comercial amplamente disponível para aquisição digital de radiografias convencionais. Nesses sistemas de radiografias computadorizadas, as imagens digitais são diretamente produzidas em uma placa de imagem à base de fósforo (vrnaging plate) podendo, na sequência, serem visualizadas em monitores ou convertidas para imagem analógica em filme através de um processador laser. A maior vantagem da CR é sua ampla faixa dinâmica e seu uso de pós-processamento de imagens por computador, que resulta em potencial no decréscimo das taxas de repetição de imagens, e melhoria da qualidade do diagnóstico das radiografias [Siegel and Kolodner, 1999]. Os sistemas CR são compatíveis com a maioria dos sistemas de raios-X fixos e portáteis, possuindo latitude de exposição bastante larga, o que resulta em imagens com densidade adequada em uma faixa ampla de níveis de exposição, eliminando os problemas de sobre e sub-exposição das imagens [Marques and et. al, 2004], Porém existem algumas desvantagens, tais como o alto custo de implantação e o decréscimo na resolução espacial, que é menor do que a do filme, mas é suficiente para o diagnóstico.

Em Radiografia Direta (DR), um conjunto de detectores é utilizado para capturar a imagem radiográfica diretamente, eliminando a necessidade do processar ou ler o detector (filme em um sistema convencional, placa de fósforo em um sistema CR) em outro local. Com um sistema DR totalmente integrado com o sistema de informação do hospital, um técnico pode obter uma série de imagens, revisá-las imediatamente e enviá-las para urn PACS. Um sistema sem filme tem a capacidade de aumentar a produtividade. A tecnologia DR também tem a capacidade de aumentar a resolução espacial em comparação com sistemas CR atualmente implementados e diminuir os artefatos associados com os danos físicos que podem ocorrer com o tempo com as placas de fósforo armazenadas. Sua maior desvantagem é o alto custo, a alta vulnerabilidade relativa aos danos dos sistemas de detectores, e a carência de portabilidade [Siegel and Kolodner, 1999].

Na ausência de um dispositivo de aquisição digital, o filme pode ser digitalizado usando um dispositivo digit.alizador de filmes (semelhante a uma máquina de fax), que varre o filme e então envia a imagem eletrônica resultante para um dispositivo de armazenamento ou PACS. Os filmes convencionais, teoricamente podem ser digitalizados em um alto nível de resolução espacial e contraste usando um digitalizador de filme de alta qualidade. Existem muitos tipos de digitalizadores dc filmes, incluindo sistemas com CCD (charge-coupled devices) e varredura

10

Page 26: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

por feixe de laser. Os digitalizadores de filmes podem ser introduzidos sem grandes alterações na rotina do serviço, possibilitando uma transição suave para um sistema baseado em imagem digital [Siegel and Kolodner, 1999] [Marques and et. al, 2004]. Porém na prática, o processo de digitalização pode introduzir artefatos e degradar a qualidade da imagem e, além disso, a qualidade da imagem é limitada à qualidade do filme original [Siegel and Kolodner, 1999]. O processo de digitalização consome tempo devido à necessidade de identificar cada paciente, o estudo executado, data e hora do exame e fornecer essas informações à base de dados do PACS [Siegel and Kolodner, 1999], A percepção dos radiologistas é que a qualidade da imagem é significativamente limitada para os filmes digitalizados, reduzindo a segurança do diagnóstico. Essas limitações têm resultado na adoção de radiografias computadorizadas preferencialmente à digitalização de filmes [Siegel and Kolodner, 1999],

2.3 Aquisição de Imagens e Interfaces PACS Ao se planejar um departamento de radiologia sem filme, é importante especificar em de-talhes que todas as modalidades terão interfaces digitais com o PACS. Essas interfaces de-veriam utilizar o padrão DICOM para comunicação com o PACS, pois o DICOM tem-se firmado como o padrão para imagens médicas. Adicionalmente, os dispositivos de aquisi-ção de imagens deveriam ser adquiridos com a habilidade de permitir a comunicação direta com o sistema de informação hospitalar (HIS) e com o sistema de informação em radiologia (RIS) para facilitar a entrada eletrônica de informações do paciente e de estudos do paciente [Siegel and Kolodner, 1999],

Os dispositivos de aquisição de imagens devem ser capazes de enviar imagens ao PACS rapidamente, para minimizar a espera de tempo dos radiologistas e dos médicos, o que requer, por exemplo, que uma imagem de CR seja transmitida em menos que 36 segundos e 60 imagens de CT em menos que 2 minutos [Siegel and Kolodner, 1999].

Uma das mais importantes lições das recentes implementações de PACS têm sido a importância crítica das interfaces funcionando fácil e confiavelmente. Essas interfaces po-dem ser vistas como uma estrada de comunicação que permite as modalidades, o PACS e os sistemas de informação hospitalar e em radiologia (HIS/RIS) se comunicarem entre si [Siegel and Kolodner, 1999],

Três tipos de interfaces são necessários para o sucesso da operação de um PACS de larga escala:

• interface das modalidades com o PACS, que permite transferir imagens médicas e

11

Page 27: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

informações de pacientes e estudos de pacientes, dos dispositivos de aquisição (tais como CT scanner) para o PACS e transferir potencialmente as imagens do PACS para as modalidades [Siegel and Kolodner, 1999].

• interface dos sistemas HIS/RIS com o PACS, permitindo transferir informações dos pacientes tais como nome, identificação e tipo de estudos para o PACS e do PACS para os sistemas.

• interface do HIS/RIS com as modalidades, permitindo comunicação direta entre um dispositivo de imagens médicas e os sistemas HIS/RIS [Siegel and Kolodner, 1999].

2.4 Tecnologia de Armazenamento no PACS Uma vez que as imagens são obtidas, elas devem ser armazenadas para pesquisa posterior dos médicos e dos radiologistas. O armazenamento das imagens tem se dividido, tradicio-nalmente, em curto período (short-term), o qual inclui armazenamento (magnético) local, e longo período (long-term), o qual envolve meios de armazenamento óticos entre outros [Siegel and Kolodner, 1999] [Marques and et. al, 2004], e em alguns casos, em médio pe-ríodo. Existe uma diferença tremenda na velocidade de recuperação entre longo e curto pe-ríodo de armazenamento. Os armazenamentos típicos do PACS têm, a qualquer momento, pelo menos 95% de suas imagens no armazenamento em longo período, o qual é muito mais lento. E importante por isso utilizar algoritmos inteligentes para maximizar a possibilidade de se ter disponível os estudos e comparações requisitados em um armazenamento em curto período [Siegel and Kolodner, 1999].

O armazenamento local ou magnético, refere-se ao disco rígido (HD) do computador e armazena as informações da imagem digital em um disco magnético para uma recuperação rápida [Marques and et. al, 2004]. A maioria dos sistemas possui uma capacidade de arma-zenamento de curto período na faixa de 20 a 256 gigabytes [Siegel and Kolodner, 1999]. Um período curto de armazenamento deveria permitir a conservação das imagens por um período de pelo menos 2 a 3 semanas e deveria ter a capacidade de armazenar pelo menos de 1 a 3 meses de imagens, porém de modo geral, as imagens são mantidas armazenadas em um meio por volta de uma semana, devido ao grande volume de dados e o alto custo dos sistemas magnéticos de alta capacidade [Marques and et. al, 2004]. O tempo de recuperação deveria ser de 2 segundos ou menos para imagens CR e 10 ou menos segundos para 20 imagens de estudos CT, quando recuperando um estudo de um repositório de imagens central (uma ar-

12

Page 28: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

quitetura PACS central) ou de uma estação de trabalho local (arquitetura PACS distribuída). Essas velocidades são necessárias para manter níveis aceitáveis de produtividade de radiolo-gistas e médicos. O armazenamento local é utilizado tanto nas estações de visualização como também nos servidores do sistema [Marques and et. al, 2004] [Siegel and Kolodner, 1999].

Um período longo de armazenamento refere -se geralmente a discos óticos WORM (uma escrita, várias leituras). Esses discos possuem variados tamanhos e capacidades, podendo chegar a 10Gb cada e armazenam os dados em um formato de arquivo permanente e não apagável. Outras opções de armazenamento incluem arquivos em fita magnética, em CD-ROM, em DVD ou em disco ótico-magnético (M/O), que permite armazenar as informações por um período de tempo de um mês ou mais e então apagá-las quando não mais necessárias [Marques and et. al, 2004].

O armazenamento por longo prazo deveria ter a capacidade de armazenar pelo menos 5 ou 6 anos de imagens de estudos médicos. Esse período corresponde ao requisito que muitas instituições possuem de retenção de filmes convencionais. O tempo de recuperação de uma imagem de CR de um armazenamento de longo período deveria ser menos que 1 minuto e 30 estudos de imagens de CT deveriam estar disponíveis em 2 minutos. Para agilizar, um método deveria ser usado para transferir os exames antigos de um período longo de armazenamento para um de período curto, quando é provável que eles sejam requisitados, ou seja, após ter sido solicitado um novo exame nos sistemas HIS ou RIS, ou após a admissão do paciente no hospital, por exemplo. Esse processo é conhecido como "prefetching" e deveria resultar na obtenção prévia desses exames antigos.

A maioria dos sistemas PACS de grande escala utilizam uma jukebox ótica para armaze-namento de longo período de imagens. A capacidade de armazenamento tipicamente varia de 20 gigabytes a mais do que 2 terabytes com tempo de recuperação na faixa de 20 segundos a aproximadamente 5 minutos para uma simples imagem de radiografia computadorizada (de 8 magabytes) [Siegel and Kolodner, 1999].

Em [Furuie et al., 1999] os armazenamentos são classificados como :

Online mídia online de até 100 GBytes suportando armazenamento de exames dos últimos 2 meses, considerando-se 5 Gbytes por dia de imagens (2.5 GB com compressão sem perda).

Nearhne (dispositivos automáticos que permitem carregar e descarregar a mídia através de um robô, tais como jukeboxes, com até 3.4 TBytes). A recuperação nearhne envolve descarregar automaticamente os arquivos DICOM para a media online, com um tempo

13

Page 29: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

de pesquisa e carga de cerca de 3 minutos. O armazenamento nearline permite que as imagens mais recentes dos últimos 3 anos possam ser acessadas automaticamente.

Offline a recuperação offline é baseada em agendamento e carregamento prévio (prefetching) dos dados para a mídia online. Requer a intervenção do operador para carregar o exame ou a fita solicitada.

0 gerenciamento desses armazenamentos é feito através de um sistema gerenciador de base de dados que mantém o controle da localização e movimentação das imagens, e dos estados, ou seja, se estão online, nearline ou offline, além de gerenciar a mudança de estado das imagens, ou seja, enviar imagens de um estado para outro, como por exemplo, do estado online para nearline, conforme ilustra a Figura 2.3.

Online media Nearline system Offline Storage (100 GB) (3.4 TB jukebox) (shelves)

Figura 2.3: Armazenamento de um PACS combinando arquivamento online, nearline e offline através de um gerenciador de base de dados.

2.5 Exibição de Imagens O sistema de exibição de imagens, ou a estação de trabalho, é o componente do PACS que tem recebido mais atenção. De fato, para a maioria dos usuários, é o único componente do PACS que eles irão interagir diretamente.

A estação de trabalho de imagens deve ser capaz de consultar as imagens e obtê-las rápida e facilmente, e permitir uma navegação rápida e intuitiva na base de dados, para permitir a obtenção e comparação de históricos relevantes ou exames relacionados. Os monitores de

14

Page 30: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

exibição devem ter uma resolução de pelo menos 2000 por 1500 pixels para uso no diagnóstico de radiografias gerais e uma área de exibição comparável em tamanho a filmes convencionais de 14" por 17". O padrão de teleradiologia do American College of Radiology (ACR) sugere que as radiografias convencionais sejam visualizadas usando uma resolução de pelo menos 2k pixels [Siegel and Kolodner, 1999], Uma outra sugestão é o uso de uma configuração de 2 ou 4 monitores. Quanto ao software de exibição e manipulação das imagens, deve ser intuitivo e de fácil uso e aprendizado [Siegel and Kolodner, 1999],

A navegação das imagens, ou a habilidade de recuperar e exibir imagens com a intenção de comparar exames atuais ou parecidos, tem sido relativamente desapontadora na maioria dos sistemas PACS, embora isso tenha melhorado consideravelmente durante os últimos 2 anos [Siegel and Kolodner, 1999]. Atualmente muitos passos são necessários para obter estudos antigos para comparação com os exames atuais, além de que muitos sistemas não suportam facilmente nem habilmente a comparação entre subníveis, tais como sequências individuais de imagens MRI com imagens de outros exames [Siegel and Kolodner, 1999],

A tendência futura é a existência de um contínuo aumento na velocidade de gráficos e na atuação global das estações de trabalho utilizadas para a exibição das imagens, permitindo assim uma manipulação mais rápida das imagens, e no uso de computadores pessoais como estações de trabalho, executando sistemas como o Windows NT [Siegel and Kolodner, 1999].

2.6 Rede PACS As redes PACS podem ser vistas como uma estrada que tem sido construída para car-regar imagens das modalidades de aquisição para os PACS, e dos PACS para as esta-ções de trabalho, sendo a porta de comunicação do HIS/RIS e o arquivo de imagens. As redes podem ser projetadas utilizando-se ou uma arquitetura central ou distribuída [Siegel and Kolodner, 1999].

Em um PACS com uma arquitetura central, as imagens estão disponíveis utilizando dispositivos compartilhados de armazenamento de um curto período (tipicamente um RAID, ou um vetor de discos baratos). A vantagem dessa arquitetura é que todas as imagens de um período curto de armazenamento estão disponíveis em todas as estações de trabalho tipicamente com uma taxa de recuperação muito rápida. A desvantagem é a vulnerabilidade dessa configuração [Siegel and Kolodner, 1999].

Uma alternativa é um PACS com uma arquitetura distribuída, na qual as imagens es-tão armazenadas em múltiplos servidores distribuídos em todo o ambiente hospitalar. A

15

Page 31: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

maior desvantagem é a necessidade de enviar as imagens automaticamente ou manualmente para os servidores individuais ou estações de trabalho, para obter uma atuação aceitável [Siegel and Kolodner, 1999].

As redes PACS devem ser capazes de suportar vários usuários simultaneamente, sem uma degradação significativa da rede. Devem também proporcionar um alto nível de segurança para garantir que somente usuários autorizados tenham acesso às informações dos pacientes. Uma das limitações com relação ã atuação da rede é a infra-estrutura limitada dos hospi-tais, que têm sido tradicionalmente projetados para textos e números, e não para imagens [Siegel and Kolodner, 1999].

A implantação de uma rede PACS completa é um projeto bastante caro e complexo, sendo necessário o desenvolvimento de um planejamento bem organizado e inteligente para sua execução, principalmente devido à necessidade do ajuste das estruturas de rede de com-putadores geralmente inadequadas [Marques et al., 2000].

2.7 Serviço de Radiologia Digital (filmless) em Hospital Universitário

O Centro de Ciências das Imagens e Física Médica (CCIFM) da Faculdade de Medicina de Ribeirão Preto (FMRP/USP) vem trabalhando no sentido de iniciar o processo de transição do Serviço de Radiodiagnóstico do Hospital das Clínicas da Faculdade de Medicina de Ri-beirão Preto para a radiologia filmless. Esse processo tem envolvido [Marques et al., 2000] [Marques et al., 2000]:

• conexão de equipamentos em rede (tais como Tomografia Computadorizada- CT e Ressonância Magnética Nuclear - RMN);

• armazenamento de imagens em meio eletrônico (CD-ROM) para posterior disponibili-zação;

• desenvolvimento e implantação de um Sistema de Informação em Radiologia (RIS), sobre o qual será desenvolvido este trabalho.

O departamento de radiologia do Hospital das Clínicas conta atualmente com os seguintes aparelhos DICOM compatíveis: 1 equipamento de Tomografia Computadorizada (CT), 1 de Ressonância Magnética Nuclear (RM) e 2 de ultra-som, conectados em rede, e gerenciados pelo sistema Magic View 300 da Siemens, que permite que um computador do tipo PC (com

16

Page 32: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

sistema operacional Windows NT) funcione como um console auxiliar podendo manipular, arquivar e gravar em CD-ROM e disponibilizar imagens através do servidor. Os exames são gravados diariamente em CDs, que ficam guardados para consultas posteriores. Possui também um disk-array Data Force de 50Gbytes, o que possibilita disponibilizar imagens para consultas correspondentes a um período aproximado de 2 meses, porém está em fase de testes, e as imagens têm que ser recuperadas diretamente dos CDs.

Além disso está sendo configurado um servidor RSNA (Radiological Society of North America) que será utilizado como o servidor DICOM para os testes do PACS, utilizando a interface de visualização de imagens cujo desenvolvimento está descrito em [Caritá, 2002].

2.8 Sistema de Informação em Radiologia (RIS) do Hospital das Clínicas - HCFMRP

O RIS do HCFMRP, também denominado Sistema de Laudo Eletrônico (Figura 2.4), foi desenvolvido e implantado em parceria entre o Centro de Ciências das Imagens e Física Médica (CCIFM) da Faculdade de Medicina de Ribeirão Preto (FMRP/USP) e o Centro de Informações e Análises do Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto (HCFMRP), e está em uso desde 1999 [Marques et al., 2000].

Mu -t-.r >• 111 Kl.l- I. . IMHtJ» -'V- --

Figura 2.4: Tela principal do Sistema RIS do HCFMRP.

O sistema foi desenvolvido com a finalidade de otimização no processo de disponibiliza-ção e consulta de laudo através da rede ethernet do hospital, uma vez que existia um tempo de espera de três a quatro dias para a disponibilização dos laudos no Serviço de Arquivo

17

Page 33: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Médico (SAM). Esse tempo era necessário, pois os laudos eram emitidos de forma manual em um formulário que acompanhava o pedido de exame, sendo conferidos posteriormente pelo especialista, encaminhados para digitação, impressos, corrigidos, re-impressos, assina-dos e finalmente encaminhados ao SAM, conforme esquematizado na Figura 2.5. Existia uma procura bastante alta no Setor de Radiodiagnóstico por laudos ainda não disponíveis no SAM. Com a implantação do RIS esse tempo de espera foi bastante minimizado, uma vez que, assim que os exames são laudados, eles já se encontram disponíveis para consultas online além de que o mesmo passa a ser impresso diretamente no SAM, utilizando assina-tura eletrônica, agilizando assim o processo de distribuição destes junto aos prontuários dos pacientes [Marques et al., 2000].

Pedido de exame AGENDAMENTO Registro do paciente

(etiqueta c/còd. Barra) » TÉCNICO

Laudo definitivo

SERVIÇO DE ARQUIVO

MÉDICO (SAM)

RIS - SISTEMA INFORMAÇÃO

EM RADIOLOGIA

Geraçao do Exame <

Laudo Provisório (médicos residentes)

P I Laudo K'TI I Impresso

PRONTUÁRIO DO PACIENTE

Laudo provisório

• H . Laudo definitivo

SALA DE LEITURA

Médico especialista

Figura 2.5: Esquema do processo global do RIS ilustrando o fluxo de um exame radiológico [Rosa, 2002],

O núcleo do sistema é o exame, ao qual estão associados um número de identificação e outras informações referentes ao paciente, tipo de exame e região anatómica, sala e apare-lho de sua realização, técnica utilizada, quantidade de exposições realizadas, quantidade de filmes utilizados, quantidade de filmes rejeitados e o motivo de rejeição, laudos e médicos res-ponsáveis pelos laudos (residente e supervisor). O programa permite a emissão de relatórios de produtividade e técnicos, facilitando o gerenciamento e controle da qualidade do serviço. O RIS trabalha sobre uma plataforma de base de dados ORACLE, com interface ao usuá-rio feita em DELPHI, permitindo consulta online de laudos através de microcomputadores conectados à rede ethernet do Hospital [Marques et al., 2000].

O processo global do sistema pode ser descrito conforme a Figura 2.5, e inicia-se com a solicitação de um exame para um paciente junto ao serviço de agendamento do hospital.

18

Page 34: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

É gerado então uma etiqueta contendo um código de barras com o número de registro HC do paciente e a clínica solicitante, que o técnico irá utilizar, no momento da realização do exame, para gerar eletronicamente o exame no sistema através da leitura desse código de barras e da inserção manual de informações referentes ao tipo de exame, região anatómica, técnica empregada, sala de realização, reveladora utilizada, tipo e quantidade de filmes ex-postos, se houve rejeições e o motivo. Após a realização do exame e sua geração eletrônica no sistema, os filmes são encaminhados para uma sala de leitura para serem avaliados e lauda,dos, inicialmente como provisórios pelos médicos residentes, e posteriormente conferi-dos e corrigidos, se necessário, pelos médicos especialistas e então gravados como definitivos. Os laudos definitivos são impressos diretamente no Serviço de Arquivo Médico (SAM) para serem incluídos no prontuário do paciente. Os laudos gerados podem ser consultados on-line através de qualquer computador disponível no hospital, sem a possibilidade de alteração dos laudos. Essa consulta, feita através do fornecimento do registro do paciente ou nome, exibe uma lista com todos os exames do paciente, suas condições (não laudados, laudados provisó-rios ou definitivos), bastando então selecionar o exame de interesse para acessar seu laudo. Pode-se também fazer uma busca por patologia, cuja pesquisa será feita pesquisando pala-vras chaves presentes nas descrições dos laudos de exames realizados dentro de um período estabelecido pelo usuário [Marques et al., 2000].

De modo geral, pode-se dividir o RIS em quatro módulos principais [Marques et al., 2000]:

M ó d u l o de Exames: módulo que permite gerar, alterar, excluir ou mesmo consultar exa-mes realizados.

M ó d u l o de Geração de Laudos: gera laudos provisórios e definitivos para os exames ge-rados no sistema.

M ó d u l o de Consultas de Laudos: permite consultas à lista de exames e respectivos lau-dos dos pacientes (busca por registro ou nome do paciente fornecido) além de consultar por patologias todos os laudos que contenham em sua descrição palavras-chave forne-cidas.

Módu lo de Gerenciamento: permite a emissão de relatórios técnicos (consumo de filmes, rejeição de filmes e suas causas, rejeição por reveladora, por sala ou por equipamento, e outros), administrativos (número total de exames realizados, exames por modalidade, por técnicos, exames laudados por médico, laudos atrasados, e assim por diante).

19

Page 35: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

A segurança do sistema é garantida através do acesso restrito a cada módulo do sistema de acordo com os direitos atribuídos a cada um dos usuários cadastrados. Cada usuário possui direitos específicos, de acordo com sua função dentro do fluxo de atividades do serviço e, para ter acesso ao sistema, o usuário necessita informar seu nome de usuário e sua senha. Toda operação realizada pelo sistema fica armazenada em conjunto com o código do usuário solicitante.

O Sistema de Laudo Eletrônico contém atualmente somente informações textuais, po-rém ern [Caritá and Marques, 2000] [Caritá, 2002] foi desenvolvido um projeto piloto para vinculação, recuperação e visualização das imagens dos exames de Ressonância Magnética e Tomografia Computadorizada do HCFMRP/USP. O processo de vinculação das imagens consistiu em extrair as informações dos exames, necessárias para relacionar as imagens com os exames do RIS, contidas nas "tags" dos arquivos DICOM das imagens, e inseri-las au-tomaticamente na base de dados responsável pelo gerenciamento das imagens. Na base de dados as imagens são armazenadas no formato DICOM original [Rosa, 2002],

Uma das grandes contribuições do trabalho de vinculação das imagens com os exames radiológicos do RIS foi a utilização de uma tag do DICOM para armazenar a chave do exame no RIS. Com isso, adotou-se um padrão para a realização dos exames e aquisição das imagens: os técnicos entram com as informações do exame no RIS, que irá gerar um número único de identificação do exame. Esse número é então inserido manualmente junto com as demais informações do paciente nas tags dos arquivos DICOM das imagens. Sendo assim, as novas imagens adquiridas contêm em seu interior, o número do exame que permite vinculá-las ao RIS [Rosa, 2002],

Foi a partir do RIS e da utilização do novo protocolo para a realização dos exames, além da conscientização dos técnicos e médicos da importância de preencher corretamente as informações do paciente, principalmente a chave do exame (RGHC), que o SRIS-HC1 foi desenvolvido originalmente.

2.9 Conclusão Os atuais PACS de larga escala estão começando a se beneficiar do tremendo avanço nas tecnologias de rede e computadores. A radiologia sem filme proporciona uma alteração radical no modo como o diagnóstico cm radiologia é praticado, o que resultará em uma completa remodelagem das salas de leitura dos radiologistas e a localização das áreas de

'Sistema de Recuperação de Imagens por Similaridade do Hospital das Clínicas.

20

Page 36: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

leitura dos radiologistas no hospital e em todas as empresas de saúde. No futuro os PACS se tornarão diretamente integrados com as empresas de tratamento

de saúde, resultando na disponibilidade dos registros médicos eletrônicos dos pacientes bem como uma vasta biblioteca de imagens e texto. Haverá acesso instantâneo a qualquer imagem do sistema de saúde a qualquer momento, com uma melhor segurança das imagens e uma qualidade mais alta e mais imagens de diagnósticos, e uma nova geração de ferramentas para os radiologistas. Essas ferramentas irão permitir aos radiologistas melhorar a qualidade das imagens existentes e combinar múltiplas imagens de uma ou mais modalidades em uma única imagem ou estudo para melhorar a exatidão do diagnóstico. Finalmente, um novo conjunto de características de suporte a decisão estarão disponíveis no futuro, que usará informações clínicas do registro eletrônico médico em conjunto com as imagens da base de dados dos radiologistas e irá combiná-las com as informações clínicas e imagens associadas com um novo estudo para ajudar a encontrar ou mesmo sugerir o diagnóstico.

Uma vez que as imagens médicas ainda não estão integradas ao Sistema de Informação em Radiologia - RIS, e nem intermodalidades, as soluções isoladas adotadas pelo Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto não caracterizam um PACS completo, mas sim um resultado inicial de um projeto de pesquisa que visa a implantação de um serviço de radiologia sem filme junto ao hospital.

21

Page 37: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Capítulo

3 Extração de Características de Imagens

3.1 Considerações Iniciais A extração de características utilizando histogramas é o ponto central deste trabalho. Com o processamento de histogramas, será gerado um espaço baseado nos vetores de características (feature vectors), a serem utilizados para indexação e recuperação de imagens.

Um vetor de características é uma representação numérica suscinta de uma imagem ou parte da imagem (um objeto) representando medições sobre seus aspectos representativos. O vetor de características é um vetor ri-dimensional que contém essas medidas. Essa nova representação da imagem pode ser armazenada em uma base de dados e assim permitir uma recuperação rápida da imagem. O objetivo central deste capítulo é : Dada uma imagem,, ou uma região dentro da imagem, gerar as características que representem esta imagem, as quais serão organizadas numa estrutura de indexação métrica, para o qual tem-se que considerar os seguintes aspectos do processo [Loew, 2000]:

• Reduzir a dimensionalidade dos dados.

• Ressaltar propriedades da imagem para facilitar a percepção humana.

• Tratar os aspectos de invariância às transformações da imagem.

22

Page 38: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Neste Capítulo será descrito o funcionamento dos extratores de características. Será dada uma introdução sobre as características de imagens e seus principais atributos, seguida das consultas por similaridade e a classificação das estruturas métricas.

3.2 Definindo uma Imagem As imagens são representadas como conjuntos de elementos (pixel) que são colocados em uma grade regular. Os valores associados a cada pixel são aqueles obtidos do processo de quanti-zação e correspondem ao valor de intensidade (brilho), no caso de imagens monocromáticas. Assim, formalmente, uma imagem pode ser definida da seguinte forma:

Definição 3.1 - Uma imagem A é uma função definida sobre uma faixa bidimensional G = [0,2o] x [0, í/o] tomando valores no conjunto de possíveis luminosidades V = [0,^o]. Isto é, A = {(x,y,v(x,y))/(x,y) e G e v e V}.

Um histograma de imagem é composto por um número de bins que depende da resolução de quantização da imagem. Geralmente este valor é dado em potência de 2, isto é: 64, 128, 256, etc. De qualquer forma, para o olho humano, é difícil enxergar os detalhes e diferenças nas intensidades e, na prática, v0 — 32 ou 16 é suficiente para representar as imagens [Theodoridis and Koutroumbas, 1999].Em imagens médicas, dentro de um mesmo domínio, usualmente este valor é fixo. Formalmente, um histograma pode ser explicitado através da seguinte definição:

Definição 3.2 - O histograma normalizado HNA(z) de uma imagem A fornece a freqiiência de cada valor de intensidade z na imagemi, a qual é dada em porcentagemO histograma normalizado de uma imagem com t níveis de intensidade é também representado por um vetor' corri t elementos.

Deve-se observar que o histograma normalizado é invariante em relação às transformações geométricas (escala, rotação e translação). Seria interessante conseguir um histograma que fosse também invariante em relação às transformações lineares de brilho. A Figura 3.1 apresenta uma imagem de tomografia de cabeça humana e o histograma normalizado dessa imagem. Os histogramas normalizados permitem comparações entre imagens de qualquer tamanho, assim, transformações geométricas realizadas sobre as imagens fontes fornecerão os mesmos histogramas.

23

Page 39: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

<3.02

0 01 L L . .,. mi. , . isi. m Uvas ie luminosidade

Figura 3.1: Uma imagem e seu histograma normalizado.

A necessidade de gerar vetores de características se faz necessária pela dificuldade de poder trabalhar com o total de informação da imagem, que são dados muito grandes. Por exemplo, para uma imagem de dimensão 64 x 64, o número de pixels é de 4096. Para o caso de sistemas de recuperação de imagens baseado em conteúdo, este número é muito alto, além disso a comparação pixel a pixel, em muitos casos, não é significativa. Então a geração do vetor de características é um processo que calcula novas variáveis a partir da imagem original A(m,n). Este processo procura gerar características que tragam informações a respeito da imagem (ou objetos da imagem).

3.3 Atributos das Imagens Muitos dos sistemas de recuperação de imagens utilizam a forma, textura e cor para representar urna imagem[Stehling et al., 2000], [Krishnamachari and Abdel-Mottaleb, 1998] [Chua et al., 1997]. Sua recuperação está baseada na similaridade das características deri-vadas delas. Embora a cor seja um atributo confiável na recuperação de imagens, situações onde a informação de cor não as discrimina bem requerem o uso de atributos de forma e/ou textura para a recuperação de imagens. Além disso, os sistemas baseados num único atributo da imagem podem não alcançar níveis de recuperação adequados, motivo pelo qual os siste-mas procuram utilizar múltiplos atributos das imagens para a sua indexação e recuperação [Vailaya, 2000],

24

Page 40: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

3.3.1 Cor

As cores presentes em uma imagem possuem um papel significativo na sua indexação e recuperação. Existem diferentes representações de cores que incluem desde o tradicional RGB (red, green, blue), o modelo mais simples que mapeia diretamente as características físicas do dispositivo de exibição, até o HSI (hue, saturation, intensity) que reflete mais precisamente o modelo de cores para a percepção humana.

Muitos trabalhos recentes de extração de características baseadas em distribuição de cores estão concentrados nos histogramas de cor1. Alguns dos trabalhos da literatura in-cluíram a indexação de cor usando intersecção de histogramas [Swain and Ballard, 1991] [Moghaddam et al., 2000], assinaturas [Chua et al., 1997] [Rubner and Tomasi, 2000] e o trabalho recente de [Bueno, 2002] produz uma função linear por partes baseada erri his-togramas, que foi nomeada de Histogramas Métricos, sendo utilizados na recuperação de imagens similares. Os histogramas de cor são invariantes à translação e rotação das ima-gens, sendo que, com a normalização dos histogramas, obtém-se também a invariância à escala. De qualquer forma, os histogramas de cor não indicam a localização espacial dos pixels na imagem, podendo trazer incoerência entre semelhança de imagens, como visto na Figura 3.2. Outras abordagens como a recuperação baseada em distribuição espacial de cores [Yamamoto et al., 1999] [Moghaddam et al., 2000] eliminam esse tipo de incoerência, mas aumentam o custo computacional por utilizarem diversos histogramas em suas consultas.

a b

1 6 HiS

4 j k n N I

tograma de cores

' U cores

Figura 3.2: Exemplos de imagens diferentes (a, b, c e d) que possuem o mesmo histograma de cores (e).

Esta abordagem apresenta algumas dificuldades pelo próprio caráter não invariante do

' Para imagens monocromáticas , histogramas de cor são correspondentes aos histogramas de brilho ou intensidades.

25

Page 41: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

histograma de cores. Alem disso, se a imagem contém um niimero alto de cores, então o vetor de características será maior e a indexação de vetores com tal dimensão se torna problemática.

3.3.2 Textura

Não existe uma definição clara de textura, mas os autores concordam em defini-la como as mudanças na intensidade da imagem que formam determinados padrões repetitivos [Tuceryan and Jain, 1993]. Uma textura é um padrão visual onde há um grande número de elementos visíveis arranjados de forma equânime com densidades variadas. Um elemento de textura é uma região de intensidade uniforme de formas simples que se repete dentro de um intervalo, como cxemlificado na Figura 3.3. Assim, uma textura pode ser analisada dentro de um intervalo (janela), denominada "análise estatística". Se o procedimento for realizado no elemento da textura, é então denominado "análise estrutural". Geralmente, utiliza-se a análise estrutural sempre que os elementos da textura possam ser claramente identificados. Por outro lado, aplica-se a análise estatística para texturas pequenas e não muito regulares.

Figura 3.3: Exemplo de texturas.

Medidas estatísticas buscam caracterizar a variação de intensidade em uma janela de textura. Exemplos de tais medidas são contraste (alto contraste: textura de pele de zebra, versus baixo contraste, textura da pele de um elefante); granularidade (tamanho dos ele-mentos do padrão) e direcionalidade (estampa de padrão de xadrez em um tecido versus um padrão liso). Urna ferramenta para a manipulação de padrões estatísticos é o espectro de Fourier. Através da transformada de Fourier realizada sobre uma janela de textura gera-se uma assinatura. Janelas que possuam assinaturas próximas ou bastante similares podem, então, ser agrupadas.

26

Page 42: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

A análise estrutural de texturas obtém os elementos de textura presentes na imagem, determinando seus formatos e estimando as regras de posicionamento. As regras de posici-onamento descrevem como os elementos de textura são colocados com relação aos demais, além de estabelecer o relacionamento de vizinhança (conexidade), o número de elementos por unidade espacial (densidade) e sua regularidade (homogeneidade).

Estas características servem como medida para a diferenciação de texturas que não se-guem um determinado padrão de repetitividade, fornecendo informações relevantes para a classificação.

O tratamento de textura difere do realizado sobre cores devido ao fato de que as texturas são definidas sobre janelas ou regiões da imagem e não sobre pixels, como as cores. A segmentação de uma imagem utilizando textura determina quais regiões possuem textura uniforme. Depois que as regiões são determinadas, os retângulos que as envolvem (Mimmum Bounded Box - MBB) podem ser utilizados para construir uma estrutura de indexação tipo R-Tree [Guttman, 1984],

Em [Haralick et al., 1973] é descrita uma metodologia de classificação de imagens a partir do uso da abordagem estatística de segunda ordem, onde são definidas diversas caracterís-ticas advindas do cálculo de matrizes de co-ocorrência, que são matrizes que contam as ocorrências de níveis de cinza em uma imagem. Essas matrizes são utilizadas para detectar uniformidade em imagens, classificando essas texturas. A utilização de texturas pode ser muito útil em sistemas hospitalares na detecção de tumores ou no diagnóstico através de imagens [Chan and McCarty, 1990]. Além disso, a textura é muito utilizada para realizar a segmentação de imagens médicas, como descrito em [Claude et al., 2001].

3.3.3 Forma

A recuperação de imagens baseada em forma é um dos problemas mais difíceis de serem tratados pelos sistemas de recuperação de imagens baseada em conteúdo. Isto se deve, principalmente, à dificuldade de segmentar automaticamente os objetos de interesse presentes na imagem, levando a recuperação por formas ser tipicamente limitada aos poucos objetos melhor discriminados que estão presentes na mesma.

A imagem a ser indexada deve ser pré-processada para possibilitar a busca e a determi-nação das bordas que estão nela presentes. Os filtros ou algoritmos de pré-processamento dependem do domínio da aplicação das imagens em questão. Objetos tais como tumores cerebrais e lesões de pele demandam um conjunto específico de algoritmos que são diferentes dos utilizados para localizar objetos como aviões, carros etc. Isto porque o primeiro domí-

27

Page 43: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

nio de imagens não pode se valer de formas pré-definidas que possam auxiliar no processo de reconhecimento de informações morfológicas presentes na imagem. Por outro lado no segundo domínio, as imagens possuem formas baseadas em geometria, podendo-se valer da utilização de modelos descritos antecipadamente. O tratamento de imagens mais comple-xas demanda muitas vezes também o tratamento e remoção de ruídos em uma etapa de pré-processamento. A Figura 3.4 exemplifica a detecção de formas, onde são esperados a detecção do fígado, da espinha dorsal e do corpo. Qualquer objeto detectado dentro do contorno do fígado é considerado um tumor[Petrakis and Faloutsos, 1997].

Após o objeto ser encontrado, sua borda precisa ser detectada utilizando algoritmos de detecção de contorno. O processo de detecção de bordas e formas fica mais difícil e comprometido em cenas complexas onde há, além do ruído, oclusão parcial de objetos ou sombras sobre regiões das imagens.

. tumor 4 fígado

1 ' tumor

3 í , espinha 2

c o n t o r n o cío corpo

0

b}

Figura 3.4: Exemplo de uma imagem original em tons de cinza (a) c sua forma segmentada mostrando 4 objetos identificados (b) [Petrakis and Faloutsos, 1997].

Os atributos de forma dos objetos presentes na imagem são também representados através de vetores reais embora aqui cada vetor possa ter uma dimensão2. Nesse caso, um conjunto de vetores não tem uma dimensão característica apesar de poderem ser vistos como elemen-tos de um espaço métrico e serem indexados dessa forma. Outra técnica é a de aproximar as formas encontradas por outras mais simples e fáceis de manusear. Por exemplo, a trian-gulação ou aproximação por retângulos de contorno (bounding boxes) podem ser utilizada para representar formas irregulares. Além disso, tem-se a vantagem de que os requisitos de

2espaços dimensionais serão tratados no Capítulo 4.

28

Page 44: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

armazenagem são menores e a comparação fica mais simples, melhorando seu processamento.

3.3.4 Resumo das características de baixo nível das imagens

Na Tabela 3.1 são brevemente descritos os tipos de características de baixo nível da imagem que têm sido amplamente usadas na recuperação de imagens baseadas no conteúdo, conside-rando suas vantagens e limitações. Em termos de cor, a característica mais utilizada são os histogramas [Swain and Ballard, 1991] [Bueno, 2002], momentos [Stricker and Dimai, 1996] e vetores de coerência de cor [Pass et al., 1996]. Essas características descrevem as proprie-dades globais de uma imagem e podem ser facilmente extraídas. Uma grande limitação é a sua impossibilidade de representar adequadamente a informação de localização espacial ou de objetos na imagem. As características de forma suplantam essa deficiência e descrevem melhor os objetos da imagem. Pode-se descrever a forma e as características de contorno de objetos basicamente de três maneiras: por aproximação polinomial, por momentos inva-riantes e por descritores de Fourier. As características de forma outorgam um alto nível de abstração em termos do formato dos objetos numa imagem, mas isso requer o uso de bons algoritmos de segmentação para extrair objetos de interesse de uma imagem. As caracterís-ticas de textura outorgam um nível intermediário de abstração numa imagem, assim como as características da cor. Ambas podem ser extraídas automaticamente de uma imagem, apesar da extração de textura ter maior complexidade computacional [Vailaya, 2000].

3.4 Importância da Extração de Características A extração de características é o núcleo para a recuperação de imagens baseada em conteúdo. Estas características podem ser textuais (palavras chaves, anotações, etc.) e visuais (cor, textura, forma, faces, etc.). As características visuais podem ser gerais (cor, textura, forma) ou específicas para domínios (faces humanas, impressões digitais). Essas últimas podem abranger uma grande quantidade de conhecimento a respeito do domínio objetivado.

Considerando faces humanas como exemplo, as características mais utilizadas são as medidas de distância entre os principais componentes da face, tais como: separação entre centros e bordas dos olhos, boca, olhos, queixo e nariz.

A importância do processo de extração de características de imagens deve-se ao fato de que elas sintetizam propriedades inerentes da imagem, que serão utilizadas no processo de indexação e recuperação do conjunto de imagens [Traina, 2001].

29

Page 45: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Atributo da Ima-gem

Características da Imagem

Vantagens Limitações

Cor Histogramas, Momentos e vetores de coe-rência.

Podem ser extraídos auto-maticamente. Computa-cionalmente baratos. Re-presentam as propriedades globais da imagem.

Não têm possibilidade de representar informações de localização espacial. Descrição limitada da semântica da imagem.

Textura Matrizes de co-ocorrência, características de multi-escala e características de filtros de Gabor.

Podem ser automatica-mente extraídos da ima-gem. Outorgam informa-ção global assim como lo-cal.

Podem ser computacional-mente caros (extração e casamento de característi-cas) e difíceis de definir. Descrição limitada da se-mântica da imagem.

Forma Aproximação po-ligonal, momen-tos invariantes e descritores de Fourier.

Consegue obter um alto nível de abstração em ter-mos de forma dos objetos locais. Permitem consul-tas em nível de objetos.

Não podem ser automa-ticamente extraídos (pre-cisam de bons algoritmos de segmentação para ex-trair os objetos de inte-resse). Computacional-mente caros para lograr invariância às mudanças do objeto rígido.

Tabela 3.1: Atributos de qualidade das características de baixo nível da imagem [Vailaya, 2000].

O processo de extração de características de imagens é apresentado na literatura da área de processamento de imagens como um dos passos para se efetuar o re-conhecimento de padrões existentes em imagens [Theodoridis and Koutroumbas, 1999], [Gonzalez and Woods, 1993] e [Russ, 1995]. O reconhecimento de padrões assume que a imagem pode conter um ou mais objetos e que cada objeto pertence a um tipo (de um conjunto previamente definido de muitos tipos) e a uma ou mais categorias ou classes de padrões pré-determinados. Segundo Castleman [Castleman, 1996], dada uma imagem con-tendo vários objetos, o processo de reconhecimento de padrões consiste basicamente de três fases, exemplificadas na Figura 3.5:

• Segmentação de imagem: na qual cada objeto contido na imagem é localizado e isolado do resto da cena.

• Extração de características: quando são calculados valores que descrevam alguma

30

Page 46: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Imagem Original

V 0 0

"Elipse" "Circulo"

Tipo de Objeto

Segmentação F.xtração de Características Classificação

imagem Objeto

Vetor cie Características

Figura 3.5: Etapas de reconhecimento de padrões de imagens.

propriedade quantitativa ou qualitativa dos objetos. Uma característica é uma função de uma ou mais medidas, calculadas de forma que quantifique alguma propriedade do objeto. Este processo produz um conjunto de n características que, juntas, for-mam o vetor de características de uma imagem. Pode-se então pensar em um espaço rt-dimensional no qual todos os n-elementos deste vetor possam ser localizados. As-sim, qualquer objeto corresponde a um ponto deste espaço, denominado espaço de características. Após uma imagem ser segmentada em regiões, geralmente convém representar e descrever o conjunto resultante de pixels segmentados em uma forma adequada para processamento. Há dois modos de representar uma região: baseando-se nas características externas (isto é, suas fronteiras) ou nas internas (os pixels contidos na região) [Gonzalez and Woods, 1993]. Geralmente, opta-se por uma representação externa quando o foco são as características morfológicas ou formas que estão presen-tes na imagem. Por outro lado, a representação interna é mais utilizada quando há interesse em propriedades refletivas, tais como cor e textura. Em ambos os casos é importante que as características selecionadas como descritoras sejam tão insensíveis quanto possível à variações de tamanho, translação e rotação.

• Classificação da imagem: O resultado desta etapa baseia-se na decisão a respeito da classe à qual pertence cada objeto da imagem. É reconhecido o tipo de cada objeto e o reconhecimento é implementado como um processo de classificação. Cada

31

Page 47: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

objeto é associado a um dos diversos grupos pré-estabelecidos que representam todos os possíveis tipos de objetos que se espera existir na imagem.

Brown em [Brown, 1992] apresenta uma taxonomia sobre quais são os atributos mais utilizados no processo de extração de características e agrupa-os em cinco espaços. A Ta-bela 3.2 sumariza tais espaços e os atributos associados. E interessante notar que os atri-butos mais cfetivos em sistemas de recuperação de imagens baseada em conteúdo, porém mais caros computacionalmente, são aqueles que usam características de bordas e caracte-rísticas de alto nível [Smeulders et al., 2000], como grafos [Gudivada and Raghavan, 1995] [Petrakis and Faloutsos, 1997], e distribuição espacial de padrões [Petrakis et al., 2001],

Espaço de Características

Atributos

1.Intensidade Bruta (raw intensity)

Baseiam-se nas intensidades dos pixels.

2. Bordas Estrutura intrínseca, menos sensível a ruídos. Incluem contorno e superfícies.

3. Características Salientes

Estrutura intrínseca, posicionamento preciso. Incluem intersecção de linhas, cantos, pontos de alta curvatura.

4. Características Estatísticas

Usa toda informação presente na imagem, bons resulta-dos para transformações rígidas, suporte a suposições. Incluem momentos invariantes, eixos principais, técni-cas como singular value decomposition e centróides.

5. Características de Alto Nível

Utilizam relações e informação de alto nível, bons re-sultados para matching local e impreciso. Incluem ca-racterísticas estruturais (grafos de configurações de sub-padrões) e sintáticas (gramáticas compostas a partir de padrões) e redes semânticas (regiões de cena e suas rela-ções). Podem criar técnicas de assinatura para indexar imagens.

Tabela 3.2: Taxonomia sobre espaços de características extraídas de iinagens[Brown, 1992],

As características estatísticas (histograma de intensidades, média, desvio-padrão, entre outras), por representarem um comportamento mais global da imagem e por serem mais baratas computacionalmente, são mais adequadas nos primeiros passos de seleção ou elimi-nação de candidatos. Já as características baseadas nas intensidades dos pixels em si, só valem quando se busca imagens exatamente iguais, o que não é o caso geral em consultas por similaridade.

32

Page 48: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

3.5 Algumas Abordagens sobre os sistemas CBIR Por obter a distribuição de cores ou níveis de intensidade de imagens com baixo custo com-putacional, histogramas de intensidade têm sido as grandes "vedetes" era sistemas de re-cuperação de imagens por conteúdo sendo utilizados em muitos deles. Nesta seção serão apresentados dois sistemas que serão utilizados neste trabalho. 0 Histograma Métrico foi usado no sistema base para a implementação deste trabalho, como poderá ser visto no Ca-pítulo 5. A técnica BIC foi utilizada como suporte à comparação de resultados e, assim, verificar o desempenho do presente trabalho.

3.5.1 O Histograma Métrico

Uma abordagem de extração de características baseada em intensidade de cor foi tratada em [Bueno, 2002], O Histograma Métrico (HM) reduz o número de bins, conservando a curva original do histograma, não trazendo perdas significativas de informação. Formalmente, o Histograma Métrico é definido como:

Definição 3.3 - Um Histograma Métrico HMa(z) de uma imagem. A é definido como Hm(A) = {NA,< bk,hk > |0 < k: < Na}, que é um conjunto de Na recipientes (buckets) formados por pares <bk, hk> consecutivos, onde bk indica a largura e hk a altura de cada recipiente.

Um histograma normalizado é composto por um número de bins (conforme visto na de-finição 3.2. Este número depende da resolução de intensidades (luminosidade) da imagem, sendo um número fixo. Em um Histograma Métrico, o equivalente ao bin do histograma é chamado um bucket. Cada bucket corresponde a uma linha na aproximação do histograma normalizado. Os buckets não precisam ser regularmente espaçados. O número Na de buckets em um Histograma Métrico depende do erro de aceitação no processo de aproximação da curva linear por partes sobre o histograma. Cada bucket k corresponde a dois pares conse-cutivos <bk-\, hjt_i> e <òfe, hk> para 1 < k < Na, onde <bk, hk> é o índice do bin mais à direita do histograma original representado no bucket k, e <bk_i, hk_x> é o valor normalizado do bin mais à esquerda representado no bucket k. Note que ò0 é sempre zero, pois é o início do Histograma Métrico. Para simplificar a notação, indica-se o recipiente bk do Histograma Métrico da imagem A como Abk, e o valor normalizado hk do Histograma Métrico da imagem A como Ahk- A Figura 3.6 representa graficamente os buckets e os bins de um Histograma Métrico.

33

Page 49: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

0,25 Buckets $ pares <bfjik>

0 , 2

0,15

0 , 1

0,05

0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Figura 3.6: Histograma normalizado com os pontos <bk, hk> que definem os buckets e seu Histograma Métrico correspondente.

Para se obter um Histograma Métrico que mais se aproxime do histograma original, primeiramente é preciso obter os pontos máximos e mínimos da função que o representa. Através desses pontos a curva de aproximação sobre os mesmos é obtida. E importante observar que o número de buckets dos Histogramas Métricos, bem como sua largura, é variável e depende de características inerentes de cada imagem. Dessa forma, a comparação entre Histogramas Métricos não pode ser feita pelas funções de distância tradicionais, como é feito sobre histogramas convencionais. A Figura 3.7 exemplifica graficamente a implementação do Histograma Métrico.

Uma imagem com 8 bits por pixel possui um histograma normalizado de 256 (28) bins ou níveis de cinza. Em um conjunto muito grande de imagens, o seu processamento gera um custo computacional muito alto, tornando a resposta à busca lenta. Dessa forma, o surgimento do HM vem contribuir significativamente à redução desse custo.

Uma nova função de distância, denominada Distância Métrica DM( ), foi desenvolvida para comparar Histogramas Métricos e se baseia no cálculo da diferença de áreas entre os dois histogramas [Traina et al., 2002a]. Os Histogramas Métricos e sua aplicabilidade em recuperação de imagens são apresentados em detalhes em [Bueno, 2002],

A Distância Métrica

Histogramas de imagens semelhantes possuem distribuições parecidas como pode ser visto na Figura 3.8. Normalmente, o cálculo de dissimilaridade entre histogramas é dado pelo somatório da diferença entre os bins de dois histogramas. Com relação aos Histogramas

34

Page 50: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

0.035

0.03

0.025

0.02

0.015

0.01

0.005

0

Figura 3.7: Obtendo o Histograma Métrico sobre o normalizado. Os pontos de controle são apresentados pelos elementos circulares e o Histograma Métrico pela curva que está ao redor do histograma normalizado.

Métricos a questão é como compará-los, uma vez que o número de buckets e a distribuição dos buckets de diferentes histogramas são variáveis. Os Histogramas Métricos, que possuem dimensionalidade variável, não permitem o cálculo de distância utilizando técnicas usuais como a Euclideana ou qualquer distância LP [Wilson and Martinez, 1997] , pois não é possível calcular a subtração dos pares de elementos dos vetores dos Histogramas Métricos para todos os pares de elementos. Por exemplo, como calcular a distância Euclideana entre um histograma com 30 buckets com largura variável de outro com 20? Isto porque, considerando os histogramas tradicionais como um conjunto de pares cartesianos, os valores em x serão sempre os mesmos para todos os histogramas, o que não ocorre com os Histogramas Métricos.

Portanto, para fazer o cálculo da distância entre Histogramas Métricos, foi desenvolvido um novo algoritmo baseado no cálculo da diferença entre histogramas, considerando que cada um deles ocupa uma área caracterizada pela distribuição de pixels e que a diferença entre estas áreas indica quão dissimilares são os histogramas.

Utilizando esta concepção, pode-se concluir que, quando dois histogramas similares são comparados, a diferença entre suas áreas de distribuição é pequena. Formalmente a distância

35

Page 51: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Figura 3.8: Imagem original (a), imagem mais semelhante (b) e imagem menos semelhante (c). Os histogramas apresentam a densidade de pixels para 256 níveis de cinza das imagens.

por diferença de área é dada por:

Definição 3.4 - A distância DM() entre dois Histogramas Métricos HM(A) e Hm{B) é dada pela área não sobreposta entre as duas curvas que representam os Histogramas Métricos, isto é:

onde bm =máx[b^A'\^NB-\) e Hm (Imagem,x) é a função contínua que representa o Histograma Métrico.

Ao realizar a soma das áreas, o processo encontra duas situações: quando existem áreas em formato de trapézio ou quando as áreas estão em formato triangular. Ao encontrar o trapézio ou o triângulo, o sistema realiza o cálculo da área e soma às áreas já calculadas

•bm

36

Page 52: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Figura 3.9: Distância entre dois Histogramas Métricos calculando a soma da diferença entre áreas.

anteriormente. Esse processo vai se repetindo até acabar um dos buckets do histograma. A Figura 3.9 fornece um exemplo de como calcular a distância entre dois Histogramas Métricos.

Note que o número de passos é maior ou igual ao número de buckets do histograma com menos buckets. Isso ocorre devido ao fato da largura dos buckets ser variável: em algumas ocasiões eles devem ser divididos, a fim de obter a área entre os dois histogramas considerados. Quando um dos Histogramas Métricos termina antes do outro, o cálculo da distância também pára.

3.5.2 Classificação de Pixels de Borda e Interior - A Técnica BIC

Em [Stehling et al., 2002] é proposto o BIC (Border/Interior Pixel Classification), uma abor-dagem para a recuperação de imagens por conteúdo em grandes coleções de imagens coloridas heterogéneas. A abordagem BIC utiliza técnicas simples, porém poderosas cujos resultados podem ser preservados durante as etapas do processo de recuperação de imagens. A abor-dagem BIC possui três componentes principais:

1. um algoritmo simples, eficiente e poderoso para a análise do conteúdo visual das ima-gens,

2. uma nova função de distância logarítmica para a comparação de histogramas de cores e

37

Page 53: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

3. uma representação compacta para as características visuais extraídas das imagens.

0 algoritmo de análise de imagens da abordagem BIC utiliza o espaço de cores RGB uniformemente quantizado em 4 x 4 x 4 = 64 cores. Após a quantização do espaço de cores, é feita uma classificação binária dos pixels da imagem de entrada. Cada pixel é classificado como borda ou interior. Um pixel é considerado borda se ao menos um de seus quatro vizinhos (superior, inferior, direito e esquerdo) possui uma cor quantizada diferente da sua. Caso contrário, o pixel é classificado como interior. Após a classificação dos pixels, são calculados dois histogramas de cores: um considerando apenas pixels classificados como borda e outro, considerando-se apenas pixels classificados como interior. A Figura 3.10 exemplifica a classificação dos pixels de borda de uma imagem.

Figura 3.10: Análise de imagens pela abordagem BIC. Imagem original (esquerda). Classifi-cação binária entre borda (preto) e interior (branco) (centro), (c) Pixels da borda com suas cores originais e os pixels do interior em branco (direita).

Os histogramas que representam as imagens na abordagem BIC são comparados utilizando-se uma distância denominada dLog. A função dLog calcula a diferença entre o logaritmo dos elementos do histograma. O objetivo dessa operação é reduzir o efeito ne-gativo introduzido quando um único elemento do histograma possui valor muito alto. Este elemento do histograma, com valor iríuito alto, domina a diferença entre histogramas mas, em geral, tal elemento está associado ao fundo da imagem o qual possui pouca informação semântica e, como consequência, possui pouca importância no julgamento de similaridade feito pelo usuário. A função dLog atenua essa influência artificial e é definida como:

i<M

d L o ^ M ) = £ I / ( « " / ( « I t3"1) i=0

{0, se x = 0;

1, se 0 < x < 1; (3.2) [log2 x~\ + 1, caso contrário 38

Page 54: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

A utilização da função dLog para comparar histogramas, além de aumentar a efetividade do sistema, permite armazenar os histogramas em metade do espaço originalmente necessário. Essa redução é possível armazenando-se o valor do log ao invés do valor original dos elementos do histograma. No caso da abordagem BIC, é possível representar o conteúdo visual de qualquer imagem em apenas 64 bytes de memória. Como consequência, é possível manter em memória principal as características visuais de grandes coleções de imagens, eliminando completamente a necessidade de métodos de acesso a disco para agilizar o processamento de consultas visuais.

3.6 Considerações Finais Neste Capítulo foram descritas as principais propriedades de imagens digitais, assim como o processo de extrair características de imagens e algumas das principais técnicas. O sistema de extração de características pode ser considerado um primeiro passo para o armazenamento de imagens em um sistema de base de dados para imagens.

0 maior problema, no que se refere ao processo de extração de características, é a procura daquele espaço de características mais representativo do domínio de imagens, para assim permitir a recuperação de imagens de maneira mais eficiente. A extração de histogramas possui grandes vantagens, dentre elas, o baixo custo computacional. Sua popularização em sistemas CBIR vem sendo bastante utilizada e muitas abordagens sobre o assunto surgem rapidamente.

Após a extração de características, é necessário agrupá-las com o intuito de realizar buscas rápidas e precisas. Para tanto, os conceitos sobre busca por similaridades e estruturas métricas se fazem necessários e serão descritos no próximo capítulo.

39

Page 55: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Capítulo

Consultas por Similaridade e Estruturas Métricas

4.1 Considerações Iniciais Ao se trabalhar com a base de dados do cadastro de pacientes de um hospital, é comum recuperar ciados considerando algum critério de filtragem. Um exemplo simples de consulta seria: levantar os resultados dos exames de todos os pacientes com dengue atendidos após o início do último verão. No caso, o critério é composto pela especificação de uma doença [doença = "dengue"] e de um intervalo de tempo [data_atendimento > 21/12/2002], A resposta fornecida pelo SGBD é composta pelos resultados dos exames em conformidade com as condições especificadas. Critérios como esse são caracterizados por envolver: igualdade, onde o interesse é por valores exatamente coincidentes; e ordem, onde o interesse é por valores maiores ou menores que um valor fornecido. Os tipos de dados em questão são tidos por convencionais e incluem, basicamente, valores numéricos (quantidades: datas, horas, etc.) e textuais (cadeias de caracteres: palavras, nomes, endereços, etc.).

No entanto, critérios baseados em igualdade e ordem são inadequados para bancos de dados que trabalham com tipos de dados complexos. Ou seja, não há sentido em realizar

40

Page 56: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

consultas como por exemplo: obter o cadastro dos pacientes com tumor no cérebro cuja, tomografia seja igual à do paciente em estudo. Dificilmente (provavelmente nunca) as tomo-grafias de dois tumores serão exatamente iguais, mesmo que os tumores tenham a mesma classificação. O critério mais adequado para casos assim é o de similaridade. A consulta, então, faria mais sentido se definida como: obter o cadastro dos pacientes cuja tomografia se assemelhe à do paciente em estudo.

A similaridade entre os dados é definida através de uma função distância, ou função de "dissimilaridade" d(Oi, Oj), que retorna zero, se ambos os objetos Ot e Oj forem idênticos ou um valor positivo, que aumenta quanto maior for a distância (ou dissimilaridade) entre os objetos.

4.2 Tipos de Buscas por Similaridade Como visto, as consultas por similaridade retornam objetos ordenados por semelhança. Este resultado é, em geral, obtido através de dois tipos de consultas: a consulta por abrangên-cia (range query) e a consulta aos vizinhos mais próximos (k-nearest neighbors query). Tais consultas são definidas a seguir:

Definição 4.1 - Consulta por Abrangência (range-query) - Dados um conjunto de objetos O = {01, 02, ..., On} pertencentes a um domínio T>, uma função de distância métrica d(), um objeto de consulta Q £ V e uma distância de busca máxima r(Q), a consulta por abrangência range(Q,r(Q)) = {Ol\Ol G V e d(Oi, Q) < r (Q) } seleciona todos os objetos O, do conjunto de dados que estejam dentro da distância r(Q) do objeto de busca.

Um exemplo deste tipo de consulta seria: "Encontre as estrelas que estão até 10 anos-luz de distância do Sol". Nesse caso o objeto de consulta é "Sol", o domínio V é o conjunto de estrelas do Universo e o raio de busca (distância máxima) é 10 anos-luz. A distância utilizada é a medida astronómica que mede o espaço em anos-luz.

Definição 4.2 - Consulta aos k Vizinhos mais Próximos (k-nearest neighbors), k-N N - Dados um conjunto de objetos O = 0\, ()•>,.... On de um domínio V, uma função distância mÂtrica d(), um objeto de consulta Q G V e um número inteiro k > 1, a consulta k-NN seleciona os k objetos do conjunto de dados que estão mais próximos de Q. Isto é, k-NN(Q) = {Aí\Aí e A, A ç Ot\ A |= k e VA, e A, O, <E 0-A,d(Q,Al) < d(Q,Ol)}.

41

Page 57: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Em caso de empate de distâncias na maior distância obtida, pode-se selecionar apenas o número necessário de objetos que satisfazem a regra ou criar uma lista de empates. Utilizando o exemplo anterior, a consulta "Selecione as 5 estrelas mais próximas do Sol" é uma busca òNN para o objeto "Sol" sobre o mesmo domínio de objetos da consulta-exemplo anterior.

A Figura 4.1 ilustra os dois tipos de consultas, sendo que a por abrangência, utiliza a distância Euclideana conhecida também como L2.

Figura 4.1: A consulta por abrangência (esquerda) seleciona todas as estrelas distantes de um raio r enquanto que a consulta aos vizinhos mais próximos (direita) seleciona as 5 estrelas mais próximas do elemento de consulta.

Os dois tipos de consultas por similaridade podem ser respondidos examinando todo o con-junto de dados, o que não é eficiente. Se não existir um índice para os dados, ou não for possível construir, então a busca sequencial é a única maneira para responder às consultas. Um algoritmo de indexação é um procedimento para construir antecipadamente um ín-dice projetado para minimizar o custo de acesso aos dados. O índice pode ser custoso de se construir em um primeiro momento, mas seu custo pode ser amortizado com a economia de cálculos de distâncias e acessos a disco sobre várias consultas na base de dados. Estruturas de indexação para espaços métricos (que englobam tanto dados espaciais com dimensão de-finida quanto dados adimensionais) foram propostas [Chávez et al., 2001] para dar suporte às buscas por similaridade.

Os Métodos de Acesso Multidimensionais, também conhecidos por Métodos de Acesso Espaciais - MAE , são utilizados para indexar objetos multidimensionais. Em geral,

4.3 Métodos de Acesso Métricos

42

Page 58: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

um conjunto de objetos é dito multidimensional, ou n-dimensional, se um objeto qualquer desse conjunto pode ser localizado por uma série de n coordenadas. Os MAEs têm como premissa o fato dos dados manipulados pertencerem ao domínio dos dados espaciais ou a um espaço de dimensão n. Neste espaço, cada dimensão é representada por uma chave da relação.

Entretanto, para dados em espaços de altas dimensões, as MAEs não se mostraram muito eficientes, além de não suportarem a indexação de dados adimensionais. Desta forma estruturas de indexação métricas foram propostas com o objetivo de suprir esta deficiência. Estas estruturas, que foram chamadas de Métodos de Acesso Métricos - MAM, suportam buscas por similaridade em espaços métricos1, onde a similaridade entre os dados é definida através de uma função de dissimilaridade ou também chamada de função distância métrica.

Os Métodos de Acesso Métrico, dão suporte natural às consultas por proximidade ou similaridade, além de se mostrarem eficientes para dados de dimensões altas. Dessa forma, é bastante apropriado utilizar um MAM para indexar imagens ou, mais especificamente, as características que foram extraídas das imagens, suportando consultas por similaridade. Com base nas características extraídas previamente da imagem, um MAM constrói a estrutura de índices calculando as distâncias entre elas, procedimento que deve corresponder à comparação entre as imagens originais.

Formalmente, um espaço métrico é um par M = (P, d), onde D é o domínio do vetor de características - que são as chaves de indexação, e d() é uma função distância métrica que satisfaz as seguintes propriedades:

1. Simetria: d(Ot, 03) = d(Oj} Ol)]

2. Não negatividade: 0 < d(Oi, 03) < oo, Oi ^ e d(Ou Oi) = 0;

3. Desigualdade triangular: c?(0,,07) < d(0.n0k) + d(Ok,Oj).

onde: Oi, Oj e Ok são objetos pertencentes ao espaço V.

4.4 Estruturas Estáticas e Dinâmicas As estruturas métricas estáticas não permitem inserções ou remoções posteriores à construção cia árvore. É o caso das primeiras estruturas propostas (vp-tree, mvp-tree, entre outras),

1 Espaços métricos englobam tanto dados espaciais com dimensão definida quanto dados adimensionais.

43

Page 59: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

que apesar de terem sido desenvolvidas para dar suporte a consultas por similaridade, são estáticas.

A primeira estrutura métrica dinâmica (permite inserções e remoções após a construção da árvore), M-Tree [Ciaceia et. al., 1997b], foi desenvolvida utilizando uma técnica de cons-trução de baixo para cima (bottom-up), que ao mesmo tempo mantém a árvore balanceada e possibilita ainda novas inserções após a construção da árvore. A M-Tree possui dois tipos diferentes de nós:

• Nós internos, que armazenam o objeto centro deste nó e a distância dele para seu nó pai (essa distância não existe para o nó raiz da árvore), o raio de cobertura da região indexada por essa sub-árvore, e um vetor de ponteiros para suas sub-árvores.

• Nós folhas, que armazenam objetos, possuem seus identificadores de objetos (Olds) e o vetor de características que estão sendo utilizadas na indexação do conjunto de dados.

Neste projeto a estrutura a ser utilizada para armazenar as informações das imagens será a Slim-tree que, por ser dinâmica, permite inserções posteriores à criação da árvore.

4.5 A Slim-tree Proposta por Traina et. al em [Traina et al., 2000], esta é a mais nova representante de estruturas métricas dinâmicas, sendo também uma estrutura balanceada e permitindo in-serções posteriores à criação da árvore. A Slim-tree, comparada com a M-tree nas mesmas condições, sempre a sobrepujou, tanto em termos de número de acessos a disco quanto em termos de número de distâncias calculadas para responder consultas por abrangência (range queries) e, portanto, também em tempo total de execução.

A Slim-tree possui tamanho fixo da página que armazena cada nó, e cada nó pode arma-zenar um número máximo de objetos C (Capacidade), e é constituída de :

• nós internos (rndexnodes), cuja estrutura é representada por: indexnode [vetor de < o,, d(orep, oz), Ptr(Toi), Rt, NEnt(Ptr(Tol)) >], onde Oi armazena o objeto que é o centro da sub-árvore apontada por Ptr(Toi), e Ri é o raio de cobertura da região. A distância entre o.( e o objeto representativo deste nó Rep(Oi) é armazenada em d(oi, Rep(oi)). O ponteiro Ptr(Toj) indica o nó raiz da sub-árvore cuja raiz é Oj. O número de entradas presentes no nó apontado por Ptr(Toi) é armazenado em NEntries(Ptr(Toi)). Na Figura 4.2 é possível visualizar a estrutura interna da Slim-tree.

44

Page 60: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

a) indexNode

cjr>„T|tf \Ptr, R; \fjit, b2 <í(<),,{>rtlJ _ s — f _

Ptr,\R, MEní,

J d(o,o, j Ptr, NEnt

L_ b) leaJNodc

R c iSEnt da sub árvore

c 0,VÍ, • Oid, O i \o2\Oid2\ d(o2,ottlJ | \o)\Oidj itfo^o,^) •• • \ocpidAU(oc,orri)

Figura 4.2: Estrutura, lógica, dos nós a)Índico ( indexNode) e b)folha (leafNode) da Slini-tree [Traina, et al., 2000],

• nós folha (lenjhodes), com estrutura representada, por: leafnode [vetor de < o.t, Oid.,, d(orcp: Oj) >], onde Oid é identificador do objeto, o% e d(oi, fí,ep(ot)) é a distância, entre o objeto Oj e o objeto central (representativo) deste nó folha Rep(oi).

A Figura, 4.3 fornece uma visão geral da organização de 17 objetos, rotulados de A até Q. armazenados numa Slim-tree de 3 níveis, onde a raiz encontra-se no nível zero e os objetos no nível das folhas (nível 2).

> f. 1 B \ D ' .

"J , ' d) i • * I j v. * H. \l ' \ y •• í

r* (j, m ,

/J". H

•>

« R •.A > C

• li »A •!) 4 F

' \

x I. i. J B 1 H A Ci M D N F Q O C P

Figura. 4.3: Representação da Slim-tree armazenando 17 objetos.

45

Page 61: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

4.6 Inserção de Objetos na Slim-tree A partir do nó raiz, o algoritmo tenta localizar um nó que possa receber o novo objeto. Se nenhum nó se qualifica, seleciona-se o nó cujo centro está mais perto do novo objeto. Caso mais de um nó se qualifique, é executado o algoritmo ChooseSubtree para selecionar o nó onde será inserido o novo objeto. Este processo é aplicado recursivamente para todos os níveis da árvore. Existem três opções para o algoritmo ChooseSubtree:

random seleciona aleatoriamente o nó para inserir o novo objeto entre os que se qualifica-ram.

mindist seleciona o nó cuja distância de seu representativo (centro) para o novo objeto seja a menor.

minoccup seleciona o nó que esteja com o menor número de objetos armazenados, dentre os que se qualificaram. O campo NEntries presente em todo nó intermediário (indexnode) da Slim-tree é utilizado pelo algoritmo minoccup, para selecionar o nó com menor valor de NEntries. Com o uso da opção minoccup do algoritmo ChooseSubtree, obtém-se árvores mais compactas (maior taxa de ocupação dos nós), redundando em um número menor de acessos a disco para responder consultas por similaridades.

Durante a inserção de objetos pode acontecer do nó escolhido já estar completo (com taxa de ocupação máxima), sendo necessário alocar um novo nó no mesmo nível do anterior, e os objetos que estavam nesse nó, mais o novo nó a ser inserido, devem ser então redistribuídos entre os dois nós. A Slim-tree cresce de um nível quando a raiz da árvore está completa e necessita-se inserir um novo elemento, pois a raiz divide-se e uma nova raiz deve ser criada com dois representativos, aumentando-se assim um nível da árvore.

A Slim-tree possui os seguintes algoritmos para efetuar a quebra de nós (spUttmg):

random - seleciona aleatoriamente os dois objetos representativos para os novos nós, e os demais objetos são distribuídos entre eles pela menor distância entre o objeto e o representativo, devendo-se respeitar a taxa de ocupação mínima dos nós.

minMax - consideram-se como candidatos representativos, todos os possíveis pares de ob-jetos e, para cada par possível, associa-se os demais objetos a um dos representativos. O par de objetos que minimizar o raio de cobertura da sub-árvore será escolhido como representativo. Esse algoritmo tem complexidade 0(C3 ) , onde C e a capacidade dos

46

Page 62: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

nós. Apesar de ser um algoritmo bastante custoso, ele consegue obter árvores que possibilitam consultas mais eficientes [Ciaccia and Patella, 1998].

M S T - const.rói-se a árvore do caminho mínimo (minimal spanmng tree - MST) [Kruskal, 1956] c um dos arcos mais longos da MST é removido. Obtém-se assim dois agrupamentos, que serão os objetos associados a cada nó. A complexidade desse algoritmo é 0(C 2 logC), com 0(C 2 ) cálculos de distância. Com o uso desse algoritmo é possível construir Slim-trees praticamente equivalentes às construídas com o uso do algoritmo de quebra de nós mmMax, porém em muito menos tempo.

A Figura 4.4 ilustra o mecanismo de auebra de nós utilizando MST:

b)

Arco a ser removido

Figura 4.4: Mecanismos de quebras de nós do algoritmo MST.

4.7 Tratamento de Sobreposição A sobreposição entre nós ocorre tanto nas estruturas métricas, quanto na maioria dos mé-todos de acesso espacial como, por exemplo, a família R-tree. Idealmente, os nós de uma árvore para indexação de dados não deveriam se sobrepor, permitindo podar todos os nós que não possuam objetos candidatos a responder consultas por similaridade, porém isso não ocorre e, assim como nos demais MAM, na Slim-tree os nós das regiões também podem ser sobrepostos.

0 aumento de sobreposição entre os nós de uma estrutura de índices diminui sua eficiên-cia em responder consultas, pois mais nós da árvore serão consultados (todos os que estão se sobrepondo à região de consulta) prejudicando a poda de sul)-árvores. A Slim-tree foi desenvolvida, com o objetivo cie diminuir a sobreposição entre os nós da árvore, e também oferecer mecanismos para verificação da porcentagem de sobreposição existente na árvore.

47

Page 63: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Até a apresentação da Slim-tree, era considerado impossível medir a sobreposição entre nós em estruturas métricas [Ciaccia et al., 1997a], Nos métodos de acesso espacial mede-se a in-tersecção calculando-se o "hiper-volume" da intersecção entre nós sobrepostos (como é feito na R*-tree [Beckmann et al., 1990]). Porém, em espaços métricos não há corno calcular vo-lume ou áreas, portanto na Slim-tree, ao invés de calcular o "volume" da intersecção entre nós sobrepostos, é computado o número de objetos que se encontram cobertos por mais de uma região (nó), obtendo-se a sobreposição entre dois nós internos de uma árvore métrica através do número de objetos cobertos por ambas as regiões (sub-árvores) dividido pelo número total de objetos presentes nas duas sub-árvores. Com isso, pode-se ter uma estimativa de quão apropriada ou boa é uma árvore para um conjunto de dados [Faloutsos and Kamel, 1994], Tornou-se então possível definir o fator de sobreposição em uma árvore métrica através do fat-factor [Traina et al., 2002b], que no melhor caso (quando é zero) tem-se uma árvore ideal, sem sobreposições, cuja busca a um objeto já indexado deveria levar a acessar apenas um nó a cada nível da árvore, ou seja, para uma consulta pontual (uma consulta por abrangência com raio zero) em uma árvore ideal com, por exemplo, três níveis, somente três nós deveriam ser acessados. E no pior caso, quando todos os nós tivessem que ser acessados para responder à uma consulta pontual, o fat-factor é igual a um.

Pode-se medir a quantidade de sobreposição presente em uma dada árvore métrica T utilizando o absolute fat-factor. Porém ele não permite a comparação entre árvores diferentes construídas sobre o mesmo conjunto de dados, ou seja, métodos de quebra de nós ou opções do algoritmo de seleção de nós (ChooseSubTree) levam muitas vezes a árvores com número de nós M e altura de árvore H diferentes. Para permitir a comparação entre árvores distintas construídas sobre o mesmo conjunto de dados, fez-se necessário uma abordagem diferente, permitindo definir uma nova medida, o relative fat-factor que, ao invés de considerar o número de nós e a altura da árvore, considera o número de nós acessados para responder uma consulta pontual sobre todos os objetos da árvore real, sobre a altura e número de nós de uma árvore canónica (que possui o menor número possível de nós, ou seja, tem todos os nós completos, com a possível exceção de um nó em cada nível, e também com altura mínima).

Tanto o absolute fat-factor quanto o relative fat-factor estão diretamente relacionados com a taxa de sobreposição entre regiões do mesmo nível de uma árvore, sendo que o absolute fat-factor indica quão boa uma dada árvore é com respeito a sua quantidade de sobreposição, não se preocupando se os nós estão bem ocupados ou não, o que leva à otimização de espaço em disco se os nós estiverem com alta taxa de ocupação; enquanto que o relative fat-factor

48

Page 64: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

permite a comparação entre duas árvores para o mesmo conjunto de dados, considerando tanto a quantidade de sobreposição quanto a ocupação eficiente de espaço em disco para armazenar os dados.

4.7.1 Reorganizaçao dos Nós da Arvore - Algoritmo Slim-down

A reorganização permite melhorar uma árvore métrica já construída para um conjunto de dados. Através dos fatores de sobreposição absolute fat-factor e relative fat-factor, tornou-se possível verificar a quantidade de sobreposição entre nós da árvore e avaliar se tal árvore pode ser melhorada em termos de diminuição do número de acessos a disco para responder às consultas por similaridade. Com isso, se o desejável é que as árvores construídas apresentem o menor valor possível do fator absolute fat-factor, ou seja, que o número de objetos nas regiões de sobreposição seja o menor possível, o que um algoritmo de reorganização da árvore deveria fazer em primeiro lugar é diminuir o número de objetos nas intersecções de nós de mesmo nível; e em segundo lugar diminuir o número de nós da árvore. Foi então proposto em [Traina et al., 2000] o algoritmo Slim-down, que atua sobre uma árvore métrica já construída.

4.7.2 Visualização dos Dados Armazenados na Slim-tree

O módulo visualizador é uma ferramenta muito interessante anexada à Slim-tree, que per-mite "ver" o conjunto de dados indexado, juntamente com a estrutura de nós formada pela hierarquia da árvore, permitindo o tratamento de conjuntos de dados métricos adimensio-nais (por exemplo um conjunto de palavras) de uma forma mais intuitiva ou prática. O visualizador auxilia tanto na inspeção visual para verificação de como a árvore está, como em ferramentas para mineração de dados (data mining) visuais e interativas.

4.8 Considerações Finais Como foi visto, as inovações da estrutura Slim-tree sobre as estruturas métricas tradici-onais são: o fat-factor, que possibilita indicar se a estrutura de índices construída sobre um determinado conjunto de dados é eficiente ou não; o algoritmo Slim-down, que efetua a reorganização dos dados organizados por ela, de forma a minimizar a taxa de acesso a disco quando efetuando consultas por similaridade; possibilidade de visualizar a organização da informação armazenada, permitindo ao usuário perceber onde estão os aglomerados e

49

Page 65: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

elementos de cxceção pertencentes ao conjunto de dados, além do inter-relacionamento en-tre os elementos de dados, que possibilita também o acompanhamento visual das consultas efetuadas sobre a base de imagens.

50

Page 66: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Capítulo

5 Trabalho Desenvolvido

5.1 Considerações Iniciais Os sistemas hospitalares trabalham com um grande volume de informação gerada muitas vezes por aparelhos distintos. Essas informações são basicamente os laudos dos pacientes, contendo, por exemplo: diagnóstico, medicação, sintomas e imagens de exames. A aquisição de imagens é realizada por equipamentos relativamente caros e de diferentes fabricantes. Como cada marca possui seu próprio meio para aquisição, imagens provindas de diferentes equipamentos eomumente trazem diferenças entre elas. A alteração mais frequente nas ima-gens é a variação de brilho (tonalidades de cinza). Esse tipo de alteração afeta profundamente os sistemas de recuperação de imagens baseados em cores.

Visando a solução para esse problema, foi realizada uma pesquisa bibliográfica sobre o assunto em [Campo, 2002], As abordagens vistas trabalham com as cores das imagens e, em sua maioria, utilizam imagens coloridas em seu banco de imagens. Nenhuma das abordagens tratou, de maneira exclusiva, imagens em níveis de cinza e, muito menos, as de exames médicos. Como o Grupo de Bases de Dados e de Imagens - GBDI/USP estava trabalhando com o Histograma Métrico, sua modificação foi proposta em [Campo, 2002] e será apresentada neste capítulo.

51

Page 67: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

O desenvolvimento do sistema proposto foi dividido em três etapas:

Pesquisa bibliográfica: onde foi verificado o estado-da-arte na área e possíveis soluções, além do estudo das bibliotecas e aplicativos que foram utilizados.

Protótipo: onde foi implementado e testadas algumas soluções descritas na seção 3.5.1 e 3.5.2, além de inserir novos recursos para a manipulação e tratamento de imagens.

SRIS-HC: implementação do sistema final, incorporando partes do protótipo ao Sistema de Recuperação de Imagens Similares do Hospital das Clínicas de Ribeirão Preto.

5.2 Protótipo de um SRIS baseado no DicomViewer Quando um cliente observa a necessidade de fazer um software, ele tem um objetivo final, mas raramente todos os requisitos estão bem definidos e claros para o programador. Há sempre a necessidade de inclusão de algum requisito, ou da portabilidade, ou ainda mesmo a interface com o usuário [Pressman, 2002].

A prototipação é um método que o programador utiliza para poder encontrar a melhor alternativa, os requisitos e os dados necessários para a construção do melhor programa para o usuário. Existem três possibilidades distintas:

1. Um rascunho, desenho em um papel, que demonstre a interatividade com o usuário, e também os resultados que o programa trará.

2. Um protótipo que tenha algumas funções (algoritmos) que executem o procedimento requerido pelo usuário, como forma de demonstração de desempenho parcial, demons-tração de solução do problema, ou algo do género.

3. Um programa que execute parte ou toda a função requerida pelo usuário apenas como demonstração, como por exemplo, relatórios, mas que causarão um esforço de progra-mação posterior para a melhoria do mesmo.

Primeiramente, um protótipo foi criado para a realização de testes e validação de abor-dagens. O sistema foi desenvolvido tendo como base o software DicomViewer, implementado pelo Grupo de Bases de Dados e Imagens do ICMC - USP. O DicomViewer é um software para visualização e tratamento de imagens médicas, incorporando o suporte para imagens no formato DICOM e o formato proprietário GBDI. A interface padrão do DicomViewer pode ser vista na Figura 5.1.

Os recursos á existentes e os que foram agora implementados são descritos na Tabela 5.1.

52

Page 68: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

«•-.'«• ' Çtoos fr.)•»•• <;--., i; .- Qpctfes 2>«ws B'ow: l.oc*CBP®cí Bl< ..

El; ,!0! ! • ' iiojíil EJ Jfl.il 1 EJ

i ' ••'-jÊk 1 £ • i

v l

I T .1} | ' « (7 I

^ X f t z. Jí

El: JBijy LI EJ =JflJ.*i!

V "W

1 • Jr » / « •W 3 l ' . V V Â V j

f<. r. -* j

-•Ã ii v ^ v fr • | r . X s9 > ' /

EJ jbijsjI lUr JfiJ«)l EJ je j») IQ3S? je1«JI

j T , ..... ] 1 - <

El JBjsll Eli! _lnl xj| BE JEl*l Instr

• • 1

íÉ ' -[ ~ _ -j) ík X

Jto Invnqcn» sriq_ nKfl

(cfSfcyy-' K,

Figura 5.1: Interface padrão do DicomViewer, software que serviu de base para a implemen-tação do protótipo.

5.2.1 Formato de arquivos

Na maioria dos sistemas que processam imagens, o último nível é, quase sempre, a matriz de pixels. Essa matriz possui tamanho W x H onde W é sua largura e H sua altura e o valor em uma determinada posição V[i,j] com i < W e j < H determina a cor utilizada ou, no caso de imagens monocromáticas, a intensidade do nível de cinza. Tanto o formato GBDI quanto o formato DICOM utilizam a biblioteca em constante desenvolvimento pelo GBDI denomi-nada DicomLib1. Essa biblioteca possui diversos métodos que auxiliam na manipulação das imagens, além de incorporar o Histograma Métrico e a busca por similaridade.

A abordagem BIC utiliza imagens JPEG e como a DicomLib não tinha, originalmente, suporte para este formato, sua implementação fez-se necessária. Primeiramente foi realizada uma pesquisa a respeito do formato JPEG e, por se tratar de um técnica complexa, optou-se em utilizar bibliotecas prontas que dão suporte a esse formato.

Maiores detalhes sobre a DicomLib pode ser encontrada em http://gbdi.icmc.usp.br/devhelp/docs/dicomlib/.

53

Page 69: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Dicomviewer Recursos já existentes Novos recursos incorporado

Formato de arqui-vos

Abre arquivos DICOM e GBDI. Exporta em formato BMP

Abre arquivos JPEG. Salva nos for-matos GBDI e JPEG.

Filtros e bordas Mediana, auto-levels, blend alpha composite, encontrar borda

Alteração de brilho, recorte da área útil por arquivo.

Visualização Histograma, Histograma Métrico, informações da imagem

Visualizar a imagem em seu tamanho original.

Opções Auto-levels automático, co-lor mapping view

Brilho automático, thumbnails.

LocalcbPACS Conversão batch em JPEG, processa-mento e arquivamento de caracterís-ticas sob a abordagem do histograma tradicional e métrico, busca por simi-laridade.

BIC Processamento e arquivamento de ca-racterísticas sob a abordagem BIC, busca por similaridade.

Tabela 5.1: Tabela de comparaçao entre o DicomViewer e as incorporaçoes realizadas.

5.2.2 Filtros e Bordas

As imagens médicas que foram adotadas para este estudo possuem a característica de serem predominantemente escuras. Assim, uma boa visualização não é realizada quando a imagem é visualizada com suas cores originais. Uma maneira de contornar essa deficiência é a utilização de filtros digitais. A função Auto-Leveis realiza o que é conhecido como "stretchmxf no histograma de cores, ou seja, o menor valor de pixel da imagem é posicionado como sendo de valor 0 no histograma e o pixel de maior valor é posicionado como o de maior intensidade de branco (valor 255). Os pixels intermediários são alterados proporcionalmente, permitindo uma visualização da imagem com melhor contraste.

O filtro da mediana suaviza a imagem, resultando na aparência de que ela foi "borrada". O Blend/Alpha Composite gera uma imagem a partir de duas podendo determinar per-centualmente qual das imagens terá maior ou menor visibilidade. Além desses filtros há o incremento de brilho na imagem além de funções de recorte da imagem. A imagem é recor-tada para maximizar a busca, realizando a extração de características no retângulo ( M B R -

54

Page 70: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

minimum boundary box) da área útil da imagem. Alguns exemplos da utilização dos filtros presentes no DicomViewer são apresentados na Figura 5.2.

Figura 5.2: Exemplos de utilização dos filtros do DicomViewer. a)imagem original, b)após aplicação do filtro da mediana com fator 2, c)após processamento de auto-levels e d) com adição de 100 unidades de brilho.

5.2.3 Visualização e opções

Na entrada Visualização, o usuário pode ter acesso à visualização do Histograma Métrico e do histograma normalizado, além de poder visualizar as informações das imagens DICOM. Caso a imagem em questão não seja do tipo DICOM, uma mensagem de erro será retornada para o usuário. A função "visualizar tamanho originar' é útil nas consultas em (pie são apresentados thumbnails2. A utilização de thumbnails é muito útil na apresentação de resultados de busca já que não ocupa muito espaço em memória e a visualização fica mais adequada quando são apresentadas muitas imagens na tela.

Uma outra função importante no sistema é a "Opções" a qual se pode escolher previamente em que modo as imagens serão abertas. Essas opções incluem o auto-levels automático, brilho automático e o color mapping view que adiciona cores à imagem de acordo com sua luminosidade. Esse tipo de visualização e comumente observado em mapas de medição de temperatura, onde as temperaturas mais quentes são coloridas de cores fortes como o vermelho e temperaturas mais amenas com tom mais suaves como o azul.

2 imagem minimizada, pequena, que representa uma maior com mais detalhes, imagem em forma de slides.

55

Page 71: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

5.2.4 LocalcbPACS

A função LocalcbPACS é responsável pelo módulo de recuperação de imagens por conteúdo. Como foi visto no Capítulo 3, as imagens devem passar por um pré-processamento onde suas características são extraídas e armazenadas em um vetor de característica. A função "processar imagens" realiza esse trabalho. Quando o usuário a seleciona o sistema informa que o processamento das imagens pode demorar, evitando assim que, com a demora do processo, se pense que o sistema não está processando as imagens. O tempo gasto, em média, para processar cerca de 5000 imagens foi de 15 minutos. Esse tempo varia de acordo com o tamanho da imagem já que a extração do histograma necessita a leitura completa da imagem. Após o processamento, as informações são salvas em um arquivo binário contendo os nomes dos arquivos das imagens e seus respectivos histogramas. A escolha do histograma (métrico ou normalizado) é feita na hora de selecionar o formato do arquivo a ser salvo, portanto, existe um arquivo para cada tipo de histograma.

Por ter sido construído como um protótipo, o armazenamento foi feito de modo linear e a recuperação de imagens é realizada através de uma busca sequencial. Como as informações depois de lidas no arquivo são armazenadas em memória, o seu processamento é rápido. Em um conjunto maior de imagens seria necessário utilizar outra maneira de armazenar os dados para realizar a consulta, isto é, uma estrutura de indexação agilizaria a consulta.

Após as imagens terem sido processadas, pode-se realizar a consulta por similaridade. Uma imagem deve ser aberta e estar ativa na tela do usuário. Esta imagem deverá ser a imagem objeto para a consulta. A função "Vizinhos mais próximos" lê o arquivo de dados e em seguida extrai os dados da imagem ativa, comparando-a com todas as outras gravadas no arquivo. Como pode ser observado, essa implementação não prevê um grande número de imagens na base de dados e serve simplesmente para a validação dos resultados esperados. O usuário pode escolher entre a visualização em thumbnails ou em tabela, que apresenta as imagens em ordem de similaridade e o valor da distância em relação à imagem de consulta. Uma consulta dos 16 vizinhos mais próximos utilizando o Histograma Métrico é apresentada, na Figura 5.3.

Foi criado também um conversor em lote para imagens JPEG. Este conversor foi neces-sário para utilizar a abordagem BIC, como será descrito a seguir.

56

Page 72: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Aiquvo FAros gordas Vwuatrar Opç Sm pandas Mnpoc» t-MstCEPo:! BJ.C |«*»e.

Imagens agrupadas em ordem de similaridade

Figura 5.3: Consulta por similaridade no protótipo adicionado ao DicomViewer.

5.2.5 BIC

A abordagem BIC, como apresentada na seção 3.5.2 (página 37), foi implementada para rea-lizar comparações com os resultados do Histograma Métrico. A implementação foi adaptada para imagens monocromáticas, já que essa abordagem foi proposta para imagens coloridas. A dificuldade de encontrar sistemas em que utilizem exclusivamente imagens em tons de cinza foi grande e, após análise de várias abordagens, optou-se para a BIC pois trazia resultados muito animadores.

Da mesma maneira que o processamento das imagens foi necessário no histograma nor-malizado e métrico, na BIC faz-se necessário também. 0 armazenamento das informações foi realizado em um arquivo binário e a busca seguiu o mesmo procedimento do Histograma Métrico. A grande vantagem da utilização do BIC foi a economia de espaço para armazena-mento das informações em disco.

A abordagem BIC, por ser mais adequada ao tratamento de imagens heterogéneas e coloridas teve um desempenho muito limitado, trazendo resultados pouco satisfatórios em comparação com o Histograma Métrico [Campo and Traina, 2003], como será visto na pró-

57

Page 73: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

xima seção.

5.3 O Histograma Métrico Adaptado Os PACS são ambientes complexos, que recebem imagens de diversas modalidades e perifé-ricos, armazenando-os e transmitindo-os entre clientes e servidores. A variedade de equipa-mentos, procedimentos e pessoal técnico que os manuseiam tornam o processo de aquisição de imagens urna das partes mais delicadas deste processo, pois dependendo de como a imagem foi adquirida ela sc torna mais escura (menos brilho) ou mesmo saturada (brilho em dema-sia). Tais variações dificultam a comparação entre imagens. Logo, a calibração do dispositivo de tomografia bem como a precisão do equipamento podem trazer mudanças consideráveis na imagem final. Essas mudanças são, normalmente, variações no brilho e no contraste da imagem. Os principais sistemas de recuperação de imagens por conteúdo baseado em cor não suportam essas variações, não recuperando de maneira eficiente a mesma imagem que tenha sofrido variações de brilho e/ou contraste [Campo and Traina, 2003].

O Histograma Métrico original tem a característica de ser invariante às transformações geométricas (escala, rotação e translação), mas apesar de intrinsecamente ser invariante também a transformações de brilho, isso não havia sido efetivamente testado e avaliado. Ne-nhuma técnica na literatura trata de maneira eficiente a questão da variação de brilho, e este trabalho visa a preencher esta lacuna. A Figura 5.4 ilustra três imagens onde ocorre variação de brilho e contraste e seus respectivos histogramas. Essa invariância a transformações de brilho é muito importante, porque imagens de mesmo paciente e exame ao serem adquiridas em situações diferentes tendem a variar o brilho. Assim pesquisas diretas por histogramas convencionais não recuperariam tais imagens que são inerentemente muito semelhantes.

Como pode-se observar pela Figura 5.4, a variação de brilho em uma imagem afeta di-retamente seu histograma. Além disso, verificou-se que a variação de contraste o altera trazendo lacunas entre seus bins. Isto ocorre quando é utilizada a técnica conhecida como esticamento ou "stretchmf do histograma. Tal técnica identifica os maiores e menores va-lores da tonalidade de cinza e os posicionam em seus extremos, ou seja, o branco e o negro mais intenso. Os valores dos pixels intermediários são posicionados proporcionalmente aos seus extremos, através de uma simples regra de três. Como os valores resultantes são in-teiros, lacunas de dados são formadas. Quando isso ocorre, a performance do Histograma Métrico fica seriamente comprometida pois essas lacunas tornam-se o valor de mínimo local, produzindo buckets a cada par de bm.

58

Page 74: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Figura 5.4: Imagem de exame de tomografia axial de cabeça humana, (a) imagem original, (b) imagem com o brilho alterado e (c) imagem com o contraste alterado.

í iiiiiiiilítMIil bto

Seria interessante se houvesse uma solução em que os dois problemas pudessem ser resol-vidos de maneira simples e eficiente.

A implementação do Histograma Métrico foi alterada, tornando-a livre das variações line-ares de brilho, atendendo ã comparação de imagens adquiridas por equipamentos diferentes. O procedimento consiste em eliminar bins onde seus valores sejam desprezíveis sem causar prejuízo à curva do histograma. Esta eliminação de informação deve ser feita nos bins iniciais e finais do histograma analisado. Além disso, é possível realizar a eliminação no meio do histograma, tornando-o assim inerente a variações de contraste.

Como o Histograma Métrico é gerado a partir do histograma normalizado, na construção do mesmo, estipula-se um valor limite (Vl) e qualquer valor abaixo deste é ignorado. Assim, imagens com variações de brilho mas com a mesma distribuição de cores, são consideradas semelhantes. A escolha do Vi é de fundamental importância para o bom funcionamento do sistema. Esse valor de tolerância pode ser estipulado de acordo com as características do equipamento em que foi realizado o exame ou obtendo-se uma média dos valores não significativos de cores dos histogramas das imagens. Assim, após o processo de construção, o HM resultante é o mesmo de um sem a variação de brilho. A Figura 5.5 exemplifica um histograma onde ocorre variação de brilho com um Vi apropriado e o histograma resultante do processo. Nos experimentos realizados, foi utilizado um Vl de 0, 0005 que corresponde a 0,05% do valor máximo que um bin pode assumir.

59

Page 75: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Figura 5.5: Ilustração de como é realizado a invariância ao brilho no Histograma Métrico.

Em se tratando de variações de contraste, a abordagem presente só funciona caso a sua alteração tenha sido feita em uma etapa posterior à aquisição da imagem e através do stretching. Assim como na invariância a brilho, é necessário estipular um valor limite (Vl) . A invariância a contraste é ilustrada na Figura 5.6.

Buckets 0 Pontos de máximo e mínimo local Buckets 0 Pontos de máximo e mini mo local

1 I 1»

m ww I I 1 ' n rl R n i l í l sJL 0 I 2 3 4 S 6 7 8 9 10 II >2 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 I 2 3 4 5 8 7 8 9 10 II 12 13 14 15 16 17 18 19 30 21 23 23 24 25 36 37 58 29 X 31

Figura 5.6: Histograma com seu contraste alterado através do stretching simples e seu His-tograma Métrico correspondente. A utilização do limite Vl elimina os bins irrelevantes, recuperando sua curva original (à direita).

Imagens similares com seu contraste alterado possuem predominantemente o mesmo for-mato da curva do histograma. Para o reconhecimento da forma da curva e armazenamento deste como vetor de característica outras técnicas são necessárias e não foram abordadas neste trabalho.

Uma abordagem apresentada em [Keogh, 2002], utiliza uma distância denominada de " Warp Distance" a qual foi implementada no protótipo. Tal abordagem utiliza uma apro-ximação entre duas curvas, distorcendo a área formada por elas e, assim, realizando uma

60

Page 76: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

medição preservando a curva do objeto a ser medido. A Figura 5.7 ilustra duas curvas onde ocorre a "distorção" de áreas para melhor desempenho da distância. Na proposta original a distância apresent.ou-se eficiente para séries temporais e, potencialmente, é útil para a me-dição de similaridade entre histogramas. Infelizmente os resultados preliminares não foram satisfatórios, trazendo como resultados das consultas elementos bem distintos do procurado. Esta abordagem faz parte do estudo de um aluno de doutorado do GBDI/ICMC-USP e foi testada e implementada no protótipo descrito na seção 5.2.

40 r:0 vO 70 0 10 20 3u 40

Figura 5.7: Ilustração do funcionamento da Warp Distance onde ocorre a "distorção" de área permitindo um melhor cálculo de similaridade entre curvas.

Resultados preliminares

Foram realizados experimentos preliminares para avaliar a. eficácia das consultas por similari-dade utilizando o Histograma Métrico modificado para suporte a variações de brilho. Assim, analisa-se o número de imagens correias retornadas pelo processo automático de busca. Para uma boa avaliação de busca, é necessário que o especialista agrupe as imagens em conjun-tos, mantendo as que são similares entre si. No entanto, pode-se observar sua similaridade em decorrência da fornia e classificação das mesmas como tomografias de cabeça, tórax e membros.

Os experimentos efetuados utilizaram um conjunto de 8.848 imagens médicas de diferentes estruturas corpóreas, cedidas pelo Hospital das Clínicas de Ribeirão Preto da Universidade de São Paulo. Esse conjunto é constituído por dois subconjuntos: 4.424 imagens originais e 4.424 imagens com brilho alterado, que correspondem às imagens originais do primeiro subconjunto. Foram buscadas as 32 imagens mais similares, utilizado o Histograma Métrico com invariância a brilho e a abordagem BIC.

Por ser mais adequada ao tratamento de imagens heterogéneas e coloridas, a abordagem BIC teve um desempenho muito limitado, trazendo resultados pouco satisfatórios em com-paração com o Histograma Métrico. A Figura 5.8 mostra um exemplo de consulta utilizando tal abordagem.

61

Page 77: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Imagem de Consulta

Imagens resultantes da busca (ordenadas por similaridade)

Figura 5.8: Consulta 32-Nearest Neighbors utilizando a abordagem BIC.

0 Histograma Métrico recuperou as 32 imagens mais similares à imagem de consulta e através da Figura 5.9 pode-se comparar a eficácia das abordagens. As imagens, indepen-dente do grau de alteração de seu brilho foram recuperadas sem qualquer problema, pelo Histograma Métrico.

Imagem de Consulta

Imagens resultantes da busca (ordenadas por similaridade)

Figura 5.9: Consulta 32-Nearest Neighbors utilizando a abordagem do Histograma Métrico.

JSUfl

. jn i .x; .JÓÍ *j .JOixij

Jfljxj .„JJ3j*j

62

Page 78: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

5.4 O Sistema de Recuperação de Imagens do Hospital das Clínicas de Ribeirão Preto

0 Sistema de Recuperação de Imagens Similares - SRIS-HC foi desenvolvido com a finalidade de demonstrar a viabilidade da técnica de recuperação de imagens por conteúdo no Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo (HCFMRP/USP). Além disso, tal funcionalidade é um recurso adicional de um Sistema PACS, uma vez que os sistemas PACS tradicionais não suportam ainda esse recurso de grande interesse que é a busca de imagens similares e a recuperação por conteúdo.

0 projeto original do SRIS foi desenvolvido em [Rosa, 2002] e está sendo continuado por este presente trabalho. As funcionalidades implementadas no protótipo foram adaptadas para este sistema, deixando-o mais robusto nas consultas por similaridade.

O SRIS-HC foi desenvolvido como uma extensão do Sistema de Informação em Radiologia (RIS) do Serviço de Radiodiagnóstico do HCFMRP/USP - o Sistema de Laudo Eletrônico. Assim, as funcionalidades do sistema original foram mantidas totalmente, inclusive o padrão dos módulos de consultas do Sistema de Laudo Eletrônico, que é a porta para a integração com os demais Sistemas de Informação Hospitalar do hospital, e com o mini-PACS que vem sendo desenvolvido, conforme ilustra a Figura 5.10.

Figura 5.10: Integração SRIS-HC com RIS, HIS e mini-PACS do HCFMRP/USP.

Devido à integração do SRIS-HC com o Sistema de Laudo, é possível fazer consultas por similaridade, visualizando além das imagens resultantes da consulta, todas as informações relativas ao exame feito (tais como data, local de realização, clínica, região, modalidade,

63

Page 79: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

equipamento e informações do paciente), inclusive o laudo médico do exame. O SRIS-HC permite ainda consultar um exame e visualizar todas as imagens do exame em pequenos thumbnails.

0 sistema deverá aumentar a frequência com que os médicos farão uso de pesquisa de imagens de outros estudos dos pacientes com o intuito de auxiliar na interpretação do estudo corrente. Esse aumento na utilização desses recursos deve-se ao fato de que, disponibili-zando o acesso ao sistema através das estações de trabalho localizadas em qualquer local do hospital, os médicos poderão pesquisar as imagens sem terem que se dirigir ao Serviço de Radiodiagnóstico para solicitar as imagens que desejam visualizar, ocorrendo uma redução do esforço necessário para se fazer busca de imagens.

Para tanto, é necessário que a recuperação e disponibilização das imagens consultadas seja rápida e eficiente, sendo necessário o uso de estruturas de indexação que possibilitem a indexação e recuperação das imagens de forma otimizada. Essa otimização é conseguida através do armazenamento de todas as informações relativas à imagem como seus vetores de características e a própria imagem. As características e as imagens são armazenadas utilizando sequência de bytes, armazenando-as na base de dados no tipo de dados BLOB (Bvriary Large Objtct).

As imagens são indexadas e recuperadas através de características extraídas das mesmas. O SRIS-HC suporta atualmente duas técnicas de extração de características de imagens ba-seadas na distribuição dos níveis de cinza: o histograma tradicional e o Histograma Métrico. As características são extraídas e armazenadas na base de dados juntamente com as imagens para que possam ser armazenadas na estrutura métrica Slim-tree. E através da Slim-tree que essas características são indexadas e consultadas.

O processo global do SRIS-HC consistiu em armazenar as imagens na base de dados, relacionando-as com o exame do Sistema de Laudo Elctrônico através da chave do exame contida no arquivo DICOM das imagens (conforme ilustra a Figura 5.11). Estando as ima-gens armazenadas na base, relacionadas com os exames radiológicos, é possível fazer consultas baseadas no conteúdo das imagens exibindo as imagens resultantes da pesquisa juntamente com todas as informações relativas ao exame que gerou cada imagem, inclusive o laudo médico do exame. Como atualmente o Sistema de Laudo Eletrônico abrange somente as informações textuais do exame, O SRIS-HC poderá ser adotado como uma extensão do mesmo, uma vez que irá permitir uma consulta mais completa dos exames radiológicos, exibindo além das informações textuais, todas as imagens pertencentes ao exame.

64

Page 80: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

SISTEMA DE LAUDO ELETHONICO EXAMES

N° EXAME DÍGITO

Figura 5.11: Processo global do Sistema de Recuperaçao de Imagens Similares - SRIS-HC.

5.4.1 Arquitetura do SRIS-HC

O SRIS-HC é composto dos seguintes módulos principais [Rosa, 2002]:

1. Módulo de Armazenamento das Imagens e Características Extraídas;

2. Módulo de Extração e Armazenamento de Características das Imagens Posterior ao Armazenamento;

3. Módulo de Montagem da Árvore Slim-tree;

4. Módulo de Consulta de Imagens Similares (núcleo do sistema);

5. Módulo de Consulta de Exames dos Pacientes e Respectivas Imagens e Laudos Médicos;

6. Módulo de Visualização de Logs de Armazenamento;

7. Módulo de Acesso ao Sistema;

A Figura 5.12 permite uma visão geral dos módulos que compõem o SRIS-HC.

65

Page 81: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

1 SISTEMA DE RECUPERAÇÃO DE IMAGENS SIMILARES 3 T i . H r * 1

SRIS-HC

N MÓDULO DE ARMAZENAMENTO, NA BASE DE DADOS, DE IMAGENS E CARACTERÍSTICAS EXTRAÍDAS

MÓDULO DE EXTRAÇÃO DE fcfiRACTtX PRO,C,:SSAR WsiicasXvsi CARACTERÍSTICAS DAS \ r ^ ^ x£>H.MS 3.I« kVI IMAGENS QUE NAO FORAM \ r ^ ^ x£>H.MS 3.I« kVI EXTRAÍDAS NO \ r ^ ^ x£>H.MS 3.I« kVI

ARMAZENAMENTO

® • W MODULO DE CONSULTA DE IMAGENS SIMILARES

a 1 : 7 » D I S I : M M >: 235- MSI: •.•21 ):«* MSI: «.»( |

MODULO DE VISUALIZAÇAO DE LOGS P DAS OPERAÇÕES DE ARMAZENAMENTO

•MOMOÍU-J E TEMPO MÉDIO GASTO. 1<H06«)2|10

>. W t t .>Z1 «.15 1.ST.

OIP- 753 l . « i * . « I .ST-1

MODULO DE INSERÇÃO DAS CARACTERÍSTICAS NA ÁRVORE -CRIAÇÃO DA SLIM-TREE REFERENTE AO EXTRATOR SELECIONADO

V .... ED E3 Hl} 0

— S i !

IMAGEM DE

B I K C A

MODULO DE VISUALIZAÇAO DE EXAMES DO PACIENTE SELECIONADO E RESPECTIVAS IMAGENS E LAUDOS MÉDICOS, PERMITINDO SELECIONAR A IMAGEM DE REFERÊNCIA DAS CONSULTAS POR SIMILARIDADE

<D f * X ® sns-HC ® MÓDULO DE ABERTURA

E ACESSO AO SISTEMA

Figura 5.12: Arquitetura do SRIS-HC.

Os módulos do SRIS serão descritos a seguir. As funcionalidades que foram incorporadas ao sistema serão descritas em seus respectivos módulos. Um detalhamento maior pode ser obtido em [Rosa, 2002],

Armazenamento das Imagens e Características Extraídas

As imagens são armazenadas na base de dados e processadas, extraindo as suas caracterís-ticas. Estas são também armazenadas para consultas posteriores. O armazenamento pode ser feito de diferentes maneiras: por uma base de dados já pronta pelo sistema de laudos ou por arquivos DICOM.

Este módulo foi alterado para dar suporte a imagens GBDI. Como as imagens DICOM possui tags nas quais são armazenadas informações relativas ao exame, a inserção na base de dados é feita de maneira automática. Porém, o formato GBDI armazena simplesmente o mapa de pixels da imagem e informações relativas exclusivamente à imagem, não podendo,

66

Page 82: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

portanto, realizar sua inserção automática. A alteração do módulo consistiu em adicionar um item permitindo assim que as imagens fossem adicionadas em exames nos quais não haviam imagens cadastradas. Esse procedimento foi realizado apenas para a validação do sistema de recuperação por similaridade. As imagens eram agrupadas aleatoriamente em conjuntos de 40 imagens por exame. Como haviam dois tipos de imagens (as originais e as com brilho sinteticamente alterado), cada exame possui 80 imagens armazenadas. A Figura 5.13 apresenta a interface que realiza o armazenamento.

EABVOHI*(AO A SER EFETUMDA | SELECCfcAt SCMEJVTE CS AFCUVOS G B O l C E S E J A C C S T l HLCCTOHt, OQ IMOTO ITirU DC PffOCEFPAMEMTVl A SEWLH UdRAfDTO L HO BANCO Importando todos crs arquivos GBDI (*0:1) conlicas no loca) e-spec-ficado. Ainazenardo as imagens no banco assam cono os resultados das caracterisiicas ap icadas ras imagens.

0 0 Mmagtm\iagtfKSUKVt OAirrvxjeri:-.inç£>d\fl2'>.' (S) Q:MmflBWM»m<KWgM g) D.Vma39n«\*i>B)b<»\Q2vi El 0 NimagmtagrirtVQgVl 0:Vbna9eruVingxi\ú2M g mapnrtfBBEMVEV © O.VmàawwVfiiflobdlSOM. El D V Tjr mgsfeIVJÍ-' O VnvYjBnAmgvIVÍKM |Sj D VmsjeriinçgbctyKV.! (2) O.VfnaíeriSnicobdMKVT © O Vr.-wrívrngjiKJW.t gj 0 VTVJJíríwsflMWVt |Sj O \.msgefis'vins5M\02M gj DAmasniStnçdxlUKU Q D.V-rw-jrrivnctiiJVOÍW gj 0:VNrao*n niflab(i*i02V1 0 VmstjerinsstKjVCxl O 0:Vtnage«\jnçgbd\fl2\.r © aVTwasf íSíncobdWW gj O NlinagenimgglxftVO? O DrMmagm\ing0xBVQ2M gj 0:Vmagers\mçqbdV3A! O.\ima0eflrWgitalVQ2V1 © OiMmagsníVinflsIxiSOZvi. O Cl Vnvoeri.mgstxiW.; 12 O:\imagmViag0xfVQ2M OAimajens\niçxi\fl2\l © D.VirtãgsninortxMCM. (j>) OAlrnaairçjítolVfêVl. [jg ONhnagmnHRfrkVOZVt

1107 5 2 « 7.tõ 20C0012711 ??UCOm3DI? 312 21107 5,2 4 72E5 20C0C127112244C00033015 31221107.524 7266 2QOim 27112244(*OJ33líl8 312.21107.52* 7266 2Ú£OOi271 1 2244000003021 3 12 21107 5 2 4 7265 20C00127112f?2£QOflMft 3 12 211075 24 7X5 2QC0012711 2345CC0035C27 312.21107.5i2 4 7265 2QCW127112345CQ0ra5C30 312.21107.52 4 7266 201001 27112845000l)35C33 3 1221107,5,2 «72çç 20ÍW271T 234SCWJKCÍ6 .31221107524 7265 ?0fW112711 2945COOK15C39 31221107 524 7205 2DC00127112345COXJ35C42 31221107.524 726620130012711 JKJ60WJ36C45 312.21107.52 4 7266 20000127113S36C00036C*8 312 21107 5 2 4 7266 20001271136>36£OWKf 312 2 1107 5 2 4 7265 2000012711 363SC0003SC64 31221107.524 72652000012711 4417CD0008070 31221107.52 4 7266 20000127114417CC0CW8C73 312 2110752 4 7266 20C00127114417COOOJ8C76 312 21107 5 2 4 7265 200W 27114417aonílC79 312 21107 5 2 4 7X5 20C001271144I7C00038C62 31221107.524 7265 20C00127114759CO»D9C€& 31221107.524 7266 20C0012711475ãtCÍOjyte8 312 2110752 4 7266 20C00127114759C00039C9: 3 12 21107 5 2 4 7265 20C0012711 4759CG0CO9CS4 312 21107 52 4 72C5 20C00127115145C00010037 31221107.52 4 7266 20C0012711 bl 4SI.OOU101UU 31221107.524 7265 20C00127115l45t0»10l03 312 21107 524 7266 20G001271151«5CC00101G6 3 12 2110752 4 7X5 200M127115334COB11109 312.21107.52 4 7265 20000127115334C00011112 31221107.524 7266 20C0012711ÍJ834C00011115 312.21107 52 4 7X5 MCttH 2711 WWOOi nlô 312 21107 5 2 4 7265 20000127115034000011121 m •> i M7 * •> i wwtoi ?7i •wuwrmw r>i

@ D MmogcraS ingjMiWVi g) D:\inMjersS irçcfcd \J32V @ 0. Vmcocra1! wxfcfeMHYI o 0\ln»sj8ro\ tnflsWNKM O D\ln*ajers\ ingeri \Q2V1 13 &Nimagcm\nc0xMI2\1 © O:Vlmagm\JingGb£A02V1. g) P.VwoHííWKV1 £) C> \lm>!»3«rs\iTigr*t\n?V1 O D UmajercSmçdVaW [2| D.SIn»ajeniSjBçtfKfc\fl2\1 © D.Mnr»jí«sSrr.c8bd\02'-' g) t> Mnv)3«f4Vimgí|b<».VJ32M g) OAInMjeríSinjgbckVQAl g) DiMnwSnqtóV Q D:Vna9eni>(ngBb(MQ2M © fcVrM09r4N«ajbòAO2Vi g) OUrrwjeri'-. mggb(frVQ2M Q OAtaMgw\j««WM2V1 (H| 0:Mmagenc\fng(WAQ2M © OAlfjer«Nm«lxk\02\l g| O: Mtug«flt\ inflobdA02Vl £) OMaM9emVinigKiAQ2M Q mpxfOÍZV' @ O.MrnajersN m<xix»J32VI 0 C- MnwjemoflWWM 13 OrMnwjemN fç rf 'J37V (3 ?.\irr»M-r; i icixfal *J02V" g) D.Mrrw39r3\inccÉ*>M32V1 ^ Mraer rnO£É>Í'j)2Vl £l 0:UiM9WtfViiigBbdA02M 01 -I

31? ? 1107 5? 4 72615 2BG00127112244C000D3C11 31221107 52 4 7205 2C0001271122Í4C000330' C 31221107.52 «.7285 20000127112244000)03013 31221107.52 4 726S 2G000127112244C00033C22 312? 1107 52 4 72® 20fflDl271t272c-fí«R4í>?i 3 12 21107 5 2 4 7205 20000127112345000335020 31221107,52 i72BUnD12ni2MSQ00BHDl 312.21107.52 4 7265 2000012711234501005034 31221107.5 2 « '295 ZCCOOi ' 2WMBJ35C37 3 12 2 1107 52 4 72G5 ?rfmi?7i r2345romiFf4n 31221107 5 2 4 7205 2CCC0127112345000035043 312.21107.52 4 720b 2CC0012711 36C0033€M6 312.21107.52 4 7266 2CC00127113606000006049 312 21107 5 2 4 7265 2000012711X%COO(»«62 3 12 21107 52 4 7265 2CM0127! 1 35a6C0003eCB5 312.21107.52 4 7265 200001271144170000360/1 31221107.52 4 7266 20000127114417c00>380?4 312.21107.52 47265 2C000127114417C00008077 312 21107 5 2 4 7265 20000127114417000038060 31221107 524 7265 2C000127! 14755C00035CG3 31221107.52 4 7205 2000012711475900003%» 31221107.524 7266 20000127U475M0003SCÉE9 31221107 52 4 7265 20000127114755COOJ3SC192 3122110752 4 7265 20000177114755C0033SC95 312.21107 52 4 7265 20IM012711S145C0031C090 31221107.52 4.7285 2000012711614M0HIOI 312.21107.52 4 7266 20000127116145Í0001G104 312 21107 5 2 4 7?65 20000127115145(00310107 3 12 2 1107 5 2 4 7205 2C000127115334C00311110 312.21107.524 7266 2000012711 "53340)0311113 312 21107.52 4 7266 20000127116834000311116 31221107 52 4 72« 20«tt1271is»4<]0tt1iii 9 3122H07524 7X5 2ooni 2712ni«emmi "122 i r "> iin7 * 51 r-in wmnníi •wunvnni

jSj 0:MnMgeraMBgtfxiUKVl £) DAImerelmiçjid.VOAI fi) D.MrrwjcrcNirodjJ-WO g) D.\in«3ef«vr1£S)M'\02\r £) '>> Mnwwii-fiíírt.WM 3 D \lmagaft4\aaggbdAQ2Vl G] L',MrMjffr.;odKl>J32M gj D.\lmaoenc\irRQCtxW)2M g) Mm-JJÇfíflgMWO £) D MrMj)cfttVingxiAjQ2M gj OAImajens\ngxiAQ2V.1 gj D.\lfM3emNm-BW \02M V) •• '••Vãj-r iitíJ •.o:'--£) t' g] D \Jn«jem\ÍTigçWAflAl g) OiMfTvaeraSanççtettOAl g) D.SIrM3ere\«rB5ÍKl',i02\1 g] 0A»riva3«r«Mmflj3MA02M j=j D \in»3er«t\irnS|£t>ci'\02V1 2) D Mm-ajer '.«-gçtxl g) D.Mm«isroS»radDd'\fl2M g) D.Mn>aBw<MwflflbdA02M g) DMnv>3®r«NimggM.\02M 2i D Vnw9m\ás|UA02V1 21 D.Mitw3BTipd*iJ32\.l g) O.MmaoefsVni«MA02M g) D.Mn«a8r«\rníObÍAJ32M 0:M<nag«raVãn9Sb(l>V32M ,2) D Mnvs3ere\«rgx*.V32V1 g) D.MrrvaíJeriiSírocWrUlíVl g) D.\ln*»3ern\»rat>J-\Q2VI 53 ''•invi3»r<svirrig£t>i',oDÍM 2) 0 \lrrna\«T!gct>dW12Vl

31??11075?4 3122110752 4." jLJilL jja 31221107.524-3122110752 4", 31221107524. 31221107.524. 312.21107.52 4., 31221107,524. 3 1221107 5 2 4 ' 31221107 52 4. 3.1221107.52 4. 312.21107.52 4 3 1221107 5 2 4". 31221107524 3122110752 4 31221107.524 31221107 52 4 " 31221107524" 31221107524 31221107.524,. 31221107.52 4 312.21107524 3 1221107 5 2 4" 31221107.52 4 . dUjllfjJí 312.21107.524 31221107524 31221107524 3 1 2 . 2 1 1 0 7 . 5 2 4 . 31221107.524 31221107524' 31221107524

Figura 5.13: Interface em que as imagens GBDI sao inseridas para validação.

Antes de iniciar o armazenamento da primeira imagem, é gerado um registro de log (o log de armazenamento é inicializado), para que o número desse registro seja armazenado junto com as imagens e as características. Este log conterá inclusive uma breve descrição da operação de armazenamento, fornecida pelo usuário, conforme possibilita o módulo de armazenamento de imagens e características.

67

Page 83: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Extração e Armazenamento de Características das Imagens Posterior ao Arma-zenamento

Neste módulo, é possível selecionar o extrator a ser aplicado nas imagens ainda não pro-cessadas (extraindo as características) ou selecionar todos os extratores ativos. Após esta operação, seleciona-se todas as imagens existentes na base que não possuem características extraídas através dos extratores ativos selecionados, retornando um conjunto de imagens a ser processado. A partir deste conjunto serão obtidas as características das imagens referen-tes a cada extrator e armazenadas na base. Além disso, essa operação irá gerar um log de armazenamento contendo a data e hora de início e fim da armazenagem. E possível também saber quais características ou imagens foram envolvidas nesse processo.

A alteração do Histograma Métrico foi realizada na biblioteca DicomLib. Este módulo a utiliza para realizar a extração de características e não foi necessária nenhuma modifica-ção neste. Como as imagens armazenadas anteriormente 110 banco já haviam passado pelo processo de extração de característica, elas não sofreram a alteração proposta.

Montagem da Arvore Slim-tree

Antes de iniciar alguma consulta, a Slim-tree deve ser montada. E necessário escolher por qual característica ela será estruturada e então é iniciada sua construção. O tempo médio de inserção é de, aproximadamente, 50 segundos para 18.000 imagens. Após a inserção, a árvore estará pronta para ser utilizada e este processo não será mais necessário durante a sessão de consultas, inclusive o acesso a este módulo de montagem da árvore é bloqueado. A menos que o usuário saia do sistema e retorne novamente, essa rotina não será mais executada.

Consulta de Imagens Similares (núcleo do sistema)

Este módulo é considerado o núcleo do SRIS-HC, pois engloba todos os demais módulos (que foram desenvolvidos para possibilitar a execução de consultas por similaridade). E através desse módulo que as consultas por similaridade (k-Nearest Neighbor Query ou Range Query) são executadas e as imagens semelhantes à imagem de referência são recuperadas.

Para executar uma consulta por similaridade é necessário fornecer a imagem de referência (ou de busca) a ser utilizada. Através da imagem de busca, executa-se uma busca por imagens similares (em Histogramas Métricos ou tradicionais, conforme extrator selecionado) à imagem de referência, de acordo com os critérios de consulta fornecidos (tipo de consulta, número de imagens similares, ou faixa de similaridade). A imagem de referência das consultas

68

Page 84: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

pode estar armazenada no banco (em formato GBDI) ou no computador do usuário (que obrigatoriamente deveria ser no padrão DICOM). O sistema foi adicionado de alguns recursos que permitem realizar consultas através de arquivos nos formatos GBDI e JPEG, além do DICOM que já era utilizado. Essa funcionalidade é bastante útil em vista de que o Grupo de Bases de Dados e de Imagens utiliza o formato GBDI com frequência e o formato JPEG é um dos mais difundidos para armazenamento de imagens.

Após selecionar uma imagem de referência, o sistema verifica se a mesma possui a carac-terística previamente selecionada na montagem da Slim-tree, já extraída e armazenada na base. Se a característica já estiver na base, a mesma será convertida em um objeto de busca da Slim-tree. Caso contrário, a imagem passará pelo processo de extração dessa caracterís-tica, sendo então armazenado na base o vetor de características resultante (para evitar que a mesma imagem passe por esse processo caso seja selecionada novamente). Após o armaze-namento da característica extraída, esta será convertida 110 objeto de busca da Slim-tree. A partir daí, o processo de consulta é único, de acordo com os critérios de pesquisa fornecidos pelo usuário (tipo da consulta, número de imagens desejadas, ou faixa de similaridade a que devam se encontrar as imagens resultantes).

Consulta de Exames dos Pacientes e Respectivas Imagens e Laudos Médicos

0 módulo de consulta de exames de pacientes e respectivas imagens e laudos médicos foi desenvolvido, originalmente, mantendo o padrão do módulo de consulta de exames de paci-entes do Sistema de Laudo Eletrônico, com o recurso adicional de visualização de todas as imagens dos exames, em miniaturas, com a possibilidade de visualizar uma imagem desejada em seu tamanho original [Rosa, 2002].

A finalidade do módulo foi permitir ao usuário selecionar uma imagem de um exame de um paciente para servir como imagem de referência das consultas por similaridade, além de permitir consultar exames de pacientes com as imagens associadas.

Se o exame possuir imagens armazenadas na base (uma vez que é uma base de teste e que nem todos os exames possuem imagens associadas), basta dar um duplo clique no exame desejado para visualizar as imagens em miniaturas. Caso o usuário queira visualizar a imagem em seu tamanho natural basta dar um duplo clique sobre a miniatura.

Para cada exame selecionado, efetua-se uma busca 11a base de dados de todas as imagens, montando então as miniaturas a serem exibidas. Uma vez montadas as miniaturas do exame, pode-se salvá-las em um arquivo, de tal forma que a próxima vez que o mesmo exame for selecionado, não haverá necessidade de montar miniaturas das imagens, que é um processo

69

Page 85: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

lento, uma vez que as imagens do exame serão sempre as mesmas. As Figuras 5.14 e 5.15 apresentam o laudo e as imagens proveniente de um exame.

Regi!Iro Nome doParerte twtuánf ASll}

|0Í*5131K JU |CAMW* ACWQDBHCN UHB0MS0 Enaww RwiratoJ |l™6oen3<faE>*meN» 1151721

FESSOUAM:* IW*3»E nc* 3 WW200I f=ESSa»l«J<Cl»fVAS»JETCA 3 8MC00I FKS3<MM:i«MA3MiTCA i RMMQflMFM 9MPLES • tl*t2*»»BJW7 U.TFAS0N03FWIA

MAO «ATEBRACO ESJJERD3 AATESRACO ES3JETO3 MADDFHIA

Mi) Otfctoo fJV>La>auo

IWM MAMO M rXAMC A«MM HIKMWAM í-sHUiras leacna: cim irierwidade de

LsInJuas vasc lio-nervasas dopcxi biapjal ci

Ausênc £ de íesãe: eapanirrs: da iroi

: jiobte iea ct*i ce aspecto rctm al

ÉBSS LAQBDKN MfJUOMtMN RHLAN

QTÍGQDKDMACD LNQAHR

u pieservaio

níotma cfwilaçõo s nteniidade de irnalnaima

•1* un dtiro c»<jj* sofci» o tawrx v&isear 'oJ*5 -ts mugens

Figura 5.14: Tela de consulta ao laudos de um paciente e suas respectivas informações.

Visualização de Logs de Armazenamento

0 módulo de Visualização de Logs de Armazenamento foi desenvolvido para que possa for-necer uma estimativa do tempo necessário para se armazenai1 as imagens, as características extraídas ou ambas.

Nesse módulo é possível visualizar também o total de imagens envolvidas no processo, seja nos processos de armazenamento das imagens (armazenamento parcial ou total) ou no processo de extração das características posterior ao armazenamento. Além disso, uma outra informação adicional é o tempo médio gasto no processo todo referente ao log.

A Figura 5.16 ilustra todas as informações contidas no módulo de visualização de logs. Note que no final da tela pode-se visualizar a descrição do log selecionado (corrente), descrição essa que o usuário fornece antes do armazenamento das imagens, ou que o sistema gera na tela de extração das características.

70

Page 86: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Regisho Ncm-doPacer*- com/wrft,***' 10*95131K Mj jCAMHDK, AOAQOBHCN (JHBDMSO Eiwmcrs Rcakatai E-aç 1151723 |

IS m BB • — • m & 1 0

n \ 3 3 a 5 i 7 8

m v / y M 1 ty;r, T"v j

y %

11 t? 13 14 15 te

V 1 l A l H m 1 • 20 21 2 23 24

B • 1 1 m SB • BB m 25 26 27 a 29 30 31 32

• • • a • H n 33 34 35 3S 37 38 33 40

1 1 H l zi dè um dupb ckque sobte uiaa anafem dssqada pata visuflkà-la em seu lanarho ruhid

Figura 5.15: Tela das imagens em miniatura (thumbnails) do exame e a primeira imagem em tamanho natural.

Os processos de armazenamento nos quais ocorrem erros antes da finalização do log, não possuem na Figura a data e hora do término do processo. Além disso, em sua inicialização armazena-se o total de imagens que serão processadas e, na finalização, o total que foi real-mente processado. Sendo assim, caso dê erro antes do término da operação, essa informação estará desatualizada [Rosa, 2002].

Acesso ao Sistema

Referente às políticas de seguranças do sistema, o SRIS-HC foi desenvolvido em conformidade com os demais sistemas do HCFMRP. É necessário que o usuário possua um nome-de-usuário e senha, adquirido junto ao Centro de Informações e Análises do HCFMRP, para estar utilizando os demais sistemas existentes no Hospital das Clínicas [Rosa, 2002].

Este módulo foi modificado para ser possível a ligação de diversas bases de dados. Para isso foi adicionado um campo onde o usuário deverá escolher a base que desejará usar.

O módulo de acesso ao sistema (Figura 5.17) é a tela de conexão do usuário com a base de dados, onde são solicitadas as informações para validar o acesso a tela principal do SRIS-HC.

71

Page 87: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Visualiza logs de armazenamento de imagens e características processadas - n x

( í MOSTRAR TODOS OSLQGS DE ARMAZENAMENTO C MOSTRAR TODOS OSLOGS APARTIR DO DIA; 12/2/2004 " ^ Pesquisai |

kl- L O S INÍCIO TÉRMINO TIRO D E O P E R A Ç Ã O | T E M P O B A S T o | T O T A L I M A G E N S | MÉDIA ( S E S ] 1 I M A G E M | j

86 27/7/200217:27:29 27/7/200217:30:09 SOMENTE CARACTERÍSTICAS 2 m 40 s 0 0.00

87 27/7/200217:38:33 SOMENTE CARACTERÍSTICAS 10390 0.00

92 4/8/200213:19:44 4/8/200214:43:56 SOMENTE CARACTERÍSTICAS 1 h 24 m 12 s 4631 1.09

93 4/8/200214:47:45 4/8/200215:53:25 SOMENTE CARACTERÍSTICAS 1 h 5 m 41 s 2973 1.33

97 4/8/200216:35:45 SOMENTE CARACTERÍSTICAS 2786 0.00

98 4/8/200216:41:23 4/8/2002 1 7:30:42 SOMENTE CARACTERÍSTICAS 49 m 2 0 t 2786 1.06

100 14/1/2004 2313:45 14/1/2004 23:16:05 IMAGENS E CARACTERÍSTICAS 2 m 2 0 s 800 0.18

101 14/1/2004 23:19:47 14/1/2004 2322:41 IMAGENS E CARACTERÍSTICAS 2 m 55 s 800 0.22

102 14/1/2004 23:24:53 14/1/2004 23:27:16 IMAGENS E CARACTERÍSTICAS 2 m 23 s 800 0.18

103 14/1/2004 2327:38 14/1/2004 23:29:53 IMAGENS E CARACTERÍSTICAS 2 m 16 s 800 0.17

104 14/1/2004 23:30:44 14/1/2004 23:3231 IMAGENS E CARACTERÍSTICAS 1 m 48 s 800 0.14

105 14/1/2004 23:33:27 14/1/2004 23.35:43 IMAGENS E CARACTERÍSTICAS 2 m 16 s 800 0.17

106 14/1/2004 23:36:39 14/1/2004 23:38:21 IMAGENS E CARACTERÍSTICAS 1 m 4 3 s 800 0.13

• 107 14/1 •2004 23 39 26 | l4,1/2004 23141 IMAGENS E CARACTERÍSTICAS, 1 r , 46 s 800 0.13

108 14/1/2004 23.4247 14/1/2004 23:44:44 IMAGENS E CARACTERÍSTICAS 1 m 5 8 s 800 0.15 ,

109 14/1/2004 2345:39 14/1/2004 23:47:53 IMAGENS E CARACTERÍSTICAS 2 m 15 s 800 0.17 d

Importando todos os arquivos GGOI (40:1) contidos no local especificado

Figura 5.16: Tela da apresentação dos logs do banco de imagens.

5RI5-HC - Sistema de Recuperação de Imagens Similares

SRIS-HC

Base a ser utilizada: [GBDÍÕRA "3]

USUÁRIO : |RADIOLOGIA

SENHA:

• OK | ) ( Cancel

Figura 5.17: Tela de conexão do usuário com a base de dados e acesso ao SRIS-HC.

5.5 Resultados A seguir serão apresentados os resultados obtidos com a implementação final no SRIS-HC. A abordagem BIC não foi adicionada ao sistema, tendo em vista que seus resultados não foram satisfatórios, como ressaltado na seção 5.2.5.

72

Page 88: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Os experimentos foram realizados em um conjunto de 18.874 imagens, sendo que 10.390 já estavam na base de dados original e 8.484 foram inseridas para a realização de testes e experimentos. Deste último conjunto de imagens, metade delas (4242) tiveram seu brilho alterado linearmente em 100 unidades de brilho. O conjunto inserido para experimentos teve um diferencial qualitativo muito grande em relação ao armazenado na base. As imagens na base foram armazenadas integralmente, com grande parte da imagem sendo o fundo negro. As inseridas, tiveram o recorte de sua área útil (MBB - Minimum Boundary Box), melhorando a qualidade das informações de cores. Um exemplo do que foi armazenado pode ser observado na Figura 5.18.

Figura 5.18: Imagem original de crânio (esquerda) e a mesma com o recorde do MBB (Mi-nimum Boundary Box).

A montagem da Slim-tree com esse total de imagens foi de 44 segundos. Um tempo considerado tolerável, já que, com a adoção da árvore, as consultas são realizadas muito mais rapidamente. O computador utilizado é apresentado na Tabela 5.2.

Os experimentos foram divididos em 4 casos. Em todos os casos utilizou-se uma imagem de referência aleatória e realizou-se a consulta no sistema através do histograma normalizado e métrico adaptado. Tanto a consulta aos vizinhos mais próximos quanto a consulta por abrangência foram realizadas. Todas as imagens de referência apresentadas estão em seu tamanho original.

73

Page 89: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Característica do computador utilizado nos experimentos Processador Intel Pentium 4A, 2433 MHz Sistema Operacional Microsoft Windows 2000 Professional Memória do Sistema 1024 MB (DDR SDRAM) Adaptador gráfico NVIDIA RIVA TNT2 Model 64/Model 64 Pro (32 MB) Disco rígido MAXTOR 4K080H4 (80 GB, 5400 RPM, Ultra-ATA/100) Base de dados Oracle9i Database Release 2 (9.2) for Windows Compilador Borland C+-1- Builder Enterprise Suite Versão 5.0

Tabela 5.2: Configuração do computador utilizado para os experimentos.

^ ^ ^^ ' ^ Í CJBDI

terística da imagem de referência possui um custo Figura 5.19: Imagem de referência para computacional ínfimo tendo o mesmo desempenho, o primeiro caso. optou-se por utilizar as imagens GBDI.

O resultado da consulta pode ser observado através da Figura 5.20, onde foi utilizado uma consulta aos 40 vizinhos mais próximos através do histograma normalizado. As imagens recuperadas são próximas à de consulta, porém ela está susceptível a variações de brilho. Isso pode ser observado nos resultados pois nenhuma das imagens com o brilho alterado na base estava contida no conjunto do resultado. Uma consulta por abrangência também foi realizada com raio de 0.3 unidades e seu resultado pode ser observado através da Figura 5.21.

O Histograma Métrico adaptado produziu resultados bem distintos do histograma norma-lizado. A consulta foi realizada com os mesmo parâmetros do anterior. A variação de brilho não trouxe problemas na recuperação de imagens, como pode ser observado nas Figuras 5.22 e 5.23. 74

Page 90: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

LomnJta de l i n « g a i f Por ' i imtl.widadr

0 Selectare Imagem de Busco IQ A «uÂiéot E orílddos | jejjsi'

fiESUUTMIOS OA PESGUSA PO«K HEAMST IHIGHBOÍ* NMJ COMK - M

1 IILLlUíni 31/231 Du DDTO30D

lllD0IFnn> l/2E| Da DJ!Jir

11102 |Lnr.'Jl/2ri Drsl 0 123»)

1 iOMirmmBl/33) Dl» 0 2r.'l8«3

!8«lf»aBt103-u») I6MIE «1031(361 IkíOaiM

11202 S.jsm5IH/i7) Dnt. 0-158 2B7

u:04iE>an>5in«ei Diu 0J235IC

DM D ítsrs

1«3?(EMn>«»l/3a Ciar CL2S1ÍN

11110IE»«n!j.1í31| 14232 IEm» «11/221 l«06Cwri50.1/30J Ori 028»66 D.a 0 Dm. 0.281SS1

niWIUmiS-l/Sei Dlll OlffiCi?

1473» |FKI>I« 1/.1JI Daf g .'2E779

0» 0 26T~

11830 tw.'3.1/21l D.* 0.286319

lHra6IE»«ii9'lffit| DM D.1065BI

IE5CB ÍDon IU 1/3PI Diff 0 534417

1725»KM«IS»1/23I Oiti 0 25TO5

13250 í-sni :fr3'211 lH326i«nllM/2l Om 0:294571; DK 0L296193

iimii.iw.3i/ai Dm 0 1312HJ

11W E»mHl/3ii C ji 0.269»

1103a IEw &1/3M Dm 0 299159

17:50 l£»sti SÍI/21 Dm. D2oa:Db

1473 Hum 491/3 Dm 0 3J9EB

14239IEum «i<3l) CJ.11 0 231701

H306(Ea»5«l/2Sl 0« 0 2723»

llD30IEȎmH/3l: Dm 03314S2

aé ut ojoc ctu* -JÍJ* immtu a (tomada wueicai é ros" W! wmariioaonals tetpt [ixo isil, moeu

Figura 5.20: Resultado da consulta aos 40 vizinhos mais próximos utilizando o histograma normalizado.

Um resumo dos testes realizados é apresentado na Tabela 5.5. As imagens dos resultados obtidos não constam neste capítulo (caso 2, 3 e 4) mas estão no Apêndice A.

5.6 Considerações Finais Este Capítulo apresentou o trabalho desenvolvido e as modificações efetuadas no SRIS-HC, além da evolução do sistema, desde o seu protótipo até a implementação final.

Descreveu-se como o Histograma Métrico adaptado pode ser invariante às mudanças de brilho, tornando-o uma abordagem compacta, e eficiente para a recuperação de imagens médicas que são obtidas por processos distintos de aquisição. O Histograma Métrico utiliza buckets de tamanho variável, diferentemente das abordagens tradicionais que restringem a quantidade de bins. Além disso utiliza uma métrica baseada na diferença de áreas entre histogramas normalizados.

O principal componente para aprimorar o histograma e deixá-lo invariante ao brilho é

75

Page 91: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

I llli íi ill áitmua PiwÉMotliKorUtáM | M SOLTADOS DA PfSOUISA POR RANGE OOCRV (COM RAIKK - •.)>

IHCClExam 3-1/231 11102 |E*«i 9-1/27) 14302Éaam»1/27) 11106 |E*am3-1/30| 11104 |E.am V/281 11096IE»am3-1 /24| 110J8|Emw.»1/25) 172ÍOlE»am 3B-I/21) Dm D.COHCO Dui 0 122093 Dm 015B2B7 Dm 0162576 Dn»016íK2 Dm B I86907 O.rt 01S1270 Dm 02083C6

18484 lEwm 1031/3» 18483 lE-am 1031/361 4&V3?) 14294 Ctw*9tM/23l 1 7254(E..am 861/231 11324 [E***19-1/38t 14233 lE-am 491/311 143» lEwro 501/2» De» 0256441 Dirt 0 2613% Dm 0261852 Dm 0 268658 Dai 0 266765 D* 8269608 Dm 0271701 Dm 0 272355

Figura 5.21: Consulta por abrangência com raio de 0.3 utilizando o histograma normalizado.

I Setecio» Imagem de Busca IÈ fiesUadC* E«C0rtí«d0* | MSULTADOSIM Pt SOUSA PO«K NCMVST NOGMOO* <K MNj COM K <•

111 CtlExam 3-1/231 11107 £iw*9-1*3| 142CC lixam 50-1/27) 14303 |E«a«50-1/S7| 11102 lE«am 5-1/27) 11103|E»am 3-l«7| 14295 |E«»tt50 1/63| 14294lE*am5C-l/231 Dm 0000000 D.«t 0 000000 Dm 0101572 D.rt 0 101572 Dal. 01OT316 Dm 0109316 D«t 0143607 Dm:0 143807

<7251(E»am881/S1i 17293 IEimh 881/21) 111C5(txam 91/68) 11104 |Ex»m9 1/291 11103 LE-wn 51.70) 11106 fEun 9-1/301 184M |F«m 103 1/36| 184B1 (Exam 1031/76) Dm 0146733 Disr 0146733 Di:t 01*6899 Dm-0 146339 DW 0 149521 Dm C 149525 Disr 0 150072 Dist 0 150072

11096 (E*4m31/24| 11097 E«w 91/64) 14;«8(t.«n 501/25) 14299* 501/651 14235 ff.w 491/?3) 14234 |Ex«n 491/33! 172tf £ 881/58 1/19) Dm 0153885 Di* 0 153885 Dm 0156668 D* 0156836 D* 0161417 Dm D.«r 0168207

11M8CmmS-1/M 11096|Emik9-1/2S) n 1 CO E*m9-1/26) 11101 |E*r»9-i/lKl 14226 tE-am 461/29) n22?t£»am*9-1/69| 184*, |fc-n luii/flil 19464 g » » * m V 3 e Dm 0.168636 D.tt0168638 Dm 0169517 Dm 016951? D«t.Q1706íl3 Dm 0.17069; D«t 0178980 Dm. 01759(0

•43L4IL.W..53-1/281 14305 ff xar-50-l.WI 14233llxan «3-1/721 14232 43-1/321 14231 Emi. 4*1/711 14230 |t»om 43-1/311 11325 lt..on. 100/701 11324 lExon 15-1/38) Dm 0 1 78670 Diít 0178670 Dm 01 34545 Dct 0184545 De».01Btt78 Dm B.18657E Dirt: 0191104 Dm.Q131104

dè ta Acto cknei -do* d mrákM dswtaflapata vámte* ém*gmm t»uHmartao»gnal« ie«pac»N<i laudo mfrk»

Figura 5.22: Consulta aos vizinhos mais próximos através do Histograma Métrico adaptado.

76

Page 92: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

0 idecrara Imaasm át Buica RwiÉaOos Encortiack» | «ESULIA0OS OA PCSOUKA POR RAMGt ÚUCRY (COM RAMGE « U)

IIW irvw. cn < *« nwír»». W.IHK Um lT..m 5P.I [Vr1 « kv dueto d<M9 tcty» a mréaiua (tentada ifeuateai a r-age» em t«u íamarfc atónâl 0 itspec ir«-j lauJo mMax>

Figura 5.23: Consulta por abrangência com raio de 0.3 utilizando o Histograma Métrico adaptado.

especificar um número limite utilizado para ignorar valores não significativos. Esse valor gira em torno de 0, 5% do valor total do histograma. Os resultados mostram que a abordagem utilizada é eficiente e supera claramente abordagens já consolidadas como o BIC.

A recuperação de imagens, através de formas dos objetos presentes na mesma, poderá ser incorporada a este sistema. A grande dificuldade de utilizar abordagens baseadas na forma é o alto custo e pouca precisão de segmentação automática dos objetos de interesses nas imagens.

77

Page 93: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Caso Tipo de histo-grama na Ar-vore Métrica

Consulta Critério Imagens Resul-tantes

Tempo de busca

Tempo de visua-lização

Figura

1 normalizado k-nri k=40 40 < ls 8s 5.20 1 normalizado rq r=0,3 31 < ls 6s 5.21 1 métrico k-nn k=40 40 < ls 7s 5.22 1 métrico rq r=0,3 130 < ls 23s 5.23

2 normalizado k-nn k=40 40 < ls 6s A.2 2 normalizado rq r=0,3 43 < ls 8s A.3 2 métrico k-nn k=40 40 < ls 7s A.4 2 métrico rq r=0,3 279 < ls 86s A.5

3 normalizado k-nn k=40 40 < ls 7s A.7 3 normalizado rq r=0,3 5 < ls < ls A.8 3 métrico k-nn k=40 40 < ls 7s A.9 3 métrico rq r=0,3 22 < ls 2s A.10

4 normalizado k-nn k=40 40 < ls 19s A.12 4 normalizado rq r=0,3 30 < ls 18s A.13 4 métrico k-nn k=40 40 < ls 28s A.14 4 métrico rq r=0,3 110 < ls 51s A.15

Tabela 5.3: Resumo dos resultados obtidos nos experimentos.

78

Page 94: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Capítulo

6 Conclusão e Trabalho Futuros

6.1 Considerações Finais Sistemas de recuperação de imagens por conteúdo (CBIR) têm se tornado muito importantes para o desenvolvimento de diversas áreas científicas de utilizam imagens. O reconhecimento de objetos através de imagens tem sido empregado não só na medicina, mas em sistemas industriais, de navegação, de segurança ou até em reconhecimento de superfícies. Na área médica, sistemas CBIR avançam rapidamente, pois a potencialidade de aplicações é bastante grande, desde utilização para ensino e estudo de casos até suporte ao diagnóstico por imagens. Além disso, o fato de auxiliar a qualidade de vida com a introdução de sistemas tecnológicos, traz uma motivação social adicional.

Este trabalho apresentou o desenvolvimento de uma técnica de extração de características de imagens, que está sendo incorporada a um sistema de recuperação de imagens médicas por conteúdo. Tal técnica foi desenvolvida modificando uma proposta inicial de tratamento de histogramas de brilho (Histogramas Métricos), sendo que esta nova técnica foi testada e comparada com outra baseada também em histogramas (BIC). Além da extensão realizada no sistema SRIS-HC para incorporar tal técnica, foi também desenvolvido um protótipo de avaliação que utilizado para validar a técnica e comparar com outras propostas cm desen-

79

Page 95: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

volvimento no GBDI. Deve-se ressaltar que a pesquisa bibliográfica efetuada foi de funda-mental importância já que apresentou o estado-da-arte nos sistemas CBIR. Tais sistemas foram analisados e verificados quais poderiam ser aplicados na área médica. Infelizmente, poucos sistemas tratam com exclusividade imagens monocromáticas (tons de cinza) e menos ainda imagens médicas, onde a variabilidade de intensidades de cinza pode der baixa. Essa característica traz o problema de que as imagens são homogéneas, não havendo muita dis-crepância entre informações de imagens distintas. Apesar dos problemas de recuperação das imagens médicas, o presente trabalho apresentou resultados satisfatórios, mesmo comparado com sistemas da literatura.

A utilização do sistema no Hospital das Clínicas permite que os médicos avaliem e compa-rem diagnósticos anteriores, possibilitando um melhor tratamento ao paciente. A integração do SRIS-HC junto ao sistema de laudo possibilita também uma ferramenta de ensino e vali-dação de diagnóstico médico podendo ser usado por especialistas do HCRP que é um hospital escola.

6.2 Trabalhos Futuros As técnicas de extração de características baseadas em histograma mapeiam a distribuição global de brilho das imagens e, dessa forma, atuam como um filtro inicial do conjunto de imagens que possa se qualificar a responder consultas por similaridade. Técnicas mais avançadas, baseadas em textura e forma, podem ser incorporadas para atuarem como um processo secundário de seleção do conjunto de imagens resultantes, ou mesmo como um processo inicial, conforme desejado. A incorporação de métodos como forma e contorno da imagem estão em desenvolvimento no GBDI-USP e poderão ser integradas ao sistema SRIS-HC. Por utilizar bibliotecas desenvolvidas pelo próprio grupo de pesquisa como a DicomLib, a adição de componentes pode ser realizada de maneira simples e fácil.

Um estudo mais detalhado sobre as reais necessidades dos médicos poderia ajudar a de-senvolver sistemas mais amplos e gerais para as diversas modalidades médicas. A rejeição ao uso de ferramentas computacionais automáticas ainda existe em diversos setores da so-ciedade e mesmo em centros médicos. A introdução do sistema, que hoje está restrita a um ambiente de testes, para ser utilizado no cotidiano da prática médica traria informações vitais para a sua expansão e boa utilização. O sistema contou com a opinião de diversos profissionais da área, mas ainda não foi testado no dia-a-dia de um hospital onde as imagens geradas diariamente podem chegar a dezena de milhares.

80

Page 96: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Referências Bibliográficas

[Albuz et al., 2001] Albuz, E., Kocalar, E., and Khokhar, A. A. (2001). Scalable color image indexing and retrieval using vector wavelets. IEEE Transactions on Knowledge and Data Engineering, 13(5):851—861.

[Aslandogan and Yu, 1999] Aslandogan, Y. A. and Yu, C. T. (1999). Techniques and systems for image and video retrieval. IEEE Transactions on Knowledge and Data Engineering, 11(1):56—63.

[Beckmann et al., 1990] Beckmann, N., Kriegel, H.-P., Schneider, R., and Seeger, B. (1990). The r*-tree: An efficient and robust access method for points and rectangles. In ACM Int'l Conference on Data Management (SIGMOD), pages 322 331.

[Brown, 1992] Brown, L. G. (1992). A survey of image registration techniques. ACM Com-puting Surveys, 24(4):325-376.

[Brunelli and Mich, 2001] Brunelli, R. and Mich, O. (2001). Histograms analysis for image retrieval. Pattern Recognition, 34(8).

[Bueno, 2002] Bueno, J. M. (2002). Suporte à Recuperação de Imagens Médicas baseada em Conteúdo através de Histogramas Métricos. Tese de doutorado, Universidade de São Paulo.

[Campo, 2002] Campo, C. Y. (2002). Utilização de histogramas adaptativos para recupe-ração de imagens por conteúdo em um sistema pacs. Qualificação de mestrado, ICMC -USP

81

Page 97: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

[Campo and Traina, 2003] Campo, C. Y. and Traina, A. M. J. (2003). Uma abordagem efici-ente para recuperação de imagens médicas, cd-rom Cd-rom. III Workshop de Informática Médica, Fortaleza - Ceará.

[Cao and Huang, 2000] Cao, X. and Huang, H. (2000). Current status and future advances of digital radiography and pacs. IEEE Engineering in Medicine and Biology Magazine, 9(5):80 -88.

[Caritá, 2002] Caritá, E. C. (2002). Vinculação de imagens para busca e visualização a partir de sistema de informação em radiologia (ris), dissertação, Departamento de Engenharia Elétrica da Escola de Engenharia de São Carlos - Universidade de São Paulo (USP), São Carlos.

[Caritá and Marques, 2000] Caritá, E. C. and Marques, P. M. A. (2000). Vinculação de imagens para busca e visualização a partir do sistema de informação em radiologia (ris). In VII Congresso Brasileiro de Informática em Saúde e do II Simpósio Internacional de Sistemas de Informação Hospitalar, São Paulo - SP.

[Castleman, 1996] Castleman, K. R. (1996). Digital Image Processing. Prentice-Hall Inc.

[Chan and McCarty, 1990] Chan, K. and McCarty, K. (1990). Aspects of the statistical texture analysis of medicai ultrasound images. In Ultrasound Instrurnentation, IEE Col-loquium on, pages 3/1-3/3. Application Theoretical or Mathematical. TY - CONF.

[Chuaet al., 1997] Chua, T. S., Tan, K.-L., and Ooi, B. C. (1997). Fast signature-based color-spatial image retrieval. In Multimedia Computing and Systems '97. Proceedings., IEEE International Conference on, pages 362-369, Dept. of Inf. Syst. & Comput. Sei., Nat. Univ. of Singapore, Singapore. Practical Theoretical or Mathematical Experimental. TY - CONF.

[Chávez et al., 2001] Chávez, E., Navarro, G., Baeza-Yates, R., and Marroquín, J. L. (2001). Searching in metric spaces. to appear in the ACM Computing Surveys.

[Ciaccia and Patella, 1998] Ciaccia, P. and Patella, M. (1998). Bulk loading the m-tree. In ADC Australasian Database Conference, pages 15 26.

[Ciaccia et al., 1997a] Ciaccia, P., Patella, M., Rabitti, F., and Zezula, P. (1997a). Indexing metric spaces with m-tree. In Atti dei Quinto Convegno Nazionale SEBD, pages 67-86, Verona, Italy.

82

Page 98: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

[Ciaccia et al., 1997b] Ciaccia, P., Patella, M., and Zezula, P. (1997b). M-tree: An efficient access method for similarity search in metric spaces. In Jarke, M., editor, Intl. Conf. on Very Large Databases (VLDB), pages 426-435, Athens, Greece.

[Claude et al., 2001] Claude, I., Pouletaut, P., Huault, S., and Boulanger, J. (2001). Inte-grated color and texture tools for colposcopic image segmentation. In Image Processing, 2001. Proceedings. 2001 International Conference on, volume 2, pages 311 314 vol.2. Ap-plication. TY - CONF.

[Faloutsos, 1996] Faloutsos, C. (1996). Searchvng Multimedia Databases by Content. Kluwer Academic Publishers, Boston, MA.

[Faloutsos and Kamel, 1994] Faloutsos, C. and Kamel, I. (1994). Beyond uniformity and independence: Analysis of r-trees using the concept of fractal dimension. In ACM Symp. on Principies of Database Systems (PODS), pages 4-13, Minneapolis, MN. ACM Press.

[Furuie et al., 1999] Furuie, S., Bertozoo, N., Figueiredo, J., and Yamaguti, M. (1999). Ar-chiving and retrieving long-term cineangiographic irnages in a pacs. Computers in Cardi-ology, pages 435 438.

[G. Giinther, 1999] G. Gúnther, R. A. B. (1999). Large-scale pac systems. In Verlag, S., editor, Filmless Radiology, page 21. E.L.Siegel, R.M.Kolodner, New York.

[Gonzalez and Woods, 1993] Gonzalez, R. C. and Woods, R. E. (1993). Digital Image Pro-cessing. Addison-Wesley.

[Gudivada and Raghavan, 1995] Gudivada, V. N. and Raghavan, V. V. (1995). Design and evaluation of algorithins for image retrieval by spatial similarity. ACM Transactions on Information Systems, 13(2): 115-144.

[Guttman, 1984] Guttman, A. (1984). R-tree : A dynamic index structure for spatial sear-ching. In ACM Int'l Conference on Data Management (SIGMOD), pages 47-57, Boston, MA. ACM PRess.

[Haralick et al., 1973] Haralick, R. M., Shanmugan, K. S., and Dunstein, I. (1973). Textural features for image classification. IEEE Trans. SMC, 3(6):610-621.

[Jain and Dubes, 1988] Jain, A. K. and Dubes, R. C. (1988). Algorithms for clustering data. Prentice-Hall Inc., Englewood Cliffs, NJ.

83

Page 99: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

[Keogh, 2002] Keogh, E. J. (2002). Exact indexing of dynamic time warping. In Bernstein, P. A. et al., editors, VLDP 2002: proceedings of the Twenty-Eighth International Con-ference on Very Large Data Bases, Hong Kong SAR, China, 20-23 August 2002, pages 406-417, Los Altos, CA 94022, USA. Morgan Kaufmann Publishers.

[Korn et al., 1996] Korn, F., Sidiropoulos, N., Faloutsos, C., Siegel, E. L., and Protopapas, Z. (1996). Fast nearest neighbor search in medicai image databases. In Intl. Corif. on Very Large Databases (VLDB), pages 215-226, Bombay, índia. Morgan Kaufmann.

[Krishnamachari and Abdel-Mottaleb, 1998] Krislmamachari, S. and Abdel-Mottaleb, M. (1998). A scalable algorithm for image retrieval by color. In Image Processing, 1998. ICIP 98. Proceedings. 1998 International Conference on, pages 119-122 vol.3, Philips Lab., Briarcliff Manor, NY, USA. Practical. TY - CONF.

[Kruskal, 1956] Kruskal, J. B. (1956). On the shortest spanning subtree of a graph and the traveling salesman problem. Proc. American Math Soe., 7:48-50.

[Lima et al., 1998] Lima, L. R. S. d., Laender, A. H. F., and Ribeiro-Neto, B. A. (1998). A hierarchical approach to the automatic categorization of medicai documents. In ACM CIKM, pages 132 139, Bethesda, Maryland.

[Loew, 2000] Loew, M. H. (2000). Feature Extraction, chapter 5. SPIE, Belligham, WA, m.sonka and j. michael fitzpatrick edition.

[Marques and et. al, 2004] Marques, P. M. d. A. and et. al (2004). Projeto ciupe - grupo de estudos em sistemas para auxílio ao diagnóstico por imagem. Internet.

[Marques et al., 2000] Marques, P. M. d. A., Santos, A. C., Júnior, J. E., Goes, W. M., and Castro, C. R. (2000). Implantação de um sistema de informação em radiologia em hospital univeristário. Radiologia Brasileira, 33:155-160.

[Marsh, 1997] Marsh, A. (1997). Euromed - the creation of a telemedical information society. In 10' IEEE Symposium on Computer Based Medicai Systems, pages 86-91, Maribor, Slovenia.

[Moghaddam et al., 2000] Moghaddam, B., Biermann, H., and Margaritis, D. (2000). Image retrieval with local and spatial queries. In Image Processing, 2000. Proceedings. 2000 International Conference on, volume 2, pages 542-545 vol.2, Mitsubishi Electr. Res. Lab., USA. Theoretical or Mathematical. TY - CONF.

84

Page 100: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

[Pass et al., 1996] Pass, G., Zabih, R., and Miller, J. (1996). Comparing images using color coherence vector. In ACM Multimedia, pages 65-73, Boston, MA. ACM Press.

[Petrakis and Faloutsos, 1997] Petrakis, E. G. and Faloutsos, C. (1997). Similarity searching in medicai image databases. IEEE Transactions on Knowledge and Data Engineering, 9(3):435-447.

[Petrakis et al., 2001] Petrakis, E. G., Faloutsos, C., and Lm, K.-I. D. (2001). Imagemap: An image indexing method based on spatial similarity. IEEE Trans. on Knowledge and Data Engineering, to appear.

[Pressman, 2002] Pressinan, R. S. (2002). Engenharia de Software. McGraw-Hill, Rio de Janeiro, 5.ed. edition.

[Rao et al., 1999] Rao, A., Srihari, R., and Zhang, Z. (1999). Spatial color histograms for content-based image retrieval. In Tools with Artificial Intelhgence, 1999. Proceedmgs. llth IEEE International Conference on, pages 183-186. Practical Theoretical or Mathematical Experimental. TY - CONF.

[Rosa, 2002] Rosa, N. A. (2002). Uma abordagem prática e eficiente de consultas por si-milaridade para suporte a diagnóstico por imagens. Master's thesis, Universidade de São Paulo, São Carlos.

[Rubner and Tomasi, 2000] Rubner, Y. and Tomasi, C. (2000). Perceptual Metrics for Image Database Navigation. Kluwer Academic Publishers, Boston.

[Russ, 1995] Russ, J. C. (1995). The Image Processing Handbook. CRC Press, Boca Raton, 2nd edition.

[Siegel, 1999] Siegel, E. L. (1999). Current state of the art and future trends. In Siegel, E. L. and Kolodner, R. M., editors, Filmless Radiology, pages 3-20. Springer Verlag, New York City, NY.

[Siegel and Kolodner, 1999] Siegel, E. L. and Kolodner, R. M. (1999). Filmless Radiology. Springer Verlag, New York City, NY.

[Siegel and Reiner, 1999] Siegel, E. L. and Reiner, B. I. (1999). Challenges associated with the incorporation of digital radiography into a picture archival and communicaton system. Journal of Digital Irnagmg, 12(2):6-8.

85

Page 101: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

[Smeulders et al., 2000] Smculders, A. W. M., Worring, M., Santini, S., Gupta, A., and Jain, R. (2000). Content-based image retrieval at the end of the early years. IEEE Transactions on Patterns Analysis and Machme Intelligence, 22(12).

[Stehling et al., 2000] Stehlmg, R. O., Nascimento, M. A., and Falcaõ, A. X. (2000). On "shapes" of colors for Content-Based image retrieval. In Proceedings of the ACM 2nd Intl. Multimedia Information Retrieval 2000 Workshop, pages 171 174, Los Angeles, CA. ACMPress.

[Stehling et al., 2002] Stehling, R. O., Nascimento, M. A., and Falcão, A. X. (2002). A compact and effieient image retrieval approach based on border/interior pixel classificaiion. In Proceedings of the eleventh international conference on Information and knowledge management, pages 102- 109. ACM Press.

[Stricker and Dimai, 1996] Stricker, M. and Dimai, A. (1996). Color indexing with weak spatial constraints. In Storage and Retrieval for Image and Vídeo Databases IV - SPIE, volume 2670, pages 29-41, San Jose - CA.

[Sung et al., 2000] Sung, M., Kim, M., Sung, M.-W., Kiin, E., and Yoo, J. (2000). Comed: A real-time collaborative medicine system. In 13th IEEE Sym,posium on Computer-Based Medicai Systems (CBMS'00), Houston, Texas. IEEE Computer Society.

[Swain and Ballard, 1991] Swain, M. J. and Ballard, D. H. (1991). Color indexing. IJCV: International Journal of Com,puter Vision, 7:11-32.

[Theodoridis and Koutroumbas, 1999] Theodoridis, S. and Koutroumbas, K. (1999). Pat-tern Recognition. Academic Press, New York.

[Traina, 2001] Traina, A. J. (2001). Suporte à Visualização de Consultas por Similaridade em Imagens Médicas através de Estruturas de Indexação Métrica. Tese de livre-docente cm computação, Instituto de Ciências Matemática e de Computação - Universidade de São Paulo, São Paulo - Brasil.

[Traina et al., 2002a] Traina, A. J. M., Trama, Caetano, J., Bueno, J. M., and Marques, P. M. d. A. (2002a). The metric histogram: A new and effieient approach for content-based image retrieval. In Sixth IFIP Working Conference on Visual Data,base Systems, Brisbane, Australia.

86

Page 102: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

[Traina et al., 2002b] Traina, Caetano, J., Traina, A. J. M., Faloutsos, C., and Seeger, B. (2002b). Fast indexing and visualization of metric datasets using slim-trees. IEEE Tran-sactions on Knowledge and Data Engineering, to appear.

[Traina et al., 2000] Traina, Caetano, J., Traina, A. J. M., Seeger, B., and Faloutsos, C. (2000). Slim-trees: High performance metric trees minimizing overlap between nodes. In Zaniolo, C., Lockemann, P. C., Scholl, M. H., and Grust, T., editors, Intl. Conf. on Extending Database Technology, volume 1777 of Lecture Notes in Computer Science, pages 51-65, Konstanz, Germany. Springer.

[Tuceryan and Jain, 1993] Tuceryan, M. and Jain, A. (1993). Texture Analysis. in Handbook of Pattern Reeognition and Computer Vision (C.H. Chen, L.F. Pau, and P.S.P Wang, eds), pages 235-276. World Scientific Publishing Company.

[Vailaya, 2000] Vailaya, A. (2000). Semantic Classifieation m Image Databases. Phd. dis-sertation, Michigan State University.

[Wilson and Martinez, 1997] Wilson, D. R. and Martinez, T. R. (1997). Improved hetero-geneous distance functions. Journal of Artificial Intelhyence Research, 6:1 34.

[Yamamoto et al., 1999] Yamamoto, H., Iwasa, H., Yokoya, N., and Takemura, H. (1999). Content-based similarity retrieval of images based on spatial color distributions. In Image Analysis and Processing, 1999. Proceedings. International Conference on, pages 951-956, Grad. Sch. of Inf. Sei., Nara Inst. of Sei. & Technol., Japan. Theoretical or Mathematical. TY - CONF.

87

Page 103: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

Apêndice

A Demais Resultados

A seguir são apresentados os resultados para os casos 2, 3 e 4.

A. l Caso 2 A imagem de referência do caso 2 é apresentada na Figura A.l e o resultado de suas consultas nas Figuras A.2, A.3, A.4 e A.5.

Figura A.l: Imagem de referência do Caso 2.

88

Page 104: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

E3 jisecrar.a Imaotrn de Busca R«si*dite EiCWtfiadOi | MSUL TMM» OA PESOUSA P0<1 M-NEAMST NOOHBOIt <M MHj COM H 41

I -

I

i» ut» dupiocfcque «toa a imvafuadateiadapaia vtsuétea» ai»aQ8»riero wu Hmanhooí<»iàl« lejpscih-j le»i»Jo mMco

Figura A.2: Consulta aos 40 vizinhos mais próximos utilizando o histograma normalizado.

Q SrfecKwalmaçemdeBuica R«t<JW"J« ElCCrtMdM | • M

HHHJL1MM» DA HSQUSA POR MUtOC OUtHY (COM FUUKt » ll

l •

| i i • "

úè u* Apodos '.cfcri Ó muaiMa Panaca pa>a W. JI ar-KQem laroarftoiyowala ifrspai-tivj laulj m»J«&»

Figura A.3: Consulta por abrangência (r = 0.3) utilizando o histograma normalizado.

89

Page 105: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

| SefeciOM Imagem de Busca Ife R«sUòOW E cortidoj | MSULTAOOS DA PtSOUSA PO« H MCAKf ST HUGNDO«(N MN| COM M M

I I -

I

« w Avockfje ntm aimúiiM<tot«MOop»« vtwateai tMo»*»» nmèrfio «•ttoso -í la

Figura A.4: Consulta aos 40 vizinhos mais próximos utilizando o Histograma Métrico adap-tado.

A.2 Caso 3 A imagem de referência do Caso 3 é apresentada na Figura A.6 e o resultado de suas consultas nas Figuras A.7, A.8, A.9 e A.10.

A.3 Caso 4 A imagem de referência do Caso 4 é apresentada na Figura A. 11 e o resultado de suas consultas nas Figuras A.12, A.13, A.14 e A.15.

90

Page 106: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

| SdeciMalmaoem de Busca Ifí EieOfftaÒOÍ | Of SOLTADOS DAPfSOWSA PORRANCt OUCRV (COM RANCE - «J>

177BO|Exam 95-l/6| 17731 |Ex«r.95-1/46| 1/786lixam 95-1/9) 17737 |Ex«u35-1/49| 1 7782 !E,«n S5 1/7] 1/7B3|Exam35-1/471 11535 |Lkmt< 151 /t8| 115M lExam 15-I/2B) Dm 0000000 Dirt 0 00X03 Dbi Q056937 Dm 0 06E937 Dal: 0081580 Dm D 081580 DistO 1D6441 Disl 0106225

I -115B2(E*am 151/271 11593 |Ek.wt 151/671 1 !580(Exam 151/26) 11581 |Ek«wI5-1/66| l35«7|Ewin 40 V49) 13546{Exam 40-1/91 17778 |Eicarr. 951/5) 17779 (Exam 351/45) Ditt 0114030 Disi- 0 1140)3 Oiii- 01J0819 Dm 0128013 Dal: 0129091 Dm 0120091 Oi* 0134167 Di>i01341C7

17784 (Emiti 95-1/81 17785 lE*»r 95 V48I 11592ÍEx*n 151/32) 11593 Kwnv 15-1772I 17788;E-w S5-/10) 17789 £*am 951/50) 11573 |E-*jm 151/651 11578(E*am15l/25) 0139346 Dirt013S646 D«i 0142387 0142387 Dm 0143062 Dm 0143052 Disí: 0 145623 0«« 0 145623

•15S6|£««. 15-1/731 11594 16-1/33) 11581 Ê*im 15-1/71) 11590 lE*»15-1/311 11576|E.<ot 15-1/241 11577 |E**nl5-1«4| 11583 lEy*m 15-V3» 115WEMm1W/?0i D* 0.1459S6 D-d. 0145933 Dm. 0150307 D* 0.15097 Du». 0154195 Dm 6.154195 Did. 0171295 Dm. 01712»

I I -17777lExam95-1/441 1777E |Ek«t-.%1/4| 13599 lixam 40-1/751 1 J59B |Ek«ti40-1/J5| 13545íE«m 40-1/481 13544 |Ex.m 43-1/31 17775 lEum 95-1/431 17774 lixam 95-1/3) Do! 0.174706 Dist 0 174703 Dct.0176679 Di* 3 176673 Dsl: 0181206 Dm 0.181206 Dist 0 1E2660 Dist Q182EEO

Cr1 " gé ur. c»4D<õ cfaqtia Kifa a òsteid pa ã wnu imoarjlootona)«ie4pac<r.M l<«.Kto wiéihc-3

Figura A.5: Consulta por abrangência (r = 0.3) utilizando o Histograma Métrico adaptado.

Figura A.6: Imagem de referência do Caso 3.

91

Page 107: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

E3 -idecranolmepem de Busca fèl E*cw<J»dot | KSULTAOOS OA PESQUISA POR K NEAHfST NUGHBO* (K-HIIJ COM M • *

I • I I s • 41 JO|t«am 48-1/211 14" J2 |E>«r 48-1/221 141 JJIExam 4B-1/20I t/368|Ew«97-l/2D| 1 «TO Jt.«m'.••••/21| 1«fcfe|EMB> 37-1/13| 1 r*A |t«rn SM/l» 141.4 lfc*em 48-l/lfc Do» 0000000 Dist01Ê3682 Du< 0231507 Dnt 0248739 Ool 025CD14 D* 0.325100 Dist 0325205 Dst. O 333027

1 1 1 '4120 (E*am49-1/1EI 14'2S IEk.it 48 1/19| 17S€0(E*am971/IE) 18602 |E«rv! 05-1/171 I79261.am S6V39) 18618 |Fx»rr 105 1/25J 17962 97-1/171 14142(EM«m 48-1/27) Dw 0 337223 Di* 0 351664 Duf 0 364220 D,st 0 274073 Dr.l 0 3B6567 D« 0389166 D 0 3SC074 Dur 0 395107

• • • i*134 (E*am48-1/231 14122 |E«arr 481/17| 18614 (E*4m10f-1/23) 14116 lExy.481/151 16604$»»» 1(51/1») 14144 (E*am481/281 17813 |E»*r.$61/351 18612 (E-um 1051/22) Df 03831(7 Diil: 0 4C4748 Oiti 040««í" D* 0407500 Diii-0«1ti88 D* 8412430 Ditt 0413387 Der 0415218

• I I I 1860$ lExsm 105-1 /19! 17824 lEwr.98-1/361 l86l6lExam105-1/24) 18620 |E*rx105-1/26| 2597 |E»m 1155053/133) i7922lEi.arr.3D-1/37l 17320 |Ewm»1/36l 14750 lExdm 56-1/11 D&! 0.42*546 Drtí. 0425455 DB). 042673T D«t 0428999 OBI O 434739 D tf 0.437371 Disl 0 445785 0* 0450671

' 3600 lExam 105-1/16! 18603 |Ek»h 105-1/201 1861 OlExam 105-1/21) 14140|Exam48-1/26| 17928|E«am 96-1/401 ir514|E*am31-l/33| 17316 |EwmS&-l/34| 19622 IEmk. 105-1/27) Dist 0.457742 DistO 460294 Disi Q463111 D.st 0 464690 ObI: 0 467035 Drsf 0470952 Dist 0 470929 Disl O 479083

Mu» óxtoúu» teto a'nwM(wddsieiâOapa>» vnwetear awaoswem t»u tamanhovóntlt retpacjrvo Witomfrteo

Figura A. 7: Consulta aos 40 vizinhos mais próximos utilizando o histograma normalizado.

E3 jdeciara Imaotfn de Busca U5 Reu*a«« EnCOrtradO* | ar (COM RMGC = «Li»

• I '«130|Exsmí3-L.'21| 14132 |E>c«r:48-1/22| 14128 ILXOT 48-1/20) 17358 |EMRT9M/30| 17970 :E.AN 97-'/21| Dia D0CD3C0 Dist O 1E3682 Dnt. 0231507 Dnt 0 24873S Dnt: 0250014

Oi u» òmtodiquB tcfaM » mn*ma deitada paia vwuateai è iwoewi «w ww Umarto oional«i wpadivo laudo médico

Figura A. 13: Consulta por abrangência (r = 0.3) utilizando o histograma normalizado.

92

Page 108: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution
Page 109: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

d-P O-O Crq í= >-í

P

ço Q o d co £ C+ P

O

p cr o w

P

H CK

O cc (=: rr N

B P -o

co O

P 3 p

CT>% c+ Õ" O p a p

& I

Page 110: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution
Page 111: Ampliando o pode dr e recuperaçã doe imagens por conteúd ... · PDF fileas different device ans d setting cas n be used to generat theme producin, differeng brightnest s distribution

• SdecnMlfn09en.de Busca (fi £<»CCWj«lat j RESULTADOS IXA PESOWSA P0« K-NEMEST HEIGHBOft (KMj COM N • «6 • • • ia86fc|Exa«T.I0M/3SI IUUJ4 |L*r W-I/JSI IBHBXmiii 1DM/40I 18732 |Elwmia7-1/32| ItttW |t«m 107-1/361 ia/St|t»am 10/1/341 Dut- 0125614 OatO 128060 DbI: 0137S3"5 C « C15855'. Disl 0162572 Oisl 0162860

• li • • • I •KWuamlOWl! l71M|t«*r»IC-| 53790|T»»n 117 1731) ISOV ir .r '07 l/37| 17329 S9 V."0) "53." |F>«»9) I/2Z1 I8B1J |E«rr l73»íE»m »1/ISI O» O 1676* D«tOI!M37 D» 016312* D«tGI6S62« 3»OI7l."re Dm 1173312 K»01J9I9S Dul DiaKB

l • l l l l l OT4í«.WI/)i mSfw.TM» 17331 SM. JW2:-] I7W««»®1/WI UÍBE-mlír/Sl nMjMMB « M P O» 01902» [»0205»5 DÓI 0205615 D*«!071« Oil 024C462 D» 824255S IW 0243314 0»I 0249709

• I I • insoe«n»i/3ii iraut». »1<27| iwioi&«.*iflti in«í»..»iaii ..wc-arMOi io4íoie,„i«i ii!wiE«miM/3ii i2<eiE«.2w/37i 0*0263357 0nt 0 267737 0W.O275C33 0* 0 277212 0610 230130 D* 129316? D.*0310103 Dw 03147»

lM»IE,.m5M/5| 103180- 133108-3*2111 1C1-3J í.om 71/1K ITJi: IL .K 1/321 14K3S »1/4I l24B0|E,™2Sl/36i 11746 "'tííXillJ.'1" OK! 0.318121 D..1 0 32SC33 DB1.0330S3Í 0al 0 331172 Dii 0 334092 0« [.340343 OníOSÍlOOS Da 0341574

Figura A. 12: Consulta aos 40 vizinhos mais próximos utilizando o histograma normalizado.

| ecnralmaçrmBmca Encortlâdo» | WÊÊtm • 1*1 X»

WLSM.IMK» DA PK4UI&A PO« HANÚC QUtRY (COM RMKt = •.»>

• • I I I I . 1 1 • 13786 |E*am 107-1 /29| 16788 |E«n 1071/301 18806 Hum 107-1/39) 1MM|tmmWim 1B80eí,«n 107-1/40) 18792|E«m 1 1/32! 16600 |E «ml 07-1/361 137» lEumtWV'341 nmrmm D„>aDSn] Dm Q125E14 Di» OIZSKO Dol:0 1 37575 Do! C.158S5S D..101I2572 Dut 0162BE0 Dul 0 083083 Dm 0125614 Dnt 0.128050 Dnl: 0 1 37575

• I I I 3796 |E xam 107-1 /35) 17330 |E«m»1/21J 19790107-1*1) 18802 |E«mj0M/37| 17M«»V2Q 173* (EM-1/221 18B1Q |E««, 1»1/'l 173»(E«»I/1S) Dm 0167638 DW 0 168837 0*0169)26 Dar 0 163528 Otor 0171275 Dot B173312 Diir 0 179*56 DnroisswB • • • • I I ^íft;™ "'SM» '"SíE® '"Si»1 "SffiS" "Kí!®!" ""ÍRsar

•73ÇOlE«èmdS-i ''311 173l2|E««r 89-v2?l l?VlÚl£.-m98.t/SIJ 17*44 Ék«»1/20| 11754É-4» 17-1733) 104»íj«*m1-1>«l DÍSSMÍ D* D* G27W33 D.« 0277212 D«..029C130 D* 029316?

Figura A. 13: Consulta por abrangência (r = 0.3) utilizando o histograma normalizado.

95