24
Data mining Sistemas de saúde Faculdade de Engenharia da Universidade do Porto Data mining Data mining – Sistemas de saúde Projeto FEUP: Coordenadores gerais: Coordenador de Curso: Manuel Firmino Luís Guimarães Sara Ferreira Equipa 05_02: Supervisor: Luís Guimarães Monitor: Jorge Ferreira Estudantes & Autores: Cláudia Ferreira [email protected] Rui Morais [email protected] Moisés Coelho [email protected] Tomás Rocha [email protected] Patrícia Mendes [email protected]

Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

Embed Size (px)

Citation preview

Page 1: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

Data mining – Sistemas de saúde

Faculdade de Engenharia da Universidade do Porto

Data mining

Data mining – Sistemas de saúde

Projeto FEUP:

Coordenadores gerais: Coordenador de Curso:

Manuel Firmino Luís Guimarães

Sara Ferreira

Equipa 05_02:

Supervisor: Luís Guimarães Monitor: Jorge Ferreira

Estudantes & Autores:

Cláudia Ferreira [email protected] Rui Morais [email protected]

Moisés Coelho [email protected] Tomás Rocha [email protected]

Patrícia Mendes [email protected]

Page 2: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento
Page 3: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP I

Data mining – Sistemas de saúde

Resumo

O presente relatório foi redigido no âmbito da unidade curricular Projeto FEUP e visa definir o

conceito de Data mining (mineração de dados, em português), assim como evidenciar a sua

aplicabilidade à área da saúde, referindo exemplos concretos da mesma.

Ao longo deste trabalho, será apresentada uma definição técnica mais aprofundada deste

conceito, seguida da enumeração e explicação dos diversos processos que permitem a sua concretização.

Além disso, serão referidas situações reais, baseadas em estudos certificados, que comprovam o

potencial destes métodos no setor médico. Tal como todas as tecnologias, o Data mining apresenta

limitações, as quais serão exploradas na parte final deste relatório.

Data mining consiste na exploração e análise informática de grandes quantidades de dados com

o objetivo de encontrar padrões de fundo, os quais permitem aglutinar a informação através de

associações ou sequências temporais. Esta técnica utiliza tecnologias computacionais avançadas para

descobrir regras e tendências em extensos conjuntos de informação, auxiliando os seus utilizadores na

tomada de decisões estratégicas.

Palavras-Chave

Data mining, paisagem informacional, modelação prescritiva, clustering, regras de associação,

modelação descritiva, árvores de decisão, redes neuronais, Sistemas CAD, WEKA, Sistema de

linguagem médica unificada

Page 4: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP II

Data mining – Sistemas de saúde

Agradecimentos

O grupo agradece a todos os docentes envolvidos nesta unidade curricular, pela sua constante

disponibilidade e pelo seu apoio na preparação e realização deste relatório. Como tal, o grupo deixa o

seu sincero agradecimento ao coordenador de curso e supervisor, Luís Guimarães, e ao monitor, Jorge

Ferreira, por todo o auxílio prestado.

Page 5: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP III

Data mining – Sistemas de saúde

Índice

Resumo ........................................................................................................................... I

Palavras-Chave ............................................................................................................... I

Agradecimentos .............................................................................................................. II

Lista de figuras .............................................................................................................. IV

1. Introdução ................................................................................................................... 1

2. Conceito de Data mining ............................................................................................. 2

3. Métodos de Data Mining ............................................................................................. 3

3.1 Modelação Descritiva ............................................................................................ 3

3.1.1 Clustering ....................................................................................................... 3

3.1.2 Regras de associação .................................................................................... 4

3.2 Modelação Preditiva .............................................................................................. 4

3.2.1. Árvores de decisão ........................................................................................ 4

3.2.2. Redes Neuronais ........................................................................................... 5

4. Tarefas do Data mining ............................................................................................... 7

5. Data mining na saúde ................................................................................................. 8

5.1 Sistema de Linguagem Médica Unificada .............................................................. 8

6. Aplicação das técnicas de Data mining na saúde ....................................................... 9

6.1. Casos de hipertensão........................................................................................... 9

6.2. Casos Fraudulentos e de Abuso Hospitalar ........................................................ 10

7. Softwares de Data mining ......................................................................................... 12

7.1. WEKA ................................................................................................................ 12

7.2. Sistemas CAD .................................................................................................... 12

8. Limitações ................................................................................................................ 14

9. Conclusões ............................................................................................................... 15

Referências bibliográficas ............................................................................................. 16

Page 6: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP IV

Data mining – Sistemas de saúde

Lista de figuras

Figura 1 - Combinação de informação (data), descoberta (discovery) e implantação

(deployment) ......................................................................................................................... 2

Figura 2 - Visualização gráfica da técnica de clustering .................................................. 3

Figura 3 - Exemplos de regras de associação ................................................................ 4

Figura 4 - Exemplo de árvore de decisão ....................................................................... 5

Figura 5 - Exemplo de rede neuronal .............................................................................. 6

Figura 6 - Etapas associadas ao Data mining ................................................................. 7

Figura 7 - Aplicação do Data mining ............................................................................... 9

Figura 8 - Resultados obtidos ....................................................................................... 11

Figura 9 - Aplicação do Data mining à imagiologia médica ........................................... 13

Page 7: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 1

Data mining – Sistemas de saúde

1. Introdução

Este relatório foi elaborado enquanto elemento integrante da unidade curricular Projeto FEUP

e o seu propósito é abordar, do ponto de vista técnico, o conceito de Data mining e a possibilidade de

este ser aplicado aos sistemas de saúde.

A predominância da tecnologia no nosso quotidiano implica um enorme volume de informação

em constante circulação. Nos últimos anos, a diminuição dos custos de hardware promoveu este

fenómeno, tornando possível o armazenamento de quantidades de dados exponencialmente maiores. No

entanto, o crescimento da paisagem informacional não se traduz numa melhor capacidade, da nossa

parte, de fazer escolhas com base nela.

Apesar de nos depararmos constantemente com uma infinidade de bits de informação

provenientes de diversas fontes, este excesso de dados torna-se um fator paralisante na tomada de

decisão. É por esta razão que as técnicas de exploração de dados se têm revelado particularmente úteis

recentemente. Entre elas, destacamos o Data mining como uma das inovações tecnológicas da

atualidade, pelo facto de a recolha massiva de dados ser extremamente dispendiosa e, simultaneamente,

nem sempre fornecer informação útil.

Page 8: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 2

Data mining – Sistemas de saúde

2. Conceito de Data mining

Em primeiro lugar, é necessário ter em conta que o volume de dados cresce exponencialmente

ao longo do tempo e, estimando que os dados produzidos em 2020 serão 44 vezes maior que em 2009,

é imprescindível a criação de técnicas para a análise de grandes quantidades de informação (CSC, 2012).

Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados,

reconhecimento de padrões, machine learning, entre outras áreas. A fim de encontrar relações

desconhecidas que possam trazer valor para uma dada empresa, esta técnica foca-se na análise de

grandes bases de dados (Hand, 1998).

Figura 1 - Combinação de informação (data), descoberta (discovery) e implantação (deployment)

Page 9: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 3

Data mining – Sistemas de saúde

3. Métodos de Data Mining

O Data mining inclui dois tipos de modelação muito utilizados: a Modelação Descritiva e a

Modelação Preditiva.

Para Fayyad, Shapiro & Smyth (1996), fomentando o aumento do conhecimento do analista, a

Modelação Descritiva resume e simplifica grandes quantidades de dados. Por outro lado, a Modelação

Preditiva, baseando-se em modelos e prevê algum valor quantitativo ou qualitativo de interesse. Esta

modelação utiliza a estatística e modelos matemáticos para prever futuros resultados, comportamentos

e tendências.

3.1 Modelação Descritiva

3.1.1 Clustering

Jain (2009) afirma que a análise de clusters se baseia em métodos que agrupam uma população

heterogénea de acordo com as suas caraterísticas e similaridade em grupos análogos. Para além disso,

Gupta & Mishra (2011) consideram que os dados em cada cluster têm que ser idênticos entre si e

diferentes entre os restantes clusters. Quanto maior a similaridade dos dados no cluster e maior a

diferença entre clusters, mais fácil será a sua análise.

Figura 2 - Visualização gráfica da técnica de clustering

Page 10: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 4

Data mining – Sistemas de saúde

Em Data mining, existem dois tipos de classificação: supervisionada e não-supervisionada. O

clustering é classificado como não-supervisionada, pois não depende de classes pré-definidas, ou seja,

os registos são agrupados apenas com base nas suas semelhanças. Numa classificação supervisionada é

fornecido um conjunto de dados pré-classificados, onde os padrões de treino já são conhecidos (Jain,

Murty & Flynn, 1999).

Ainda mais, Jain (2009) declara que um cluster é uma entidade subjetiva, pois a sua

interpretação e o seu significado dependem do conhecimento do utilizador sobre o assunto. No entanto,

enquanto o Homem consegue facilmente interpretar clusters até três dimensões, dificilmente o

conseguirá para dimensões maiores, pelo que é importante criar um algoritmo que interprete dados a

grandes dimensões.

3.1.2 Regras de associação

Para Srikant & Agrawal (1997), as regras de associação são técnicas não supervisionadas que

têm como objetivo a descoberta de padrões e relações, desconhecidos ou pouco óbvios, entre os dados.

Como resultado, esta técnica gera um conjunto de regras que definam os padrões e relações encontrados.

A aplicação desta técnica é muito comum no retalho, onde os dados são definidos como transações.

Figura 3 - Exemplos de regras de associação

3.2 Modelação Preditiva

3.2.1. Árvores de decisão

Segundo Rokach & Maimon (2005), as árvores de decisão são os algoritmos mais utilizados,

constituindo-se por nós (interrogações que se colocam sobre o conjunto de dados), arcos (separam o

conjunto de dados de acordo com o critério em causa) e folhas (nós finais). As árvores de decisão

“crescem” com a raiz no topo e as folhas por baixo, pelo que a sua relação é unidirecional.

Page 11: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 5

Data mining – Sistemas de saúde

Figura 4 - Exemplo de árvore de decisão

Esta técnica apresenta como vantagem uma fácil interpretação e leitura dos resultados,

permitindo que os utilizadores sem conhecimento da técnica consigam perceber os atributos com maior

impacto nos resultados.

Em certas situações, quando se abordam diversos aspetos, a árvore de decisão pode ficar

demasiado complexa e de difícil interpretação. Nestes casos, utilizam-se métodos estatísticos de forma

a apurar os ramos que podem ser retirados da análise. (Yoo et al., 2012)

3.2.2. Redes Neuronais

Pela perspetiva de Hariz et al. (2012), as redes neuronais artificiais foram inspiradas nas redes

neuronais do cérebro humano. Um neurónio é constituído por um núcleo e dois tipos de ramificações,

o axónio e as dendrites. Os axónios transmitem sinais para os outros neurónios, enquanto que as

dendrites recebem sinais dos neurónios anteriores. Uma rede neuronal artificial atua com base neste

princípio.

Assim sendo, as redes neuronais artificiais são técnicas computacionais que permitem a criação

de um modelo matemático através de uma aprendizagem assente num conjunto de dados previamente

classificados (dados de treino). À semelhança das redes neuronais humanas, as artificiais são compostas

por vários nós que se ligam por canais de comunicação, aos quais são atribuídos um determinado peso.

No processo de treino, estes pesos vão sendo ajustados de forma a amplificar ou atenuar o impacto que

essa ligação terá no modelo matemático (Yoo et al., 2012). Posteriormente, torna-se possível a

Page 12: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 6

Data mining – Sistemas de saúde

classificação automática de dados utilizando o modelo matemático gerado.

Figura 5 - Exemplo de rede neuronal

Para Yoo et al. (2012), as redes neuronais têm vantagens tais como a capacidade de classificação

rápida após aprendizagem, assim como a sua flexibilidade na resolução de diversos problemas, sendo,

portanto, um dos algoritmos mais utilizados para as áreas da saúde, suportando estudos sobre o cancro

ou previsões de diagnósticos.

No entanto, a relação intrínseca entre a qualidade dos dados de treino e a qualidade dos

resultados apresenta-se como uma desvantagem, na medida em que dados de treino pouco fiáveis

produzem resultados igualmente pouco fiáveis. Além disso, este método é muito suscetível a overfitting

aos dados de treino. Por fim, dada a sua complexidade, o seu processo de aprendizagem é lento e

dispendioso e existe a possibilidade acrescida de má interpretação dos resultados (Yoo et al., 2012).

Page 13: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 7

Data mining – Sistemas de saúde

4. Tarefas do Data mining

Os softwares de Data mining são capazes de desempenhar uma variedade de tarefas, as quais

produzem informação de diversos tipos.

● Descrição: consiste em descrever a informação revelada pelo conjunto dos dados, isto é, os

padrões e as tendências que estes encerram, sendo o resultado desta tarefa uma possível

interpretação dos mesmos.

● Classificação: tem como objetivo enquadrar um dado numa classe. Para tal, é necessária a

introdução direta das regras de classificação, para que o software se possa basear nelas ao longo

do processo.

● Estimação/Regressão: esta tarefa é uma adaptação da classificação a situações em que as

variáveis não são categóricas, mas sim numéricas, e permite estimar o seu valor comparando-

os com os restantes.

● Previsão: o princípio subjacente a esta tarefa é a criação de modelos de previsão baseados na

informação obtida através da classificação e da regressão, para que estes possam ser aplicados

em situações futuras.

● Sequenciação: consiste em relacionar dois eventos distintos com base na sua sequência

temporal.

Estas ferramentas permitem realizar análises generalizadas de padrões e tendências. É também

possível explorar exaustivamente os dados em busca de relações mais particulares.

Figura 6 - Etapas associadas ao Data mining

Page 14: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 8

Data mining – Sistemas de saúde

5. Data mining na saúde

Do ponto de vista de Hariz et al. (2012), tal como nas outras áreas, o armazenamento de

informação na saúde é cada vez maior. As bases de dados médicas contêm registos dos pacientes e

diagnósticos médicos que podem ser úteis na tomada de decisão. No entanto, Cios & Moore (2002)

ressalvam que existem alguns constrangimentos a nível ético e legal, impedindo a utilização dos dados

na sua totalidade. A segurança dos dados dos pacientes é sempre tida em conta, de modo a garantir a

privacidade em questões mais sensíveis.

A interpretação das imagens, sinais ou outros dados clínicos pode ser semelhante entre médicos,

mas a sua forma de relatar pode ser bem diferente. A falta de uniformização da escrita dificulta as

análises, pois estes usam nomes diferentes (sinónimos) para descrever a mesma doença (Cios & Moore,

2002).

5.1 Sistema de Linguagem Médica Unificada

Dado o uso frequente de Data mining e sistemas informáticos na área da saúde, foi criado o

Unified Medical Language System (UMLS), projetado em 1986 por Donald A. B. Lindberg, M. D.,

Diretor da Biblioteca Nacional de Medicina.

O UMLS trata-se da combinação de vocabulários controlados do âmbito das ciências

biomédicas, organizando-os e armazenando-os em bases de dados. Fornece, portanto, uma estrutura de

mapeamento entre vocabulários, permitindo uma homogeneização na comunicação entre sistemas de

terminologia.

Devido ao grande volume de documentos de literatura médica, as pesquisas neste ramo

poderiam tornar-se mais difíceis. No entanto, o UMLS, melhorando o acesso a essa informação,

universaliza a variedade de diferentes abordagens para os mesmos conceitos que, posteriormente, são

distribuídos por outros sistemas e/ou bases de dados.

Atualmente, este sistema é mantido pela Biblioteca Nacional de Medicina dos Estados Unidos.

É de salientar que este sistema poderá potenciar o uso de Data mining, permitindo verificar a existência

de padrões comuns em bases de dados que, anteriormente, utilizavam terminologias distintas.

Page 15: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 9

Data mining – Sistemas de saúde

6. Aplicação das técnicas de Data mining na saúde

O uso do Data mining tem como vantagens uma melhor gestão dos dados hospitalares dos

utentes e a sua separação através de determinadas particularidades. Os modelos caracterizam-se, ainda,

por serem precisos, de compreensão fácil e de construção e atualização imediatas. Isto prova ser uma

mais valia na área da saúde, reduzindo drasticamente os custos e melhorando a capacidade de resposta

aos casos hospitalares.

Figura 7 - Aplicação do Data mining

6.1. Casos de hipertensão

A. Contexto

Na Coreia do Sul, foram aplicadas técnicas de Data mining com o intuito de obter informações

que ajudassem na monitorização do programa de controlo da hipertensão.

B. Metodologia

A partir de uma base de dados, foram selecionados, de forma aleatória, registos de cerca de

127.000 pacientes. Posteriormente, incluíram-se registos dos pacientes que tinham hipertensão (9.103),

tendo-se repetido o processo para os pacientes sem hipertensão, para um total de 18206 registos. As

informações abrangiam dados biomédicos (como a altura, o peso, o colesterol, a taxa de glicose, entre

outros) e outros (como a idade e a percentagem de fumadores e ex-fumadores).

C. Técnicas utilizadas

Em primeiro lugar, foi usada a técnica de regressão que visava encontrar os fatores de risco

Page 16: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 10

Data mining – Sistemas de saúde

para esta doença, através dos hábitos e caraterísticas dos pacientes, constituindo estas as variáveis

independentes, enquanto a existência ou não de hipertensão assumia o papel de variável dependente.

A técnica de previsão foi aplicada através de uma árvore de decisão que avalia as variáveis

definidas na técnica de regressão como fatores de risco e calcula a tendência de um certo paciente para

a hipertensão.

Finalmente, a técnica de associação foi utilizada de modo a encontrar relações entre as variáveis

de risco, como fumar ou beber, e o resultado positivo de hipertensão.

D. Resultados

Com a técnica de regressão, verificou-se que as variáveis biomédicas são definitivamente bons

indicadores para a hipertensão, destacando-se a taxa de glicose, o colesterol, o índice de massa corporal

e a concentração de proteína urinária. Por outro lado, a técnica de previsão permitiu definir a

probabilidade que um certo indivíduo tem de adquirir esta doença. Finalmente, a técnica de associação

possibilitou um elevado número de associações entre os vários fatores de risco.

E. Conclusões

Através da aplicação das técnicas de Data mining neste caso em particular, concluiu-se que

estas metodologias são bastantes úteis e eficazes na descoberta de padrões associados à doença da

hipertensão, apesar das limitações subjacentes ao conjunto de dados utilizados.

6.2. Casos Fraudulentos e de Abuso Hospitalar

A. Contexto

Em 2006 investigadores da Universidade de Ciências de Changhua (Taiwan) propuseram um

processo de Data mining, que se baseia na técnica de Árvores de Decisão. Este novo processo tem como

objetivo detetar casos abusivos ou fraudulentos nos sistemas de saúde.

Assim, analisando os dados de casos é possível construir modelos onde automaticamente são

separados comportamentos fraudulentos das atividades normais.

B. Metodologia

Para avaliação do modelo foram utilizados os dados do BNHI (Bureau of National Health

Insurance). Foram selecionados dados de um hospital regional referentes ao Departamento de

Ginecologia. Selecionaram-se dados de 2543 pacientes, recolhidos entre julho de 2001 e junho de 2002.

De seguida eram preparados dois conjuntos de dados: um contendo os casos de fraude e outro os

normais.

O método para a criação de base de dados consistiu numa primeira fase na eliminação dos

Page 17: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 11

Data mining – Sistemas de saúde

registos com dados incoerentes. Nesse processo eliminaram-se 77 casos. Em seguida, ocorreu a

identificação, por parte de dois ginecologistas, dos casos fraudulentos. A análise total resultou na

descoberta de 906 casos fraudulentos. Por último, os mesmos profissionais de saúde selecionaram um

igual número de casos normais para assim formar uma base de dados equilibrada, contendo 1812

registos.

C. Resultados

A avaliação dos resultados baseou-se em dois parâmetros: “sensitivity”, que corresponde à

percentagem de casos fraudulentos detetados pelo software, e “specificity”, que corresponde à

percentagem de casos normais detetados. Os melhores resultados obtidos para “sensitivity” foram de

64%, enquanto que para o parâmetro “specificity” o melhor valor foi de 67%.

Figura 8 - Resultados obtidos

D. Conclusão

Apesar de ser uma aplicação diferente do Data mining, é possível concluir que o software

desenvolvido ajudou na identificação das características associadas a casos fraudulentos.

Page 18: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 12

Data mining – Sistemas de saúde

7. Softwares de Data mining

7.1. WEKA

Atualmente, o software Waikato Environment for Knowledge Analysis (WEKA) é reconhecido

como um sistema de referência em Data mining, devido à sua capacidade de adaptação a diferentes

linguagens informáticas.

Procedendo à análise estatística dos dados fornecidos, o WEKA é capaz de gerir indutivamente

hipóteses para soluções e eventuais teorias sobre os dados em questão. Além disso, conforme a sua base

de dados aumenta, o software consegue, através de processos de machine learning, ajustar e melhorar

os seus algoritmos.

7.2. Sistemas CAD

O software CAD usa vários sistemas computacionais para ajudar o utilizador a criar, modificar,

analisar e otimizar designs.

No Instituto de Ciências Matemáticas e da Computação (ICMC) da Universidade de São Paulo,

investigadores desenvolveram um novo sistema de Data mining para imagens médicas. Recorrendo à

algoritmia, as imagens do corpo humano que tenham as características solicitadas pelos médicos são

selecionadas. Segundo Alceu Ferraz Costa, doutorando em Ciências de Computação pelo Instituto de

Ciências Matemáticas e de Computação da Universidade de São Paulo, “O computador não realiza o

diagnóstico, mas elabora um pré-diagnóstico, ao qual designamos diagnóstico auxiliado por

computador ou sistemas CAD (Computer Aided Diagnosis)”.

Os sistemas CAD são fundamentados por mineração de imagens, a partir das quais se realiza a

extração de características relevantes que salientam os aspetos a ter em conta pelo especialista aquando

do diagnóstico.

A pesquisa contou com a parceria do Hospital das Clínicas da Faculdade de Medicina de

Ribeirão Preto da Universidade de São Paulo e procurou avaliar a imagem do pulmão dos pacientes.

No entanto, poderia ser aplicada a outras áreas médicas, como ultrassonografias e radiografias de outros

órgãos. “Com imagens de pulmões, podíamos analisar qualquer parte danificada deste órgão. Deste

modo, tornar-se-ia possível detetar a doença.”.

Page 19: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 13

Data mining – Sistemas de saúde

Figura 9 - Aplicação do Data mining à imagiologia médica

Page 20: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 14

Data mining – Sistemas de saúde

8. Limitações

O Data mining apresenta, sem dúvida, um grande potencial no que diz respeito ao tratamento

de dados. No entanto, de forma análoga a todas as tecnologias, apresenta algumas limitações e fatores

que devem ser tido em conta, visto condicionarem a fiabilidade dos seus resultados.

● É necessário que as relações entre os atributos de um certo conjunto de informação sejam

claras e bem definidas. Se tal não se verificar, a interpretação dos resultados não oferece

garantias.

● A utilização de um grande número de variáveis exige um poder computacional elevado.

Deste modo, a complexidade das tarefas realizadas está intimamente dependente do suporte

informático, o qual está limitado em termos tecnológicos e orçamentais.

● O Data mining é capaz de encontrar padrões na informação, mas não é capaz de os explicar.

Além disso, não é possível detetar relações pontuais entre atributos.

● O nível de informação sobre os utilizadores exigido pelos softwares de data mining pode

ser questionável do ponto de vista legal, visto que poderá por em causa a privacidade dos

cidadãos e a ciber-segurança.

Por outro lado, há certos desafios tecnológicos cuja superação é necessária para a evolução do

Data mining.

● A capacidade de processamento de dados-base tem de atingir a ordem dos Terabytes e, em

simultâneo, possibilitar a alta dimensionalidade, isto é, o relacionamento entre um grande

número de atributos.

● Os softwares de correção de erro têm de ser capazes de abordar a limitação dos conjuntos

de dados que, por vezes, não abrangem todos os padrões reais. Neste contexto, o pré-

processamento poderá diminuir as margens de erro.

● Os softwares de integração devem tornar-se capazes de colmatar a crescente dependência

entre os sistemas.

Page 21: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 15

Data mining – Sistemas de saúde

9. Conclusões

A elaboração deste relatório permitiu abordar, com uma profundidade substancial, o conceito

de Data mining, para além de avaliar a sua aplicabilidade na área da saúde.

Por um lado, a introdução teórica, que se faz acompanhar de uma descrição dos métodos e

tarefas deste software, permite ao leitor adquirir uma melhor conceção do termo Data mining. Por outro,

a apresentação de alguns exemplos práticos da aplicação do mesmo no setor médico permitiu concluir

sobre o seu potencial.

No entanto, uma pesquisa mais aprofundada revela também, na perspetiva de diversos autores,

a referência a algumas das limitações do Data mining. A inclusão das mesmas neste relatório confere-

lhe um caráter global e imparcial.

Concluindo, o Data mining integra uma tecnologia inovadora com muito potencial na área

médica. Não obstante, as suas desvantagens devem ser encaradas de forma a aperfeiçoar as suas técnicas

e softwares.

Page 22: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 16

Data mining – Sistemas de saúde

Referências bibliográficas

Hand, D. J., 1998. Data Mining: Statistics and More? The American Statistician. Taylor & Francis, Ltd.

pela American Statistical Association.

Fayyad, U., Shapiro, G. P., & Smyth, P., 1996. From Data Mining to Knowledge Discovery in

Databases, American Association for Artificial Intelligence. Volume 39. Revista Communications of

the Association of Computing Machinery.

Jain, A., K., 2009. Pattern Recognition Letters. Volume 31. Elsevier.

Gupta, E., A. & Mishra, E., A., 2011. Research Paper on Cluster Techniques of Data Variations.

International Journal of Advance Technology & Engineering Research. Volume 8. Eletronic

Government, na International Journal.

Jain, A., K., Murty, M., N., & Flynn, P., J., 1999. Data Clustering: A Review. Volume 31, ACM

Computing Surveys.

Srikant, R., & Agrawal, R., 1997. Mining generalized association rules. Future Generation Computer

Systems. Volume 13. Elsevier.

Hariz, M., Adnan, M., Husain, W., Aini, N., & Rashid, A., 2012. Data Mining for Medical Systems: A

Review. Proc. Of the International Conference on Advances in Computer and Information Technology.

Institute of Research Engineers and Doctors.

Yoo, I., Alafaireet, P., Marinov, M., Pena-Hernandez, K., Gopidi, R., Chang, J., & Hua, L., 2012. Data

Mining in Healthcare and Biomedicine: A Survey of the Literature. Springer Science+Business Media.

Journal of Medical Systems.

Yang, W., Wang S., 2006. A process-mining framework for the detection of healthcare fraud and abuse,

Expert Systems with Applications 31.

Chae, Young M., Ho, Seumg H.; Cho, Won K.; Lee, Dong H.; Ji, Sun H., 2001. Data Mining approach

to policy analysis in health insurance domain. International Journal of Medical Informatics.

Page 23: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 17

Data mining – Sistemas de saúde

Mineração de dados. 2016. Acedido a 14 de outubro de 2016.

https://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados

SAS Data Mining Community. Data Mining From A to Z: How to Discover Insights and Drive Better

Opportunities. 2016. Acedido a 13 de outubro de 2016.

http://www.sas.com/content/dam/SAS/en_us/doc/whitepaper1/data-mining-from-a-z-104937.pdf

Goreti Marreiros, Paulo Oliveira. 2000. Acedido a 18 de outubro de 2016.

http://paginas.fe.up.pt/~mgi99021/it/defest.htm#1

M.M.M. Sarcar, K. Mallikarjuna Rao,K. Lalit Narayan, Computer Aided Design and Manufacturing, 2008.

Acedido a 19 de outubro de 2016.

https://books.google.pt/books?id=zXdivq93WIUC&printsec=frontcover&redir_esc=y#v=onepage&q

&f=false

Mark Hall e Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer Peter Reutemann, Ian H. Witten,The

WEKA Data Mining Software: An Update. 2009. Acedido a 16 de outubro de 2016.

http://www.cms.waikato.ac.nz/~ml/publications/2009/weka_update.pdf

Machine Learning Group at the University of Waikato, Weka 3: Data Mining Software in Java. Acedido

a 16 de outubro de 2016.

http://www.cs.waikato.ac.nz/~ml/weka/index.html

Ferraz Costa, Alceu, Mineração de imagens médicas utilizando características de forma. Acedido a 16

de outubro de 2016.

http://www.teses.usp.br/teses/disponiveis/55/55134/tde-27062012-102526/en.php

Cássio O. C., João C. S., Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. 2009.

Acedido a 17 de outubro de 2016. http://www.inf.ufg.br/sites/default/files/uploads/relatorios-

tecnicos/RT-INF_001-09.pdf

Page 24: Data mining – Sistemas de saúdeprojfeup/submit_16_17/uploads/relat_1... · Assim sendo, Data mining é uma disciplina que incluiu estatística, tecnologias de base de dados, reconhecimento

PROJETO FEUP 18

Data mining – Sistemas de saúde

WEKA. Weka 3: Data Mining Software in Java. 2015. Acedido a 15 de outubro de 2016.

http://www.cs.waikato.ac.nz/ml/weka/

Data Mining: conceitos e casos de uso na área da saúde. Acedido a 14 de outubro de 2016.

http://www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

Wan-Shiou Yang, Sa-Yih Hwang, A process-mining framework for the detection of healthcare fraud

and abuse. Acedido a 15 de outubro de 2016.

https://www.researchgate.net/publication/222426436_A_process-

mining_framework_for_the_detection_of_healthcare_fraud_and_abuse

The WEKA Data Mining Software: An Update. 2009. Mark Hall e Eibe Frank, Geoffrey Holmes, Bernhard

Pfahringer Peter Reutemann, Ian H. Witten. Acedido a 15 de outubro de 2016.

http://www.cms.waikato.ac.nz/~ml/publications/2009/weka_update.pdf

Weka 3: Data Mining Software in Java. Machine Learning Group at the University of Waikato. Acedido

a 14 de outubro de 2016. http://www.cs.waikato.ac.nz/~ml/weka/index.html

Mineração de imagens médicas utilizando características de forma. 2012. Alceu Feraz Costa. Acedido

a 12 de outubro de 2016. http://www.teses.usp.br/teses/disponiveis/55/55134/tde-27062012-

102526/en.php