65
Michel da Silva Arantes Modelos de Data Mining Como Serviço - Análise de Séries Temporais Pré-Dissertação de Mestrado Mestrado Integrado em Engenharia e Gestão de Sistemas de Informação Trabalho efetuado sob a orientação de Professor Doutor Manuel Filipe Santos Professora Doutor Carlos Filipe Portela Fevereiro de 2018

Modelos de Data Mining Como Serviço - Análise de Séries ... · and the methodology Cross Industry Standard Process for Data Mining (CRISP-DM). KEYWORDS: DATA MINING, PERVASIVE

  • Upload
    voque

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Michel da Silva Arantes

Modelos de Data Mining Como Serviço -

Análise de Séries Temporais

Pré-Dissertação de Mestrado

Mestrado Integrado em Engenharia e Gestão de Sistemas

de Informação

Trabalho efetuado sob a orientação de

Professor Doutor Manuel Filipe Santos

Professora Doutor Carlos Filipe Portela

Fevereiro de 2018

RESUMO

Este trabalho enquadra-se no desenvolvimento de um projeto de dissertação de

mestrado em Engenharia e Gestão de Sistemas de Informação da Universidade do Minho, e tem

como o tema “Modelos de Data Mining como serviço - Análise de Séries Temporais”. O Data

Mining continua em grande evolução e expansão. Surgindo, a toda hora, novos modelos e

técnicas, com maiores capacidades e extensibilidade, resultando, e cada vez mais, numa maior

capacidades e dificuldade das ferramentas para de Data Mining para obter resultados

otimizados. O Pervasive Data Mining Engine, é um protótipo com características pervasive,

que pode ser usado em qualquer lugar e hora, para além de facilitar todo o processo de Data

Mining,

Durante a realização desta Dissertação pretende-se conceber modelos de DM e

desenvolver uma componente de demonstração de resultados de uma forma agradável através

da a utilização da Linguagem R. O artefacto desenvolvido será depois integrado no protótipo

Pervasive Data Mining Engine. A análise exploratória e o processo DM será feita a partir de

conjuntos de Séries Temporais. Trata-se de uma sequência de observações ordenadas no tempo.

Todo o trabalho desenvolvido será regido pela metodologia de investigação Design

Science Research e pela metodologia Cross Industry Standard Process for Data Mining

(CRISP-DM).

Palavras-Chave: Data Mining, Pervasive Data Mining Engine, Séries-Temporais, DSR, CRISP-

DM

ABSTRACT

This work is part of the development of a master's thesis project in Engineering and

Management of Information Systems of the University of Minho and has as its theme "Data

Mining Models as a Service - Analysis of Time-Series". Data Mining continues to evolve and

expand. New models and techniques have emerged all the time, with greater capabilities and

extensibility, resulting increasingly, in the ability and difficulty of data mining tools to achieve

optimized results. The Pervasive Data Mining Engine is a prototype with pervasive features

that can be used anywhere and time, in addition to facilitating the entire process of Data Mining,

During the execution of this project the aim is to design DM models and develop a

demonstration component in a pleasant way through a use of the R Language. The artefact

developed will be integrated in Pervasive Data Mining Engine prototype. The exploratory

analysis and the DM process will be made from sets of Time Series. It is a sequence of

observations ordered in time.

All the work developed will be rude by research methodology Design Science Research

and the methodology Cross Industry Standard Process for Data Mining (CRISP-DM).

KEYWORDS: DATA MINING, PERVASIVE DATA MINING ENGINE, TIME-SERIES, DSR, CRISP-DM

ÍNDICE

Resumo ...................................................................................................................................... iii

Abstract ...................................................................................................................................... v

Lista de Figuras ......................................................................................................................... ix

Lista de Tabelas ......................................................................................................................... xi

Lista de Abreviaturas, Siglas e Acrónimos ............................................................................. xiii

1. Introdução ......................................................................................................................... 15

1.1 Enquadramento e Motivação ..................................................................................... 15

1.2 Objetivos e Resultados Esperados ............................................................................. 16

2. Revisão de Literatura ........................................................................................................ 18

2.1 Data Mining ............................................................................................................... 18

2.1.1 Descoberta de Conhecimento em Bases de Dados ............................................. 18

2.1.2 Conceito ............................................................................................................. 19

2.1.3 Objetivos e Tarefas de Data Mining .................................................................. 21

2.2 Séries Temporais ....................................................................................................... 24

2.2.1 Análise de Séries Temporais .............................................................................. 32

2.3 Pervasive Computing ................................................................................................. 33

2.4 Pervasive Intelligent Data Mining Engine ................................................................. 36

2.5 Ferramenta R ............................................................................................................. 38

2.6 Data Mining no Dóminio da Saúde ........................................................................... 40

2.6.1 Conceito de Saúde, Hospital e Medicina Intensiva ............................................ 40

2.6.2 Aplicações de DM na Área de Saúde ................................................................. 42

2.6.3 INTCare .............................................................................................................. 46

3. Abordagem metodológica ................................................................................................. 49

3.1 Design Science Research ........................................................................................... 49

3.2 CRISP-DM ................................................................................................................ 52

4. PLANO DE ATIVIDADES .............................................................................................. 55

4.1 Planeamento............................................................................................................... 55

4.2 Lista de Riscos ........................................................................................................... 57

Bibliografia ............................................................................................................................... 61

Anexo I – Diagrama de Gantt .................................................................................................. 65

LISTA DE FIGURAS

Figura 1- Processo de DCBD ................................................................................................... 18

Figura 2 - Data Mining e Áreas Associadas ............................................................................. 21

Figura 3 - Objetivos de Data Mining ....................................................................................... 22

Figura 4 - Exemplo de uma Série Temporal ............................................................................ 26

Figura 5 - Exemplo Típico da Tarefa de Previsão da Série Temporal ................................... 28

Figura 6 - Os Três Principais Passos de uma Tarefa de Classificação ..................................... 29

Figura 7 - Aplicação da Tarefa de Sumarização ..................................................................... 30

Figura 8 - Exemplo Idealizado da Tarefa de Deteção de Anomalia ........................................ 31

Figura 9 - Exemplo Típico de Descoberta de Padrões ............................................................ 31

Figura 10 - Desafios em Pervasise Computing ....................................................................... 34

Figura 11- Sistema INTCare .................................................................................................... 48

Figura 12 - Fases do Design Science Research ....................................................................... 50

Figura 13 - Fases da Metodologia CRISP-DM ....................................................................... 52

Figura 14 - Planeamento Detalhado ......................................................................................... 56

Figura 15 - Diagrama de Gantt ................................................................................................. 65

LISTA DE TABELAS

Tabela 1 - Lista de Riscos ........................................................................................................ 57

LISTA DE ABREVIATURAS, SIGLAS E ACRÓNIMOS

• AR – Auto-Regressivo

• ARIMA – Auto-Regressivo Integrado de Médias Móveis

• CBA - Classification Based on Associations

• CRISPDM - Cross-Industry Standard Process for Data Mining

• DCBD - Descoberta de Conhecimento em Base de Dados

• DCV - Doença Cardiovascular

• DEM - Deux ex Machina

• DFT – Transformada Discreta de Fourier

• DM – Data Mining

• DME – Data Mining Engine

• DSR - Design Science Research

• IoT – Internet das Coisas

• KEFIR - Key Findings Reporter

• KMIC - Korea Medical Insurance Corporation

• MA – Média Móvel

• OMS – Organização Mundial de Saúde

• PDME - Pervasive Data Mining Engine

• SIH – Sistema de Informação Hospitalar

• SVA – Decomposição por Valor Singluar

15

1. INTRODUÇÃO

1.1 Enquadramento e Motivação

O progresso na recolha de dados digitais e na tecnologia de armazenamento resultou no

crescimento de base de dados enormes. Com a quantidade de dados, a crescer

exponencialmente, a capacidade de entender e fazer uso dela vai diminuindo, isto porque,

enquanto, a disponibilidade de dados aumenta exponencialmente, o nível de processamento

humano é quase constante, e assim, a diferença potencial vai ser cada vez maior. Com as

evoluções contínuos na tecnologia e na premissa de que os grandes volumes de dados

disponíveis podem ser fonte de um novo e útil conhecimento com aplicabilidade em diversos

domínios, abriram-se tremendas oportunidades e novos desafios. Não é de admirar, então, que

o interesse tenha aumentado com a possibilidade de explorar estes grandes volumes de dados e

em extrair deles informações que possam ser de valor para quem tem interesse neles ajudando

na tomada de decisão por exemplo. A disciplina envolvida nesta tarefa tornou-se conhecida

como Data Mining (DM).

A Saúde é uma das áreas que mais dados gera e armazena (séries temporais, diagnósticos,

registos médicos), sendo igualmente umas das áreas que melhor aproveitou o surgimento de

técnicas de DM. A sua aplicação tem proporcionado uma melhoria dos serviços prestados aos

doentes, pois, os médicos conseguem identificar os tratamentos mais eficazes e as melhores

práticas.

As Séries Temporais é um tipo de dado que tem uma grande importância na área de saúde.

Presentes, por exemplo, em eletrocardiogramas, onde temos observações em todos os instantes

do tempo, A análise de séries temporais permite analisar o passado e predizer o futuro. Na

previsão de saúde, o padrão de distribuição de dados de saúde durante um período de tempo (na

forma de séries temporais) é importante para determinar a escolha de um método de previsão

adequado.

O Pervasive Data Mining Engine (PDME) é um protótipo que revoluciona e facilita a

forma de construção de modelos de DM (ex. classificação, regressão, clustering) em tempo-

real, permitindo que estes mesmos modelos construídos sejam desenvolvidos de forma rápida

e eficaz e que possam ser acedidos/configurados em qualquer lugar e a qualquer hora. Desta

16

forma, os utilizadores deste protótipo não necessitam de um conhecimento aprofundado na área

para apresentarem resultados otimizados, abrangendo assim, utilizadores de quase todas áreas.

Atualmente a plataforma é capaz de executar processos completos de classificação e regressão,

no entanto ainda não é possível apresentar os resultados de forma legível. Porém, este protótipo,

ainda não têm capacidade de apresentar os resultados de forma legível. Sendo crucial resolver

este problema, esta dissertação tem como objetivo a exploração de um conjunto de dados

recolhidos a partir de dispositivos médicos, a criação de fluxos de DM completos e a utilização

da Linguagem R para desenvolver uma componente de demonstração de resultados de uma

forma agradável. Posteriormente o artefacto desenvolvido será integrado no PDME.

1.2 Objetivos e Resultados Esperados

Esta dissertação de mestrado, enquadra-se no projeto de investigação DEM (Deux ex

Machina), WP 4.1, e tem como objetivo principal melhorar e otimizar o protótipo PDME, de

forma, a permitir uma visualização mais agradável dos resultados provenientes dos modelos de

DM, pois, o PDME ainda não tem capacidade para apresentar os resultados de forma legível.

Surgido assim oportunidade de desenvolver este projeto, que será essencialmente focado do

ponto de vista da análise de séries temporais.

Neste sentido, em seguida são apresentados os objetivos específicos associados a esta

dissertação:

• Exploração de um conjunto de dados recolhidos de dispositivos médicos;

• Criação de fluxos de DM completos;

• Desenvolver componente de demonstração de resultados (Utilizando

Linguagem R)

• Avaliar artefacto desenvolvido;

• Integração do artefacto no PDME;

A partir dos objetivos definidos, são esperados os seguintes resultados e contributos:

• Ferramenta com capacidades analíticas:

• Representação dos modelos/resultados;

• Incorporação destas funcionalidades no PDME;

De forma a cumprir estes objetivos será necessário num primeiro momento analisar

todos os conceitos relacionados, desde a DCBD, DM, Séries Temporais, Pervasive Computing

até ao PDME, isto, através de uma revisão da literatura. Permitindo assim, além de uma maior

17

familiaridade com os conceitos, identificar técnicas, requisitos e ferramentas para o

desenvolvimento do artefacto.

Já o segundo momento consistirá no desenvolvimento do próprio artefacto utilizando a

tecnologia e técnicas de DM, para criar modelos e todo fluxo de DM, e o uso da ferramenta R

para completar o artefacto com o desenvolvimento de uma componente que permita de uma

forma agradável representar e demonstrar os resultados, que por sua vez, auxiliarão em tempo

real os profissionais de saúde numa melhor análise e tomada de decisão. Por fim, o artefacto

desenvolvido será integrado no PDME.

De realçar que todo este projeto seguirá condutas éticas e critérios de confidencialidade.

Desta forma, os dados fornecidos bem como todo trabalho desenvolvido apenas poderão ser

utilizados no âmbito do projeto, sendo proibida a sua reprodução.

18

2. REVISÃO DE LITERATURA

2.1 Data Mining

2.1.1 Descoberta de Conhecimento em Bases de Dados

O Data Mining (DM) é considerado, na realidade, uma etapa de um maior conhecimento

denominado de Descoberta de Conhecimento em Base de Dados (DCBD). A DCBD consiste,

fundamentalmente, numa análise automática e exploratória de grandes repositórios de dados,

identificando padrões compreensíveis, válidos e potencialmente úteis a partir de um volumoso

e complexo conjunto de dados. De forma a que seja possível descobrir novo conhecimento,

existe a necessidade de passar pelas fases do processo da DCBD (Fayyad et al., 1996) (Maimon

& Rokach, 2010). Este processo é constituído por cinco fases principais, que se encontram

representadas na figura 1.

Figura 1- Processo de DCBD (Adaptada de (U. Fayyad et al., 1996)

A seguir é apresentado uma descrição para cada uma das 5 fase do processo de DCBD

(Fayyad et al., 1996) (Maimon & Rokach, 2010):

1. Seleção: Nesta primeira fase deve-se selecionar ou criar um conjunto de dados a

utilizar, que podem ser provenientes de diferentes fontes de dados.

2. Pré-Processamento: A fase de pré-processamento consiste na limpeza dos dados,

gestão de dados em falta e na remoção de dados com ruido. Pretende-se que a fiabilidade dos

dados seja melhorada.

19

3. Transformação: Nesta fase pretende-se uma redução dos dados em quantidade e

uma projeção dos mesmos, através da aplicação de técnicas. Deve-se encontrar características

úteis para representar os dados segundo os objetivos previamente definidos.

4. Data Mining: Esta fase consiste na aplicação da análise de dados selecionados e de

algoritmos inteligentes, de forma, a encontrar padrões interessantes.

5. Interpretação/Avaliação: Nesta fase avalia-se e interpreta-se os padrões

identificados no processo de DM. Isto para verificar se os padrões são de interesse ou não, se

tem precisão e interesse para os objetivos ou não.

Para finalizar existe uma avaliação e interpretação dos resultados obtidos no processo de

DM, tendo em conta os objetivos definidos inicialmente. Nesta fase deve ser avaliada a

compreensibilidade e utilidade dos modelos induzidos, tal como documentar a descoberta de

conhecimento realizado.

As outras etapas que envolvem o processo da DCBD seguindo uma sequencia iterativa

são: seleção, preparação e pré-processamento dos dados, transformá-los se necessário, executar

o processo de DM para extrair padrões, para no fim avaliar e interpretar os padrões identificados

(Fayyad et al., 1996) (Maimon & Rokach, 2010). Apesar de existirem 5 etapas, o DM é

considerado nuclear no processo da DCBD (Maimon & Rokach, 2010) (Goebel & Gruenwald,

1999), caracterizando pela aplicação de específicos algoritmos de DM, que exploram os dados,

desenvolvem modelos e descobrem padrões ou tendências desconhecidas anteriormente

(Maimon & Rokach, 2010).

2.1.2 Conceito

O crescimento e as inovações na área das tecnologias de informação têm permitido o

armazenamento de grandes volumes de dados. Existe uma grande expansão do Universo

Digital, muito devido à Internet das Coisas (IoT). Segundo um estudo da EMC Digital Universe,

que quantifica todos os dados digitais criados, replicados e consumidos num único ano, prevê

que o volume de dados produzido até ao final da década seja de 44 zettabytes, sendo que até

2013 era de 4,4 zettabytes, o que representa um crescimento de 1000% (Gantz & Reinsel, 2012).

Além de trazer uma série de desafios, a quantidade e diversidade dos dados pode parecer

assustadora, para mais sabendo que do ponto de vista biológico o ser humano não tem

capacidade para lidar com a quantidade de informação gerada hoje em dia e tirar proveito da

mesma. Um dos desafios é encontrar valor nesta enorme quantidade de dados, ou seja, é a

capacidade de extrair informação e conhecimento útil a partir dos dados gerados (Laranjeiro,

20

2017). Esta busca pelo conhecimento tem, e terá, cada vez uma maior preponderância para

empresas conseguiram vantagens competitivas num mundo cada vez mais competidor e

dinâmico (Arbix et al., 2010). Por isto tudo, e como já referido anteriormente, podemos dizer

que é impossível ao ser humano analisar, perceber e extrair informação útil da quantidade

enorme de dados que são gerados sem a utilização de ferramentas computacionais, que vão

auxiliar o utilizador a interpretar e relacionar estes mesmos dados. De forma a responder a toda

esta situação existe o conceito de Data Mining, que embora já exista há algum tempo é cada

vez mais utilizado.

Há diversas definições de DM. Porém existe uma definição que talvez seja a maior

popular e reconhecida, elaborada por Usama Fayyad (Fayyad, et al., 1996), apresentamos aqui

uma tradução adaptada do original:

“processo não trivial de identificar padrões válidos potencialmente úteis e ultimamente

compreensíveis a partir de novos dados”.

Dado que existem diversas definições para DM em que cada uma delas depende do

conhecimento e experiencia de quem as define, tendo sempre perspetivas particulares,

apresentamos aqui outras definições, permitindo assim também fornecer uma visão geral

(Friedman, 1997):

“é o processo de extrair informações anteriormente desconhecidas, compreensíveis e

acionáveis de grandes bases de dados e usá-lo para tomar decisões de negócios cruciais” –

Zekulin

“é um conjunto de métodos utilizados no processo de descoberta de conhecimento para

distinguir as relações e padrões anteriormente desconhecidos dentro dos dados” –

Ferruzza

“é o processo de descobrir padrões vantajosos em dados” –

John

“é um processo de suporte à decisão em que procuramos grandes bases de dados para

padrões de informação desconhecidos e inesperados” –

Parsaye

“processo de descoberta de padrões relevantes a partir de quantidades enormes de dados” –

(Han, 2012)

“processo que usa técnicas estatísticas, matemáticas e inteligência artificial para extrair e

identificar informação e conhecimento útil existente nos datasets” –

(Turban, 2010)

21

De uma forma simples e resumida, podemos dizer que é exploração de uma série de

dados, utilizando técnicas guiadas por uma máquina, que identifica tendências e padrões, ou

seja, identificar informação útil a partir de grandes volumes de dados.

O DM provém fundamentalmente de 3 disciplinas científicas: estatística, intelligentsia

artificial e métodos de aprendizagem (machine learning). Podendo assim ser considerado uma

área interdisciplinar que manuseia ferramentas de análise a partir de modelos estatístico,

algoritmos matemáticos, e métodos de aprendizagem por máquina para descobrir padrões e

relacionamentos previamente desconhecidos e válidos em grandes conjuntos de dados (Dua &

Du, 2011) (Hand et al., 2001).

Figura 2 - Data Mining e Áreas Associadas (Adaptada de (Turban et al.,2010) (Dua & Du, 2011))

2.1.3 Objetivos e Tarefas de Data Mining

As técnicas de DM têm sido úteis no suporte que tem dado aos negócios e a diversas

áreas, abundantemente aplicadas para identificar oportunidades ou para resolver problemas.

Têm sido aplicadas a áreas como o desporto, ciência, engenharia, medicina, segurança,

finanças, cibersegurança, biomedicina, seguradoras, saúde e, empresas de retalho, entre outros

(Dua & Du, 2011) (Turban et al., 2010) (Maimon & Rokach, 2010). Acreditando-se assim que

o DM terá um impacto profundo na nossa sociedade.

Os objetivos de DM são definidos pelo uso pretendido do sistema. Podemos dividir em

dois tipos de objetivos: orientado à verificação (o sistema verifica as hipóteses do utilizador), e

22

orientado à descoberta (o sistema identifica novas regras e padrões de forma autônoma) (Fayyad

et al., 1996) (Maimon & Rokach, 2010). Tipicamente subdivide-se o objetivo orientado à

descoberta em duas categorias, sendo estas a previsão e a descrição. Os métodos de previsão

permitem prever o valor de uma variável com base em outras informações existentes, ou seja,

pretendem inferir sobre os dados para se poder obter previsões dos mesmos (Han & Kamber,

2000). A construção de padrões, que constitui o conhecimento descoberto fácil de compreender

e operar, ajudando a compreender os dados (Maimon & Rokach, 2010). Já os métodos de

descrição são orientados para a interpretação e compreensão dos dados e para a forma como os

dados subjacentes se relacionam com a suas partes, isto para aumentar o conhecimento dos

dados (Maimon & Rokach, 2010). Por outras palavras tem como objetivo caracterizar todos os

dados, estabelecendo padrões entre dados para posterior análise humana (Han et al., 2012). As

tarefas de classificação e regressão à categoria de previsão, enquanto as tarefas de clustering,

associação, sumarização e visualização pertencem à categoria de descrição (Pereira, 2005)

(Maimon & Rokach, 2010).

Figura 3 - Objetivos de Data Mining (adaptado de (Pereira, 2005) (Maimon & Rokach, 2010))

Por vezes os métodos de previsão são referidos como sendo, de DM supervisionados,

enquanto os métodos de descrição, de DM não supervisionados (Maimon & Rokach, 2010). Os

métodos supervisionados procuram encontrar a relação entre os atributos de entrada, chamados

de variáveis independentes, e os atributos destino, chamado também de variável dependente

(Maimon & Rokach, 2010. O relacionamento descoberto é representado como um modelo de

previsão, que compreende o treinamento de dados que é o processo em que se analisa diversos

casos onde o valor variável independente já é conhecido (Dua & Du, 2011). Por outro lado, os

de aprendizagem não supervisionados referem-se a técnicas que agrupam instancias sem um

atributo dependente identificado (Maimon & Rokach, 2010). Este método é uma tentativa de

23

identificar padrões escondidos a partir de dados sem treinamento, não existindo diferença entre

os atributos independentes e dependentes (Dua & Du, 2011).

A classificação visa descobrir uma função que vai associar um caso a uma especifica

classe de entre as classes de classificação, ou seja, a função mapeia (classifica) um conjunto de

dados em uma das várias classes predefinidas (Santos & Azevedo,2005) (Goebel & Gruenwald,

1999) (Fayyad et al., 1996). Por exemplo, pode ser aplicado em casos de descoberta de fraudes,

tendências de mercados financeiros, classificar um historial bancário (Maimon & Rokach,

2010), identificação automática de objetos interessentes numa base de dados de imagens

enorme (Fayyad et al., 1996), classificar uma pessoa como doente caso a pessoa satisfaça as

propriedades de classificação do doente (Santos & Azevedo,2005). Podemos então dizer que

permite categorizar um conjunto de dados em classes predefinidas, tentando prever assim

valores discretos ou nominais. Entre as técnicas de classificação temos as arvores de decisão,

análise estatística, rede neuronais, classificadores de Bayes e algoritmos genéticos (Han et al.,

2012) (Turban et al., 2010). Existindo também outras como o caso das support vector machines

(Rokach & Maimon, 2010). Turban (2010) considera que os fatores mais importantes na

avaliação de um modelo de classificação são a acuidade da previsão, velocidade, robustez,

escalabilidade, interoperabilidade.

Por outro lado, a regressão é uma função que mapeia um conjunto de dados a uma

variável de previsão de valor real (Fayyad et al., 1996) (Maimon & Rokach, 2010), ou seja,

apenas pode ser utilizada quando a variável a prever seja um dado numérico (Manuel). Esta

pode ser aplicada de diversas formas, como por exemplo, estimar a probabilidade de um

paciente sobreviver segundo resultados de um conjunto de testes diagnóstico, prever o índice

de procura do consumidor por um produto novo (Fayyad et al., 1996), prever o futuro preço de

um stock, ou dado um conjunto de dados de transações de cartão de crédito criar um modelo

que possa prever a probabilidade de fraudes para novas transações (Goebel & Gruenwald,

1999).

Clustering, é uma tarefa descritiva comum onde se procura dividir um conjunto de

dados em subconjuntos, ou classes de dados, com base na semelhança dos dados, em que tem

de ter sentido e serem uteis (Han et al., 2012). Ou seja, procurar identificar um conjunto finito

de categorias ou grupos para descrever os dados (Fayyad et al., 1996) (Jain & Dubes, 1988).

Clustering é melhor usado para encontrar grupos de dados que são semelhantes. Por exemplo

dado um conjunto de dados de clientes, identificar subgrupos de clientes que tenham um

comportamento de compra semelhante (Goebel & Gruenwald, 1999), ou agrupar clientes para

24

fins de segmentação de mercado e agrupar documentos similares em resposta a um pedido de

mecanismo de pesquisa (Weiss & Davison, 2010) (Zamir e Etzioni 1998).

As regras de associação envolvem a descoberta de padrões ou associações, entre

elementos de um conjunto de dados, representadas sob a forma de regras ou implicações, isto

é, permite identificar o relacionamento dos itens mais frequentes num determinado conjunto de

dados. Esta abordagem é mais comum na análise de mercado. Por exemplo, cada registo de

dados corresponde a uma transação (a partir de uma compra de supermercado), sendo então

uma possível regra de associação dos dados do supermercado saber que "dos compradores que

compraram leite, 64% também compraram pão" ou que "toda vez que um determinado stock

cai 5%, um determinado stock aumenta 13% entre 2 e 6 semanas depois” (Weiss & Davison,

2010) (Goebel & Gruenwald, 1999).

A tarefa de sumarização envolve métodos para encontrar e descrever um subconjunto

de dados. Geralmente as técnicas de sumarização são aplicadas à análise exploratória de dados

e à geração automática de relatório (Fayyad et al., 1996). Segundo Galvão e Marin (2008), a

sumarização procura identificar e mostrar caraterísticas comuns num conjunto de dados.

Visualização exerce um papel importante por tornar o conhecimento descoberto

compreensível e interpretável pelos humanos. Esta tarefa tem a função de apresentar os

resultados de DM de uma forma visual, estando assim relacionada com a apresentação de

informações complexas de observar, através de gráficos de dispersão simples e gráficos de

histograma em coordenadas paralelas a filmes em 3D (Turban et al., 2010) (Goebel &

Gruenwald, 1999).

2.2 Séries Temporais

Com o aumento dos dados armazenados e do uso de dados temporais iniciou-se uma

grande pesquisa e desenvolvimento na área do DM. Aparecendo então, as sequências temporais

em uma vasta gama de domínios, desde economia, engenharia, medicina, finanças, até à

biologia. Na engenharia surge geralmente com uma monotorização baseada num sensor, como

por exemplo o controlo de comunicações. Já nas finanças é aplicada nas vendas ou consumo de

inventários para saber as datas das mesmas, mas também na previsão da evolução dos dados

financeiros. Na área de saúde, as sequencias temporais já são uma prática comum desde há

algumas décadas, com dados gerados por sistemas complexos de aquisição de dados como

eletrocardiogramas, ou mesmo simplesmente medindo a temperatura do paciente ou a eficácia

dos tratamentos. Apesar de que com o desenvolvimento da informática médica nos últimos anos

25

e a necessidade, mais do que nunca, de reagir no momento em tempo real a qualquer reação do

paciente, é fundamental. As aplicações que lidam com sequências temporais servem sobretudo

de suporte ao diagnóstico e na prevenção comportamentos futuros. Desta forma, a capacidade

de modelar, extrair informação, atribuindo depois um contexto temporal a uma dada variável é

imprescindível para o avanço da sociedade da informação (Antunes & Oliveira, 2001) (Esling

& Agon, 2012).

Uma série temporal pode ser entendida como uma representação de uma coleção de

valores obtidos a partir de medidas sequenciais ao longo do tempo, ou seja, de uma coleção de

observações sequenciadas no tempo (Esling & Agon, 2012) (Koeg 2003).

Han e Kamber (2012) definem os dados de uma serie temporal da seguinte forma:

“Um conjunto de dados de séries temporais consiste em sequências de valores numéricos

obtidos em medidas repetidas de tempo. Os valores são tipicamente medidos em intervalos de

tempo iguais (por exemplo, cada minuto, hora ou dia).”

Habitualmente observamos as séries temporais numa representação gráfica (Imagem 1),

onde normalmente o eixo das abcissas retrata o tempo e o das ordenadas a variação do que

estamos a demonstrar. Matematicamente, uma série temporal T pode ser expressa da seguinte

forma (Oliveira, 2007) (Esling & Agon, 2012):

T = (t1,...,tn) ,ti ∈ R.

Onde T é a variável de interesse e t o conjunto de índices de tempo, desta forma existem

t observações na variável da série temporal T. Ou seja, a série temporal T corresponde ao

conjunto das medições em relação ao tempo t.

Assim, uma série temporal pode ser definida como um conjunto de instante de tempos

contínuos, uma série temporal do tipo continua, onde existem observações em todos momentos

do tempo. Porém, muitas vezes temos observações a partir de medições feitas uniformemente

espaçadas no tempo, considerando assim estas como uma série temporal discreta. Havendo

ainda as séries temporais multivariadas, quando várias séries simultaneamente abrangem

múltiplas dimensões dentro do mesmo intervalo de tempo, onde existem mais de uma variável

de interesse.

26

Figura 4 - Exemplo de uma Série Temporal (Retirada De (Oliveira, 2007))

Uma das principais dificuldades que ocorrem ao longo do processo de DM é o

tratamento de dados que englobam informações temporais. Uma dessas dificuldades diz

respeito ao tratamento de dados com dependências temporais. Os atributos relacionados com a

informação temporal presentes num conjunto de dados precisam ser tratados de forma diferente

de outros tipos de atributos. Apesar disso, a maioria das técnicas de DM tendem a tratar os

dados temporais como uma coleção de eventos não ordenados, desprezando assim as suas

informações temporais. Então para que haja um total entendimento de todo este fenómeno é

preciso que os dados sejam olhados como uma sequencia de eventos (Antunes & Oliveira,

2001) (Koeg, 2003).

Para Esling e Agon (2012), o DM de séries temporais apresentam uma considerável

complexidade. Ocorrendo problemas pela grande dimensionalidade dos dados das séries

temporais e pela dificuldade que existe na definição de medidas de similaridade baseadas na

perceção humana. Aliando isto, ao rápido crescimento das fontes digitais de informações, os

algoritmos de mineração das séries temporais terão que agrupar conjuntos de dados cada vez

mais numerosos, levando assim a três grandes problemas.

- A representação dos dados. Deve-se entender como as formas são apresentadas pelas

séries temporais. Uma técnica de representação deve derivar a noção de forma, reduzindo assim

dimensionalidade dos dados mantendo as suas características fundamentais.

Como referido anteriormente, as séries temporais são sobretudo dados de alta dimensão,

logo, a aplicação de algoritmos que funcionam diretamente nas séries temporais seriam muito

dispendiosos do ponto de vista computacional. A motivação fundamental das representações é,

assim, evidenciar as características essenciais dos dados de maneira concisa, tendo como

benefícios, o armazenamento eficiente, a aceleração do processamento, e a remoção implícita

de ruído.

27

- A medidas de similaridade. É necessário distinguir e perceber se um par de séries

temporais são semelhantes. Assim uma medida deve indicar uma noção de similaridade baseada

em critérios percetivos, possibilitando o reconhecimento de objetos perceptualmente

semelhantes mesmo que estes não sejam matematicamente semelhantes.

Grande parte das tarefas de mineração de séries temporais requerem uma noção de

semelhança entre série. Ao examinar ao mesmo tempo múltiplas características de uma série,

os seres humanos são capazes de se abstrair de problemas como amplitude, escala, distorção

temporal, ruído e outliers.

- O método de indexação. A forma de organizar um grande conjunto de séries

temporais para permitir consultas rápidas é importante, devendo então saber qual mecanismo

de indexação para que seja possível lançar querys sobre as séries de forma mais rápida. A

técnica de indexação deve também garantir o mínimo consumo de espaço e complexidade

computacional.

Um método de indexação proporciona uma disposição eficiente de dados para

recuperação rápida em grandes bases de dados. Geralmente as soluções apresentadas envolvem

uma redução de dimensionalidade para indexar esta representação usando um método de acesso

espacial.

Já Keogh (2003), também refere a alta dimensionalidade dos dados como uma das

dificuldades que se encontram na manipulação de séries temporais, pois as séries temporais

apresentam uma dimensionalidade equivalente ao seu tamanho. Quanto mais comprida a série,

mais difícil será a análise da série. Outra dificuldade referida, é o grande volume de dados a

que as séries temporais são associadas. A subjetividade também referida como um problema

pelo autor, uma vez que a definição de similaridade entre séries temporais diferentes depende

da tarefa e da pessoa em questão. Por fim menciona a diversidade das séries temporais como

uma dificuldade. Estas normalmente aparecem em formatos diferentes, com ruido e ausência

de valores, o que dificulta a manipulação.

Posto isto podemos entender que os três principais pontos na gestão de dados de séries

temporais são os métodos de representação, as medidas de similaridade e o método de

indexação. Por causa da alta dimensionalidade das séries temporais, é crucial conceber

representações de baixa dimensão de forma a preservar as características fundamentais de uma

série. Tendo em conta esse mesmo tipo de representação, é necessário definir prudentemente a

distância entre as séries temporais para exibir pormenores perceptualmente relevantes da

similaridade subjacente. Por fim o esquema de indexação deve permitir uma gestão e pesquisa

mais eficiente dos conjuntos de dados cada vez maiores.

28

Existem técnicas para tratar alguns destas dificuldades. Por exemplo para a redução da

dimensionalidade temos, a transformada discreta de Fourier (DFT) que consegue eliminar

ruídos introduzidos no momento da captação das informações. A DFT descreve uma função

por meio de uma série de coeficientes. Outra possível técnica é a decomposição por valor

singular (SVA). Nesta técnica apenas permanecem as dimensões mais significativas do

conjunto de dados analisado, diminuindo assim as dimensões dos dados iniciais, logo usa-se

um espaço de dimensionalidade menor (Mariote, 2008) (Esling & Agon, 2012) .

DM é utilizado numa variada gama de aplicações. No entanto, os possíveis objetivos de

DM, muitas vezes chamados de tarefas de DM (Han & Kamber, 2001) podem ser classificados

em alguns grupos amplos. No contexto de aplicações de tarefas de DM sobre séries temporais,

as principais tarefas são: previsão, classificação, clustering, deteção de anomalia, sumarização,

indexação e descoberta de padrões (Ratanamahatana et al., 2009) (Esling & Agon, 2012)

(Laxman & Sasty, 2006).

A previsão é uma área deveras importante em vários campos de pesquisa. No que diz

respeito às séries temporais, é uma das tarefas mais aplicadas (Esling & Agon, 2012). A tarefa

da previsão de séries temporais condiz com a previsão de valores futuros da série temporal

baseando-se em suas amostras passadas (Laxman & Sasty, 2006). Permite, por exemplo, a

obtenção de aviso prévio de desastres naturais, epidemias e colisões. Usa valores de dados

conhecidos para prever valores futuros com base em tendências e estatísticas históricas. Um

algoritmo de predição geralmente envolve análise de regressão, visto que facilmente se

consegue utilizar os valores existentes de forma ordenada. Muitas técnicas foram sugeridas para

aumentar a precisão da previsão de séries temporais, incluindo o uso de redes neurais e técnicas

de redução de dimensionalidade (Ratanamahatana et al., 2009).

Figura 5 - Exemplo Típico da Tarefa de Previsão da Série Temporal (Adaptado de (Esling & Agon, 2012))

No ponto (a) da Figura 5, é demonstrada a entrada de uma série temporal. No (b) o

objetivo é conseguir prever o número máximo de pontos de dados próximos dentro de uma

janela de previsão (Esling & Agon, 2012).

29

A tarefa de classificação é talvez a mais familiar e mais popular. Através dela procura-

se identificar cada série temporal de um conjunto, classificando assim os dados de entrada em

grupos predefinidos. Quando comparada com a tarefa de clustering a diferença é que as classes

são previamente conhecidas e o algoritmo é treinado num exemplo de conjunto de dados, isto

é, em um conjunto de diferentes séries temporais. Como as classes são determinadas antes de

examinar os dados, um conjunto de dados predefinidos é usado no processo de treinamento, de

forma, aprender a reconhecer padrões de interesse. O reconhecimento de padrões é um tipo de

classificação onde um padrão de entrada é classificado em uma das muitas classes tendo em

conta a semelhança com essas classes predefinidas. Ou seja, quando um conjunto de dados não

identificado é inserido no sistema, ele pode precisar automaticamente a qual classe cada série

pertence. Habitualmente o desempenho dos algoritmos de classificação é avaliado pela precisão

da classificação, determinando a percentagem de objetos identificados como a classe correta.

Esta tarefa de DM sob séries temporais pode ser utilizada para reconhecimento de imagens e

padrões, filtragem de spam, diagnóstico médico, reconhecimento de fala, gestos e palavras

manuscritas (Esling & Agon, 2012) (Ratanamahatana et al., 2009).

Figura 6 - Os Três Principais Passos de uma Tarefa de Classificação (Retirada de ((Esling e Agon, 2012))

O ponto (a) da Figura 6, representa um conjunto de dados de treinamento composto

por duas classes pré e marcadas C1 e C2. No ponto (b) um conjunto de dados não marcado é

introduzido no sistema que irá tentar deduzir automaticamente a qual classe cada ponto de

dados pertence. Já no ponto (c) a cada ponto inserido anteriormente foi atribuído uma classe

(Esling & Agon, 2012).

O clustering é semelhante à classificação em que categoriza as séries temporais em

grupos. Contudo, ao contrario da tarefa de classificação, esses grupos não são predefinidos, mas

sim definidos pelas próprias séries temporais baseando-se na sua semelhança. Os dados mais

semelhantes são agrupados em clusters mas os próprios clusters devem ser diferentes. Sendo

então o objetivo descobrir os clusters mais homogêneos e que são tão distintos quanto possível

de outros clusters. O algoritmo deve assim identificar automaticamente quais grupos estão

intrinsecamente presentes nos dados. A tarefa de clustering de séries temporais pode ser

30

dividida em duas sub-tarefas. De um lado temos o clustering de toda a série temporal, em que

o objetivo é agrupar séries temporais semelhantes no mesmo cluster, por outro o clustering de

subséries, em que os clusters são criados a partir da extração de subséries de uma série temporal

única, sendo muito comum na descoberta de padrões (Esling & Agon, 2012) (Ratanamahatana

et al., 2009). Posto isto, podemos concluir que a tarefa de clustering de séries temporais

pretende agrupar um conjunto de séries temporais segundo a sua similaridade, tendo um certo

interesse na mineração de dados temporais, uma vez permite encontrar automaticamente

algumas estruturas em grandes conjuntos de dados (Laxman & Sasty, 2006).

Por vezes os dados das séries temporais são extremamente longos para apresentar.

Nestes casos, a tarefa de sumarização sob dados de séries temporais pode ser útil e necessário.

O objetivo desta tarefa é criar uma representação precisa das séries temporais, reduzindo sua

dimensionalidade, mas mantendo os seus componentes essenciais, portando pretende-se

minimizar o erro de reconstrução entre uma representação reduzida e as séries temporais

originais (Esling & Agon, 2012).

Figura 7 - Aplicação da Tarefa de Sumarização (Retirada de (Esling & Agon, 2012))

Como podemos observar na Figura 7, o ponto (a) a série temporal apresenta-se

bastante ruidosa contendo inúmeros pontos de dado. Depois de aplicada a tarefa de

sumarização, é conseguida uma a aproximação mais próxima das séries temporais de entrada,

isto, sem perder nenhuma das suas características essenciais (Esling & Agon, 2012).

A tarefa de indexação, ou de querying por conteúdo, é a área de investigação mais

ativa na análise de séries temporais e umas das tarefas de Data Mining mais utilizadas com

séries temporais. O conteúdo do conjunto de resultados depende do tipo de query lançada na

base de dados, isto quer dizer, dependendo da query lançada na base de dados ela vai

descobrir qual a série temporal que mais se parece à série temporal lançada na base de dados.

Ou seja, é baseado na recuperação de um conjunto de séries temporais mais parecidas com a

query fornecida pelo utilizador. Esta tarefa pode ser dividida em duas categorias:

correspondência total e correspondência parcial. Pela correspondência completa, uma query

lançada na base de dados só é correspondida a séries temporais individuais (completas) que

31

são similares à série temporal lançada como query. Já pela correspondência parcial, é

consultado nas séries temporais se alguma subsequência se assemelha à query lançada na base

de dados (Esling & Agon, 2012).

A deteção de anomalias é mais uma das tarefas de Data Mining em que procura

identificar subsequências anormais dentro de uma série, ou seja, subsequências que tenham

um comportamento anormal. Também pode ser entendido como a tarefa que analisa séries

temporais com intenção de encontrar padrões anteriormente desconhecidos. O processo para

detetar anomalias passa por primeiro criar um modelo de comportamento considerado normal

de uma série, caracterizando depois as subsequências que se afastam de forma considerável

do modelo como anomalias. Sendo, portanto, preciso um treino prévio do algoritmo (Esling &

Agon, 2012).

Figura 8 - Exemplo Idealizado da Tarefa de Deteção de Anomalia (Retirado de (Esling & Agon, 2012))

Na Figura 8, é representada uma longa série de tempo que exibe algum tipo de estrutura

periódica que pode ser modelada graças a um comportamento padrão. O objetivo é encontrar

subsequências que não seguem o modelo, logo, podem ser consideradas como anomalias.

A descoberta de padrões, por seu lado, pretende encontrar cada subsequência que

aparece usualmente numa série de temporal mais longa. Analisando o desempenho das séries

temporais ao longo do tempo, tenta identificar padrões discretos, através de partes sequenciais

que se repetem na série temporal observada (Esling & Agon, 2012). A Figura 9 retrata um

exemplo típico da descoberta de padrões.

Figura 9 - Exemplo Típico de Descoberta de Padrões (Retirada de (Esling & Agon, 2012))

32

2.2.1 Análise de Séries Temporais

A análise de uma série temporal passa pelo processo de identificação das características,

dos padrões e das propriedades importantes da série, aplicando modelos matemáticos e

estatísticos nos dados das mesmas, possibilitando assim quantificar e compreender o fenómeno

da variação temporal. Entre os vários objetivos de séries temporais, o maior deles é a geração

de modelos para a previsão de valores futuros, procurando através da análise dos dados

construir um modelo que nos permita facilmente antever a evolução futura da série temporal.

Outro dos objetivos mais importantes passa por analisar o passado, para retirar o maior

conhecimento útil do mesmo.

Há quatro componentes ou movimentos principais utilizados na caracterização de dados

de seres temporais (Oliveira, 2007) (Han et al., 2012):

- Movimento de Tendência. Estes indicam a direção geral na que um gráfico de séries

temporais se move ao longo do tempo. É necessário identificar as tendências, conhecendo

através dele as modificações que ocorrem.

- Movimentos Cíclicos. Menciona as oscilações de longo prazo sob uma linha ou curva

de tendência. Apesar das variações serem periódicas, estas não são associadas automaticamente

a alguma medida temporal. Encontrar ciclos permite-nos identificar padrões temporais.

- Movimentos Sazonais. Estes são padrões similares que uma série de tempo parece

seguir durante determinadas épocas ou períodos. Para uma análise das tendências, os dados

normalmente precisam ser "dessazionalizados" com base em um índice sazonal computado por

auto correlação

- Movimentos Irregulares. Estes movimentos caracterizam mudanças esporádicas

devido a eventos ocasionais, sendo influenciados por acontecimentos que ocorrem de forma

aleatória.

Para previsão de séries temporais podemos utilizar uma análise de tendências, ou seja,

encontrar uma função matemática que irá gerar aproximadamente os padrões históricos em uma

série temporal. Um dos métodos utilizados para a determinação da tendência de uma seria

temporal é chamado de média móvel (MA), em que mediante a sua utilização podem ser

eliminadas as variações cíclicas, sazonais ou aleatórias, mantendo apenas o movimento de

tendência. O método auto-regressivo (AR) e o auto-regressivo integrado de médias móveis

(ARIMA) são outros dos métodos mais populares nestes tipos de análises.

33

2.3 Pervasive Computing

O conceito de Pervasive Computing, em português Computação Pervasiva, é também

conhecido por Ubiquitous Computing (Satyanarayanan, 2001). Este ultimo conceito foi usada

pela primeira vez pelo cientista norte-americano Mark Weiser em 1991, através do seu artigo

"O Computador para o século XXI", de onde também surgiu umas das citações mais importante

na área da computação, em que Mark Weiser diz: “As tecnologias mais profundas são as que

desaparecem. Eles se entregam no tecido da vida cotidiana até que sejam indistinguíveis do

ambiente” (Weiser, 1991). Isto significa que as tecnologias que se relacionam e integram bem

na nossa vida já não são olhadas como elementos separados. Foi nesta visão em que quase todo

o trabalho computacional (pervasiva e ubíqua) foi baseado. Os termos pervasividade e

ubiquidade significam “existir em todo lado”, em qualquer altura, contudo sem ser percetível.

Ou seja, dispositivos conectados em toda parte de forma invisível para o homem em que assim

acabamos por não perceber que estes dispositivos lá estão, nem sequer notamos sua presença.

A palavra invisível é apresentada aqui num contexto em que as pessoas nem reparam que estão

numa interação com um dispositivo, não no sentido literal da palavra de algo não ser observável

pelo homem. Podendo assim concluir que não existe necessidade de adaptação ou compreensão

de como usar a tecnologia, esta passa a ser usada inconscientemente (Peixoto et al., 2015).

Desde a publicação do artigo de Mark Weiser em 1991, protagonizou-se um progresso e

uma evolução rápida da tecnologia, impulsionando um grande desenvolvimento ao nível do

hardware, sensores de localização, comunicação sem fios e redes globais. Para além disso, o

uso de computadores e da internet tornaram-se, nas últimas décadas, parte integrante no modo

de vida das pessoas. Neste contexto e com a continuada perseguição por novas soluções e

evolução das tecnologias existentes, a computação pervasiva, vem se tornando uma

computação cada vez mais presente e importante. (Saha & Mukherjee, 2003)

A Computação Pervasiva esforça-se para tornar a vida das pessoas mais simples,

facilitando as tarefas do dia-a-dia, através de ambientes digitais sensíveis e inteligentes, que são

por sua vez adaptativos e recetivos às necessidades humanas. Por outro lado, a sociedade fica

muito mais dependente destes dispositivos computacionais que ajudam a tornar as nossas vidas

mais simples. A Computação Pervasiva permite também uma maior produtividade através do

acesso a informações detalhada de qualquer lugar a partir desses ambientes. Sendo assim, está

capacitado para configurar, controlar ou ajustar aplicações um dispositivo para melhor apoiar

as necessidades do mesmo, ou de um utilizador. Por isso, num futuro próximo, podemos esperar

que todas as casas façam parte de uma rede de dispositivos inteligentes que apoiem de forma

34

transparente as nossas necessidades de informação e comunicação. Isso significa que a

tecnologia deve estar presente em todos os lugares sem a necessidade de trazer qualquer

dispositivo, para que o utilizador não esteja a par da sua presença. Ou seja, o conceito de

Computação Pervasiva pressupõe que os meios de computação sejam distribuídos no ambiente

de forma impercetível ao utilizador (Saha & Mukherjee, 2003) (Peixoto et al., 2015) (Weiser,

1991).

Segundo Satyanarayanan (2001) a Computação Pervasiva é uma tecnologia relativamente

recente, que surgiu da evolução dos conceitos de Sistemas Distribuídos e Computação Móvel.

A área dos Sistemas Distribuídos surge da interseção de computadores pessoas e redes locais,

na qual, com a chegada da rede, o computador pessoal evoluiu para a computação distribuída.

Enquanto os computadores se tornavam conectados por uma rede, eles começaram a

compartilhar recursos através da mesma. Estes conhecimentos englobam algumas áreas que são

fundamentais e marcaram o próximo passo para a computação perversiva, introduzindo alguns

desafios como: comunicação remota, tolerância a falhas (que impeçam o funcionamento do

sistema), heterogeneidade (suportar diferentes sistemas), acesso remoto a recursos de

informação e segurança (privacidade, disponibilidade e integridade). Por outro lado, a área da

computação móvel surge de computadores portáteis de alta resolução e redes sem fios. O

objetivo da computação móvel, a qualquer hora em qualquer lugar, é essencialmente uma

abordagem reativa para o acesso à informação, contudo, projeta o objetivo da computação

pervasiva, a todo tempo em qualquer lugar. Desta forma, foram colocados outros desafios,

como por exemplo: comunicação sem fios, mobilidade (capacidade de alterar de local), suporte

para interoperabilidade (capacidade de um sistema comunicar com outro sistema), e

sensibilidade na localização (via GPS ou SIM) (Saha & Mukherjee, 2003) (Satyanarayanan,

2001).

Figura 10 - Desafios em Pervasise Computing (Adaptado de (Satyanarayanan, 2001))

35

Grande parte dos desafios técnicos na computação pervasiva já foram identificados e

analisados antes desta evolução, em sistemas distribuídos e computação móvel. Algumas das

soluções podem ser implementadas diretamente na computação pervasiva, mas, em outras

situações não, pois, as demandas da computação pervasiva são bastante diferentes, levando a

novas soluções. Entretanto, com a evolução, novos problemas foram surgindo pela computação

pervasiva que ainda não tinham sido anteriormente analisados nem estudados, levando isto a

novos desafios próprios da área de computação pervasiva. Estes novos desafios são

(Satyanarayanan, 2001):

1. Escalabilidade localizada: Com o crescimento de utilizadores, aplicações,

dispositivos em rede e suas interações, o ambiente de computação pervasiva enfrenta uma nova

escala nunca experienciada. O desenvolvimento tradicional de aplicações exige uma aplicação

particular para cada novo dispositivo, o que na computação pervasiva é inviável, devido ao

crescimento de diferentes dispositivos como referido anteriormente. A escalabilidade, é assim,

um dos problemas críticos, apesar de que, na computação pervasiva a densidade das interações

deve reduzir-se à medida que se afasta, de outra forma, as ligações serão oprimidas por outras

interações distantes pouco relevantes. Apesar de que por vezes um utilizador móvel longe de

casa possa gerar algumas interações distantes relevantes para ele, a maior importância de suas

interações será local (Saha & Mukherjee, 2003) (Satyanarayanan, 2001).

2. Integração: Apesar de as componentes da computação pervasiva estejam já

implementadas em diversos ambientes, a sua integração numa única plataforma ainda é um

problema. A integração vai ser tornando mais complexa com o crescimento de numero de

dispositivos e aplicações. A coordenação entre uma mesma aplicação em diferentes dispositivos

é necessária (Saha & Mukherjee, 2003).

3. Heterogeneidade: A conversão de um ambiente para outro faz parte da computação

e da comunicação. Assim, caso as implementações uniformes e compatíveis de ambientes

inteligentes não sejam realizáveis, a computação pervasiva deve descobrir meios de camuflar

essa heterogeneidade. O middleware pode introduzir conceitos de forma a equilibrar

dinamicamente ambientes menos inteligentes, isto para, que a mudança seja transparente para

os utilizadores. A maior dificuldade está ao nível das aplicações, pois, quanto maior a

heterogeneidade mais complicada fica o desenvolvimento de aplicações que funcionam em

qualquer plataforma (Saha & Mukherjee, 2003).

4. Invisibilidade: Esforço para o desaparecimento da tecnologia na consciência do

utilizador, levando à distração mínima do utilizador. Desta maneira, um sistema deve solicitar

uma intervenção humana reduzida. Os utilizadores podem sim intervir, para configurar

36

ambientes que não estejam de acordo com as suas espectativas. Esta possível intervenção faz

parte de uma aprendizagem para o meio ambiente. Ou seja, se um ambiente considera

continuadamente as expectativas dos utilizadores sem grandes surpresas, este possibilita uma

interação quase ao nível subconsciente (Saha & Mukherjee, 2003) (Satyanarayanan, 2001).

5. Perceção do Contexto: A computação pervasiva, necessita de sistemas e dispositivos

que percebam o contexto do utilizador, porém grande parte destes sistemas e dispositivos de

computação não conseguem sentir seus ambientes, sendo incapaz então, de tomar decisões

pertinentes e sensíveis ao contexto. Ambientes inteligentes são um pré-requisito para

computação generalizada. Como os ambientes inteligentes são um dos pré-requisitos para a

computação pervasiva, e a perceção, do contexto é uma característica intrínseca de ambientes

inteligentes, a informação que define a perceção do contexto deve ser o mais precisa. Caso isso

não aconteça, pode baralhar ou interferir na experiência do utilizador (Saha & Mukherjee,

2003).

2.4 Pervasive Intelligent Data Mining Engine

Devido ao exponencial crescimento do volume de dados gerados, existe a necessidade de

novas técnicas e ferramentas, capazes de transformar este enorme volume de dados em

informação relevante e conhecimento. Desta forma e devido à contínua popularização do DM

diversas ferramentas foram desenvolvias nos últimos anos.

Com base nesta ideia, podemos entender o porque de atualmente existirem uma grande

variedade de Data Mining Engine (DME). Porém, grande parte dos DME existentes mostram

ainda existir algumas lacunas e algum nível de complexidade, pois estas ferramentas, são

difíceis de utilizar e requerem alguma dedicação e conhecimento, exigindo assim, especialistas

em DM de modo a atingir resultados otimizados. A partir destas incapacidades e limitações, os

investigadores Peixoto (2015) e Carlos Filipe Portela desenvolveram uma nova ferramenta,

com um novo conceito, chamada de Pervasive Data Mining Engine (PDME). Este novo

conceito mantem as funcionalidades das ferramentas atuais de DM, porém adiciona

características como a invisibilidade e ubiquidade, próprias do conceito de Pervasive

Computing, que por focarem na experiencia do utilizador e fornecerem processos de DM

autónomos e inteligentes, permite ao utilizador uma maior facilidade de uso (Peixoto et al.,

2015).

37

Por outros palavras, e sinteticamente, esta nova ferramenta DM junta as características

pervasive com as de DM, tornando-a revolucionário e com bastante potencial. Esta nova

abordagem como fornece a possibilidade de uma configuração automática do processo de DM,

exclui a necessidade de especialistas em DM, podendo qualquer pessoa com diferente

conhecimento da área obter resultados com valor, elevando o potencial do DM para todo tipo

de pessoas. Assim, o PDME, é capaz de automatizar o processo de DM, permitindo também

diferentes níveis de otimização do processo, adaptando-se às necessidades e conhecimento do

utilizador, pela possibilidade de configurar os processos de DM em modo automático, manual

ou misto. A simplificação do processo é realizada pela automatização de todo o processo de

carregamento de dados, transformação, modelação, validação, e a apresentação de resultados

de dados. Um dos maiores benefícios do PDME é permitir que quase todo o processo CRISP-

DM seja executado sem a interação do utilizador. Ou seja, é executada de forma automática,

em que o utilizador só necessita de carregar a base de dados, selecionar a target e o tipo de

processo (classificação ou regressão), e o PDME assume a partir daí (Peixoto et al., 2015)

(Peixoto, 2015).

Até ao momento, a arquitetura do PDME resolve apenas problemas de classificação e

regressão. Este utiliza internamente alguns modelos descritivos junto com previsão, de forma a

tentar primeiro o melhor modelo probabilístico. Por isso, o PDME demonstra uma arquitetura

complexa composta por 4 componentes principais em constante comunicação, precisando

sempre umas das outras para um funcionamento correto, sendo cada componente responsável

pela sua tolerância a falhas. Essas 4 componentes principais são (Peixoto et al., 2015) (Peixoto,

2015):

1. Base de Dados: Responsável pela persistência do sistema. O sistema é executado

completamente na base de dados. Grande parte dos eventos são desencadeados aquando da

deteção de uma alteração, porém, nenhuma tarefa é iniciada sem uma confirmação na base de

dados. O sistema não funciona sem a base de dados.

2. Processamento: As tarefas DM são realizadas nesta camada. Com uma preocupação

de desempenho e diversidade, é permitido que qualquer outra ferramenta DM funcione neste

sistema. Assim ferramentas como R ou Weka podem ser utilizadas para executar qualquer uma

das tarefas. Definindo o ponto de entrada e o ponto final de cada tarefa, desde que estes

permaneçam iguais, a ferramenta é capaz de executar essas tarefas, e como cada tarefa é

independente de qualquer outra tarefa, ferramentas específicas podem ser introduzidas para

executar tarefas especificas. Esta funcionalidade permite uma grande adaptabilidade,

requerendo uma implementação mínima. Composto por um ou vários servidores, em que um

38

servidor processa apenas um modelo de cada vez, por exemplo, se existirem dez modelos para

serem processados e dez servidores físicos disponíveis, eles começarão um em cada servidor

disponível, desta forma, o sistema escalará linearmente.

3. Controlo: Gere todas as decisões, servidores e processo, com capacidade de um

escalonamento individual. Responsável pelos servidores de processamento, por gerar todos os

scripts para execução e configuração de cada algoritmo individual implementado no sistema, e

por todo o processo de DM.

4. Interface: Manipula todas as operações do utilizador para o sistema. Permite o acesso

aos serviços de DM, configuração para o utilizador e administrador, meio de notificação (e-

mail ou mensagem) e revisão dos resultados. Para além de fornecer um layout diferente para

cada tipo de utilizador. O simples, fornece apenas informações estritamente necessárias, já o

avançado, fornece informações sobre as decisões tomadas e o estado atual do processo.

Concluindo, o PDME, têm a capacidade de realizar automaticamente tarefas de DM,

construir modelos em paralelo e registar todas as instâncias do processo possibilitando com isso

comparações fáceis de resultados e configurações a qualquer momento. O principal objetivo é

que as funcionalidades de DM e os seus resultados estejam disponíveis automaticamente e em

tempo real para qualquer pessoa. Fazendo-se valer das suas caracterizas pervasive para estar

disponível em qualquer lugar e em qualquer dispositivo, para todos utilizadores. Fornecendo,

assim, serviços de DM para vários utilizadores em qualquer local e em qualquer dispositivo.

Sendo que umas das maiores vantagens, é que esta ferramenta com este novo conceito, permite

que sejam geradas informações uteis para todo tipo de utilizador, sejam eles novatos que

estejam a aprender os conceitos de DM, sejam eles experientes da área, fornecendo-lhes novos

caminhos mais eficientes para atingir os mesmos ou melhores objetivos.

2.5 Ferramenta R

A análise em redes é notoriamente umas das maiores áreas em crescimento, sendo, a

análise de dados uma das suas componentes. Esta análise de dados utiliza técnicas e

procedimentos estatísticos que possibilitam o tratamento e análise das variáveis e observações.

Consequentemente, existe uma necessidade com grande importância de utilizar pacotes

estatísticos para a análise de dados e a interpretação dos resultados. No universo dos softwares

gratuitos utilizados para a análise de dados, o mais popular continua a ser o R (KDnuggets,

2016), usado cada vez mais por analistas de dados e estatísticos quer em organizações quer a

nível académico (Vance, 2009). A ferramenta R é um projeto de código aberto, em que qualquer

39

utilizador pode contribuir com novos pacotes (conjunto de funções em R com código

compilado) modificando ou implementando novos procedimentos a qualquer altura, assim, o

desenvolvimento do sistema R é fortemente influenciado pela ideia de código aberto (Everitt &

Hothorn, 2006) (Sousa et al., 2007). Proporciona também uma grande variedade de estatística,

como modelagem linear e não linear, testes paramétricos e não paramétricos, análise de séries

temporais, classificação, clustering, entre outros, para além de apresentar técnicas para a

elaboração de gráficos altamente controláveis pelo utilizador. Uma vez que o R é uma

linguagem de programação orientada aos objetos, o utilizador pode criar as suas funções para

a análise de dados. Ainda que o software seja gratuito, o R integra-se bem com outras

linguagens de programação (C, C++), estando disponível em vários idiomas e em diferentes

plataformas, projetando-se assim, como uma ferramenta poderosa (R-Project, 2018).

R é uma linguagem de alto nível que fornece um ambiente para análise de dados e para a

produção de gráficos, desenvolvido pela primeira vez no início da década de 90, por Ross Ihaka

e Robert Gentleman. O R é um dialeto da linguagem S, desenvolvido por John Chambers e

colegas na Bell Laboratories (agora detida pela Lucent Technologies) como uma linguagem de

programação para tarefas de análise de dados. A linguagem resultante é muito parecida com a

S, podendo ser considerado como uma implementação diferente de S. Existem algumas

diferenças importantes, porém, muito do código escrito para S pode ser executado inalterado

sob R (R-Project, 2018).

O projeto R pode ser considerado como uma plataforma para as atividades de análise de

dados e visualização de dados, exibição de gráficos, realização de cálculos, modelagem

preditiva, desenvolvimento de software de DM, entre outras coisas. O R contem um enorme

conjunto de pacotes disponíveis gratuitamente, nas quais fornecem algoritmos para todo tipo

de DM, Machine Learning e técnicas estatísticas. Com os mais de 5000 pacotes lançados

publicamente, é possível realizar análises de dados bastante complexos, pois, este enorme

conjunto de pacotes disponíveis permite a análise de diferentes tipos de estatística. Assim,

podemos considerar que um dos pontos positivos da ferramenta R é a extrema eficiência na

análise de dados. Por outro lado, como é uma linguagem desenvolvida sobretudo para suportar

cálculos assentes em vetores e matrizes, um dos pontos negativos é a curva de aprendizagem

íngreme para quem não está familiarizado com esta linguagem de vetores e matrizes. (Venables

& Smith, 2017).

Como a ferramenta R se apresenta com capacidades de DM e como a base do PDME,

esta irá ser utilizada para o desenvolvimento do artefacto proposto na dissertação.

40

2.6 Data Mining no Dóminio da Saúde

2.6.1 Conceito de Saúde, Hospital e Medicina Intensiva

Historicamente, a palavra saúde apareceu por volta do ano 1000. A palavra proveniente

do inglês antigo estava associada ao funcionamento fisiológico, à solidez mental e moral, e à

salvação espiritual. Para os antigos gregos, a saúde sempre foi um atributo de extrema

importância, exercendo um grande impacto nas visões ocidentais da saúde. Ao longo do tempo

com os avanços nos campos da medicina, da ciência, da sociologia, da psicologia e da política,

as teorias mais filosóficas da saúde começaram a ser substituídas pelas mais científicas

(Boruchovitch & Mednick, 2002).

Tradicionalmente o conceito de saúde foi visto como um estado sem doença. Esta visão

da saúde foi aceite durante a primeira metade do século XX, principalmente entre os médicos.

Este conceito tradicional baseou-se no pressuposto de que a saúde e a doença eram fenômenos

observáveis, sendo definida apenas em termos de falta de doença, sintomas, sinais ou problemas

(Boruchovitch & Mednick, 2002).

“Saúde é o estado de completo bem-estar físico, mental e social e não apenas a ausência de

doença.”

O conceito adotado pela Organização Mundial de Saúde (OMS) em 1948, é, uma

definição ilusória, longe de ser uma realidade, simbolizando apenas o caminho a ser perseguido.

Nesta definição a saúde foi conceituada mais em termos de presença de qualidades absolutas e

positivas, para além dos aspetos sociais, psicológicos, físicos, econômicos e políticos que foram

incorporados na definição. A nova visão da saúde, no entanto também apresenta algumas

desvantagens, uma vez que as qualidades de bem-estar e bem-estar ainda não foram claramente

definidas. Esta é uma visão holística e mais utópica da saúde, uma vez que, implica uma ideia

de um estado perfeito que é irrealista e inalcançável (Boruchovitch & Mednick, 2002) (Alves,

2015) (Abreu et al., 1997).

Já o conceito ecológico de saúde, emergiu nas décadas de 60 e 70, com uma abordagem

diferentes das anteriores principalmente em dois aspetos: projetar a saúde como um conceito

mais relativo e colocar uma maior ênfase nas inter-relações entre o meio ambiente e a qualidade

de vida do indivíduo. Sendo assim fortemente baseada numa na adaptação da pessoa ao meio

ambiente (Boruchovitch & Mednick, 2002).

41

Definir o conceito de saúde de uma forma simples é extremamente complicado, a própria

compreensão de saúde é altamente subjetiva e temporal, uma vez que as sociedades se

consideram mais ou menos saudáveis dependendo do momento, do referencial e dos valores

que atribuam a uma situação (Boruchovitch & Mednick, 2002) (Alves, 2015).

Existem diversos fatores que condicionam a saúde humana, como por exemplo, se os

condicionantes biológicos (idade, sexo, herança genética), o meio físico (condições

geográficas, qualidade de água para consumo e dos alimentos, condições de habitação), o meio

socioeconómico e cultural, com forte influencia na recuperação da saúde e na qualidade do

mesmo. A saúde é assim produto do estilo de vida e das condições de existência (Alves, 2015).

Atualmente os serviços de saúde dispõe não só de grandes conhecimentos, mas também

de tecnologias, que aplicadas na prevenção e reabilitação podem melhorar a qualidade da vida

das pessoas (Alves, 2015).

O primeiro Hospital operacional, em que de fato ocorriam atividades de tratamento a

doenças, foi provavelmente estabelecido no ano 600 em Paris (Griffin, 2006). Isto porque à

data ainda não havia nenhum sistema hospitalar, os locais de tratamento a doenças eram

temporários, noutras casos eram realizadas na casa do doente ou médico. Somente no ano de

1780 é que se toma consciência de que o hospital deve ser visto como uma instituição com

propósitos de cura e recuperação acessíveis a todas as pessoas. No principio os hospitais eram

frequentados essencialmente por pessoas pobres, com fracas condições financeiras (Reiser

1981) (Griffin, 2006). Hoje em dia os hospitais continuam a crescer dinamicamente, e a servir

pessoas, reagindo as necessidades da sociedade através do crescimento tecnológico, novos

serviços, e melhor acesso (Griffin 2006).

Geralmente, o Hospital é definido como o local onde se oferecem cuidados de saúde a

pessoas, constituído por diferentes departamentos para suportar as diversas especializações dos

profissionais do sector, sendo também equipado com tecnologias médicas sofisticadas (Griffin

2006) (Lameirão, 2007). Desta forma, as Tecnologias e os Sistemas de Informação (SI) são

para a Saúde uma ferramenta de extrema importância, ajudando na crescente melhoria da

prestação de cuidados de saúde (Lameirão, 2007).

A gestão hospitalar foi-se tornando cada vez mais complexa, assim como os serviços

médicos prestados, tendo sido possível atender pessoas em situações cada vez mais instáveis e

de maior risco eminente de vida. A Medicina Intensiva (MI) tem como objetivo especifico de

prever, diagnosticar e tratar situações de doença critica e potencialmente reversíveis, em

doentes com falência de uma ou mais funções vitais. Os feridos graves da II Guerra Mundial,

da Guerra do Camboja e Vietname, levantaram a necessidade de uma resposta rápida para o

42

tratamento de doentes críticos, surgindo assim a MI. Num mundo em crescente fragmentação

e especialização de conhecimento, a capacidade de abordar doentes graves, de forma integrada

e multidisciplinar, é cada vez mais importante. Devido à evolução e ao aumento da relevância

da MI, esta área tornou-se não só numa especialidade, mas também parte do organigrama

hospitalar (Paiva et al., 2017).

2.6.2 Aplicações de DM na Área de Saúde

O setor da saúde cada vez é mais uma comunidade baseada no conhecimento que está

conectando hospitais, clínicas e farmácias para compartilhar conhecimento, reduzir os custos e

melhorar a qualidade dos cuidados (Bose, 2002). Isto levou a que na área de saúde, o DM se

torne cada vez mais popular e essencial, mas também devido a maior dependência dos cuidados

de saúde nos dados, que são cada vez mais volumosos e complexos para serem analisados por

métodos tradicionais (Koh & Tan, 2005).

Existe um grande potencial para a aplicação de DM nos cuidados de saúde. As

organizações de saúde são direcionadas para o uso da informação do paciente. Os profissionais

de saúde defrontam o problema de usar dados armazenados de forma eficiente devido ao grande

volume de dados, levando a que, uma das chaves do sucesso destas organizações seja a

capacidade de fazer uso das bases de dados, de forma, a extrair toda a informação útil para os

cuidados de saúde. Os sistemas de informação de saúde contêm um grande volume de

informações que incluem informações sobre pacientes, diagnóstico de médicos e informações

de monitoramento, úteis em muitos sistemas médicos para salvar vidas (Milovic & Milovic,

2012).

Todas organizações de saúde deviam ter capacidade para analisar dados, pois, todos os

registros de tratamento de milhões de pacientes podem ser armazenados, tal como em outras

áreas o armazenamento de informação na saúde cresce cada vez mais, e as técnicas de DM

podem ajudar a responder a questões importantes e críticas. Isto, porque é possível extrair

conhecimentos interessantes, úteis e com regularidade pelas técnicas de DM (Milovic &

Milovic, 2012). Por outras palavras, as ferramentas de DM têm o potencial de gerar

conhecimento útil que pode contribuir para melhorar significativamente a qualidade das

decisões clínicas. (Srinivas et al., 2010).

Como ferramenta, o DM, é fundamental para analisar os dados gerados pelos Sistemas

de Informação Hospitalar (SIH), conseguindo modelos e padrões que melhoram os

diagnósticos, os tratamentos, a própria assistência ao paciente e o uso mais eficiente dos

43

recursos. Um dos pontos facilitadores para o uso desta ferramenta nos SIH, é a similaridade dos

objetivos de negócios dos diversos hospitais, bem como, a informação que é recolhida.

Significa isto, que os processos de DM são muito semelhantes nos diferentes hospitais, apesar

de os modelos extraídos serem bastante diferentes. (Alapont et al., 2005).

A utilização do DM pode auxiliar o profissional de saúde na MI ao analisar os dados,

detetando assim, problemas antecipadamente. Além de que também poderia ser utilizado para

gerar modelos que ajudam a decidir o melhor tratamento clinico. O ser humano só têm

capacidade para lidar com 7 diferentes parâmetros, enquanto um paciente na MI é descrito com

mais de 250 parâmetros, desta forma, é demasiada informação para um ser humano analisar.

Assim, os modelos de previsão na MI são um instrumento essencial que ajudam a prever

resultados interessantes para apoiar a tomada de decisões clínicas (Guiza et al., 2006) (Bellazzi

& Zupan, 2006).

O DM permite que organizações de saúde prevejam ou descubram tendências e padrões

no comportamento e condições do paciente através da análise de dados de diferentes

perspetivas, descobrindo conexões e relações nas informações supostamente não relacionadas

(Milovic & Milovic, 2012). Por exemplo, usando dados do paciente como idade, sexo, pressão

e açúcar no sangue, consegue-se prever a probabilidade de os pacientes terem uma doença

cardíaca (Srinivas et al., 2010). As tecnologias de DM, permitem também que os profissionais

de saúde possam prever fraudes na saúde, pacientes sub-diagnosticados, custos de saúde,

prognóstico e diagnóstico da doença, e o tempo de permanência num hospital, para além de,

detetar fraudes, abusos, tratamentos mais efetivos e melhores práticas (Yoo et al., 2011) (Koh

& Tan, 2005). Desta forma podemos constatar que o uso de ferramentas DM com algoritmos

avançados tem um enorme potencial para explorar padrões ocultos nos conjuntos de dados

complexos e de domínio medico (Soni et al., 2011) (Adnan et al., 2012). Esta modelagem

preditiva leva a um melhorar da tomada de decisões, ajudando os clínicos a melhorar seu

serviço de saúde, auxiliando a deteção de regularidades, tendências e eventos inesperados a

partir dos dados (Adnan et al., 2012) (Koh & Tan, 2005).

Apesar do grande volume de dados disponíveis na área da saúde, estes são amplamente

distribuídos e de natureza heterogénea, precisando de ser armazenados de forma organizada,

para depois, serem integrados resultando num sistema de informação hospitalar (Soni et al.,

2011). Esta heterogeneidade, proveniente por exemplo de paciente na MI através de dados

demográficos, históricos e de equipamentos de monitorização, requerem dispositivos com boas

capacidades de armazenamento e novas ferramentas para analisar os dados. (Cios & Moore,

2002) (Guiza et al., 2006). Em grande parte dos casos, a qualidade dos dados na saúde é inferior

44

à encontrada em outras áreas. devido a muitas razões. Umas das razões é pelo fato de os dados

médicos conterem inevitavelmente muitos valores em falta, isto porque, os pacientes com a

mesma doença nem sempre são submetidos a exames idênticos, resultando assim, em

diferentes, e às vezes mais ou menos, dados. Isto leva a que também apareçam muitas vezes

dados com ruido. O ruido surge, quando os dados são inseridos manualmente e por diferentes

pessoas sendo difícil a sua interpretação, mas também surge, através de imprecisões e falhas de

dispositivo de monitorização. (Guiza et al., 2006) (Yoo et al., 2011). Para além disso,

habitualmente os dados médicos englobam atributos de séries temporais (as datas em exames

são muito importantes do ponto de vista clínico), lidando desta forma com conjuntos de dados

que incidem no elemento temporal (Yoo et al., 2011). Os métodos de DM na área de saúde

devem assim abordar a heterogeneidade de fontes de dados, as estruturas dos dados e os valores

em falha (Cios & Moore, 2002). Dito isto, os dados médicos são ao mesmo tempo os mais

gratificantes e difíceis para o DM.

Uma das primeiras aplicações do DM na área de saúde foi KEFIR (Key Findings

Reporter). Este analisava automaticamente as mudanças de todas as variáveis relevantes,

extraindo as mais importantes, para depois adicionar recomendações de especialistas sobre

quais ações a serem tomadas em resposta às mudanças (Milovic & Milovic, 2012).

Devido ao aumento de comportamentos fraudulentos o nos sistemas de seguro saúde,

investigadores da Universidade Changhua de Taiwan, propuseram um processo de DM para

detetar casos fraudulentos nos sistemas de saúde de forma automática. Aplicando técnicas de

DM a partir de dados de clínicos pretendem construir modelos de forma a que seja possível

distinguir, automaticamente, comportamentos fraudulentos de comportamento normais. Foram

recolhidos dados de 2543 pacientes divididos em dois conjuntos de dados, um com os casos

normais e outro os fraudulentos. As técnicas DM utlizadas foram Regressão e Classificação e

o algoritmo para indução (classificação de uma ocorrência como normal ou fraudulenta) foi o

CBA (Classification Based on Associations).Os melhores resultados obtidos foram 64% para a

sensibilidade, que corresponde à percentagem de casos fraudulentos detetados em relação ao

total dos casos fraudulentos existentes, e 67% para a especificidade, que corresponde à

percentagem de casos normais detetados em relação ao total de casos normais (Muniz, 2018).

Com o objetivo de descobrir informações não triviais de forma auxiliar a monitorização

do controlo de hipertensão, os investigadores do Departamento de Ciência da Computação da

Pohang University e Yonsei University, da Coréia do Sul, aplicaram técnicas de DM na base

de dados KMIC (Korea Medical Insurance Corporation). Selecionaram aleatoriamente 127.886

beneficiários de uma população. Estes continham dados como pressão, taxa de glicose,

45

colesterol, altura, peso recolhidos durante o exame físico realizado bienalmente. A técnica de

regressão foi utilizada para identificar os fatores de risco para hipertensão. Utilizaram também

a técnica de previsão através de uma árvore de decisão em que este considerava as variáveis

definidas pela técnica de regressão como fatores de risco, determinando a tendência de um

paciente para a hipertensão. Os algoritmos, utilizados na previsão foram CHAID e C5.0. Já a

técnica de associação foi utilizada para identificar a ocorrência de relações entre a identificação

de hipertensão e as variáveis de risco. Os resultados da técnica de regressão mostraram que

variáveis recolhidas são excelentes indicadores da hipertensão. A técnica de previsão que define

a probabilidade da pessoa vir a sofrer de hipertensão, teve uma sensibilidade de 76.3%, pelo

algoritmo CHAID. Por fim, a técnica de associação permitiu definir um grande número de

associações entre os fatores de riscos (Muniz, 2018).

Segundo a OMS, ocorrem por ano cerca de 12 milhões de mortes devido a doenças

cardíacas. O termo doença cardiovascular (DCV), inclui uma grande gama de condições que

afetam o coração e os vasos sanguíneos e a forma de como o sangue é bombeado e circulado

pelo corpo. A DCV tem como consequência muitas outras doenças, deficiências e mortes, sendo

de extrema importância, o diagnostico desta doença. Doença cardíaca coronária e

cardiomiopatia e doenças são outras doenças que pertencem à categoria de doenças cardíacas.

Um sistema de diagnóstico médico automático seria extremamente vantajoso. Desta forma um

grupo de investigadores, decidiu analisar as diferentes técnicas de DM (preditivas e descritivas)

propostas nos últimos anos para o diagnóstico de doença cardíaca. Aplicaram técnicas de DM

através de um conjunto de dados, com 909 registos e 15 variáveis médicas, obtidos da base de

dados Cleveland Heart Disease. O Algoritmo Naive Bayes mostrou ser o mais eficiente com

uma percentagem de predições corretas de 86.53% para pacientes com doenças cardíacas,

seguindo se a Rede Neuronal e Arvore de Decisão. Apesar disto, o algoritmo Arvore de

Decisão, em comparação com os outros dois, é o mais eficaz para prever pacientes sem doenças

cardíacas. (89%) (Soni et al., 2011).

Para uma maior eficácia do tratamento, varias organizações ligadas à saúde, usam

aplicações de DM. Um desses casos, é a United HealthCare, que extraiu os dados do registro

de tratamento para assim encontrar formas de reduzir custos e oferecer os melhores

medicamentos. Para além disso, desenvolveu perfis clínicos para proporcionar aos médicos

informações sobre as tendências da sua prática e compará-los com os de outros. Em 1999, o

Hospital de Florida, projetou-se ao lançar as melhores práticas clínicas com o objetivo de

desenvolver um caminho padrão no atendimentos clínico e nas admissões de pacientes, através

de aplicativos de DM (Koh & Tan, 2005).

46

A ferramenta de DM pode também ser um grande auxilio na gestão de saúde,

identificando estados de doenças crónicos, pacientes de alto risco, para além de projetar

intervenções apropriadas. No Seton Medical Center para manter e melhorar a qualidade dos

cuidados de saúde, fez-se em vários esforços para o uso de DM, permitindo assim diminuir o

tempo de permanência do paciente, evitar complicações clinicas e fornecer as melhores

informações para os médicos. Outro exemplo, é o caso da Blue Cross, que vem implementando

iniciativas de DM para melhorar os resultados e reduzir despesas. Usando departamento de

emergência, os dados hospitalares, registos farmacêuticos e entrevistas com médicos, procuram

identificar asmáticos desconhecidos e desenvolver intervenções preciosas (Koh & Tan, 2005).

2.6.3 INTCare

A implementação de Sistemas Inteligentes de Suporte à Decisão nos Cuidados

Intensivos tem estado em crescimento e cada vez mais importante no processo de tomada de

decisão dos profissionais de cuidados intensivos, querendo desta forma, um sistema que ajude

no processo de decisão fornecendo conhecimento importante a qualquer momento e em

qualquer lugar. Para isso, é necessário um sistema com capacidade de operar de forma

automática e em tempo real, proporcionando resultados no momento certo para a decisão. A

dificuldade destes sistemas, que operam em ambientes críticos, é o processamento e

transformação de dados automaticamente e em tempo real (Portela, 2013).

De forma a solucionar este tipo de problema, foi desenvolvido o projeto INTCare. Uma

das razões para o desenvolvimento deste projeto foi a obtenção de bons resultados em modo

offline. É um projeto de investigação em continuo desenvolvimento envolvendo a Unidade de

Cuidados Intensivos do Centro Hospitalar do Porto. Depois de novos bons resultados houve a

necessidade transformar o sistema, num sistema pervasivo, isto porque, o ambiente crítico,

presente nestas unidades devido às situações de saúde complexa, tem características e

necessidades singulares, como a rapidez, eficiência, segurança, e operações em tempo real

(Portela et al., 2013) (Portela et al., 2011). O INTCare tem como objetivo implementar um

Sistema Inteligentes de Suporte à Decisão, para a MI, usando técnicas de DM para fazer

previsões sobre falhas de sistemas de órgãos. Este sistema apresenta características pervasive,

podendo assim ser acedido a qualquer momento e em qualquer lugar (Portela, 2013). As

tecnologias baseadas na Computação Pervasiva de Saúde permitem a aplicação de tarefas

remotas, podendo ser definida como "cuidados de saúde para qualquer um, a qualquer momento

e em qualquer lugar, removendo o local, o tempo e outras restrições, aumentando tanto o

47

cobertura e qualidade dos cuidados de saúde" (Portela et al., 2011). O acesso remoto aos dados

de saúde e as previsões das condições do paciente realizada pelo sistema INTCare pode também

ajudar a indicar os melhores procedimentos, tratamentos e terapias (Portela et al., 2011).

o INTCare utilizando dados de transmissão (data streaming) e processos de transformação de

dados em tempo real, prevê não só a falha do órgão como o estado do paciente nas próximas

24 horas, durante os primeiros cinco dias de permanência (Portela et al., 2015). Para atingir

estes objetivos foi preciso desenvolver um sistema de processamento e armazenamento de

dados em tempo real, podendo receber e processar automaticamente os dados do paciente,

colocando-o disponível para conhecimento no momento (Portela, 2013). Assim, este sistema é

composto por vários agentes semiautomáticos, responsáveis por automatizar a recolha dos

dados, processar e tratar os dados, e prever os resultados em tempo real, não requerendo assim,

qualquer intervenção humana (Portela et al., 2015). Abordando assim processo de Descoberta

de Conhecimento em Bases de Dados automaticamente e em tempo real (Portela, 2013). O

INTCare pode ser decomposto em quatro subsistemas: recolha de dados, gestão do

conhecimento, inferência e interface do utilizador. Os agentes de recolha de dados são usados

no processo DCBD para obter dados a partir de fontes de dados da UTI. Já os agentes da gestão

de conhecimento são utilizados para induzir modelos de DM do Data Warehouse para depois

armazená-los numa base de conhecimento. Na inferência, todos os cenários gerados por DM

são avaliados e o melhor resultado para cada target é disponibilizado pelo sistema INTCare

(Portela et al., 2015). Por último, o agente da interface recebe os resultados obtidos e permitindo

uma interação através da consulta do utilizador aos dados (Gago et al., 2006). Estes agentes

permitem o desenvolvimento de um sistema automatizado de forma a executar várias tarefas

em tempo real (Portela et al., 2015).

Quando se definiu as funcionalidades, que são do sistema INTCare teve-se em

consideração o meio ambiente, as necessidades de informação e os requisitos de DM. Desta

forma, vários conceitos e tecnologias foram exploradas: aprendizagem on-line, tempo real,

transmissão de dados, modelos de DM, modelos de decisão, otimização, agentes inteligentes,

pervasive, precisão, segurança, privacidade, acesso seguro do exterior e políticas de utilizador.

Paralelamente, para o sucesso do INTCare, dois objetivos relacionados com processo de DM

foram considerados essenciais. O primeiro é garantir uma execução certa do processo em tempo

real, que passa pela aquisição de dados, transformação de dados, até à indução de conjunto de

dados. O segundo é garantir uma avaliação constante e contínua dos modelos de DM (Portela

et al., 2015).

48

Figura 11- Sistema INTCare (Retirada de (Santos, 2011))

49

3. ABORDAGEM METODOLÓGICA

Todo o processo de Data Mining (DM) é de certa forma complexo, por isso, a utilização

de metodologias para facilitar o seu desenvolvimento torna-se inevitável. Assim, neste capitulo

serão apresentadas as abordagens metodológicas utilizadas para o desenvolvimento deste

projeto de dissertação. Serão então seguidas duas metodologias: o Design Science Research

(DSR) como metodologia de investigação, e o Cross-Industry Standard Process for Data

Mining (CRISP-DM) para o processo de DM.

3.1 Design Science Research

Esta metodologia incorpora um conjunto de técnicas que conduzem a uma pesquisa

cientifica de alta qualidade, valiosas e rigorosas, para a área de Sistemas de Informação, e tem

como principal objetivo o desenvolvimento de artefactos, destinados a resolver problemas

identificados, com a intenção explícita de melhorar o desempenho funcional do artefacto.

Segundo Peffers et al. (2007), o DSR é constituído por seis fases. Numa primeira fase passa por

identificar o problema e definir a importância do mesmo, seguindo-se a definição dos objetivos

da solução. Numa outra fase realiza-se a resolução do problema identificado através do

desenvolvimento de um artefacto, para depois, se efetuar a demonstração e avaliação da solução

desenvolvida. Esta avaliação passa por observar se a solução é realmente efetiva e eficiente,

para que no fim se comunique os resultados através de publicações. Este processo é estruturado

e segue geralmente uma ordem sequencial, apesar de que na realidade é possível começar em

qualquer fase e retroceder a outras fases, sendo então normal a existência de iterações no

processo. Caso seja uma abordagem centrada num problema começa-se pela atividade de

identificação do problema e motivação. Já numa abordagem ser centrada nos objetivos, o

processo inicia-se na atividade dois, a definição de objetivos. Uma abordagem centrada no

design e desenvolvimento começaria com a atividade três, em que resultaria da existência de

um artefacto que ainda não tivesse sido formalmente pensado como uma solução para o

domínio do problema. Por ultimo, uma solução iniciada por cliente pode ser fundamentada

numa observação de uma solução prática que funcionou, este começa com a atividade de

demonstração. (Peffersa et al., 2007).

50

Figura 12 - Fases do Design Science Research (Adaptada de (Peffers et al., 2007))

As fases desta abordagem metodológica podem ser descritas como:

1. Identificar problema e motivação (Identify Problem and Motivate)

Esta fase define o problema de pesquisa específico, ou seja, de uma questão de

investigação, para além de justificar o valor da solução. Visto que a definição do problema é

usada para desenvolver uma solução eficaz, este pode ser útil para enquadrar o problema

conceptual de modo a que a solução possa demonstrar a sua complexidade. Justificar o valor

de uma solução permite motivar o investigador a procurar a solução e aceitar os resultados que

ajudam a perceber o raciocínio. Os recursos essenciais para esta atividade são o conhecimento

do estado do problema e a importância da sua solução; (Peffersa et al., 2007).

2. Definir objetivos de uma solução (Define Objectives of a Solution)

São definidos os objetivos de uma solução a partir da definição do problema e da

compreensão do que é possível e viável. Os objetivos definidos podem ser quantitativos ou

qualitativos, sendo detetado das especificações do problema. Os recursos necessários para

definir os objetivos passam pelo conhecimento do estado dos problemas e pelas soluções atuais

já existentes; (Peffersa et al., 2007).

3. Conceção e Desenvolvimento (Design and Development)

É nesta fase que o artefacto é criado. Estes artefactos podem ser definidos de uma forma

ampla em construções, modelos, métodos ou instâncias. Esta atividade inclui a determinação

das funcionalidades desejadas, da arquitetura e, por fim, o desenvolvimento do artefacto real.

Os recursos necessários para que se possa passar dos objetivos para a conceção e

desenvolvimento incluem conhecimento teórico para realizar a solução; (Peffersa et al., 2007).

51

4. Demonstração (Demonstration)

Utilização do artefacto para resolver uma ou mais instâncias do problema inicial, por

experiência, simulação, estudos do caso, testes, ou outra atividade apropriada. Para a

demonstração os recursos necessários incluem o conhecimento de como se deve utilizar o

artefacto para resolver o problema; (Peffersa et al., 2007)

5. Avaliação (Evaluation)

Esta fase permite uma observação e medição do quão bem o artefacto suporta uma

solução ao problema, ou seja, permite saber a qualidade do artefacto em relação à resolução do

problema. Esta atividade consiste na comparação dos objetivos de uma solução com os

resultados observados na demonstração. Dependendo da natureza do problema e do artefacto

local, a avaliação pode assumir diversas formas. Podem ser incluídos a comparação das

funcionalidades dos artefactos com os objetivos da solução, as medidas de desempenho

quantitativas, ou as medidas capazes de quantificar o desempenho do sistema, como resposta

de tempo ou disponibilidade. No final desta atividade é decidido se se deverá voltar para a fase

de Conceção e Desenvolvimento de forma a melhorar a eficácia do artefacto ou se deve

prosseguir para a fase da comunicação e deixar mais melhorias para projetos posteriores;

(Peffersa, Rothenbergerc, Chatterjeed, & Tuunanenb, 2007).

6. Comunicação (Communication)

Comunicações do problema e a importância do artefacto, tal como da sua utilidade e

novidade para investigadores e outros públicos-alvo relevantes. Nas publicações de pesquisas

académicas, podem-se usar a estrutura deste processo para estruturar o documento, do mesmo

modo que a estrutura nominal de um processo de pesquisa é uma estrutura comum para

trabalhos de pesquisa empírica. A comunicação exige conhecimento da cultura disciplinar;

(Peffersa, Rothenbergerc, Chatterjeed, & Tuunanenb, 2007).

52

3.2 CRISP-DM

Como o DM é um processo complexo, a melhor forma de facilitar a sua compreensão,

implementação e desenvolvimento, é adaptar o mesmo a uma metodologia sólida e eficaz. O

Cross Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia específica

de aplicação em projetos de DM. Segundo Chapman (2000) a metodologia CRISP-DM é

descrita como sendo um modelo de processo hierárquico, constituindo-se em conjuntos de

tarefas descritas em quatro níveis, do mais geral para o mais específico, sendo elas: fase, tarefa

genérica, tarefa especializada e instância de processo. No nível superior, o mais geral, o

processo de DM é organizado em 6 diferentes fases, nas quais cada fase consiste em várias

tarefas genéricas. Estas tarefas são conhecidas como genéricas, pois tencionam cobrir e

abranger todo o processo de um projeto de DM, portanto, as tarefas devem ser tão completas e

estáveis quanto possível. O nível de tarefa especializado, é onde se descreve como as ações nas

tarefas genéricas devem ser realizadas. Já no nível das instancias do processo, são registadas as

ações, decisões e resultado alcançados durante o processo de DM. A metodologia CRISP-DM

fornece uma visão geral do ciclo de vida de um projeto de DM, abrangendo as fases do projeto,

as suas respetivas tarefas e as relações entre essas tarefas. O ciclo de vida de um projeto de DM

é dividido em seis fases dependentes, sendo que, a sequência das fases não é fixa, ou seja, não

terá necessariamente que ser processado pela ordem apresentada.

Figura 13 - Fases da Metodologia CRISP-DM (Adaptada de (Chapman et al., 2000))

53

De seguida são descritas as fases do ciclo de vida do CRISP-DM, segundo Chapman

(2000):

1. Compreensão do negócio (Business Understanding)

Esta primeira fase concentra-se na perceção dos objetivos e requisitos do projeto do

ponto de vista do negocio. Com o conhecimento assimilado deve-se definir o problema de DM

e o plano preliminar para se atingir os objetivos. As tarefas genéricas desta fase são: determinas

os objetivos de negocio, avaliar a situação atual, determinar os objetivos de DM e produzir um

plano do projeto.

2. Compreensão dos dados (Data Understanding)

Esta fase inicia-se com a recolha inicial dos dados, seguindo depois com um conjunto

de atividades que permitem uma compressão e identificação de problemas de qualidade nos

dados, para além, de permitir descobrir as primeiras informações sobre os dados, sobretudo

informação relevante. Já nesta fase, as tarefas genéricas são: recolha inicial dos dados,

descrever os dados, explorar os dados e verificar a qualidade dos dados.

3. Preparação dos dados (Data Preparation)

A fase de preparação dos dados abrange todas as atividades essenciais para a construir

um conjunto final de dados a partir dos dados iniciais. Para chegar à construção desse conjunto

final de dados processa-se a seleção das tabelas, campos e registo, assim como, a transformação

e limpeza dos dados para as ferramentas de modelação. As tarefas de preparação dos dados são

suscetíveis de ser realizadas várias vezes, não tendo qualquer ordem estabelecida. Assim esta

fase compreende as seguintes tarefas genéricas: selecionar dados, limpar dados, construir

dados, integrar dados e formatar dados.

4. Modelação (Modeling)

Nesta fase são selecionadas e aplicadas varias técnicas de modelação, mas também os

parâmetros são ajustados para se obter os resultados otimizados. Habitualmente, encontram-se

diversas técnicas para um mesmo tipo de problema de DM, das quais, algumas exigem

requisitos específicos sobre a forma dos dados. Isto significa, que por vezes, é necessário voltar

à fase de preparação para formatar os dados de forma a poderem ser recebidos pela técnica de

modelação a utilizar. As tarefas genéricas que fazem parte desta fase são: selecionar técnicas

de modelação, criar uma conceção do teste, construir modelos e rever modelos.

5. Avaliação (Evaluation)

Por esta fase já se construiu um ou mais modelos com qualidade, porém antes de se

proceder à implementação final, é recomendado avaliar o modelo e rever todos os passos

executados na construção do modelo, para garantir que os objetivos dos negócios são

54

devidamente atingidos. Um dos objetivos mais importante é averiguar se existe algum problema

no negocio que não foi devidamente analisado, para que quando acabasse esta fase, seja

possível tomar a melhor decisão sobre a utilização dos resultados de DM. Fazem parte desta

fase as tarefas genéricas: avaliar os resultados, rever o processo e determinar os próximos

passos.

6- Implementação (Deployment)

A fase de implementação dependendo dos requisitos, pode ser simplesmente, gerar

relatórios, ou, por outro lado, mais complexa com o a implementação de um processo de DM

em toda organização. Em muitos casos, é o utilizador e não o analista de dados, que realiza as

tarefas de implementação, mas, mesmo que seja realizado pelo analista de dados é necessário

compreender o que é implementado, de forma a realmente se fazer uso dos modelos. As tarefas

genéricas desta fase são: planear avaliação de resultados, planear monitorização e manutenção,

produzir relatório final e rever projeto.

55

4. PLANO DE ATIVIDADES

4.1 Planeamento

Um planeamento eficiente do projeto é fundamental, pois, permite evitar o risco de

fracasso estando assim mais perto de alcançar o sucesso do projeto. No planeamento do projeto,

realizado através da ferramenta Microsoft Project, estão representadas as atividades, as datas

de realização e fim, e as precedências, para o período de 25 de outubro de 2018 (data do 1º

contato após aceitação do tema de dissertação) até 19 de outubro (prazo limite para submissão

da dissertação). O planeamento foi realizado com base nas fases da metodologia Design Science

Research e CRISP-DM, onde as duas partes se juntaram e interligaram.

Este projeto é composto por 3 entregas principais: entrega do projeto de dissertação, do

artigo científico e da dissertação Em alguns momentos certas atividades são realizadas

simultaneamente. De realçar que no planeamento encontram-se agendadas reuniões mensais

com os orientadores. Assim, a figura x demonstra, como já referido, toda a estruturação do

planeamento criado para esta dissertação.

Em anexo encontra-se o Diagrama de Gantt (Figura 15), onde é representado

graficamente as atividades do projeto, possibilitando desta forma um ponto de vista, em que, é

mais fácil observar ao longo do tempo as relações e as precedências entre as atividades.

56

Figura 14 - Planeamento Detalhado

57

4.2 Lista de Riscos

A capacidade de gerir os riscos é um dos elementos mais importantes no planeamento de

um projeto com elevada complexidade, sendo que, pela identificação previa dos riscos

consegue-se prevenir da melhor forma problemas no desenvolvimento do projeto. Desta forma

foi criada uma tabela onde estão não só identificados os riscos associados ao projeto, mas

também, a sua probabilidade, impacto e seriedade. Para além disso, são definidas ações a tomar

para atenuar os riscos. O impacto e a probabilidade são representados numa escala de 1 a 5 (o

1 corresponde ao mínimo e o 5 corresponde ao máximo). Por sua vez, a seriedade é calculada

através da multiplicação do nível impacto com o nível de probabilidade. A tabela é organizada

por ordem decrescente de seriedade.

Tabela 1 - Lista de Riscos

Risco Probabilidade

[1 – 5]

Impacto

[1– 5]

Seriedade

[P*I]

Ação Atenuante

Complexidade

elevada do Projeto

3

5

15

Replanear

tarefas;

Aumentar tempo

das tarefas;

Auxilio dos

orientadores.

Complexidade

elevada das

Ferramentas

3

5

15

Consulta de

tutoriais e

documentação.

Perda de

informação do

Projeto

1

4

4

Backups

regulares sobre o

trabalho

desenvolvido.

58

Avaria da Máquina

1

4

4

Utilizar ou

comprar outra

máquina;

Recuperar os

dados pelas

cópias de

segurança.

Má Gestão do

Projeto

3

3

9

Utilizar as

ferramentas de

gestão de

projeto; Ajustar

planeamento do

projeto.

Atraso nos Prazos

de Entrega

2

4

8

Adiar prazos;

Ajustar o plano

do projeto.

Fraca Qualidade dos

Dados

2

4

8

Analisar

identificar os

erros dos dados;

Auxilio dos

orientadores para

melhor

compreensão dos

dados.

Falta de

Disponibilidade

Entre Aluno e

Orientadores

2

2

4

Agendar

reuniões;

Contacto regular

entre as partes

interessadas.

59

Má Interpretação

dos Requisitos e

Objetivos Esperados

4

3

12

Agendar reunião

com os

orientadores para

esclarecer os

requisitos e

objetivos.

Incapacidade de

atingir os

Resultados

Esperados

3

4

12

Rever e a

adequar os

resultados

esperado com os

orientadores.

61

BIBLIOGRAFIA

Abreu, A. S., Pereira, M. C. R., Soares, M. T. P., et al. (1997). Saúde. Disponível em:

http://portal.mec.gov.br/seb/arquivos/pdf/livro092.pdf

Adnan, M. H. M., Husain, W., & Rashid, N. A. (2012). Data Mining for Medical Systems: A

Review. Disponível em:

https://www.researchgate.net/publication/271366181_Data_Mining_for_Medical_Systems_A

_Review

Alapont, J., Bella, A., Ferri, C., et al. (2005). Specialised Tools for Automating Data Mining

for Hospital Management.

Alves, D. S. (2015). Saúde em Portugal: Estudo das Urgências Hospitalares através do Data

Mining. Universidade Nova de Lisboa.

Antunes, C. M., & Oliveira, A. L. (2001). Temporal Data Mining: an overview.

Arbix, G., Salerno, M. S., Toledo, D., et al. (2010). Inovação Estratégias de sete países.

Disponível em: http://www.iea.usp.br/publicacoes/textos/inovacaoestrategiasdesetepaises.pdf

Bellazi, R., & Zupan, B. (2006). Predictive data mining in clinical medicine: Current issues and

guidelines.

Boruchovitch, E., & Mednick, B. R. (2002). The meaning of health and illness: some

considerations for health psychology. Disponível em:

http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1413-82712002000200006

Bose, R. (2002). Knowledge management-enabled health care management

systems:capabilities, infrastructure, and decision-support. Disponível em:

https://pdfs.semanticscholar.org/4798/162287fb2b56c0ff25c91e8b4da9a90d4ce7.pdf

Chapman, P., Clinton, J., Kerber, R., et al. (2000). CRISP-DM 1.0 Step-by-Step Data Mining

Guide.

Cios, K. J., & Moore, G. W. (2002). Uniqueness of medical data mining. Disponível em:

https://www.eecis.udel.edu/~shatkay/Course/papers/USupportUniquenessofMedicalDataMini

ng.pdf

Dua, S., & Du, X. (2011). Data Mining and Machine Learning in Cybersecurity.

Esling, P., & Agon, C. (2012). Time series data mining.

Everitt, B. S., & Hothorn, T. (2006). A Handbook of Statistical Analyses Using R.

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge

Discovery.

Friedman, J. (1997). Data Mining and Statistics: What's the Connection?.

62

Gago, P., Santos, M. F., Silva, Á., et al. (2006). INTCare: a Knowledge Discovery Based

Intelligent Decision Support System for Intensive Care Medicine.

Gantz, J., & Reinsel, D. (2012). THE DIGITAL UNIVERSE IN 2020: Big Data,Bigger Digital

Shadow s, and Biggest Grow th in the Far East. Disponível em:

https://www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf

Goebel, M., & Gruenwald, L. (1999). A Survey Of Data Mining And Knowledge Discovery

Software Tools.

Griffin, D. (2006). Hospitals: What They are and how They Work. Jones and Bartlett.

Guiza, F., Fierens, D., Ramon, J., et al. (2006). Predictive Data Mining in Intensive Care.

Disponível em:

https://lirias.kuleuven.be/bitstream/123456789/167063/1/GuizaBenelearn06.pdf

Han, J., & Kamber, M. (2000). Data Mining: Concepts and Techniques.

Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques (3rd Ed.).

Hand, D. J., Mannila, H., & Smyth, P. (2001). Principles of Data Mining.

Jain, A. K., & Dubes, R. C. (1988). Algorithms for clustering.

KDnuggets. (2016). R, Python Duel As Top Analytics, Data Science software – KDnuggets

2016 Software Poll Results. Disponível em: https://www.kdnuggets.com/2016/06/r-python-

top-analytics-data-mining-data-science-software.html

Koh, H. C., & Tan, G. (2005). Data mining applications in healthcare. Journal of Healthcare

Information Management. Disponível em:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.92.3184&rep=rep1&type=pdf

Lameirão, S. (2007). Gestão Hospitalar e o uso dos Sistemas de Informação: Aplicação ao

CHVR-PR. Universidade de Trás-os-Montes e Alto Douro.

Laranjeiro, A. (2017). Big Data: O grande desafio é "extrair valor" dos dados. Disponível em:

http://www.jornaldenegocios.pt/negocios-iniciativas/portugal-digital-awards/detalhe/big-data-

o-grande-desafio-e-extrair-valor-dos-dados

Laxman, S., & Sastry, P. S. (2006). A survey of temporal data mining.

Maimon, O., & Rokach, L. (2010). Introduction to Knowledge Discovery and Data Mining. In

Data Mining and Knowledge Discovery Handbook (2nd Ed.).

Marin, H. F., & Galvão, N. D. (2008). Técnica de mineração de dados: uma revisão da literatura.

Mariote, L. E. (2008). Mineração de Séries Temporais de Sensores. Disponível em:

http://repositorio.unicamp.br/jspui/bitstream/REPOSIP/276076/1/Mariote_LeonardoElias_M.

pdf

Milovic, B, & Milovic, M. (2012). Prediction and Decision Making in Health Care using Data

Mining.

63

Muniz, V. E. (2018). Data Mining: conceitos e casos de uso na área da saúde. Disponível em:

https://www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

Oliveira, P. C. (2007). Séries Temporais: Analisar o Passado, Predizer o Futuro.

Paiva, J. A., Fernandes, A., Granja, C., et al. (2017). Rede Nacional de Especialidade Hospitalar

e de Referenciação: Medicina Intensiva.

Peffersa, K., Rothenbergerc, M. A., Chatterjeed, S., & Tuunanenb, T. (2007). A Design Science

Research Methodology for Information Systems Research.

Peixoto, R. (2015). Pervasive Data Mining Engine. Universidade do Minho.

Peixoto, R., Portela, F., & Santos, M. S. (2015). Towards a Pervasive Data Mining Engine -

Architecture overview.

Pereira, J. (2005). Modelos de Data Mining para Multi-Previsão: Aplicação à Medicina

Intensiva.

Portela, F., Santos, M. F., Silva. Á., et al. (2013). Data Mining for Real-Time Intelligent

Decision Support System in Intensive Care Medicine.

Portela, F., Santos, M. F., Silva. Á., et al. (2015). Towards Pervasive and Intelligent Decision

Support in Intensive Medicine – A Data Stream Mining Approach.

Ratanamahatana, C. A., Lin, J., Gunopulos, D., & Keogh, E. (2009). MINING TIME SERIES

DATA.

Reiser, S. J. (1981). Medicine and the Reign of Technology.

R-Project (2018). Disponível em: https://www.r-project.org/about.html

Saha, D., & Mukherjee, A. (2003). Pervasive computing: a paradigm for the 21st century.

Santos, M. F., & Azevedo, C. (2005). Data Mining Descoberta de conhecimento em base de

dados.

Santos, M. F., Portela, F., & Vilas-Boas, M. (2011). INTCARE : multi-agent approach for real-

time intelligent decision support in intensive medicine.

Satyanarayanan, M. (2001). Pervasive computing: Vision and challenges.

Soni, J., Ansari, U., Sharma, D., et al. (2011). Predictive Data Mining for Medical Diagnosis:

An Overview of Heart Disease Prediction. Diponível em:

https://pdfs.semanticscholar.org/fbd6/5a18f6653b56138cd5196d20e2f39de189e3.pdf

Souza, E. F. M, Peternelli, L. A., & Mello, M. P. (2007). Software Livre R: aplicação estatística.

Srinivas, K., Rani, B. K., & Govrdhan, A. (2010). Applications of Data Mining Techniques in

Healthcare and Prediction of Heart Attacks. Disponível em:

http://www.enggjournals.com/ijcse/doc/IJCSE10-02-02-25.pdf

64

Turban, E., Sharda, R., & Delen, D. (2011). Decision Support and Business Intelligence

Systems (9th Ed.).

Vance, A. (2009). Data Analysts Captivated by R’s Power. Disponível em:

http://www.nytimes.com/2009/01/07/technology/business-computing/07program.html

Venables, W. N., & Smith, D. M. (2017). An Introduction to R. R. Gentleman & R.

Weiser, M. (1991). The computer for the 21st century.

Weiss, G., & Davison, B. (2010). Data Mining. To appear in the Handbook of Technology

Management, H. Bidgoli (Ed.).

Yoo, I., Alafaireet, P., Marinov, M., et al. (2011). Data Mining in Healthcare and Biomedicine:

A Survey of the Literature. Disponível em: https://link.springer.com/article/10.1007/s10916-

011-9710-5

Zamir, O., & Etzioni, O. (1998). Web Document Clustering: A Feasibility Demonstration.

65

ANEXO I – DIAGRAMA DE GANTT

Figura 15 - Diagrama de Gantt