Uma Plataforma de Monitoramento Inteligente de Arritmia ...€¦ · 1. Engenharia de software - Dissertação. 2. Cuidados de saúde ... Dr. Gibeon Soares de Aquino Junior (Orientador)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTECENTRO DE CIÊNCIAS EXATAS E DA TERRA

DEPARTMENTO DE INFORMÁTICA E MATEMÁTICA APLICADAPROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO

MESTRADO ACADÊMICO EM SISTEMAS E COMPUTAÇÃO

Uma Plataforma de Monitoramento Inteligentede Arritmia Cardíaca em Fluxo de Tempo Real

Anderson Pablo Nascimento da Silva

Natal-RN

Fevereiro 2018

Anderson Pablo Nascimento da Silva

Uma Plataforma de Monitoramento Inteligente deArritmia Cardíaca em Fluxo de Tempo Real

Dissertação de Mestrado apresentada aoPrograma de Pós-Graduação em Sistemas eComputação do Departamento de Informá-tica e Matemática Aplicada da UniversidadeFederal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau deMestre em Sistemas e Computação.

Linha de pesquisa:Engenharia de Software

Orientador

Prof. Dr. Gibeon Soares de Aquino Júnior

Coorientador

Prof. Dr. João Carlos Xavier Júnior

PPGSC – PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃODIMAP – DEPARTAMENTO DE INFORMÁTICA E MATEMÁTICA APLICADA

CCET – CENTRO DE CIÊNCIAS EXATAS E DA TERRAUFRN – UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

Natal-RN

Fevereiro de 2018

Silva, Anderson Pablo Nascimento da. Uma plataforma de monitoramento inteligente de arritmiacardíaca em fluxo de tempo real / Anderson Pablo Nascimento daSilva. - 2018. 100f.: il.

Dissertação (mestrado) - Universidade Federal do Rio Grandedo Norte, Centro de Ciências Exatas e da Terra, Programa de Pós-Graduação em Sistemas e Computação. Natal, 2018. Orientador: Gibeon Soares de Aquino Júnior. Coorientador: João Carlos Xavier Júnior.

1. Engenharia de software - Dissertação. 2. Cuidados de saúde- Dissertação. 3. Aprendizado de máquina - Dissertação. 4.Arritmia cardíaca - Dissertação. I. Aquino Júnior, Gibeon Soaresde. II. Xavier Júnior, João Carlos. III. Título.

RN/UF/CCET CDU 004.41

Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

Elaborado por Joseneide Ferreira Dantas - CRB-15/324

Dissertação de Mestrado sob o título Uma Plataforma de Monitoramento Inteligente de

Arritmia Cardíaca em Fluxo de Tempo Real apresentada por Anderson Pablo Nascimento

da Silva e aceita pelo Programa de Pós-Graduação em Sistemas e Computação do Depar-

tamento de Informática e Matemática Aplicada da Universidade Federal do Rio Grande

do Norte, sendo aprovada por todos os membros da banca examinadora abaixo especi-

ficada:

Dr. Gibeon Soares de Aquino Junior (Orientador)Presidente

DIMAp – Departamento de Informática e Matemática AplicadaUFRN – Universidade Federal do Rio Grande do Norte

Dr. João Carlos Xavier Junior (Co-Orientador)Examinador Externo ao Programa

IMD – Instituto Metrópole digitalUFRN – Universidade Federal do Rio Grande do Norte

Dra. Thais Vasconcelos BatistaExaminador Interno

DIMAp – Departamento de Informática e Matemática AplicadaUFRN – Universidade Federal do Rio Grande do Norte

Dr. Fernando Antônio Mota TrintaExaminador Externo à InstituiçãoDC – Departamento de Computação

UFC – Universidade Federal do Ceará

Dedico este trabalho primeiramente a Deus, por ser essencial em minha vida, ao meu

pai Roberto Cláudio e a minha mãe Ana Patrícia pelos seus ensinamentos.

Agradecimentos

Agradeço em primeiro lugar a Deus que iluminou o meu caminho durante esta

caminhada.

Ao Professor e orientador Gibeon Aquino. Companheiro de caminhada ao longo do

mestrado. Que posso dizer que a minha formação, inclusive pessoal, não teria sido a

mesma sem a sua pessoa.

À minha família, por sua capacidade de acreditar e investir em mim. Mãe, seu cui-

dado e dedicação foi que deram, em alguns momentos, a esperança para seguir. Pai, sua

presença significou segurança e certeza de que não estou sozinho nessa caminhada.

À Talyanny, pessoa com quem amo partilhar a vida. Obrigado pelo carinho, e paci-

ência e por sua capacidade de me trazer paz na correria de cada semestre.

Ao meu coorientador João Carlos, que tanta ajuda forneceu para o andamento deste

trabalho.

À Instituição pelo ambiente criativo e amigável que proporciona.

Aos meus amigos do LabCoMu pelas alegrias, tristezas e dores compartilhadas.

À todos aqueles que de alguma forma estiveram e estão próximos de mim, fazendo

esta vida valer cada vez mais a pena.

A persistência é o caminho do êxito.

Charles Chaplin

Uma Plataforma de Monitoramento Inteligente deArritmia Cardíaca em Fluxo de Tempo Real

Autor: Anderson Pablo Nascimento da Silva

Orientador: Prof. Dr. Gibeon Soares de Aquino Júnior

Coorientador: Prof. Dr. João Carlos Xavier Júnior

RESUMO

A arritmia afeta milhões de pessoas. Na Europa e América do Norte, desde 2014, a fi-

brilação atrial afeta cerca de 2% a 3% da população. Uma das maneiras de detectar

arritmias é realizando um exame eletrocardiográfico é uma máquina de ECG que regis-

tra a atividade elétrica do coração e exibe esses dados como um traço em um papel,

então esses dados são interpretados por um médico e assim dado o diagnóstico. Dessa

forma, pensou-se um passo adiante em auxiliar o médico com o diagnóstico automático

de arritmia cardíaca. Dessa forma, este estudo tem como propósito planejar e desen-

volver uma plataforma inteligente capaz de monitorar e identificar arritmias cardíacas

de forma automática e notificar profissionais da saúde, familiares e pacientes em fluxo

de tempo real. Portanto, neste trabalho foram utilizados classificadores bases e comitês

classificadores, como: AdaBoost, RF J48, kNN, MLP, NB e SVM.

Palavras-chave: cuidados de saúde, aprendizado de máquina, arritmia cardíaca, tempo

real.

A cardiac arrhythmia monitoring intelligente plataformin real-time flow

Autor: Anderson Pablo Nascimento da Silva

Orientador: Prof. Dr. Gibeon Soares de Aquino Júnior

Coorientador: Prof. Dr. João Carlos Xavier Júnior

ABSTRACT

Arrhythmia affects millions of people. In Europe and North America, since 2014,

atrial fibrillation affects about 2% to 3 % of the population. One of the ways to detect

arrhythmias is by performing an electrocardiographic examination is an ECG machine

that records the electrical activity of the heart and displays this data as a trace on a

paper, then these data are interpreted by a physician and thus given the diagnosis. Thus,

it was thought a step further in assisting the physician with the automatic diagnosis of

cardiac arrhythmia. Thus, this study aims to plan and develop a smart platform capable

of automatically monitoring and identifying cardiac arrhythmias and notifying health

professionals, family members and patients in real-time flow. Therefore, we used base

classifiers and classifying committees, such as: AdaBoost, RF J48, kNN, MLP, NB and

SVM.

Keywords: healthcare, machine learning, cardiac arrhythmia, real-time.

Lista de figuras

1 Etapas da Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20

2 Eventos do ciclo cardíaco - (HALL, 2011) . . . . . . . . . . . . . . . . . p. 24

3 Ciclo do ECG - (HALL, 2011) . . . . . . . . . . . . . . . . . . . . . . . . p. 25

4 Bradicardia Sinusal (Derivação III) (HALL, 2011) . . . . . . . . . . . . . p. 26

5 Taquicardia Sinusal (Derivação I) (HALL, 2011) . . . . . . . . . . . . . p. 27

6 Fibrilação atrial (derivação I). As ondas que podem ser vistas são com-

plexos QRS e ondas T ventriculares. (HALL, 2011) . . . . . . . . . . . . p. 27

7 Flutter atrial - ritmo atrioventricular 2:1 e 3:1 (derivação I) (HALL, 2011) p. 28

8 Estruturas de tarefas de aprendizado de máquina . . . . . . . . . . . . p. 31

9 Arquitetura geral para um modelo ensemble. (NASCIMENTO, 2009) . . . p. 34

10 Processo de criação de um ensemble Bagging - (NASCIMENTO, 2009) . . p. 35

11 Processo de criação de um ensemble Boosting (NASCIMENTO, 2009) . . p. 37

12 Processo de criação de um ensemble Stacking . . . . . . . . . . . . . . p. 38

13 Monitor Multiparamétrico Omni 612 . . . . . . . . . . . . . . . . . . . p. 40

14 Veículos e Base de dados dos Artigos . . . . . . . . . . . . . . . . . . . p. 48

15 Artigos Publicados ao longo dos anos . . . . . . . . . . . . . . . . . . . p. 49

16 Classificadores de Aprendizado de Máquina . . . . . . . . . . . . . . . p. 49

17 Categorização das Áreas de Saúde . . . . . . . . . . . . . . . . . . . . p. 51

18 Quantitativo de artigos por tipo de pesquisa . . . . . . . . . . . . . . . p. 52

19 Abstração da Plataforma em 3 Camadas . . . . . . . . . . . . . . . . . p. 57

20 Detalhamento da Plataforma . . . . . . . . . . . . . . . . . . . . . . . p. 58

21 Visão de módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 59

22 Visão De Componentes e Conectores do MIAC . . . . . . . . . . . . . . p. 60

23 A Operação da Solução . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61

24 Classes implementadas utilizando a API do WEKA . . . . . . . . . . . . p. 62

25 Saída da execução da classe ListarConjuntoDados.java . . . . . . . . . p. 64

26 Retorno da mensagem após consulta no conjunto de dados . . . . . . . p. 65

27 Cenário da Plataforma MIAC utilizando Monitor Multiparamétrico . . . p. 74

28 Diagrama de classe módulo inteligência . . . . . . . . . . . . . . . . . p. 76

29 Processo de classificação de arritmia providas do monitor multipara-

métrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 77

30 WebService MIAC gerando um objeto JSON . . . . . . . . . . . . . . . p. 77

31 Aplicação Android acessando o WebService . . . . . . . . . . . . . . . p. 78

32 Cenário um - Desempenho x Número de Paciente . . . . . . . . . . . . p. 82

33 Cenário dois: Tempo de requisições x Número de pacientes . . . . . . . p. 83

34 Comparativo entre cenário um e dois . . . . . . . . . . . . . . . . . . . p. 83

35 Arquivo de características extraído para fibrilação atrial . . . . . . . . . p. 88

36 Conjunto de dados do MITBIH no formato ARFF criado para treinamento p. 89

Lista de tabelas

1 Descrição dos seguimentos HL7 versão 2.x . . . . . . . . . . . . . . . . p. 41

2 Descrições dos códigos ADT do HL7 versão 2.x . . . . . . . . . . . . . . p. 41

3 Repositório de Busca . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45

4 Fases de Leitura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 46

5 Grupos de pacientes identificados nos estudos . . . . . . . . . . . . . . p. 50

6 Sensores na detecção de doenças. (HASSANALIERAGH et al., 2015) . . . . p. 54

7 Visão Geral dos Trabalhos Relacionados . . . . . . . . . . . . . . . . . p. 67

9 Cenário Um: Tempo de reposta x Número de usuários . . . . . . . . . . p. 79

10 Cenário Dois: Tempo de reposta x Número de usuários . . . . . . . . . p. 80

11 Anotações da MITBIH Arrhythmia dataset - Physionet . . . . . . . . . . p. 85

12 Arquivo de anotação txt do MIT-BIH retirado do site Physionet . . . . . p. 86

13 Resumo do UCI Arrhythmia Dataset . . . . . . . . . . . . . . . . . . . . p. 86

14 Cenário 1 - Conjunto de Dados Original . . . . . . . . . . . . . . . . . p. 90

15 Cenário 1 - Conjunto de Dados Original . . . . . . . . . . . . . . . . . p. 90

16 Cenário 2 - Feature Selection (CfsSubsetEval com GreedyStepwise) . . p. 91

17 Cenário 2 - Feature Selection (CfsSubsetEval com GreedyStepwise) . . p. 91

18 Cenário 3 - Feature Selection (WrapperSubsetEval/J48 com GreedyS-

tepwise) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92

19 Cenário 3 - Feature Selection (WrapperSubsetEval/J48 com GreedyS-

tepwise) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92

20 Cenário 4 - Feature Selection (WrapperSubsetEval/Naive Bayes com

GreedyStepwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92

21 Cenário 4 - Feature Selection (WrapperSubsetEval/Naive Bayes com

GreedyStepwise) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 93

Lista de abreviaturas e siglas

TI – Tecnologia da Informação

IBM – International Business Machines

API – Application Programming Interface

WEKA – Waikato Environment for Knowledge Analysis

SVM – Máquina de Suporte a Vetor

NB – Naive Bayes

k-NN – k-Nearest Neighbors

AD – Árvore de Decisão

RF – Random Forest

AB – Adaboost

MLP – Multilayer Perceptron

HL7 – Health Level 7

IEEE – Instituto de Engenheiros Eletricistas e Eletrônicos

OMS – Organização Mundial de Saúde

DPOC – Doença Pulmonar Obstrutiva Crônica

RNF – Requisitos Não-Funcionais

REST – Representational State Transfer

CSV – Comma-separated values

ARFF – Attribute-Relation File Format

Sumário

1 Introdução p. 18

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20

1.3 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20

1.4 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21

2 Referencial Teórico p. 23

2.1 Eletrocardiograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 23

2.2 Arritmia Cardíaca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 26

2.2.1 Eletrocardiograma (ECG) versus Fotopletismografia (PPG) . . . p. 28

2.3 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . p. 29

2.3.1 Tipos de Aprendizado . . . . . . . . . . . . . . . . . . . . . . . p. 30

2.3.1.1 Aprendizado Supervisionado . . . . . . . . . . . . . . p. 31

2.3.1.2 Aprendizado Não-Supervisionado . . . . . . . . . . . p. 33

2.3.1.3 Aprendizado Semissupervisionado . . . . . . . . . . . p. 33

2.3.2 Comitês de Classificadores . . . . . . . . . . . . . . . . . . . . . p. 33

2.3.2.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . p. 35

2.3.2.2 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . p. 36

2.3.2.3 Stacking . . . . . . . . . . . . . . . . . . . . . . . . . p. 37

2.4 Tempo Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38

2.5 Tecnologias Associadas . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 39

2.5.0.1 Plataformas de Aprendizado de Máquina . . . . . . . p. 41

3 Revisão do Estado da Arte p. 44

3.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45

3.1.1 Planejamento e Execução da Revisão Sistemática . . . . . . . . p. 45

3.1.2 Fonte de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45

3.1.3 String de busca . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 46

3.1.4 Processo de Seleção . . . . . . . . . . . . . . . . . . . . . . . . p. 46

3.1.5 Processo de extração . . . . . . . . . . . . . . . . . . . . . . . . p. 47

3.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47

3.2.1 QP1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47

3.2.2 QP2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 48

3.2.3 QP3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 49

3.2.4 QP4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50

3.3 Discussões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52

3.3.1 Oportunidades e Desafios . . . . . . . . . . . . . . . . . . . . . p. 53

4 Uma plataforma inteligente para monitoramento de arritmia cardíaca p. 55

4.1 Requisitos da Plataforma . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56

4.1.1 Requisitos Não-Funcionais . . . . . . . . . . . . . . . . . . . . . p. 56

4.1.2 Requisito Funcionais . . . . . . . . . . . . . . . . . . . . . . . . p. 57

4.2 Plataforma Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57

4.2.1 Descrição da Plataforma . . . . . . . . . . . . . . . . . . . . . . p. 59

4.2.1.1 Visão de Módulos do MIAC . . . . . . . . . . . . . . . p. 59

4.2.1.2 Visão Arquitetural de Componentes e Conectores . . . p. 60

4.3 A Operação da Solução . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61

4.4 Implementação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 62

4.4.1 Desenvolvimento com a API do WEKA . . . . . . . . . . . . . . p. 62

5 Trabalhos Relacionados p. 66

5.1 Artigos Científicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 66

5.1.1 Visão Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 67

5.1.2 Comparação entre os artigos e Plataforma MIAC . . . . . . . . p. 70

6 Avaliação da Plataforma p. 73

6.1 Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 73

6.1.1 Planejamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 73

6.1.1.1 Questões de pesquisa . . . . . . . . . . . . . . . . . . p. 73

6.1.1.2 Sujeitos . . . . . . . . . . . . . . . . . . . . . . . . . . p. 74

6.1.1.3 Objeto . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 74

6.1.1.4 Unidades de análise . . . . . . . . . . . . . . . . . . . p. 75

6.1.1.5 Coleta de dados . . . . . . . . . . . . . . . . . . . . . p. 75

6.1.2 Execução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 75

6.1.3 Ameaças à validade . . . . . . . . . . . . . . . . . . . . . . . . p. 80

6.1.4 Respostas às questões de pesquisa . . . . . . . . . . . . . . . . p. 81

6.1.4.1 Questão de pesquisa 1: O desempenho da plataforma

é prejudicado quando aumenta o número de pacientes

monitorado ? . . . . . . . . . . . . . . . . . . . . . . . p. 81

6.1.4.2 Questão de pesquisa 2: O tempo de resposta para de-

tecção de arritmia é aceitável para cenários hospitala-

res variando-se o a frequência de requisição ? . . . . . p. 82

6.2 Acurácia dos classificadores baseado em técnicas de Feature Selection

para classificação de arritmias cardíacas. . . . . . . . . . . . . . . . . . p. 84

6.2.1 Conjunto de Dados . . . . . . . . . . . . . . . . . . . . . . . . . p. 84

6.2.1.1 MITBIH Arrhythmia Dataset . . . . . . . . . . . . . . p. 84

6.2.1.2 UCI Arrhythmia Dataset . . . . . . . . . . . . . . . . . p. 86

6.3 Extração de características e Conversão do conjunto de dados MITBIH p. 87

6.4 Pré-Processamento e Configuração Experimental . . . . . . . . . . . . p. 88

6.5 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90

6.5.1 Análise de desempenho . . . . . . . . . . . . . . . . . . . . . . p. 90

6.6 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92

7 Considerações Finais p. 94

7.1 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . p. 95

7.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 95

Referências p. 97

18

1 Introdução

Este capítulo tem a finalidade de situar aspectos do tema abordado neste trabalho.

Assim, descreve-se a motivação para a realização do mesmo na Seção 1.1 Na Seção 1.2 é

descrito o objetivo geral da pesquisa e seus objetivos específicos. Em seguida, na Seção

1.3 é explicada a metodologia seguida no trabalho. Por fim, a Seção 1.4 apresenta a

forma como o mesmo está organizado.

1.1 Motivação

Com estimativas da Organização das Nações Unidas (ONU) de que a Terra terá

pouco mais de 9 bilhões e meio de habitantes em 2050 (NATIONS, 2013), a preocupação

com enfermidades tem se tornado um tópico cada vez mais alarmante globalmente.

De acordo com o IESS (Instituto de Estudos de Saúde Suplementar) em parceria com

a Faculdade de Medicina da UFMG (Universidade Federal de Minas Gerais), cerca de

829 brasileiros morrem diariamente em hospitais públicos e privados por falhas que

poderiam ser evitadas (COUTO et al., ).

Esta é a segunda causa de morte mais comum no Brasil. Fica atrás apenas das do-

enças cardiovasculares, responsável pela morte de 950 brasileiros por dia, como estima

a Sociedade Brasileira de Cardiologia. Mas é bem maior do que os óbitos causados por

câncer (de 480 a 520 mortes/dia), violência (164 mortes/dia) e acidentes de trânsito

(129 mortes/dia) (UFMG, 2017).

Para reduzir a quantidade de óbitos consequentes de doenças, profissionais da área

da saúde têm investido em ferramentas que possam completar os diagnósticos - sejam

de prevenção ou até mesmo emergenciais. Essa antecipação de descoberta de alguma

doença - como disfunções cardíacas - podem determinar tratamentos médicos e até

mesmo evitar mortes súbitas de pacientes. Atualmente algoritmos podem proporcionar

benefícios imediatos às disciplinas com processos reprodutíveis ou padronizados.

19

À medida que a medicina personalizada1 se torna cada vez mais sofisticada e aces-

sível, os dispositivos médicos portáteis tornam-se mais onipresentes e as aplicações de

monitoramento começam a combinar diversas funções. Com isso, as ferramentas tecno-

lógicas podem fornecer informações melhores aos médicos no momento do atendimento

ao paciente, como ter acesso fácil à pressão sanguínea e outros sinais vitais.

Atualmente algoritmos podem proporcionar benefícios imediatos às disciplinas com

processos reprodutíveis ou padronizados. Por exemplo, o aprendizado de máquina pode

ser treinado para olhar imagens, identificar anormalidades e apontar para áreas que

precisam de atenção, melhorando assim a precisão de todos esses processos. A longo

prazo, o aprendizado de máquina beneficiará o profissional da saúde, família e/ou pa-

ciente ao lado da cama. O aprendizado de máquina pode oferecer uma opinião objetiva

para melhorar a eficiência, confiabilidade e precisão dos diagnósticos.

Por isso torna-se essencial desenvolver procedimentos que combinem dados com-

putacionais e estatísticos, por exemplo: um sistema de saúde eficaz baseado em AM

capitaliza a vasta capacidade computacional do computador e de raciocínio do mé-

dico. Tanto a máquina quanto o médico estão procurando padrões, mas o médico não

pode analisar cada batimento cardíaco de cada paciente ou estar familiarizado com as

nuances de cada doença. A máquina pode fazer todas essas tarefas e apresentar suas

conclusões ao médico para confirmação.

As técnicas de aprendizado de máquina têm sido usadas no domínio de healthcare

desde o início para identificar os padrões de doenças (ILAYARAJA; MEYYAPPAN, 2013). As

empresas de TI já começaram a desenvolver aplicativos de IA que podem acompanhar

a saúde dos funcionários ou monitorar a saúde dos idosos remotamente desde algum

tempo. Algumas soluções, como a IBM Watson2, foi implantado por várias organizações

médicas para ajudar os médicos a oferecer cuidados intensos aos seus pacientes. Já o

Google desenvolveu o DeepMind Health Project3. Sendo em sua fase inicial, o projeto

DeepMind está ajudando o Moorfields Eye4 Hospital a melhorar o tratamento ocular.

Após o IBM Watson e o DeepMind da Google, a Microsoft, a Dell e a Hewlett-Packard

estão investindo em suas marcas no setor de saúde.

Dessa forma, com a crescente expansão do aprendizado de máquina em healthcare1Medicina personalizada é o uso de biomarcadores, em sua maioria marcadores moleculares, para

a detecção de traços genéticos específicos, a fim de orientar diversas abordagens para a prevenção e otratamento de diferentes doenças. (PINHO; SITNIK; MANGUEIRA, )

2https://www.ibm.com/watson/br-pt3https://deepmind.com/applied/deepmind-health4http://www.moorfields.nhs.uk

20

muitas das ineficiências em saúde podem ser reduzidas. Por exemplo, um paciente com

sensores incorporados nele, permitindo assim a coleta de dados e o armazenamento,

pode estar contribuindo com o aprendizado de máquina na predição e análise de in-

formação, podendo obter insights previamente, e além disso, permitir tirar conclusões

cada vez mais inteligentes fazendo previsões sobre incidentes futuros

1.2 Objetivos

Este trabalho tem como objetivo geral a construção de uma plataforma de monito-

ramento inteligente de arritmia cardíaca que possibilite monitorar, identificar e notificar

profissionais da saúde, pacientes e/ou familiares em tempo real. Dessa forma, baseado

neste objetivo enumera-se os seguintes objetivos específicos:

• Identificar e descrever os requisitos de uma plataforma inteligente capaz de mo-nitorar pacientes e realizar a identificação ou predição de arritmia.

• Projetar uma plataforma inteligente capaz de monitorar pacientes e realizar aidentificação ou predição no ritmo cardíaco (Arritmia Cardíaca) com base nos

requisitos identificados;

• Implementar a plataforma projetada com base na infraestrutura de internet dascoisas.

• Avaliar a plataforma implementada através do uso da mesma em cenários típicosde um hospital.

1.3 Metodologia

A metodologia aplicada nesta dissertação seguiu o processo definido na Figura 1.

Este processo é composto de 3 etapas, sendo Revisão Exploratória, Projeto e Implemen-

tação, e Avaliação.

Figura 1: Etapas da Metodologia

21

A primeira etapa teve como objetivo realizar a execução da revisão exploratória da

literatura com o objetivo de familiarizar o leitor sobre os avanços e desafios relacionados

a aprendizado de máquina aplicado a healthcare. Dessa forma, houve o planejamento

de uma string de busca onde pudesse abordar toda a grande área de aprendizado de

máquina aplicado a healthcare. Logo em seguida foi realizado a execução da string de

busca na base de dados da Scopus. Após realizar a execução da string de busca foi

selecionados diversos estudos para leitura. Toda a metodologia de forma detalhada será

descrita no Capítulo 3.

A etapa de projeto e implementação engloba as atividades necessárias para a defi-

nição dos requisitos funcionais e não-funcionais que farão parte da plataforma de mo-

nitoramento inteligente de arritmia cardíaca, assim como foi realizada a definição do

projeto de sua arquitetura e implementação, onde serão utilizados tópicos de internet

das coisas, um conjunto de dados de pacientes do MITBIH, e uma API de aprendizado

de máquina da plataforma WEKA .

Como última etapa da metologia empregada, iniciou-se a etapa de Avaliação cuja

primeira atividade foi validar a arquitetura e implementação da plataforma proposta,

assim foi especificado um exemplo de um ambiente controlado. Para este exemplo, fo-

ram realizadas as implementações do módulo de inteligência e outras funcionalidades

necessárias de forma que fosse possível obter a classificação de um paciente em tempo

real. Para validar a plataforma foi implementado um aplicativo para dispositivo móvel

para consumir informações disponibilizadas no webservice que foi gerado pela plata-

forma.

1.4 Organização do trabalho

O restante deste trabalho encontra-se organizado da seguinte maneira:

• O Capítulo 2 mostra a fundamentação teórica contendo os conceitos necessáriosao entendimento deste estudo;

• O Capítulo 3 apresenta a revisão exploratória realizada neste trabalho. A mesmatem o objetivo de familiarizar o pesquisador no campo de aprendizagem de má-

quina com healthcare;

• O Capítulo 4 exibe a plataforma de monitoramento inteligente de arritmia car-díaca, Além disso, são apresentados seus requisitos, arquitetura, padrões arquite-

22

turais utilizados e sua implementação.

• Capítulo 5 apresenta os trabalhos diretamente relacionados com este estudo. Alémdisso, são apresentadas as principais características de cada um deles e suas dife-

renças em relação a plataforma proposta.

• O Capítulo 6 apresentará a prova de conceito e um estudo experimental da plata-forma como proposta através de um estudo de caso que examina alguns aspectos

relacionados a implementação da mesma;

• O Capítulo 7 expõe as considerações finais deste trabalho, destacando as principaisconclusões, contribuições e trabalhos futuros.

23

2 Referencial Teórico

Neste capítulo são apresentados os conceitos essenciais ao entendimento desta dis-

sertação. Assim, a Seção 2.1 mostra conceitos relacionado ao eletrocardiograma. Na

Seção 2.2 é definido arritmia cardíaco e dado alguns exemplos. Além disso, na Seção

2.4 é descrita sobre aprendizado de máquinas e seus principais conceitos. Em seguida,

na Seção 2.4 é mostrado os fundamentos básicos sobre tempo real. Por fim na Seção 2.5

é mostrado demostrado às tecnologias associadas com a pesquisa.

2.1 Eletrocardiograma

O coração é um órgão muscular oco (GUIMARÃES, 2002; SOUZA; ELIAS, 2006), que

funciona como uma bomba no sistema circulatório para fornecer um fluxo contínuo de

sangue em todo o corpo. Dessa forma, o propósito disso é carregar alimento para os

tecidos e levar embora os produtos inúteis dos tecidos e, o mais importante, distribuir o

oxigênio do ar por todo corpo (GUIMARÃES, 2002).

Segundo (HALL, 2011) O coração normalmente bate de 72 batimentos/min, a dura-

ção do ciclo cardíaco é de 1/72 batimentos/min - aproximadamente 0,0139 minuto por

batimento, ou 0,833 segundo por batimento, mas, às vezes, devido a doenças, a ação

de bombeamento se torna irregular e menos eficiente (GUIMARÃES, 2002). O ciclo car-

díaco consiste no período de relaxamento, chamado diástole, durante o qual o coração

se enche de sangue, seguido pelo período de contração, chamado sístole (HALL, 2011).

Na Figura 2 pode-se visualizar os períodos de pressão (mm Hg), volume (ml), ele-

trocardiograma e fonocardiograma que é o registro dos sons produzidos pelo coração -

principalmente pelas válvulas cardíacas - durante o bombeamento. Sendo o penúltimo

a representação gráfica utilizada nesse trabalho para classificação de arritmias.

O eletrocardiograma da Figura 2 são voltagens elétricas geradas pelo coração e

registradas pelo eletrocardiógrafo na superfície do corpo, onde mostra as ondas P, Q, R,

24

Figura 2: Eventos do ciclo cardíaco - (HALL, 2011)

S e T, que serão discutidas em seguida.

A eletricidade biológica é o que faz o coração funcionar (THALER, 2013). Se eletro-

dos forem colocados sobre a pele, em lados opostos do coração, será possível registrar os

potenciais elétricos gerados por essa corrente: esse registro é conhecido como eletrocar-

diograma (HALL, 2011). Esses eletrodos pode detectar as minúsculas mudanças elétricas

na pele que surgem a partir dos batimentos cardíacos de despolarização e repolarização

durante cada batimento cardíaco. O ECG é uma ferramenta de notável poder clínico,

tanto pela facilidade com que pode ser dominada quanto pela extraordinária gama de

situações nas quais pode fornecer informações úteis e até mesmo bastante expressivas. A

análise do sinal eletrocardiográfico (ECG) fornece informações sobre o estado de saúde

cardíaca do paciente (ISRAEL et al., 2005). Os pesquisadores têm usado dados de ECG

como ferramenta de diagnóstico desde o início do século XX.

Uma olhada em um ECG pode diagnosticar um infarto do miocárdio em evolução,

identificar uma arritmia potencialmente fatal, apontar os efeitos crônicos de uma hiper-

tensão sustentada ou os efeitos agudos de uma embolia pulmonar maciça, ou apenas

fornecer uma medida de garantia a uma pessoa que deseja iniciar um programa de

exercícios. (THALER, 2013) Ou seja, o objetivo geral de realizar eletrocardiografia é ob-

ter informações sobre a estrutura e função do coração.

O sinal de ECG mede a mudança no potencial elétrico ao longo do tempo. O ele-

25

trocardiograma normal da Figura 3 é composto pela onda P, pelo complexo QRS e pela

onda T. O traço de cada batimento cardíaco consiste de três complexos: P, R e T.

Figura 3: Ciclo do ECG - (HALL, 2011)

Em seguida, (THALER, 2013; HALL, 2011) definem as seguintes ondas e complexos:

O intervalo PR mede o tempo entre o início da despolarização atrial e o início da

despolarização ventricular; O intervalo PR dura em média 0,16 segundos. (HALL, 2011)

O seguimento PR mede o tempo final da despolarização atrial até o início da despolari-

zação ventricular; (THALER, 2013)

O seguimento ST registra o tempo do final da despolarização ventricular até o início

da repolarização ventricular; (THALER, 2013)

O intervalo QT mede o tempo do início da despolarização ventricular até o final da

repolarização ventricular. Já o intervalo QT tem em média 0,35 segundos (HALL, 2011);

O intervalo QRS mede o tempo da despolarização ventricular. O complexo QRS tem

duração normal entre 0,08 e 0,10 segundos (HALL, 2011).

Tipo Intervalo de Tempo (s)

Intervalo PR 0,16

Duração QRS 0,8 e 0,10

Intervalo QT 0,35

Na Seção seguinte serão demostrados conceitos e exemplos acerca de arritmia car-

díaca.

26

2.2 Arritmia Cardíaca

Como já descrito, com o ECG é possível a detecção de arritmia cardíaca que pode ser

definido como um problema com a taxa ou o ritmo do batimento cardíaco. O coração

possui atividade elétrica própria que consiste na geração e transmissão de estímulos.

Distúrbios dessas propriedades resultam em alterações do ritmo cardíaco ou arritmia

cardíaca (GUIMARÃES, 2002). Durante uma arritmia, o coração pode bater muito rápido,

muito lento ou com um ritmo irregular.

Um batimento cardíaco que é muito rápido é chamado taquicardia. Um batimento

cardíaco que é muito lento é chamado bradicardia (NHLBI, 2011a)1.

• Bradicardia Sinusal: Bradicardia Sinusal corresponde a frequências inferiores a50 bpm (PASTORE et al., 2016). Ou seja, "bradicardia"significa frequência cardíaca

lenta. Em seguida é mostrado eletrocardiograma, registrado em paciente com bra-

dicardia na Figura 4.

Figura 4: Bradicardia Sinusal (Derivação III) (HALL, 2011)

• Taquicardia Sinusal: Taquicardia Sinusal corresponde a frequências superioresa 100 bpm (PASTORE et al., 2016). Ou seja frequência cardíaca rápida. Algumas

causas da taquicardia incluem aumento da temperatura corporal, estimulação do

coração pelos nervos simpáticos ou patologias tóxicas do coração. (HALL, 2011).

Na Figura 5 é apresentado o eletrocardiograma em paciente com taquicardia.

O termo arritmia sinusal refere-se a um fenômeno normal de alternância de ace-

leração leve e desaceleração da frequência cardíaca que ocorre com a respiração

para dentro e para fora (YASUMA; HAYANO, 2004). Geralmente é bastante pronunci-

ado em crianças e diminui com a idade. Isso também pode estar presente durante

os exercícios de respiração de meditação que envolvem padrões profundos de ina-

lação e respiração. (PERESSUTTI et al., 2010).

1The National Heart, Lung, and Blood Institute (NHLBI) fornece liderança global para um programade pesquisa, treinamento e educação para promover a prevenção e tratamento de doenças cardíacas,pulmonares e sanguíneas e melhorar a saúde de todos os indivíduos.

27

Figura 5: Taquicardia Sinusal (Derivação I) (HALL, 2011)

Em seguida será mostrado dois exemplos de arritmias cardíacas mais comuns, são

eles:

• Fibrilação Atrial: A Fibrilação Atrial é um batimento cardíaco rápido ou irregulardos átrios (AHA, 2016). Frequentemente chamada de AFib ou AF, é o tipo mais co-

mum de arritmia cardíaca (MUNGER; SHEETN, 2014). A fibrilação atrial afeta pelo

menos 2,7 milhões de americanos (AHA, 2016). Além disso, prevê-se que a preva-

lência de fibrilação atrial mais que dobre nos próximos 50 anos. (ZIMETBAUM et al.,

2010) O tratamento da fibrilação atrial representa um fardo econômico significa-

tivo, com custos diretos totais estimados em US $ 6,65 bilhões anualmente nos

Estados Unidos.

(ZIMETBAUM et al., 2010)

Figura 6: Fibrilação atrial (derivação I). As ondas que podem ser vistas são complexosQRS e ondas T ventriculares. (HALL, 2011)

• Flutter Atrial: O flutter atrial (AFL) é um ritmo cardíaco anormal comum que co-meça nas câmaras auriculares do coração (SAWHNEY; FELD, 2008). Quando ocorre

primeiro, geralmente é associado a uma frequência cardíaca rápida (220 a 360

bpm) com episódios durando de segundos a horas (RODRIGUES et al., 2009). A

Figura 7 mostra um eletrocardiograma típico de flutter atrial. As ondas P são for-

tes em virtude da contração de massas musculares semicoordenadas. No entanto,

observa-se no registro que o complexo QRS-T só segue uma onda P atrial apenas

uma vez a cada dois a três batimentos dos átrios.

As situações que mais frequentemente se associam ao flutter atrial são: doença

pulmonar obstrutiva crônica, e o pós-operatório (imediato e tardio) de fechamento

28

Figura 7: Flutter atrial - ritmo atrioventricular 2:1 e 3:1 (derivação I) (HALL, 2011)

de comunicação interatrial e correção de anomalia de Ebstein2

Existem dois tipos de flutter atrial, o tipo comum I e o tipo II mais raro (SURAWICZ;

KNILANS, 2001).

Tipo I

O flutter atrial de tipo I tem uma taxa auricular de 240 a 340 batimentos/mi-

nuto (PASTORE et al., 2016). No entanto, esta taxa pode ser retardada por fármacos

utilizados no tratamento das arritmias do coração.

Tipo II

O flutter de tipo II segue uma via de reentrada significativamente diferente para

o flutter do tipo I, e normalmente é mais rápida, geralmente 340 a 430 batimen-

tos/minuto (PASTORE et al., 2016).

A arritmia afeta milhões de pessoas (NHLBI, 2011b). Na Europa e América do Norte,

a partir de 2014, a fibrilação atrial afeta cerca de 2% a 3% da população (ZONI-BERISSO

et al., 2014). A fibrilação atrial e flutter atrial resultaram em 112.000 mortes em 2013,

contra 29.000 em 1990 (ABUBAKAR; TILLMANN; BANERJEE, 2015). A morte cardíaca súbita

é a causa de cerca de metade das mortes por doença cardiovascular ou cerca de 15%

de todas as mortes em todo o mundo. Cerca de 80% da morte cardíaca súbita é o

resultado de arritmias ventriculares (MEHRA, 2007). As arritmias podem ocorrer em

qualquer idade, mas são mais comuns entre as pessoas mais velhas (NHLBI, 2011b).

2.2.1 Eletrocardiograma (ECG) versus Fotopletismografia (PPG)

ECG: Sensores de ECG (eletrocardiograma) medem o bio-potencial gerado por si-

nais elétricos que controlam a expansão e a contração de câmaras cardíacas.

PPG: Os sensores da PPG (fotopletismografia) usam uma tecnologia baseada em

luz para detectar a taxa de fluxo sanguíneo controlada pela ação de bombeamento do

2Anomalia de Ebstein é uma válvula cardíaca malformada que não se fecha adequadamente paramanter o fluxo de sangue se movendo na direção certa (AHA, 2010).

29

coração.

Os sensores de ECG são capazes de fornecer a mais ampla gama de indicadores

de saúde do coração porque eles são capazes de capturar sinais mais abrangentes do

desempenho cardíaco geral, incluindo tanto a frequência cardíaca (FC) quanto a varia-

bilidade da frequência cardíaca (VFC).

Em contraste, os sensores PPG são capazes apenas de medir a FC e de forma menos

confiável do que com os biossensores de ECG. Os principais desafios da tecnologia PPG

são o cancelamento dos efeitos da luz ambiente, a acomodação de diferentes condições

e cores da pele e a manipulação de artefatos de movimento físico. Além disso, o PPG só

pode ser usado em partes do corpo que têm uma alta concentração de vasos sanguíneos

(por exemplo, pode ser difícil obter um bom sinal PPG do pulso).

A VFC pode ser derivada com segurança dos dados do ECG, já que os intervalos de

picos-R podem ser extraídos com precisão de milissegundos, de modo que dados signi-

ficativos da VFC possam ser obtidos com medições de curta duração. Com os sensores

PPG, a precisão do intervalo de pico é limitada pela taxa de amostragem utilizável de-

vido ao alto consumo de energia dos LEDs. Com o PPG, a Variação da Frequência de

Pulso se correlaciona com a VFC para períodos mais longos de medição (> 5 minutos),

mas não para medições de curta duração (NEUROSKY, ).

2.3 Aprendizado de Máquina

De acordo com (MITCHELL et al., 1997), o aprendizado de máquina é uma subárea

da Inteligência Artificial (IA) responsável pelo desenvolvimento de modelos (hipóteses)

gerados a partir de dados, e que automaticamente aperfeiçoam-se com a experiência.

Por sua vez, segundo (SIMON, 1983) aprendizagem denota mudanças em um sistema

que são adaptativas no sentido de que elas capacitam o sistema a fazer a mesma tarefa,

ou tarefas similares, mais eficiente e efetivamente na próxima vez. Sendo assim, apren-

dizado de máquina tem por objetivo construir modelos que possam aprender de acordo

com amostras e experiências passadas, dentre as diversas áreas, em que o AM pode ser

aplicado, podemos citar processamento de linguagem natural, bem como na detecção

de fraudes, na análise de imagens ou no reconhecimento de padrões.

No entanto, com o propósito de facilitar o entendimento dos termos utilizados em

AM, é apresentada a seguir uma lista dos conceitos mais usados na área de AM (MIT-

CHELL et al., 1997).

30

• Exemplo: um objeto único do mundo a partir do qual um modelo será aprendido,ou sobre o qual um modelo será usado. Exemplos costumam ser descritos por

vetores de características.

• Característica (atributo, variável): Um atributo tem um domínio definido peloseu tipo, que denota os valores que ele pode assumir.

• Vetor de características: uma lista de características que descreve um exemplo.

• Classe: no aprendizado supervisionado, todo exemplo possui pelo menos um atri-buto especial denominado rótulo ou classe, que descreve o fenômeno de interesse.

• Corpus (conjunto de dados ou exemplos): é composto por um número de exem-plos com seus respectivos valores de atributos.

• Acurácia (taxa de acerto): a taxa de predições corretas (ou incorretas) realizadapelo modelo para um determinado conjunto de dados.

• Ruído: Imperfeições nos dados (desvio com relação ao esperado).

• Overfitting (super-ajustamento): ocorre quando o modelo se especializa nos da-dos utilizados no seu treinamento, apresentando uma taxa de acurácia baixa para

novos dados.

• Outlier: Valor discrepante dos outros valores do conjunto. Também podemos cha-mar um item classificado erroneamente por outlier quando o erro for significativo.

2.3.1 Tipos de Aprendizado

O aprendizado indutivo pode ser dividido em duas categorias principais: apren-

dizado supervisionado e aprendizado não-supervisionado (BARANAUSKAS, 2003).

Uma nova terceira categoria de aprendizado vem sendo estudada que é uma jun-

ção de aprendizado supervisionado e não-supervisionado. A essa nova categoria

de aprendizado dá-se o nome de aprendizado semissupervisionado (MATSUBARA;

MONARD; BATISTA, 2005). Essa estrutura pode ser verificada na Figura 8.

31

Figura 8: Estruturas de tarefas de aprendizado de máquina

2.3.1.1 Aprendizado Supervisionado

Aprendizado supervisionado é o aprendizado de máquina que tem a tarefa de infe-

rir uma função a partir de dados de treinamento rotulados. Esses dados, consistem-se

em um conjunto de exemplos de treinamento. Na aprendizagem supervisionada, cada

exemplo é um par constituído por um objeto de entrada (um vetor de atributos) e um

valor de saída desejado. Na literatura existem alguns algoritmos mais utilizados para

o aprendizado supervisionado, sendo eles, K vizinhos mais próximos (kNN, do inglês,

k-Nearest Neighbour) (COVER; HART, 1967), árvores de decisão (DT, do inglês, Decision

Tree) (QUINLAN, 2014), e MLP (do inglês, Multilayer Perceptron) (HAYKIN; NETWORK,

2004) dentre outros. Em seguida, serão apresentados e definidos os principais classifi-

cadores de aprendizagem de máquina que serão utilizados neste trabalho.

• SVM: Máquina de Suporte a Vetor(CORTES; VAPNIK, 1995) são modelos de aprendi-zagem supervisionados com algoritmos de aprendizagem associados que analisam

os dados e reconhecem padrões. Os SVMs são utilizados para a classificação e aná-

lise de regressão.

• NB: Naive Bayes é um classificador bayesiano, no qual se supõe que todos osatributos dos exemplos são independentes uns dos outros, dado o contexto da

categoria. É a chamada suposição de Naive Bayes. Mesmo sendo esta suposição

claramente falsa no mundo real, este modelo executa a classificação muito bem

(DOMINGOS; PAZZANI, 1997) mostraram teoricamente que a suposição de indepen-

32

dência de palavras na maioria dos casos não prejudica a eficiência do classificador.

• k-NN: O (K - vizinhos mais próximos) é um algoritmo de aprendizagem super-visionado, pertencente a um grupo de técnicas denominado de Instance-based Le-

arning ouLazy Learning. A ideia básica é: dado o documento de teste, o sistema

encontra os vizinhos K mais próximos no conjunto de treinamento que foi classifi-

cado e obtém as categorias de documentos de teste de acordo com a distribuição

de classes desses vizinhos, que podem ser usados para medir a semelhança entre

esses vizinhos e o documento de teste para ponderação para obter um melhor

efeito de classificação. (YAN W., 2006).

• AD: Árvore de decisão é uma coleção finita de 0 ou mais nodos. Caso a árvoreobtenha zero nodo então se diz que ela é nula, do contrário ela apresenta um nodo

raiz, e demais nodos denominados sub-árvores. (PEREIRA, 2006)

• RF: Random Forest ou as florestas de decisão aleatórias (HO, 1995) é um métodode aprendizagem do conjunto para a classificação, a regressão e as outras tarefas,

que operam construindo uma multidão de árvores de decisão no tempo do treina-

mento. As florestas de decisão aleatórias corrigem o hábito das árvores de decisão

de sobrecarregar seu conjunto de treinamento.

• AB: O AdaBoost é um algoritmo de aprendizado de máquina, inventado porFreund e Schapire (FREUND; SCHAPIRE, 1995). É um algoritmo meta-heurístico,

e pode ser utilizado para aumentar a performance de outros algoritmos de apren-

dizagem.

• MLP: Um perceptron multicamada é um modelo de rede neuronal artificial quemapeia conjuntos de dados de entrada para um conjunto de saídas apropriadas.

Um MLP consiste em várias camadas de nós em um gráfico direcionado, com cada

camada totalmente conectada ao próximo. Exceto para os nós de entrada, cada

nó é um neurônio (ou elemento de processamento) com uma função de ativação

não-linear. MLP utiliza uma técnica de aprendizagem supervisionada chamada

backpropagation para treinar a rede. (ROSENBLATT, 1961; RUMELHART; HINTON; WIL-

LIAMS, 1985) MLP é uma modificação do perceptron linear padrão e pode distin-

guir dados que não são linearmente separáveis. (CYBENKO, 1989)

33

2.3.1.2 Aprendizado Não-Supervisionado

Conforme dito anteriormente, no aprendizado de máquina supervisionado, durante

o treinamento os métodos recebem como entrada exemplos juntamente com a infor-

mação de saída desejada, representando a classe a que aquele exemplo pertence. Dessa

maneira o aprendizado não-supervisionado pode-se considerar o oposto do aprendizado

supervisionado. Desse modo no aprendizado não-supervisionado é dado um conjunto

de exemplos de entrada, mas sem conhecimento do conjunto de saída, ou seja, não se

conhece a classe que os atributos do conjunto de exemplos pertencem. Sendo assim,

o principal objetivo dos métodos de aprendizado não-supervisionado é identificar pa-

drões ou tendências, gerando agrupamentos ou cluster distintos, auxiliando assim no

entendimento desses dados (COSTA et al., 1999).

2.3.1.3 Aprendizado Semissupervisionado

Conforme citado anteriormente, onde existam exemplos em que os rótulos de clas-

ses são conhecidos antecipadamente, pode-se utilizar o aprendizado supervisionado

para induzir classificadores a partir desses exemplos. Por outro lado, quando não se

tem o conhecimento dos rótulos de classes dos exemplos, pode-se utilizar o aprendizado

não-supervisionado. Em muitas tarefas de aprendizado, há uma grande quantidade de

dados não-rotulados e os dados rotulados são insuficientes, pois a geração de dados ro-

tulados é frequentemente cara e demorada (AMINI; GALLINARI, 2003); (BASU; BANERJEE;

MOONEY, 2004).

2.3.2 Comitês de Classificadores

Um comitê de classificadores pode ser definido como uma coleção de classificado-

res, responsável por produzir a saída final do sistema quando agregado a um método

de combinação. Os comitês classificadores conduzem a uma maior capacidade de gene-

ralização do que quando trabalhando em separado (DIETTERICH, 2000). Na literatura,

comitê de classificadores também possui as seguintes designações: combinação de espe-

cialistas, ensemble de classificadores ou classificadores modulares (DUDA; HART; STORK,

2012). Na Figura 4 pode ser observado a arquitetura geral para um modelo ensemble

que é dada por um conjunto de exemplos de treinamento de entrada, e logo em seguida

pode-se ter diversos classificadores (componentes) independentes e cada classificador

recebe um conjunto de exemplos de entrada e tomam suas próprias decisões, logo após

34

cada componente tomar sua decisão, os exemplos dos classificadores são agrupados ou

seja, fazem uma fusão como é descrito na Figura 9, e finaliza com a saída que é a decisão

do comitê classificador.

Figura 9: Arquitetura geral para um modelo ensemble. (NASCIMENTO, 2009)

Como exemplos de regras utilizadas para a fusão de classificadores, podem ser ci-

tadas a Regra da Soma, Regra da Média, a Regra da Mediana e, para o caso de uma

saída discreta, o Voto Majoritário (KITTLER et al., 1998) (KUNCHEVA, 2002). A regra da

soma computa a saída do comitê a partir da soma de todos os suportes fornecidos pelo

classificador para cada possível valoração de classe de saída. A rotulação de classe que

apresentar a maior soma correspondente gerará a rotulação do padrão. Já a regra da

média e da mediana tem a saída final do classificador, na forma de um suporte indivi-

dual para cada possível valoração de classe, é dada pela média, ou mediana, calculada

utilizando todos os suportes.

A regra da média é equivalente à regra da soma. Estas regras descritas não são

as únicas. Existem várias outras regras, tais como o voto majoritário ponderado (KUN-

CHEVA, 2004) onde, no processo de votação, cada classificador tem seu voto geralmente

ponderado por sua precisão em um conjunto de validação. Apesar de normalmente

os sistemas combinados apresentarem melhores resultados, não há garantias que isto

ocorrerá sempre, uma vez que cada método depende do ajuste de muitos parâmetros,

bem como grau de dificuldade associado a cada problema em particular. As várias con-

figurações que podem ser dadas a esses parâmetros resultam em diferentes decisões de

classificação. De acordo com (KUNCHEVA, 2004), ao combinar classificadores, procura-se

atingir a decisão de um problema de classificação, que possua a maior acurácia possível.

Já em contrapartida o uso de apenas um classificador é problemático, já que é preciso

testar vários tipos comitês e classificadores com várias configurações para assim encon-

trar um modelo ideal. Dessa forma comitês classificadores ainda é uma área com muitos

pontos a serem estudadas e algumas das estratégias de construções tal como Bagging,

35

Boosting e Stacking, serão apresentadas nesse trabalho.

2.3.2.1 Bagging

(BREIMAN, 1996) descreve a técnica chamada Bagging baseado na amostragem Bo-

otstrap Aggregating (EFRON; TIBSHIRANI, 1993) que representa o método pela agregação

de modelos gerados de amostras diferentes. O algoritmo bagging geralmente é utilizado

para aumentar o desempenho de algoritmos de aprendizado de máquina instáveis. Os

algoritmos de aprendizado de máquina instáveis são aqueles que para qualquer varia-

ção do conjunto de dados da entrada se têm uma grande variação na saída (BREIMAN,

1996). No processo do bagging que é representado na Figura 10, todos os dados do con-

junto original de treinamento possuem a mesma probabilidade de serem selecionados

para compor cada um dos novos subconjuntos de treinamento. Nas amostragens reali-

zadas, alguns padrões podem ser selecionados mais de uma vez, ao passo que outros

poderão não ser selecionados. Cada novo subconjunto obtido desta forma servirá para

o treinamento de um novo classificador. Dessa forma, espera-se que o algoritmo gere

diversidade entre os classificadores e atue na redução da variância do erro de classifi-

cação (MORAIS, 2013). Não são possíveis os conjuntos de dados gerados serem gerados

idênticos (BAUER; KOHAVI, 1999 apud NASCIMENTO, 2009)

Figura 10: Processo de criação de um ensemble Bagging - (NASCIMENTO, 2009)

O Bagging foi projetado para melhorar a precisão e estabilidade dos algoritmos de

AM usados na classificação estatística e de regressão. Ele também reduz a variância e

36

ajuda a evitar o overfitting(super-ajuste). Embora seja geralmente usado em métodos

de árvore de decisão, o Bagging pode ser utilizado em combinação com qualquer tipo

de método de classificação, a técnica possui uma implementação simples e intuitiva já

que é baseado em técnicas de reamostragem.

2.3.2.2 Boosting

O Boosting é um algoritmo de aprendizado de máquina, inventado por (SCHAPIRE,

1990) é uma técnica de aprendizado de máquina que combina diversos classificado-

res com o objetivo de melhorar a acurácia geral. A construção do boosting se baseia

em diversas regras, desse modo, com regras a acurácia não é perfeita (100%), porém

é mais precisa do que previsões aleatórias. O algoritmo do boosting funciona através

de interações, onde em cada iteração é gerado um novo classificador. Esse classifica-

dor é treinando com a distribuição dos exemplos dado pelos pesos associados. Após

várias interações o boosting faz combinações com os diversos classificadores parciais,

formando um só classificador que possivelmente, possui um desempenho melhor do

que o melhor classificador parcial. O algoritmo mais famoso baseado no Boosting é o

AdaBoost ou Boosting Adaptative (FREUND; SCHAPIRE, 1995) é adaptável no sentido de

que as classificações subsequentes feitas são ajustadas a favor das instâncias classifica-

das negativamente por classificações anteriores. Este algoritmo aumenta os pesos dos

exemplos em que os classificadores anteriores cometeram erros. Assim, foca o classifi-

cador adicional nos exemplos mais difíceis. O AdaBoost é sensível ao ruído nos dados e

casos isolados. Entretanto para alguns problemas é menos suscetível a perda da capaci-

dade de generalização após o aprendizado de muitos padrões de treino (overfitting) do

que a maioria dos algoritmos de aprendizado de máquina. Logo em seguida na Figura

11 é mostrado o processo de criação do Boosting

37

Figura 11: Processo de criação de um ensemble Boosting (NASCIMENTO, 2009)

2.3.2.3 Stacking

Também conhecido em inglês como stacked generalization (WOLPERT, 1992) consi-

dera que um classificador é mais confiável que outro. O método stacking tenta aprender

qual é o classificador mais confiável e qual a melhor maneira para combinar as suas

saídas (WITTEN; HALL, 2005). O stacking é um modelo de comitê heterogêneo que possui

pelo menos um classificador distinto. Como mostra a Figura 12 o stacking envolve a

formação de um algoritmo de aprendizado para combinar as previsões de vários outros

algoritmos de aprendizagem (classificadores). A princípio, todos os outros algoritmos

são treinados utilizando os dados disponíveis, em seguida, um algoritmo combinador é

treinado para fazer uma previsão final, utilizando todas as previsões dos outros algorit-

mos como entradas adicionais. Se um algoritmo combinador arbitrário é usado, então o

stacking pode, teoricamente, representam qualquer das técnicas de ensemble descritas

neste trabalho.

38

Figura 12: Processo de criação de um ensemble Stacking

O Stacking normalmente produz desempenho melhor do que qualquer um dos mo-

delos treinados (WOLPERT, 1992). E De acordo com (PARADEDA, 2007), o algoritmo stac-

king têm dificuldades na definição do meta classificador mais apropriado, de quais e de

quantos classificadores base devem ser utilizados.

Na medida em que o uso de sistemas computacionais prolifera na sociedade atual,

dados são trafegados na rede a todo momento e são esses dados disponíveis que ali-

menta e fortifica o aprendizado de máquina, onde aplicações com requisitos de tempo

real tornam-se cada vez mais comuns. (FARINES; FRAGA; OLIVEIRA, 2000). Na Seção se-

guinte serão definidos conceitos de tempo real.

2.4 Tempo Real

A IEEE define tempo real como aquele onde os resultados da computação podem ser

usados para controlar, monitorar ou responder a um evento externo em tempo (RADATZ;

GERACI; KATKI, 1990). Já a norma alemã DIN 44300 define da seguinte forma: um sis-

tema de tempo real é aquele onde os resultados das entradas estão sempre disponíveis

em períodos de tempo predeterminados (TIMMERMAN, 2001).

Ou seja, pode-se concluir que um sistema em tempo real ”deve executar em no

máximo n milissegundo” ou ”deve ser executado na hora x” ou ”vai ter de se repetir

39

precisamente de n em n segundos”.

Algumas aplicações de tempo real apresentam restrições de tempo mais rigorosas

do que outras; entre esses, encontram-se os sistemas responsáveis pelo monitoramento

de pacientes em hospitais, sistemas de supervisão e controle em plantas industriais e os

sistemas embarcados em robôs e veículos. Entre aplicações que não apresentam restri-

ções tão críticas, normalmente, são citados os videogames, as teleconferências através

da Internet e as aplicações de multimídia em geral (FARINES; FRAGA; OLIVEIRA, 2000).

São exemplos de sistemas de tempo real:

• Sistemas de controle de veículos para automóveis, metrôs, aeronaves, ferrovias enavios;

• Controle de tráfego para autoestradas, espaço aéreo, trilhos de ferrovias;

• Controle de processos para usinas de energia, indústrias químicas;

• Sistemas médicos para radioterapia, monitoramento de pacientes.

Por exemplo os equipamentos médicos que medem pressão arterial, batimento car-

díaco, fluxo de oxigênio e outros dados devem ser precisos. Todas estas medidas nor-

malmente tem uma base de tempo, como por exemplo "batidas por minuto"ou "litros

por minuto". Estes dados também podem ser processados e gerar alarmes para médicos

ou equipes de enfermagem (AROCA, 2008).

2.5 Tecnologias Associadas

Monitor multiparamétrico é o principal equipamento utilizado entre os profissio-

nais de saúde para acompanhar a evolução dos indicadores de saúde do paciente. Essas

informações são fundamentais para avaliar a resposta ao tratamento e a necessidade de

novas intervenções. Os monitores se destinam ao uso em setores como triagem, emer-

gências, centros cirúrgicos e leitos de CTI (LIQUID, 2017). Para a pesquisa deste trabalho

foi utilizado o monitor multiparamétrico OMNI 612 que pode ser visto na Figura 13.

Fundada em 1987, a Health Level 7 (HL7) é uma organização de desenvolvimento

de padrões aprovada por ANSI3 uma organização sem fins lucrativos, dedicada a forne-

cer uma estrutura abrangente e padrões relacionados para o intercâmbio, integração,3https://www.ansi.org

40

Figura 13: Monitor Multiparamétrico Omni 612

compartilhamento e recuperação de informações de saúde eletrônica que suporte prá-

tica clínica e gestão, entrega e avaliação de serviços de saúde. A HL7 é apoiada por mais

de 1.600 membros de mais de 50 países, incluindo mais de 500 membros corporativos

que representam prestadores de cuidados de saúde, partes interessadas do governo,

empresas farmacêuticas, fornecedores e empresas de consultoria. (HL7, 2017).

Em seguida na Listagem 2.1. é mostrado um exemplo de uma mensagem de admis-

são. MSH é o segmento do cabeçalho, PID a Identidade do Paciente, PV1 é a informação

da Visita do Paciente, etc. O 5o campo no PID segmento é o nome do paciente, na or-

dem, nome de família, nome, segundo nome (ou suas iniciais), sufixo, etc. Dependendo

do tipo de avaliação que será realizado com o paciente, mais campos serão disponibi-

lizados com informações adicionais. Ademais, nas tabelas 1 e Tabela 2 é descrito mais

detalhado sobre os seguimentos da mensagem.1 MSH|^~\&|MegaReg|XYZHospC|SuperOE|XYZImgCtr|20060529090131−0500||ADT̂ A01̂ ADT_A01|01052901|P|2.52 EVN||200605290901||||200605290900

3 PID|||56782445^^^UAReĝ PI ||KLEINSAMPLÊ BARRŶ Q̂ JR||

4 19620910|M||2028−9^^HL70005̂ RA99113̂ X̂YZ|260 GOODWIN CREST DRIVÊ B̂IRMINGHAM̂ AL̂ 35209̂ M̂~NICKELL?S PICKLES^10000 W 100TH AVÊBIRMINGHAM̂ AL̂ 35200̂ Ô|||||||0105 I30001̂ ^̂ 99DEF̂ AN

5 PV1|| I |Ŵ 389̂ 1̂ UABĤ ^^^3||||12345 M̂ORGAN̂ REX̂ Ĵ ^̂ MD̂ 0010̂ UAMĈ L||

6 67890^GRAINGER̂ LUCŶ X̂ ^̂ MD̂ 0010̂ UAMĈ L|MED|||||A0||

7 13579^POTTER̂ SHERMAN̂ T̂ ^̂ MD̂ 0010̂ UAMĈ L|||||||||||||||||||||||||||

8 200605290900

9 OBX|1|NM|̂ Body Height ||1.80|m̂ Meter̂ ISO+|||||F

10 OBX|2|NM|̂ Body Weight||79|kĝ Kilogram ÎSO+|||||F

11 AL1|1||^ASPIRIN

12 DG1|1||786.50^CHEST PAIN , UNSPECIFIED̂ I9 |||A

Listagem 2.1: Mensagem HL7 v2.x

41

Tabela 1: Descrição dos seguimentos HL7 versão 2.x

Nome do Seguimento Descrição

DG1 Diagnóstico

EVN Tipo de Evento

GT1 Fiador

IN1 Seguros

MSH Cabeçalho da mensagem

NTE Notas e comentários

OBR Solicitação de observação

OBX Resultado da observação

ORC Ordem comum

PID Identificação do paciente

FT1 Para mensagem - Transações Financeiras

Tabela 2: Descrições dos códigos ADT do HL7 versão 2.x

Código ADT Mensagens

ADT-A01 Admissão Do Paciente

ADT-A02 Transferência Do Paciente

ADT-A03 Alta Do Paciente

ADT-A04 Registro Do Paciente

ADT-A05 Pré-Admissão Do Paciente

ADT-A08 Atualização De Informações Do Paciente

ADT-A11 Cancelar Admissão Do Paciente

ADT-A12 Cancelar A Transferência Do Paciente

ADT-A13 Cancelar A Alta Do Paciente

Atualmente existem diversas plataformas que podem ser integradas com o sistema

para a realização do aprendizado de máquina, algumas dessas plataformas serão des-

critas na 2.5.0.1.

2.5.0.1 Plataformas de Aprendizado de Máquina

Esta subseção 2.5.0.1 visa fornecer uma visão geral das plataformas de aprendizado

de máquina. Dessa forma, pensou-se em realizar uma busca exploratória de plataformas

42

que fossem livres para uso e que pudessem ser integrado nos mais variados projetos,

sendo assim, foram encontradas 6 plataformas que serão descritas brevemente, sendo

essas: TensorFlow, Scikit-learn, AnaConda, Apache Spark, Keras e Weka.

TensorFlow:4 é uma biblioteca de software de código aberto para computação nu-

mérica usando gráficos de fluxo de dados. A arquitetura flexível permite implantar

computação para uma ou mais CPUs ou GPUs em uma área de trabalho, servidor ou

dispositivo móvel com uma única API. O TensorFlow foi originalmente desenvolvido

por pesquisadores e engenheiros que trabalham no Google Brain Team dentro da or-

ganização de pesquisa da Machine Intelligence da Google para fins de pesquisa em

máquinas e pesquisa de redes neurais profundas, mas o sistema é geral o suficiente

para ser aplicável em uma ampla variedade de outros domínios.

Scikit-learn:5 é uma biblioteca de aprendizado de máquina de código aberto para

a linguagem de programação Python, a biblioteca é comercialmente utilizável - licença

BSD6. É uma ferramentas simples e eficientes para mineração de dados e análise de

dados. Acessível a todos e reutilizável em vários contextos. É uma biblioteca construído

em NumPy, SciPy e matplotlib. Contém quase todos os modelos de aprendizado de

máquinas imagináveis - desde regressores lineares e logísticos até classificadores SVM

e Random Forest - e possui uma enorme caixa de ferramentas de métodos de pré-

processamento como redução de dimensionalidade, transformações de texto e muito

mais.

AnaConda:7 com mais de 4,5 milhões de usuários, a plataforma aberta Anaconda

Distribution é a maneira mais fácil de fazer ciência de dados e aprendizagem de máqui-

nas Python. Ele inclui centenas de pacotes populares de ciência dos dados e o pacote

conda é o gerenciador de ambiente virtual para Windows, Linux e MacOS. O Conda

facilita complexas tarefas de ciência de dados e de aprendizagem de máquinas, como

scikit-learn, TensorFlow e SciPy. A Anaconda Distribution é a base de milhões de pro-

jetos de ciência dos dados, bem como AMIs de Aprendizado de Máquinas da Web da

Amazon Web e Anaconda para a Microsoft em Azure e Windows.

Apache Spark:8 é um sistema de computação de cluster rápido e de propósito geral.

Ele fornece APIs de alto nível em Java, Scala e Python e um mecanismo otimizado

4https://www.tensorflow.org5http://scikit-learn.org6A licença BSD é uma licença de código aberto inicialmente utilizada nos sistemas operacionais do

tipo Berkeley Software Distribution.7https://anaconda.org8https://spark.apache.org

43

que suporta gráficos de execução geral. Um gráfico de execução descreve os possíveis

estados de execução e os estados entre eles. O Spark também suporta um conjunto de

ferramentas de nível superior, incluindo Spark SQL para SQL e processamento de dados

estruturados, MLlib para aprendizagem de máquinas, GraphX para processamento de

gráficos e Spark Streaming. A MLlib é a biblioteca de aprendizagem de máquinas da

Spark, com foco em algoritmos e utilidades de aprendizado, incluindo classificação,

regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade, além de

primitivas de otimização subjacentes.

Keras:9 é uma biblioteca de rede neural de código aberto escrita em Python. É capaz

de rodar no topo do MXNet , Deeplearning4j , TensorFlow , Microsoft Cognitive Toolkit

ou Theano. Keras é uma API de alto nível redes neurais, escrito em Python e capaz

de correr em cima de TensorFlow, CNTK, ou Theano. Foi desenvolvido com foco na

habilitação de experimentação rápida. A biblioteca contém inúmeras implementações

de blocos de construção de redes neurais de uso comum, como camadas, objetivos,

funções de ativação, otimizadores e uma série de ferramentas para facilitar o trabalho

com dados de imagem e texto.

WEKA: visa fornecer uma coleção abrangente de algoritmos de aprendizagem de

máquinas e ferramentas de pré-processamento de dados para pesquisadores e profissi-

onais. Ele permite aos usuários testar e comparar rapidamente diferentes métodos de

aprendizado de máquinas em novos conjuntos de dados. Sua arquitetura modular e ex-

tensível permite que processos sofisticados de mineração de dados sejam construídos a

partir da ampla coleção de algoritmos básicos de aprendizado e ferramentas fornecidas.

Estender o kit de ferramentas é fácil graças a uma API simples. O banco de trabalho

inclui algoritmos para regressão, classificação, agrupamento, mineração de regras de

associação e seleção de atributos. A exploração preliminar de dados é bem atendida por

instalações de visualização de dados e muitas ferramentas de pré-processamento (HALL

et al., 2009).

9https://keras.io

44

3 Revisão do Estado da Arte

Neste capítulo é realizado um levantamento geral na literatura sobre a utilização

técnicas de aprendizado de máquina na área da saúde. Além disso, pretende-se identi-

ficar as áreas da saúde que os pesquisadores estão direcionando seus esforços. Também

é pretendido investigar o desenvolvimento de aplicações na área da saúde e os tipos

de pacientes que são comumente abordados nestas pesquisas. Por fim, no trabalho final

é buscado entender melhor a relação entre as informações obtidas na área de AM em

healthcare e relatar os principais problemas, assim como conceber as visões futuras em

healthcare para comunidade científica.

De acordo com (GIL, 1999) uma pesquisa exploratória tem como objetivo princi-

pal desenvolver, esclarecer e modificar conceitos e ideias, tendo em vista a formulação

de problemas mais precisos ou hipóteses pesquisáveis para estudos posteriores. Já de

acordo com (MATTAR, 2001), os métodos utilizados pela pesquisa exploratória são am-

plos e versáteis. Os métodos empregados compreendem: levantamentos em fontes se-

cundárias, levantamentos de experiências, estudos de casos selecionados e observação

informal.

Este trabalho está organizado nas três próximas seções. Na Seção 3.1 será descrito o

protocolo executado para realização da pesquisa, desde o planejamento da base dados

e string de busca até a processo de seleção. Em seguida na Seção 3.2 apresentará os

resultados que retoma as questões de pesquisa buscando respondê-las. Cada questão de

pesquisa é um sub-tópico, no qual tem-se a descrição dos resultados obtidos. Por último,

a Seção 3.3 expõe as discussões encontradas durante todo o trabalho, unindo ideias e

sintetizando elementos da pesquisa.

45

3.1 Metodologia

Nesta Seção será demostrados os passos que foram seguidos para a realização desta

revisão do estado da arte, como o planejamento e execução da revisão sistemática, fonte

de dados, string de busca, processo de seleção e o processo de extração.

3.1.1 Planejamento e Execução da Revisão Sistemática

De acordo com o contexto esse trabalho tem a finalidade de responder as seguintes

questões de pesquisas (QP):

• QP1 - Quais as técnicas de aprendizado de máquina estão sendo utilizadas na áreade cuidados da saúde ?

• QP2 - Para quais tipos de pacientes estão sendo direcionadas estas pesquisas?

• QP3 - Quais áreas da saúde os trabalhos estão sendo direcionados?

• QP4 - Nos artigos encontrados, quais os tipos de pesquisas utilizados?

3.1.2 Fonte de Dados

Para obter os estudos primários foi realizado um processo de pesquisa na base de

dados eletrônica Scopus da Elsevier, a qual indexa os principais repositórios científicos

(ver Tabela 3), que estão entre as mais populares em Ciência da Computação e Engenha-

ria e são capazes de garantir uma alta cobertura de estudos potencialmente relevantes

(DYBÅ; DINGSØYR; HANSSEN, 2007; CHEN; BABAR; ZHANG, 2010).

Tabela 3: Repositório de Busca

Nome EndereçoIEEExplorer http://ieeexplore.ieee.orgACM Digital http://dl.acm.orgScienceDirect http://www.sciencedirect.comSpringer http://link.springer.comWeb of Science http://webofknowledge.com

46

3.1.3 String de busca

Para se ter uma maior abrangência na localização de artigos, foram usadas duas

palavras-chaves ao qual fez parte da string de busca. Sendo elas Machine Learning e

Healthcare, no qual resultou na seguinte string:

1. ("Machine Learning") AND ("Healthcare")

3.1.4 Processo de Seleção

O processo de execução, seleção e leitura dos artigos foi realizado pelo autor deste

trabalho em um período de três meses entre março a maio de 2017. Desse modo, estu-

dos primários foram pesquisados, selecionados e avaliados de acordo com o protocolo

estabelecido, resultando em um conjunto de estudos possivelmente relevantes.

No processo de busca no site da Scopus foi considerado título, palavra-chave e re-

sumo. A busca retornou 545 trabalhos. Posteriormente, realizou-se a leitura desses 545

artigos, descartando assim, os que não fossem disponibilizados na versão gratuita e os

que não estivessem em inglês. A partir disso, foram realizadas três iterações de lei-

tura como pode ser visto na Tabela 4. Na primeira, analisou-se os títulos, resumos e

palavras-chaves, restando 206 artigos. Na segunda iteração, leu-se a introdução e a

conclusão dos 150 artigos, excluindo os que não se adequavam às questões da pesquisa,

permanecendo 36 artigos. Aos que se adequaram, foi efetuada uma leitura cuidadosa.

Tabela 4: Fases de Leitura

Fases Qtdo Artigos Leitura

1o Fase Planejamento eExecução da

String

-

2o Fase Título, Resumo,Palavras-Chaves

545

3o Fase Introdução eConclusão

152

4o Fase ArtigoCompleto

36

47

3.1.5 Processo de extração

No processo de extração foi utilizado uma Planilha Eletrônica do Google para man-

ter os detalhes bibliográficos de cada estudo para fins de análise. Detalhes dessa planilha

podem ser vistos no link a seguir: https://goo.gl/Z3kTAK

3.2 Resultados

Nesta seção serão discutidos os resultados da pesquisa a fim de responder as ques-

tões realizadas na subseção 3.1.1.

Como já mencionado na subseção 3.1.4 foram aceitos 36 artigos, onde foram ana-

lisados. Desses 36 artigos foi percebido que 63,9% dos artigos foram publicados em

jornais, e 36,1% em conferências, como pode ser vistos na Figura 14 (a).

Já em relação as bases de dados responsáveis pela indexação dos artigos a IEEE

teve a maior porcentagem, sendo cerca de 38,9%, em segundo temos a ScienceDirect que

junto com a IEEE formam 66,7% dos artigos lidos, e na 3o posição temos a Springer com

11,1%, a BiomedCentral vem logo em seguida com 5,6%. E as demais bases de dados

representam 2,8% cada, totalizando 16,8% dos artigos. Os dados podem ser vistos na

Figura 14 (b).

Também notou-se que ao longo dos anos a quantidade de artigos está em crescente,

onde pode-se verificar na Figura 15. Como os artigos foram lidos até o mês de Maio de

2017, então os artigos de 2017 ainda estão sendo indexados nas plataformas digitais,

mostrando que a tendência é sempre crescente ao ano anterior.

3.2.1 QP1

Na fase de leitura foram extraídas diversas informações acerca dos artigos e uma

dessas extrações de informações foi sobre quais técnicas de Aprendizado de Máquina

estão sendo utilizadas em cuidados da saúde relativos a QP1.

Na Figura 16 mostra-se um gráfico com a resposta para a pergunta da QP1. Pode-se

observar que as técnicas citadas e/ou utilizadas já são técnicas validadas e consolida-

das pela literatura, evidenciando assim, uma boa perspectiva para o uso em trabalhos

futuros nesta área.

48

Figura 14: Veículos e Base de dados dos Artigos

Podemos observar 7 classificadores que estão sempre presentes nos estudos de apren-

dizado de máquina aplicado em healthcare. Em seguida, será realizado uma descrição

sobre cada um desses classificadores.

3.2.2 QP2

Na QP2 foi investigado os tipos de pacientes citados nos trabalhos analisados.

Além disso, para organizar a resposta desta questão de pesquisa optou-se por agru-

par os pacientes de acordo com a Classificação Internacional de Doenças (ORGANIZATION,

2016), a qual já está em sua versão 11 e é mantida pela Organização Mundial de Saúde

(OMS) . Nessa classificação as doenças são agrupadas em 27 capítulos e foi justamente

esse agrupamento que foi utilizado para separar as enfermidades abordadas nos 29 tra-

balhos selecionados. Dos 36 artigos selecionados, 32 estavam diretamente relacionados

com a saúde do paciente, onde os demais trabalhos não eram voltados especificamente

para o paciente. Por exemplo: utilização de técnicas de aprendizado de máquina aplica-

das à descoberta de drogas antibacterianas.

Na Tabela 5 demostra o resultado obtido para os tipos de pacientes. Em destaque

49

Figura 15: Artigos Publicados ao longo dos anos

Figura 16: Classificadores de Aprendizado de Máquina

temos o grupo de pessoas com Doenças do aparelho respiratório (DPOC) com cerca

de 6 trabalhos. Os tipos mais comuns desse tipo de doença são ("Asma", "Pneumonia",

"Bronquite", "Sinusite").

Em seguida é possível perceber que seis grupos tiveram a mesma quantidade de

pacientes categorizados. No entanto, 1 grupo teve dois tipos, e por fim 6 grupos com

apenas um tipo de paciente categorizado.

3.2.3 QP3

Após a leitura dos 36 artigos podemos responder a QP3 sobre para quais áreas de

saúde os trabalhos estão sendo direcionados. No estudo realizado foi identificado a área

em 31 artigos dos 36, cerca de 86,1%. Após a identificação das áreas da saúde e para

melhor organização, os dados foram agrupados de acordo com a NUCC1. De acordo,

com o agrupamento chegou-se no seguinte resultado que será mostrado na Figura 17

1O NUCC (National Uniform Claim Committee) é hospedado e presidido pela American Medical As-sociation (AMA).

50

Tabela 5: Grupos de pacientes identificados nos estudos

Categorização dos Pacientes Quantidade

Doenças do aparelho respiratório 6

Doenças Crônicas 3

Doenças do sistema nervoso 3

Doenças do sangue e dos órgãos hematopoiético e de certos dis-túrbios envolvendo o mecanismo imunitário

3

Doenças endócrinas, nutricionais e metabólicas 3

Neoplasias 3

Fatores que influenciam o estado de saúde e o contato com osserviços de saúde

3

Certas doenças infecciosas e parasitárias 2

Transtornos mentais e comportamentais 1

Doenças do sistema músculo-esquelético e do tecido conjuntivo 1

Doenças cerebrovasculares 1

Causas externas de morbidade e mortalidade 1

Lesões, envenenamento e outras consequências de causas exter-nas

1

Transtornos extrapiramidais e de movimento 1

A maior parte dos trabalhos, cerca de 58,1%, estão preocupados com a medicina

da família, que é a especialidade médica concernida com os cuidados de saúde totais

do indivíduo e da família. É a especialidade em amplitude que integra as ciências bi-

ológicas, clínicas e comportamentais. O âmbito da medicina da família não é limitado

pela idade, sexo, sistema de órgãos ou entidade da doença. Em seguida, com 32,3%

temos á área multi especialidade que trabalha com diversos tipos de áreas de especia-

lização. Em 3o lugar foi identificado que os especialistas voltam seus trabalhos para a

farmacologia clínica que abrange o espectro de atividades relacionadas à descoberta,

desenvolvimento, regulação e utilização de drogas seguras e eficazes. Por último, com

3,2% temos trabalhos preocupados com Psiquiatria e Neurologia, que são áreas espe-

cializadas na prevenção, diagnóstico e tratamento de transtornos mentais, distúrbios

emocionais, psicóticos, transtornos do humor, transtornos de ansiedade.

3.2.4 QP4

A fim de responder a QP4 os trabalhos selecionados neste estudo foram categori-

zados de acordo com (WIERINGA et al., 2006), na qual é definida uma categorização em

51

Figura 17: Categorização das Áreas de Saúde

seis tipos de pesquisa, sendo elas:

• Pesquisa de Validação: As técnicas são novas, porém ainda não implementadasna prática;

• Pesquisa de Avaliação: Técnicas ou soluções que são implementadas na prática etêm suas consequências investigadas;

• Proposta de solução: Nível de abstração da pesquisa é menor em relação a Pes-quisa de Validação. Pode ser uma solução extensível de outra já existente;

• Artigos filosóficos: Estrutura o trabalho na forma de taxonomia ou frameworkconceitual. Portanto, apresenta uma nova forma de avaliar os fatos existentes;

• Artigos de Opinião: Estudos que expressam a opinião de alguém sobre determi-nado assunto;

• Artigos de Experiência: Inclui a experiência do autor em relação a como umfenômeno ocorre de forma prática.

De acordo com o que foi analisado a maior parcela dos estudos foram estudos de

pesquisas de avaliação, com cerca de 61,1%, isto é um fato bastante interessante, de-

mostrando que as pesquisas desta área estão focadas em desenvolver e avaliar na prá-

tica técnicas e soluções laboratoriais para determinados problemas na área da saúde.

Em seguida, se tem a proposta de solução e pesquisa de validação representando 33,3%

dos estudos, onde os pesquisadores ainda estão propondo e testando seus trabalhos em

ambientes controlados.

Já os artigos de opiniões e artigos filosóficos foram identificados apenas um de cada.

Isso mostra que os pesquisadores não estão preocupados em definir taxonomias e/ou

52

Figura 18: Quantitativo de artigos por tipo de pesquisa

expressar opiniões a respeito do assunto. Ademais, o que chamou atenção foi o fato de

não ter sido identificado nenhum artigo de experiência, o que sugere que ainda existe

um amplo espaço a ser explorado no uso efetivo de soluções baseadas em AM na área

de healthcare.

3.3 Discussões

Esta seção tem o intuito de discutir as informações e os achados gerais deste trabalho

e em seguida, argumentar sobre as oportunidades e desafios na área de aprendizado de

máquina na saúde.

O primeiro achado que se destacou neste estudo foi a quantidade de trabalhos re-

lacionados a pesquisas de avaliação. Nos resultados foram identificados que cerca de

61,1% dos estudos sobre aprendizado de máquina em saúde estão preocupados com a

parte prática. Uma hipótese para esse fato é que isso se dá pelo motivo que a área de

saúde trabalha com dados reais e com isso não faria sentido realizar estudos com da-

dos simulados. Através dos dados coletados os algoritmos de aprendizado de máquina

podem potencialmente encontrar as correlações entre as observações dos diagnósticos

clínicos e usar esses conjuntos de dados para predizer melhor o diagnóstico médico.

O segundo achado importante foi a quantidade de trabalhos preocupados com as

doenças do aparelho respiratório (DPOC). Uma das possíveis causas é a prevalência de

pessoas com DPOC, onde essas doenças ocupam a terceira posição mundial de mortes,

com cerca de 3 milhões de pessoas morrendo por ano com esse tipo de enfermidade

(ORGANIZATION, 2017). No entanto, mais de 90% das mortes por DPOC ocorrem em

países de baixa e média renda e 235 milhões de pessoas sofrem de asma, uma doença

comum entre as crianças. Portanto, alguns casos mais comuns de DPOC são: asma, do-

53

ença pulmonar obstrutiva crônica, pneumopatias, rinite alérgica, entre outros, segundo

dados da OMS (Organização Mundial de Saúde) (ORGANIZATION, 2017).

Por fim, o terceiro achado foi a quantidade de estudos voltados para a área da

medicina familiar. Como já citado, 58,1% dos estudos estão voltados para esse grupo

da área de saúde. Segundo dados da Organização Mundial de Saúde (ORGANIZATION,

2014), as estimativas mostram que, em países desenvolvidos, cerca de um em cada

10 pacientes é prejudicado ao receber cuidados hospitalares, e centenas de pacientes

em todo mundo adquirem infecções associadas aos cuidados de saúde. Então, com isso

surge a importância dos médicos utilizarem ferramentas que auxiliem o monitoramento

do paciente remotamente utiliz

Documents

Uma Plataforma de Monitoramento Inteligente de Arritmia ...€¦ · 1. Engenharia de software - Dissertação. 2. Cuidados de saúde ... Dr. Gibeon Soares de Aquino Junior (Orientador)