UM SISTEMA BASEADO EM ALGORITMO GENÉTICO PARA …tg/2019-2/TG_EC/tg_bfl2.pdf · um sistema baseado em algoritmo genÉtico para seleÇÃo de caracterÍsticas aplicado a classificaÇÃo

UM SISTEMA BASEADO EM ALGORITMO GENÉTICO PARA SELEÇÃO DECARACTERÍSTICAS APLICADO A CLASSIFICAÇÃO DE FIBROSE NO FÍGADO

Por

BRUNO FILIZOLA LEAL

Trabalho de Graduação

Universidade Federal de [email protected]

www.cin.ufpe.br/~secgrad

RECIFE/2019

www.cin.ufpe.br/~secgrad

Bruno Filizola Leal

UM SISTEMA BASEADO EM ALGORITMO GENÉTICO PARASELEÇÃO DE CARACTERÍSTICAS APLICADO A CLASSIFICAÇÃO

DE FIBROSE NO FÍGADO

Trabalho apresentado ao Programa de Graduação em En-

genharia da computação do Centro de Informática da Uni-

versidade Federal de Pernambuco como requisito parcial

para obtenção do grau de Bacharel em Engenharia da

computação.

Orientador: Paulo Salgado Gomes de Mattos Neto

RECIFE2019

Resumo

O Câncer é a segunda principal causa de morte no mundo, totalizando 9,6 milhões mortes noano de 2018, o que corresponde à 1 em cada 6 mortes. 70% dos casos de câncer são em paísescom o perfil brasileiro. O câncer de fígado figura entre os mais letais e quanto mais cedo o seudiagnóstico, maiores as chances de sobrevivência. Identificar o risco de um individuo desenvolvercâncer é de suma importância. Algoritmos genéticos são uma boa abordagem para realizarseleção de características para classificação. Este trabalho avalia esta abordagem para o conjuntode dados da Fundação Oswaldo Cruz sobre câncer hepático, que contém características genéticase o nível de fibrose, que identifica doenças no fígado, de 297 indivíduos. Os classificadoresabordados são: Redes neurais MLP, Gradient Boosting, Random Forest, SVM e One Class

SVM. As melhores métricas foram do modelo One Class SVM utilizando Leave One Out. Já naconfiguração de KFold, com k igual à 5, o modelo MLP obteve os melhores resultados. Pode-seobservar que os modelos tiveram um desempenho melhor na classificação entre indivíduos comcirrose e câncer, o que sugere que estes dois grupos talvez não possuam tantas semelhançasgenéticas. As características com maior incidência nos melhores modelos variaram de acordocom a configuração do conjunto de dados, no entanto algumas características tiveram incidênciaem todas as configurações do conjunto de dados, foram elas: IL-10 -1082(Interleukin-10 -1082) ,TNF-308 (Tumor necrosis factor -308) e SOD2 (Superoxide dismutase 2).

Abstract

Cancer is the second cause of death worldwide, reaching 9.6 million people in 2018, 1 out of6 people die of cancer. 70% of cancer cases are in countries with the brazilian socioeconomicprofile. Liver cancer is among the most lethal types and the sooner the diagnosis, bigger thechances of survival. Identifying the risk of an individual developing the disease is of utmostimportance. Genetic algorithms are a good approach to do feature selection for classification.This work evaluates this approach to the dataset from Fio Cruz (Oswaldo Cruz Foundation), abrazilian scientific institution for research and development in biological sciences, which containsgenetic information and the fibrosis level, used to identify liver diseases, of 297 patients. Theclassifiers used in this work are: Artificial Neural Network MLP, Gradient Boosting, RandomForest, SVM and One Class SVM. The best overall results were obtained form the One ClassSVM model, using Leave One Out configuration. In the KFold, with k = 5, configuration theMLP model obtained the best results. We observed that the classification models achievedbetter results in the classification between patients with cancer and cirrhosis, which suggests thatthese may have less genetic similarities. The features most selected in the best models variedamong the different dataset configuration. However, some features were selected in all datasetconfigurations, these were: IL-10 -1082 (Interleukin-10 -1082) , TNF-308 (Tumor necrosis factor-308) e SOD2 (Superoxide dismutase 2).

Lista de Figuras

2.1 Fluxograma de um algoritmo genético . . . . . . . . . . . . . . . . . . . . . . 142.2 Exemplo de um 4Fold. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1 Diagrama do protocolo experimental. . . . . . . . . . . . . . . . . . . . . . . 18

5.1 Diagrama da matriz de confusão: A classe 0 corresponde aos indivíduos semHCC e a classe 1 corresponde aos indivíduos com HCC. . . . . . . . . . . . . 23

Lista de Tabelas

3.1 Distribuição das classes do conjunto de dados . . . . . . . . . . . . . . . . . . 163.2 Lista dos identificadores dos SNP no conjunto de dados e seus respectivos nomes

completos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3 Amostra do conjunto de dados, com os nomes dos SNPs abreviados. . . . . . . 173.4 Diferentes configurações do conjunto de dados classificadas neste trabalho. . . 183.5 Amostra do conjunto de dados com as características numéricas e a característica

alvo definida, com os nomes dos SNPs abreviados. . . . . . . . . . . . . . . . 19

5.1 Resultados dos classificadores com o conjunto de dados sem aplicação de seleçãode características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5.2 Resultados dos classificadores com a aplicação de algoritmo genético paraseleção de características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.3 Características selecionadas para cada modelo pelo algoritmo genético de seleçãode características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.4 Resultados do classificador One Class SVM com a aplicação de algoritmogenético para seleção de características . . . . . . . . . . . . . . . . . . . . . 27

5.5 Características selecionadas para o modelo de One Class SVM pelo algoritmogenético de seleção de características . . . . . . . . . . . . . . . . . . . . . . 27

5.6 Resultados dos classificadores com a aplicação de algoritmo genético paraseleção de características no conjunto (F0,F1,F2,F3 X HCC). . . . . . . . . . 28

5.7 Características selecionadas para cada modelo pelo algoritmo genético de seleçãode características no conjunto (F0,F1,F2,F3 X HCC). . . . . . . . . . . . . . . 29

5.8 Resultados dos classificadores com a aplicação de algoritmo genético paraseleção de características no conjunto (F4 X HCC). . . . . . . . . . . . . . . . 30

5.9 Características selecionadas para cada modelo pelo algoritmo genético de seleçãode características no conjunto (F4 X HCC). . . . . . . . . . . . . . . . . . . . 31

5.10 Resultados dos melhores classificadores para cada uma das configurações com aaplicação de algoritmo genético para seleção de características . . . . . . . . . 32

5.11 Porcentagens de incidência das características em cada conjunto de divisão dosdados nos diferentes classificadores. . . . . . . . . . . . . . . . . . . . . . . . 33

Sumário

1 Introdução 81.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Fundamentação Teórica 112.1 Single Nucleotide Polymorphism (SNP) . . . . . . . . . . . . . . . . . . . . . 112.2 Algoritimos de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 Redes Neurais do tipo MLP . . . . . . . . . . . . . . . . . . . . . . . 122.2.2 Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.4 Support Vector Machine (SVM) . . . . . . . . . . . . . . . . . . . . . 122.2.5 One Class SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3 Algoritmo Genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.4 Técnicas de pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4.1 Oversampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.4.2 KFold cross-validation . . . . . . . . . . . . . . . . . . . . . . . . . . 142.4.3 Label Encoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 Configuração Experimental 163.1 Conjunto de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2 Protocolo Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4 Abordagem Proposta 204.1 Seleção de características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.1.1 Algoritmo Genético . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5 Resultados 225.1 Configuração do conjunto de dados completa . . . . . . . . . . . . . . . . . . 23

5.1.1 Classificação dos modelos sem seleção de características . . . . . . . . 235.1.2 Classificação com seleção de características . . . . . . . . . . . . . . . 245.1.3 One Class Classification com seleção de características . . . . . . . . 26

5.2 Conjunto de dados F0,F1,F2,F3 X HCC . . . . . . . . . . . . . . . . . . . . . 285.3 Conjunto de dados F4 X HCC . . . . . . . . . . . . . . . . . . . . . . . . . . 305.4 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

6 Conclusão 346.1 Sugestões de trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Referências 36

888

1Introdução

1.1 Motivação

O Câncer é um grupo de doenças que surge da transformação de células normais emcélulas tumorais em um processo de vários estágios que vai de uma lesão pré-cancerígena àum tumor maligno. Essas mudanças podem ser causadas por diversos fatores à depender dotipo. Fatores como herança genética, dieta, hábitos comportamentais, contato com substânciasquímicas, radiação, hormônios e até agentes biológicos estão dentre as possíveis causas demanifestação dos mais de cem tipos de câncer.

Segundo dados da OMS, câncer é a segunda principal causa de morte no mundo, totali-zando 9,6 milhões mortes no ano de 2018, o que corresponde à 1 em cada 6 mortes. 70% doscasos de câncer são em países com baixa e média renda, como o Brasil. O câncer de fígadofigura entre os mais letais, registrando 782 mil mortes no último ano (Organização Mundial deSaúde (2018)).

O hepatocarcinoma (HCC), ou câncer de fígado, é um tumor altamente maligno, quedobra o seu volume a cada 180 dias em média (HEPCENTRO (2011)). Mesmo em seu estágioinicial, ou seja, um tumor pequeno, localizado em um fígado com bom funcionamento, dá ao seuportador apenas cerca de oito meses de vida após ser encontrado, se não for realizado nenhumtratamento. No estágio mais avançado, a previsão média é de menos de três semanas de vidaapós o diagnóstico (HEPCENTRO (2011)). O câncer de fígado ainda é associado à um malprognóstico em pacientes com estágio avançado da doença. Estudos anteriores sugerem que avigilância regular ao câncer de fígado em populações de alto risco para detectar HCC em umestágio inicial trazem benefícios (SATO (2018)).

Esta doença provoca impactos devastadores na sociedade, causando milhares de mortesanualmente, é preciso diminuir o impacto do câncer de fígado no mundo. A Organização Mundialda Saúde (OMS) recentemente incluiu erros de diagnóstico como um problema de alta prioridade(SINGH et al. (2016)). Para auxiliar profissionais médicos no diagnóstico do câncer de fígado,sistemas de suporte à decisão (SSD) podem ser empregados para aumentar as chances de umdiagnóstico correto, já que um diagnóstico da doença no seu estágio inicial é crucial para asobrevivência do paciente.

1.1. MOTIVAÇÃO 9

Estes SSDs necessitam de um conjunto de variáveis referentes ao domínio do pro-blema. Para desenvolver tais sistemas, podem ser usadas técnicas de mineração de dados e deaprendizagem de máquina. Mineração de dados e aprendizagem de máquina possuem algu-mas semelhanças, utilizando métodos em comum, mas diferem no objetivo final. Enquanto oaprendizagem de máquina tem o foco na predição de uma propriedade conhecida, à partir depropriedades conhecidas, mineração de dados tem o seu foco no descobrimento de propriedadesdesconhecidas.

Técnicas de classificação já foram aplicadas ao problema de prever se um indivíduopossui uma doença. (AUSTIN et al. (2013)) aplicou Support Vector Machine (SVM), Random

Forest (RF) e regressão logística para a predição de característica relacionada à insuficiênciacardíaca . (LG; AT (2013)) aplicou Decision Tree (DT), SVM e Multi Layer Perceptron (MLP)na predição de reincidência de câncer de mama. Técnicas de otimização podem ser utilizadas emconjunto com técnicas de classificação, melhorando suas métricas de desempenho. (WANG et al.(2005)) aplicou as técnicas de cuckoo optimization algorithm e harmony search para construirum método de seleção de genes para o problema de classificação de câncer utilizando SVM.

Algoritmos genéticos são uma família de modelos computacionais inspirados na teoria daevolução biológica (WHITLEY (1994)). Uma das aplicações de algoritmos genéticos é a seleçãode características, para problemas de classificação. A classificação de padrões e problemas dedescoberta de conhecimento requerem um subconjunto de características para representar ospadrões à serem classificados. Algoritmos genéticos oferecem uma opção atrativa para encontraruma solução quase ótima para tais problemas de otimização (YANG; HONAVAR (1998)).

Estudos recentes utilizaram técnicas de aprendizagem de máquina aplicadas ao problemado câncer de fígado. (SATO (2018)) aplicou os classificadores: SVM, Logistic Regression,Support Vector Machine (SVM), Gradient Boosting (GB) Random Forest (RF), Artificial Neural

Network e Deep Learning à classificação entre indivíduos quanto à presença HCC. (KSIAZEKet al. (2019)) utilizou um 2level genetic optimizer para otimizar os parâmetros dos classificadorese realizar seleção de características com as entradas. Alguns dos classificadores usados foram:SVM, MLP, K-nearest neighbors (KNN), classificador de Naıve Bayes, Logistic Regression eRandom Forest.

1.2. OBJETIVO 10

1.2 Objetivo

Este trabalho tem dois objetivos principais: O primeiro é avaliar o desempenho dediferentes classificadores aplicados ao conjunto de dados da Fundação Oswaldo Cruz (Fio Cruz)sobre câncer de fígado. O segundo objetivo principal é propor uma abordagem de algoritmogenético realizando seleção de características para melhorar a métrica AUROC dos modelos.

1.3 Estrutura do Trabalho

Este trabalho é subdividido da seguinte forma: O Capítulo 2 é uma fundamentação teóricadas técnicas utilizadas neste trabalho. No Capítulo 3 é apresentada a configuração experimentalutilizada neste trabalho, o conjunto de dados e o protocolo experimental utilizado. No capítulo4 é apresentada a abordagem proposta. No Capítulo 5 são apresentados os resultados dasexperimentações realizadas com o conjunto de dados, as métricas obtidas pelos classificadoresem diferentes configurações e as características ligadas aos melhores resultados. No Capítulo 6 éconcluído o trabalho e possíveis trabalhos futuros são sugeridos.

111111

2Fundamentação Teórica

Neste capítulo, na seção 2.1 é feita uma breve introdução de SNP. Na seção 2.2 sãointroduzidas as técnicas de classificação utilizadas neste trabalho. Na seção 2.3 é introduzida atécnica de algoritmo genético com foco na seleção de características. Por fim na seção 2.4 sãoapresentadas técnicas de pré-processamento que foram utilizadas neste trabalho.

2.1 Single Nucleotide Polymorphism (SNP)

Um single nucleotide polymorphism, ou SNP (pronúncia "snip"), é uma variação de umaúnica posição numa sequência de DNA entre indivíduos. uma sequências de DNA é formadaa partir de uma cadeia de quatro bases de nucleotídeos: A, C, G e T. Se mais de 1% de umapopulação não possui o mesmo nucleotídeo em uma posição específica na sequência de DNA,então essa variação pode ser classificada como uma SNP. Embora um SNP em particular nãocause uma doença, alguns SNPs são associados a certas doenças (Nature Education (2015)).Por também possuir baixa taxa de mutação, os SNPs são bons marcadores genéticos e podemdelimitar o trecho de código genético a ser estudado para avaliar a relação genética de umadoença.

2.2 Algoritimos de classificação

Aprendizagem de máquina é uma subárea da inteligência artificial. Utilizando algoritmose modelos estatísticos, tarefas especificas podem ser realizadas sem depender de instruçõesexplícitas, mas sim de padrões e inferências. Um modelo matemático é construído a partir doprocesso de treinamento, que ocorre utilizando um algoritmo de treinamento sob um subconjuntode dados de treinamento, que contém as características de entrada e o valor ou classe de saída.Após o modelo passar pela etapa de treinamento, este modelo pode ser usado para fazer previsõese decisões podem ser tomadas a partir delas. O problema de classificação faz parte da área deaprendizagem de máquina, sendo um tipo de aprendizado supervisionado.

Foram escolhidos 5 diferentes tipos de algoritmos de classificação. A motivação naescolha do classificador One Class SVM foi por este ser uma opção atrativa devido à proporçãodesbalanceada entre as classes do conjunto de dados, o que é uma característica de problemas

2.2. ALGORITIMOS DE CLASSIFICAÇÃO 12

de Novelty Detection. Já os demais classificadores foram utilizados nos trabalhos de SATO(2018) ou KSIAZEK et al. (2019), relacionados à classificação do HCC. Essa diversidade declassificadores nos dá a possibilidade de observar quais características são mais relevantes paradiferentes tipos de algoritmos.

2.2.1 Redes Neurais do tipo MLP

Multi Layer Perceptron (MLP) é uma classe de classificadores compostos por redesneurais artificiais com mais de uma camada de neurônios em alimentação direta (RUSSELL;NORVIG; SOUZA (2004)). Estas redes são compostas por neurônios interligados entre si porsinapses com pesos ajustáveis. O treinamento de redes MLP geralmente é feito através doalgoritmo de Backpropagation. MLP é um bom generalizador, sendo capaz de aprender à partirda inferência de relações entre as informações do conjunto de dados. Este classificador foiutilizado em outro trabalho na detecção do câncer de fígado (KSIAZEK et al. (2019)).

2.2.2 Gradient Boosting

É um ensemble de classificadores baseado na combinação de vários classificadores fracos,geralmente árvores de decisão, que juntos formam um classificador melhor. Este classificadorganhou notoriedade recentemente devido à bons resultados em competições de aprendizado demáquina. Trabalhos semelhantes na detecção de câncer de mama (LU; WANG; YOON (2019)) ecâncer de fígado (SATO (2018)), onde foi o melhor modelo, utilizaram este classificador.

2.2.3 Random Forest

É um ensemble de árvores de classificação não podadas produzidas a partir da utilizaçãode seleção de características aleatórias e instâncias de bootstrap do conjunto de dados de trei-namento em indução de árvores (DUREJA (2008)). Uma das vantagens é a capacidade destemodelo de lidar com conjuntos de dados ruidosos. Aplicações na área de bioinformática, emespecial, tendem a conter variáveis categóricas, informações incompletas e classes desbalancea-das. O Random Forest lida bem com estes problemas, sendo utilizado nos trabalhos de (SATO(2018)) e (KSIAZEK et al. (2019)).

2.2.4 Support Vector Machine (SVM)

Uma máquina de vetor de suportes busca representar os elementos de duas classes comopontos no espaço. No treinamento com exemplos das duas classes é construído um hiperplanotão amplo quanto possível entre as duas classes de modo à separá-las. O SVM é um modelolinear, porém com a utilização de funções de kernel, é possível obter um SVM não linear. SVMnão é adequado para conjuntos de dados muito grandes, o que não é o caso do conjunto de dadosdeste trabalho. SVM é um classificador que começou à ser usado na área de bioinformática

2.2. ALGORITIMOS DE CLASSIFICAÇÃO 13

quando dados de expressão de genes de microarray ficaram disponíveis no início dos anos2000 (HUANG et al. (2018)). SVM foi utilizado na predição do câncer de mama (SWEILAM;THARWAT; MONIEM (2010)) e na predição do câncer de fígado nos trabalhos de (SATO(2018)) e (KSIAZEK et al. (2019)).

2.2.5 One Class SVM

Essa variação de SVM, implementada na plataforma scikit-learn (PEDREGOSA et al.(2011)) é baseada no trabalho de SCHöLKOPF et al. (2000), que utiliza no treinamento exemplosde uma única classe. Esse processo é denominado de novelty detection ou outliers detection. Aprincipal vantagem deste classificador é a capacidade de treinamento com a classe alvo.

2.3. ALGORITMO GENÉTICO 14

2.3 Algoritmo Genético

Estes algoritmos codificam uma potencial solução para um problema específico em umasimples estrutura de dados inspirado em um cromossomo, aplicando operadores de recombinaçãoà estas estruturas de modo à preservar informação crítica. Algoritmos genéticos são geralmentevistos como otimizadores, embora a extensão dos problemas ao qual algoritmos genéticos tenhamsido aplicados seja bem vasta (WHITLEY (1994)). Cada possível solução em um algoritmogenético é codificada por um cromossomo e este possui um valor de fitness calculado à partir doseu cromossomo aplicado à uma função de fitness. O algoritmo começa com a geração de umapopulação de indivíduos aleatória. Em seguida é aplicada a seleção de pais, cruzamento de paise mutação para gerar a prole, parte dos indivíduos da prole são selecionados para gerar a novapopulação. Este processo é repetido até que a condição de parada seja satisfeita.

Figura 2.1: Fluxograma de um algoritmo genético

2.4 Técnicas de pré-processamento

2.4.1 Oversampling

Para que um classificador não seja enviesado por uma classe majoritária é necessárioque o conjunto de treinamento tenha proporções similares entre as classes. Oversampling éum método de balanceamento de classes do conjunto de dados que repete elementos da classeminoritária até que está seja proporcional a classe majoritária.

2.4.2 KFold cross-validation

Na validação cruzada kfold o conjunto de dados é subdivido aleatoriamente em k sub-conjuntos. Dos k subconjuntos um é selecionado como subconjunto de validação do modelo e os

2.4. TÉCNICAS DE PRÉ-PROCESSAMENTO 15

subconjuntos restantes são utilizados no treinamento. Este processo é repetido até que cada umdos k subconjuntos tenha sido usado como subconjunto uma única vez. Cada um destes k parestreinamento/validação é avaliado e a média destas avaliações fornece uma estimativa. Quandok = n onde n é o número de amostras do conjunto de dados, chamamos esta técnica de Leave

One Out. Na figura 2.2 é exemplificado um kfold com k = 4.

Figura 2.2: Exemplo de um 4Fold.

2.4.3 Label Encoding

Características categóricas não são interpretadas diretamente por alguns tipos de classifi-cadores. Label Encoding é um método que transforma características categóricas em característi-cas numéricas. Para isso, cada categoria de uma coluna da tabela é convertida em um número.Por exemplo: A característica SOD2 tem 3 possíveis valores: GA, GG e AA, após a aplicaçãodo Label Encoding estes valores são convertidos respectivamente em: 0,666, 1,0 e 0,333.

161616

3Configuração Experimental

3.1 Conjunto de Dados

O conjunto de dados utilizado neste trabalho é de autoria da Fio Cruz. Este conjuntopossui 297 registros, cada registro tem características genéticas de um paciente e o diagnósticodo grau de Fibrose correspondente. As características genéticas correspondem à 10 SNPs dealguns genes associados à doenças do fígado. A Tabela 3.2 apresenta a lista de genes do conjuntode dados e a sua identificação no conjunto de dados.

A Fibrose é a característica alvo e está relacionada à doenças no fígado. As distribuiçõesdas classes no conjunto de dados e o significado de cada uma delas estão presentes na Tabela 3.1.

Classe Quantidade Proporção Diagnóstico

F0 6 02.0% sem fibrose

F1 58 19.5% fibrose leve

F2 80 26.9% fibrose intermediária

F3 70 23.6% fibrose avançada

F4 41 13.8% cirrose

HCC 42 14.1% câncer hepático

Tabela 3.1: Distribuição das classes do conjunto de dados

3.1. CONJUNTO DE DADOS 17

ID nome completo do SNP

PTX3 rs1840680 Pentraxin 3 (rs1840680)

PTX3 rs2305619 Pentraxin 3 (rs2305619)

MBL -221 Mannose-binding lectin -221

IL-10 -1082 Interleukin-10 -1082



TNF-308 Tumor necrosis factor -308

SOD2 Superoxide dismutase 2

MPO C-463T Myeloperoxidase C 463T

IL-28b rs12979860 Interleukin-28b (rs12979860)

Tabela 3.2: Lista dos identificadores dos SNP no conjunto de dados e seus respectivos nomescompletos

As características do conjunto de dados são todas categóricas, como observado na amostrada Tabela 3.3. Cada SNP pode tomar um dentre três valores, à depender dos dois genes A e Benvolvidos: AA, BB, AB.

PTX31 PTX32 MBL IL1 IL2 IL3 TNF SOD2 MPO IL4 Fibrose 1

GG AG YY AA CT CA GG GA AA TT F2

AG AG YY GG CC CC GA GG GG TT F1

AG AG YX AA TT AA GG AA GA TT HCC

Tabela 3.3: Amostra do conjunto de dados, com os nomes dos SNPs abreviados.

3.2. PROTOCOLO EXPERIMENTAL 18

3.2 Protocolo Experimental

Como alguns classificadores não dão suporte à características categóricas, é necessáriocodificar o conjunto de dados em uma representação numérica. Um Label Encoder é utilizadopara transformar as SNPs em características numéricas. Os valores de um dado SNP passam devalores: AA, AB, BB para valores numéricos: 0.333, 0.667, 1.0. A característica alvo recebetratamento diferente. Foi escolhida a classificação binária à partir do valor da Fibrose separandoas classes em dois grupos, em 3 diferentes configurações do conjunto de dados. O objetivo doclassificador é prever se um indivíduo do conjunto possui câncer de figado ou não. As diferentesconfigurações podem ser vistas na Tabela 3.4. A tabela 3.5 apresenta a mesma amostra da Tabela3.3 com o conjunto de dados devidamente configurado com o subconjunto (F0, F1, F2, F3, F4 XHCC) e característica alvo configurada. A Figura 3.1 apresenta o digrama geral do protocoloexperimental.

Figura 3.1: Diagrama do protocolo experimental.

Classe 0 Classe 1 Ocorrências Classe 1

F0, F1, F2, F3, F4 HCC 14.1%

F0, F1, F2, F3 HCC 19.6%

F4 HCC 50.6%

Tabela 3.4: Diferentes configurações do conjunto de dados classificadas neste trabalho.

3.2. PROTOCOLO EXPERIMENTAL 19

PTX31 PTX32 MBL IL1 IL2 IL3 TNF SOD2 MPO IL4 IsHCC

1.0 0.666 1.0 0.333 0.666 0.666 1.0 0.666 0.333 1.0 0

0.666 0.666 1.0 1.00 0.333 1.0 0.666 1.0 1.0 1.0 0

0.666 0.666 0.66 0.333 1.0 0.333 1.0 0.333 0.666 1.0 1

Tabela 3.5: Amostra do conjunto de dados com as características numéricas e a característica alvodefinida, com os nomes dos SNPs abreviados.

O código deste trabalho foi desenvolvido em Python e a biblioteca sklearn (PEDREGOSAet al. (2011)) foi amplamente usada: para geração dos classificadores, divisão de conjunto dedados e pontuação dos modelos gerados. Os experimentos foram executados em uma máquinacom processador i7-8700K 4.70 GHz e 32 GB de RAM. O código deste trabalho está disponívelno github (LEAL (2019)).

Antes de classificar um modelo, aplicamos a técnica de KFold para criação dos paresde conjuntos de treinamento e teste, são criados k pares treinamento/teste de modo que estesconjuntos não possuem elementos em comum com a finalidade de oferecer uma forma de avaliaro desempenho de um classificador justamente. Na maioria dos modelos foi aplicado um 5Fold,com exceção do One Class SVM onde foi feita a aplicação de um Leave One Out. Para cada partreinamento/teste do conjunto de Folds:

1. É aplicada a seleção de características ao conjunto de dados.

2. O conjunto de treinamento é balanceado através de Oversampling, que consiste emrepetir de modo aleatório linhas da classe minoritária até que ambas as classes tenhama mesma proporção.

3. O classificador é treinado com o conjunto de treinamento balanceado. No entanto,caso o classificador seja o One Class SVM, o treinamento ocorre somente com aslinhas da classe 1 do conjunto de treinamento.

4. O classificador é avaliado com o conjunto de teste, as métricas são computadas.

Após essa etapa são calculadas as médias e desvios padrão das métricas para o conjuntode folds.

202020

4Abordagem Proposta

4.1 Seleção de características

KSIAZEK et al. (2019) utilizou um 2level Genetic optimizer para aplicar seleção decaracterísticas e otimização de parâmetros ao mesmo problema de classificação de HCC. Noentanto, neste trabalho nos limitamos à realizar a seleção de características. Nosso foco está naseleção do subconjunto de características que maximiza o valor da métrica AUROC. A Area

Under the curve Region Of Convergence (AUROC) é uma métrica relacionada à classificação emdiferentes limiares. A área sob a curva representa o grau de separação entre as classes, tendovalor máximo igual à 1. Para isso foi desenvolvido um sistema hibrido para classificação depresença de câncer figado, utilizando um algoritmo genético para selecionar as característicasque maximizam o AUROC

4.1.1 Algoritmo Genético

O algoritmo genético desenvolvido para realizar a seleção de características teve aseguinte configuração:

� Cromossomo com 10 genes, cada gene indica a presença de uma característica nosubconjunto de características.

� Função de fitness é dada pelo valor da média do AUROC do classificador com umsubconjunto de características do conjunto de teste.

� Inicialização dos indivíduos da população: Inicialização aleatória.

� Tamanho da população: 30 indivíduos.

� Seleção de Pais: 18 indivíduos selecionados, os 6 melhores indivíduos da populaçãoe 12 indivíduos frutos de seleção por torneio (2 de 5) sucessivos.

� Prole gerada: O melhor indivíduo é adicionada a nova população e os restantes sãofruto de cruzamentos sucessivos.

4.1. SELEÇÃO DE CARACTERÍSTICAS 21

� Tamanho da prole gerada: 60.

� Chance de Crossover: 90%

� Tipo de Crossover: Single-point crossover

� Chance de Mutação: 20%

� Tipo de Mutação: 1-3 Bit string mutation e 20% de chance de geração de individuoaleatório.

� Seleção de sobreviventes: os 30 melhores indivíduos são mantidos na população

� Condição de término do Algoritmo Genético: 30 iterações sem melhora do fitness

máximo da população ou 60 iterações.

222222

5Resultados

Os resultados obtidos nos experimentos são apresentados neste capítulo: A Seção 5.1apresenta os resultados dos classificadores com a aplicação de seleção de características coma configuração do conjunto de dados completa, isto é a configuração F0, F1, F2, F3, F4 XHCC. A Seção 5.2 apresenta os resultados dos classificadores com a aplicação de seleção decaracterísticas com a configuração do conjunto de dados F0, F1, F2, F3 X HCC. A Seção 5.3apresenta os resultados dos classificadores com a aplicação de seleção de características com aconfiguração do conjunto de dados F4 X HCC. Por fim, a Seção 5.4 apresenta as consideraçõesfinais e faz um resumo dos melhores resultados.

Cada par classificador/subconjunto de características é avaliado a partir de 2 diferentesmétricas: Accuracy (Equação 5.1) e a AUROC. A matriz confusão (Figura 5.1) também éapresentada e fornece um quadro geral do desempenho do modelo. Os valores das métricas nastabelas são apresentados no formato: média (desvio padrão).

O agrupamento TP (True Positive) se refere as instâncias que pertencem à classe Xcorretamente classificadas. O agrupamento TN (True Negative) se refere as instâncias quepertencem à classe X incorretamente classificadas. O agrupamento FP (False Positive) se refereas instâncias que não pertencem à classe X corretamente classificadas. O agrupamento FN (False

Negative) se refere as instâncias que não pertencem à classe X incorretamente classificadas. Asmatrizes de confusão apresentadas nas tabelas deste capítulo estão na ordem: (TP, FP), (FN, TN).

A métrica de accuracy fornece um ideia geral do desempenho do modelo, no entantoquando se possui maior interesse na classificação correta de uma classe minoritária, a métrica deAUROC possui maior relevância.

accuracy =T P+T N

T P+T N +FP+FN

� �5.1

5.1. CONFIGURAÇÃO DO CONJUNTO DE DADOS COMPLETA 23

Figura 5.1: Diagrama da matriz de confusão: A classe 0 corresponde aos indivíduos sem HCC e aclasse 1 corresponde aos indivíduos com HCC.

5.1 Configuração do conjunto de dados completa

a Subseção 5.1.1 apresenta os resultados dos classificadores com o conjunto de dadossem aplicação de seleção de características. A Subseção 5.1.2 apresenta os resultados dosclassificadores com a aplicação de seleção de características. A Subseção 5.1.3 é dedicada aosresultados da execução do algoritmo de seleção de características aplicado ao classificador One

Class SVM com Leave One Out.

5.1.1 Classificação dos modelos sem seleção de características

A Tabela 5.1 apresenta os resultados da execução dos modelos com o conjunto completode características.


Modelo Accuracy AUROC Matriz de Confusão

SVM 0,677 (0,061) 0,499 (0,057) (192, 33)(63, 9)

RandomForest

0,610 (0,039) 0,478 (0,036) (168, 29)(87, 13)

MLP 0,704 (0,007) 0,501 (0,038) (201, 34)(54, 8)

Gradient Boos-ting

0,744 (0,040) 0,504 (0,070) (215, 36)(40, 6)

Tabela 5.1: Resultados dos classificadores com o conjunto de dados sem aplicação de seleção decaracterísticas

5.1.2 Classificação com seleção de características

A Tabela 5.2 apresenta os resultados da execução dos modelos com a utilização dealgoritmo genético para seleção de características, com foco na melhora da métrica AUROC.A Tabela 5.2 tem os resultados das métricas obtidas para cada um dos modelos. A Tabela 5.3apresenta as melhores características para cada um dos melhores modelos encontrados.



SVM 0,667 (0,045) 0,605 (0,058) (177, 21)(78, 21)

RandomForest

0,627 (0,114) 0,612 (0,135) (165, 21)(90, 21)

MLP 0,643 (0,036) 0,615 (0,085) (169, 20)(86, 22)

Gradient Boos-ting

0,647 (0,059) 0,609 (0,062) (169, 19)(86, 23)

Tabela 5.2: Resultados dos classificadores com a aplicação de algoritmo genético para seleção decaracterísticas


Característica SVM RandomForest

MLP GradientBoosting

PTX3 rs1840680

PTX3 rs2305619

MBL-221 X

IL-10 -1082 X X

IL-10-819 X X X

IL-10-592 X

TNF-308 X X

SOD2

MPO C-463T

IL-28b rs12979860 X X X X

Tabela 5.3: Características selecionadas para cada modelo pelo algoritmo genético de seleção decaracterísticas

5.1.3 One Class Classification com seleção de características

Nesta Seção são apresentados os resultados da execução do modelo One Class SVM emuma configuração de conjunto treinamento/teste diferente dos demais experimentos, a Leave OneOut, equivalente ao KFold com k igual à 297. O treinamento do modelo One Class SVM é feitosomente com a classe de indivíduos com HCC, que é um subconjunto com 41 ou 42 indivíduose o teste é feito indivíduos das duas classes. As métricas podem ser vistas na Tabela 5.4 e ascaracterísticas que geraram os melhores modelos na Tabela 5.5 .



One Class SVMLeave One Out

0,754 0,688 (199, 17)(56, 25)

Tabela 5.4: Resultados do classificador One Class SVM com a aplicação de algoritmo genéticopara seleção de características

Característica One Class SVM

PTX3 rs1840680

PTX3 rs2305619

MBL -221

IL-10 -1082 X

IL-10 -819 X

IL-10 -59

TNF-308

SOD2

MPO C-463T

IL-28b rs12979860

Tabela 5.5: Características selecionadas para o modelo de One Class SVM pelo algoritmogenético de seleção de características

5.2. CONJUNTO DE DADOS F0,F1,F2,F3 X HCC 28

5.2 Conjunto de dados F0,F1,F2,F3 X HCC

Neste experimento, foi removida a classe F4 do conjunto de dados. A Tabela 5.6apresenta os resultados da execução dos modelos com a utilização de algoritmo genético paraseleção de características, com foco na melhora da métrica AUROC. A Tabela 5.7 apresenta asmelhores características para cada um dos melhores modelos encontrados.


SVM 0,629 (0,045) 0,577 (0,057) (139, 20)(75, 22)

RandomForest

0,660 (0,054) 0,587 (0,036) (148, 21)(66, 21)

MLP 0,609 (0,056) 0,634 (0,092) (130, 16)(84, 26)

GradientBoosting

0,617 (0,046) 0,592 (0,047) (134, 18)(80, 24)

Tabela 5.6: Resultados dos classificadores com a aplicação de algoritmo genético para seleção decaracterísticas no conjunto (F0,F1,F2,F3 X HCC).

5.2. CONJUNTO DE DADOS F0,F1,F2,F3 X HCC 29



PTX3 rs1840680 X

PTX3 rs2305619 X

MBL -221

IL-10 -1082 X

IL-10 -819

IL-10 -59

TNF-308 X X X

SOD2 X X X

MPO C-463T X

IL-28b rs12979860 X X X

Tabela 5.7: Características selecionadas para cada modelo pelo algoritmo genético de seleção decaracterísticas no conjunto (F0,F1,F2,F3 X HCC).

5.3. CONJUNTO DE DADOS F4 X HCC 30

5.3 Conjunto de dados F4 X HCC

Neste experimento, foi mantida a classe F4 e removidas as classes F0, F1, F2 e F3do conjunto de dados. A Tabela 5.8 apresenta os resultados da execução dos modelos com autilização de algoritmo genético para seleção de características, com foco na melhora da métricaAUROC. A Tabela 5.9 apresenta as melhores características para cada um dos melhores modelosencontrados.


SVM 0,638 (0,055) 0,657 (0,068) (28, 17)(13, 25)

RandomForest

0,615 (0,054) 0,615 (0,062) (31, 22)(10, 20)

MLP 0,676 (0,106) 0,693 (0,100) (31, 17)(10, 25)

GradientBoosting

0,615 (0,078) 0,664 (0,083) (28, 19)(13, 23)

Tabela 5.8: Resultados dos classificadores com a aplicação de algoritmo genético para seleção decaracterísticas no conjunto (F4 X HCC).

5.3. CONJUNTO DE DADOS F4 X HCC 31



PTX3 rs1840680 X X X

PTX3 rs2305619

MBL -221 X X X

IL-10 -1082 X

IL-10 -819 X X

IL-10 -59 X X

TNF-308 X

SOD2 X X X

MPO C-463T X X

IL-28b rs12979860

Tabela 5.9: Características selecionadas para cada modelo pelo algoritmo genético de seleção decaracterísticas no conjunto (F4 X HCC).

5.4. CONSIDERAÇÕES FINAIS 32

5.4 Considerações finais

Nesta seção apresentamos na Tabela 5.10 o resumo dos melhores modelos em relaçãoà métrica de AUROC. O classificador MLP obteve os melhores resultados na configuração detreinamento 5Fold. No entanto, o melhor resultado geral foi o One Class SVM Leave One Out,alcançando métrica AUROC igual à 0.688.

Uma hipótese inicial foi a de que indivíduos da classe F4, pacientes com diagnóstico decirrose, possuíssem maior proximidade à indivíduos com HCC, o que tornaria a separação entreF4 e HCC mais difícil. No entanto, observando os resultados foi verificada uma piora na maioriados resultados com a remoção da classe F4 e os resultados da classificação somente entre F4 eHCC obtiveram métricas mais altas.

Na Tabela 5.11 apresentamos a porcentagem de presença de cada característica em cadaum dos conjuntos de divisão dos dados. As características com maior presença no conjunto decaracterísticas selecionadas variam de uma configuração de divisão de dados para outra. Paraa configuração F0,F1,F2,F3,F4 X HCC destacam-se 4 características com pelo menos 50% deincidência, para a configuração F0,F1,F2,F3 X HCC esse numero é de 3 e para a configuraçãoF4 X HCC esse número é de 6. Apenas 3 características aparecem em todas a configurações, sãoelas: IL-10-1082, TNF-308 e SOD2.

Modelo Configuraçãodataset

Configuraçãotreinamento /teste

Accuracy AUROC MatrizdeConfusão

MLP F0,F1,F2,F3,F4X HCC

5Fold 0,643 (0,036) 0,615 (0,085) (169,20)(86, 22)

One ClassSVM

F0,F1,F2,F3,F4X HCC

Leave One Out 0,754 0,688 (199, 17)(56, 25)

MLP F0,F1,F2,F3 XHCC

5Fold 0,609 (0,056) 0,634 (0,092) (130, 16)(84, 26)

MLP F4 X HCC 5Fold 0,676 (0,106) 0,693 (0,100) (31, 17)(10, 25)

Tabela 5.10: Resultados dos melhores classificadores para cada uma das configurações com aaplicação de algoritmo genético para seleção de características

5.4. CONSIDERAÇÕES FINAIS 33

Característica Configuração:F0,F1,F2,F3,F4 X HCC

Configuração:F0,F1,F2,F3 X HCC

Configuração:F4 X HCC

PTX3 rs1840680 00,00% 12,50% 75,00%

PTX3 rs2305619 00,00% 12,50% 00,00%

MBL -221 20,00% 00,00% 75,00%

IL-10 -1082 60,00% 12,50% 25,00%

IL-10 -819 80,00% 00,00% 50,00%

IL-10 -59 20,00% 00,00% 50,00%

TNF-308 60,00% 75,00% 25,00%

SOD2 20,00% 75,00% 75,00%

MPO C-463T 00,00% 12,50% 50,00%

IL-28b rs12979860 80,00% 75,00% 00,00%

Tabela 5.11: Porcentagens de incidência das características em cada conjunto de divisão dosdados nos diferentes classificadores.

343434

6Conclusão

O câncer é considerado por muitos como a doença à ter sua cura descoberta pela ciêncianeste século XXI. O diagnóstico no inicio da doença é fundamental para aumentar as chances desobrevivência do paciente, em especial para cânceres mais agressivos como o câncer de fígado.Oferecer uma previsão se um paciente possui predisposição genética ao câncer hepático trazgrandes benefícios.

A classificação de uma base de dados somente com características categóricas trazalgumas desvantagens pois um conjunto menor de dados pode ser representado. Este trabalhofaz uma analise de quais dessas características melhoram a identificação de casos de câncer paracada um dos classificadores.

A seleção de características de modo geral aumentou o valor da métrica AUROC dosclassificadores, porém em contrapartida diminuiu a métrica de acurácia. Pode-se concluir que oOne Class SVM é o melhor classificador, utilizando a abordagem Leave One Out, foi obtida umaAccuracy de 0,754 e AUROC de 0,688 com a configuração do conjunto de dados completa.

Vale destacar os resultados do MLP, que mesmo sendo um modelo mais simples, obteveas melhores métricas com a abordagem 5Fold. Na configuração com o conjunto de dadoscompleto o MLP obteve Accuracy de 0,643 e AUROC de 0,615. Pode-se observar que osmodelos tiveram um desempenho melhor na classificação entre indivíduos com cirrose e câncerobtendo Accuracy de 0,676 e AUROC de 0,693, o que sugere que estes dois grupos talvez nãopossuam tantas semelhanças genéticas.

Quanto as características presentes nos melhores modelos, destacam-se no geral: IL-10-1082, TNF-308 e SOD2 que estão entre as melhores características para as três diferentesconfigurações do conjunto de dados. Para a configuração do conjunto de dados com todas asclasses, as características com maior incidência foram: IL-10 -1082, L-10 -819, TNF-308 eIL-28b rs12979860.

6.1. SUGESTÕES DE TRABALHOS FUTUROS 35

6.1 Sugestões de trabalhos futuros

O trabalho desenvolvido permite modificações para execução de experimentos em novasconfigurações. Algumas das possíveis variações a serem exploradas são as seguintes: Diferentesconfigurações do conjunto de dados, novos classificadores, diferentes técnicas de codificaçãode características, diferentes configurações de divisão de conjuntos treinamento/teste. Pode seravaliada também a adição de características numéricas ao conjunto de dados e sua influência nasmétricas. Outro possível trabalho é a otimização dos parâmetros dos classificadores.

363636Referências

AUSTIN, P. C. et al. Using methods from the data-mining and machine-learning literature fordisease classification and prediction: a case study examining classification of heart failuresubtypes. Journal of Clinical Epidemiology, v.66, n.4, p.398–407, apr 2013.

DUREJA, H. Topological Models for Prediction of Pharmacokinetic Parameters ofCephalosporins using Random Forest, Decision Tree and Moving Average Analysis. ScientiaPharmaceutica, v.76, n.3, p.377–394, 2008.

HEPCENTRO. Câncer do Fígado - Aspectos Gerais. Hepcentro, 2011.http://www.hepcentro.com.br/neoplasia_hepatica.htm.

HUANG, S. et al. Applications of Support Vector Machine (SVM) Learning in CancerGenomics. Cancer genomics & proteomics, v.15, n.1, p.41–51, 2018. 29275361[pmid].

KSIAZEK, W. et al. A novel machine learning approach for early detection of hepatocellularcarcinoma patients. Cognitive Systems Research, v.54, p.116–127, Maio 2019.

LEAL, B. Repositório seleção de características com algoritmo genético para o problemade classificação do HCC. GitHub, 2019. https://github.com/bfl2/tcc-ag-fio-cruz.

LG, A.; AT, E. Using Three Machine Learning Techniques for Predicting Breast CancerRecurrence. Journal of Health & Medical Informatics, v.04, n.02, 2013.

LU, H.; WANG, H.; YOON, S. W. A dynamic gradient boosting machine using geneticoptimizer for practical breast cancer prognosis. Expert Systems with Applications, v.116,p.340–350, Fev. 2019.

Nature Education. Definição de SNP. Nature Education, 2015.https://www.nature.com/scitable/definition/snp-295/.

Organização Mundial de Saúde. Fact sheets on cancer. Organização Mundial de Saúde, 2018.https://www.who.int/en/news-room/fact-sheets/detail/cancer.

PEDREGOSA, F. et al. Scikit-learn: machine learning in Python. Journal of MachineLearning Research, v.12, p.2825–2830, 2011.

Rio de Janeiro Elsevier : Campus, 2004. OCLC: 61244658.

SATO, M. Machine-learning Approach for the Development of a Novel Predictive Model for theDiagnosis of Hepatocellular Carcinoma. Statistics and Computing, v.9, 2018.

SCHöLKOPF, B. et al. Support Vector Method for Novelty Detection. In: SOLLA, S. A.; LEEN,T. K.; MüLLER, K. (Ed.). Advances in Neural Information Processing Systems 12. MITPress, 2000. p.582–588.

SINGH, H. et al. The global burden of diagnostic errors in primary care. BMJ Quality &Safety, v.26, n.6, p.484–494, Agosto 2016.

SWEILAM, N. H.; THARWAT, A.; MONIEM, N. A. Support vector machine for diagnosiscancer disease: a comparative study. Egyptian Informatics Journal, v.11, n.2, p.81–92,Dez. 2010.

REFERÊNCIAS 37

WANG, Y. et al. Gene selection from microarray data for cancer classification—a machinelearning approach. Computational Biology and Chemistry, v.29, n.1, p.37–46, feb 2005.

WHITLEY, D. A genetic algorithm tutorial. Statistics and Computing, v.4, n.2, p.65, 1994.

YANG, J.; HONAVAR, V. Feature Subset Selection Using a Genetic Algorithm. In: FeatureExtraction, Construction and Selection. Springer US, 1998. p.117–136.

Documents

UM SISTEMA BASEADO EM ALGORITMO GENÉTICO PARA …tg/2019-2/TG_EC/tg_bfl2.pdf · um sistema baseado em algoritmo genÉtico para seleÇÃo de caracterÍsticas aplicado a classificaÇÃo