Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
UM SISTEMA BASEADO EM ALGORITMO GENÉTICO PARA SELEÇÃO DECARACTERÍSTICAS APLICADO A CLASSIFICAÇÃO DE FIBROSE NO FÍGADO
Por
BRUNO FILIZOLA LEAL
Trabalho de Graduação
Universidade Federal de [email protected]
www.cin.ufpe.br/~secgrad
RECIFE/2019
Bruno Filizola Leal
UM SISTEMA BASEADO EM ALGORITMO GENÉTICO PARASELEÇÃO DE CARACTERÍSTICAS APLICADO A CLASSIFICAÇÃO
DE FIBROSE NO FÍGADO
Trabalho apresentado ao Programa de Graduação em En-
genharia da computação do Centro de Informática da Uni-
versidade Federal de Pernambuco como requisito parcial
para obtenção do grau de Bacharel em Engenharia da
computação.
Orientador: Paulo Salgado Gomes de Mattos Neto
RECIFE2019
Resumo
O Câncer é a segunda principal causa de morte no mundo, totalizando 9,6 milhões mortes noano de 2018, o que corresponde à 1 em cada 6 mortes. 70% dos casos de câncer são em paísescom o perfil brasileiro. O câncer de fígado figura entre os mais letais e quanto mais cedo o seudiagnóstico, maiores as chances de sobrevivência. Identificar o risco de um individuo desenvolvercâncer é de suma importância. Algoritmos genéticos são uma boa abordagem para realizarseleção de características para classificação. Este trabalho avalia esta abordagem para o conjuntode dados da Fundação Oswaldo Cruz sobre câncer hepático, que contém características genéticase o nível de fibrose, que identifica doenças no fígado, de 297 indivíduos. Os classificadoresabordados são: Redes neurais MLP, Gradient Boosting, Random Forest, SVM e One Class
SVM. As melhores métricas foram do modelo One Class SVM utilizando Leave One Out. Já naconfiguração de KFold, com k igual à 5, o modelo MLP obteve os melhores resultados. Pode-seobservar que os modelos tiveram um desempenho melhor na classificação entre indivíduos comcirrose e câncer, o que sugere que estes dois grupos talvez não possuam tantas semelhançasgenéticas. As características com maior incidência nos melhores modelos variaram de acordocom a configuração do conjunto de dados, no entanto algumas características tiveram incidênciaem todas as configurações do conjunto de dados, foram elas: IL-10 -1082(Interleukin-10 -1082) ,TNF-308 (Tumor necrosis factor -308) e SOD2 (Superoxide dismutase 2).
Abstract
Cancer is the second cause of death worldwide, reaching 9.6 million people in 2018, 1 out of6 people die of cancer. 70% of cancer cases are in countries with the brazilian socioeconomicprofile. Liver cancer is among the most lethal types and the sooner the diagnosis, bigger thechances of survival. Identifying the risk of an individual developing the disease is of utmostimportance. Genetic algorithms are a good approach to do feature selection for classification.This work evaluates this approach to the dataset from Fio Cruz (Oswaldo Cruz Foundation), abrazilian scientific institution for research and development in biological sciences, which containsgenetic information and the fibrosis level, used to identify liver diseases, of 297 patients. Theclassifiers used in this work are: Artificial Neural Network MLP, Gradient Boosting, RandomForest, SVM and One Class SVM. The best overall results were obtained form the One ClassSVM model, using Leave One Out configuration. In the KFold, with k = 5, configuration theMLP model obtained the best results. We observed that the classification models achievedbetter results in the classification between patients with cancer and cirrhosis, which suggests thatthese may have less genetic similarities. The features most selected in the best models variedamong the different dataset configuration. However, some features were selected in all datasetconfigurations, these were: IL-10 -1082 (Interleukin-10 -1082) , TNF-308 (Tumor necrosis factor-308) e SOD2 (Superoxide dismutase 2).
Lista de Figuras
2.1 Fluxograma de um algoritmo genético . . . . . . . . . . . . . . . . . . . . . . 142.2 Exemplo de um 4Fold. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1 Diagrama do protocolo experimental. . . . . . . . . . . . . . . . . . . . . . . 18
5.1 Diagrama da matriz de confusão: A classe 0 corresponde aos indivíduos semHCC e a classe 1 corresponde aos indivíduos com HCC. . . . . . . . . . . . . 23
Lista de Tabelas
3.1 Distribuição das classes do conjunto de dados . . . . . . . . . . . . . . . . . . 163.2 Lista dos identificadores dos SNP no conjunto de dados e seus respectivos nomes
completos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.3 Amostra do conjunto de dados, com os nomes dos SNPs abreviados. . . . . . . 173.4 Diferentes configurações do conjunto de dados classificadas neste trabalho. . . 183.5 Amostra do conjunto de dados com as características numéricas e a característica
alvo definida, com os nomes dos SNPs abreviados. . . . . . . . . . . . . . . . 19
5.1 Resultados dos classificadores com o conjunto de dados sem aplicação de seleçãode características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2 Resultados dos classificadores com a aplicação de algoritmo genético paraseleção de características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.3 Características selecionadas para cada modelo pelo algoritmo genético de seleçãode características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.4 Resultados do classificador One Class SVM com a aplicação de algoritmogenético para seleção de características . . . . . . . . . . . . . . . . . . . . . 27
5.5 Características selecionadas para o modelo de One Class SVM pelo algoritmogenético de seleção de características . . . . . . . . . . . . . . . . . . . . . . 27
5.6 Resultados dos classificadores com a aplicação de algoritmo genético paraseleção de características no conjunto (F0,F1,F2,F3 X HCC). . . . . . . . . . 28
5.7 Características selecionadas para cada modelo pelo algoritmo genético de seleçãode características no conjunto (F0,F1,F2,F3 X HCC). . . . . . . . . . . . . . . 29
5.8 Resultados dos classificadores com a aplicação de algoritmo genético paraseleção de características no conjunto (F4 X HCC). . . . . . . . . . . . . . . . 30
5.9 Características selecionadas para cada modelo pelo algoritmo genético de seleçãode características no conjunto (F4 X HCC). . . . . . . . . . . . . . . . . . . . 31
5.10 Resultados dos melhores classificadores para cada uma das configurações com aaplicação de algoritmo genético para seleção de características . . . . . . . . . 32
5.11 Porcentagens de incidência das características em cada conjunto de divisão dosdados nos diferentes classificadores. . . . . . . . . . . . . . . . . . . . . . . . 33
Sumário
1 Introdução 81.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Fundamentação Teórica 112.1 Single Nucleotide Polymorphism (SNP) . . . . . . . . . . . . . . . . . . . . . 112.2 Algoritimos de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Redes Neurais do tipo MLP . . . . . . . . . . . . . . . . . . . . . . . 122.2.2 Gradient Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.4 Support Vector Machine (SVM) . . . . . . . . . . . . . . . . . . . . . 122.2.5 One Class SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Algoritmo Genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.4 Técnicas de pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.1 Oversampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.4.2 KFold cross-validation . . . . . . . . . . . . . . . . . . . . . . . . . . 142.4.3 Label Encoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Configuração Experimental 163.1 Conjunto de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2 Protocolo Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 Abordagem Proposta 204.1 Seleção de características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1.1 Algoritmo Genético . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5 Resultados 225.1 Configuração do conjunto de dados completa . . . . . . . . . . . . . . . . . . 23
5.1.1 Classificação dos modelos sem seleção de características . . . . . . . . 235.1.2 Classificação com seleção de características . . . . . . . . . . . . . . . 245.1.3 One Class Classification com seleção de características . . . . . . . . 26
5.2 Conjunto de dados F0,F1,F2,F3 X HCC . . . . . . . . . . . . . . . . . . . . . 285.3 Conjunto de dados F4 X HCC . . . . . . . . . . . . . . . . . . . . . . . . . . 305.4 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Conclusão 346.1 Sugestões de trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Referências 36
888
1Introdução
1.1 Motivação
O Câncer é um grupo de doenças que surge da transformação de células normais emcélulas tumorais em um processo de vários estágios que vai de uma lesão pré-cancerígena àum tumor maligno. Essas mudanças podem ser causadas por diversos fatores à depender dotipo. Fatores como herança genética, dieta, hábitos comportamentais, contato com substânciasquímicas, radiação, hormônios e até agentes biológicos estão dentre as possíveis causas demanifestação dos mais de cem tipos de câncer.
Segundo dados da OMS, câncer é a segunda principal causa de morte no mundo, totali-zando 9,6 milhões mortes no ano de 2018, o que corresponde à 1 em cada 6 mortes. 70% doscasos de câncer são em países com baixa e média renda, como o Brasil. O câncer de fígadofigura entre os mais letais, registrando 782 mil mortes no último ano (Organização Mundial deSaúde (2018)).
O hepatocarcinoma (HCC), ou câncer de fígado, é um tumor altamente maligno, quedobra o seu volume a cada 180 dias em média (HEPCENTRO (2011)). Mesmo em seu estágioinicial, ou seja, um tumor pequeno, localizado em um fígado com bom funcionamento, dá ao seuportador apenas cerca de oito meses de vida após ser encontrado, se não for realizado nenhumtratamento. No estágio mais avançado, a previsão média é de menos de três semanas de vidaapós o diagnóstico (HEPCENTRO (2011)). O câncer de fígado ainda é associado à um malprognóstico em pacientes com estágio avançado da doença. Estudos anteriores sugerem que avigilância regular ao câncer de fígado em populações de alto risco para detectar HCC em umestágio inicial trazem benefícios (SATO (2018)).
Esta doença provoca impactos devastadores na sociedade, causando milhares de mortesanualmente, é preciso diminuir o impacto do câncer de fígado no mundo. A Organização Mundialda Saúde (OMS) recentemente incluiu erros de diagnóstico como um problema de alta prioridade(SINGH et al. (2016)). Para auxiliar profissionais médicos no diagnóstico do câncer de fígado,sistemas de suporte à decisão (SSD) podem ser empregados para aumentar as chances de umdiagnóstico correto, já que um diagnóstico da doença no seu estágio inicial é crucial para asobrevivência do paciente.
1.1. MOTIVAÇÃO 9
Estes SSDs necessitam de um conjunto de variáveis referentes ao domínio do pro-blema. Para desenvolver tais sistemas, podem ser usadas técnicas de mineração de dados e deaprendizagem de máquina. Mineração de dados e aprendizagem de máquina possuem algu-mas semelhanças, utilizando métodos em comum, mas diferem no objetivo final. Enquanto oaprendizagem de máquina tem o foco na predição de uma propriedade conhecida, à partir depropriedades conhecidas, mineração de dados tem o seu foco no descobrimento de propriedadesdesconhecidas.
Técnicas de classificação já foram aplicadas ao problema de prever se um indivíduopossui uma doença. (AUSTIN et al. (2013)) aplicou Support Vector Machine (SVM), Random
Forest (RF) e regressão logística para a predição de característica relacionada à insuficiênciacardíaca . (LG; AT (2013)) aplicou Decision Tree (DT), SVM e Multi Layer Perceptron (MLP)na predição de reincidência de câncer de mama. Técnicas de otimização podem ser utilizadas emconjunto com técnicas de classificação, melhorando suas métricas de desempenho. (WANG et al.(2005)) aplicou as técnicas de cuckoo optimization algorithm e harmony search para construirum método de seleção de genes para o problema de classificação de câncer utilizando SVM.
Algoritmos genéticos são uma família de modelos computacionais inspirados na teoria daevolução biológica (WHITLEY (1994)). Uma das aplicações de algoritmos genéticos é a seleçãode características, para problemas de classificação. A classificação de padrões e problemas dedescoberta de conhecimento requerem um subconjunto de características para representar ospadrões à serem classificados. Algoritmos genéticos oferecem uma opção atrativa para encontraruma solução quase ótima para tais problemas de otimização (YANG; HONAVAR (1998)).
Estudos recentes utilizaram técnicas de aprendizagem de máquina aplicadas ao problemado câncer de fígado. (SATO (2018)) aplicou os classificadores: SVM, Logistic Regression,Support Vector Machine (SVM), Gradient Boosting (GB) Random Forest (RF), Artificial Neural
Network e Deep Learning à classificação entre indivíduos quanto à presença HCC. (KSIAZEKet al. (2019)) utilizou um 2level genetic optimizer para otimizar os parâmetros dos classificadorese realizar seleção de características com as entradas. Alguns dos classificadores usados foram:SVM, MLP, K-nearest neighbors (KNN), classificador de Naıve Bayes, Logistic Regression eRandom Forest.
1.2. OBJETIVO 10
1.2 Objetivo
Este trabalho tem dois objetivos principais: O primeiro é avaliar o desempenho dediferentes classificadores aplicados ao conjunto de dados da Fundação Oswaldo Cruz (Fio Cruz)sobre câncer de fígado. O segundo objetivo principal é propor uma abordagem de algoritmogenético realizando seleção de características para melhorar a métrica AUROC dos modelos.
1.3 Estrutura do Trabalho
Este trabalho é subdividido da seguinte forma: O Capítulo 2 é uma fundamentação teóricadas técnicas utilizadas neste trabalho. No Capítulo 3 é apresentada a configuração experimentalutilizada neste trabalho, o conjunto de dados e o protocolo experimental utilizado. No capítulo4 é apresentada a abordagem proposta. No Capítulo 5 são apresentados os resultados dasexperimentações realizadas com o conjunto de dados, as métricas obtidas pelos classificadoresem diferentes configurações e as características ligadas aos melhores resultados. No Capítulo 6 éconcluído o trabalho e possíveis trabalhos futuros são sugeridos.
111111
2Fundamentação Teórica
Neste capítulo, na seção 2.1 é feita uma breve introdução de SNP. Na seção 2.2 sãointroduzidas as técnicas de classificação utilizadas neste trabalho. Na seção 2.3 é introduzida atécnica de algoritmo genético com foco na seleção de características. Por fim na seção 2.4 sãoapresentadas técnicas de pré-processamento que foram utilizadas neste trabalho.
2.1 Single Nucleotide Polymorphism (SNP)
Um single nucleotide polymorphism, ou SNP (pronúncia "snip"), é uma variação de umaúnica posição numa sequência de DNA entre indivíduos. uma sequências de DNA é formadaa partir de uma cadeia de quatro bases de nucleotídeos: A, C, G e T. Se mais de 1% de umapopulação não possui o mesmo nucleotídeo em uma posição específica na sequência de DNA,então essa variação pode ser classificada como uma SNP. Embora um SNP em particular nãocause uma doença, alguns SNPs são associados a certas doenças (Nature Education (2015)).Por também possuir baixa taxa de mutação, os SNPs são bons marcadores genéticos e podemdelimitar o trecho de código genético a ser estudado para avaliar a relação genética de umadoença.
2.2 Algoritimos de classificação
Aprendizagem de máquina é uma subárea da inteligência artificial. Utilizando algoritmose modelos estatísticos, tarefas especificas podem ser realizadas sem depender de instruçõesexplícitas, mas sim de padrões e inferências. Um modelo matemático é construído a partir doprocesso de treinamento, que ocorre utilizando um algoritmo de treinamento sob um subconjuntode dados de treinamento, que contém as características de entrada e o valor ou classe de saída.Após o modelo passar pela etapa de treinamento, este modelo pode ser usado para fazer previsõese decisões podem ser tomadas a partir delas. O problema de classificação faz parte da área deaprendizagem de máquina, sendo um tipo de aprendizado supervisionado.
Foram escolhidos 5 diferentes tipos de algoritmos de classificação. A motivação naescolha do classificador One Class SVM foi por este ser uma opção atrativa devido à proporçãodesbalanceada entre as classes do conjunto de dados, o que é uma característica de problemas
2.2. ALGORITIMOS DE CLASSIFICAÇÃO 12
de Novelty Detection. Já os demais classificadores foram utilizados nos trabalhos de SATO(2018) ou KSIAZEK et al. (2019), relacionados à classificação do HCC. Essa diversidade declassificadores nos dá a possibilidade de observar quais características são mais relevantes paradiferentes tipos de algoritmos.
2.2.1 Redes Neurais do tipo MLP
Multi Layer Perceptron (MLP) é uma classe de classificadores compostos por redesneurais artificiais com mais de uma camada de neurônios em alimentação direta (RUSSELL;NORVIG; SOUZA (2004)). Estas redes são compostas por neurônios interligados entre si porsinapses com pesos ajustáveis. O treinamento de redes MLP geralmente é feito através doalgoritmo de Backpropagation. MLP é um bom generalizador, sendo capaz de aprender à partirda inferência de relações entre as informações do conjunto de dados. Este classificador foiutilizado em outro trabalho na detecção do câncer de fígado (KSIAZEK et al. (2019)).
2.2.2 Gradient Boosting
É um ensemble de classificadores baseado na combinação de vários classificadores fracos,geralmente árvores de decisão, que juntos formam um classificador melhor. Este classificadorganhou notoriedade recentemente devido à bons resultados em competições de aprendizado demáquina. Trabalhos semelhantes na detecção de câncer de mama (LU; WANG; YOON (2019)) ecâncer de fígado (SATO (2018)), onde foi o melhor modelo, utilizaram este classificador.
2.2.3 Random Forest
É um ensemble de árvores de classificação não podadas produzidas a partir da utilizaçãode seleção de características aleatórias e instâncias de bootstrap do conjunto de dados de trei-namento em indução de árvores (DUREJA (2008)). Uma das vantagens é a capacidade destemodelo de lidar com conjuntos de dados ruidosos. Aplicações na área de bioinformática, emespecial, tendem a conter variáveis categóricas, informações incompletas e classes desbalancea-das. O Random Forest lida bem com estes problemas, sendo utilizado nos trabalhos de (SATO(2018)) e (KSIAZEK et al. (2019)).
2.2.4 Support Vector Machine (SVM)
Uma máquina de vetor de suportes busca representar os elementos de duas classes comopontos no espaço. No treinamento com exemplos das duas classes é construído um hiperplanotão amplo quanto possível entre as duas classes de modo à separá-las. O SVM é um modelolinear, porém com a utilização de funções de kernel, é possível obter um SVM não linear. SVMnão é adequado para conjuntos de dados muito grandes, o que não é o caso do conjunto de dadosdeste trabalho. SVM é um classificador que começou à ser usado na área de bioinformática
2.2. ALGORITIMOS DE CLASSIFICAÇÃO 13
quando dados de expressão de genes de microarray ficaram disponíveis no início dos anos2000 (HUANG et al. (2018)). SVM foi utilizado na predição do câncer de mama (SWEILAM;THARWAT; MONIEM (2010)) e na predição do câncer de fígado nos trabalhos de (SATO(2018)) e (KSIAZEK et al. (2019)).
2.2.5 One Class SVM
Essa variação de SVM, implementada na plataforma scikit-learn (PEDREGOSA et al.(2011)) é baseada no trabalho de SCHöLKOPF et al. (2000), que utiliza no treinamento exemplosde uma única classe. Esse processo é denominado de novelty detection ou outliers detection. Aprincipal vantagem deste classificador é a capacidade de treinamento com a classe alvo.
2.3. ALGORITMO GENÉTICO 14
2.3 Algoritmo Genético
Estes algoritmos codificam uma potencial solução para um problema específico em umasimples estrutura de dados inspirado em um cromossomo, aplicando operadores de recombinaçãoà estas estruturas de modo à preservar informação crítica. Algoritmos genéticos são geralmentevistos como otimizadores, embora a extensão dos problemas ao qual algoritmos genéticos tenhamsido aplicados seja bem vasta (WHITLEY (1994)). Cada possível solução em um algoritmogenético é codificada por um cromossomo e este possui um valor de fitness calculado à partir doseu cromossomo aplicado à uma função de fitness. O algoritmo começa com a geração de umapopulação de indivíduos aleatória. Em seguida é aplicada a seleção de pais, cruzamento de paise mutação para gerar a prole, parte dos indivíduos da prole são selecionados para gerar a novapopulação. Este processo é repetido até que a condição de parada seja satisfeita.
Figura 2.1: Fluxograma de um algoritmo genético
2.4 Técnicas de pré-processamento
2.4.1 Oversampling
Para que um classificador não seja enviesado por uma classe majoritária é necessárioque o conjunto de treinamento tenha proporções similares entre as classes. Oversampling éum método de balanceamento de classes do conjunto de dados que repete elementos da classeminoritária até que está seja proporcional a classe majoritária.
2.4.2 KFold cross-validation
Na validação cruzada kfold o conjunto de dados é subdivido aleatoriamente em k sub-conjuntos. Dos k subconjuntos um é selecionado como subconjunto de validação do modelo e os
2.4. TÉCNICAS DE PRÉ-PROCESSAMENTO 15
subconjuntos restantes são utilizados no treinamento. Este processo é repetido até que cada umdos k subconjuntos tenha sido usado como subconjunto uma única vez. Cada um destes k parestreinamento/validação é avaliado e a média destas avaliações fornece uma estimativa. Quandok = n onde n é o número de amostras do conjunto de dados, chamamos esta técnica de Leave
One Out. Na figura 2.2 é exemplificado um kfold com k = 4.
Figura 2.2: Exemplo de um 4Fold.
2.4.3 Label Encoding
Características categóricas não são interpretadas diretamente por alguns tipos de classifi-cadores. Label Encoding é um método que transforma características categóricas em característi-cas numéricas. Para isso, cada categoria de uma coluna da tabela é convertida em um número.Por exemplo: A característica SOD2 tem 3 possíveis valores: GA, GG e AA, após a aplicaçãodo Label Encoding estes valores são convertidos respectivamente em: 0,666, 1,0 e 0,333.
161616
3Configuração Experimental
3.1 Conjunto de Dados
O conjunto de dados utilizado neste trabalho é de autoria da Fio Cruz. Este conjuntopossui 297 registros, cada registro tem características genéticas de um paciente e o diagnósticodo grau de Fibrose correspondente. As características genéticas correspondem à 10 SNPs dealguns genes associados à doenças do fígado. A Tabela 3.2 apresenta a lista de genes do conjuntode dados e a sua identificação no conjunto de dados.
A Fibrose é a característica alvo e está relacionada à doenças no fígado. As distribuiçõesdas classes no conjunto de dados e o significado de cada uma delas estão presentes na Tabela 3.1.
Classe Quantidade Proporção Diagnóstico
F0 6 02.0% sem fibrose
F1 58 19.5% fibrose leve
F2 80 26.9% fibrose intermediária
F3 70 23.6% fibrose avançada
F4 41 13.8% cirrose
HCC 42 14.1% câncer hepático
Tabela 3.1: Distribuição das classes do conjunto de dados
3.1. CONJUNTO DE DADOS 17
ID nome completo do SNP
PTX3 rs1840680 Pentraxin 3 (rs1840680)
PTX3 rs2305619 Pentraxin 3 (rs2305619)
MBL -221 Mannose-binding lectin -221
IL-10 -1082 Interleukin-10 -1082
IL-10 -819 Interleukin-10 -819
IL-10 -59 Interleukin-10 -592
TNF-308 Tumor necrosis factor -308
SOD2 Superoxide dismutase 2
MPO C-463T Myeloperoxidase C 463T
IL-28b rs12979860 Interleukin-28b (rs12979860)
Tabela 3.2: Lista dos identificadores dos SNP no conjunto de dados e seus respectivos nomescompletos
As características do conjunto de dados são todas categóricas, como observado na amostrada Tabela 3.3. Cada SNP pode tomar um dentre três valores, à depender dos dois genes A e Benvolvidos: AA, BB, AB.
PTX31 PTX32 MBL IL1 IL2 IL3 TNF SOD2 MPO IL4 Fibrose 1
GG AG YY AA CT CA GG GA AA TT F2
AG AG YY GG CC CC GA GG GG TT F1
AG AG YX AA TT AA GG AA GA TT HCC
Tabela 3.3: Amostra do conjunto de dados, com os nomes dos SNPs abreviados.
3.2. PROTOCOLO EXPERIMENTAL 18
3.2 Protocolo Experimental
Como alguns classificadores não dão suporte à características categóricas, é necessáriocodificar o conjunto de dados em uma representação numérica. Um Label Encoder é utilizadopara transformar as SNPs em características numéricas. Os valores de um dado SNP passam devalores: AA, AB, BB para valores numéricos: 0.333, 0.667, 1.0. A característica alvo recebetratamento diferente. Foi escolhida a classificação binária à partir do valor da Fibrose separandoas classes em dois grupos, em 3 diferentes configurações do conjunto de dados. O objetivo doclassificador é prever se um indivíduo do conjunto possui câncer de figado ou não. As diferentesconfigurações podem ser vistas na Tabela 3.4. A tabela 3.5 apresenta a mesma amostra da Tabela3.3 com o conjunto de dados devidamente configurado com o subconjunto (F0, F1, F2, F3, F4 XHCC) e característica alvo configurada. A Figura 3.1 apresenta o digrama geral do protocoloexperimental.
Figura 3.1: Diagrama do protocolo experimental.
Classe 0 Classe 1 Ocorrências Classe 1
F0, F1, F2, F3, F4 HCC 14.1%
F0, F1, F2, F3 HCC 19.6%
F4 HCC 50.6%
Tabela 3.4: Diferentes configurações do conjunto de dados classificadas neste trabalho.
3.2. PROTOCOLO EXPERIMENTAL 19
PTX31 PTX32 MBL IL1 IL2 IL3 TNF SOD2 MPO IL4 IsHCC
1.0 0.666 1.0 0.333 0.666 0.666 1.0 0.666 0.333 1.0 0
0.666 0.666 1.0 1.00 0.333 1.0 0.666 1.0 1.0 1.0 0
0.666 0.666 0.66 0.333 1.0 0.333 1.0 0.333 0.666 1.0 1
Tabela 3.5: Amostra do conjunto de dados com as características numéricas e a característica alvodefinida, com os nomes dos SNPs abreviados.
O código deste trabalho foi desenvolvido em Python e a biblioteca sklearn (PEDREGOSAet al. (2011)) foi amplamente usada: para geração dos classificadores, divisão de conjunto dedados e pontuação dos modelos gerados. Os experimentos foram executados em uma máquinacom processador i7-8700K 4.70 GHz e 32 GB de RAM. O código deste trabalho está disponívelno github (LEAL (2019)).
Antes de classificar um modelo, aplicamos a técnica de KFold para criação dos paresde conjuntos de treinamento e teste, são criados k pares treinamento/teste de modo que estesconjuntos não possuem elementos em comum com a finalidade de oferecer uma forma de avaliaro desempenho de um classificador justamente. Na maioria dos modelos foi aplicado um 5Fold,com exceção do One Class SVM onde foi feita a aplicação de um Leave One Out. Para cada partreinamento/teste do conjunto de Folds:
1. É aplicada a seleção de características ao conjunto de dados.
2. O conjunto de treinamento é balanceado através de Oversampling, que consiste emrepetir de modo aleatório linhas da classe minoritária até que ambas as classes tenhama mesma proporção.
3. O classificador é treinado com o conjunto de treinamento balanceado. No entanto,caso o classificador seja o One Class SVM, o treinamento ocorre somente com aslinhas da classe 1 do conjunto de treinamento.
4. O classificador é avaliado com o conjunto de teste, as métricas são computadas.
Após essa etapa são calculadas as médias e desvios padrão das métricas para o conjuntode folds.
202020
4Abordagem Proposta
4.1 Seleção de características
KSIAZEK et al. (2019) utilizou um 2level Genetic optimizer para aplicar seleção decaracterísticas e otimização de parâmetros ao mesmo problema de classificação de HCC. Noentanto, neste trabalho nos limitamos à realizar a seleção de características. Nosso foco está naseleção do subconjunto de características que maximiza o valor da métrica AUROC. A Area
Under the curve Region Of Convergence (AUROC) é uma métrica relacionada à classificação emdiferentes limiares. A área sob a curva representa o grau de separação entre as classes, tendovalor máximo igual à 1. Para isso foi desenvolvido um sistema hibrido para classificação depresença de câncer figado, utilizando um algoritmo genético para selecionar as característicasque maximizam o AUROC
4.1.1 Algoritmo Genético
O algoritmo genético desenvolvido para realizar a seleção de características teve aseguinte configuração:
� Cromossomo com 10 genes, cada gene indica a presença de uma característica nosubconjunto de características.
� Função de fitness é dada pelo valor da média do AUROC do classificador com umsubconjunto de características do conjunto de teste.
� Inicialização dos indivíduos da população: Inicialização aleatória.
� Tamanho da população: 30 indivíduos.
� Seleção de Pais: 18 indivíduos selecionados, os 6 melhores indivíduos da populaçãoe 12 indivíduos frutos de seleção por torneio (2 de 5) sucessivos.
� Prole gerada: O melhor indivíduo é adicionada a nova população e os restantes sãofruto de cruzamentos sucessivos.
4.1. SELEÇÃO DE CARACTERÍSTICAS 21
� Tamanho da prole gerada: 60.
� Chance de Crossover: 90%
� Tipo de Crossover: Single-point crossover
� Chance de Mutação: 20%
� Tipo de Mutação: 1-3 Bit string mutation e 20% de chance de geração de individuoaleatório.
� Seleção de sobreviventes: os 30 melhores indivíduos são mantidos na população
� Condição de término do Algoritmo Genético: 30 iterações sem melhora do fitness
máximo da população ou 60 iterações.
222222
5Resultados
Os resultados obtidos nos experimentos são apresentados neste capítulo: A Seção 5.1apresenta os resultados dos classificadores com a aplicação de seleção de características coma configuração do conjunto de dados completa, isto é a configuração F0, F1, F2, F3, F4 XHCC. A Seção 5.2 apresenta os resultados dos classificadores com a aplicação de seleção decaracterísticas com a configuração do conjunto de dados F0, F1, F2, F3 X HCC. A Seção 5.3apresenta os resultados dos classificadores com a aplicação de seleção de características com aconfiguração do conjunto de dados F4 X HCC. Por fim, a Seção 5.4 apresenta as consideraçõesfinais e faz um resumo dos melhores resultados.
Cada par classificador/subconjunto de características é avaliado a partir de 2 diferentesmétricas: Accuracy (Equação 5.1) e a AUROC. A matriz confusão (Figura 5.1) também éapresentada e fornece um quadro geral do desempenho do modelo. Os valores das métricas nastabelas são apresentados no formato: média (desvio padrão).
O agrupamento TP (True Positive) se refere as instâncias que pertencem à classe Xcorretamente classificadas. O agrupamento TN (True Negative) se refere as instâncias quepertencem à classe X incorretamente classificadas. O agrupamento FP (False Positive) se refereas instâncias que não pertencem à classe X corretamente classificadas. O agrupamento FN (False
Negative) se refere as instâncias que não pertencem à classe X incorretamente classificadas. Asmatrizes de confusão apresentadas nas tabelas deste capítulo estão na ordem: (TP, FP), (FN, TN).
A métrica de accuracy fornece um ideia geral do desempenho do modelo, no entantoquando se possui maior interesse na classificação correta de uma classe minoritária, a métrica deAUROC possui maior relevância.
accuracy =T P+T N
T P+T N +FP+FN
� �5.1
5.1. CONFIGURAÇÃO DO CONJUNTO DE DADOS COMPLETA 23
Figura 5.1: Diagrama da matriz de confusão: A classe 0 corresponde aos indivíduos sem HCC e aclasse 1 corresponde aos indivíduos com HCC.
5.1 Configuração do conjunto de dados completa
a Subseção 5.1.1 apresenta os resultados dos classificadores com o conjunto de dadossem aplicação de seleção de características. A Subseção 5.1.2 apresenta os resultados dosclassificadores com a aplicação de seleção de características. A Subseção 5.1.3 é dedicada aosresultados da execução do algoritmo de seleção de características aplicado ao classificador One
Class SVM com Leave One Out.
5.1.1 Classificação dos modelos sem seleção de características
A Tabela 5.1 apresenta os resultados da execução dos modelos com o conjunto completode características.
5.1. CONFIGURAÇÃO DO CONJUNTO DE DADOS COMPLETA 24
Modelo Accuracy AUROC Matriz de Confusão
SVM 0,677 (0,061) 0,499 (0,057) (192, 33)(63, 9)
RandomForest
0,610 (0,039) 0,478 (0,036) (168, 29)(87, 13)
MLP 0,704 (0,007) 0,501 (0,038) (201, 34)(54, 8)
Gradient Boos-ting
0,744 (0,040) 0,504 (0,070) (215, 36)(40, 6)
Tabela 5.1: Resultados dos classificadores com o conjunto de dados sem aplicação de seleção decaracterísticas
5.1.2 Classificação com seleção de características
A Tabela 5.2 apresenta os resultados da execução dos modelos com a utilização dealgoritmo genético para seleção de características, com foco na melhora da métrica AUROC.A Tabela 5.2 tem os resultados das métricas obtidas para cada um dos modelos. A Tabela 5.3apresenta as melhores características para cada um dos melhores modelos encontrados.
5.1. CONFIGURAÇÃO DO CONJUNTO DE DADOS COMPLETA 25
Modelo Accuracy AUROC Matriz de Confusão
SVM 0,667 (0,045) 0,605 (0,058) (177, 21)(78, 21)
RandomForest
0,627 (0,114) 0,612 (0,135) (165, 21)(90, 21)
MLP 0,643 (0,036) 0,615 (0,085) (169, 20)(86, 22)
Gradient Boos-ting
0,647 (0,059) 0,609 (0,062) (169, 19)(86, 23)
Tabela 5.2: Resultados dos classificadores com a aplicação de algoritmo genético para seleção decaracterísticas
5.1. CONFIGURAÇÃO DO CONJUNTO DE DADOS COMPLETA 26
Característica SVM RandomForest
MLP GradientBoosting
PTX3 rs1840680
PTX3 rs2305619
MBL-221 X
IL-10 -1082 X X
IL-10-819 X X X
IL-10-592 X
TNF-308 X X
SOD2
MPO C-463T
IL-28b rs12979860 X X X X
Tabela 5.3: Características selecionadas para cada modelo pelo algoritmo genético de seleção decaracterísticas
5.1.3 One Class Classification com seleção de características
Nesta Seção são apresentados os resultados da execução do modelo One Class SVM emuma configuração de conjunto treinamento/teste diferente dos demais experimentos, a Leave OneOut, equivalente ao KFold com k igual à 297. O treinamento do modelo One Class SVM é feitosomente com a classe de indivíduos com HCC, que é um subconjunto com 41 ou 42 indivíduose o teste é feito indivíduos das duas classes. As métricas podem ser vistas na Tabela 5.4 e ascaracterísticas que geraram os melhores modelos na Tabela 5.5 .
5.1. CONFIGURAÇÃO DO CONJUNTO DE DADOS COMPLETA 27
Modelo Accuracy AUROC Matriz de Confusão
One Class SVMLeave One Out
0,754 0,688 (199, 17)(56, 25)
Tabela 5.4: Resultados do classificador One Class SVM com a aplicação de algoritmo genéticopara seleção de características
Característica One Class SVM
PTX3 rs1840680
PTX3 rs2305619
MBL -221
IL-10 -1082 X
IL-10 -819 X
IL-10 -59
TNF-308
SOD2
MPO C-463T
IL-28b rs12979860
Tabela 5.5: Características selecionadas para o modelo de One Class SVM pelo algoritmogenético de seleção de características
5.2. CONJUNTO DE DADOS F0,F1,F2,F3 X HCC 28
5.2 Conjunto de dados F0,F1,F2,F3 X HCC
Neste experimento, foi removida a classe F4 do conjunto de dados. A Tabela 5.6apresenta os resultados da execução dos modelos com a utilização de algoritmo genético paraseleção de características, com foco na melhora da métrica AUROC. A Tabela 5.7 apresenta asmelhores características para cada um dos melhores modelos encontrados.
Modelo Accuracy AUROC Matriz de Confusão
SVM 0,629 (0,045) 0,577 (0,057) (139, 20)(75, 22)
RandomForest
0,660 (0,054) 0,587 (0,036) (148, 21)(66, 21)
MLP 0,609 (0,056) 0,634 (0,092) (130, 16)(84, 26)
GradientBoosting
0,617 (0,046) 0,592 (0,047) (134, 18)(80, 24)
Tabela 5.6: Resultados dos classificadores com a aplicação de algoritmo genético para seleção decaracterísticas no conjunto (F0,F1,F2,F3 X HCC).
5.2. CONJUNTO DE DADOS F0,F1,F2,F3 X HCC 29
Característica SVM RandomForest
MLP GradientBoosting
PTX3 rs1840680 X
PTX3 rs2305619 X
MBL -221
IL-10 -1082 X
IL-10 -819
IL-10 -59
TNF-308 X X X
SOD2 X X X
MPO C-463T X
IL-28b rs12979860 X X X
Tabela 5.7: Características selecionadas para cada modelo pelo algoritmo genético de seleção decaracterísticas no conjunto (F0,F1,F2,F3 X HCC).
5.3. CONJUNTO DE DADOS F4 X HCC 30
5.3 Conjunto de dados F4 X HCC
Neste experimento, foi mantida a classe F4 e removidas as classes F0, F1, F2 e F3do conjunto de dados. A Tabela 5.8 apresenta os resultados da execução dos modelos com autilização de algoritmo genético para seleção de características, com foco na melhora da métricaAUROC. A Tabela 5.9 apresenta as melhores características para cada um dos melhores modelosencontrados.
Modelo Accuracy AUROC Matriz de Confusão
SVM 0,638 (0,055) 0,657 (0,068) (28, 17)(13, 25)
RandomForest
0,615 (0,054) 0,615 (0,062) (31, 22)(10, 20)
MLP 0,676 (0,106) 0,693 (0,100) (31, 17)(10, 25)
GradientBoosting
0,615 (0,078) 0,664 (0,083) (28, 19)(13, 23)
Tabela 5.8: Resultados dos classificadores com a aplicação de algoritmo genético para seleção decaracterísticas no conjunto (F4 X HCC).
5.3. CONJUNTO DE DADOS F4 X HCC 31
Característica SVM RandomForest
MLP GradientBoosting
PTX3 rs1840680 X X X
PTX3 rs2305619
MBL -221 X X X
IL-10 -1082 X
IL-10 -819 X X
IL-10 -59 X X
TNF-308 X
SOD2 X X X
MPO C-463T X X
IL-28b rs12979860
Tabela 5.9: Características selecionadas para cada modelo pelo algoritmo genético de seleção decaracterísticas no conjunto (F4 X HCC).
5.4. CONSIDERAÇÕES FINAIS 32
5.4 Considerações finais
Nesta seção apresentamos na Tabela 5.10 o resumo dos melhores modelos em relaçãoà métrica de AUROC. O classificador MLP obteve os melhores resultados na configuração detreinamento 5Fold. No entanto, o melhor resultado geral foi o One Class SVM Leave One Out,alcançando métrica AUROC igual à 0.688.
Uma hipótese inicial foi a de que indivíduos da classe F4, pacientes com diagnóstico decirrose, possuíssem maior proximidade à indivíduos com HCC, o que tornaria a separação entreF4 e HCC mais difícil. No entanto, observando os resultados foi verificada uma piora na maioriados resultados com a remoção da classe F4 e os resultados da classificação somente entre F4 eHCC obtiveram métricas mais altas.
Na Tabela 5.11 apresentamos a porcentagem de presença de cada característica em cadaum dos conjuntos de divisão dos dados. As características com maior presença no conjunto decaracterísticas selecionadas variam de uma configuração de divisão de dados para outra. Paraa configuração F0,F1,F2,F3,F4 X HCC destacam-se 4 características com pelo menos 50% deincidência, para a configuração F0,F1,F2,F3 X HCC esse numero é de 3 e para a configuraçãoF4 X HCC esse número é de 6. Apenas 3 características aparecem em todas a configurações, sãoelas: IL-10-1082, TNF-308 e SOD2.
Modelo Configuraçãodataset
Configuraçãotreinamento /teste
Accuracy AUROC MatrizdeConfusão
MLP F0,F1,F2,F3,F4X HCC
5Fold 0,643 (0,036) 0,615 (0,085) (169,20)(86, 22)
One ClassSVM
F0,F1,F2,F3,F4X HCC
Leave One Out 0,754 0,688 (199, 17)(56, 25)
MLP F0,F1,F2,F3 XHCC
5Fold 0,609 (0,056) 0,634 (0,092) (130, 16)(84, 26)
MLP F4 X HCC 5Fold 0,676 (0,106) 0,693 (0,100) (31, 17)(10, 25)
Tabela 5.10: Resultados dos melhores classificadores para cada uma das configurações com aaplicação de algoritmo genético para seleção de características
5.4. CONSIDERAÇÕES FINAIS 33
Característica Configuração:F0,F1,F2,F3,F4 X HCC
Configuração:F0,F1,F2,F3 X HCC
Configuração:F4 X HCC
PTX3 rs1840680 00,00% 12,50% 75,00%
PTX3 rs2305619 00,00% 12,50% 00,00%
MBL -221 20,00% 00,00% 75,00%
IL-10 -1082 60,00% 12,50% 25,00%
IL-10 -819 80,00% 00,00% 50,00%
IL-10 -59 20,00% 00,00% 50,00%
TNF-308 60,00% 75,00% 25,00%
SOD2 20,00% 75,00% 75,00%
MPO C-463T 00,00% 12,50% 50,00%
IL-28b rs12979860 80,00% 75,00% 00,00%
Tabela 5.11: Porcentagens de incidência das características em cada conjunto de divisão dosdados nos diferentes classificadores.
343434
6Conclusão
O câncer é considerado por muitos como a doença à ter sua cura descoberta pela ciêncianeste século XXI. O diagnóstico no inicio da doença é fundamental para aumentar as chances desobrevivência do paciente, em especial para cânceres mais agressivos como o câncer de fígado.Oferecer uma previsão se um paciente possui predisposição genética ao câncer hepático trazgrandes benefícios.
A classificação de uma base de dados somente com características categóricas trazalgumas desvantagens pois um conjunto menor de dados pode ser representado. Este trabalhofaz uma analise de quais dessas características melhoram a identificação de casos de câncer paracada um dos classificadores.
A seleção de características de modo geral aumentou o valor da métrica AUROC dosclassificadores, porém em contrapartida diminuiu a métrica de acurácia. Pode-se concluir que oOne Class SVM é o melhor classificador, utilizando a abordagem Leave One Out, foi obtida umaAccuracy de 0,754 e AUROC de 0,688 com a configuração do conjunto de dados completa.
Vale destacar os resultados do MLP, que mesmo sendo um modelo mais simples, obteveas melhores métricas com a abordagem 5Fold. Na configuração com o conjunto de dadoscompleto o MLP obteve Accuracy de 0,643 e AUROC de 0,615. Pode-se observar que osmodelos tiveram um desempenho melhor na classificação entre indivíduos com cirrose e câncerobtendo Accuracy de 0,676 e AUROC de 0,693, o que sugere que estes dois grupos talvez nãopossuam tantas semelhanças genéticas.
Quanto as características presentes nos melhores modelos, destacam-se no geral: IL-10-1082, TNF-308 e SOD2 que estão entre as melhores características para as três diferentesconfigurações do conjunto de dados. Para a configuração do conjunto de dados com todas asclasses, as características com maior incidência foram: IL-10 -1082, L-10 -819, TNF-308 eIL-28b rs12979860.
6.1. SUGESTÕES DE TRABALHOS FUTUROS 35
6.1 Sugestões de trabalhos futuros
O trabalho desenvolvido permite modificações para execução de experimentos em novasconfigurações. Algumas das possíveis variações a serem exploradas são as seguintes: Diferentesconfigurações do conjunto de dados, novos classificadores, diferentes técnicas de codificaçãode características, diferentes configurações de divisão de conjuntos treinamento/teste. Pode seravaliada também a adição de características numéricas ao conjunto de dados e sua influência nasmétricas. Outro possível trabalho é a otimização dos parâmetros dos classificadores.
363636Referências
AUSTIN, P. C. et al. Using methods from the data-mining and machine-learning literature fordisease classification and prediction: a case study examining classification of heart failuresubtypes. Journal of Clinical Epidemiology, v.66, n.4, p.398–407, apr 2013.
DUREJA, H. Topological Models for Prediction of Pharmacokinetic Parameters ofCephalosporins using Random Forest, Decision Tree and Moving Average Analysis. ScientiaPharmaceutica, v.76, n.3, p.377–394, 2008.
HEPCENTRO. Câncer do Fígado - Aspectos Gerais. Hepcentro, 2011.http://www.hepcentro.com.br/neoplasia_hepatica.htm.
HUANG, S. et al. Applications of Support Vector Machine (SVM) Learning in CancerGenomics. Cancer genomics & proteomics, v.15, n.1, p.41–51, 2018. 29275361[pmid].
KSIAZEK, W. et al. A novel machine learning approach for early detection of hepatocellularcarcinoma patients. Cognitive Systems Research, v.54, p.116–127, Maio 2019.
LEAL, B. Repositório seleção de características com algoritmo genético para o problemade classificação do HCC. GitHub, 2019. https://github.com/bfl2/tcc-ag-fio-cruz.
LG, A.; AT, E. Using Three Machine Learning Techniques for Predicting Breast CancerRecurrence. Journal of Health & Medical Informatics, v.04, n.02, 2013.
LU, H.; WANG, H.; YOON, S. W. A dynamic gradient boosting machine using geneticoptimizer for practical breast cancer prognosis. Expert Systems with Applications, v.116,p.340–350, Fev. 2019.
Nature Education. Definição de SNP. Nature Education, 2015.https://www.nature.com/scitable/definition/snp-295/.
Organização Mundial de Saúde. Fact sheets on cancer. Organização Mundial de Saúde, 2018.https://www.who.int/en/news-room/fact-sheets/detail/cancer.
PEDREGOSA, F. et al. Scikit-learn: machine learning in Python. Journal of MachineLearning Research, v.12, p.2825–2830, 2011.
Rio de Janeiro Elsevier : Campus, 2004. OCLC: 61244658.
SATO, M. Machine-learning Approach for the Development of a Novel Predictive Model for theDiagnosis of Hepatocellular Carcinoma. Statistics and Computing, v.9, 2018.
SCHöLKOPF, B. et al. Support Vector Method for Novelty Detection. In: SOLLA, S. A.; LEEN,T. K.; MüLLER, K. (Ed.). Advances in Neural Information Processing Systems 12. MITPress, 2000. p.582–588.
SINGH, H. et al. The global burden of diagnostic errors in primary care. BMJ Quality &Safety, v.26, n.6, p.484–494, Agosto 2016.
SWEILAM, N. H.; THARWAT, A.; MONIEM, N. A. Support vector machine for diagnosiscancer disease: a comparative study. Egyptian Informatics Journal, v.11, n.2, p.81–92,Dez. 2010.
REFERÊNCIAS 37
WANG, Y. et al. Gene selection from microarray data for cancer classification—a machinelearning approach. Computational Biology and Chemistry, v.29, n.1, p.37–46, feb 2005.
WHITLEY, D. A genetic algorithm tutorial. Statistics and Computing, v.4, n.2, p.65, 1994.
YANG, J.; HONAVAR, V. Feature Subset Selection Using a Genetic Algorithm. In: FeatureExtraction, Construction and Selection. Springer US, 1998. p.117–136.