142

MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

MINERAÇÃO DE REGRAS PARA CLASSIFICAÇÃODE ONCOGENES MEDIDOS POR MICROARRAY

UTILIZANDO ALGORITMOS GENÉTICOS

Por

Laurence Rodrigues do Amaral

DISSERTAÇÃO APRESENTADA ÀUNIVERSIDADE FEDERAL DE UBERLÂNDIA, MINAS GERAIS,

COMO PARTE DOS REQUISITOS EXIGIDOSPARA OBTENÇÃO DO TÍTULO DE MESTRE

EM CIÊNCIA DA COMPUTAÇÃO

AGOSTO DE 2007

Page 2: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

UNIVERSIDADE FEDERAL DE UBERLÂNDIA

FACULDADE DE COMPUTAÇÃO

Os abaixo assinados, por meio deste, certi�cam que leram e recomendam para a Facul-dade de Computação a aceitação da dissertação intitulada �MINERAÇÃO DE RE-GRAS PARA CLASSIFICAÇÃO DE ONCOGENESMEDIDOS POR MICRO-ARRAY UTILIZANDO ALGORITMOS GENÉTICOS� por Laurence Rodri-gues do Amaral como parte dos requisitos exigidos para a obtenção do título deMestreem Ciência da Computação.

Uberlândia, 13 de Agosto de 2007

Orientadora:Profa. Dra. Gina Maira Barbosa de Oliveira

Universidade Federal de Uberlândia UFU/MG

Banca Examinadora:Profa. Dra. Denise Guliato

Universidade Federal de Uberlândia UFU/MG

Prof. Dr. Alexandre Cláudio Botazzo DelbemUniversidade de São Paulo USP/SP

ii

Page 3: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

UNIVERSIDADE FEDERAL DE UBERLÂNDIA

Data: Agosto, 2007

Autor: Laurence Rodrigues do AmaralTítulo: MINERAÇÃO DE REGRAS PARA CLASSIFICAÇÃO DE

ONCOGENES MEDIDOS POR MICROARRAYUTILIZANDO ALGORITMOS GENÉTICOS

Faculdade: Faculdade de ComputaçãoGrau: Mestrado

Fica garantido à Universidade Federal de Uberlândia o direito de circulação e impressãode cópias deste documento para propósitos exclusivamente acadêmicos, desde que o autorseja devidamente informado.

Autor

iii

Page 4: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Dedicatória

À minha esposa Kyara, meus pais Ademir e Laurita e a meu irmão Lucas

iv

Page 5: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Agradecimentos

Agradeço primeiramente a Deus por ter me agraciado com a oportunidade de estudar,oportunidade esta, tão rara e difícil nos dias atuais, e saúde para ter completado maiseste passo nesta longa caminhada que é o saber.

A minha esposa Kyara, companheira de todas as horas, que soube entender que estaconquista não é apenas minha, mas sim de toda a nossa família e esteve a meu lado nashoras boas e principalmente nas horas ruins.

A toda minha família pelo apoio, incentivo e por terem acreditado em mim.A minha orientadora Gina, pessoa pelo qual tenho profundo respeito, por ter me

ajudado a chegar até aqui, pessoa esta, exemplo de responsabilidade e competência.A todos os amigos do Unicerp, que direta ou indiretamente, tiveram participação nesta

conquista.A todos vocês, o meu muito obrigado.

v

Page 6: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Resumo

Técnicas de Inteligência Arti�cial (IA) têm se tornado cada vez mais importantes nasolução de problemas biológicos. Nesta dissertação, utilizamos um Algoritmo Genético(AG) na busca de regras de alto nível do tipo IF-THEN. Este AG foi aplicado na mineraçãode regras de classi�cação em uma base de dados de expressão gênica de células cancerígenas(NCI60), advindas de experimentos demicroarray. O objetivo dessa mineração é descobrirrelações entre os níveis de expressões gênicas e os nove tipos de classes de câncer analisadosneste trabalho.

Palavras chave: Bioinformática, expressão gênica, algoritmos genéticos, oncogenes,data mining.

vi

Page 7: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Abstract

Arti�cial Intelligence techniques are increasing their role in the solution of biologicalproblems. The present study use a Genetic Algorithm (GA) in the search for high levelIF-THEN rules. This GA was applied to miner classi�cation rules from a gene expressiondatabase named NCI60. This database was developed using cancer cells measured bymicroarray. The goal of this mining is the discovery of relations among gene expressionlevel and the nine types of cancer classes analyzed in this work.

Keywords: Bioinformatic, gene expression, genetic algorithms, oncogenes, data mi-ning.

vii

Page 8: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Sumário

1 Introdução 11.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Biologia Molecular e Bioinformática 42.1 Biologia Molecular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Experimentos de microarrays e bases de expressão gênica . . . . . . . . . . 62.3 Bioinformática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.4 Análise de Expressão Gênica . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Algoritmos Genéticos (AGs) 133.1 Visão Geral do Método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1.1 Representação do Indivíduo e Geração da População Individual . . 163.1.2 Função de Avaliação ou Aptidão (FA) . . . . . . . . . . . . . . . . . 173.1.3 Operadores Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . 173.1.4 Critério de Parada e Parâmetros Genéticos . . . . . . . . . . . . . . 23

3.2 Variações do AG Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Aplicações de Algoritmos Genéticos em Data Mining . . . . . . . . . . . . 253.4 Aplicações de Algoritmos Genéticos na análise de Expressão Gênica . . . . 27

4 Ambiente Evolutivo 344.1 Descrição do Ambiente Evolutivo . . . . . . . . . . . . . . . . . . . . . . . 34

4.1.1 Codi�cação do Indivíduo . . . . . . . . . . . . . . . . . . . . . . . . 354.1.2 Função de Avaliação ou Aptidão (FA) (Fitness Function) . . . . . . 37

viii

Page 9: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

4.1.3 Operadores Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . 384.1.4 Parâmetros Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . 394.1.5 Bases de Dados investigadas . . . . . . . . . . . . . . . . . . . . . . 39

4.2 Ajuste do Ambiente Evolutivo . . . . . . . . . . . . . . . . . . . . . . . . . 42

5 Resultados 445.1 Experimentos com a mineração das bases reduzidas individuais . . . . . . . 455.2 Experimentos com a mineração das bases compostas . . . . . . . . . . . . . 525.3 Análise das melhores regras e dos melhores conjuntos . . . . . . . . . . . . 56

6 Conclusões e trabalhos futuros 68

ix

Page 10: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Lista de Figuras

2.1 Esquema de microarray de cDNA [1] . . . . . . . . . . . . . . . . . . . . . . . . 7

3.1 Computação Evolutiva: interseção entre a Inteligência Arti�cial e a Biologia Evolutiva . 143.2 Ciclo de Execução Básico de um AG . . . . . . . . . . . . . . . . . . . . . . . . 153.3 Roleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.4 Torneio Estocástico de tamanho 3, empregando a roleta da Figura 3.3 . . . . . . . . . 193.5 Crossover Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.6 Crossover Múltiplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.7 Crossover Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.8 Mutação Binária . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.9 Mutação Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.10 Mutação Permutação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.1 Cromossomo ou Indivíduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2 Exemplo de cromossomo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3 Mutação aplicada no campo P . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.4 Mutação aplicada no campo O . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.5 Mutação aplicada no campo V . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

1 Exemplo que ilustra várias opções de compra de automóvel (1-5), considerando o seu

custo e conforto [2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

x

Page 11: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Lista de Tabelas

2.1 Visão geral da base NCI60 reduzida e utilizada nos experimentos de Ooi e Tan [3] . . . 8

5.1 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1 . . 465.2 Melhores regras encontradas na base de dados B1 . . . . . . . . . . . . . . . . . . 465.3 Melhores regras encontradas na base de dados B2 . . . . . . . . . . . . . . . . . . 485.4 Melhores regras encontradas na base de dados B3 . . . . . . . . . . . . . . . . . . 495.5 Melhores regras encontradas na base de dados B4 . . . . . . . . . . . . . . . . . . 505.6 Melhores regras encontradas para o conjunto de bases B1, B2, B3 e B4 . . . . . . . . 515.7 Conjunto de regras do classi�cador . . . . . . . . . . . . . . . . . . . . . . . . . 525.8 Resultados encontrados para as bases de dados individuais e para todas as composições 535.9 Classes que obtiveram ótimos/bons e ruins resultados para todas as bases . . . . . . . 545.10 Análise AECD para todas as combinações de bases . . . . . . . . . . . . . . . . . . 555.11 Melhores regras encontradas em todas as bases analisadas . . . . . . . . . . . . . . 565.12 Resultado do cross validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615.13 Conjunto K1: regras com os maiores valores de aptidão segundo a equação 4.3 . . . . . 635.14 Conjunto K2: regras com o maior número de acertos na análise AECD . . . . . . . . 635.15 Sensibilidade e Especi�cidade das regras dos conjuntos K1 e K2 . . . . . . . . . . . 655.16 Comparativo dos erros encontrados em K1 e K2 e de outros trabalhos, utilizando 2/3

da base em treinamento e 1/3 em teste . . . . . . . . . . . . . . . . . . . . . . . 665.17 Comparativo dos erros encontrados em K1 e K2 e de outros trabalhos, utilizando todas

as amostras da base NCI60 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

1 Fragmento da base NCI60 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 872 Códigos e expressão gênica dos genes da base de dados B1 . . . . . . . . . . . . . . 90

xi

Page 12: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

3 Códigos e expressão gênica dos dez primeiros genes da base de dados B2 . . . . . . . 924 Códigos e expressão gênica dos dez últimos genes da base de dados B2 . . . . . . . . 945 Códigos e expressão gênica dos nove primeiros genes da base de dados B3 . . . . . . . 966 Códigos e expressão gênica dos oito últimos genes da base de dados B3 . . . . . . . . 987 Códigos e expressão gênica dos genes da base de dados B4 . . . . . . . . . . . . . . 1008 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2 . . 1069 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B3 . . 10610 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B4 . . 10711 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2 10712 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B3 10713 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B4 10814 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B3 10815 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B4 10816 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B3B4 10917 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B310918 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B410919 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B3B411020 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B3B411021 Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B3B411022 Melhores regras encontradas na base de dados B1B2 . . . . . . . . . . . . . . . . . 11125 Melhores regras encontradas na base de dados B2B3 . . . . . . . . . . . . . . . . . 11227 Melhores regras encontradas na base de dados B1B2B3 . . . . . . . . . . . . . . . . 11330 Melhores regras encontradas na base de dados B2B3B4 . . . . . . . . . . . . . . . . 11431 Melhores regras encontradas na base de dados B1B2B3B4 . . . . . . . . . . . . . . 11623 Melhores regras encontradas na base de dados B1B3 . . . . . . . . . . . . . . . . . 11824 Melhores regras encontradas na base de dados B1B4 . . . . . . . . . . . . . . . . . 11926 Melhores regras encontradas na base de dados B2B4 . . . . . . . . . . . . . . . . . 12028 Melhores regras encontradas na base de dados B1B2B4 . . . . . . . . . . . . . . . . 12129 Melhores regras encontradas na base de dados B1B3B4 . . . . . . . . . . . . . . . . 122

xii

Page 13: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Capítulo 1

Introdução

Atualmente, a bioinformática é imprescindível para a manipulação dos dados biológicos.Ela pode ser de�nida como uma modalidade que abrange todos os aspectos de aquisição,processamento, armazenamento, distribuição, análise e interpretação da informação bio-lógica. Através da combinação de procedimentos e técnicas advindos da matemática, daestatística e da ciência da computação, são elaboradas várias ferramentas que auxiliama compreender o signi�cado biológico representado nos dados genômicos [4]. Uma dasáreas em que a aplicação de técnicas computacionais tem se mostrado mais promissoraé a Biologia Molecular [5]. O termo expressão gênica refere-se ao processo em que ainformação codi�cada por um determinado gene é decodi�cada em uma proteína, ma-nisfestando assim, características particulares àquele gene. As células e tecidos têm suasfunções normais quando os genes são expressos de forma regulada. A expressão alteradade um gene pode alterar o equilíbrio do organismo, podendo vir a gerar uma doença.Assim, a seleção de genes relevantes a uma determinada doença torna-se uma tarefa im-portantíssima, podendo num futuro próximo, ser aplicada no diagnóstico médico. Nabusca destes pequenos conjuntos de genes preditores, técnicas advindas da InteligênciaArti�cial (IA), tais como, os algoritmos genéticos e as redes neurais arti�ciais, são cadavez mais empregados, devido a sua capacidade de aprender automaticamente a partir degrandes volumes de dados e produzir hipóteses úteis [6].

Diferentes técnicas de IA foram aplicadas na análise de dados de expressão gênica, taiscomo, as redes neurais arti�ciais [7, 8], as support vector machines [9, 10] e os algoritmos

1

Page 14: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

genéticos [11, 3, 12, 13, 14, 15, 16, 17, 18]. Em todos os projetos citados anteriormente,o objetivo é encontrar conjuntos de genes (clusters) que possam ser utilizados como clas-si�cadores con�áveis, com uma elevada taxa de classi�cação e um bom desempenho degeneralização. Dessa forma, os conjuntos minerados podem auxiliar na classi�cação denovos casos, facilitando o diagnóstico e o tratamento de doenças. Entretanto, somente em[16, 17, 18], encontramos classi�cadores baseados em regras de alto nível, por exemplo,regras do tipo IF-THEN. Nos demais, os classi�cadores obtidos são do tipo caixa-preta,onde a entrada são os dados de expressão de uma determinada amostra de células e asaída é a classe à qual essa amostra provavelmente pertence, podendo esta saída estar as-sociada, por exemplo, a uma classe de doença. Assim, a partir de um conjunto de dadosde milhares de genes chega-se a um pequeno conjunto de poucas dezenas de genes quesejam discriminantes para o problema.

1.1 Objetivos

O enfoque desse trabalho foi na busca (mineração) de regras de alto nível, que não sóestivessem associadas a cada classe individualmente, reduzindo o problema a poucos ge-nes por classe, mas também associando o nível de expressão gênica a cada gene quecompõe a regra. Acreditamos que esse tipo de informação possa ser de grande utilidadeaos especialistas que buscam entender o mecanismo responsável pelas alterações nos pa-drões de expressão gênica associadas ao aparecimento de determinadas doenças. Para tal,elaborou-se um algoritmo genético (AG) para a obtenção de regras do tipo IF-THEN apartir de bases de dados de expressões gênicas. O AG foi fortemente inspirado no modeloproposto por Fidelis e colaboradores [19] para a mineração de regras de classi�cação. Oambiente evolutivo implementado foi aplicado na classi�cação de uma base de dados deexpressões gênicas de células cancerígenas, advindas de experimentos de microarray. Estabase é de domínio público e é conhecida como NCI60 [20]. O principal objetivo do nossotrabalho é a busca das relações entre os níveis de expressões gênicas de nove classes decâncer: mama, sistema nervoso central, cólon, leucemia, melanoma, pulmão, ovário, renale células reprodutivas. Na base NCI60 [20] foram obtidas expressões de mais de 8.000

2

Page 15: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

genes para 61 amostras de células. Diversos trabalhos aplicaram diferentes técnicas nabusca de conjuntos de genes preditores para esta base [21, 3, 13, 22, 23, 24, 25]. Nessetrabalho, como ponto de partida, utilizamos quatro conjuntos reduzidos de genes queforam minerados por Ooi e Tan [3] a partir da NCI60, totalizando 55 genes.

1.2 Organização do Trabalho

Esta dissertação está dividida em 6 capítulos, sendo o primeiro uma introdução sobre otrabalho e os objetivos propostos pelo mesmo.

O segundo capítulo apresenta alguns conceitos sobre biologia molecular, microarraysde DNA, bioinformática, trazendo também a descrição de alguns trabalhos aplicados àbase NCI60.

O terceiro capítulo apresenta informações a respeito dos algoritmos genéticos, taiscomo: visão geral do método, representacão do indivíduo, operadores genéticos, seleçãode pais, crossover, reinserção, dentre outros. Além destes tópicos relatados anteriormente,o capítulo 3 também aborda aplicações de algoritmos genéticos em tarefas de datamininge também na análise de dados advindos de expressão gênica.

O quarto capítulo descreve o ambiente evolutivo utilizado neste trabalho, ajustes queforam necessários para se chegar neste ambiente e as bases de dados que foram investiga-das.

O quinto capítulo contempla os resultados obtidos no ambiente evolutivo proposto.O sexto capítulo apresenta as conclusões do trabalho e as propostas de trabalhos

futuros.

3

Page 16: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Capítulo 2

Biologia Molecular e Bioinformática

2.1 Biologia Molecular

Genética é o nome dado ao estudo da hereditariedade, o processo pelo qual as caracterís-ticas são passadas dos genitores para a prole de modo que todos os organismos, inclusiveos seres humanos, assemelhem-se a seus ancestrais. O conceito central da genética é que ahereditariedade é controlada por um grande número de fatores, os genes, que são pequenaspartículas físicas presentes em todos os organismos vivos [10].

Os primeiros geneticistas estavam interessados principalmente em como os genes sãotransmitidos dos genitores à sua prole durante a reprodução e em características variáveis,tais como altura e cor dos olhos. Durante a década de 1930, a pesquisa tomou novos ru-mos ao reconhecer que se os genes são entidades físicas, assim como outros componentesda célula, eles devem ser feitos de moléculas e, portanto, deve ser possível estudá-los di-retamente por métodos biofísicos e bioquímicos. Isso levou a um novo ramo da genética,chamado Biologia Molecular, que tinha como um de seus objetivos iniciais a identi�caçãoda natureza química do gene. Este novo enfoque levou a novos conceitos e os biólogosdeixaram de considerar os genes simplesmente como unidades de herança, passando aencará-los como unidades de informação biológica, possuindo a quantidade total de infor-mações necessárias para a construção de um exemplo vivo e funcional daquele organismo[10].

A compreenção cientí�ca nos dias de hoje da complexidade e do dinamismo celular

4

Page 17: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

apóia-se nos trabalhos de milhares de cientistas nos últimos 150 anos. Os pesquisadoresmodernos fundiram conceitos e técnicas experimentais da bioquímica, da genética e da bi-ologia molecular com aqueles da biologia celular clássica para produzirem uma concepçãodinâmica da vida celular [26].

Os conhecimentos sobre as células progridem paralelamente ao aperfeiçoamento dosmétodos de investigação. Inicialmente, o microscópio óptico possibitou o descobrimentodas células e a elaboração da teoria de que todos os seres vivos são constituídos por células.Posteriormente, foram descobertas técnicas citoquímicas que possibitaram a identi�caçãoe localização de diversas moléculas constituintes das células. Com o advento dos micros-cópios eletrônicos, que têm grande poder de resolução, foram observados pormenores daestrutura celular que não poderiam sequer ser imaginados pelos estudos feitos com osmicroscópios ópticos. Com o uso dos microscópios eletrônicos, foram aperfeiçoados méto-dos para a separação de organelas celulares e para o estudo in vitro de suas moléculas erespectivas funções. A análise de organelas isoladas em grande quantidade, a cultura decélulas, a possibilidade de manipular o genoma através da adição ou supressão de genese o aparecimento de numerosas técnicas de uso comum aos diversos ramos da pesquisabiológica levaram ao surgimento da biologia celular e molecular, que é o estudo integradodas células, através de todo o arsenal técnico disponível [27].

Um fragmento de DNA pode conter diversos genes. A propriedade mais importantedos genes está no fato de que eles contêm o código genético para a expressão do mRNA(RNA mensageiro) que será traduzido em proteínas, componentes estes, essenciais a todoser vivo [28]. As proteínas são polipeptídeos compostos por conjuntos de aminoácidos.Estes aminoácidos são representados por trincas (códons) de nucleotídeos (Adenina - A,Uracila - U, Citosina - C e Guanina - G) no DNA. O processo pelo qual as seqüências denucleotídeos dos genes são interpretados na produção de proteínas é denominado expressãogênica [28]. Mensurar e analisar informações de expressão gênica é de grande interesse paraas Ciências Biológicas. Esse tipo de análise pode fornecer informações importantes sobreas funções de uma célula, uma vez que as mudanças na �siologia de um organismo sãogeralmente acompanhadas por mudanças nos padrões de expressão dos genes [29]. Umadas técnicas mais difundidas para esta medição são osMicroarrays de DNA [30, 31, 32, 33].

5

Page 18: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

2.2 Experimentos de microarrays e bases de expressãogênica

O microarray de DNA é uma metodologia utilizada para comparar a expressão de umgrande número de genes simultaneamente. Essa técnica emprega arranjos (arrays), quecontêm um grande número de genes distribuídos por um braço robótico de forma ordenada(spots) sobre placas de vidro. A quanti�cação dos níveis de expressão gênica na tecnologiade microarray é baseada em experimentos onde os milhares de clones de cDNA 1 sãohibridizados 2 com duas sondas marcadas com diferentes �uorecências (geralmente umaemite cor vermelha (Cy5) e outra verde (Cy3)). As sondas podem ser conjuntos de cDNAsgerados a partir de células ou tecidos em duas cituações diferentes, que se deseja comparar.Os resultados são produzidos sob forma de diferentes intensidades de �uorescência que sãocaptadas por microscopia a laser em função dos diferentes níveis de expressão de cada gene.A imagem dos pontos �uorescentes é processada por meio de métodos computacionais como objetivo de calcular a intensidade obtida para cada mRNA [34]. A Figura 2.1 ilustratodo o processo.

A tecnologia de microarrays não fornece apenas informações sobre a função de genesanônimos mas também constitui uma ferramenta indispensável para estudos globais deexpressão gênica, com grande aplicabilidade nos estudos de biologia molecular e �siologiavegetal [34].

Como exemplo do resultado obtido por essa técnica, podemos citar a base NCI60[20] utilizada em nossa mineração de regras. Essa base de dados faz parte do NCI60Cancer Microarray Project, projeto este, advindo da colaboração entre o laboratórioBrown/Bolstein do grupo John Weinstien's do Laboratory of Molecular Pharmacologye do Laboratory of Developmental Therapeutics, ambos pertencentes ao National CancerInstitute, nos EUA.

Para a construção desta base, foram utilizados microarrays de cDNA na busca de1Molécula de DNA produzida a partir de um mRNA e, portanto, sem íntrons [29].2A hibridização de ácidos nucléicos baseia-se na capacidade destas moléculas, quando em cadeias

simples, poderem associar com seqüências complementares formando cadeias duplas mais estáveis.

6

Page 19: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Figura 2.1: Esquema de microarray de cDNA [1]

expressões gênicas de aproximadamente 8.000 genes distintos. Estes genes, oriundos de61 linhagens celulares, foram classi�cados em 9 (nove) classes de câncer: (1) mama, (2)sistema nervoso central, (3) cólon, (4) leucemia, (5) melanoma, (6) pulmão, (7) ovário,(8) renal e (9) células reprodutivas. Os números entre parênteses referem-se ao númeroutilizado para representar cada classe na base de dados. O número de ocorrências de cadaclasse é dado a seguir: mama (7), sistema nervoso central (6), cólom (7), leucemia (6),melanoma (8), pulmão (9), ovário (6), renal (8) e células reprodutivas (4), totalizando 61amostras. Dentre os 8.000 genes, 3700 foram previamente caracterizados em proteínashumanas, 1900 advindos de genes homólogos de outros organismos e os 2400 restantesforam identi�cados somente por EST's 3 (expressed sequences tags).

No trabalho de Ooi e Tan [3] foi realizado um pré-processamento, no qual foramexcluídos genes que estavam em spots inválidos, de controle e vazios, levando a 6176genes. Para cada array, a expressão gênica de cada spot foi normalizado, subtraindo amédia das razões de Cy5/Cy3 dos spots de controle e dividindo este resultado pelo desviopadrão da razão Cy5/Cy3 dos spots de controle. Finalmente, partindo dos 6176 genes pré-

3Os EST's são sequencias parciais de clones de cDNA

7

Page 20: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 2.1: Visão geral da base NCI60 reduzida e utilizada nos experimentos de Ooi e Tan [3]Expressão Expressão Expressão ... Expressão Expressão

Amostra Gene 1 Gene 2 Gene 3 Gene 999 Gene 1000 Classi�cação1 ...2 ...3 ...... ... ... ... ... ... ... ...60 ...61 ...

processados, Ooi e Tan chegaram a um dataset reduzido contendo 1000 genes, os quais,apresentaram os maiores valores de desvio padrão na base NCI60. Estes genes foramindexados de 1 a 1000.

A Tabela 2.1 apresenta uma visão geral da base NCI60 reduzida em [3], composta pelaexpressão de 1000 genes (colunas), medida para 61 amostras de células (linhas), sendoque cada amostra é classi�cada em uma das nove classes de câncer citadas anteriormente(última coluna). O apêndice A apresenta um fragmento desta base, com a expressão de8 genes (os 4 primeiros e os 4 últimos) nas 61 amostras.

O apêndice B apresenta outros quatro fragmentos dessa base, que foram utilizados nosexperimentos dessa dissertação. O primeiro, chamado de base B1, contém a expressãogênica de 13 dos 1000 genes da base NCI60 usados por Ooi e Tan [3]. De forma similar, asbases B2, B3 e B4 apresentam a expressão de 20, 17 e 12 genes, respectivamente, da baseNCI60. Na seção 4.1.5, será detalhada a forma como esses fragmentos foram obtidos ecomo eles foram utilizados neste trabalho.

2.3 Bioinformática

A utilização de técnicas e ferramentas de computação na resolução de problemas da Bi-ologia é chamada de Bioinformática ou Biologia Computacional. Essa área de pesquisavem se tornando cada vez mais importante [6]. A computação pode ser aplicada na reso-lução de problemas como comparação de sequências (DNA, RNA e proteínas), montagemde fragmentos, reconhecimento de genes, identi�cação e análise da expressão de genes e

8

Page 21: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

determinação da estrutura de proteínas [5, 6, 28].O emprego de métodos computacionais na Biologia iniciou-se na década de 80, quando

biólogos experimentais, em conjunto com cientistas da computação, físicos e matemáti-cos, começaram a aplicar esses métodos na modelagem de sistemas biológicos [28]. Nasegunda metade de década de 90, com o surgimento dos seqüenciadores automáticos deDNA, houve uma explosão na quantidade de seqüências a serem armazenadas, exigindorecursos computacionais cada vez mais e�cientes. Além do armazenamento ocorria, para-lelamente, a necessidade da análise desses dados, o que tornava indispensável a utilizaçãode plataformas computacionais e�cientes para a interpretação dos resultados obtidos. As-sim, a Bioinformática surgiu para tentar dar signi�cado a essa enorme quantidade dedados [35]. Durante esse período, ferramentas computacionais foram desenvolvidas paraanálise dos dados, utilizando algoritmos convencionais da Ciência da Computação [28].

Devido à grande quantidade e a complexidade da informação, as ferramentas basea-das na computação convencional têm se mostrado limitadas na abordagem de problemasbiológicos complexos. Isto vem ocorrendo, entre outras razões, devido à ausência de umateoria fundamental em nível molecular. Outra razão para essa di�culdade é a ine�ciênciadas ferramentas convencionais em lidar com grandes quantidades de dados [28]. Técni-cas de Inteligência Arti�cial (IA) [36], tais como, Algoritmos Genéticos, Redes NeuraisArti�ciais, dentre outros, são assim cada vez mais empregadas para tratar problemas emBiologia Molecular, por sua capacidade de aprender automaticamente a partir de grandesvolumes de dados e produzir hipóteses úteis [6]. Um dos principais exemplos de aplicaçãode técnicas de bioinformática reside na análise de dados de expressão gênica.

2.4 Análise de Expressão Gênica

Devido ao avanço das tecnologias utilizadas na obtenção de dados de expressão gênica,o volume desses dados vem aumentando exponencialmente. Assim, uma das áreas maisproeminentes da Bioinformática nos dias atuais, reside na aplicação de técnicas compu-tacionais para a análise dos dados gerados em experimentos de microarray. Diferentestécnicas de Inteligência Arti�cial foram aplicados na análise de dados de expressão gê-

9

Page 22: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

nica, tais como: Redes Neurais Arti�ciais em [7, 8], Support Vector Machines em [10, 9]e Algoritmos Genéticos em [3, 11, 12, 13, 14, 15].

Um exemplo de aplicação de diferentes técnicas de bioinformática na análise de dadosde expressão gênica é a diversidade de trabalhos envolvendo a base NCI60 [20], desde asua publicação em 2000, descrevendo os experimentos de microarray.

Dudoit e colegas (2002) utilizaram a base NCI60 para a comparação de performanceentre diferentes métodos de classi�cação [21]. Os métodos avaliados incluem os classi�ca-dores baseados no vizinho mais próximo (nearest-neighbor), análise de discriminante linear(linear discriminant) e árvores de decisão. Neste trabalho, das 9 classes existentes na baseNCI60 foram utilizadas 8, não inserindo na análise a classe 9 (células reprodutivas). Fo-ram obtidos conjuntos preditores formados por 30 genes. Os resultados encontrados paraestes conjuntos foram validados utilizando 1/3 das amostras (21), isto é, os classi�cado-res foram treinados utilizando 2/3 de todas as amostras da base (40). Os três ambientesforam executados 200 vezes e os resultados apresentam a média do número de erros encon-trados nestas 200 execuções. Para o método que utilizou análise de discriminante linearforam encontrados 9 erros em 21 amostras, isto é, ele classi�cou corretamente 12 amos-tras (57,14%). No método baseado em árvores de decisão, foram encontrados 10 erros em21 amostras, totalizando 52,38% de acertos e os classi�cadores baseados no vizinho maispróximo erraram 8 amostras em 21 possíveis, totalizando 61,9% de acerto.

Deb e Reddy (2003) buscaram identi�car pequenos conjuntos de genes a partir deamostras de câncer que possuem duas ou mais classes [12]. Na busca destes conjuntos,o método NSGA-II (Nondominated Sorting Genetic Algorithm II) foi aplicado na otimi-zação de classi�cadores baseados no método WN/OVA (weigthed voting/one-versus-allbinary pair-wise). Neste trabalho, a base NCI60, composta por 61 amostras, foi divididaem dois conjuntos, treinamento, contendo 41 amostras, e teste, contendo 20 amostras.Foram encontrados conjuntos formados por 12 genes que obtiveram 92,68% de acuráciaem treinamento e 90% em teste.

Ooi e Tan (2003) também identi�caram conjutos de genes preditivos a partir da baseNCI60, utilizando para isso um AG e um classi�cador MLHD [3]. Na busca deste conjunto,os pesquisadores partiram de um fragmento da NCI60 formada por 61 amostras de 1000

10

Page 23: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

genes. Estas bases foram divididas em dois conjuntos, treinamento e teste, tendo 2/3 e1/3 das 61 amostras, respectivamente. Neste trabalho foi obtido um conjunto preditivocom 13 genes com taxa de erro de 14,63% (6 erros em treinamento) no método leave-one-out cross validation (LOOCV) e 5% (1 erro em teste) utilizando um conjunto deteste independente. Uma outra análise foi feita neste trabalho retirando-se da funçãode avaliação a segunda taxa de erro. Para este ambiente, foi encontrado um conjuntopreditivo com 12 genes com taxa de erro de 9,76% (4 erros em treinamento) no métodocross validation e 20% (4 erros em teste) utilizando um conjunto de teste independente.

Liu e colaboradores (2005) [13], utilizaram algoritmos genéticos (AG) combinado asupport vector machines (SVM) na busca de pequenos conjuntos de genes que fossemclassi�cadores con�áveis em bases multiclasses. O AG foi usado como seletor de genese a SVM na categorização das classes analisadas. Foi utilizado o método leave-one-out cross-validations (LOOCV) na validação dos resultados, obtendo 88,52% de acertos,considerando a base completa (61 amostras), com um conjunto preditor composto por 40genes para a base NCI60.

Em [22], Umpai e Aitken (2005) encontraram conjuntos de genes preditores utilizadosna classi�cação da base NCI60. Antes de executar a classi�cação, foi feita uma seleção degenes utilizando o software RankGene [37], onde foram selecionados os top 100 genes. Oambiente utilizado na busca destes conjuntos é formado por um AG padrão combinadoa um classi�cador k nearest neighbour (KNN) [38]. Devido ao baixo número de amostrasda base NCI60, os autores não consideraram adequado dividí-la em treinamento e teste.A avaliação deste conjunto preditivo foi feita utilizando LOOCV aplicado à base inteira.O melhor resultado encontrado para a base NCI60 foi 76,23% de acertos e um conjuntopreditor de 30 genes.

No trabalho de Uriarte e Andrés (2006) [23], buscou-se a construção de pequenosconjuntos preditores de genes e�cazes na classi�cação multiclasse. Para tal, eles buscaramidenti�car conjuntos com o menor número de genes possível e bons níveis de predição.Neste trabalho foi investigado o uso de algoritmos de random forest [39] na classi�caçãode dados multiclasse advindos de experimentos de microarray. Este método é formadopor conjuntos de árvores de decisão [40, 41, 42], que segundo os autores, possuem um

11

Page 24: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

bom poder de predição em dados com ruído. Neste trabalho, a base NCI60 foi divididaem dois conjuntos chamados de treinamento e teste. As taxas de erros obtidas utilizandoo método .632+ bootstrap [43] foi de 25,2%. Esse valor foi comparado com o obtido poroutros métodos [44, 38, 42, 45, 46], também utilizando o método de avaliação bootstrap,nos quais resultados similares foram obtidos.

No trabalho de Lin e seus colaboradores (2006) [24] foi utilizado um algoritmo genéticocombinado com uma função discriminante silhouete statistics [47] (GASS) para seleçãogênica e reconhecimento de padrões. Este AG é utilizado na identi�cação de um conjuntode características correlatas e então evolui-se este conjunto utilizando silhouette statisticscom distâncias métricas distintas para �ltrar as características chaves para a classi�cação.Na pré-seleção dos genes que seriam analisados, usou-se o método BSS/WSS [21] pararankear os genes que são fortemente correlacionados à uma determinada classe e que nãoestão correlacionados às outras analisadas. Bons resultados foram encontrados. Para abase NCI60 foram obtidos 87,8% de acertos em treinamento e 85% em teste.

12

Page 25: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Capítulo 3

Algoritmos Genéticos (AGs)

3.1 Visão Geral do Método

Constantemente, o homem tem se servido das características e princípios existentes nanatureza para a criação de máquinas, métodos e técnicas. Alguns exemplos típicos destainspiração foram as seguintes invenções: aviões baseados nas características de pássaros,submarinos com sistemas de imersão semelhantes ao dos peixes, sonares baseados nosmorcegos, dentre vários outros [48]. Em meados do século XIX, surgiu um dos mais im-portantes princípios no campo da evolução da vida, a Teoria da Evolução de Darwin, quedefende a idéia de que na natureza, os seres vivos com as melhores características tendema sobreviver frente aos demais. Baseada nesta teoria, a medicina e suas ciências a�nsbuscam mapear toda a informação genética humana, relacionando deste modo, cada genede cada cromossomo às características que eles representam nos indivíduos: hereditárias,físicas e funcionais [48]. Busca-se assim, elucidar quais genes e características promovema disparidade entre os indíviduos. A ciência da computação inspirou-se também nestesprincípios para a resolução de outros problemas. Surgiu então, a técnica de inteligênciaarti�cial conhecida por Algoritmo Genético [49, 50, 51], que teve seu marco inicial notrabalho de John Holland, na década de 60 [52].

Algoritmos Genéticos são métodos computacionais de busca baseados nos mecanismosda evolução natural e na genética, simulando a teoria da seleção natural de Darwin [50].

Os AGs fazem parte da Computação Evolutiva, área da Inteligência Arti�cial pro-

13

Page 26: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

veniente da interseção entre a Biologia Evolutiva e a Ciência da Computação, sendoconstituída de procedimentos de busca e otimização, em que o espaço de busca das solu-ções de um problema é explorado a partir de uma amostragem aleatória de seus pontos,utilizando um mecanismo inspirado na evolução biológica. Estes pontos sofrem operações,análogas às operações genéticas, de forma a guiar a busca para regiões mais promissorasdesse espaço de soluções. A Figura 3.1 ilustra a relação entre essas três áreas.

Figura 3.1: Computação Evolutiva: interseção entre a Inteligência Arti�cial e a Biologia Evolutiva

AGs são métodos computacionais de busca, baseados nos mecanismos da evoluçãonatural e na genética natural. Eles combinam a sobrevivência do melhor adaptado dentreestruturas formadas por sequências de bits, com uma troca de informação aleatória eestruturada para formar um algoritmo computacional com algum faro inovador da buscahumana. Apesar de não serem determinísticos, os Algoritmos Genéticos não são umasimples caminhada aleatória. Eles exploram e�cientemente informações históricas paraespecular novos pontos de busca com um aumento esperado de performance [50].

O AG é um algoritmo que manipula, em paralelo, um conjunto de indivíduos (cha-mado de população), tipicamente constituído por cadeias de símbolos de tamanho �xo,que representam os cromossomos. A cada indivíduo é associada uma avaliação. O AGtransforma a população corrente em uma nova população usando operações de reproduçãoe sobrevivência, segundo critérios baseados em uma determinada função de avaliação [53].

Em AGs, uma população de possíveis soluções para o problema em questão evoluide acordo com operadores probabilísticos concebidos a partir de metáforas biológicas, demodo que haja uma tendência de que, na média, os indivíduos representem soluções cadavez melhores à medida que o processo evolutivo continua [54]. O ciclo básico de execuçãode um AG é ilustrado na Figura 3.2 [55].

14

Page 27: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Figura 3.2: Ciclo de Execução Básico de um AG

Como é possível perceber na Figura 3.2, os AGs manipulam uma população de in-díviduos, sendo que cada indivíduo na população representa uma possível solução paraum dado problema. A cada indivíduo é associado um valor de adaptabilidade, chamadode aptidão. A tarefa do AG é procurar uma solução ótima para o problema ou umasolução que satisfaça um determinado critério de qualidade. A cada iteração do AGuma nova geração de indivíduos é criada, usando os princípios Darwianos de reproduçãoe sobrevivência dos mais aptos, através da aplicação de operações genéticas tais comorecombinação (crossover) e mutação [48].

Vários aspectos do projeto devem ser cuidadosamente analisados e especi�cados paraque se possa trabalhar com AGs e�cientemente. Dentre esses aspectos podemos citarcomo principais: [50]:

1. Representação do indivíduo (ou codi�cação do cromossomo).

2. De�nição de uma estratégica para a geração da população inicial.

3. De�nição da função de avaliação ou aptidão (�tness function).

15

Page 28: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

4. Especi�cação dos operadores genéticos:

• Operadores de seleção de indivíduos que serão utilizados na reprodução (pais);

• Operadores de cruzamento ou crossover;

• Operadores de mutação;

• Operadores de reinserção da população ao �nal de cada geração.

5. De�nição de um critério de parada.

6. Especi�cação dos parâmetros genéticos:

• Tamanho da população (Tp);

• Taxa de crossover (Tc);

• Taxa de mutação (Tm);

• Número de gerações (Nger).

Nas seções a seguir, detalharemos alguns desses aspectos.

3.1.1 Representação do Indivíduo e Geração da População Indi-vidual

Os AGs manipulam simultaneamente um conjunto de soluções chamado de população.Cada elemento desse conjunto de soluções, ou cada ponto no espaço de busca, é deno-minado indivíduo ou cromossomo. Cada indivíduo representa uma possível solução doproblema que se deseja resolver. Um indivíduo é normalmente representado por umacadeia de símbolos, podendo esta cadeia ser estática ou dinâmica. As cadeias estáticaspodem ser representadas por um vetor (ou por um conjunto de vetores), cujos elementospodem ser binários, inteiros ou reais. As cadeias dinâmicas são geralmente representadaspor vetores dinâmicos ou árvores. As cadeias dinâmicas podem, ao longo da execução doAG, diminuir ou aumentar de tamanho. O mesmo não ocorre com as cadeias estáticas,onde o tamanho é �xado no início da execução do AG.

16

Page 29: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Os AGs iniciam a busca da melhor solução a partir de um conjunto inicial de soluções.Na maioria das aplicações, a geração da população inicial é feita de forma aleatória.Entretanto, em problemas de difícil convergência, a geração da população pode ser feitade forma tendenciosa, utilizando-se algum conhecimento prévio do problema nesta escolha.

3.1.2 Função de Avaliação ou Aptidão (FA)

A Aptidão refere-se ao grau de contribuição de uma determinada solução candidata para aconvergência do AG na busca da melhor solução dentro do espaço de busca. Para mensuraresta grandeza utiliza-se uma Função de Avaliação ou Aptidão (Fitness Function), cujoobjetivo é estabelecer uma medida de qualidade para cada indivíduo da população. Porisso, a de�nição dessa função decorre diretamente da modelagem do problema onde sedeseja utilizar o AG.

Segundo estimativas, o cálculo da função de avaliação consome a maior parte do tempode processamento de um AG, podendo chegar a até 95% deste tempo de processamento[56]. Devido a este fato, a de�nição da função de avaliação torna-se um fator crítico e umdos pontos mais importantes no projeto dos AGs.

3.1.3 Operadores Genéticos

O princípio básico dos operadores genéticos é transformar a população (conjunto de so-luções candidatas) através de sucessivas gerações, realizando a busca pela melhor soluçãoaté que seja alcançado um resultado satisfatório. Os operadores genéticos são necessáriospara que a população se diversi�que mas que também mantenha as boas características deadaptação adquiridas pelas gerações anteriores. Os principais operadores genéticos são:seleção dos pais para a reprodução, cruzamento ou recombinação (crossover), mutação ereinserção da população. A seleção seleciona quais serão os pais que passarão seu materialgenético para a próxima geração. O cruzamento ou crossover cria novos indivíduos quepossuem em sua carga genética genes vindos dos pais selecionados. A mutação alteraum indivíduo para produzir uma nova solução, um pouco diferente de outra já existentena população. A reinserção seleciona quais indivíduos, entre pais e �lhos, farão parte da

17

Page 30: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

próxima geração.

Seleção dos Pais

De acordo com a teoria de Darwin, o princípio da seleção natural privilegia os indivíduosmais aptos e com maior longevidade e, portanto, com maior probabilidade de reprodução.Indivíduos com mais descendentes têm mais chance de perpetuarem seus códigos genéti-cos nas próximas gerações. A maioria dos métodos de seleção de pais são projetados paraescolher preferencialmente indivíduos com maiores valores de aptidão, embora não exclu-sivamente, a �m de manter a diversidade da população. Com base na teoria Darwiniana,foram construídos vários métodos de seleção, dentre os quais podemos citar: trunca-mento (Truncation Selection), ranking (Rank Based Fitness Assigment), roleta (RouleteWheel Selection), amostragem estocástica (Stochastic Universal Sampling), torneio sim-ples (Simple Tournament) e torneio estocástico (Stochastic Tournament). Detalharemosos métodos conhecidos por roleta e torneio estocástico por serem os métodos investigadosneste trabalho.

O método de seleção de pais mais clássico, proposto no trabalho pioneiro de Holland[52], é conhecido por método da roleta, onde os indivíduos de uma geração são escolhidospara fazer parte da próxima geração, através de um sorteio de roleta. Neste método,cada indivíduo da população é representado na roleta proporcionalmente ao seu índicede aptidão. Assim, aos indivíduos com alta aptidão é dada uma porção maior da roleta,enquanto aos de aptidão mais baixa é dada uma porção relativamente menor. Finalmente,a roleta é girada um determinado número de vezes, dependendo do número de pais queserão selecionados para o crossover. Os indivíduos selecionados pela roleta fornecemmaterial genético para a construção de novos indivíduos, chamados �lhos. A Figura3.3 apresenta um exemplo de construção da roleta para seleção dos pais, indicando adistribuição das aptidões relativas para uma população �ctícia de 4 indivíduos. A aptidãodo indíviduo 1 é igual a 3 e representa 18,75% da soma de todas as aptidões da população.A aptidão do indivíduo 2 é igual a 7 (43,75%) e as aptidões dos indivíduos 3 e 4 iguais a 2(12,5%) e 4 (25%), respectivamente. Assim, estes percentuais de�nem as probabilidadesde cada indivíduo da população ser sorteado para a formacão dos pais para o crossover.

18

Page 31: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Por exemplo, ao sortearmos um pai para realizar o crossover, qualquer um dos quatroindivíduos pode ser sorteado, mas o indivíduo 2, que é o melhor da população, tem umaprobabilidade acima de 40% de ser sorteado. Por outro lado, o indivíduo 3, que é o pior,tem uma probabilidade de sorteio abaixo de 15%.

Figura 3.3: Roleta

No método de seleção torneio estocástico [50], n indivíduos que irão participar dotorneio são selecionados utilizando uma roleta, elaborada da mesma forma que a explicadaanteriormente. A esse número n damos o nome de tour. Para que se possa montar umtorneio estocástico com tour de tamanho 3 (três), por exemplo, teremos que rodar aroleta três vezes, e o vencedor do torneio é aquele indivíduo que tiver a maior aptidãoentre os três competidores. Por exemplo, suponha a mesma população de 4 indivíduoscujas avaliações são retratadas na roleta da Figura 3.3. A Figura 3.4 ilustra 2 torneiosentre os quatro indivíduos. No primeiro torneio, a roleta foi girada 3 vezes e ocorre adisputa entre os indivíduos 1, 2 e 3. Ao �nal, temos a vitória do indivíduo 2 por possuirmaior valor de aptidão (igual a 7). No segundo torneio, concorrem os indivíduos 1 e 4sendo que o indivíduo 1 foi sorteado duas vezes. Nesse caso, o indivíduo 4 é o vencedorcom uma avaliação de 4.

Figura 3.4: Torneio Estocástico de tamanho 3, empregando a roleta da Figura 3.3

Comparando-se os dois métodos, é possível perceber que o torneio estocástico é bem

19

Page 32: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

mais seletivo do que a roleta. Embora todos os indivíduos possam ser sorteados, comopode ser observado no exemplo da população na Figura 3.3, a probabilidade do indivíduo3 (o pior da população) ser sorteado é bem menor no torneio estocástico. Na roleta, bastaum único sorteio com probabilidade de 12,5% (2 casas em 16 possíveis) para que ele sejasorteado. No torneio estocástico, a única forma do indivíduo 3 ser vencedor é se a roletafor girada 3 vezes e nas três ele for sorteado. Caso contrário, qualquer outro indivíduosorteado será o vencedor em relação ao 3. Assim, a probabilidade do indivíduo 3 sersorteado por torneio estocástico cai de 12,5% para 0,195%.

Cruzamento ou Crossover

Os indivíduos sorteados pelo método de seleção dos pais são recombinados através dooperador genético crossover. O operador de crossover é considerado a característica fun-damental dos AGs [57], simulando a reprodução sexuada na natureza.

Este operador gera novas soluções (�lhos) a partir de soluções escolhidas da lista desoluções já existentes (pais). O operador de crossover possui diferentes variações, muitasdelas especí�cas a um determinado problema. Alguns exemplos de métodos de crossoversão: o crossover simples, o crossover múltiplo e o crossover uniforme.

No crossover simples, ocorre o sorteio de um único ponto de corte no cromossomo.Dois �lhos são gerados, cada um formado com uma parte do material genético de cadaprogenitor. O primeiro �lho repete os genes do cromossomo do primeiro pai até o pontode crossover. A partir deste ponto, ele repete os genes do segundo pai. O segundo �lhorepete os genes do segundo pai até o ponto de crossover e a partir deste ponto, ele repeteos genes do primeiro pai. A Figura 3.5 ilustra como é feita a troca de carga genética emindivíduos binários, através do crossover simples.

O crossover múltiplo segue a mesma idéia do crossover simples. A diferença está nonúmero de pontos de crossover sorteados. Enquanto que no crossover simples há apenasum sorteio, no crossover múltiplo há ao menos dois sorteios. A Figura 3.6 ilustra a trocade carga genética com dois pontos de crossover.

O crossover uniforme é um tipo de crossover múltiplo levado ao extremo, onde aoinvés de serem sorteados pontos de crossover, sorteia-se uma máscara que possui o mesmo

20

Page 33: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Figura 3.5: Crossover Simples

Figura 3.6: Crossover Múltiplo

tamanho do cromossomo, que indica qual cromossomo pai fornecerá cada gene do primeiro�lho. O segundo �lho é gerado pelo complemento desta máscara. O crossover uniforme éexempli�cado na Figura 3.7.

Figura 3.7: Crossover Uniforme

Mutação

O operador genético de mutação é aplicado para que seja feita a manutenção da diversi-dade genética da população, alterando-se arbitrariamente um ou mais genes do cromos-

21

Page 34: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

somo. Dessa forma, a mutação fornece meios para a introdução de novos indivíduos napopulação assegurando que existe a possibilidade de se chegar a qualquer ponto do es-paço de busca. Além disso, ele pode contornar o problema de ótimos locais, alterandolevemente a direção da busca.

A operação de mutação muda aleatoriamente a descendência criada pelo crossover.Este operador é aplicado aos indivíduos com uma probabilidade dada pela taxa de mutaçãoTm, fornecida como parâmetro de entrada do AG. Esta taxa de mutação pode ser dadapor indivíduo ou por gene.

Os tipos de mutação são diretamente in�uenciados pela estrutura do indivíduo. Ostipos mais comuns de mutações são: mutação binária, mutação real e permutação.

A mutação binária é aplicada a cromossomos binários. Neste operador troca-se um oumais bits do cromossomo, modi�cando-o(s) pelo seu complemento binário. A Figura 3.8ilustra este operador.

Figura 3.8: Mutação Binária

Amutação real altera o valor original contido no gene através do sorteio de um pequenovalor de incremento ou decremento. Após este sorteio, este valor é incrementado oudecrementado ao valor original. A Figura 3.9 ilustra este tipo de mutação. Neste exemplofoi sorteado um decremento de 0,7.

Figura 3.9: Mutação Real

Na permutação, ocorre a troca de lugar entre dois genes ou mais genes. A Figura 3.10

22

Page 35: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

ilustra esta operação.

Figura 3.10: Mutação Permutação

Reinserção

O operador genético de reinserção é responsável pela seleção dos indivíduos que farãoparte da população de pais para a próxima geração. Os principais métodos de reinserçãosão: reinserção pura, reinserção uniforme, elitismo e melhores pais e �lhos.

No método de reinserção pura, ocorre a substituição de toda a população antiga pelanova população gerada (�lhos). Na reinserção uniforme, a seleção dos indivíduos é feitautilizando-se algum método de sorteio, como a roleta e o torneio estocástico, aplicado àunião da população de pais e �lhos. No método melhores pais e �lhos, todos os pais e�lhos são colocados numa mesma população e os Tp melhores indivíduos são selecionadospara a próxima geração. A escolha destes Tp melhores indivíduos é feita exclusivamentebaseada nas suas aptidões. O operador de elitismo garante que os n (fornecido comoparâmetro de entrada do AG) melhores indivíduos encontrados na geração são passadospara a nova população, de forma que as melhores soluções possam sobreviver às sucessivasgerações.

3.1.4 Critério de Parada e Parâmetros Genéticos

Dependendo das características de cada projeto, os critérios de parada adotados podemvariar. Eles podem estar correlacionados a um determinado número de gerações, se o AGencontrou ou não a solução ótima (isso se a mesma for conhecida), perda de diversidade

23

Page 36: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

das soluções ou pode estar correlacionda à convergência nas últimas k gerações, isto é,quando não ocorre melhoria na aptidão média e máxima.

Os parâmetros genéticos in�uenciam diretamente no comportamento dos AGs. Devidoa este fato, devemos estabelecê-los conforme as necessidades do problema em questão edos recursos disponíveis. Os principais parâmetros genéticos que devemos ajustar são:tamanho da população, taxa de crossover, taxa de mutação e o número de gerações.

O tamanho da população afeta diretamente o desempenho global e a e�ciência dosAGs. Com uma população pequena o desempenho pode cair, pois deste modo, a popula-ção fornece uma pequena cobertura do espaço de busca do problema. Por outro lado, umagrande população fornece uma cobertura representativa do domínio do problema, além deprevenir convergências prematuras para soluções locais ao invés de globais. No entanto,para se trabalhar com grandes populações, são necessários maiores recursos computacio-nais ou que o AG trabalhe por um período de tempo muito maior.

A taxa de crossover representa o número de pais presentes na população atual que serãoselecionados para a geração dos indivíduos que irão compor uma nova população. Quantomaior for esta taxa, mais rapidamente novos indivíduos são introduzidos na população,mas também maior é o custo computacional.

A taxa de mutação representa a probabilidade de cada gene do indivíduo ter o seu valoralterado por outro valor válido. A taxa de mutação deve ser o su�ciente para assegurara diversidade dos cromossomos na população. Uma taxa de mutação baixa previne queuma dada população �que estagnada em um valor, além de possibilitar que se chegue aqualquer ponto do espaço de busca. Por outro lado, com uma taxa muito alta, a busca setorna essencialmente aleatória.

O número de gerações corresponde ao número de iterações completas que o AG deveráexecutar. O número de gerações deve ser analisado cuidadosamente para que se tenha ummelhor aproveitamento das execuções.

24

Page 37: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

3.2 Variações do AG Padrão

O modelo de AG discutido na seção 3.1 é conhecido por AG Padrão. Esse modelo éfortemente baseado no modelo original de Holland [52] e foi extensamente difundido einvestigado nas décadas de 80 e 90. Recentemente, novos modelos surgiram incorporandocaracterísticas que melhor se adaptavam a algumas classes de problemas. Podemos citarcomo exemplos desses novos modelos os AGs Coevolutivos [58] e os AGs Multi-Objetivos[59]. O apêndice C apresenta uma visão geral dos AGs Multi-Objetivos.

3.3 Aplicações de Algoritmos Genéticos em Data Mining

Data Mining é um conjunto de técnicas e ferramentas aplicado para a descoberta doconhecimento em bases de dados. A tarefa de classi�cação é uma das várias estudadasem data mining. Em essência, o problema consiste em atribuir valores para os registrospertencentes a um pequeno conjunto de classes, e assim, descobrir algum relacionamentoentre estes atributos. Cada registro é composto de um conjunto de atributos preditivose um atributo objetivo [60, 61]. Um algoritmo de data mining é aplicado ao conjunto detreinamento, contrapondo-os a uma classe conhecida, na busca de algumas relações entreos atributos preditivos e o atributo objetivo. Estes relacionamentos são então usados parapredizer a classe (o valor do atributo objetivo) de amostras cuja classe é desconhecida [19].

O conhecimento descoberto pode ser representado na forma de regras de classi�caçãodo tipo IF-THEN. Este tipo de regra se destaca devido ao seu alto nível de entendimentoe pela representação do conhecimento simbólico, contribuindo para compreensibilidadedas informações descobertas. As regras descobertas podem ser construídas de acordo comvários critérios, tais como: grau de con�ança da predição, taxa de acerto da classi�caçãopara amostras de classes desconhecidas, compreensibilidade, dentre outros [19].

Como exemplo de aplicação de AGs em data mining, podemos citar o trabalho deFidelis e colaboradores [19], no qual um modelo de AG foi elaborado para a obtenção deregras de classi�cação em bases de dados clínicos. Esse AG foi implementado através doGALOPPS 3.2 [62], ferramenta esta de domínio público que incorpora várias caracterís-ticas propostas pelos AGs. Deste modelo, várias características são importantes elucidar,

25

Page 38: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

tais como: codi�cação do indivíduo, operadores genéticos e função de avaliação.O indivíduo é composto por n genes e cada gene é dividido em três partes, peso,

operador e valor. Cada gene corresponde a uma condição da parte IF da regra, e oindivíduo corresponde à toda parte conseqüente da regra. A parte ENTÃO é omitida noindivíduo. A cada execução do AG, todas as regras são evoluídas para uma mesma parteconseqüente. Assim, por exemplo, se o atributo objetivo possui 5 valores C1, C2, C3, C4

e C5, o AG deve ser executado pelo menos 5 vezes: a primeira execução para minerar asregras com conseqüente atributo-objetivo = C1, a segunda para atributo objetivo = C2 eassim sucessivamente.

Os operadores genéticos de seleção, crossover e reinserção aplicados em [19] foramos tradicionais: torneio estocástico, crossover ponto-simples e elitismo respectivamente.Foram desenvolvidos três operadores de mutação, especí�cos para os campos de peso,operador e valor.

A função de avaliação avalia a qualidade de cada regra ou indivíduo. Foi utilizado nestetrabalho a função de avaliação empregada em [63], combinando indicadores comumenteutilizados em domínios médicos, chamados de sensibilidade e especi�cidade.

Dados sobre domínios dermatológicos e de câncer de mama compunham as bases dedados, extraídas do UCI Machine Learning Repository (University of California at Irvine)que podem ser obtidas em www.ics.uci.edu. Os resultados obtidos neste trabalho foramsatisfatórios. Para a base dermatológica foram encontrados regras simples, variando deduas a seis condições na parte IF, resultando em aptidões de treinamento variando entre85,5% a 100% e aptidões de teste de 78,3% a 100%. Os resultados obtidos para a basede câncer de mama foram um pouco piores. Foram obtidas regras com três condições naparte IF com aptidões de treinamento variando de 49,7% a 56,4% e aptidões de teste de36,5% a 39,3%.

Além deste trabalho [19], vários outros foram desenvolvidos utilizando-se AGs na so-lução de tarefas de classi�cação [64, 65, 19, 66, 67, 68, 69, 12, 3, 70, 71, 72, 73, 13, 15].Os AGs também foram utilizados em outras tarefas de datamining, tais como: associação[74, 75], modelo de dependência [76], clusterização [11, 14], dentre outros.

Existem duas abordagens na aplicação de AGs, para a obtenção de regras de classi�ca-

26

Page 39: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

ção chamadas Michigan e Pittsburgh. A abordagem Michigan, proveniente dos trabalhosde Holland e Reitman, na década de 70, na Universidade de Michigan, emprega umaforma de representação que �cou conhecida como Michigan em referência ao nome dauniversidade de origem. Nessa abordagem, a população como um todo é a solução para oproblema, isto é uma parte da solução candidata é composta por todas as regras (popula-ção) [77]. A abordagem Pittsburgh é proveniente dos trabalhos desenvolvidos por De Jonge Smith na Universidade de Pittsburgh. Esta abordagem emprega outra abordagem narepresentação dos indivíduos. Diferentemente da abordagem Michigan, nessa abordagemcada indivíduo da população representa uma solução do problema. Dessa forma, a popu-lação contém vários conjuntos de regras, sendo que cada indivíduo (conjunto de regras)representa uma solução homogênea do problema. Comparativamente com a abordagemMichigan, a abordagem Pittsburgh requer um esforço computacional menor para obtera solução, embora o cálculo da aptidão dos indivíduos seja mais complexa que na outraabordagem [78].

No nosso trabalho, utilizamos a abordagem Pittsburgh, onde cada indivíduo da popu-lação é uma regra de alto nível do tipo IF-THEN e esta regra corresponde a uma soluçãodo problema para uma determinada classe de câncer, contida na base de dados avaliada.

3.4 Aplicações de Algoritmos Genéticos na análise deExpressão Gênica

Alguns dos principais projetos desenvolvidos aplicando-se AGs na análise dos dados deexpressão gênica são revisados a seguir. Vários deles utilizaram a base de dados NCI60investigada também nessa dissertação. Essa base foi apresentada na seção 2.2 e o apêndiceA apresenta um fragmento da mesma.

No trabalho de Deb e Reddy (2003) [12], o objetivo foi estabelecer pequenos conjuntosde genes preditores que tiveram suas expressões medidas a partir de amostras de câncerque possuem duas ou mais classes. Neste trabalho, foi utilizado o AG multi-objetivosconhecido por NSGA-II (Nondominated Sorting Genetic Algorithm II) na busca de classi-�cadores. Foram estudadas bases de dados de classi�cação binária e multiclasse. Para as

27

Page 40: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

bases de classi�cação binária, um método de classi�cação por ranking chamado weigthedvoting (WV) [79] foi empregado. Para a classi�cação multiclasse, além da abordagemWV,foi utilizado o método de classi�cação one-versus-all (OVA) binary pair-wise [79]. Cincobases de dados de domínio público foram analisadas neste trabalho: leukemia [79], di�uselarge B-cell lymphoma [80], Colon [81], GCM [82] e NCI60 [20], sendo as três primeiras declassi�cação binária e as duas últimas multiclasses. A base de dados leukemia foi divididaem dois conjuntos de dados, chamados de treinamento e teste, sendo constituídos por 38amostras e 34 amostras, respectivamente. Para esta base, foi obtido 91,4% de acerto nas72 amostras. A base de dados di�use large B-cell lymphoma é constituída de 96 amostrassendo sendo 42 amostras de lymphoma e 54 de outros câncers. As amostras desta baseforam divididas em quantidades iguais em treinamento e teste (50% para cada conjunto)obtendo conjuntos classi�cadores compostos por 8 genes que classi�caram corretamente100% das amostras em treinamento e 97,91% das amostras em teste. A base de dadosGCM é composta por 198 amostras que foram divididas em 144 amostras para treina-mento e 54 amostras para teste. Foi obtido um conjunto de 37 genes que obteve 86% deacerto em treinamento e 80% em teste. A última base de dados analisada foi a NCI60.Esta base é composta por 61 amostras divididas em 41 amostras de treinamento e 20amostras de teste, sendo encontrado 92,68% de acurácia em treinamento e 90% em teste.

O trabalho de Ooi e Tan (2003) [3] foi fundamental para o desenvolvimento dessadissertação. Os autores buscaram identi�car um conjunto de genes preditivos em relaçãoa nove classes de câncer, a partir de uma base reduzida da NCI60, contendo as expres-sões gênicas de 1000 genes. Foi utilizado como estratégia de classi�cação um classi�cadorMLHD e um AG que otimiza a entrada do MLHD. O AG determina automaticamenteos membros do grupo de genes preditivos, assim como o tamanho ótimo deste conjunto,usando para isto, um método de classi�cação de máxima verossimilhança (MLHD), utili-zado na avaliação da a�nidade destes genes selecionados. Neste trabalho foram invetigadasas bases GCM [82] e NCI60 [20]. A partir da NCI60, 4 conjuntos de genes preditores fo-ram gerados, dois deles utilizando o método AG/MLHD investigado no trabalho e doisdeles empregando técnicas de ranking para comparação. A seção 4.1.5 discute como essesconjuntos foram obtidos. Foram encontrados bons resultados para ambas as bases anali-

28

Page 41: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

sadas. Estas bases foram divididas em dois conjuntos, treinamento e teste, tendo 2/3 e1/3 de todas as amostras de 1000 genes, respectivamente. Para a base GCM, formada por198 amostras divididas em 14 classes, foram obtidos conjuntos preditivos formados por 32genes e com taxa de erro de 20,14% no método leave-one-out cross validation (LOOCV) e14,81% utilizando um conjunto de teste independente. Para a base NCI60, composta de 61amostras divididas em 9 classes, foi obtido um conjunto preditivo com 13 genes com taxade erro de 14,63% no método LOOCV e 5% utilizando um conjunto de teste independente.É importante salientar que para se chegar nos resultados apresentados anteriormente, es-tas duas taxas de erro foram utilizadas na evolução do AG. Vários pesquisadores [13, 25]questionaram os resultados obtidos com essa aptidão. Neste cálculo, foi utilizada umainformação vinculada à base de teste (a taxa de erro de teste independente). Assim, o AGutiliza, de uma certa forma, a base de teste em sua evolução. Portanto, a base de testenão pode ser considerada "independente"(blind test). Uma segunda evolução foi realizadaem [3] sem a inserção da taxa de erro de teste, encontrando um conjunto preditivo com12 genes com taxa de erro de 9,76% no método LOOCV e 20% utilizando um conjuntode teste independente; resultado este, inferior ao encontrado com as duas taxas de erro.

Em [13], o objetivo de Liu e colaboradores (2005) foi encontrar pequenos conjuntos degenes preditivos que sejam classi�cadores con�áveis em bases multiclasse. Neste trabalho,foram combinados algoritmos genéticos, usados como seletores de genes, e support vectormachines (SVM), na categorização das classes analisadas. As SVM's necessitam estarintegradas a outros algoritmos para proverem classi�cações multiclasse, tais como one-vs.-all ou all-paired (AP). Neste trabalho foi utilizado o método AP. O AG foi utilizado paraevoluir o ambiente AP-SVM na busca dos melhores classi�cadores para as bases NCI60[20] e Brown [83]. Para a validação dos resultados encontrados neste trabalho, tambémfoi utilizado o método leave-one-out cross-validation (LOOCV). Porém, nesse caso, osautores não dividiram a base em treinamento e teste, realizando a validação LOOCV em100% das amostras. Bons resultados foram encontrados para ambas as bases. Para a baseNCI60 foi alcançado 88,52% de acertos com um conjunto preditor composto por 40 genes.Na base Brown os resultados foram um pouco piores, alcançando 81,23% de acerto.

Mitra e Banka (2006) [14] utilizaram AGs multi-objetivos na busca de clusters com

29

Page 42: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

altos valores de relação intra-class e baixos valores de relação inter-class. Altos valoresintra-class signi�ca alta a�nidade entre os genes de um determinado cluster, enquantoque, baixos valores inter-class denota uma independência (ou especi�cidade) entre estesclusters. Neste trabalho foram utilizados bases de dados de leveduras e de humam B-celllymphoma advindos de experimentos de microarray. Estas bases podem ser encontradasno endereço http://aprep.med.harvard.edu. Também foi utilizada neste trabalho, o AGmulti-objetivos NSGA-II (Nondominated Sorting Genetic Algorithm II), que se mostrouefetivo na construção de clusters com qualidade. A Biclusterização tem sido aplicadaem análises de expresão gênica envolvendo dados cancerígenos, sendo utilizada principal-mente na identi�cação de genes correlatos, anotação de funções gênicas e classi�cação deamostras. A validação biológica dos genes selecionados nos biclusters foi realizada peloGO Consortium.

Na busca de conjuntos de genes preditivos e seus respectivos coe�cientes de correlaçãoao câncer de mama [84], Wahde e Szallassi [15], utilizaram uma pequena variação doalgoritmo genético padrão na evolução de classi�cadores simples. Neste trabalho, há acriação de uma lista de elite dos genes (top genes) construída utilizando-se uma versão deranking muito parecida com o método threshold number of misclasi�cation score (TNoM)[85]. Após construída esta lista, o AG é utilizado na evolução de classi�cadores do tipolinear, single-threshold, que selecionam os genes dentre a elite. A base de dados utilizadaera composta por 97 amostras de 5.277 genes com apenas duas classes, divididos em 78amostras para treinamento e 19 amostras para teste. Nesta classi�cação binária, foramformados conjuntos de 7 genes que obtiveram bons resultados de classi�cação. Nas basesdestinadas ao treinamento e teste, foram obtidas regras com 97,4% e 89,5% de acertos,respectivamente.

Em todos os trabalhos citados anteriormente, os AGs foram empregados com o objetivode ajustar algum outro modelo de classi�cador. Por exemplo, em [3], o AG selecionao conjunto de genes que deve ser utilizado como entrada de um classi�cador MLHD.Em [13], os AGs são utilizados para otimizar as SVMs, que são os classi�cadores defato. Entretanto, todos esses classi�cadores são do tipo "caixa-preta"e não explicam oconhecimento utilizado na classi�cação. Poucos trabalhos foram encontrados nos quais os

30

Page 43: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

AGs são empregados para encontrar regras de classi�cação de alto nível do tipo IF-THEN.Esses trabalhos são revisados a seguir.

Hvidsten e colaboradores (2003) [16] utilizaram uma abordagem de aprendizagem su-pervisionada na predição de processos biológicos advindos de experimentos de microarray,buscando características ou per�s de expressão que possam ser discriminantes na formaçãode regras de decisão. Foi utilizado o sistema Rosetta [86], ambiente este, utilizado paradata mining e knowledge discovery. Este ambiente emprega um AG padrão na construçãoe adaptação dos modelos preditivos [87]. Cada regra IF-THEN identi�ca um conjunto mí-nimo de características discriminantes de uma determinada classe de doença. O conjuntode regras de todas as classes analisadas constituem um classi�cador que pode ser aplicadoem novas amostras de genes. Na avaliação destes classi�cadores é utilizado uma curvachamada receiver operating characteristics (ROC), contrapondo sensibilidade e especi�-cidade. A base utilizada neste trabalho foi extraída do The Gene Ontology Consortium2000, sendo dividida em dois conjuntos, um de treinamento e um de teste, divididos em27 classes. Os classi�cadores evoluídos no conjunto de treinamento foram avaliados emteste utilizando 50-fold cross validation e obtiveram, em média, no melhor resultado, 65%de acertos.

Em 2005, Viterbo e colaboradores [17] investigaram a performance de classi�cadoresbaseados em regras fuzzy em cinco bases de dados distintas. O objetivo dos autores eraa geração de regras pequenas e simples, conseguida através de 2 tipos de algoritmos. Umalgoritmo para fazer a categorização dos valores contínuos dos níveis de expressão, e umsegundo algoritmo, responsável pela descoberta das regras. Estes algoritmos combinamdiscretização fuzzy, responsável pela discretização de valores contínuos em valores taiscomo: baixo, médio e alto ou benigno e maligno, e operadores fuzzy responsáveis pelageração das regras. O ambiente é composto principalmente por quatro partes, pré-seleçãodos genes, apredizado fuzzy, construção das regras e �ltragem destas regras. Para cadagene selecionado, ocorre a discretização do seu nível de expressão em um dos três valorespossíveis (baixo, médio ou alto). Após feita a discretização de todos os genes selecionados,este conjunto de dados é utilizado na construção das regras. O último passo consiste emretirar regras redundantes. Como citado no trabalho [16], na �ltragem das regras foi

31

Page 44: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

utilizado o ambiente Rosetta [86] por ser simples e e�ciente. Assim, este conjunto �nalde regras pode ser utilizado para determinar a classe de qualquer novo ou desconhecidoelemento. Foram utilizadas cinco bases de dados, quatro delas encontradas em [88, 89,79, 82] e a base NCBI-NLM 2004 (http://ncbi.nlm.nih.gov/geo), sendo pré-selecionados200 genes de cada base de dados, divididos em treinamento e teste. Neste trabalho foiutilizado a mesma forma de avaliação de [16], a curva ROC, alcançando 99,81% de acertosem treinamento e 96,62% em teste de média para todas as 5 bases, utilizando na validaçãodos resultados obtidos em teste um 5 × 2 cross-validation test proposto por [90].

Ho e seus colaboradores (2006) [18], construiram classi�cadores interpretáveis baseadosem regras IF-THEN fuzzy precisas e compactas formadas por um pequeno número de genesrelevantes para dados advindos de análises de microarray. Neste trabalho foi construídoum classi�cador, chamado de iGEC, que busca otimizar três objetivos: precisão máximade classi�cação, número mínimo de regras e número mínimo de genes utilizados. Umdos módulos deste ambiente é uma variação do AG encontrado em [91]. Este método,chamado de IGA, é utlizado para resolver e�cientemente o ajuste do AG. Este ambientefoi aplicado em oito bases de dados. Os dados extraídos de [92, 93] contêm níveis deexpressão gênica de tumores cerebrais, agrupados em 5 e 4 classes, respectivamente. Osdados encontrados em [94] possuem informações sobre di�use large b-cell lymphomas andfollicular lymphoma, agrupados em duas classes. Em [79, 95] foram obtidos níveis deexpressão de leucemia, agrupados em 3 classes, em [88] de pulmão agrupados em 5 classes,[89] de tumores de próstata, agrupados em 2 classes, e em [8] de small, round blue celltumors of childhood agrupados em 4 classes. O ambiente conseguiu uma precisão médiade classi�cação de 87,9%, com média de 3,9 regras para cada base, e cada regra formadapor 5 genes em média. Para validação destes resultados, foi utilizado uma validaçãocruzada com 10-dobras (10-fold cross validation). Este ambiente se mostrou mais efetivona classi�cação do que os classi�cadores baseados em regras fuzzy existentes [17] e tambéma outros classi�cadores não baseados em regras, considerando todos os três objetivos.

Em nenhum dos trabalhos citados anteriormente [3, 17, 18], que �zeram a busca deregras de classi�cação de alto nível (IF-THEN), foi utilizada a base NCI60, investigadana presente dissertação. Segundo Xu (2007), é muito difícil propôr regras ou critérios

32

Page 45: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

na determinação de um conjunto de genes que seja discriminantes no diagnóstico dedoenças, especialmente quando as bases de dados estudadas possuem um elevado númerode classes, tais como a complexa NCI60 [25]. A base NCI60 é conisderada um desa�o paraos algoritmos de classi�cação por suas características peculiares: um número relativamentealto de classes (9) para um número relativamente baixo de amostras (61), resultando emnúmero baixo de amostras por classe, variando de 4 a 9 amostras por classe.

33

Page 46: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Capítulo 4

Ambiente Evolutivo

O ambiente evolutivo implementado neste trabalho foi baseado, principalmente, no traba-lho de Fidelis e colaboradores [19] e no trabalho de Ooi e Tan [3]. Em relação ao trabalhode Fidelis e colaboradores, adaptamos o modelo do AG existente neste trabalho para mi-nerarmos dados advindos de expressão gênica, além de alterarmos os operadores genéticosde crossover e de reinserção. Em relação ao trabalho de Ooi e Tan, ao invés de forne-cermos um conjunto de genes preditores, que funciona como um classi�cador caixa-preta,construimos regras de classi�cação do tipo IF-THEN, representando o conhecimento emalto nível.

4.1 Descrição do Ambiente Evolutivo

O modelo do AG empregado no nosso ambiente evolutivo foi adaptado a partir do modeloproposto em [19] por se tratar de um ambiente voltado à mineração de regras do tipo IF-THEN. O AG foi elaborado em [19] com o objetivo de obter regras de classi�cação em basesde dados clínicos de pacientes e suas principais características foram revisadas na seção3.3. As bases de dados onde o ambiente de Fidelis e colaboradores foram aplicadas eramformadas por registros que se caracterizavam por dados do paciente, no caso, a idade epresença da doença em histórico familiar e por dados relacionados a sintomas do paciente.As características que se relacionavam aos sintomas, que eram a maioria, foram todasdiscretizadas em: 0 - ausente, 1 - ocorrência leve, 2 - ocorrência moderada e 3 - ocorrência

34

Page 47: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

severa. O ambiente evolutivo proposto nesta dissertação foi implementado na linguagemDelphi R© e precisou ser adaptado para trabalhar com bases de dados de expressão gênica,onde os registros apresentam os níveis de expressão de dezenas ou centenas de genes,que são valores contínuos e com precisão variável (números reais). Para se chegar noambiente evolutivo utilizado neste trabalho, partimos dos parâmetros propostos em [19]e fomos, experimentalmente, ajustando-os para a nossa aplicação. Vários aspectos foramabordados, tais como: melhores métodos de seleção e reinserção, tamanho da população,número de gerações, peso, tamanho do tour e precisão (número de casas após a vírgula).A seguir, as principais características de nosso modelo de AG são detalhadas: codi�caçãodo indivíduo, operadores genéticos, função de avaliação e parâmetros genéticos.

Antes de prosseguirmos, estabeleceremos a seguinte convenção: tanto no domínio doproblema abordado, expressão gênica, como na descrição da técnica utilizada, algoritmogenético (AG), a palavra gene é utilizada, podendo surgir dúvidas em relação ao termo.Assim, convencionaremos que gene (em itálico) se refere ao gene do indivíduo do AG egene (sem itálico) se refere ao gene humano.

4.1.1 Codi�cação do Indivíduo

O indivíduo ou cromossomo do AG proposto é composto por n genes, onde n correspondeao número de genes encontrados na base de expressão gênica avaliada. Cada i-ésimaposição do indivíduo é subdividida em quatro campos: I (índice), P (peso), O (operador)e V (valor), como ilustrado na Figura 4.1. Cada gene corresponde a um termo da condiçãona parte IF da regra e o indivíduo (cromossomo) representa todo o antecedente da regra.

Figura 4.1: Cromossomo ou Indivíduo

O campo I corresponde ao índice do gene correspondente na base de expressão gênicautilizada. O campo P é uma variável do tipo inteira e o seu valor está compreendido entreos valores 0 (zero) e 10 (dez). É importante dizer que este campo P é o responsável pela

35

Page 48: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

inserção ou exclusão de um termo na condição. Caso este valor seja menor do que umvalor limite para este gene (e o gene correspondente na base) não fará parte da regra; casocontrário, o mesmo fará. Neste trabalho, na maioria das execuções do AG, foi utilizadocomo limite o valor 8 (oito). Isso signi�ca que uma condição referente ao Genei só estarápresente efetivamente na regra se o valor do campo Pi for 8, 9 ou 10. Para todos os outrosvalores (0 a 7), a condição não estará presente na regra, independentemente dos valoresdos outros campos Oi e Vi.

Figura 4.2: Exemplo de cromossomo

Por exemplo, consideremos o indivíduo dado pela Figura 4.2, onde todos os outrosgenes omitidos têm o campo P < 7 e o indivíduo representa uma regra que pode ter nomáximo 20 condições. Ou seja, o AG é aplicado sobre uma base com níveis de expressãogênica de 20 genes. O antecedente da regra equivalente a esse indivíduo é dado por:

SE (Gene_11 ≥ 0,4) E (Gene_289 < 0,5)

Ou seja, apenas o gene 2 e o gene 15, que se referem às expressões dos genes de índice11 e 289 da base, respectivamente, estão presentes no antecedente. O conseqüente não érepresentado explicitamente na regra. Ao contrário, a cada execução o AG busca regrasde classi�cação para uma classe pré-especi�cada. Assim, suponha que o indivíduo daFigura 4.2 represente uma regra de uma execução do AG especi�cada para a classe 2.Dessa forma, a regra resultante é dada por:

SE (Gene_11 ≥ 0,4) E (Gene_289 < 0,5) ENTÃO Classe = 2

O campo O pode variar entre os operadores < (menor) e ≥ (maior ou igual). O campode V é uma variável do tipo ponto �utuante que pode variar entre o menor e o maior valorencontrados na base de expressão gênica avaliada e a precisão (número de casas decimais)utilizada nesse campo é um parâmetro de execução do AG, que se mostrou bastanteimportante para a convergência de nossos experimentos.

36

Page 49: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

4.1.2 Função de Avaliação ou Aptidão (FA) (Fitness Function)

A Aptidão (ou �tness) refere-se ao grau de contribuição de uma determinada soluçãocandidata para a convergência do AG, na pesquisa da melhor solução dentro do espaçode busca, avaliando a qualidade de cada regra (indivíduo). A FA aplicada foi baseada em[63]. Para o entendimento da FA aqui aplicada, alguns conceitos precisam ser elucida-dos. Quando aplicamos uma regra na classi�cação sobre os dados de uma amostra (umregistro da base de expressão gênica), quatro diferentes resultados podem ser observados,dependendo da classe predita pela regra e a da verdadeira classe da amostra. São eles:

• True Positive (tp) - A regra classi�ca a amostra em uma determinada classe e aamostra de fato pertence a essa classe;

• False Positive (fp) - A regra classi�ca a amostra em uma determinada classe, mas amesma não pertence a essa classe;

• True Negative (tn) - A regra classi�ca a amostra como não pertencente a umadeterminada classe e a amostra é de fato de outra classe;

• False Negative (fn) - A regra classi�ca a amostra como não pertencente a umadeterminada classe, mas a amostra pertence à classe em questão;

A FA utiliza dois indicadores comumente utilizados em domínios médicos, chamadosde sensibilidade (Se) e especi�cidade (Sp). Se e Sp são de�nidos abaixo:

Se =tp

(tp + fn)(4.1)

Sp =tn

(tn + fp)(4.2)

A FA utilizada é de�nida como o produto destes dois indicadores, Se e Sp, como segueabaixo:

Aptidao = Se× Sp (4.3)

37

Page 50: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

O objetivo do AG é maximizar ao mesmo tempo Se e Sp e, conseqüentemente, o valorde Aptidão, utilizando-se para isso, as equações 4.1, 4.2 e 4.3. Em cada execução, oAG trabalha com um problema de classi�cação de duas classes, isto é, quando regras deuma dada classe C estão sendo mineradas, todas as outras classes são agrupadas em umasegunda classe (not C).

4.1.3 Operadores Genéticos

Na seleção dos pais para o crossover, na maioria das execuções do AG, aplicamos o métododo torneio estocástico utilizando tour de tamanho 3 (três). Este método foi revisado naseção 3.1.3. Sobre os pais selecionados, aplicamos crossover múltiplo com dois pontosde corte, gerando dois novos �lhos com taxa de crossover de 100%. Nestes dois �lhosgerados, aplicamos o operador de mutação. Os operadores de mutação utilizados nestetrabalho variam com o tipo do gene avaliado e foram aplicados a uma taxa de mutaçãopor gene no valor de 30%.

Para o campo P do gene o novo valor é dado sorteando o incremento ou o decrementode uma unidade do valor corrente. A Figura 4.3 ilustra uma mutação aplicada ao campoP onde foi sorteado o incremento de uma unidade ao valor original. Para o campo Odo gene ocorre a troca do operador corrente: se o operador for <, troca-se por ≥, evice-versa. A Figura 4.4 demonstra como é feita a mutação no campo O trocando-se ooperador ≥ por <. A mutação do campo V do gene é feita sorteando-se um incrementoou um decremento de 0,1 no valor corrente. Na Figura 4.5 foi sorteado o decremento de0,1, que foi aplicado ao valor original deste campo. Na composição dos indivíduos queirão participar da próxima geração do AG, selecionamos os melhores pais e �lhos.

Figura 4.3: Mutação aplicada no campo P

38

Page 51: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Figura 4.4: Mutação aplicada no campo O

Figura 4.5: Mutação aplicada no campo V

4.1.4 Parâmetros Genéticos

Neste trabalho, após os ajustes que serão descritos na seção 4.2, utilizamos uma populaçãoformada por 400 indivíduos, taxa de crossover de 100%, taxa de mutação de 30% porgene e executamos o AG por 100 gerações. Embora essa taxa de mutação não seja usualem trabalhos que envolvem AGs, esse valor foi originalmente utilizado por Fidelis em[19]. Após avaliações experimentais, constatamos a importância de se usar essa taxarelativamente alta para uma boa convergência do AG.

4.1.5 Bases de Dados investigadas

A base de dados NCI60 descrita na seção 2.2 e apresentada no Apêndice A, foi obtida apartir de experimentos de microarray aplicados sobre 61 amostras de células cancerígenasresultando nos níveis de expressão de mais de 8.000 genes. Essa base foi obtida nosexperimentos descritos na referência [20]. Posteriormente, Ooi e Tan [3] aplicaram algunsprocedimentos simples de �ltragem, excluindo os genes mais ruidosos, chegando a uma

39

Page 52: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

base com a expressão de 1.000 genes. A partir dessa base, diferentes técnicas foramaplicadas para se chegar a conjuntos reduzidos de genes que fossem bons preditores dasnove classes de câncer.

Nessa dissertação, utilizamos quatro conjuntos reduzidos de genes obtidos em [3].Segundo Lin (2006) [24], a preleção gênica é necessária quando se trabalha com dadosadvindos de experimentos de microarray [24] e diversos outros trabalhos realizam algumtipo de pré-processamento antes de realizar o data mining propriamente dito [21, 12, 3,13, 22, 23, 24].

O primeiro conjunto, chamado de G1, foi minerado em [3] utilizando-se um AG e umclassi�cador de máxima verossimilhança (MLHD) [96]. O conjunto AG/MLHD determinaautomaticamente quais genes farão parte do conjunto preditor. O melhor conjunto encon-trado é formado por 13 genes preditivos. Estes genes são identi�cados pela sua posiçãodentro da base de 1000 genes que foi minerada. São eles: 11, 50, 97, 127, 194, 242, 289,348, 366, 828, 839, 863 e 881.

O segundo conjunto, chamado de G2, foi minerado utilizando ummétodo B/W (between-group/within-group) empregado em [21] onde os genes são rankeados baseados na somados quadrados das relações entre between-groups e within-groups. Esta técnica foi propostaanteriormente em [21]. Após calcular o valor desta relação para cada gene, os mesmosforam rankeados decrescentemente e selecionados os top 20 genes. São eles: 2, 17, 18, 19,28, 75, 97, 141, 224, 231, 235, 246, 280, 292, 302, 409, 499, 526, 637 e 843.

O terceiro conjunto, chamado de G3, foi minerado utilizando-se uma adaptação dométodo descrito em [79], chamada S2N/OVA (signal-to-noise/one-vs.-all), podendo assim,ser aplicado em cenários multiclasse. Na formação deste conjunto, para cada classe, umconjunto de genes positivamente correlacionados (altos valores positivos para S2N) e outro,formado por genes negativamente correlacionados (pequenos valores negativos para S2N)são formados. Para cada classe foi selecionado o gene que possui o maior valor de relaçãoS2N positivo e o gene que possui o menor valor de relação negativa para S2N, totalizando18 genes. São eles: 2, 2, 41, 63, 97, 229, 379, 456, 475, 485, 525, 531, 637, 721, 786,870, 890 e 929. Uma observação importante a ser colocada com relação ao conjunto B3

refere-se à presença em duplicidade do gene 2. Em nossos experimentos retiramos todas

40

Page 53: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

as duplicidades existentes; devido a este fato, o conjunto G3 é composto por 17 e não por18 genes. São eles: 2, 41, 63, 97, 229, 379, 456, 475, 485, 525, 531, 637, 721, 786, 870, 890e 929.

O método empregado na construção do quarto conjunto, chamado de G4, é uma va-riação do método empregado na construção do conjunto G1. Foi empregado um AG emconjunto com um classi�cador MLHD [3], utilizando uma função de aptidão simpli�cada,ignorando uma das duas taxas de erro que compõem a função de aptidão original, utili-zada na obtenção do conjunto G1. O conjunto G4 é composto por 12 genes: 11, 46, 177,289, 306, 336, 380, 499, 661, 783, 865 e 950.

O objetivo da obtenção dos conjuntos G2 e G3 em [3], gerados a partir de técnicasde ranking, foi de compará-los com os genes preditivos obtidos pela técnica AG/MLHD.Uma das conclusões do trabalho é que os conjuntos reduzidos por técnicas diferentes nãose sobreporam na maioria dos genes. Entretanto alguns genes aparecem em dois ou maisconjuntos. São eles:

• 2 (G2 e G3)

• 11 (G1 e G4)

• 97 (G1, G2 e G3)

• 289 (G1 e G4)

• 499 (G2 e G4)

• 637 (G2 e G3)

A partir da composição dos quatro grupos G1, G2, G3 e G4, excluindo-se os genesduplicados, chegou-se a um total de 55 genes distintos, cujos níveis de expressão estãorepresentados nas Tabelas 2, 3, 4, 5, 6 e 7 do apêndice B. Realizamos experimen-tos de mineração utilizando-se sub-conjuntos obtidos a partir desses 55 genes, que serãodiscutidos nas seções 5.1 e 5.2.

O objetivo dessa mineração é partir de um conjunto reduzido de genes, construídosa partir de outras técnicas de data mining, e chegar em regras de alto nível, do tipo IF-THEN que não só sejam associadas a cada classe individualmente, reduzindo o problema

41

Page 54: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

a poucos genes por classe, mas também associando o nível de expressão gênica a cadagene que compõe a regra.

4.2 Ajuste do Ambiente Evolutivo

O ajuste do ambiente foi realizado em três etapas e partiu da con�guração dos parâmetrosutilizados em [19]. Na primeira etapa foram ajustados os operadores genéticos. A segundaetapa contemplou o ajuste dos parâmetros genéticos e a terceira analisou a precisão docampo O do gene.

1a etapa: Escolha dos métodos de seleção e reinserção.A primeira etapa consistiu em avaliar os métodos de seleção de pais para o crossover

e reinserção. Dentre os métodos de seleção existentes, analisamos o métodos conhecidoscomo roleta e torneio estocástico, que foram revisados na seção 3.1.3. Os métodos dereinserção avaliados foram o elitismo e os melhores pais e �lhos (steady-state), que tambémforam revisados na seção 3.1.3.

Para essa avaliação, os valores do tamanho da população e do número de geraçõesforam �xados em Tp = 50 e Nger = 50. Avaliamos as seguintes combinações: roleta +elitismo, roleta + melhores pais e �lhos, torneio estocástico + elitismo e torneio estocástico+ melhores pais e �lhos. Como principal conclusão dessa etapa, temos que os melhoresresultados foram encontrados com a combinação torneio estocástico + melhores pais e�lhos.

2a etapa: Ajuste dos parâmetros genéticosA segunda etapa consistiu em ajustar os parâmetros genéticos do AG. Para este ajuste,

foram avaliados os valores 100, 200 e 400 para o tamanho da população (Tp); 50, 100 e200 para o número de gerações (Nger); e 2, 3 e 4 para o tamanho do tour do torneioestocástico.

Fixamos o método de seleção (torneio estocástico) e o método de reinserção (melhorespais e �lhos), ajustados na etapa anterior, e avaliamos os resultados encontrados com acombinação de três valores para Tp (100, 200 e 400), três valores para Nger (50, 100 e 200)e três valores para o tour do método torneio estocástico (2, 3 e 4). Os melhores resultados

42

Page 55: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

foram encontrados com Tp = 400, Nger = 100 e tour = 3. É importante salientar quemesmo ao aumentar o Nger para 200 gerações, não houve uma melhoria signi�cativa nosvalores encontrados que justi�casse a opção por este valor, visto que, a escolha de Nger

= 200 levaria a um aumento signi�cativo no tempo de processamento do AG. Assim,utilizamos Nger = 100;

3a etapa: Precisão do campo Operador do geneNa terceira etapa foi utilizado os valores 1, 2 e 3 para o número de casas decimais após

a vírgula para o campo O do cromossomo.Fixando o método de seleção (torneio estocástico), o método de reinserção (melhores

pais e �lhos), Tp = 400, Nger = 100 e tour = 3, �zemos experimentos utilizando 1, 2 e3 casas após a vírgula no campo O. A convergência para boas regras de classi�cação foisigni�cativamente superior utilizando apenas 1 casa após a vírgula. Após esclarecimentosjunto aos especialistas, que con�rmaram ser essa precisão ideal para a interpretação dasregras obtidas, resolvemos manter a precisão em apenas uma casa decimal.

Após todas as etapas de ajuste, chegamos a um ambiente cuja especi�cação foi utili-zada em todos os experimentos descritos nas próximas seções.

• Método de seleção: torneio estocástico

• Método de reinserção: melhores pais e �lhos

• Tp = 400

• Nger = 100

• tour = 3

• Número de casas após a vírgula: 1

43

Page 56: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Capítulo 5

Resultados

Neste capítulo, serão apresentados os resultados dos principais experimentos conduzidosna mineração de bases de dados extraídas a partir da base NCI60 [20].

Inicialmente, o ambiente evolutivo construído para a mineração das regras foi aplicadosobre quatro bases de dados criadas a partir dos quatro conjuntos de genes obtidos emOoi e Tan [3], citados na seção 4.1.5, chamadas nesta dissertação de B1, B2, B3 e B4. Osresultados obtidos em casa base individual foram analisados e comparados. A seção 5.1apresenta estes resultados.

Numa segunda etapa, na tentativa de obter resultados ainda melhores que os obtidosnas bases individuais, novas bases foram criadas a partir das composição (2 a 2, 3 a 3 ecompleta) das bases B1, B2, B3 e B4. Os principais resultados obtidos nesta etapa sãodiscutidos na seção 5.2.

Finalmente, a seção 5.3 faz uma análise mais detalhada dos melhores resultados obtidosnas duas etapas de experimentos. Dessa análise, dois conjuntos de regras denominadosK1 e K2 foram extraídos dentre as melhores regras. Análises comparativas entre essesconjuntos e os principais classi�cadores encontrados na literatura para a base NCI60 sãoapresentados onde é possível constatar que os resultados obtidos nessa dissertação sãobastante competitivos com os publicados por outros autores.

44

Page 57: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

5.1 Experimentos com a mineração das bases reduzidasindividuais

Quatro bases de dados reduzidas foram criadas a partir da base de 1.000 genes disponibi-lizada por Ooi e Tan [3]. Os genes utilizados nessas 4 bases correspondem aos conjuntosreduzidos também em [3], que chamamos de G1, G2, G3 e G4, resultando nas bases B1,B2, B3 e B4.

Inicialmente, o AG foi aplicado em cada uma dessas quatro bases individualmente.Conforme mencionado na seção 2.2, a base NCI60 é composta por 61 amostras catego-rizadas em 9 classes de câncer. Portanto, o objetivo da mineração é obter regras declassi�cação para essas nove classes. A avaliação da qualidade das regras mineradas foifeita inicialmente por classe.

Na avaliação por classe, cada base composta por 61 amostras foi dividida em 3 par-tições de tamanhos semelhantes, guardando sempre a proporcionalidade entre o númerode amostras de cada classe. Duas partições foram utilizadas em treinamento e a terceirapartição, chamada de teste, foi utilizada para a avaliação do nível de generalização dasregras obtidas em treinamento. Isto é, as regras que foram evoluídas pelo AG, usando ajunção das partições 1 e 2, posteriormente foram testadas na partição 3 (12->3). O mesmoprocedimento foi realizado para as demais combinações: partições 1 e 3 em treinamentoe a partição 2 em teste (13->2) e as partições 2 e 3 em treinamento e a partição 1 emteste (23->1). Cada um desses experimentos (12->3, 13->2 e 23->1) foi composto por50 execuções para cada uma das nove classes possíveis do atributo objetivo. A avaliaçãode cada regra obtida é dada pela AptidaoTrein e AptidaoTeste (equações 4.1, 4.2 e 4.3).Como cada base é formada por 61 amostras, buscou-se manter a proporcionalidade entreas classes em cada partição. Assim, cada partição possui aproximadamente 20 amostrasda base.

A Tabela 5.1 apresenta os resultados de AptidaoTrein e AptidaoTeste das melhores regrasobtidas para a base B1, a partir de 50 execuções do AG, para cada uma das 9 classes epara cada experimento de teste (12->3, 13->2 e 23->1).

Para estabelecermos um conjunto de regras de classi�cação, as melhores regras encon-

45

Page 58: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 5.1: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 0,8 0 0,812 0 0,971 0,3172 1 1 1 1 1 13 1 0,5 1 1 1 14 1 1 1 0,938 1 0,55 1 1 1 1 1 16 1 0 1 0,667 1 0,3337 1 0 1 0,5 1 0,4768 1 0,667 1 1 1 0,959 1 0,895 1 0 1 0,857

tradas nos experimentos da base B1, independentemente do experimento de teste utilizado(12->3, 13->2 ou 23->1), foram agrupadas e são apresentadas na Tabela 5.2. Os valoresde AptidaoTrein e AptidaoTeste dessas regras também são apresentados nesta tabela.

Tabela 5.2: Melhores regras encontradas na base de dados B1

Classe Regra AptidaoTrein AptidaoTeste

1 if(127<0,6) and (289<0,1) and (348<-0,2) and (366≥-0,1) and (839<0,9) 0,971 0,3172 if(11≥0,4) and (289<-0,5) 1 13 if(50<-2,3) and (194<-1,1) and (289≥-0,3) 1 1

if(50<-2,3) and (194<-1,1) and (839≥-0,8)4 if(11<-2,3) and (50≥-2,1) and (366<-0,1) 1 1

if(50≥-2,1) and (127<-0,7) and (366<-0,1)if(50≥-2,1) and (194<-0,7) and (366<-0,1)if(50≥-2,1) and (348<0,2) and (366<-0,1)if(50≥-2,2) and (366<-0,1) and (881<-0,2)

5 if(11≥-1,5) and (97<0,1) and (348<-1,5) 1 16 if(97≥-1,4) and (242<0,3) and (828<0,1) and (839≥-0,5) and (863≥-0,3) 1 0,6677 if(97<1,4) and (194≥0,2) and (839<-0,2) 1 0,5

if(194≥0,2) and (242≥-0,1) and (839<-0,2)8 if(97≥0,7) and (127≥0,3) and (863<0,7) 1 1

if(97≥0,7) and (348<-0,8) and (863<0,7)if(97≥0,7) and (863<0,8) and (881≥-0,3)

9 if(50<-2,1) and (289<-0,3) and (839≥-1,3) 1 0,895

Para a base B1, foram encontrados ótimos resultados (100% em treinamento e emteste) para 5 das 9 classes existentes (2, 3, 4, 5 e 8). Resultados razoáveis foram encon-trados para a classe 9 (100% em treinamento e 89,5% em teste). Resultados inferiores

46

Page 59: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

foram encontrados para as demais classes. O melhor resultado para a classe 1 foi 97,1%em treinamento e 31,7% em teste e para as classes 6 e 7 foram encontrados 100% emtreinamento e 66,7% e 50% em teste, respectivamente. Assim, obtivemos bons resultadosem 6 das 9 classes mineradas. Para algumas dessas classes (3, 4, 7 e 8), mais de umaregra foi obtida com o maior valor de aptidão.

O mesmo procedimento foi realizado utilizando-se as bases B2, B3 e B4. As tabelasdetalhadas por partição para estas bases são apresentados no apêndice D. As Tabelas 5.3,5.4 e 5.5 apresentam as melhores regras obtidas (considerando-se os 3 experimentos deteste) e os valores de aptidão associados a elas. Em relação à base B2, foram encontradosótimos resultados (100% em treinamento e em teste) para 3 das 9 classes existentes (4, 5e 8) e bons resultados para outras 4 classes (2, 3, 7 e 9). Para as demais classes, 1 e 6,não foram encontrados resultados satisfatórios. Assim, obtivemos bons resultados em 7das 9 classes mineradas.

Em relação à base B3, foram encontrados ótimos resultados (100% em treinamento eem teste) para 4 das 9 classes existentes (2, 4, 5 e 9) e bons resultados para as classes3 e 8. Para as demais classes (1, 6 e 7) não foram encontrados resultados satisfatórios.Assim, obtivemos bons resultados em 6 das 9 classes mineradas.

Para a base B4, foram encontrados ótimos resultados (100% em treinamento e emteste) para 3 das 9 classes existentes (2, 3 e 5) e bons resultados para as classes 4, 8 e9. Para as demais classes (1, 6 e 7), foram encontrados resultados insatisfatórios. Assim,obtivemos bons resultados em 6 das 9 classes mineradas.

Assim, independentemente da base utilizada na mineração, foi possível encontrar re-gras perfeitas (100% em treinamento e em teste) ou e�cazes (acima de 90% de média entreAptidaoTrein e AptidaoTeste) em 6 das 9 classes analisadas: 2, 3, 4, 5, 8 e 9. Com relaçãoà classe 7, apenas o experimento com a base B2 foi capaz de encontrar uma regra e�caz.Para as classes 1 e 6, nenhum experimento conseguiu evoluir regras com e�cácia razoável.

Uma análise conjunta desses experimentos com as bases individuais foi feita agrupando-se as melhores regras obtidas para cada classe, independentemente da base utilizada. ATabela 5.6 apresenta essas regras assim como a AptidaoTrein e AptidaoTeste, representandoassim a qualidade de cada regra separadamente. Com exceção da classe 9, em todas as

47

Page 60: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 5.3: Melhores regras encontradas na base de dados B2

Classe Regras AptidaoTrein AptidaoTeste

1 if(28<1,4) and (97<0,8) and (409≥-0,4) and (499<0,2) and (526≥-0,1) 0,944 0,4722 if(17≥-0,4) and (97≥0,1) and (637<0,5) 1 0,952

if(235<1) and (246≥0,8) and (302≥0,1)3 if(75≥-0,7) and (246<-0,4) 1 0,8754 if(19<-0,4) and (526<-0,9) 1 1

if(19<-0,4) and (843<-1)if(224<-2,2) and (843<-1)if(409≥-1,8) and (843<-1)

5 if(2<-2,4) and (18<0,2) and (28≥-0,3) and (97<0,1) 1 1if(2<-2,4) and (18<0,1) and (97<0,1) and (224≥-0,6)if(2<-1,5) and (18<0,8) and (97<0,2) and (246≥-0,7)if(2<-1,8) and (18≥-2,6) and (97<0,2) and(292<0,8)if(2<-2,5) and (28≥-0,3) and (97<0,1) and (292<0,5)if(2<-2,4) and (28≥-0,3) and (97<0,1) and (302<0,1)if(2<-2,4) and (97<0,1) and (224≥-0,6) and (292<0,5)if(2<-2,4) and (97<0,1) and (224≥-0,6) and (302<0,1)if(2<-2,5) and (97<0,1) and (246≥-0,7) and (292<0,5)if(2<-1,5) and (97<0,1) and (246≥-0,7) and (302<0,1)if(2<-2,4) and (97<0,2) and (292<0,5) and (409≥-0,9)if(2<-2,4) and (97<0,1) and (302<0,1) and (409≥-1)if(18<0,4) and (19<-1,5) and (28≥-0,7) and (97<0,1)if(18<0,5) and (19<-1,8) and (97<0,1) and (224≥-0,8)if(18<0,5) and (19<-1,8) and (97<0,1) and (246≥-0,6)if(18<0,5) and (19<-2,4) and (97<0,1) and (409≥-1,2)if(19<-2,6) and (28≥-0,4) and (97<0,1) and (292<0,6)if(19<-2,6) and (28≥-0,3) and (97<0,1) and (302<0,1)if(19<-2,4) and (28≥-0,4) and (97<0,1) and (637≥-0,3)if(19<-2,5) and (97<0,1) and (224≥-0,6) and 292<0,5)if(19<-2,5) and (97<0,1) and (224≥-0,6) and (302<0,1)if(19<-2,5) and (97<0,1) and (224≥-0,6) and (637≥-0,5)if(19<-2,6) and (97<0,1) and (246≥-0,7) and (292<0,5)if(19<-2,6) and (97<0,1) and (246≥-0,5) and (302<0,1)if(19<-2,6) and (97<0,2) and (246≥-0,7) and (637≥-0,7)if(19<-2,4) and (97<0,1) and (302<0,1) and (409≥-0,9)if19<-2,4) and (97<0,1) and (409≥-1,2) and (637≥-0,9)

6 if(17<1,8) and (28<1,1) and (235≥-0,2) and (409<2,3) and (637≥0,4) 1 0,4317 if(2≥-2,1) and (97<1,4) and (224≥-0,2) 0,971 18 if(18<1,5) and (97≥0,7) and (280≥0,1) and (409≥0,4) 1 1

if(97≥0,7) and (246<1) and (280≥0,1) and (409≥0,4)9 if(19≥-0,2) and (231<-1,4) 1 0,952

if(19≥-0,3) and (499<-1,1)if(224≥-2,2) and (231<-1)

48

Page 61: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 5.4: Melhores regras encontradas na base de dados B3

Classe Regras AptidaoTrein AptidaoTeste

1 if(531≥0,2) and (*70≥0) an d(929<0,2) 1 0,32 if(229≥1,1) and (456≥-0,9) 1 13 if(2≥-0,4) and (379≥0,10 and ( 475<0,1) and (485<0,1) 1 0,938

if(2≥-0,4) and (379≥0) and (475<0,1) and (929≥-1,2)if(63≥-0,3) and (97<0) and (379≥0,1) and (475≥-2,8)if(63≥-0,2) and (97<-0,2) and (379≥0,1) and (485<0)if(63≥-0,3) and (475<0,2) and 485<0,2) and (637<0,7)

4 if(63<-0,3) and 485≥0,7) 1 1if(229≥-1,6) and (485≥0,7)if(456<1,2) and (485≥0,7)if(485≥0,7) and (525≥-1,1)if(485≥0,7) and (929≥-0,3)

5 if(41≥-2,1) and (97<0,1) and (721≥1) 1 1if(97<0,1) and (379<0,1) and (721≥1)if(97<0,1) and (475≥-0,5) and (721≥1)

6 if(2<-1,3) and (379≥0,2) and (456≥-1,2) and (637≥0,4) 1 0,6677 if(63≥0,9) and (97≥-1) 1 0,472

if(63≥0,9) and (379<0,7)if(63≥0,9) and (475≥-0,2)if(63≥0,9) and (890<-0,6)

8 if(63<-0,4) and (97≥0,7) and (870<0,4) 1 0,8759 if(2≥-0,5) and (485≥-1,5) and (786<-0,6) 1 1

classes para as quais foi possível encontrar regras perfeitas (100% em treinamento e teste),também foi possível encontrar mais de uma regra.

Uma outra forma de análise foi feita sobre este conjunto de regras, na qual foi elaboradoum classi�cador composto de uma regra de cada classe, para posteriormente, veri�car-mos sua taxa de acertos na base completa (61 amostras). Para realizar esta análise, foinecessário selecionar apenas uma regra de cada classe, sendo que o critério adotado paraa seleção destas regras foi pegar a primeira ocorrência para cada classe. De posse das 9regras, aplicamos estas regras no conjunto de dados compreendido por 1000 genes e 61amostras da base NCI60 [20]. O conjunto de regras do classi�cador avaliado é apresentadona Tabela 5.7.

Denominamos esse procedimento de análise AECD (Acerto | Erro Grave | Confusão| Desconhecimento). Este método consiste em analisar um registro da base de cada vez,

49

Page 62: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 5.5: Melhores regras encontradas na base de dados B4

Classe Regras AptidaoTrein AptidaoTeste

1 if(46<1,8) and (289<0,5) and (306<0,3) and (783<0,1) and (865≥-1,2) 0,917 0,4442 if(11≥0,4) and (289<-0,5) 1 13 if(46<-0,7) and (289≥-0,5) and (306≥-0,6) and (336<-0,3) 1 14 if(11<-2,7) and (289≥-0,9) and (865≥0,1) 1 0,952

if(11<-2,8) and 856≥0,1) and (950≥0)if(289≥-0,9) and (499<-0,8) and (865≥0,1)if(499<-0,8) and (865≥0,1) and (950≥0)

5 if(11≥-1,5) and (289≥-1,3) and (380<-0,7) 1 1if(177≥-1,4) and (289≥-1,3) and (380<-0,7)if(289≥-1,3) and (306<-1) and (380<-0,7)if(289≥-1,3) and (336≥-0,7) and (380<-0,7)if(289≥-1,5) and (380<-0,7) and (661≥-1,2)if(289≥-1,3) and (380<-0,7) and (865≥-0,9)if(289≥-1,3) and (380<-0,7) and (950≥0)

6 if(306≥-0,9) and (380<0,2) and (661≥-0,4) 1 0,3147 if(46≥-0,7) and (306≥-0,5) and (499<0,3) 1 0,58 if(46≥0,8) and (865<-0,4) 1 0,9389 if(11≥-3,6) and (177<-2) 0,974 1

if(177<-2,2) and (783≥-0,5)

correspondente a uma amostra de célula, e este registro pode ser interpretado como acerto,erro grave, confusão ou um desconhecimento, dependendo do resultado de classi�cação.Um acerto ocorre quando somente a regra que possui a mesma classe do registro é dispa-rada. Por exemplo, se o registro avaliado é da classe 1 somente a regra da classe 1 disparana classi�cação deste registro. Um erro grave ocorre quando a regra correspondente à suaclasse não é disparada na classi�cação do registro e uma outra regra de classe diferenteé disparada. Por exemplo, o registro é da classe 1 e na classi�cação a regra da classe 1não dispara enquanto que a regra da classe 2 dispara. Uma confusão acontece quandoo registro é classi�cado pela regra da sua classe e por uma outra regra de outra classe.Por exemplo, o registro é da classe 1 e as regras da classe 1 e da classe 2 disparam. Umdesconhecimento ocorre quando nenhuma regra é disparada na classi�cação do registro,nem da mesma classe e nem de outras classes.

O resultado da análise AECD utilizando as regras da Tabela 5.7 como um classi�cadorda base NCI60 retornou um percentual de acerto de de 90,16% nos 61 registros da base,

50

Page 63: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 5.6: Melhores regras encontradas para o conjunto de bases B1, B2, B3 e B4

Classes Regras AptidaoTrein AptidaoTeste

1 if(28<1,4) and (97<0,8) and (409≥-0,4) and (499<0,2) and (526≥-0,1) 0,944 0,4722 if(11≥0,4) and (289<-0,5) 1 1

if(229≥1,1) and (456≥-0,9)3 if(50<-2,3) and (194<-1,1) and (289≥-0,3) 1 1

if(50<-2,3) and (194<-1,1) and (839≥-0,8)4 if(19<-0,4) and (526<-0,9) 1 1

if(19<-0,4) and (843<-1)if(63<-0,3) and (485≥0,7)if(224<-2,2) and (843<-1)if(229≥-1,6) and (485≥0,7)if(409≥-1,8) and (843<-1)if(456<1,2) and (485≥0,7)if(485≥0,7) and (525≥-1,1)if(485≥0,7) and (929≥-0,3)

5 if(11≥-1,5) and (97<0,1) and (348<-1,5) 1 1if(11≥-1,5) and (289≥-1,3) and 380<-0,7)if(41≥-2,1) and (97<0,1) and (721≥1)if(97<0,1) and (379<0,1) and (721≥1)if(97<0,1) and (475≥-0,5) and (721≥1)if(177≥-1,4) and (289≥-1,3) and (380<0,7)if(289≥-1,3) and (306<-1) and (380<-0,7)if(289≥-1,3) and (336≥-0,7) and (380<-0,7)if(289≥-1,5) and (380<-0,7) and (661≥-1,2)if(289≥-1,3) and (380<-0,7) and (865≥-0,9)if(289≥-1,3) and 380<-0,7) and (950≥0)

6 if(2<-1,3) and (379≥0,2) and (456≥-1,2) and (637≥0,4) 1 0,6677 if(2≥-2,1) and (97<1,4) and (224≥-0,2) 0,971 18 if(97≥0,7) and (127≥0,3) and (863<0,7) 1 1

if(97≥0,7) and (348<-0,8) and (863<0,7)if(97≥0,7) and (863<0,8) and (881≥-0,3)

9 if(2≥-0,5) and (485≥-1,5) and (786<-0,6) 1 1

sendo 55 acertos, nenhum erro grave, 4 confusões e 2 desconhecimentos.Os resultados obtidos nas análises efetuadas nas bases individuais geraram dois artigos

que foram submetidos e aprovados em dois congressos, SBAI 2007 (Simpósio Brasileirode Automação Inteligente) e BIBE 2007 (IEEE 7th International Symposium on Bioin-formatics and Bioengeneering), sendo que no primeiro o artigo foi aceito completo e nosegundo como resumo expandido. O artigo completo [97] é apresentado no apêndice F.

51

Page 64: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 5.7: Conjunto de regras do classi�cadorClasses Regras AptidaoTrein AptidaoTeste

1 if(28<1,4) and (97<0,8) and (409≥-0,4) and (499<0,2) and (526≥-0,1) 0,944 0,4722 if(11≥0,4) and (289<-0,5) 1 13 if(50<-2,3) and (194<-1,1) and (289≥-0,3) 1 14 if(19<-0,4) and (526<-0,9) 1 15 if(11≥-1,5) and (97<0,1) and (348<-1,5) 1 16 if(2<-1,3) and (379≥0,2) and (456≥-1,2) and (637≥0,4) 1 0,6677 if(2≥-2,1) and (97<1,4) and (224≥-0,2) 0,971 18 if(97≥0,7) and (127≥0,3) and (863<0,7) 1 19 if(2≥-0,5) and (485≥-1,5) and (786<-0,6) 1 1

5.2 Experimentos com a mineração das bases compos-tas

Conforme apresentado na seção anterior (5.1), a mineração de regras realizada pelo AGsobre as bases individuais retornou resultados bons para 7 das 9 classes envolvidas na baseNCI60. Entretanto, para as classes 1 e 6 o resultado foi insatisfatório. Cabe ressaltar queessa mesma di�culdade nas classes 1 e 6 da base NCI60 foi observada por Dudoit e cola-boradores em [21]. Assim, partimos para uma nova etapa de experimentos, na qual basescom um número maior de genes foram utilizadas durante a fase de treinamento realizadapelo AG. Esperávamos ser possível melhorar os resultados para essas duas classes, semdecair a e�cácia das outras sete. Assim, foram realizadas diferentes composições das qua-tro bases B1 (13 genes), B2 (20 genes), B3 (17 genes) e B4 (12 genes), associadas 2 a 2, 3a 3 e 4 a 4, excluindo-se os genes repetidos, gerando outras 11 bases. São elas: B1B2 (32genes), B1B3 (29 genes), B1B4 (23 genes), B2B3 (34 genes), B2B4 (31 genes), B3B4 (29genes), B1B2B3 (46 genes), B1B2B4 (41 genes), B1B3B4 (39 genes), B2B3B4 (45 genes) eB1B2B3B4 (55 genes). Nos experimentos envolvendo as 11 bases compostas, foi utilizadoo mesmo procedimento empregado no caso das bases individuais: a base completa foidividida em 3 partições contendo aproximadamente 1/3 das amostras. Depois o AG foievoluído em três experimentos diferentes: 12->3, 13->2 e 23->1. Os resultados completosdesses experimentos são apresentados por partição no apêndice D. As melhores regras ob-tidas em cada experimento são apresentadas no apêndice E. Na Tabela 5.8, apresentamos

52

Page 65: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

os valores de aptidão de treinamento e de teste para as melhores regras evoluídas emcada experimento, independentemente do experimento de teste (partições) em que forammineradas. Na tabela também reproduzimos os valores das melhores aptidões obtidas nasbases individuais B1, B2, B3 e B4, para facilitar a comparação com os novos experimentos.

Tabela 5.8: Resultados encontrados para as bases de dados individuais e para todas as composiçõesBases B1 B2 B3 B4

Classes AptT rein AptT este AptT rein AptT este AptT rein AptT este AptT rein AptT este

1 0,971 0,317 0,944 0,472 1 0,3 0,917 0,4442 1 1 1 0,952 1 1 1 13 1 1 1 0,875 1 0,938 1 14 1 1 1 1 1 1 1 0,9525 1 1 1 1 1 1 1 16 1 0,667 1 0,431 1 0,667 1 0,3147 1 0,5 0,971 1 1 0,472 1 0,58 1 1 1 1 1 0,875 1 0,9389 1 0,895 1 0,952 1 1 0,974 1

Bases B1B2 B1B3 B1B4 B2B3

Classes AptT rein AptT este AptT rein AptT este AptT rein AptT este AptT rein AptT este

1 1 0,333 1 0,533 1 0,317 0,947 0,3752 1 1 1 1 1 1 1 13 1 0,633 1 0,938 1 1 1 0,8754 1 1 1 1 1 0,5 1 15 1 1 1 1 1 1 1 16 1 0,667 1 0,627 1 0,333 0,973 0,9337 1 0,5 1 0,952 1 0,938 1 0,9448 1 1 1 1 1 0,95 1 0,959 1 0,952 1 0,952 1 1 1 1

Bases B2B4 B3B4 B1B2B3 B1B2B4

Classes AptT rein AptT este AptT rein AptT este AptT rein AptT este AptT rein AptT este

1 1 0,283 1 0,3 1 0,3 0,972 0,3892 1 1 1 1 1 1 1 13 1 0,875 1 1 1 0,938 1 0,8754 1 1 1 1 1 1 1 15 1 1 1 1 1 1 1 16 1 0,333 1 0,633 1 0,622 1 0,5337 1 0,944 1 0,944 1 0,952 1 0,9388 1 0,875 1 0,938 1 1 1 0,9389 1 1 1 0,952 1 0,952 1 0,952

Bases B1B3B4 B2B3B4 B1B2B3B4

Classes AptT rein AptT este AptT rein AptT este AptT rein AptT este

1 1 0,3 0,972 0,444 0,972 0,52 1 1 1 1 1 13 1 0,938 1 0,875 1 0,9384 1 1 1 1 1 15 1 1 1 1 1 16 1 0,333 1 0,588 1 0,5497 1 0,952 1 0,938 1 0,9528 1 0,938 1 0,938 1 0,6679 1 0,952 1 1 1 1

53

Page 66: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

A Tabela 5.9 apresenta os resultados obtidos para cada classe analisada, em todosos experimentos. Foi considerado um resultado satisfatório se foi encontrada uma regraperfeita (100% em treinamento e teste) ou uma regra com pelo menos 90% de treinamentoe 85% de teste. O valor encontrado entre parênteses, refere-se ao número de genes presentenas bases de dados. O melhor resultado foi obtido na mineração da base composta B2B3,na qual foi obtido um resultado insatisfatório apenas para a classe 1. Em seguida, podemosdestacar os resultados das bases B2, B1B3, B2B4, B3B4, B1B2B3, B1B2B4, B1B3B4 eB2B3B4; que retornaram resultados insatisfatórios apenas para as classes 1 e 6. Quandocomparamos os resultados obtidos pelas bases individuais e os resultados obtidos pelascomposições de bases, percebemos que apenas a base B2B3 conseguiu superar os resultadosencontrados para as bases individuais, que retornaram resultados insatisfatórios em duasou três classes. Um outro ponto a ser destacado, refere-se aos resultados obtidos pelacomposição das quatro bases (B1B2B3B4) que retornou resultados inferiores aos obtidospelas bases individuais. Exceto no experimento com essa base "completa", o nosso AGse manteve robusto, não decaindo o desempenho com o aumento de genes nas bases e atésuperando os resultados obtidos nas bases individuais em algumas das bases analisadas.

Tabela 5.9: Classes que obtiveram ótimos/bons e ruins resultados para todas as basesBases Classes com resultados satisfatórios Classes com resultados insatisfatóriosB1 (13) 2, 3, 4, 5 e 9 1, 6 e 7B2 (20) 2, 3, 4, 5, 7, 8 e 9 1 e 6B3 (17) 2, 3, 4, 5, 8 e 9 1, 6 e 7B4 (12) 2, 3, 4, 5, 8 e 9 1, 6 e 7

B1B2 (32) 2, 4, 5 e 8 e 9 1, 3, 6 e 7B1B3 (29) 2, 3, 4, 5, 7, 8 e 9 1 e 6B1B4 (23) 2, 3, 5, 7, 8 e 9 1, 4 e 6B2B3 (34) 2, 3, 4, 5, 6, 7, 8 e 9 1B2B4 (31) 2, 3, 4, 5, 7, 8 e 9 1 e 6B3B4 (29) 2, 3, 4, 5, 7, 8 e 9 1 e 6

B1B2B3 (46) 2, 3, 4, 5, 7, 8 e 9 1 e 6B1B2B4 (41) 2, 3, 4, 5, 7, 8 e 9 1 e 6B1B3B4 (39) 2, 3, 4, 5, 7, 8 e 9 1 e 6B2B3B4 (45) 2, 3, 4, 5, 7, 8 e 9 1 e 6

B1B2B3B4 (55) 2, 3, 4, 5, 7 e 9 1, 6 e 8

Por outro lado, essa base contempla todos os 55 genes utilizados nos outros 14 ex-

54

Page 67: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

perimentos. Portanto, potencialmente, a base B1B2B3B4 contém todas as informaçõesutilizadas nos outros experimentos. Assim, o AG não foi capaz de convergir para regrase�cazes. Esse fato pode sinalizar que o ajuste realizado para nosso AG começou a de-cair o desempenho com o aumento do número de genes manipulados. Outro fato quecorrobora essa observação é que algumas bases compostas por duas individuais (B1B3 eB2B3) retornaram melhores resultados do que as bases compostas por três individuais.Assim, observamos que a convergência do AG para regras e�cazes começa a decair quandoanalisamos conjuntos maiores que aproximadamente 40 genes.

A análise AECD também foi aplicada às regras mineradas a partir de cada composiçãode base. A Tabela 5.10 ilustra os resultados encontrados para todas as combinações dasbases individuais B1, B2, B3 e B4. O melhor resultado foi encontrado para as regrasmineradas a partir da base B1B2 atingindo 90,16% de acertos, ou seja, o mesmo resultadoalcançado pelo conjunto de regras das melhores regras obtidas nas bases individuais,apresentado na Tabela 5.7. O segundo melhor resultado foi obtido pelas regras mineradasa partir da base B1B4 e a partir da base B1B2B3, atingindo 86,89% de acertos.

Tabela 5.10: Análise AECD para todas as combinações de basesBase Acerto Erro Grave Confusão Desconhecimento Taxa de AcertoB1B2 55 1 1 4 90,16%B1B3 52 1 7 1 85,25%B1B4 53 0 3 5 86,89%B2B3 49 0 11 1 80,33%B2B4 50 0 7 4 81,97%B3B4 52 0 6 3 85,25%

B1B2B3 53 1 5 3 86,89%B1B2B4 49 1 10 1 80,33%B1B3B4 52 1 5 3 85,25%B2B3B4 50 0 9 2 81,97%

B1B2B3B4 47 1 10 3 77,05%

55

Page 68: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

5.3 Análise das melhores regras e dos melhores conjun-tos

A Tabela 5.11 ilustra as melhores regras, e seus respectivos valores de aptidão, obtidasem todo o conjunto de bases, independentemente das bases utilizadas na mineração e dapartição utilizada como teste. Foi possível encontrar regras perfeitas (100% em treina-mento e em teste) ou e�cazes (acima de 90% de média entre AptidaoTrein e AptidaoTeste)em oito das nove classes analisadas: 2, 3, 4, 5, 6, 7, 8 e 9. Apenas a aptidão da melhorregra encontrada para a classe 1 foi abaixo do desejado: 76,65% em média (treinamentoe teste). Quando comparamos este resultado com o encontrado para as bases individuais,constatamos uma melhoria signi�cativa para a classe 6 e uma melhoria pouco signifcativapara a classe 1. Na classe 6, o melhor resultado encontrado, utilizando-se apenas umabase individual, foi igual a 83,35% de aptidão em média, resultado este, minerado na baseB1. Com a composição de bases, conseguimos elevar este valor para 95,3%, valor esteencontrado na base B2B3. Para a classe 1, a melhoria foi menos signi�cativa: o melhorresultado em base individual foi igual a 70,8% de média, minerada na base B2, e na basecomposta, foi igual a 76,65% em média (B1B3). Assim, com a composição das bases in-dividuais conseguimos efetivamente melhorar os valores de aptidão somente para a classe6. Entretanto, mesmo nas outras classes onde o desempenho já havia sido satisfatóriona mineração das bases individuais, foi possível encontrar um número maior de regrasperfeitas.

Tabela 5.11: Melhores regras encontradas em todas as bases analisa-das

Classes Regras AptidaoTrein AptidaoTeste

1 if(289<0,5) and (531≥0,2) and (721≥0,1) and (870≥-0,2) 1 0,533if(289<0,5) and (839<1,9) and (531≥0,2) and (721≥0,2)if(289<0,5) and (863<1) and (531≥0,2) and (870≥0)

2 if(11≥0,4) and (289<-0,5) 1 1if(11≥0,4) and (637<0,4)if(141<1,3) and (229≥1,1)if(229≥1,1) and (177<0,9)if(229≥1,1) and (289<-0,5)if(229≥1,1) and (456≥-0,9)

56

Page 69: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

if(235<1) and (229≥1,1)if(289<-0,5) and (229≥1,1)if(637<0,4) and (11≥0,4)if(839≥0,5) and (637<0,4)

3 if(50<-2,3) and (194<-1,1) and (289≥-0,3) 1 1if(2≥-0,4) and (46<-0,7) and (289≥-0,3)if(50<-2,3) and (194<-1,1) and (839≥-0,8)if(50<-2,3) and (242<0,6) and (289≥-0,7)if(50<-2,3) and (289≥-0,4) and (306≥-0,9)

4 if(2<-0,2) and (485≥0,7) 1 1if(11<-2,8) and (485≥0,7)if(19<-0,4) and (485≥0,7)if(19<-0,4) and (526<-0,9)if(19<-0,4) and (843<-1)if(50≥-2) and (280<-0,7)if(50≥-2) and (485≥0,7)if(50≥-2) and (526<-0,8)if(50≥-2) and (843<-1)if(63<-0,3) and (485≥0,7)if(194<-0,8) and (485≥0,7)if(224<-2,2) and (380≥-0,2)if(224<-2,2) and (485≥0,7)if(224<-2,2) and (843<-1)if(224<-2,2) and (865≥0,1)if(224<-2,1) and (950≥0)if(229≥-1,6) and (485≥0,7)if(235≥-2,9) and (485≥0,7)if(235≥-3,1) and (843<-1)if(366≥-0,9) and (485≥0,7)if(366≥-0,9) and (526<-0,9)if(366≥-0,9) and (843<-1)if(409≥-1,7) and (485≥0,7)if(409≥-1,8) and (843<-1)if(456<1,2) and (485≥0,7)if(475≥-2,5) and (485≥0,5)if(485≥0,6) and (11<-2,4)if(485≥0,7) and (525≥-1,1)if(485≥0,7) and (661<-0,3)if(485≥0,7) and (783<0,4)if(485≥0,7) and (865<1,5)if(485≥0,7) and (929≥-0,3)if(526<-0,7) and (63<-0,3)if(526<-0,9) and (929≥-0,3)if(839<-0,4) and (224<-2,2)if(839<-0,5) and (485≥0,7)if(843<-1) and (63<-0,3)

57

Page 70: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

if(843<-1) and (525≥-1,1)if(843<-1) and (783<0,4)if(843<-0,9) and (929≥-0,3)if(881<-0,2) and (485≥0,6)

5 if(2<-1,9) and (289≥-1,3) and (380<-0,7) 1 1if(2<-1,8) and (17≥-0,8) and (229<-0,8)if(11≥-1,5) and (97<0,2) and (18<0,1)if(11≥-1,5) and (97<0,1) and (46<-0,4)if(11≥-1,5) and (97<0,1) and (229<-0,7)if(11≥-1,5) and (97<0,1) and (292<0,6)if(11≥-1,5) and (97<0,1) and (302<0,1)if(11≥-1,5) and (97<0,1) and (348<-1,5)if(11≥-1,6) and (97<0,1) and (379<0,1)if(11≥-1,7) and (97<0,1) and (380<-0,6)if(11≥-1,5) and (289≥-1,3) and (380<-0,7)if(17≥-0,8) and (19<-2,6) and (229<-0,8)if(17≥-0,9) and (46<-0,3) and (306<-1)if(17≥-0,9) and (46<-0,2) and (661<0,1)if(17≥-0,8) and (229<-0,8) and (306<-1)if(17≥-0,9) and (229<-0,8) and (380<-0,6)if(17≥-0,9) and (289≥-1,3) and (380<-0,7)if(18<0,1) and (41≥-2,2) and (721≥0,5)if(18<0,2) and (97<0,1) and (11≥-1,5)if(19<-2,9) and (41≥-2,2) and (721≥0,8)if(19<-2,6) and (229<-0,7) and (890≥-0,1)if(19<-0,9) and (289≥-1,3) and (380<-0,7)if(28≥-0,7) and (97<0,1) and (380<-0,7)if(28≥-0,8) and (97<0,2) and (721≥1)if(28≥-0,5) and (289≥-1,3) and (380<-0,7)if(41≥-2) and (46<-0,4) and (380<-0,7)if(41≥-2,1) and (97<0,1) and (721≥1)if(41≥-2) and (229<-0,8) and (380<-0,7)if(41≥-2,3) and (289≥-1,4) and (380<-0,7)if(41≥-2,3) and (456<-0,5) and (380<-0,5)if(41≥-2) and (721≥0,9) and (46<-0,4)if(41≥-2) and (721≥0,9) and (380<-0,7)if(41≥-2,3) and (721≥0,9) and (783<0,1)if(97<0,4) and (11≥-1,6) and (46<-0,2)if(97<0,1) and (11≥-1,7) and (380<-0,7)if(97<0,5) and (28≥-0,6) and (721≥1)if(97<0,1) and (41≥-2) and (380<-0,7)if(97<0,1) and (41≥-2,3) and (721≥1)if(97<0,1) and (721≥1) and (306<-1)if(97<0,1) and (194≥-1,4) and (380<-0,6)if(97<0,1) and (194≥-1,3) and (721≥1)if(97<0,1) and (224≥-0,6) and (380<-0,6)

58

Page 71: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

if(97<0,1) and (231≥-0,3) and (306<-0,8)if(97<0,1) and (242≥0,3) and (380<-0,7)if(97<0,1) and (246≥-0,4) and (380<-0,7)if(97<0,1) and (246≥-0,4) and (721≥1)if(97≥-0,7) and (289≥-1,3) and (380<-0,7)if(97<0,1) and (292<0,9) and (11≥-1,5)if(97<0,1) and (302<0,1) and (11≥-1,5)if(97<0,1) and (306<-1) and (380<-0,6)if(97<0,1) and (379<0,1) and (380<-0,7)if(97<0,1) and (379<0,1) and (721≥1)if(97<0,1) and (380<-0,6) and (950≥0)if(97<0,1) and (475≥-0,5) and (721≥1)if(97<0,1) and (637≥0,1) and (306<-1)if(97<0,2) and (721≥1) and (11≥-1,9)if(97<0,1) and (721≥1) and (870≥-0,5)if(97<0,1) and (870≥-0,9) and (380<-0,6)if(97<0,4) and (881≥-0,9) and (721≥1)if(97<0,1) and (890≥-0,8) and (380<-0,6)if(141≥-1,4) and (289≥-1,6) and (380<-0,7)if(177≥-1,4) and (289≥-1,3) and (380<-0,7)if(194≥-1,3) and (229<-0,8) and (380<-0,5)if(224≥-0,6) and (289≥-1,3) and (380<-0,7)if(229<-0,8) and (890≥-0,1) and (306<-1)if(229<-0,8) and (890≥-0,1) and (380<-0,6)if(242≥0,3) and (41≥-2) and (46<-0,3)if(242≥0,3) and (289≥-1,3) and (380<-0,7)if(242≥0,1) and (302<0,1) and (41≥-2)if(289≥-1,3) and (2<-1,1) and (380<-0,7)if(289≥-1,3) and (17≥-1,6) and (380<-0,7)if(289≥-1,3) and (19<-1) and (380<-0,7)if(289≥-1,5) and (380<-0,7) and (661≥-1,2)if(289≥-1,4) and (28≥-0,6) and (380<-0,6)if(289≥-1,3) and (177≥-1,4) and (380<-0,7)if(289≥-1,3) and (224≥-0,6) and (380<-0,7)if(289≥-1,3) and (246≥-0,4) and (380<-0,7)if(289≥-1,3) and (306<-1) and (380<-0,7)if(289≥-1,3) and (336≥-0,5) and (380<-0,7)if(289≥-1,3) and (366≥-0,6) and (380<-0,7)if(289≥-1,3) and (380<-0,7) and (865≥-0,9)if(289≥-1,3) and (380<-0,7) and (950≥0)if(289≥-1,4) and (637≥0,2) and (380<-0,6)if(289≥-1,4) and (721≥0,9) and (380<-0,6)if(289≥-1,4) and (828≥-0,8) and (380<-0,6)if(289≥-1,4) and (881≥-0,9) and (380<-0,6)if(289≥-1,5) and (890≥-0,2) and (380<-0,4)if(292<0,5) and (41≥-2) and (721≥1)

59

Page 72: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

if(302<0,1) and (41≥-2) and (11≥-1,8)if(302<0,1) and (41≥-2) and (380<-0,4)if(302<0,1) and (41≥-2) and (721≥1)if(348<-1,2) and (17≥-0,8) and (229<-0,7)if(348<-1,5) and (41≥-2,1) and (229<0,2)if(348<-1,5) and (41≥-2) and (721≥0,8)if(475≥-0,6) and (289≥-1,3) and (380<-0,5)if(485≥-1,9) and (289≥-1,4) and (380<-0,7)if(525≥-0,9) and (289≥-1,3) and (380<-0,7)if(526≥-0,4) and (289≥-1,3) and (380<-0,7)if(531≥-0,4) and (289≥-1,4) and (380<-0,7)if(637≥0,2) and (289≥-1,3) and (380<-0,7)if(721≥1) and (289≥-1,3) and (380<-0,7)if(870≥-0,6) and (289≥-1,4) and (380<-0,7)if(881<0,9) and (41≥-2) and (721≥1)if(890≥-0,1) and (46<-0,3) and (306<-1)if(890≥-0,1) and (289≥-1,3) and (380<-0,7)

6 if(2<1) and (17<0,4) and (637≥-0,1) and (379≥-0,1) and (456≥-1,2) 0,973 0,9337 if (2≥-2,1) and (97<1,4) and (224≥-0,2) 0,971 18 if(97≥0,7) and (348<-0,8) and (863<0,7) 1 1

if(97≥0,7) and (127≥0,3) and (863<0,7)if(97≥0,7) and (863<0,8) and (63<-0,4)if(97≥0,7) and (863<0,8) and (881≥0,1)if(127≥0,3) and (348<-0,7) and (863<0,7)

9 if(18<-3,2) and (292≥-1,4) 1 1if(18<-3,1) and (19≥-0,2)if(18<-3) and (46<-0,5)if(18<-3,2) and (637≥-1,5)

Todas as regras apresentadas anteriormente foram avaliadas segundo o valor de apti-dão que elas retornaram no experimento em que foram evoluídas, tanto em treinamentoquanto em teste. Entretanto, essa avaliação é melhor estimada pelo procedimento devalidação cruzada 2:1, que é realizado através da média das melhores regras obtidas nosexperimentos com as três partições de teste distintas.

A Tabela 5.12 apresenta os melhores resultados encontrados em cada uma das trêspartições de teste analisadas. Para cada classe, apresentamos o valor da melhor aptidão,que reproduz os valores fornecidos anteriormente para as melhores regras e a aptidãomédia nas três partições. Assim, embora todas as regras da Tabela 5.11 tenham sidoapresentadas com suas aptidões reais calculadas nos experimentos em que as mesmas

60

Page 73: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

foram evoluídas, os valores apresentados na Tabela 5.12, como aptidão média, fazem umamelhor estimativa do desempenho das mesmas. A tabela também fornece a média nasnove classes para a melhor aptidão e para a aptidão média. É importante ressaltar que, emtreinamento, os valores médios encontrados são os mesmos, tanto para a aptidão média,quanto para a melhor aptidão, mostrando que em qualquer uma das três partições osvalores de treinamento obtidos foram bem próximos. Quando avaliamos os resultadosmédios nas nove classes em teste, há uma diferença de aproximadamente de 5% entre amédia entre os melhores resultados e a aptidão média (0,9406 e 0,889, respectivamente).Isso demostra que existe uma queda na e�cácia das regras obtidas, em função da partiçãoescolhida, para algumas classes. Essa queda pode ser percebida principalmente nas classes6 e 8. Entretanto, de uma forma geral, podemos dizer que independentemente da partiçãoescolhida, o resultado médio está muito próximo ao resultado obtido na melhor partição.

Tabela 5.12: Resultado do cross validationExp. 12->3 Exp. 13->2 Exp. 23->1

Classes AptTrein/Teste AptTrein/Teste AptTrein/Teste Melhor Aptidao Aptidao Media1 0,972/0,444 0,921/0,406 1/0,533 1/0,533 0,964/0,4612 1/1 1/1 1/1 1/1 1/13 1/0,889 1/1 1/1 1/1 1/0,9634 1/1 1/1 1/1 1/1 1/15 1/1 1/1 1/1 1/1 1/16 1/0,667 0,973/0,935 1/0,633 0,973/0,935 0,991/0,7457 1/0,944 1/0,938 0,971/1 0,971/1 0,99/0,968 1/0,667 1/1 1/0,95 1/1 1/0,8729 1/1 1/1 1/1 1/1 1/1

Médias 0,9938/0,9406 0,9938/0,8990

As aptidões obtidas nas melhores regras apresentadas na Tabela 5.11, seja pela aptidãoabsoluta obtida no experimento em que as mesmas foram evoluídas, seja pela aptidãomédia nas três partições, nos fornecem avaliações da e�cácia dessas regras em relação acada classe analisada.

Entretanto, para que pudéssemos ter uma avaliação geral do conjunto de regras comoum todo, na classi�cação de todas as amostras da base NCI60, realizamos novamente aanálise AECD, onde um conjunto de 9 regras (uma para cada classe) é empregado como

61

Page 74: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

um classi�cador caixa-preta na avaliação das 61 amostras. Essa avaliação é importante,sobretudo, para compararmos os resultados de classi�cação das regras com outros clas-si�cadores disponíveis na literatura, que não realizam uma avaliação por classe. Esseconjunto foi obtido selecionando a primeira regra de cada classe da Tabela 5.11, mas ou-tros conjuntos/classi�cadores poderiam ser elaborados com as demais regras. Aplicandoa análise AECD neste conjunto, foi obtido 86,88% de classi�cações corretas, sendo 53acertos, nenhum erro grave, 7 confusões e um desconhecimento.

Resultados melhores que os 86,88%, citados anteriormente, já haviam sido obtidosutilizando-se o conjunto classi�cador mostrado na Tabela 5.7, elaborado a partir das regrasobtidas nos experimentos com bases individuais e também pelo classi�cador construído apartir das regras mineradas da base B1B2, cujo resultado foi apresentado na Tabela 5.10.Nos dois casos, a análise AECD retornou uma taxa de 90,16% de classi�cações corretas.

Esse resultado, a princípio, nos pareceu inconsistente. Como seria possível obter umvalor mais baixo na análise AECD com o conjunto das melhores regras, se na seleçãodessas regras, todas as outras são consideradas? Após uma análise, registro a registro,dos erros de classi�cação, foi possível esclarecer a situação, conforme a explicação a seguir.

A métrica que utilizamos na avaliação das regras por classe, relaciona-se à sensibilidadee especi�cidade das regras evoluídas, e não simplesmente ao número de acertos da regra,que é a medida efetivamente utilizada na avaliação AECD. Assim, na análise simples deacertos, um erro de classi�cação por falso positivo ou por falso negativo não faz diferença.Por outro lado, na avaliação efetuada pelas equações 4.1 e 4.2, um falso negativo temum peso muito maior no valor de aptidão do que um falso positivo, pois o denominadorda sensibilidade, que contém o número de amostras da classe em questão, é tipicamentemenor que o denominador da especi�cidade, que contém o número de amostras de todasas outras classes.

Dessa forma, não necessariamente o mesmo conjunto que retorna os maiores valoresde aptidão, segundo a equação 4.3, retornarão o maior valor na análise de AECD. Poroutro lado, nos outros trabalhos que �zeram a mineração da base NCI60, a análise é feitapuramente em cima do número de acertos. Assim, realizamos novamente uma busca,considerando-se todas as melhores regras evoluídas em cada execução do AG (para todas

62

Page 75: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

as bases e todas as partições de teste) e selecionamos um segundo conjunto de regras, queretornou a melhor análise AECD. Chamamos esse conjunto de K2 e o conjunto anterior,formado pelas melhores regras segundo a aptidão, de K1. As Tabelas 5.13 e 5.14 apre-sentam os dois conjuntos, com suas respectivas avaliações de aptidão, além dos erros declassi�cação por classe. As tabelas também apresentam os valores totais de erros paratreinamento e teste.

Tabela 5.13: Conjunto K1: regras com os maiores valores de aptidão segundo a equação 4.3Classes Regras AptTrein AptTeste ErrosTrein ErrosTeste

1 if(289< 0,5) and (531≥0,2) and 1 0,533 0 5(721≥0,1) and (870≥-0,2)

2 if(11≥0,4) and (289<-0,5) 1 1 0 03 if (49<-2,3) and (193<-1,1) and (289≥-0,3) 1 1 0 04 if (2<-0,2) and (485≥0,7) 1 1 0 05 if (2<-1,8) and (289≥-1,3) and (380<-0,7) 1 1 0 06 if (2<1) and (17<0,4) and (637≥-0,1) and 0,973 0,933 1 1

(379≥-0,1) and (456≥-1,2)7 if (97≥0,7) and (348<1,4) and (224≥-0,2) 0,971 1 1 08 if (97≥0,7) and (348<-0,8) and (863<0,7) 1 1 0 09 if (18<-3,2) and (291≥-1,4) 1 1 0 0

Total 2 6

Tabela 5.14: Conjunto K2: regras com o maior número de acertos na análise AECDClasses Regras AptTrein AptTeste ErrosTrein ErrosTeste

1 if(28<0,8) and (75≥0,2) and (280≥-0,3) and 1 0,333 0 2(498<0,1) and (843≥0)

2 if(11≥0,4) and (289<-0,5) 1 1 0 03 if (49<-2,3) and (193<-1,1) and (289≥-0,3) 1 1 0 04 if (2<-0,2) and (485≥0,7) 1 1 0 05 if (2<-1,8) and (289≥-1,3) and (380<-0,7) 1 1 0 06 if(17≥-1,6) and (242<0,3) and 1 0,667 0 1

(637≥0,4) and (881<1)7 if (97≥0,7) and (348<1,4) and (224≥-0,2) 0,971 1 1 08 if (97≥0,7) and (348<-0,8) and (863<0,7) 1 1 0 09 if (18<-3,2) and (291≥-1,4) 1 1 0 0

Total 1 3

A Tabela 5.15 apresenta os resultados de sensibilidade (Se, calculado pela equação 4.1)e especi�cidade (Sp calculado pela equação 4.2) para os conjuntos K1 e K2. O que difere o

63

Page 76: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

conjunto K1 e K2 são as regras utilizadas como classi�cadores para as classes 1 e 6. Paraa classe 1, apesar do valor de aptidão encontrado para o conjunto K1 (0,533) ser maiordo que o encontrado para o conjunto K2 (0,333), o número de erros encontrados para oprimeiro conjunto é maior do que o encontrado para o segundo (5 e 2, respectivamente).Estes erros são apresentados na Tabela 5.13 para o conjunto K1 e na Tabela 5.14 para oconjunto K2. Na composição do valor de aptidão, uma classi�cação errada encontrada nocálculo da sensiblidade (Se) é mais severa do que uma classi�cação errada encontrada nocálculo da especi�cidade (Sp). Isso acontece devido ao tamanho do conjunto de amostrasutilizado no cálculo de Se e Sp. Para o cálculo de Se, utilizam-se apenas as amostras deuma determinada classe. Por outro lado, no cálculo de Sp, utilizam-se as demais amostrasda base. Consideremos, por exemplo, o cálculo de Se e Sp para a classe 1 da base NCI60.Para o cálculo do Se, serão avaliados apenas 7 amostras, ao passo que, ao calcular Sp,serão utilizadas as 54 amostras restantes da base. Um erro encontrado no cálculo de Se,diminuirá de 1/7 o valor de aptidão, enquanto que um erro encontrado no cálculo de Sp,diminuirá de 1/54 essa aptidão. Para a análise AECD, diferentemente do que acontecepara o cálculo da aptidão, erros encontrados em Se ou Sp (falso negativo ou falso positivo)possuem o mesmo peso. Assim, a regra da classe 1 encontrada no conjunto K1 possuiaptidão maior do que a regra encontrada no conjunto K2, mas possui uma quantidade deerros maior (5 ao invés de 2). Para a classe 6, o número de erros encontrados do conjuntoK1 para o conjunto K2 decaiu de uma unidade. No conjunto K1, foram encontradosdois erros, um na base de treinamento e outro na base de teste, ambos no cálculo da Sp,causando um pequeno decréscimo ao valor da aptidão. Para o conjunto K2, foi encontradoapenas um erro na base de teste, mas este erro aconteceu no cálculo da Se, causando umgrande decréscimo no valor da aptidão.

A partir dos resultados dos erros absolutos obtidos pelos conjuntos de regras K1 e K2,é possível comparar o desempenho desses classi�cadores com outros da literatura, queforam elaborados para a base NCI60 [21, 12, 3, 13, 22, 23, 24] e que tiveram sua taxa deacertos divulgada. Alguns desses trabalhos também �zeram duas partições, uma contendo2/3 das amostras utilizadas no treinamento, e outra, contendo 1/3 das amostras utilizadasno teste. Estas partições são apresentadas na Tabela 5.16. Outros trabalhos divulgaram

64

Page 77: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 5.15: Sensibilidade e Especi�cidade das regras dos conjuntos K1 e K2

K1

Treinamento Teste Base CompletaClasses Se Sp Se Sp Se Sp

1 1 1 0,6666 0,8 0,8571 0,92592 1 1 1 1 1 13 1 1 1 1 1 14 1 1 1 1 1 15 1 1 1 1 1 16 1 0,9729 1 0,9333 1 0,96157 1 0,9705 1 1 1 0,98188 1 1 1 1 1 19 1 1 1 1 1 1

K2

Treinamento Teste Base CompletaClasses Se Sp Se Sp Se Sp

1 1 1 0,3333 1 0,7142 12 1 1 1 1 1 13 1 1 1 1 1 14 1 1 1 1 1 15 1 1 1 1 1 16 1 1 0,6666 1 0,8888 17 1 1 1 0,9705 1 0,98188 1 1 1 1 1 19 1 1 1 1 1 1

apenas a taxa de acertos em relação à base total e são apresentados na Tabela 5.17. Oresultado obtido por Umpai [22] é uma média encontrada em 5 experimentos. O trabalhode Ooi e colaboradores [3] e o de Lin e colaboradores [24] possuem duas ocorrências,uma em cada tabela, devido ao uso das duas abordagens nestes trabalhos. É importantedizer que os resultados obtidos em Ooi1 [3] não utilizam métodos tradicionais de teste,conforme discutido na seção 3.4. Assim, estes resultados não foram utilizados na análisede treinamento e teste, apenas na análise com base completa. O símbolo (*) encontradona Tabela 5.17 refere-se à média do número de erros encontrados em cinco execuções doambiente proposto por Umpai et al. [22].

Na análise comparativa considerando-se o número total de erros do conjunto de re-gras K1, podemos observar que esse conjunto obteve resultados comparáveis com diversos

65

Page 78: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 5.16: Comparativo dos erros encontrados em K1 e K2 e de outros trabalhos, utilizando 2/3 dabase em treinamento e 1/3 em teste

Base Particionada: 2/3 Treinamento e 1/3 TesteReferencia Nro de Genes ErrosTrein ErrosTeste ErrosTotal

Dudoit [21] 30 - 8 ≥8Deb [12] 12 3 2 5Ooi2 [3] 12 4 4 8Lin1 [24] 15 5 4 9K1 20 2 6 8K2 22 1 3 4

Tabela 5.17: Comparativo dos erros encontrados em K1 e K2 e de outros trabalhos, utilizando todasas amostras da base NCI60

Base TotalReferencia Nro de Genes Nro de ErrosLiu [13] 40 7Umpai [22] 30 14,5 (*)Lin2 [24] 15 3Ooi1 [3] 13 7K1 20 8K2 22 4

outros classi�cadores (Dudoit, Ooi2 e Lin1) que também �zeram a partição 2/3 de trei-namento e 1/3 de teste, sendo superado signi�cativamente apenas pelo classi�cador deDeb. Com relação aos classi�cadores que foram ajustados utilizando-se a base completa,portanto com maiores chances de encontrar um baixo número de erros, mas com um re-sultado de generalização questionável, também é possível dizer que o conjunto K1 obteveresultados comparáveis aos classi�cadores de Liu e Ooi1, superou o classi�cador de Umpaie foi superado apenas por Lin2. Com relação ao desempenho de erros na base de teste,o conjunto K1 superou apenas o classi�cador de Dudoit, sendo superado pelos demaisclassi�cadores (Deb, Ooi2 e Lin1). Entretanto, devemos salientar que o conjunto K1 foiobtido considerando-se os valores de sensibilidade e especi�cidade das regras em suas res-pectivas classes, tanto na evolução do AG quanto na seleção das melhores regras, sem serdirecionado diretamente à taxa de acertos. Dessa forma, consideramos bom o desempenhodo conjunto K1 uma vez que esse classi�cador elaborado para a base NCI60, diferente-

66

Page 79: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

mente dos demais, possui um conhecimento de alto nível e detalhado por classe, semapresentar um decaimento signi�cativo de taxa de acerto, em relação aos classi�cadorestipo caixa-preta, publicados na literatura.

Na análise comparativa considerando-se o conjunto K2, em relação aos classi�cadoresobtidos por meio de particionamento treinamento/teste, é possível observar que ele só ésuperado pelo classi�cador de Deb, na taxa de acertos na base de teste, por um lado, masK2 supera esse mesmo classi�cador na taxa de acertos total, assim como os classi�cadoresde Dudoit, Ooi2 e Lin1. Com relação aos classi�cadores que usaram a base completa, oconjunto K2 só é superado por Lin2, lembrando que o classi�cador Lin2 foi obtido usandoa base completa, enquanto que cada regra de K2 foi evoluída utilizando-se apenas 2/3 dabase. Assim, embora na evolução do AG a taxa de acertos não seja utilizada diretamente,a seleção posterior das melhores regras utilizando-se a análise AECD, resultou em um con-junto/classi�cador competitivo com os demais do tipo caixa-preta, superando a maioriados resultados publicados.

Concluindo, o conjunto K1 é o que apresenta os resultados individuais por classe maisexpressivos considerando-se a sensibilidade e especi�cidade, com uma razoável taxa deacertos em relação aos classi�cadores já publicados. Entretanto, o AG também foi capazde evoluir regras e�cazes em relação à taxa de acertos, sendo possível construir o conjuntoK2, que supera a maioria dos classi�cadores já publicados, em relação à taxa de acertos.Uma informação importante, é que na constituição dos conjuntos K1 e K2 nenhum esforçofoi gasto na busca de conjuntos que tivessem a mesma perfomance e um número menorde genes, já que o método de seleção adotado foi a de buscar a primeira regra de cadaclasse. Assim, pode-se buscar conjuntos que utilizam um menor número de genes e quetenham o mesmo desempenho dos conjuntos K1 e K2 apresentados.

67

Page 80: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Capítulo 6

Conclusões e trabalhos futuros

Em nossos experimentos, foi possível observar que embora a obtenção de regras com altoíndice de treinamento seja relativamente fácil de se conseguir, a qualidade dessas regrasé logo diminuída em algumas classes pelo desempenho das mesmas na base de testes.Acreditamos que tal comportamento possa ser justi�cado pelo baixo número de amostraspor classe, inerente ao problema. Para compensar essa di�culdade, procuramos efetuarum grande número de execuções do AG, para obtenção de um maior número de regras porclasse, com alta taxa de desempenho na base de treinamento. Dessa forma, conseguimosobter regras e�cazes em oito das nove classes.

Embora a base NCI60 tenha sido extensivamente investigada, em nenhum dos tra-balhos analisados foram encontrados conjuntos de genes preditivos para cada classe, esim, um único conjunto preditivo para todas as classes. Selecionar um conjunto de genesrelacionados a uma determinada classe de câncer é relevante para o entendimento dasinterações moleculares (molecular pathways) e também para encontrar novos alvos quesejam úteis no desenvolvimento de novas drogas [23]. Outro ponto importante refere-seao fato de nenhum dos trabalhos analisados apresentarem conhecimento de alto nível paraa base NCI60. O nosso trabalho apresenta um conjunto reduzido de genes por classe (va-riando de 2 a 5 genes), conjunto este, apresentado na forma de regras do tipo IF-THEN,relacionando genes, intervalos de níveis de expressão e sua classe. Um outro ponto forte doprojeto refere-se à avaliação de sensibilidade e especi�cidade de cada classe, não realizadoem nenhum outro trabalho (de que tenhamos notícia) na base NCI60.

68

Page 81: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Para a validação �nal do ambiente foi utilizado o método de cross validation 2:1, queobteve em média para as 9 classes avaliadas, 99,38% de acertos em treinamento e 88,9%em teste.

Um conjunto formado por representantes das regras que apresentaram o melhor de-sempenho treinamento/teste, chamado K1, além de apresentar um conhecimento de altonível e valores aceitáveis de sensibilidade e especi�cidade, também apresenta um númerode acertos total. Esse conjunto retornou as aptidões médias de 99,38% em treinamento e94,06% em teste, medidos pela equação 4.3, que combina a sensibilidade e a especi�cidade.

Um segundo conjunto, chamado K2, também foi elaborado a partir das melhores re-gras evoluídas. Embora o resultado de sensibilidade e especi�cidade seja inferior ao K1,o conjunto K2 possui uma taxa de acertos total igual a 93,44%, superando diversos mé-todos publicados e sendo inferior apenas ao resultado obtido por Lin e colaboradores [24](95,08%). Entretanto, os autores usaram a base completa na evolução do AG, enquantoas regras do conjunto K2 foram evoluídas usando 2/3 da base (para cada classe) paraencontrar esse valor. Em termos do número de erros na base de teste obtido pelo K2 (3),esse valor só é superado pelo trabalho de Deb e Reddy (2) [12].

Além dos dois conjuntos citados anteriormente, nos quais realizamos uma análise com-parativa com os principais classi�cadores publicados na base NCI60, a Tabela 5.11 apre-senta um número maior de regras por classe. Todas as regras da tabela representam omelhor desempenho obtido, com o menor número de genes possível, para cada classe cor-respondente. De posse dessas regras, diversos outros conjuntos/classi�cadores podem serelaborados e avaliados. Além disso, essa pluralidade de regras pode fornecer mais infor-mações aos biólogos sobre as relações entre os genes e a existência de genes homólogos(genes distintos que possuem a mesma função). Por exemplo, poderíamos construir umaregra mais complexa para a classe 4, da seguinte forma:

SE (Gene_50 ≥ -2 OU Gene_224 < -2,2 OU Gene_235 ≥ -2,9)E (Gene_485 ≥ 0,7 OU Gene_843 < -1)

ENTÃO Classe = leucemia

Esste tipo de conhecimento pode ser utilizado pelos biólogos para investigar as relaçõesentre os conjuntos de genes {50, 224, 235} e {485, 843} (homólogos?) e a leucemia.

69

Page 82: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Conseguimos delimitar genes relacionados a cada classe de câncer e seus respectivosníveis de expressão. Desta forma, obtemos uma associação gene/câncer e gene/gene queesperamos que possa contribuir para o diagnóstico deste tipo de câncer limitando assimo número de genes a serem analisados na busca de novos tratamentos.

Como trabalho futuro, sugerimos a construção de um AG multi-objetivo, que trabalhecom várias métricas de forma simultânea, porém isoladas. Um resumo dos AGs multi-objetivos é apresentado no apêndice C. Diferentes métricas podem ser aplicadas comoobjetivos, tais como: sensibilidade, especi�cidade, precisão, cobertura, dentre outros.

Uma outra extensão para este trabalho seria a utilização de bases com um númeromaior de genes. Por exemplo, na base NCI60, diversos trabalhos divulgaram conjuntosreduzidos de genes [21, 12, 3, 13, 22, 23, 24], que aplicados a algum modelo de classi�cador(RNA, SVM, MLHD, dentre outros), retornaram uma taxa de acertos razoável. Em nossotrabalho, partimos apenas dos genes extraídos no trabalho de Ooi e Tan [3], chegando a 55genes na base completa (B1B2B3B4). Os genes extraídos em outros trabalhos poderiamser incorporados a essa base, aumentando a disponibilidade de informações para o AGevoluir regras e�cazes.

Entretanto, antes de mais nada, será necessário realizar experimentos com o objetivode ajustar o ambiente evolutivo na manipulação de bases com um número maior de genes.Conforme ressaltamos no capítulo anterior, um resultado que nos chamou a atenção foiobtido na base completa B1B2B3B4 que, embora use todo o potencial de informação dasexpressões gênicas, retornou resultados inferiores se comparado às evoluções das basesindividuais. Esse resultado mostra que o AG teve di�culdades de convergência pararegras e�cazes, com o aumento do número de genes. Acreditamos que tal ajuste tem forterelação com o valor limite do parâmetro peso (o valor que decide se uma condição estarápresente ou não em uma regra) e o tamanho da população (quanto maior o tamanhodo cromossomo, maior a necessidade de amostragem do espaço de busca). Experimentosincluindo ruído na base B1B2B3B4 (genes extraídos aleatoriamente dos 1000 genes dabase NCI60) podem auxiliar neste ajuste.

Aplicar o ambiente em outras bases de dados públicas de expressão gênica. Estasbases de dados podem ser binárias ou multiclasse. As binárias podem ser encontradas em

70

Page 83: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[79, 95] (leucemia), [80, 94] ( di�use large B-cell lymphoma), [81] (Cólon), [89] (Próstata),[84] (mama). As multiclasses pode ser encontradas em [82] (GCM), [83] (Brown) e [8](small, round blue cell tumors of childhood).

A partir da leitura de trabalhos publicados, foi possível observar uma diversidade demétodos aplicados pelos pesquisadores para validação dos seus resultados. Diversidadeessa que prejudica inclusive a comparação do desempenho entre os diversos classi�cdores.Propomos como continuidade a esse trabalho, a aplicação de outras estratégias de valida-ção, tais como: o leave-one-out cross validation, a técnica mais empregada e o bootstrap,uma técnica que vem sendo aplicada nos trabalhos mais recentes e que nos parece con-tornar melhor os problemas inerentes aos experimentos de microarrays (baixo número deamostras com um elevado número de genes).

71

Page 84: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Referências Bibliográ�cas

[1] D. J. Duggan, M. Bittner, Y. Chen, P. Meltzer, and J. M. Trent. Expression pro�lingusing cdna microarrays. Nature Genetics, 21, 1999.

[2] W. G. C. Ticona. Aplicação de Algoritmos Genéticos Multi-Objetivo para Alinha-mento de Sequências Biológicas. PhD thesis, Universidade de São Paulo, 2003.

[3] C. H. Ooi and P. Tan. Genetic algorithms applied to multi-class prediction for theanalysis of gene expression data. Bioinformatics, 19(1):37�44, 2003.

[4] A. Borém, M. Giúcide, and T. Sedyiama. Melhoramento Genômico. UniversidadeFederal de Viçosa, 2003.

[5] J. C. Setúbal and J. Meidanis. Introduction to Computacional Molecular Biology.PWS Publishing Company, Boston, 1997.

[6] P. Baldi and S. Brunak. Bioinformatics: the Machine Learning approach. MITPress, 2 edition, 2001.

[7] Y. Xu, F. M. Selaru, J. Yin, T. T. Zou, V. Shustova, Y. Mori, F. Sato, T. C. Liu,A. Olaru, S. Wang, M. C. Kimos, K. Perry, K. Desai, B. D. Greenwald, M. J. Krasna,D. Shibata, J. M. Abraham, and S. J. Meltzer. Arti�cial neural networks and gene�ltering distinguish between global gene expression pro�les of barret's esophagusand esophageal cancer. Cancer Research, 2002.

[8] J. Khan, J. S. Wei, M. Ringnér, L. H. Saal, M. Ladanyi, F. Westermann, F. Berthold,M. Schwab, C. R. Antonescu, C. Peterson, and P. S. Meltzer. Classi�ction and

72

Page 85: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

diagnostic prediction of cancers using gene expression pro�ling and arti�cial neuralnetworks. Nature Medicine, 2001.

[9] T. S. Furey, N. Cristianini, N. Du�y, D. W. Bednarski, M. Schummer, and D. Haus-sler. Support vector machine classi�cation and validation of cancer tissue samplesusing microarray expression data. Bioinformatics, 2000.

[10] T. A. Brown. Genética: Um enfoque molecular. Guanabara Koogan, Rio de Janeiro,3 edition, 1999.

[11] I. Zwir, R. R. Zaliz, and E. H. Ruspini. Automated biological sequence descriptionby genetic multiobjective generalized clustering. New York Academy of Sciences,(980):65�82, 2002.

[12] K. Deb and A. R. Reddy. Classi�cation of two and multi-class cancer data reliablyusing multi-objective evolutionary algorithms. KanGAL Report, 2003.

[13] J. J. Liu, G. Culter, W. Li, Z. Pan, S. Peng, T. Hoey, L. Chen, and X. Ling.Multiclass cancer classi�cation and biomarker discovery using ga-based algorithms.Bioinformatics, 21(11):2691�2697, 2005.

[14] S. Mitra and H. Banka. Multi-objective evolutionary biclustering of gene expressiondata. Pattern Recognition, 2006.

[15] M. Wahde and Z. Szallasi. Improving the prediction of the clinical outcome of breastcancer using evolutionary algorithms. Soft Comput, 2006.

[16] T. R. Hvidsten, A. Laegreid, and J. Komorowski. Learning rule-based models ofbiological process from gene expression time pro�les using gene ontology. Bioinfor-matics, 19(9), 2003.

[17] S. A. Vinterbo, E. Kim, and L. Ohno-Machado. Small, fuzzy and interpretable geneexpression based classi�ers. Bioinformatics, 21(9), 2005.

73

Page 86: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[18] S. Ho, C. Hsieh, H. Chenc, and H. Huangd. Interpretable gene expression clas-si�er with an accurate and compact fuzzy rule base for microarray data analysis.BioSystems, 85, 2006.

[19] M. V. Fidelis, H. S. Lopes, and A. A. Freitas. Discovery comprehensible classi�cationrules with a genetic algorithm. In Congress on Evolutionary Computation - (CEC-2000), pages 805�810. La Jolla, CA, USA, 2000.

[20] D. T. Ross, U. Scherf, M. B. Eisen, C. M. Perou, C. Rees, P. Spellman, V. Iyer,S. S. Je�rey, M. Van de Rijn, M. Waltham, A. Pergamenschikov, J. C. F. Lee,D. Lashkari, D. Shalon, T. G. Myers, J. N. Weinstein, D. Botstein, and P. O.Brown. Systematic variation in gene expression patterns in human cancer cell lines.Nature Genetics, 2000.

[21] S. Dudoit, J. Fridlyand, and T. Speed. Comparison of discrimination methods forthe classi�cation of tumors using gene expression data. Journal of the AmericanStatistical Association, 97(457), March 2002.

[22] T. J. Umpai and S. Aitken. Feature selection and classi�cation microarray dataanalysis: Evolutionary methods for identifying predictive genes. BMC Bioinforma-tics, 6(148), 2005.

[23] R. D. Uriarte and S. A. Andrés. Gene selecion and classi�cation of microarray datausing random forest. BMC Bioinformatics, 7(3), 2006.

[24] T. C. Lin, R. S. Liu, C. Y. Chen, Y. T. Chao, and S. Y. Chen. Pattern classi�cationin dna microarray data of multiple tumor types. Pattern Recognition, 39:2426�2438,2006.

[25] R. Xu, G. C. Anagnostopoulos, and D. C. Wunsch II. Multiclass cancer classi�-cation using semisupervised ellipsoid artmap and particle swarm optimization withgene expression data. IEEE/ACM Transactions on Computational Biology and Bi-oinformatics, 4(1), 2007.

[26] Lodish. Biologia Celular e Molecular. Revinter, Rio de Janeiro, 4 edition, 2002.

74

Page 87: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[27] L. C. Junqueira and J. Carneiro. Biologia Celular e Molecular. Guanabara Koogan,Rio de Janeiro, 6 edition, 1997.

[28] M. C. P. de Souto, A. C. Lorena, A. C. B. Delbem, and A. C. P. L. F. de Carva-lho. Técnicas de aprendizado de máquina para problemas de biologia molecular.Porto Alegre, 2003. Sociedade Brasileira de Computação, Sociedade Brasileira deComputação.

[29] B. Alberts, D. Bray, and J. Lewis. Biolgia Molecular da Célula. Artes Médicas, 3edition, 1997.

[30] S. Brenner, M. Johnson, J. Bridgham, G. Golda, D. H. Lloyd, D. Johnson, S. Mc-Curdy S. Luo, M. Foy, M. Ewan, R. Roth, D. George, S. Eletr, G. Albrecht, E. Ver-maas, S. R. Williams, T. B. K. Moon, R. B. M. Pallas, J. Kirchner, K. Fearon,J. Mao, and K. Corcoran. Gene expression analysis by massive parallel signaturesequencing (mpss) on microbead array. Nature Biotechnology, 18(10):630�640, 2000.

[31] V. E. Velculescu, L. Zhang, B. Vogelstein, and K. W. Kinzler. Serial analysis ofgene expression. Science, 270:484�487, 1995.

[32] W. M. Freeman, S. J. Walker, and K. E. Vrana. Quantitative rt-pcr: pitfalls andpotentials. Biotechniques, 26:112�122, 1999.

[33] C. A. Harrington, C. Rosenow, and J. Retief. Monitoring gene expression using dnamicroarrays. Curr. Opin. Microbiol., 3:285�291, 2000.

[34] N. P. Carneiro and A. A. Carneiro. A Era Genômica - Desvendando o CódigoGenético. UFLA, 2002.

[35] L. R. Amaral. Bioinformática, surge uma nova ciência. Especialização, UniversidadeFederal de Lavras, Lavras, 2005.

[36] T. Mitchell. Machine Learning. McGraw Hill, New York, 1997.

[37] Y. Su, T. Murali, V. Pavlovic, M. Scha�er, and S. Kasif. Rankgene: identi�cation ofdiagnostic genes bases on expression data. Bioinformatics, 19(12):1578�1579, 2003.

75

Page 88: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[38] E. Fix and J. Hodges. Discriminatory analysis, noparametric discrimination: Con-sistency properties. Technical report, Escola de AviaçãoForça Aérea Americana,1951.

[39] L. Breiman. Random forests. Machine Learning, 45:5�32, 2001.

[40] L. Breiman, J. Friedman, and R. Olshen. C: Classi�cation and regression trees.Chapman & Hall, New York, 1984.

[41] B. D. Ripley. Pattern recognition and neural networks. Cambrigde University Press,Cambridge, 1996.

[42] T. Hastie, R. Tibshirani, and J. Friedman. The elements of statistical learning.Springer, New Tork, 2001.

[43] B. Efron. Estimating the error rate of a prediction rule: improvement on cross-validation. Jounal of the American Statistical Association, 78:316�331, 1983.

[44] M. Barnard. The secular variations of skull characters in four series of egyptianskulls. Annals of Eugenics, 6:352�371, 1935.

[45] R. Tibshirani, T. Hastie, B. Narasimhan, and G. Chu. Diagnosis of multiple can-cer types by shrunken centroids of gene expression. Proc Natl Acad Sci USA,99(10):6567�6572, 2002.

[46] P. Roepman, L. F. Wessels, N. Kettelarij, P. Kemmeren, A. J. Miles, P. Lijnzaad,M. G. Tilanus, R. Koole, G. J. Hordijk, P. C. van der Vliet, M. J. Reinders, P. J.Slootweg, and F. C. Holstege. An expression pro�le for diagnosis of lymph nodemetastases from primary head and neck squamous cell carcinomas. Nature Genetics,37:182�186, 2005.

[47] L. Kaufman and P. J. Rousseeuw. Finding Groups in Data: An Introduction toCluster Analysis. Wiley, New York.

[48] R. E. Castro. Otimização de Estrutura com Multi-Objetivos via ALgoritmos Gené-ticos. PhD thesis, Universidade Federal do Rio de Janeiro, AGOSTO 2001.

76

Page 89: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[49] L. Davis. Handbook of Genetic Algorithms. Van Nostrand Reinhold, New York,1991.

[50] D. E. Goldberg. Genetic Algorithms in Search, Optimization and Machine Learning.Adison-Wesley, USA, 1989.

[51] M. Mitchell. An Introduction to Genetic Algorithms: Complex Adapative Systems.MIT Press, MA, 1996.

[52] J. H. Holland. Adaptation in Natural and Arti�cial Systems. MIT Press, 1975.

[53] J. R. Koza. Genetic Programming. On the Programming of Computers by Means ofNatural Selection. MIT Press, USA, 1992.

[54] J. Tanomaru. Motivação, fundamentos e aplicações de algoritmos genéticos. InCongresso Brasileiro de Redes Neurais, Curitiba, 1995. III Escola de Redes Neurais.

[55] S. Austin. An introduction to genetic algorithms. AI Expert, 3, 1990.

[56] S. A. Oliveira. Metaheurísticas Aplicadas ao Planejamento da Expansão da Trans-missão de Energia Elétrica em Ambiente de Processamento Distribuído. PhD thesis,UNICAMP, outubro 2004.

[57] M. A. C. Pacheco. Algoritmos genéticos: Princípios e aplicações. In INTERCON99:V Congreso Internacional de Ingeniería Electrónica, Elétrica Y Sistemas, pages 11�16, Lima, 1999.

[58] M. A. Potter and K. A. Jong. Cooperative coevolution: An architeture for evolvingcoadapted subcomponents. Evolutionary Computation, 8(1):1�29, 2000.

[59] D. A. Van Veldhuizen C. A. C. Coello and G.B. Lamont. Evolutionary Algorithmsfor Solving Multi-Objective Problems. Kluwer Academic, New York, March 2002.

[60] D. Hand. Construction and Assessment If Classi�cation Rules. John Wiley andSons, Chichester, 1997.

77

Page 90: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[61] A. A. Freitas and S. H. Lavington. Mining Very Large Databases with ParallelProcessing. Kluwer Academic Publishers, London, 1998.

[62] E. D. Goodman. An introduction to gallops - the genetic algorithms optimized forportability and parallelism system. Technical report, Departament od ComputerScience - Michigan State University, 1996.

[63] H. S. Lopes, M. S. Coutinho, and W. C. Lima. An evolutionary approach to simulatecognitive feedback learning in medical domain. In E. Sanchez, T. Shibata, and L. A.Zadeh, editors, Genetic Algorithms and Fuzzy Logic Systems, pages 193�207. WorldScienti�c, 1997.

[64] D. L. A. Araujo, H. S. Lopes, and A. A. Freitas. A parallel genetic algorithm for rulediscovery in large databases. In Systems, Man and Cybernetics, volume 3, pages940 � 945, Tokyo, October 1999. IEEE.

[65] D. R. Carvalho and A. A. Freitas. A hybrid decision tree/genetic algorithm forcoping with the problem of small disjuncts in data mining. In Genetic and Evoluti-onary Computation (GECCO-2000), pages 1061�1068, Las Vegas, NV, USA, Jully2000.

[66] D. R. Carvalho and A. A. Freitas. A genetic algorithm-based solution for the pro-blem of small disjuncts. In Springer-Verlag, editor, Principles of Data Mining andKnowledge Discovery, volume 1910, pages 345�352, 2000.

[67] A. A. Freitas. Advances in Evolutionary Computation, chapter A Survey of Evo-lutionary Algorithms for Data Mining and Knowledge Discovery. Springer-Verlag,2002.

[68] W. Romao, A. A. Freitas, and R. C. S. Pacheco. A genetic algorithm for discoveringinteresting fuzzy prediction rules: applications to science and technology data. InGenetic and Evolutionary Computation (GECCO-2002), New York, July 2002.

[69] K. C. Tan, Q. Yu, C. M. Heng, and T. H. Lee. Evolutionary computing for knowledgedicovery in medical diagnosis. Arti�cial Intelligence in Medicine, (27):129�154, 2003.

78

Page 91: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[70] C. R. S. Miranda, G. M. B. Oliveira, and J. B. Santos. Algoritmos genéticos apli-cados em data mining para obtenção de regras simples e precisas. In Anais doSBAI2003, pages 638�643, 2003.

[71] H. Ishibuchi and T. Yamamoto. Fuzzy rule selection by multi-objective geneticlocal search algorithms and rule evaluation measures in data mining. Fuzzy Setsand Systems, (141):59�88, 2004.

[72] Daniel C. Weaver. Applying data mining techniques to library design, lead genera-tion and lead optimization. Science Direct, 2004.

[73] Y. Kim and W. N. Street. An intelligent system for customer targeting: a datamining approach. Decision Support Systems, (37):215�228, 2004.

[74] A. Ghosh and B. Nath. Multi-objective rule mining using genetic algorithms. In-formation Sciences, 163, 2004.

[75] M. A. C. Pacheco, M. M. R. Vellasco, C. H. P. Lopes, and E. P. L. Passos. Extraçãode regras de associação em bases de dados por algoritmos genéticos. In Anais doXIII Congresso Brasileiro de Automática (CBA 2000), Floarianópolis, Setembro2000.

[76] M. C. S. Takiguti. Utilização de algoritmos genéticos multi-objetivos na mineraçãode regras precisas e interessantes. Dissertação de mestrado em engenharia elétrica,Universidade Presbiteriana Mackenzie, 2003.

[77] Z. Michalewicz. Genetic Algorithms + Data Structures = Evolution Programs. IE-Springer-Verlag, 1997.

[78] A. A. Freitas. Data Mining and Knowledge Discovery with Evolutionary Algorithms.2002.

[79] T. R. Golub, D. K. Slonim, P. Tamayo, C. Huard, M. Gaasenbeek, J. P. Mesirov,H. Coller, M. L. Loh, J. R. Downing, M. A. Caligiuri, C. D. Bloom�eld, and E. S.Lander. Molecular classi�cation of cancer: class discovery and class prediction.Science, 286, October 1999.

79

Page 92: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[80] A. A. Alizadeh, M. B. Eisen, R. E. Davis, C. Ma, I. S. Lossos, A. Rosenwald, J. C.Boldrick, H. Sabet, T. Tran, X. Yu, J. I. Powell, L. Yang, G. E. Marti, T. Moore,J. Hudson, L. Lu, D. B. Lewis, R. Tibshirani, G. Sherlock, W. C. Chan, T. C.Greiner, D. D. Weisenburger, J. O. Armitage, R. Warnke, R. Levy, W. Wilson,M. R. Grever, J. C. Byrd, D. Botstein, P. O. Brown, and L. M. Staudt. Distincttypes of di�use large b-cell lymphoma identi�ed by gene expression pro�ling. Nature,403:503�511, 2000.

[81] U. Alon, N. Barkai, D. D. Notterman, K. Gish, S. Ibarra, D. Mack, and A. J.Levine. Broad patterns of gene expression revealed by clustering analysis of tumorand normal colon tissues probed by oligonucleotide arrays. Proceedings of NationalAcademy of Science, Cell Biology, 96:6745�6750, 1999.

[82] S. Ramaswamy, P. Tamayo, R. Rifkin, S. Mukherjee, C. H. Yeang, M. Angelo,C. Ladd, M. Reich, E. Latulippe, J. P. Mesirov, T. Poggio, W. Gerald, M. Loda, E. S.Lander, and T. R. Golub. Multiclass cancer diagnosis using tumor gene expressionsignatures. Proceedings of the National Academy of Science, 98(26):15149�15154,2001.

[83] K. Munagala, R. Tibshirani, and P. O. Brown. Cancer characterization and featureset extraction by discriminative margin clustering. BMC Bioinformatics, 5(21),2004.

[84] L. J. van 't Veer, H. Dai, M. J. van de Vijver, Y. D. He, A. A. M. Hart, M. Mao,H. L. Peterse, K. van der Kooy, M. J. Marton, A. T. Witteveen, G. J. Schreiber,R. M. Kerkhoven, C. Roberts, P. S. Linsley, R. Bernards, and S. H. Friend. Geneexpression pro�ling predicts clinical outcome of breast cancer. Nature, 415:530�536,2002.

[85] N. Friedman I. Nachman M. Schummer A. Ben-Dor, L. Bruhn and Z. Yakhini.Tissue classi�cation with gene expression pro�les. J. Computational Biology, 7:559�584, 2000.

80

Page 93: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[86] J. Komorowski, A. Øhrn, and A. Skowron. Handbook of Data Mining and KnowledgeDiscovery, chapter The ROSETTA rough set software system, pages 554�559. Ox-ford University Press, 2002.

[87] S. Vinterbo and A. Ohrn. Minimal approximate hitting sets and rule templates.International Journal of Approximate Reasoning, 25(2):123�143, Outubro 2000.

[88] A. Bhattacharjee, W. G. RichardsDagger, J. Stauntondagger, C. Li, S. Monti,P. Vasa, C. Ladd, J. Beheshti, R. BuenoDagger, M. Gillette, M. Loda, G. We-ber, E. J. Markdagger, E. S. Lander, W. Wong, B. E. Johnson, T. R. Golub, D. J.Sugarbaker, and M. Meyerson. Classi�cation of human lung carcinomas by mrnaexpression pro�ling reveals distinct adenocarcinoma subclasses. Proc. Natl Acad.Sci, 98:13790�13795, 2001.

[89] D. Singh, P. G. Febbo, K. Ross, D. G. Jackson, J. Manola, C. Ladd, P. Tamayo,A. A. Renshaw, A. V. D'Amico, J. P. Richie, E. S. Lander, M. Loda P. W. Kanto�,T. R. Golub, and W. R. Sellers. Gene expression correlates of clinical prostatecancer behavior. Cancer Cell, 1:203�209, 2002.

[90] E. Alpaydin. Combined 5 × 2 cv f test for comparing supervised classi�cationlearning algorithms. Neural Computation, 11:1885�1982, 1999.

[91] S. Ho, L. Shu, and J. Chen. Intelligent evolutionary algorithms for large parameteroptimization problems. IEEE Transactions on Evolutionary Computation, 8(6):522�541, 2004.

[92] S. L. Pomeroy, P. Tamayo, M. Gaasenbeek, L. M. Sturla, M. Angelo, M. E.McLaughlin, J. Y. H. Kim, L. C. Goumnerova, P. M. Black, C. Lau, J. C. Allen,D. Zagzag, J. M. Olson, T. Curran, C. Wetmore, J. A. Biegel, T. Poggio, R. RifkinS. Mukherjee and, A. Califano, G. Stolovitzky, D. N. Louis, J. P. Mesirov, E. S.Lander, and T. R. Golub. Prediction of central nervous system embryonal tumouroutcome based on gene expression. Nature, 415(6870):436�442, 2002.

81

Page 94: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[93] C. L. Nutt, D. R. Mani, R. A. Betensky, P. Tamayo, J. G. Cairncross, C. Ladd,U. Pohl, C. Hartmann, M. E. McLaughlin, T. T. Batchelor, P. M. Black, A. vonDeimling, S. L. Pomeroy, T. R. Golub, and D. N. Loui. Gene expression-basedclassi�cation of malignant gliomas correlates better with survival than histologicalclassi�cation. Cancer Research, 63(7):1602�1607, 2003.

[94] M. A. Shipp, K. N. Ross, P. Tamayo, A. P. Weng, J. L. Kutok, R. C. T. Aguiar,M. Gaasenbeek, M. Angelo, M. Reich, G. S. Pinkus, T. S. Ray, M. A. Koval, K. W.Last, A. Norton, T. A. Lister, J. Mesirov, D. S. Neuberg, E. S. Lander, J. C.Aster, and T. R. Golub. Di�use large b-cell lymphoma outcome prediction by gene-expression pro�ling and supervised machine learning. Nature Medicine, 2002.

[95] S. A. Armstrong, J. E. Staunton, L. B. Silverman, R. Pieters, M. L. den Boer,M. D. Minden, S. E. Sallan, E. S. Lander, T. R. Golub, and S. J. Korsmeyer.Mll translocations specify a distinct gene expression pro�le, distinguishing a uniqueleukemia. Nature Genetics, 30(1):41�47, 2002.

[96] M. James. Classi�cation algorithms. Wiley-Interscience, New York.

[97] L. R. Amaral, G. Sadoyama, F. S. Espindola, and G. M. B. Oliveira. Classi�caçãode oncogenes medidos por microarray utilizando algoritmos genéticos. Anais doSimpósio Brasileiro de Automação Inteligente, 2007.

[98] G. W. Burns and P. J. Bottino. Genética. Guanabara Koogan, Rio de Janeiro, 6edition, 1991.

[99] N. Srinivas and K. Deb. Multiobjective optimization using non dominated sortingin genetic algorithms. Evolutionary Computation, 2(3):221�248, 1994.

[100] J. W. Hartmann. Low-thurst Trajectory Optimization Using Stochastic OptimizationMethods. PhD thesis, University of Illinois-Champaign, 1999.

[101] C. M. Fonseca and P. J. Fleming. Genetics algorithms for multi-objective opti-mization: Formulation, discussion and generalization. In Stephanie Forrest editor,

82

Page 95: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

San Mateo California, 1993. Proceedings of the Fifth International Conference onGenetic Algorithms.

[102] J. C. Bortot. Otimização evolutiva multi-objetivos na busca parametrizada de autô-matos celulares unidimensionais. Master's thesis, Universidade Presbiteriana Mac-kenzie, São Paulo, 2003.

[103] I. Anciutti, A. L. Gonçalves, F. A. Siqueira, and P. S. S. Borges. Uma aplicação dedata mining sobre circuitos elétricos de baixa tensão utilizando algoritmos genéticos.1o Workshop de Ciências da Computação e Sistemas da Informação da Região Sul(WorkComp Sul), Maio 2004.

[104] R. Lewis. Human Genetics - Concepts and Applications. McGraw Hill, London, 4edition, 2001.

[105] J. D. Scha�er. Multiple Objective Optimization with Vector Evaluated Genetic Al-gorithms. PhD thesis, Vanderbilt University, 1884.

[106] P. Hajela and C. Y. Lin. Genetic search strategies in multicriterion optimal design.Structural Optimization, 1992.

[107] J. Horn and N. Nafpliotis. Multiobjective optimization using the niched paretogenetic algorithm. IlliGAL Report Illinois Gentic Algorithms Laboratory, 1993.

[108] E. Zitzler and L. Thiele. Multiobjective optimization using evolutionary algorithms- a comparative case study. Computer Engineering and Communication NetworksLab (TIK), 1998.

[109] H. Ding, L. Benyoucef, and X. Xie. A simulation-based multi-objective genetic al-gorithm approach for networked enterprises optimization. Engineering Applicationsof Arti�cial Intelligence, 2005.

[110] J. D. Knowles and D. W. Corne. The pareto archived evolution strategy: A newbaseline algorithm for multi-objective optimization. IEEE Proceedings of the 1999congress on evolutionary computation, pages 98�105, 1999.

83

Page 96: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[111] K. Deb, S. Agarwal, A. Pratap, and T. Meyarian. A fast and elitism multiobjectivegenetic algorithm: Nsga ii. IEEE Trans. Evol. Comput., 6:182�197, 2002.

[112] D. Corne, J. Knowles, and M. Oates. The pareto envelope-based selection algorithmfor multi-objective optimization. In The Proceedings of The Sixth InternationalConference on Parallel Problem Solving from Nature, pages 839�848, 2000.

[113] E. Zitzler, M. Laumanns, and L. Thiele. Spea2: Improving the strength paretoevolutinary algorithm. Technical Repor 103, Computer Engineering and NetworksLaboratory, 2001.

[114] M. J. van de Vijver, Y. D. He, L. J. van't Veer, H. Dai, A. A. Hart, D. W. Voskuil,G. J. Schreiber, J. L. Peterse, C. Roberts, M. J. Marton, M. Parrish, D. Atsma,A. Witteveen, A. Glas, L. Delahaye, T. van der Velde, H. Bartelink, S. Rodenhuis,E. T. Rutgers, S. H. Friend, and R. Bernards. A gene-expression signature asa predictor of survival in breast cancer. The New England Journal of Medicine,347(25):1999�2009, December 2002.

[115] J. Li, H. Liu, J. R. Downing, A. E. Yeoh, and L. Won. Simple rules underlying geneexpression pro�les of more than six subtypes of acute lymphoblastic leukemia (all)patients. Bioinformatics, 19(1), 2003.

[116] S. Ramaswamy, K. N. Ross, E. S. Lander, and T. R. Golub. A molecular signatureof metastasis in primary solid tumors. Nature Genetics, 33:49�54, 2003.

[117] G. Dong and J. Li. E�cient mining of emerging patterns: discovering trends anddi�erences. In Proceedings of the �fth ACM SIGKDD international conference onKnowledge discovery and data mining, pages 43�52, San Diego, CA, USA, 1999.

[118] C. Ambroise and G. J. McLachlan. Selection bias in gene extraction on the basis ofmicroarray gene-expression data. Proc Natl Acad Sci, 99(10):6562�6566, 2002.

[119] B. Efron and R. J. Tibshirani. Improvements on cross-validation: the .632+ boots-trap method. J Americam Statistical Association, 92:548�560, 1997.

84

Page 97: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[120] Camillo Jorge Santos Oliveira. Classi�cação de imagens coletadas na web. Master'sthesis, Universidade Federal de Minas Gerais, 2001.

[121] R. Kohavi. A study of cross-validation and bootstrap for accuracy estimation andmodel selection. In International Joint Conference on Arti�cial Intelligence (IJ-CAI), 1995.

[122] Carolina Baldisserotto. Técnicas de aprendizagem de máquina para previsão desucesso em implantes dentários. Trabalho de Conclusão de Curso de Engenharia daComputação (UFPE), 2005.

85

Page 98: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

APÊNDICE A

A Tabela 1 ilustra alguns genes pertencentes à base NCI60 [20], trazendos os quatroprimeiros e os quatros últimos genes presentes nesta base, além de seus níveis de expressãoe sua classi�cação.

86

Page 99: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabe

la1:Frag

mento

daba

seNCI

60

Amostra

Gen

esesuas

expressões

gênicas

Classe

0001

0002

0003

0004

...09

9709

9809

9910

001

-0,164

161

-4,884

82,09

63-0,534

775

...0,45

7161

0,19

1355

-0,611

755

0,08

3932

91

2-3,875

9-3,769

182,01

063

3,11

975

...0,18

6854

0,96

2579

-0,401

814

1,78

893

13

-4,349

990,41

0967

-2,923

01-4,350

91...

-0,774

644

-1,071

191,40

315

-1,835

911

4-5,294

56-3,097

17-3,228

42-2,185

53...

-0,248

217

0,08

5849

6-0,989

704

-0,437

588

15

-5,190

37-4,508

513,82

538

-3,148

46...

-0,963

794

1,57

446

0,34

804

-0,787

848

16

-6,655

17-6,197

364,41

931

-4,256

2...

-1,136

681,42

771

-0,146

111

-0,488

786

17

-3,926

520,26

7668

-2,365

13-3,616

12...

0,41

846

-0,069

5651

1,64

288

-0,244

977

18

0,65

6287

-4,927

440,60

5895

0,86

8257

...0,28

0724

1,29

956

-0,201

284

-0,506

502

29

0,32

7138

-3,713

342,10

391

-1,517

99...

-1,301

690,33

943

-0,318

589

0,58

3541

210

-2,182

71-4,898

470,44

5682

0,86

4383

...-0,488

053

1,81

960,28

8936

-0,281

444

211

1,53

62-4,250

940,77

2748

-3,029

59...

-0,112

368

0,83

3978

-0,387

631

-0,311

587

212

1,74

647

-3,939

921,81

068

-2,464

32...

0,10

2225

0,58

7927

-0,281

781

1,51

905

213

-2,045

92-4,649

783,09

726

1,34

988

...-0,001

6290

30,00

4519

77-0,048

8471

0,54

3234

214

-4,584

042,24

431

-2,081

76-4,952

83...

-0,438

279

0,03

5922

41,91

293

0,37

7864

315

-1,745

581,50

375

-0,533

707

-3,223

61...

-0,331

04-0,603

297

-0,353

551

0,18

0887

316

-4,205

19-0,338

11-0,354

664

-4,749

61...

-1,317

52-0,904

932

-0,742

56-1,008

993

17-3,722

421,41

686

-2,205

11-3,516

61...

0,12

2766

-0,937

280,67

5619

-0,668

483

318

-3,408

151,79

236

0,16

0562

-3,447

27...

-0,125

658

-0,307

894

1,23

935

1,24

733

19-4,555

1,07

009

-3,538

16-4,212

84...

-0,732

19-0,389

328

-0,323

507

-1,717

483

20-3,922

331,26

645

-0,071

9507

-3,856

31...

0,03

5864

6-0,160

007

0,14

8397

0,02

9083

83

21-5,322

91-4,017

98-2,142

45-5,241

12...

-0,474

868

0,16

9888

-1,661

33-0,682

513

422

-3,766

92-3,515

77-1,261

89-3,012

23...

-0,219

042

-0,136

43-1,537

48-1,352

384

23-3,510

8-0,515

63-3,679

7-2,724

06...

1,69

96-0,391

022

-1,149

11-0,837

641

424

-4,110

77-4,076

27-0,855

212

-4,178

87...

-0,044

8836

0,60

0618

-1,754

16-1,029

734

25-3,126

99-0,250

697

-1,149

480,61

2616

...-0,365

96-0,581

312

-0,278

901

-0,459

154

426

-4,389

22-4,381

12-2,796

97-4,803

41...

-1,826

-0,090

1879

-1,478

450,36

4429

427

-3,906

06-2,852

82-1,944

3-0,661

495

...0,32

868

0,38

5334

-0,468

209

-0,299

772

528

-4,047

12-3,814

343,92

145

-0,093

3891

...-0,867

585

1,13

333

0,19

2118

-1,142

065

29-2,934

64-3,219

172,88

026

-0,662

403

...-0,243

017

1,10

976

-0,425

754

-0,698

014

530

-4,581

45-4,387

63,84

132

-1,092

15...

0,45

6843

1,11

968

-0,592

796

-0,213

937

531

-2,625

31-3,602

262,80

123

1,80

131

...-0,495

891

2,00

023

-0,316

130,60

9825

532

-6,047

59-5,433

410,73

5293

-2,529

52...

-0,513

214

2,34

576

-0,847

313

-0,557

261

533

-3,264

77-3,292

382,05

958

0,16

7136

...-0,376

271

1,37

391

-0,649

388

-0,273

737

534

-4,219

2-4,448

254,03

66-0,966

085

...-0,582

756

1,13

634

0,10

6253

-0,377

676

535

0,71

9652

-2,220

660,14

9834

-1,753

18...

0,08

9064

90,61

7618

0,04

0766

1-0,863

616

636

-2,775

15-1,386

29-0,942

618

-1,970

52...

0,43

488

0,21

6116

-0,023

2552

-0,045

2224

637

1,42

846

-2,435

930,08

5281

3-0,139

468

...0,37

6792

1,34

191

0,33

6734

0,99

7303

6

87

Page 100: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

38-6,605

47-2,557

37-1,581

750,38

433

...1,10

781

0,92

2406

-0,371

142

0,51

9772

639

1,43

531

-3,072

890,45

8781

-3,962

17...

-0,164

157

0,42

3992

-0,392

538

0,32

2683

640

1,10

256

-2,669

950,69

1393

-3,507

32...

0,78

9153

0,63

3915

0,58

8746

1,56

927

641

-3,047

750,75

296

-0,676

708

-3,111

58...

-0,252

044

-0,862

433

0,19

2085

-0,232

298

642

1,45

398

-3,500

063,47

098

0,86

778

...-2,213

28-0,392

764

0,78

8429

0,86

7195

643

0,71

6666

-3,850

22-1,023

66-4,836

64...

-0,825

387

0,77

0405

-0,330

002

-1,154

796

44-3,743

9-1,045

24-2,468

5-4,115

3...

-0,380

604

-0,371

351

-1,321

620,11

7363

745

0,64

9325

0,80

3413

-1,151

37-4,025

77...

0,01

1550

80,00

7489

4-0,061

7476

0,20

1552

746

-1,784

311,09

893

-1,340

46-2,987

38...

0,16

1457

0,78

973

-0,229

251

0,65

1669

747

-3,713

13-0,152

521

1,17

82-2,592

09...

0,17

1932

-0,586

802

0,18

7039

0,12

7809

748

1,11

499

-2,040

7-0,287

684

-0,098

9378

...0,29

2568

0,52

8733

1,02

933

0,18

7235

749

-2,954

440,09

0369

2,42

615

-2,402

44...

0,13

1778

1,21

708

0,43

8408

0,74

2201

750

-0,767

671

-2,483

72-0,032

4988

0,39

4634

...-0,685

856

0,25

8114

-0,077

6372

0,58

38

51-0,554

984

-3,296

860,73

0205

-3,838

09...

0,18

8504

-0,083

3314

-0,150

136

0,08

0560

98

52-3,439

41-0,805

609

-0,001

6690

9-0,098

7586

...-1,282

97-0,147

9-0,731

87-0,449

098

853

1,71

796

-2,992

90,94

1972

-0,418

864

...0,58

1641

1,02

023

-0,516

387

0,62

146

854

-0,785

637

-3,100

340,48

0331

0,60

5166

...-0,412

405

-0,486

664

-0,416

042

0,74

3273

855

1,74

548

-4,702

77-0,270

924

-4,275

18...

-2,508

580,83

920,94

3643

0,62

1112

856

-0,164

802

-0,757

720,87

2185

1,04

158

...-0,608

374

0,22

955

-0,563

887

0,23

8201

857

1,43

745

-0,347

051,05

609

-0,096

4912

...-0,604

294

0,57

5899

0,26

7507

1,37

224

858

-3,122

65-0,000

7763

01-0,969

465

-2,891

94...

2,41

071

-0,241

9-1,169

87-1,158

69

59-3,405

92-0,495

942

-2,531

51-3,704

48...

0,82

8309

-0,632

215

-1,117

93-0,952

129

960

-4,451

130,24

414

-1,591

87-4,007

39...

-1,224

35-1,311

781,40

53-1,125

449

61-3,246

250,53

8351

-2,282

88-3,610

45...

-0,082

2695

-0,674

677

1,40

586

-0,547

719

9

88

Page 101: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

APÊNDICE B

As tabelas abaixo ilustram os genes, seus níveis de expressão gênica e sua classi�cação,dentre as 9 classes possíveis (Tabelas 2, 3, 4 5, 6 e 7).

89

Page 102: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabe

la2:Có

digo

seexpressãogênica

dosg

enes

daba

sede

dado

sB1

Cód

igos

eexpressãogênica

dosgene

sda

base

deda

dosB

1

Amostra

0011

0050

0097

0127

0194

0242

0289

0348

0366

0828

0839

0863

0881

Classe

1-0,103

522

0,07

4919

90,77

4746

-1,716

29-0,732

035

1,35

166

-2,074

22-2,047

330,46

645

-0,364

501

-0,733

991

0,83

4798

0,15

6616

12

-2,214

18-2,278

82-2,412

330,46

2524

-2,056

25-0,541

687

-2,208

3-0,564

796

0,31

0698

-0,278

658

-0,023

6491

-0,001

3386

40,40

6395

13

-0,829

12-0,629

544

0,60

3895

-2,355

66-1,529

581,03

772

-3,260

92-3,008

94-0,087

3521

-0,758

008

-1,145

560,93

9854

-0,736

931

14

-3,513

911,65

066

0,38

0296

0,28

0169

0,04

1092

5-1,217

63-0,954

262

-1,007

470,58

3922

0,41

2475

-0,301

249

0,65

2274

-0,465

053

15

2,02

585

0,88

2851

0,60

1008

-0,086

2014

-0,076

2004

0,61

535

0,05

3392

6-2,197

360,51

6784

1,02

590,77

6571

0,58

0852

0,84

7398

16

0,33

6447

-0,169

524

-0,704

792

1,32

164

-0,272

202

0,62

2776

0,49

1263

-0,684

165

0,30

4506

-0,724

929

0,32

339

0,13

3891

0,22

2303

17

-3,807

93-3,030

94-3,109

15-2,000

82-2,254

24-1,359

33-1,305

18-1,118

02-1,121

14-1,316

43-1,337

91-1,247

76-0,715

655

18

1,40

794

1,61

487

0,17

9707

-0,404

795

-0,554

994

-0,359

214

-1,626

07-2,201

061,38

448

0,41

2437

1,33

742

1,13

253

1,57

853

29

0,58

6283

0,98

0219

0,52

0937

0,89

8916

-0,216

614

1,27

262

-1,250

22-1,578

640,23

6351

0,14

1967

0,94

3141

1,13

712

0,95

4878

210

2,00

007

0,13

0301

0,29

7864

-0,448

922

-0,116

546

0,30

9864

-1,906

2-2,223

740,07

1138

-0,664

907

1,50

146

0,67

1309

1,15

145

211

0,49

241

0,78

6922

0,36

7203

0,72

829

0,45

7588

-0,304

991

-0,615

864

-0,729

053

0,53

7549

0,60

5988

0,56

2647

0,73

2964

1,17

502

212

0,47

1609

1,48

882

0,84

7666

0,30

918

-0,307

932

0,92

5249

-2,517

1-2,647

110,29

2831

-0,213

347

1,04

789

1,08

715

0,70

6803

213

2,18

319

0,89

6251

0,28

5514

0,73

0159

-0,292

397

0,14

2945

-0,598

794

-0,010

3232

0,56

9385

0,67

578

0,53

1138

0,53

1094

1,57

358

214

-2,692

13-2,412

28-0,590

777

-1,735

79-1,189

640,54

3226

0,48

4663

-0,618

737

0,36

123

-0,614

338

-0,010

8392

0,59

7166

-0,465

481

315

-2,292

05-2,304

48-2,806

79-1,872

27-2,188

09-0,913

112

-0,217

442

-1,622

05-0,572

95-1,530

81-0,696

569

-2,379

72-1,541

853

16-4,292

16-2,801

98-1,967

33-1,946

96-1,857

85-1,796

810,15

7092

-2,184

78-1,471

46-2,061

76-0,391

953

1,11

249

-1,312

453

17-2,035

7-2,889

37-1,619

38-1,815

46-1,782

42-0,269

746

0,40

6382

-1,295

520,00

2198

04-1,172

16-0,734

569

-0,983

874

-0,772

641

318

-3,388

21-3,119

57-2,896

18-2,827

73-2,060

260,38

5011

0,16

7933

-1,009

650,10

8283

-0,720

46-0,723

643

-1,417

91-1,283

293

19-2,844

01-2,796

49-2,434

53-1,910

15-1,814

970,43

657

0,60

8268

-1,538

360,12

3147

-1,113

790,06

8236

-0,280

746

-0,607

476

320

-3,689

07-4,645

72-2,426

95-0,626

419

-1,787

39-0,452

533

0,09

7480

8-1,212

19-0,419

689

-0,328

80,34

7022

-1,195

81-0,896

939

321

-2,879

48-0,742

572

-0,407

514

-2,048

75-2,414

12-0,595

085

-0,586

813

-0,354

366

-0,852

477

-0,819

172

-1,292

540,17

3609

-0,692

541

422

-6,158

681,13

220,28

3168

-3,266

54-4,016

84-2,519

712,39

585

-1,995

33-0,240

053

0,24

4785

-1,290

96-0,033

4306

-0,736

428

423

-3,762

53-1,129

04-1,340

95-1,706

78-3,426

090,12

2901

0,63

1448

-2,100

76-0,417

069

-1,424

28-0,662

854

-0,100

966

-0,860

344

424

-4,142

991,39

347

-0,527

461

-3,204

84-5,163

98-2,084

391,04

189

-2,958

8-0,173

309

-1,807

35-2,203

922,07

077

-1,019

064

25-3,287

051,23

160,71

5167

-2,812

73-3,133

02-0,695

066

1,63

402

-2,530

46-0,440

182

-2,068

4-1,795

031,05

069

-0,794

289

426

-3,089

38-1,967

79-3,071

2-0,720

666

-0,826

02-1,918

35-0,831

813

-1,630

9-0,737

671

-0,565

236

-0,578

867

-0,900

492

-0,269

402

427

1,17

806

-0,645

115

0,04

6769

2-0,776

113

-0,460

068

1,15

558

1,99

245

-1,869

310,37

2313

0,22

3906

-0,364

876

0,69

686

-0,517

255

528

-0,410

018

-2,269

390,08

5187

8-1,511

3-0,444

469

0,33

6779

-1,238

46-1,608

14-0,558

132

-0,096

6399

-0,866

592

0,92

2814

-0,530

827

529

-1,493

99-4,239

730,09

0547

1-1,458

46-0,868

005

0,95

2073

2,54

113

-1,969

41-0,387

58-0,796

449

-0,514

040,30

5297

-0,508

335

300,39

3862

-0,765

177

-0,040

5467

-1,973

91-1,103

041,68

784

0,29

2586

-1,828

220,67

8946

-0,162

251

-1,649

110,84

1132

-0,150

524

531

0,92

3374

-2,014

37-0,192

461

-1,868

-0,527

787

2,15

467

1,25

614

-1,837

160,65

9145

0,21

2095

-0,312

122

1,26

541

0,62

0948

532

0,08

5504

6-2,823

76-0,664

243

-1,613

34-1,045

31,08

286

0,39

5048

-1,521

670,03

0976

3-0,482

929

-0,673

715

-0,125

413

0,28

1064

533

-1,055

591,10

612

-0,535

704

0,64

1826

0,86

2049

0,73

7617

0,71

7859

-3,220

70,58

7051

-0,203

198

-0,043

0824

0,88

6055

-0,722

265

34-0,384

449

-1,224

56-0,170

168

-2,230

68-1,285

530,58

6728

-0,733

935

-2,542

510,49

3198

0,21

6003

-0,638

189

0,87

5273

0,04

6113

45

350,31

306

0,61

4041

0,82

009

0,51

3128

0,69

8346

-0,331

419

0,73

4916

0,72

6677

1,11

414

-0,014

5314

1,15

386

0,92

0167

0,88

3913

636

-2,507

61-0,238

344

1,07

764

-0,035

4999

0,54

1246

-1,086

19-0,464

893

0,47

1643

0,59

3036

0,04

8467

10,18

921

0,82

0677

-0,097

9766

637

-2,425

24-1,445

091,75

240,05

3924

5-0,218

165

-0,636

298

0,58

409

1,15

336

0,14

2132

-0,446

367

-0,474

743

0,11

9492

-0,541

702

6

90

Page 103: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

38-2,413

94-0,071

8925

-1,218

7-1,076

79-1,358

4-1,095

22-1,221

450,16

2176

-0,080

729

-0,226

777

-0,063

9266

-0,286

434

-1,300

176

39-2,673

37-0,147

557

0,97

0814

-1,078

19-1,529

43-0,783

347

0,57

0793

0,97

9778

2,32

308

-0,527

892

-0,282

687

0,91

6263

-0,801

252

640

-3,246

140,17

4114

-0,302

184

-1,644

22-1,868

95-3,455

58-1,994

76-2,540

920,17

8187

-1,060

272,10

983

-0,052

8301

-1,362

096

41-0,199

181

1,06

124

-1,336

86-0,099

0531

-0,335

269

-1,945

10,63

5635

-1,245

671,28

469

0,67

1287

-0,506

219

-0,577

277

0,94

2283

642

1,87

582

1,29

876

0,45

6242

1,52

092

0,82

5242

0,28

7893

-0,440

944

1,95

797

0,28

9187

-0,119

422

0,74

5059

1,11

234

0,09

0140

46

43-2,334

44-2,283

790,76

3652

-0,619

977

-0,289

064

-0,732

774

1,41

52-1,038

171,58

669

-0,119

221,70

361

0,84

011

0,60

7704

644

0,26

2613

3,01

561

1,31

018

1,40

401

0,55

978

1,00

650,78

6736

0,71

8503

1,33

121

0,89

6285

-0,393

228

1,05

361

0,90

7079

745

0,53

0779

0,47

7625

0,41

2877

1,83

338

0,95

7326

-0,067

8755

1,57

048

0,76

5237

0,05

1733

0,32

3563

-0,510

282

0,49

8072

1,06

657

746

-2,103

920,63

8376

-0,079

1271

0,60

5212

1,40

616

0,45

3661

-0,066

5868

0,50

9037

-0,197

069

-0,535

656

-0,263

124

-0,038

4527

0,18

6147

747

-4,057

49-1,511

220,04

4917

30,10

6034

1,26

553

1,02

371

-0,990

445

1,10

968

0,73

9371

1,17

027

-0,201

468

-0,868

864

0,95

7581

748

-3,162

290,42

0312

-0,738

013

-0,375

574

-0,727

247

0,36

9401

0,58

8803

-0,863

161,02

351

-0,138

821

-0,088

6083

0,25

6372

0,13

3302

749

-3,393

431,08

845

-0,831

538

-1,253

410,21

0505

-0,055

4015

-0,076

3907

-1,903

750,02

5112

-0,942

-0,280

944

-0,886

571

-0,552

479

750

1,19

139

1,22

537

1,73

514

1,78

471

0,99

3739

0,79

0705

0,88

1833

-0,814

253

1,38

997

1,99

828

0,62

4905

0,68

9459

1,64

018

851

-2,323

1-1,184

632,59

287

1,33

982

0,27

0411

-0,592

037

-0,758

778

-1,457

670,21

315

0,96

8477

-1,668

190,10

7753

0,84

7117

852

1,23

518

-0,152

463

0,75

911,58

115

0,42

5561

-4,039

470,64

5642

-1,201

610,51

7934

1,14

885

-0,189

698

-1,314

591,37

064

853

-0,154

612

-1,301

481,67

287

0,32

6719

0,28

034

-0,360

302

0,69

9735

-1,814

280,93

1002

-0,570

926

-0,819

902

0,25

560,38

8869

854

1,44

623

-0,590

017

2,18

464

1,48

30,40

5446

-0,040

4916

1,16

946

-1,043

150,85

6753

2,16

557

0,48

2948

0,31

8704

1,17

886

855

-0,269

493

0,27

1419

2,12

176

0,73

4052

-0,333

213

-0,229

171,04

013

-2,234

340,17

8397

0,12

7597

-0,426

538

0,34

4658

0,96

6374

856

0,23

8757

-0,899

222

2,32

858

1,12

464

0,85

3164

0,82

8158

0,54

2677

-1,108

330,45

591

0,07

7686

70,01

1962

40,39

5237

0,67

8021

857

-0,440

923

-0,019

8836

1,74

694

1,14

677

-0,224

056

-0,083

6071

-0,789

598

-1,355

140,54

7858

0,59

3202

-0,998

126

-0,111

460,21

8254

858

-3,546

53-3,087

79-3,625

45-1,640

65-2,112

45-1,638

71-1,030

34-1,625

91-0,585

83-1,471

36-1,169

89-0,836

162

-0,149

909

959

-3,502

23-2,337

92-2,524

27-1,033

33-1,586

14-1,072

98-1,164

99-0,369

161

-0,607

675

-1,042

61-0,978

751

-0,674

263

-0,125

554

960

-2,248

22-2,173

69-2,177

27-1,995

02-0,232

019

-2,283

49-0,387

918

-0,851

332

-3,146

75-0,345

106

-0,428

909

-0,966

665

-0,196

995

961

-3,545

28-3,086

4-2,525

07-2,607

18-1,001

57-2,723

77-0,953

137

-1,519

44-5,952

47-0,695

914

-0,699

754

-1,225

13-0,799

339

9

91

Page 104: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabe

la3:Có

digo

seexpressãogênica

dosd

ezprim

eiros

gene

sdaba

sede

dado

sB2

Gen

esesuas

expressões

gênicas

Amostras

0002

0017

0018

0019

0028

0075

0097

0141

0224

0231

Classe

1-4,508

51-0,337

059

-0,116

572

-3,513

51,26

755

0,48

7778

0,77

4746

-0,601

873

0,31

5961

0,46

8817

12

0,26

7668

-2,600

75-2,432

950,34

3207

-0,438

180,37

5522

-2,412

33-0,440

962

-0,910

274

-0,411

599

13

-6,197

36-1,004

59-0,523

421

-4,025

360,79

0664

0,42

316

0,60

3895

-1,109

87-0,358

966

0,55

3991

14

-3,097

17-1,099

761,47

741

-2,546

87-0,961

194

1,95

633

0,38

0296

0,80

071

-0,164

686

1,29

704

15

-3,769

181,90

559

1,66

304

-3,590

620,45

1119

0,48

9401

0,60

1008

1,75

136

1,10

089

0,40

6921

16

-4,884

8-0,371

121

1,73

563

-4,307

540,10

7885

0,27

7914

-0,704

792

1,40

622

-0,111

332

-0,497

452

17

0,41

0967

-4,702

41-2,917

120,67

6599

-2,451

78-1,827

78-3,109

15-0,853

595

-0,998

001

-1,871

131

8-4,649

781,05

331,31

886

-3,366

850,82

4513

1,36

745

0,17

9707

-0,332

799

1,13

079

0,94

1352

29

-3,939

920,18

646

1,05

696

-3,020

711,23

568

1,42

367

0,52

0937

0,94

428

0,34

3336

0,78

9843

210

-3,713

340,01

1359

22,02

081

-3,013

91-0,541

978

0,34

5248

0,29

7864

0,50

5982

0,98

5056

-0,838

194

211

-4,927

440,66

4066

1,63

741

-2,452

24-1,502

781,01

785

0,36

7203

1,28

713

-0,827

346

0,78

5339

212

-4,250

94-0,372

414

1,69

849

-3,925

81,02

431,25

030,84

7666

0,34

651

-0,664

20,40

8859

213

-4,898

470,40

8468

-0,229

39-3,375

65-0,184

535

0,58

102

0,28

5514

0,45

4732

-0,239

393

0,74

6571

214

1,26

645

-0,733

324

-1,472

071,43

666

-1,756

720,01

0556

5-0,590

777

0,29

7345

-1,208

50,07

6980

23

151,07

009

-4,704

19-1,440

961,04

022

-1,323

562,07

231

-2,806

79-2,394

3-0,666

840,58

5915

316

-0,338

11-2,620

27-0,236

484

-0,245

908

-0,986

45-0,255

764

-1,967

33-1,715

35-2,569

73-0,091

623

171,50

375

-3,917

24-2,923

731,50

194

-2,485

020,25

7606

-1,619

38-0,780

028

-0,542

577

0,20

4203

318

2,24

431

-4,341

5-2,945

592,23

819

-1,327

561,65

542

-2,896

180,87

8451

-0,801

437

-0,149

849

319

1,41

686

-3,976

08-2,016

461,50

591

-1,968

89-0,694

375

-2,434

53-1,397

34-0,705

848

0,23

6278

320

1,79

236

-4,611

55-3,041

381,61

087

-4,910

521,94

995

-2,426

950,16

0983

-0,678

181,15

541

321

-0,250

697

-2,715

82-0,796

259

-0,419

231

-2,127

61-0,826

22-0,407

514

-0,012

4978

-2,273

84-1,954

944

22-4,381

12-5,066

32-2,798

15-3,202

75-4,460

210,92

5874

0,28

3168

-0,165

052

-2,737

720,58

795

423

-3,515

77-3,537

22-3,260

23-3,355

46-2,402

25-2,642

49-1,340

95-1,520

68-2,769

37-2,633

174

24-4,017

98-4,588

58-4,311

09-3,142

21-3,931

66-3,643

05-0,527

461

-3,671

23-3,371

01-3,641

494

25-4,076

27-4,300

51-3,316

91-3,735

68-3,518

28-3,453

850,71

5167

-2,857

85-3,126

45-2,925

954

26-0,515

63-4,411

76-3,485

74-0,538

944

-1,654

69-3,991

63-3,071

2-4,373

96-2,494

94-3,028

454

27-4,448

25-0,070

5998

-0,590

805

-3,965

552,13

124

0,68

1558

0,04

6769

20,02

0018

51,12

187

0,20

1523

528

-3,292

38-0,793

769

-2,541

99-3,194

30,39

4608

-0,618

114

0,08

5187

80,17

9949

-0,541

336

-0,028

039

529

-5,433

41-0,121

207

-1,927

93-3,529

751,35

325

-3,486

290,09

0547

11,36

791

-0,298

023

-0,036

9958

530

-4,387

6-0,481

043

-0,300

642

-3,714

141,45

413

-0,402

383

-0,040

5467

-0,686

775

0,05

1411

2-0,215

646

531

-3,602

260,50

6947

-1,129

72-3,26

1,86

334

-1,635

09-0,192

461

-0,010

832

0,26

4951

0,90

3693

532

-3,219

170,06

4611

4-0,169

651

-3,299

611,14

384

0,70

4115

-0,664

243

-0,440

671

0,23

7503

0,12

7389

533

-2,852

82-0,508

199

0,09

0946

3-3,629

85-0,223

02-0,933

449

-0,535

704

0,70

8899

0,38

5015

1,13

853

534

-3,814

34-0,210

048

0,04

8828

5-3,324

610,78

0449

-0,179

484

-0,170

168

-1,274

550,23

1756

0,35

137

535

-2,435

930,28

2223

1,52

297

-1,788

810,31

4759

-0,253

444

0,82

009

2,21

143

1,13

973

0,94

7879

6

92

Page 105: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

36-1,386

29-0,612

974

-0,189

354

-1,589

09-0,224

662

1,01

911

1,07

764

0,40

9918

0,00

4748

830,47

1709

637

-2,220

66-0,859

775

0,34

4879

-1,910

981,01

039

0,50

5603

1,75

24-0,099

5294

0,71

8602

0,23

3168

638

0,75

296

-2,920

49-0,751

447

0,92

8465

-0,459

217

-2,750

17-1,218

7-0,333

738

-0,917

84-0,066

136

39-3,500

06-1,171

76-0,846

374

-4,310

560,20

9739

0,70

2584

0,97

0814

0,47

3076

0,69

259

1,35

516

640

-3,850

22-0,419

221

-2,895

-3,387

18-2,555

19-3,399

45-0,302

184

-0,055

3295

-4,358

40,92

9327

641

-2,557

37-0,544

937

1,71

558

-2,221

520,25

8625

1,86

874

-1,336

861,21

499

0,91

8059

0,50

8529

642

-3,072

89-0,922

308

0,10

3946

-3,267

66-0,357

875

0,26

4378

0,45

6242

0,84

0762

-0,381

537

0,91

5253

643

-2,669

95-0,593

702

0,52

8374

-2,246

880,24

4994

1,02

921

0,76

3652

0,77

6011

1,35

472

1,11

443

644

0,09

0369

-1,546

221,82

909

0,29

9648

2,15

323

2,47

786

1,31

018

0,94

0882

-0,000

4249

021,61

928

745

-2,040

7-0,025

6595

0,28

7134

-1,664

94-1,030

34-0,225

040,41

2877

1,55

535

-0,136

178

1,85

885

746

0,80

3413

-0,397

069

-0,796

434

0,81

7594

0,00

0907

711

0,72

2143

-0,079

1271

-0,275

441

0,08

7368

5-0,402

553

747

1,09

893

2,18

631

-1,234

111,33

306

-0,161

957

-0,815

032

0,04

4917

30,20

689

0,72

9631

0,74

1929

748

-0,152

521

-2,683

87-0,122

63-0,237

039

0,89

5815

0,43

8666

-0,738

013

-0,110

954

1,23

254

0,80

8001

749

-1,045

24-1,132

58-1,422

09-0,958

473

1,03

653

-0,689

701

-0,831

538

-0,642

301

-0,186

687

0,32

4727

750

-0,347

050,92

0139

1,20

869

-0,195

479

2,04

715

0,25

0675

1,73

514

1,53

571

1,81

311

1,34

029

851

-0,757

72-1,917

98-0,265

394

-0,710

911,06

212

0,39

7646

2,59

287

-0,229

233

-0,096

7748

0,72

6098

852

-4,702

77-2,840

481,45

396

-3,075

6-0,016

0491

0,13

0352

0,75

912,11

516

-0,450

487

1,37

938

853

-2,483

72-0,918

659

0,78

9364

-2,489

1,77

544

-0,096

5556

1,67

287

0,94

6485

-0,371

652

-0,084

9264

854

-2,992

9-0,321

648

1,35

242

-2,642

011,85

912

0,77

2677

2,18

464

1,23

691

1,15

106

0,75

8469

855

-3,100

340,15

8647

0,97

3178

-2,623

791,56

061

0,57

0008

2,12

176

0,67

0583

0,45

1686

0,43

378

856

-3,296

860,12

611

1,34

305

-3,438

221,26

926

0,61

6999

2,32

858

0,79

5452

-0,075

7759

0,58

3863

857

-0,805

609

-1,697

131,05

458

-0,645

084

1,19

090,76

5307

1,74

694

0,29

2051

0,42

9605

0,82

6174

858

0,24

414

-4,500

53-5,350

130,37

2298

-2,309

05-2,473

39-3,625

45-1,248

74-0,621

853

-1,572

749

590,53

8351

-3,673

87-3,293

060,45

3264

-1,759

37-1,576

28-2,524

27-0,625

486

-0,467

699

-1,439

549

60-0,000

7763

01-4,038

-3,310

190,16

0958

-3,270

65-2,347

85-2,177

27-2,879

-1,517

53-2,174

969

61-0,495

942

-4,640

65-5,037

25-0,143

366

-4,838

51-2,872

58-2,525

07-3,706

94-2,141

93-3,350

039

93

Page 106: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabe

la4:Có

digo

seexpressãogênica

dosde

zúltim

osgene

sda

base

deda

dosB

2

Gen

esesuas

expressões

gênicas

Amostra

0235

0246

0280

0292

0302

0409

0499

0526

0637

0843

Classe

1-0,515

733

0,92

1301

-0,040

1955

-0,183

671

0,09

9616

31,26

979

0,17

9124

0,77

547

0,86

4763

0,64

7987

12

-0,514

945

-0,122

969

0,35

8636

-2,189

12-1,502

35-0,957

949

-0,741

93-0,353

981,39

079

1,11

175

13

-1,138

051,10

688

-0,222

135

-0,532

276

-0,538

659

1,62

18-0,385

338

0,69

4388

1,11

697

0,27

0405

14

0,61

3584

0,50

2628

0,59

7919

1,17

556

1,46

077

-0,274

920,00

0975

853

1,53

539

-0,024

048

0,03

2452

81

51,57

028

2,06

523

0,67

0213

1,31

194

1,54

360,19

1686

-0,076

5836

0,53

7336

0,56

749

1,07

641

16

1,17

388

1,36

603

0,36

5911

1,42

796

1,43

696

0,40

482

-0,748

932

0,81

097

-1,156

990,61

5342

17

-1,018

37-1,489

72-1,619

5-1,568

51-1,353

6-0,360

527

-2,625

18-0,095

4974

0,58

1828

-0,192

222

18

-0,206

956

1,51

256

0,52

2783

1,20

790,91

0651

1,00

432

0,03

5480

80,57

7905

-0,951

725

1,41

272

90,73

5171

1,05

532

0,45

5076

0,93

1361

0,86

5049

0,53

5273

0,97

5584

0,51

2237

0,19

4887

0,98

2211

210

0,34

9158

0,84

9092

-0,282

803

1,49

248

1,75

127

-0,505

967

-0,138

112

0,28

0999

0,38

4641

-0,094

8019

211

0,90

1404

1,14

948

0,93

913

1,42

787

1,69

294

-0,159

616

0,65

1218

0,99

4903

0,38

2547

0,46

3685

212

0,29

231

1,04

147

0,25

9673

1,51

549

1,60

014

0,14

6323

0,57

0392

0,75

2681

-0,073

9046

1,13

354

213

0,44

4304

1,18

875

0,70

9836

0,43

3777

0,43

4897

-0,184

408

0,39

1723

1,10

974

0,25

1034

0,48

8672

214

0,17

4037

-0,433

162

0,27

555

-1,040

93-0,425

406

-0,721

133

-1,032

18-0,358

862

0,55

7731

-0,526

954

315

-1,185

34-2,331

45-1,198

83-1,622

37-1,251

17-1,392

29-0,348

718

-0,096

4686

-1,005

57-0,951

923

16-1,690

09-0,536

451

-1,084

72-0,380

437

-0,328

425

-0,848

24-0,915

682

-1,326

330,03

1729

2-0,570

794

317

-0,558

247

-2,462

83-1,324

1-1,818

61-1,635

76-0,705

241

-0,326

291

-0,829

957

0,48

2984

-0,157

082

318

0,94

0425

-1,204

44-0,202

131

-2,429

48-1,943

96-0,788

282

-0,134

581,03

244

0,19

4685

-0,157

463

19-0,577

635

-2,261

64-0,046

8545

-1,435

87-1,345

97-1,308

86-0,791

337

0,04

5774

20,39

6511

0,35

7897

320

-0,479

448

-1,832

720,26

3095

-1,171

36-1,249

6-0,283

526

0,65

8042

0,61

5285

0,61

3426

0,11

3116

321

0,04

2984

2-0,672

263

-1,055

13-0,844

333

-0,576

423

-0,313

843

-1,478

12-0,926

148

-1,376

04-1,090

164

22-0,150

066

0,83

1934

-4,373

71-1,851

19-1,685

56-1,315

49-0,815

91-1,306

770,89

2716

-1,756

184

23-1,218

56-2,409

49-1,478

57-1,881

68-1,944

08-1,536

47-2,750

69-2,304

37-1,588

67-1,837

264

24-2,863

55-1,494

15-2,681

45-1,855

01-1,869

11-1,641

62-2,433

04-2,602

34-2,340

61-1,482

984

25-2,730

31-2,782

64-1,977

88-1,650

72-0,265

489

-0,840

606

-3,164

52-2,283

18-1,923

05-1,399

114

26-2,647

58-1,394

17-2,225

38-2,114

34-1,548

39-1,495

12-1,596

26-2,285

3-2,857

7-1,822

44

27-0,137

071,25

712

-0,001

2978

8-0,550

194

-0,539

786

1,73

343

-0,173

191

-0,012

7347

1,29

602

0,47

8424

528

0,22

0008

-0,292

395

-0,401

752

-1,777

23-1,824

310,87

0253

-0,572

574

-0,202

331

1,45

603

-0,414

298

529

1,24

733

0,52

6358

-1,538

67-1,797

38-1,415

99-0,809

556

-1,810

07-0,228

377

1,29

602

0,58

9857

530

-1,098

450,72

1852

-0,039

0497

0,07

1329

-0,074

9881

0,33

696

-0,441

043

1,00

939

0,35

7202

0,34

3044

531

-0,088

1586

1,68

473

0,43

3627

-0,303

109

-0,852

309

-0,173

336

0,22

3922

0,18

4095

1,15

226

0,93

3484

532

-0,521

074

0,90

0311

0,30

1705

-0,324

231

-0,224

173

0,53

3193

-0,272

054

-0,241

965

0,24

597

1,07

669

533

0,67

8049

0,48

8721

0,37

144

0,01

2411

3-0,098

7403

2,40

047

0,23

4297

0,72

9877

0,62

5644

-0,584

566

534

-1,287

540,85

7237

-0,274

175

0,43

4505

0,00

7420

461,15

413

-0,219

753

0,16

4703

0,89

8542

1,00

901

535

2,20

137

1,58

049

1,67

931

1,44

773

1,39

261

1,10

752

0,60

7226

1,93

184

1,11

067

0,72

4547

6

94

Page 107: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

360,44

3835

0,20

2692

0,31

4256

-0,094

8575

-0,067

2807

0,09

1974

60,28

6794

0,19

2691

1,18

658

0,64

2552

637

0,07

9956

70,09

9310

2-0,361

401

0,26

3231

0,39

1199

0,43

6611

0,85

9523

-0,092

6942

0,79

9958

-0,017

8569

638

-0,206

69-2,084

62-0,483

935

-0,781

14-0,651

463

-1,212

58-0,396

336

-0,422

318

-0,099

1803

-0,109

373

639

0,01

3988

5-0,030

5028

0,78

4135

-0,868

35-0,568

267

-1,294

730,33

3106

0,07

6106

20,77

7935

0,08

7926

66

400,00

3092

37-2,509

730,01

7437

9-1,570

34-1,896

59-1,441

53-0,720

087

0,10

558

0,85

8501

-0,379

475

641

1,25

358

0,64

6247

0,41

2215

1,40

206

1,63

481

0,68

4364

0,94

1268

1,37

442

0,55

2731

0,61

3798

642

1,06

917

0,78

0539

1,15

764

0,06

0678

50,05

2400

1-0,668

131,37

872

0,56

802

0,98

0727

1,21

556

430,69

9917

-0,119

836

0,50

0983

0,60

2303

0,87

3755

0,20

443

0,56

920,47

0464

1,58

602

0,97

7005

644

1,15

069

1,11

158

1,60

627

1,88

111

1,72

065

0,37

1542

0,26

3784

1,62

342

0,24

0454

0,70

2232

745

1,22

695

1,07

920,01

6269

0,68

7002

0,38

7864

0,93

8265

0,89

4085

1,60

876

1,30

805

0,94

5032

746

0,00

6737

33-1,558

31-0,313

856

-0,757

684

-0,464

091

-0,407

693

-0,176

819

-0,726

978

-0,191

607

0,57

2707

747

0,44

8488

0,53

3118

-0,035

4362

-1,025

27-0,723

791

-0,433

021

0,03

4400

30,37

3211

-0,274

207

0,28

6855

748

-0,218

801

-0,480

561

0,86

3039

-0,090

101

-0,093

5466

0,00

3102

46-0,057

3801

-0,297

245

0,86

006

-0,343

652

749

-0,638

59-0,217

089

-0,220

408

-1,360

38-1,195

980,44

7424

-0,503

265

0,43

3422

0,24

5934

0,06

0884

77

501,44

175

0,68

7947

1,67

851,07

952

1,10

036

1,17

539

1,26

264

-0,154

571

1,42

497

0,79

5398

851

-0,014

4558

0,74

5998

1,04

923

-0,154

444

-0,346

267

0,77

2124

-0,037

6131

0,60

5829

0,38

5668

-0,386

962

852

2,01

045

0,52

5438

0,32

4409

1,19

664

1,34

072

0,42

9513

1,01

812

0,38

5935

0,68

9491

1,38

688

853

0,96

1054

0,92

634

1,09

664

0,65

1677

0,70

6478

1,34

541

-0,152

585

0,06

5711

90,06

6410

1-0,678

707

854

1,01

441

0,56

6964

1,44

021,07

258

1,10

136

0,90

853

0,73

3709

0,70

4871

0,64

0853

0,51

2456

855

0,26

0542

0,50

0643

0,41

7555

0,72

6732

0,88

5937

1,46

527

-0,143

604

0,25

1878

-0,034

5037

-0,354

784

856

0,49

4335

0,41

1906

0,18

915

0,97

1616

0,90

2151

1,93

853

-1,414

86-0,211

052

0,73

5241

0,06

1296

38

570,16

4695

0,04

5330

60,89

0685

0,95

6029

0,94

6043

0,61

9726

-0,184

181

-0,024

4084

0,93

5621

-0,528

28

58-1,439

64-1,757

54-1,836

03-1,111

22-1,994

39-1,306

37-2,468

38-0,164

288

0,36

8978

-0,245

405

959

0,00

0376

812

-0,789

906

-0,991

365

-0,461

935

-1,350

75-0,667

448

-1,860

020,33

3864

0,72

217

0,33

0521

960

-3,748

75-0,419

895

-2,513

29-0,983

59-1,879

3-3,095

97-1,145

17-2,143

24-0,671

-1,392

49

61-3,976

87-0,776

504

-3,175

69-1,387

51-1,977

72-2,151

-1,659

68-2,023

53-1,489

07-2,052

699

95

Page 108: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabe

la5:

Código

seexpressãogênica

dosno

veprim

eiros

gene

sda

base

deda

dosB

3

Gen

esesuas

expressões

gênicas

Amostra

0002

0041

0063

0097

0229

0379

0456

0475

0485

Classe

1-4,508

51-2,528

32-1,104

530,77

4746

-0,683

17-2,301

62-1,133

070,25

3977

-1,302

71

20,26

7668

-3,087

241,29

74-2,412

33-0,693

557

-0,883

685

2,53

544

-0,788

185

-0,854

117

13

-6,197

36-2,668

6-1,506

480,60

3895

-1,404

03-1,967

3-1,730

29-0,482

072

-2,064

461

4-3,097

17-2,152

46-1,827

980,38

0296

-1,908

560,86

8439

-1,353

65-0,148

024

-2,201

091

5-3,769

183,13

381

-1,834

260,60

1008

1,50

088

0,38

2379

-1,221

490,24

1089

-0,317

325

16

-4,884

8-0,342

498

-1,338

07-0,704

792

2,13

738

1,50

46-1,035

190,02

0658

6-0,865

357

17

0,41

0967

-3,470

07-2,270

14-3,109

15-2,165

59-0,420

848

0,68

51-1,528

05-1,962

871

8-4,649

781,29

692

-1,729

170,17

9707

1,18

536

-0,165

679

-0,028

420,25

6157

-1,537

42

9-3,939

92-1,720

83-0,500

528

0,52

0937

1,54

418

-0,763

413

1,21

861

0,70

2087

-0,638

692

210

-3,713

34-1,343

78-4,575

140,29

7864

1,23

02-0,815

058

0,07

1912

7-0,561

465

-1,808

472

11-4,927

44-0,060

8777

-1,999

410,36

7203

1,59

903

1,55

635

-0,772

605

0,30

0259

-0,014

546

212

-4,250

94-3,290

4-1,360

560,84

7666

2,01

684

-1,400

60,87

5864

0,00

5607

26-1,220

242

13-4,898

470,35

57-1,036

060,28

5514

1,35

518

0,06

3419

2-0,868

488

0,40

7251

-0,229

996

214

1,26

645

-2,870

560,05

6438

-0,590

777

-1,139

081,42

038

0,89

1777

0,00

9687

17-0,793

581

315

1,07

009

-3,544

7-0,180

16-2,806

79-2,070

750,33

4916

-1,480

9-1,466

42-1,291

893

16-0,338

11-3,941

17-0,198

896

-1,967

33-2,707

280,10

0886

-1,471

18-1,734

25-1,936

373

171,50

375

-3,273

320,16

4072

-1,619

38-1,447

210,89

6244

-0,585

318

-0,209

419

-1,034

793

182,24

431

-3,525

060,34

5721

-2,896

18-1,734

991,45

138

1,69

596

-1,650

7-0,714

454

319

1,41

686

-2,817

41-0,024

7991

-2,434

53-0,935

801

0,95

5075

-0,310

487

-2,707

6-0,893

618

320

1,79

236

-3,891

771,97

558

-2,426

95-2,999

051,33

129

-0,399

999

-0,277

586

-0,063

8095

321

-0,250

697

0,07

1937

5-2,763

06-0,407

514

-1,055

65-0,750

952

1,16

672

-0,792

581

0,80

9274

422

-4,381

12-3,836

13-1,416

450,28

3168

0,37

7106

-1,205

33-0,594

881,21

572

2,10

007

423

-3,515

77-3,489

03-0,338

194

-1,340

95-1,453

560,08

1743

20,64

4299

-0,552

416

2,31

652

424

-4,017

98-2,233

79-1,210

51-0,527

461

-0,683

611

1,66

608

-1,283

510,59

5915

2,58

904

425

-4,076

27-3,358

38-1,835

60,71

5167

-1,047

571,41

301

-1,016

71-0,069

9641

2,17

194

26-0,515

63-4,144

01-0,375

54-3,071

2-1,326

951,13

343

0,55

5626

-2,243

370,78

4443

427

-4,448

25-0,648

502

-1,763

190,04

6769

2-1,697

23-1,405

71-0,891

902

0,94

26-0,684

821

528

-3,292

380,24

2232

-2,298

740,08

5187

8-1,556

61-1,301

19-0,980

360,32

4644

-1,019

675

29-5,433

41-1,936

87-0,809

961

0,09

0547

1-1,093

580,05

9666

4-1,225

76-0,084

0419

-1,820

335

30-4,387

6-1,073

74-1,982

35-0,040

5467

-1,422

95-1,046

07-1,400

23-0,029

1383

-0,637

698

531

-3,602

261,57

608

-0,336

561

-0,192

461

-1,441

13-0,107

695

-1,014

860,16

7182

-0,468

927

532

-3,219

17-0,598

032

-1,484

73-0,664

243

-1,724

1-0,859

252

-0,994

975

-0,006

7568

6-1,042

675

33-2,852

82-0,758

641

-4,464

72-0,535

704

-0,967

703

-0,470

282

-1,355

131,27

071

-0,240

15

34-3,814

34-1,677

27-1,476

96-0,170

168

-0,883

976

-1,235

16-1,223

46-0,436

748

-1,668

585

35-2,435

93-0,436

431

-0,515

188

0,82

009

0,98

5526

1,66

317

-1,174

910,80

4229

-0,347

734

6

96

Page 109: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

36-1,386

29-1,767

37-1,333

051,07

764

-0,211

299

0,79

1063

-0,598

743

0,32

0321

-1,153

946

37-2,220

66-2,054

28-0,144

939

1,75

24-0,406

675

1,14

683

-0,968

743

-0,090

7589

-0,758

136

638

0,75

296

-2,762

27-2,658

54-1,218

7-0,706

613

0,39

5961

-0,344

097

0,29

2664

-0,921

065

639

-3,500

060,92

4406

4,51

673

0,97

0814

-3,076

152,49

773

1,84

698

-0,057

1699

-0,553

393

640

-3,850

22-3,775

11-1,461

91-0,302

184

0,17

3081

1,51

156

-0,971

103

-0,600

641

-1,484

896

41-2,557

370,30

7192

-3,676

32-1,336

86-0,480

241

0,26

8793

-0,071

3054

-0,262

824

-1,063

916

42-3,072

89-2,938

76-1,837

230,45

6242

-0,144

715

0,45

8751

-1,038

521,39

474

-0,921

014

643

-2,669

95-2,726

910,82

4269

0,76

3652

0,89

9415

0,99

9218

-0,440

553

0,92

4992

-0,187

128

644

0,09

0369

-2,163

742,67

404

1,31

018

-0,670

896

0,67

1503

-0,399

219

1,00

723

-0,077

8896

745

-2,040

7-0,998

101

0,32

451

0,41

2877

0,22

2206

0,79

3046

-1,960

620,94

3491

-0,944

933

746

0,80

3413

-3,392

590,90

3812

-0,079

1271

-1,289

7-0,446

136

-0,145

526

-0,025

3096

-1,166

517

471,09

893

-2,795

071,54

208

0,04

4917

3-0,761

665

-0,595

433

-0,727

845

0,37

3393

-0,766

875

748

-0,152

521

-2,577

561,70

697

-0,738

013

-1,113

290,30

0915

-1,216

19-0,128

055

-1,283

337

49-1,045

24-3,324

761,53

542

-0,831

538

-1,343

760,00

6076

64-1,325

570,41

5411

-1,176

37

50-0,347

050,12

6747

-0,587

027

1,73

514

-1,113

920,66

8416

-0,411

544

0,41

2843

-0,647

733

851

-0,757

721,11

612

-0,510

696

2,59

287

-1,295

5-1,858

66-2,552

550,52

4935

-1,343

38

52-4,702

77-2,438

03-1,226

220,75

911,43

544

2,01

47-1,359

850,06

6686

1-1,080

548

53-2,483

720,16

8968

-2,711

161,67

287

0,94

4128

-1,400

27-1,840

6-0,498

949

-1,433

988

54-2,992

90,00

1329

52-1,557

082,18

464

0,74

6293

0,08

0575

10,21

4438

0,23

8967

-0,422

169

855

-3,100

340,92

6016

-1,731

792,12

176

0,38

0485

-0,997

61-1,289

980,49

072

-0,989

493

856

-3,296

86-3,665

08-0,453

838

2,32

858

-0,520

676

-1,459

7-1,242

56-0,114

044

-1,073

168

57-0,805

609

-0,509

364

-1,539

391,74

694

-1,972

210,29

6118

-1,702

720,22

0399

-1,222

228

580,24

414

-4,190

64-1,854

19-3,625

45-2,033

89-0,858

030,98

2003

-1,252

92-1,406

539

590,53

8351

-3,189

97-3,020

91-2,524

27-1,742

69-0,153

515

0,68

4054

-0,413

168

-0,652

202

960

-0,000

7763

01-2,909

50,70

997

-2,177

27-1,757

211,30

706

1,25

025

-3,232

331,22

267

961

-0,495

942

-3,670

04-0,034

1226

-2,525

07-1,053

131,06

761,09

423

-4,188

60,50

919

9

97

Page 110: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabe

la6:Có

digo

seexpressãogênica

dosoito

últim

osgene

sda

base

deda

dosB

3

Gen

esesuas

expressões

gênicas

Amostra

0525

0531

0637

0721

0786

0870

0890

0929

Classe

1-0,342

740,22

6085

0,86

4763

1,50

271

0,71

234

1,15

217

0,40

4458

-0,486

982

12

-0,075

1498

0,24

8734

1,39

079

0,26

6416

-0,050

0898

0,00

2839

3-0,306

922

0,14

3486

13

-0,742

543

0,41

9914

1,11

697

1,68

135

0,51

6872

1,12

689

-0,650

673

-0,567

731

4-0,849

267

0,87

4263

-0,024

048

0,32

5731

0,29

8347

0,83

0463

1,15

90,08

838

15

0,91

0028

1,35

653

0,56

749

0,76

8198

1,50

777

0,48

8041

0,67

8679

0,09

0946

21

60,77

2914

0,29

5314

-1,156

990,30

9573

1,54

846

1,12

688

1,29

196

0,61

2791

17

-1,167

93-1,260

330,58

1828

-0,874

761

-1,054

24-0,708

219

0,22

7464

-0,752

572

18

0,72

8028

2,97

911

-0,951

725

-0,350

192

0,24

2187

2,07

317

0,78

7704

0,49

9288

29

0,80

4104

0,81

3123

0,19

4887

-0,403

697

-0,876

943

1,99

649

0,93

556

0,21

8734

210

-0,627

531

-1,346

020,38

4641

-0,589

293

0,96

8493

0,24

069

-0,368

826

0,39

3078

211

0,47

8564

2,00

909

0,38

2547

0,02

3364

-0,651

698

0,72

531

-0,026

0698

0,48

2588

212

0,61

9733

0,27

9664

-0,073

9046

-0,384

601

-1,744

381,64

153

1,32

416

0,31

967

213

0,86

5112

1,19

911

0,25

1034

0,32

9994

-0,430

974

1,31

909

0,02

0805

90,34

5522

214

-0,222

525

0,52

4755

0,55

7731

-0,338

098

0,06

6861

3-0,461

642

0,94

3419

0,81

1608

315

-0,740

761

-0,420

995

-1,005

57-0,680

318

1,29

371

-1,135

670,08

2206

1-1,018

823

16-1,470

44-0,991

887

0,03

1729

2-0,471

803

-0,794

357

-1,632

2-1,195

27-0,638

073

317

-0,476

278

-0,159

554

0,48

2984

-0,189

103

0,46

9378

-0,190

227

-0,489

558

-0,269

691

318

-0,363

043

0,25

1814

0,19

4685

1,48

121

0,01

2759

5-0,665

707

1,39

130,20

0639

319

0,09

0949

40,50

2212

0,39

6511

-0,611

977

-0,325

317

-0,754

419

-1,051

49-0,148

307

320

0,58

5554

1,25

937

0,61

3426

0,17

1295

1,21

783

0,09

1149

5-0,488

017

0,33

498

321

-0,994

972

-0,047

5314

-1,376

04-1,403

380,04

9823

6-0,482

63-0,681

265

-0,173

116

422

-0,040

3817

0,19

3005

0,89

2716

-0,839

313

0,97

5476

-0,314

582

-1,976

320,68

6159

423

-1,073

53-0,271

704

-1,588

67-0,079

441

0,20

3455

0,00

3367

86-1,121

960,27

9146

424

-0,637

169

-0,059

5157

-2,340

610,76

2345

-1,236

19-0,389

625

-0,733

183

-0,214

183

425

0,02

7684

0,28

6907

-1,923

050,27

2856

-1,494

18-0,817

086

-0,541

836

0,06

7315

44

26-1,083

540,14

0835

-2,857

70,22

31-0,915

117

-0,851

546

-1,012

610,01

7415

74

270,08

2674

30,14

6953

1,29

602

1,73

229

1,29

134

0,70

6108

0,74

0924

0,61

5231

528

-0,395

351

-0,122

192

1,45

603

1,86

567

0,10

062

0,18

0805

0,64

7504

-0,319

451

529

-0,278

504

0,36

6459

1,29

602

2,55

948

0,14

013

0,97

713

0,29

1277

0,65

8379

530

-0,222

466

-0,008

9293

50,35

7202

1,75

981

0,37

1587

2,06

302

0,03

5574

1-1,410

935

310,02

6961

10,42

3546

1,15

226

1,88

030,12

5448

1,80

607

-0,064

4408

-0,822

778

532

-0,215

317

0,25

9296

0,24

597

1,62

243

-0,429

031

0,52

4412

0,10

0622

-0,168

547

533

-0,596

783

0,31

7561

0,62

5644

1,09

604

-0,207

13-0,403

128

-0,092

2052

0,42

7898

534

-0,746

354

0,15

1035

0,89

8542

1,91

113

0,69

9588

1,01

546

0,44

2522

-1,204

455

350,24

4216

2,37

495

1,11

067

0,29

8101

0,99

684

1,17

266

1,26

811,35

781

6

98

Page 111: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

36-0,621

673

0,49

9473

1,18

658

0,19

6106

0,98

067

-0,314

285

-1,488

460,25

4491

637

-0,952

280,14

6302

0,79

9958

0,13

2907

0,13

6013

-0,441

987

-0,939

279

1,26

553

638

-0,550

086

0,30

0122

-0,099

1803

-0,970

357

0,90

0778

-0,500

487

-1,122

69-0,597

517

639

-5,501

2-2,077

780,77

7935

0,48

3952

0,04

7671

20,01

6806

9-0,713

809

0,32

0174

640

1,53

309

0,48

4279

0,85

8501

1,59

887

-1,944

47-1,415

23-0,828

002

1,02

142

641

-0,208

807

1,33

170,55

2731

0,94

7681

0,92

6666

0,97

5643

-0,709

232,23

521

642

-0,302

731

0,71

5826

0,98

0727

0,26

3438

-0,008

4857

40,19

6704

-1,396

340,74

4581

643

1,20

451

1,46

404

1,58

602

1,04

283

2,18

708

0,53

3722

-0,875

466

1,12

093

644

0,64

2603

1,39

770,24

0454

1,15

181

0,84

9571

-0,225

222

-0,769

242,60

042

745

-1,126

970,57

5814

1,30

805

1,48

436

-0,174

304

-0,109

13-0,614

419

0,65

8237

746

0,77

4201

-0,014

5072

-0,191

607

-0,102

460,21

5837

-0,118

28-0,691

352

-0,487

457

747

1,43

953

0,10

6395

-0,274

207

-0,817

699

0,20

8731

0,21

093

-0,728

166

-0,034

0787

748

-1,225

80,56

1699

0,86

006

-0,428

225

1,55

31-0,445

368

-0,929

281

-0,145

585

749

-0,279

961

-0,338

307

0,24

5934

-0,432

619

-0,965

539

-0,581

884

-1,377

41-0,289

138

750

0,57

5231

4,96

096

1,42

497

1,05

185

0,95

1399

0,32

5106

0,28

1058

1,01

376

851

-1,478

2-0,234

988

0,38

5668

0,15

1716

-0,104

245

-0,130

42-1,650

96-1,137

678

52-0,319

569

1,25

405

0,68

9491

1,47

288

-0,465

439

0,29

5017

0,02

2364

71,04

232

853

-0,711

824

-0,139

605

0,06

6410

1-0,191

405

-0,052

3665

0,22

2589

-1,062

72-0,352

899

854

0,23

7857

0,71

673

0,64

0853

1,45

947

1,28

062

0,19

5471

-0,651

795

1,00

524

855

-0,490

034

0,19

8918

-0,034

5037

0,45

4319

0,19

6879

0,29

7011

-0,564

416

0,25

1085

856

0,00

9713

88-0,139

301

0,73

5241

0,40

8146

0,13

4313

-0,002

9957

1-0,990

56-0,355

118

857

-1,092

050,13

9997

0,93

5621

0,97

2988

-0,383

086

-1,109

21-1,131

120,34

4182

858

-0,924

537

-0,212

501

0,36

8978

-1,087

86-1,146

11-0,340

339

0,59

33-1,514

519

59-0,809

208

-0,029

5062

0,72

217

-0,286

489

-0,677

789

-0,397

545

0,89

9428

0,37

6444

960

-1,564

96-0,147

492

-0,671

0,43

0535

-0,712

466

-0,456

266

-0,725

124

-2,130

249

61-1,594

69-0,565

252

-1,489

07-0,101

767

-1,247

92-0,735

205

-1,387

96-0,578

589

9

99

Page 112: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabe

la7:Có

digo

seexpressãogênica

dosg

enes

daba

sede

dado

sB4

Gen

esesuas

expressões

gênicas

Amostra

0011

0046

0177

0289

0306

0336

0380

0499

0661

0783

0865

0950

Classe

1-0,103

522

-2,488

380,17

6967

-2,074

22-0,924

886

0,95

9412

-1,915

270,17

9124

0,15

0177

-0,479

867

0,32

9944

0,31

6965

12

-2,214

18-1,306

46-0,888

01-2,208

30,55

5071

-1,024

170,25

2388

-0,741

930,90

1572

0,25

0217

0,66

6481

0,88

1566

13

-0,829

12-2,648

21-0,319

92-3,260

92-1,385

750,51

3009

-3,313

15-0,385

338

-0,438

888

-0,928

142

-0,052

4833

0,15

5949

14

-3,513

91-2,366

971,18

908

-0,954

262

-0,735

781

0,33

4405

0,11

7847

0,00

0975

853

-1,465

590,04

3204

4-0,734

477

-0,040

1793

15

2,02

585

1,73

176

1,97

470,05

3392

6-1,305

940,58

0403

-0,280

089

-0,076

5836

0,37

2751

-0,682

724

0,63

2387

0,54

9099

16

0,33

6447

-0,014

0956

1,22

492

0,49

1263

-2,670

64-0,429

315

0,16

5418

-0,748

932

0,31

4684

-0,083

4582

-0,122

622

0,49

0055

17

-3,807

93-2,017

08-2,573

59-1,305

18-0,139

116

-1,515

980,35

6728

-2,625

18-1,481

54-0,795

396

-1,085

43-0,109

984

18

1,40

794

2,70

436

0,40

8334

-1,626

07-3,102

080,58

7364

-2,178

830,03

5480

8-0,174

667

0,11

7736

0,08

8305

0,13

5017

29

0,58

6283

1,06

841

-1,125

26-1,250

22-0,289

796

0,68

5389

0,17

4856

0,97

5584

-1,172

610,74

6857

0,33

530,49

1329

210

2,00

007

2,00

387

-0,381

004

-1,906

2-2,987

320,33

4627

-0,725

257

-0,138

112

-1,131

35-1,187

42-0,232

572

-0,278

412

110,49

241

2,27

148

0,74

5534

-0,615

864

-1,688

010,40

0118

0,26

8942

0,65

1218

-0,230

067

0,61

9998

0,73

2934

0,92

0534

212

0,47

1609

0,96

2593

-1,557

39-2,517

1-1,095

250,76

577

-0,939

498

0,57

0392

-0,431

971

0,48

9305

-0,495

295

0,46

5243

213

2,18

319

2,60

307

0,88

0008

-0,598

794

-1,716

490,09

7407

10,60

3713

0,39

1723

-0,554

770,37

3359

1,16

762

5,38

997

214

-2,692

13-0,793

645

-1,103

740,48

4663

1,47

899

-0,457

014

1,13

982

-1,032

180,12

4446

0,28

3804

0,02

0558

60,52

1259

315

-2,292

05-1,343

81-0,882

882

-0,217

442

1,12

258

-2,539

590,44

6929

-0,348

718

-1,612

94-0,199

066

-1,235

63-0,526

895

316

-4,292

16-2,255

07-2,492

460,15

7092

-0,504

88-1,658

77-0,872

941

-0,915

682

-1,255

7-1,097

91-2,012

37-0,969

143

317

-2,035

7-1,080

97-0,786

041

0,40

6382

0,25

9164

-1,317

150,33

3941

-0,326

291

0,84

8475

0,53

774

-0,862

668

0,22

7918

318

-3,388

21-1,122

64-0,219

609

0,16

7933

1,22

098

-1,666

790,53

1316

-0,134

580,79

5706

-0,236

675

0,36

8894

0,88

1061

319

-2,844

01-1,152

93-1,030

540,60

8268

0,48

2787

-2,135

640,01

9836

4-0,791

337

-0,587

042

0,42

4831

-1,347

990,36

0368

320

-3,689

07-4,190

630,22

7054

0,09

7480

82,10

709

-0,881

080,49

6236

0,65

8042

-1,256

111,52

144

-0,919

440,54

0566

321

-2,879

48-0,621

942

-1,624

67-0,586

813

-1,076

3-0,357

629

-0,101

685

-1,478

12-0,408

847

-0,849

783

0,29

4804

0,05

6072

24

22-6,158

68-1,798

96-0,558

465

2,39

585

-1,291

140,21

6313

0,81

8326

-0,815

91-0,984

011

-0,463

078

0,46

2982

0,68

6806

423

-3,762

53-0,938

614

-3,258

910,63

1448

-2,360

1-0,944

374

0,39

111

-2,750

69-1,404

8-1,023

960,19

5634

0,10

6811

424

-4,142

99-0,538

856

-1,773

291,04

189

-0,703

71-0,363

397

0,74

3707

-2,433

04-1,341

930,35

585

0,64

798

0,51

2498

425

-3,287

05-1,370

7-1,950

251,63

402

0,22

9056

0,69

2486

0,87

6797

-3,164

52-1,725

12-0,415

365

0,19

4832

0,71

4595

426

-3,089

38-1,422

15-2,920

28-0,831

813

-1,448

95-1,372

630,00

2834

97-1,596

26-0,376

525

0,38

9742

1,46

650,22

8567

427

1,17

806

-1,132

68-0,212

427

1,99

245

-2,922

4-0,119

626

-2,566

29-0,173

191

-0,791

282

-1,636

450,74

6923

0,72

0839

528

-0,410

018

-0,411

902

-1,104

28-1,238

46-2,526

930,27

0167

-2,979

11-0,572

574

-0,317

532

-0,103

838

-0,025

4608

0,56

4717

529

-1,493

99-2,397

73-0,650

742

2,54

113

-2,576

630,70

3971

-3,286

49-1,810

07-0,226

765

-0,915

591

-0,676

565

0,21

5229

530

0,39

3862

-1,365

44-0,341

117

0,29

2586

-1,187

58-0,047

1184

-1,396

94-0,441

043

0,05

5679

-0,125

704

-0,456

401

0,39

3523

531

0,92

3374

-0,996

664

0,13

8396

1,25

614

-1,428

64-0,166

603

-1,484

790,22

3922

-0,039

8563

-0,020

5932

0,36

8428

1,05

965

532

0,08

5504

6-0,739

171

-0,269

847

0,39

5048

-1,641

37-0,401

288

-2,650

5-0,272

054

-1,094

16-1,155

19-0,896

413

0,17

9421

533

-1,055

59-0,863

154

0,67

3953

0,71

7859

-1,316

97-0,346

321

-0,756

546

0,23

4297

-0,645

9-0,002

5834

60,08

3739

70,08

3673

45

34-0,384

449

-0,416

057

-1,211

53-0,733

935

-1,020

140,45

6665

-2,251

05-0,219

753

-0,799

929

-0,408

618

-0,318

20,03

5387

535

0,31

306

0,69

7408

1,72

724

0,73

4916

0,62

7948

0,74

885

-0,344

213

0,60

7226

-0,318

526

-0,236

7-0,232

541,45

546

36-2,507

61-0,120

982

-0,486

662

-0,464

893

-0,783

659

0,95

3878

-0,387

236

0,28

6794

-0,312

372

1,27

622

-0,667

667

0,58

0942

637

-2,425

24-0,164

986

-0,601

221

0,58

409

-0,893

132

1,59

602

-0,404

837

0,85

9523

-0,393

439

1,16

599

-1,035

350,59

2844

6

100

Page 113: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

38-2,413

94-1,141

52-1,178

27-1,221

45-0,510

174

-1,099

05-0,286

842

-0,396

336

-1,527

03-0,460

737

-1,464

65-0,753

949

639

-2,673

37-4,851

06-0,434

891

0,57

0793

-0,091

4322

1,29

077

0,57

3653

0,33

3106

-1,496

28-0,843

176

-1,210

340,14

602

640

-3,246

14-1,079

68-0,831

468

-1,994

760,53

1332

-0,249

754

-0,799

438

-0,720

087

0,23

0159

-0,235

537

-0,851

123

-0,097

7335

641

-0,199

181

2,27

561

1,02

125

0,63

5635

-0,255

267

-1,844

84-0,195

853

0,94

1268

-0,238

748

0,22

2077

-0,206

601

-0,153

513

642

1,87

582

-1,314

430,35

9139

-0,440

944

-0,717

543

0,39

9384

-0,435

952

1,37

872

-0,174

989

-1,287

54-1,588

5-0,061

5455

643

-2,334

440,71

6273

0,74

4879

1,41

52-0,424

991

0,85

7202

0,10

7447

0,56

920,65

671

1,23

678

0,00

9292

231,11

083

644

0,26

2613

1,95

457

0,95

9328

0,78

6736

0,61

9025

1,06

336

0,28

7557

0,26

3784

1,52

805

0,69

0394

0,15

2091

1,51

547

450,53

0779

2,10

995

2,22

554

1,57

048

0,06

8261

40,36

0342

-0,312

103

0,89

4085

1,01

768

0,66

4355

-0,397

782

0,66

7135

746

-2,103

92-0,344

371

0,48

3867

-0,066

5868

0,62

1992

-0,515

484

0,70

9341

-0,176

819

0,64

3673

0,06

9631

7-0,776

344

-0,330

831

747

-4,057

490,57

678

-0,264

026

-0,990

445

0,36

0804

0,17

2254

1,17

078

0,03

4400

31,99

257

0,46

818

-0,604

145

0,96

6317

748

-3,162

290,70

144

0,66

4467

0,58

8803

0,00

5108

69-0,683

513

-0,113

256

-0,057

3801

-0,837

996

-2,379

3-1,572

85-0,085

6573

749

-3,393

43-0,656

646

-0,137

477

-0,076

3907

-0,411

465

-0,744

654

0,29

2118

-0,503

265

-0,594

271

0,26

0469

-1,477

53-0,041

6137

750

1,19

139

2,48

906

1,78

815

0,88

1833

-0,101

481,57

285

0,94

5307

1,26

264

0,24

8347

2,04

276

-1,099

250,76

1662

851

-2,323

11,21

790,32

6187

-0,758

778

-1,101

942,43

630,07

9893

3-0,037

6131

1,22

505

0,86

6978

-1,370

84-0,357

101

852

1,23

518

3,27

244

1,34

967

0,64

5642

-3,212

90,75

9319

-0,023

826

1,01

812

-0,118

074

-0,347

821

-0,916

156

0,17

3905

853

-0,154

612

0,80

9561

0,63

9092

0,69

9735

-2,687

451,28

848

-0,494

016

-0,152

585

-0,713

812

1,85

276

-1,181

89-0,284

966

854

1,44

623

1,26

268

1,45

025

1,16

946

-0,199

099

1,74

010,34

2975

0,73

3709

1,27

224

1,71

161

-0,496

770,12

6953

855

-0,269

493

1,69

096

1,23

719

1,04

013

-1,806

721,66

425

0,09

7234

7-0,143

604

0,74

9387

0,76

6306

-0,866

869

0,38

0299

856

0,23

8757

1,09

746

0,27

1356

0,54

2677

-0,804

326

2,06

999

0,23

0407

-1,414

86-1,098

251,28

228

-1,084

95-0,263

232

857

-0,440

923

1,45

720,29

5587

-0,789

598

-1,043

641,35

565

0,40

2032

-0,184

181

0,39

1813

1,28

835

-2,274

81-0,345

308

858

-3,546

53-1,784

67-2,616

57-1,030

340,11

0498

-2,430

661,24

889

-2,468

38-3,487

37-0,495

359

-1,201

-0,384

081

959

-3,502

23-1,250

66-2,265

39-1,164

990,37

8708

-1,811

021,06

597

-1,860

02-0,858

616

-0,278

594

-1,050

760,11

2206

960

-2,248

22-1,103

86-2,571

93-0,387

918

-0,634

427

-1,164

50,58

0011

-1,145

170,11

9495

0,79

5191

1,79

798

0,30

6238

961

-3,545

28-1,234

43-3,078

56-0,953

137

-1,523

16-1,386

22-0,020

8435

-1,659

68-0,663

206

0,53

0379

0,95

5755

-0,395

708

9

101

Page 114: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

APÊNDICE C

Algorimos Genéticos Multi-Objetivos

Devido a sua forma de trabalhar com uma gama de soluções a cada geração, os AGs sãocapazes de encontrar várias soluções não dominadas ao longo do processo de otimização.Essa propriedade aliada a sua adaptabilidade a diferentes tipos de problemas, tornam osAGs importantes ferramentas de otimização multiobjetivo.

Muitos problemas do mundo real envolvem uma otimização simultânea de múltiplosobjetivos [48], isto é, existem vários critérios que devem ser balanceados. Na otimizaçãode um único objetivo, tenta-se obter o melhor resultado, ou a melhor decisão, o queusualmente é o mínimo ou o máximo global. No caso de múltiplos objetivos, pode nãohaver uma melhor solução (ótimo global) com respeito a todos os objetivos. Em umproblema de otimização multi-objetivos, existe um conjunto de soluções que são superioresàs demais dentro de um espaço de busca onde todas as possíveis soluções são consideradas[99]. Esse conjunto de soluções é conhecido como o Ótimo de Pareto ou soluções nãodominadas [102].

Ótimo de ParetoO Ótimo de Pareto foi formulado pelo sociólogo e economista Vilfredo Pareto (1848 -

1923) e tornou-se o princípio de otimização quando há a competição de múltiplos objetivos.A solução ótima de Pareto não é única, mas sim, um conjunto de pontos os quais são

considerados igualmente bons em função do vetor objetivo. Esse espaço pode ser vistocomo um espaço de busca de soluções, no qual cada objetivo poderia ser aperfeiçoado,mas seria melhorado às custas de pelo menos outro objetivo [100].

Não dominância versus dominânciaA busca pelo ótimo de Pareto tem sido conhecida como otimização simultânea de

múltiplos objetivos. Uma conceituação alternativa seria pensar que uma solução é a ótimade Pareto se, para um dado conjunto de objetivos, não exista nenhuma outra solução queseja superior a ela, considerando-se todos os objetivos [102]. Para elucidar este conceitoserá utilizado como exemplo a compra de um automóvel, onde várias decisões precisam

102

Page 115: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

ser tomadas, priorizando custo ou conforto, fatores estes con�itantes. A �gura 1 ilustravárias opções de escolha [2].

Figura 1: Exemplo que ilustra várias opções de compra de automóvel (1-5), considerando o seu custo econforto [2]

Neste exemplo, o objetivo é minimizar o custo e maximizar o conforto. Neste caso,existem cinco opções de compra. Intuitivamente, descarta-se a solução 1, já que a solução5 oferece mais conforto pelo mesmo custo. A solução 2 também é descartada pela mesmarazão. Restam então três boas alternativas de compras: 3, 4 e 5. Em termos quantitativosnenhuma solução é melhor que a outra, pois o acréscimo no nível de conforto do automóveltraz consigo um aumento no custo do mesmo. Em raciocínio análogo, ao diminuir o custodo automóvel, diminui-se também o nível de conforto do mesmo [2].

Em outras palavras, a solução ótima de Pareto seria aquela para a qual não existaoutra no espaço de busca que a domine. Similarmente, uma solução não é consideradauma solução ótima de Pareto se ela for categoricamente dominada por, pelo menos, umasolução do conjunto de candidatas. Quando consideramos soluções dominadas, devemospensar que diferentes níveis de dominância são possíveis. Uma solução dominada serásempre categoricamente inferior às soluções não dominadas do conjunto de soluções doótimo de Pareto. Entretanto, uma solução dominada pode também dominar outra solução.Por exemplo, a solução 1 é dominada pela solução 5 e domina a solução 2. Esses níveis dedominância permitem caracterizar totalmente o grupo de soluções, separando-as dentro defronteiras de não dominância, que inclui a fronteira correspondente aos ótimos de Pareto.

103

Page 116: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Esse aspecto do paradigma é muito importante no projeto de um Algoritmos Genético paraProblemas Multi-objetivos (AGMO). Usando o conceito de não doninância e dominância,a análise de Pareto pode ser simpli�cada como a busca da não dominância. A buscaconsiste em classi�car as soluções candidatas em grupos de soluções não dominadas, poissão elas as favoritas. Dessa forma, a otimização de Pareto pode ser vista como umaotimização clássica, onde a dominância global é o atributo desejado [100]. Se os pontosnão dominados estão em um espaço contínuo, pode-se desenhar uma curva. Todos ospontos contidos na curva formam a Frente de Pareto ou Fronteira de Pareto [2].

O AG requer uma informação de avaliação escalar para poder trabalhar. Isso signi-�ca dizer que, para a solução de problemas envolvendo múltiplos critérios, necessitamosescalonar um vetor de objetivos. Um dos problemas, é que nem sempre é possível deri-var um critério global baseado na formulação do problema. Na ausência de informação,os objetivos tendem a ter uma importância equivalente. Por outro lado, quando temosuma certa compreensão do problema, podemos combiná-los de acordo com a informaçãoexistente, provavelmente atribuindo maior importância a alguns objetivos. Otimizar umacombinação de objetivos tem a vantagem de produzir apenas uma solução simples, nãoexigindo uma iteração posterior para a tomada de decisão [101].

A utilização de AGs como método de otimização permite que uma abordagem efeti-vamente multi-objetivos, levando-se em consideração os conceitos de dominância e ótimode Pareto, seja utilizada sem a necessidade de se combinar os objetivos através de pe-sos de importância relativa. Nos últimos anos muitos pesquisadores têm modi�cado asidéias iniciais propostas por Goldberg em seu livro [50] para tratamento de problemasmulti-objetivos. Podemos citar alguns desses principais métodos:

• VEGA (Vector Evaluated Genetic Algorithms) [105]

• Agregação dos objetivos por pesos variáveis [106]

• MOGA (Multi-objective Optimization Genetic Algorithm) [101]

• NPGA (Niched Pareto Genetic Algorithm) [107]

• NSGA (Nondominated Sorting Genetic Algorithm) [99]

104

Page 117: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

• SPEA (Strength Pareto Evolutionary Algorithm) [108]

• PAES (Pareto Archieved Evolution Strategy) [110]

• NSGA-II (Nondominated Sorting Genetic Algorithm II) [111]

• PESA (Pareto Enveloped-based Selection Algorithm) [112]

• SPEA2 (Strength Pareto Evolutionary Algorithm 2) [113]

• PMOGA (Pareto Multiobjective Genetic Algorithm) [48]

105

Page 118: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

APÊNDICE D

Tabela 8: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 0,944 0,472 0,921 0,406 1 02 1 0 1 0,5 1 0,9523 1 0,5 1 0,875 1 0,6334 1 0 1 1 1 15 1 0,941 1 1 1 0,2836 1 0,431 0,892 0,489 0,969 0,2837 1 0,5 1 0,938 0,971 18 1 0,667 1 1 1 0,859 1 0,947 1 0,941 1 0,952

Tabela 9: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B3

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 1 0 0,947 0 1 0,32 1 1 1 1 1 13 1 0,472 1 0,938 1 0,6334 1 0 1 1 1 0,9525 1 1 1 1 1 0,3336 1 0,667 0,973 0,622 1 0,3177 1 0,472 1 0 1 0,4528 1 0,667 1 0,875 1 0,69 1 0 1 1 1 0,905

106

Page 119: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 10: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B4

Experimento 12->3 Experimento 13->1 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 0,917 0,444 0,812 0 0,971 0,32 1 1 1 1 1 13 1 0,778 1 1 1 0,3334 1 0,444 1 0,438 1 0,9525 1 1 1 1 1 0,956 1 0,314 0,973 0,267 0,937 07 1 0,5 1 0,469 1 0,4768 1 0,667 1 0,938 1 0,6679 0,974 1 1 0 1 0,952

Tabela 11: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 0,861 0,417 1 0 1 0,3332 1 1 1 1 1 13 1 0,5 1 0,438 1 0,6334 1 0 1 1 1 0,55 1 1 1 1 1 0,2836 1 0,667 0,973 0,667 1 0,3337 1 0,5 1 0,5 1 0,58 1 0,667 1 1 1 0,959 1 0,947 1 0 1 0,952

Tabela 12: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B3

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 1 0 0,921 0 1 0,5332 1 1 1 1 1 13 1 0,889 1 0,938 1 0,6334 1 0 1 1 1 0,9525 1 0,549 1 1 1 0,3336 1 0,627 1 0,622 1 0,3177 1 0,5 1 0,5 1 0,9528 1 0,667 1 1 1 0,5679 1 0 1 0 1 0,952

107

Page 120: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 13: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B4

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 0,944 0 0,921 0,375 1 0,3172 1 1 1 1 1 13 1 0,5 1 1 1 14 1 0,444 1 0,438 1 0,55 1 1 1 1 1 0,956 1 0,275 1 0,222 1 0,3337 1 0,5 1 0,938 1 0,4768 1 0,667 1 0,875 1 0,959 1 1 1 0 1 0,905

Tabela 14: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B3

Experimento 12->3 Experimento 13->1 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 1 0 0,947 0,375 1 0,3172 1 1 1 1 1 13 1 0,5 1 0,875 1 0,6334 1 0 1 1 1 0,9525 1 0,549 1 1 1 0,3336 1 0,275 0,973 0,933 1 0,3337 1 0,944 1 0 1 0,4528 1 0,667 1 0,875 1 0,959 1 0 1 1 1 1

Tabela 15: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B4

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 0,972 0 0,974 0 1 0,2832 1 1 1 1 1 13 1 0,5 1 0,875 1 0,6334 1 0 1 1 1 15 1 1 1 1 1 0,956 1 0,275 1 0,289 1 0,3337 1 0,944 1 0,938 1 0,4768 1 0,667 1 0,875 1 0,859 1 1 1 1 1 0,952

108

Page 121: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 16: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B3B4

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 1 0 0,947 0,344 1 0,32 1 1 1 1 1 13 1 0,5 1 1 1 0,6334 1 0 1 1 1 0,9525 1 0,882 1 1 1 0,3336 1 0,588 1 0,578 1 0,6337 1 0,944 1 0,938 1 0,4768 1 0,667 1 0,938 1 0,6679 1 0 1 0 1 0,952

Tabela 17: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B3

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 0,972 0 0,974 0 1 0,32 1 1 1 1 1 13 1 0,5 1 0,938 1 0,6334 1 0 1 1 1 0,9525 1 0,549 1 1 1 0,3336 1 0,314 1 0,622 1 0,3337 1 0,944 1 0,5 1 0,9528 1 0,667 1 1 1 0,859 1 0 1 0 1 0,952

Tabela 18: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B4

Experimento 12->3 Experimento 13->1 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 0,972 0,389 0,947 0,344 1 0,3172 1 1 1 1 1 13 1 0,5 1 0,875 1 0,6334 1 0 1 1 1 0,55 1 1 1 1 1 0,956 1 0,51 1 0,533 1 0,3337 1 0,833 1 0,938 1 0,4768 1 0,667 1 0,938 1 0,859 1 0 1 0 1 0,952

109

Page 122: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 19: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B3B4

Experimento 12->3 Experimento 13->1 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 1 0 0,947 0 1 0,32 1 1 1 1 1 13 1 0,889 1 0,938 1 0,6334 1 0 1 1 1 0,9525 1 0,882 1 1 1 0,3336 1 0,275 1 0,289 1 0,3337 1 0,5 1 0,938 1 0,9528 1 0,667 1 0,938 1 0,3339 1 0 1 0 1 0,952

Tabela 20: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B2B3B4

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 0,972 0,444 1 0 1 0,2672 1 1 1 1 1 13 1 0,5 1 0,875 1 0,6334 1 0 1 1 1 0,9525 1 0,882 1 1 1 0,3336 1 0,588 1 0,578 1 0,37 1 0,5 1 0,938 1 0,4768 1 0,667 1 0,938 1 0,859 1 0 1 1 1 0,952

Tabela 21: Aptidão de treinamento e aptidão de teste das melhores regras evoluídas na base B1B2B3B4

Experimento 12->3 Experimento 13->2 Experimento 23->1Classes AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste AptidaoTrein AptidaoTeste

1 1 0 0,974 0 1 0,52 1 1 1 1 1 13 1 0,472 1 0,938 1 0,6334 1 0 1 1 1 0,9525 1 0,667 1 1 1 0,3336 1 0,549 1 0,289 1 0,3337 1 0,389 1 0,938 1 0,9528 1 0,667 1 0,5 1 0,6679 1 1 1 0 1 1

110

Page 123: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

APÊNDICE E

Tabela 22: Melhores regras encontradas na base de dados B1B2

Classe Regras AptTrein AptTeste

1 if(28<0,8) and (75≥0,2) and (280≥-0,3) and (499<0,1) and (843≥0) 1 0,3332 if(11≥0,4) and (289<-0,5) 1 1

if(11≥0,4) and (637<0,4)if(839≥0,5) and (637<0,4)

3 if(2≥1) 1 0,633if(19≥1)

4 if(19<-0,4) and (526<-0,8) 1 1if(19<-0,4) and (843<-1)if(50≥-2) and (843<-0,9)if(224<-2,2) and (843<-0,8)if(366≥-0,9) and (526<-0,9)if(366≥-0,9) and (843<-1)if(409≥-1,8) and (843<-1)if(839<-0,4) and (224<-2,2)

5 if(11≥-1,5) and (97<0,2) and (18<0,2) 1 1if(11≥-1,6) and (97<0,1) and (292<0,6)if(11≥-1,5) and (97<0,3) and (302<0,1)

6 if(242<0,3) and (881<1) and (17≥-1,6) and (637≥0,4) 1 0,6677 if(2≥-1,4) and (28≥-0,2) and (409<0,6) 1 0,5

if(2≥-1,3) and (224≥-0,4) and (409<0,6)if(19≥-1,3) and (224≥-0,2) and (409<0,5)if(50≥0,4) and (2≥-2,4) and (17<0,5)if(50≥0,2) and (2≥-2,2) and (224<1,7)if(50≥0,1) and (2≥-2,4) and (409<1)if(50≥0,1) and (2≥-2,4) and (499<1,2)if(50≥0,2) and (2≥-2,1) and (637<1,4)if(50≥0,4) and (17<0,1) and (19≥-1,7)if(50≥0,1) and (19≥-1,9) and (235<1,4)if(50≥0,2) and (97<1,4) and (19≥-1,7)if(50≥0,2) and (828<0,9) and (2≥-2,2)if(50≥0,2) and (828<1) and (19≥-1,7)if(50≥0,4) and (839<0,1) and (2≥-2,1)if(50≥0,4) and (839<0,2) and (19≥-1,7)if(50≥0,4) and (881<1,5) and (19≥-1,7)if(97<1,5) and (19≥-1,1) and (224≥-0,3)if(97<1,6) and (194≥0,2) and (839<-0,2)if(194≥0,2) and (242≥-0,1) and (839<-0,2)if(194≥0,2) and (839<-0,2) and (843≥-0,1)

8 if(97≥0,5) and (127≥0,3) and (863<0,9) 1 1

111

Page 124: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

if(97≥0,7) and (348<0,1) and (863<0,8)if(97≥0,7) and (863<0,8) and (881≥0,1)

9 if(18<-2,1) and (292≥-1,5) 1 0,952if(19≥-0,3) and (231<-1,4)if(289<-0,3) and (18<-3)if(366<-0,5) and (18<-3)

Tabela 25: Melhores regras encontradas na base de dados B2B3

Classes Regras AptTrein AptTeste

1 if(17<-0,3) and (224<0,4) and (843≥-0,2) and (531<0,9) and (890≥-1) 0,947 0,3752 if(141<1,3) and (229≥1,1) 1 1

if(229≥1,1) and (456≥-0,9)if(235<1) and (229≥1,1)

3 if(75≥-0,7) and (246<-0,3) 1 0,8754 if(2<-0,2) and (485≥0,7) 1 1

if(19<-0,4) and (485≥0,7)if(19<-0,4) and (526<-0,7)if(19<-0,4) and (843<-1)if(63<-0,3) and (485≥0,7)if(224<-2,2) and (485≥0,7)if(229≥-1,7) and (485≥0,6)if(235≥-2,9) and (485≥0,6)if(409≥-1,7) and (485≥0,7)if(485≥0,5) and (525≥-1,3)if(485≥0,7) and (929≥-0,4)if(526<-0,9) and (929≥-0,5)if(843<-1) and (525≥-1,4)if(843<-0,8) and (929≥-0,3)

5 if(2<-1,8) and (17≥-0,9) and (229<-0,8) 1 1if(17≥-0,9) and (19<-2,6) and (229<-0,8)if(19<-2,6) and (229<-0,7) and (890≥-0,1)if(28≥-0,8) and (97<0,2) and (721≥1)if(97<0,2) and (246≥-0,4) and (721≥1)if(97<0,2) and (379<0,1) and (721≥1)if(97<0,2) and (475≥-0,6) and (721≥1)if(97<0,2) and (721≥1) and (870≥-0,6)if(292<0,5) and (41≥-2) and (721≥1)

6 if(2<1) and (17<0,4) and (637≥-0,1) and (379≥-0,1) and (456≥-1,2) 0,973 0,9337 if(63≥0,1) and (379<0,8) 1 0,9448 if(75≥-0,1) and (409≥0,4) and (870<0,5) 1 0,95

if(97≥0,6) and (280≥0,1) and (409≥0,4)

112

Page 125: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

if(97≥0,6) and (409≥0,4) and (870<0,4)if(280≥0,1) and (409≥0,4) and (870<0,4)

9 if(17<-3,6) and (75<-1,2) and (292≥-1,5) 1 1if(17<-3,6) and (231<-0,5) and (292≥-1,5)if(17<-3,4) and (292≥-1,4) and (499<-1,1)if(17<-3,6) and (292≥-1,4) and (525<-0,7)if(18<-2,5) and (231<-0,3) and (292≥-1,4)if(18<-3,2) and (292≥-1,4) and (499<-1,1)if(19≥-0,2) and (231<-1,3) and (409<-0,5)if(19≥-0,2) and (231<-0,9) and (485≥-1,6)if(19≥-0,3) and (231<-0,9) and (499≥-2,6)if(19≥-0,2) and (231<-1,4) and (531≥-0,6)if(19≥-0,2) and (292≥-1,4) and (499<-1,1)if(19≥-0,2) and (499<-1,1) and (531≥-1,1)if(19≥-0,4) and (531≥-0,6) and (786<-0,6)if(75<-1,2) and (141<-0,5) and (292≥-1,5)if(75<-1,2) and (231<-1) and (292≥-1,5)if(75<-1) and (292≥-1,5) and (456≥0,6)if(75<-1,2) and (292≥-1,5) and (475<-0,1)if(75<-1,3) and (292≥-1,4) and (499<-1,1)if(75<-1,2) and (292≥-1,5) and (525<-0,7)if(75<-1,2) and (292≥-1,5) and (786<-0,6)if(75<-1,1) and (499≥-2,6) and (456≥0,6)if(231<-0,5) and (292≥-1,5) and (302<-0,8)if(231<-0,2) and (292≥-1,5) and (786<-0,6)if(292≥-1,5) and (302<-0,8) and (525<-0,7)if(409<-0,6) and (456≥0,6) and (786<-0,6)

Tabela 27: Melhores regras encontradas na base de dados B1B2B3

Classes Regras AptTrein AptTeste

1 if(246≥-0,4) and (531≥0,2) and (929<0,2) 1 0,32 if(11≥0,4) and (289<-0,5) 1 1

if(141<1,4) and (229≥1,1)if(289<-0,5) and (229≥1,1)if(839≥0,5) and (637<0,4)

3 if(50<-2,3) and (63≥-0,4) 1 0,9384 if(2<-0,1) and (485≥0,7) 1 1

if(19<-0,3) and (485≥0,7)if(19<-0,4) and (526<-0,9)if(19<-0,2) and (843<-1)if(63<-0,3) and (485≥0,7)if(224<-2,2) and (485≥0,1)

113

Page 126: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

if(235≥-3) and (485≥0,3)if(235≥-3,1) and (843<-1)if(366≥-0,9) and (485≥0,7)if(366≥-0,9) and (526<-0,9)if(409≥-1,8) and (485≥0,3)if(475≥-3,1) and (485≥0,1)if(485≥0,4) and (525≥-1,1)if(485≥0,6) and (929≥-0,3)if(526<-0,7) and (63<-0,3)if(843<-1) and (63<-0,2)if(843<-1) and (525≥-1,1)if(843<-0,6) and (929≥-0,3)

5 if(2<-1) and (17≥-0,8) and (229<-0,7) 1 1if(11≥-1,8) and (97<0,2) and (18<0,1)if(11≥-1,5) and (97<0,2) and (292<0,7)if(11≥-1,7) and (97<0,1) and (302<0,2)if(17≥-0,8) and (19<-0,8) and (229<-0,7)if(97<0,5) and (28≥-0,6) and (721≥1)if(97<0,1) and (41≥-2,5) and (721≥1)if(97<0,1) and (194≥-1,3) and (721≥1)if(97<0,1) and (246≥-0,4) and (721≥1)if(97<0,1) and (379<0,1) and (721≥1)if(97<0,1) and (721≥1) and (870≥-0,5)if(242≥-0,1) and (302<0,1) and (41≥-2)if(302<0,1) and (41≥-2) and (721≥1)if(348<-1,2) and (17≥-0,8) and (229<-0,7)if(348<-1,5) and (41≥-2) and (721≥0,8)if(881<0,9) and (41≥-2) and (721≥1)

6 if(828<0,3) and (2<0,9) and (637≥-0,4) and (379≥0,2) 1 0,622if(828<0,3) and (19<1) and (637≥-0,4) and (379≥0,2)

7 if(242≥-0,1) and (63≥0,3) 1 0,9528 if(97≥0,7) and (348<-0,2) and (863<0,7) 1 19 if(18<-3,2) and (19≥-2,2) 1 0,952

if(18<-3,2) and (485<1,7)if(19≥-0,2) and (231<-1,3)if(19≥-0,2) and (525<-0,8)if(19≥-0,2) and (786<-0,5)if(50<-1,7) and (18<-3,2)if(289<-0,2) and (18<-3,2)

Tabela 30: Melhores regras encontradas na base de dados B2B3B4

114

Page 127: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Classes Regras AptTrein AptTeste

1 if(409≥-0,4) and (929≥-0,8) and (289<0,5) and (783<0,1) 0,972 0,4442 if(11≥0,3) and (289<-0,5) 1 1

if(141<1,4) and (229≥1,1)if(229≥1,1) and (177<1)if(229≥1,1) and (289<-0,5)if(229≥1,1) and (456≥-0,9)if(235<1) and (229≥1)

3 if(75≥-0,8) and (246<-0,4) 1 0,8754 if(2<-0,2) and (485≥0,7) 1 1

if(19<-0,4) and (485≥0,7)if(19<-0,4) and (843<-1)if(63<0,2) and (485≥0,7)if(224<-2,2) and (380≥-0,3)if(224<-2,2) and (485≥0,7)if(224<-2,2) and (865≥0,1)if(235≥-3,7) and (485≥0,7)if(409≥-1,7) and (485≥0,6)if(475≥-2,7) and (485≥0,4)if(485≥0,5) and (525≥-1,1)if(485≥0,7) and (661<-0,1)if(485≥0,7) and (783<0,4)if(485≥0,7) and (929≥-0,3)if(526<-0,6) and (63<-0,3)if(843<-0,7) and (63<-0,3)if(843<-0,9) and (929≥-0,3)

5 if(2<-0,8) and (17≥-0,8) and (229<-0,8) 1 1if(2<-1,3) and (289≥-1,4) and (380<-0,7)if(11≥-2) and (289≥-1,4) and (380<-0,7)if(17≥-0,8) and (19<-2,5) and (229<-0,8)if(17≥-0,9) and (229<-0,7) and (380<-0,6)if(17≥-0,9) and (289≥-1,4) and (380<-0,7)if(18<0,1) and (41≥-2,2) and (721≥0,5)if(18<0,2) and (97<0,1) and (11≥-1,6)if(19<-2,9) and (41≥-2,2) and (721≥0,8)if(19<-0,9) and (289≥-1,4) and (380<-0,7)if(28≥-1) and (97<0,6) and (721≥1)if(41≥-2) and (46<-0,3) and (380<-0,4)if(41≥-2,2) and (721≥0,5) and (46<-0,1)if(97<0,1) and (41≥-2) and (380<-0,7)if(97<0,1) and (246≥-0,4) and (380<-0,7)if(97<0,1) and (292<1) and (11≥-1,5)if(97<0,1) and (379<0,1) and (380<-0,7)if(97<0,2) and (379<0,1) and (721≥1)if(97<0,1) and (637≥-0,3) and (306<-0,9)

115

Page 128: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

if(97<0,2) and (721≥1) and (306<-1)if(224≥-0,6) and (289≥-1,4) and (380<-0,7)if(229<-0,8) and (890≥-0,3) and (306<-1)if(229<-0,8) and (890≥-0,2) and (380<-0,6)if(289≥-1,4) and (306<-0,8) and (380<-0,7)if(289≥-1,6) and (336≥-1,5) and (380<-0,7)if(289≥-1,4) and (380<-0,7) and (865≥-1,4)if(289≥-1,4) and (380<-0,7) and (950≥-0,6)if(302<0,1) and (41≥-2) and (11≥-1,8)if(302<0,1) and (41≥-2) and (380<-0,4)if(485≥-1,9) and (289≥-1,4) and (380<-0,7)if(525≥-0,9) and (289≥-1,4) and (380<-0,7)if(531≥-0,4) and (289≥-1,4) and (380<-0,7)if(637≥0,1) and (289≥-1,6) and (380<-0,7)if(721≥0,8) and (289≥-1,6) and (380<-0,7)if(870≥-1) and (289≥-1,6) and (380<-0,7)if(890≥-0,3) and (46<-0,3) and (306<-1)if(890≥-0,2) and (289≥-1,3) and (380<-0,7)

6 if(2<-0,2) and (637≥0,1) and (379≥0,1) and (306≥-1) 1 0,5887 if(63≥0,3) and (46≥-0,7) 1 0,9388 if(46≥0,8) and (865<-0,4) 1 0,9389 if(18<-3,1) and (19≥-0,3) 1 1

Tabela 31: Melhores regras encontradas na base de dados B1B2B3B4

Classe Regras AptTrein AptTeste

1 if(289<0,5) and (75≥0,1) and (721≥0,2) 1 0,52 if(11≥0,4) and (289<-0,5) 1 1

if(289<-0,5) and (229≥1,1)if(839≥0,5) and (637<0,5)

3 if(50<-2,3) and (63≥-0,5) 1 0,9384 if(19<-0,3) and (485≥0,6) 1 1

if(19<-0,3) and (526<-0,9)if(50≥-2) and (280<-0,7)if(50≥-2) and (485≥0,2)if(63<-0,3) and (485≥0,6)if(194<-0,8) and (485≥0,7)if(224<-1,7) and (950≥0)if(366≥-0,9) and (485≥0,7)if(409≥-1,8) and (485≥0,3)if(485≥0,5) and (525≥-1,1)if(485≥0,3) and (783<0,4)if(485≥0,7) and (929≥-0,3)

116

Page 129: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

if(526<-0,7) and (63<-0,3)if(526<-0,9) and (929≥-0,3)if(843<-0,9) and (63<-0,3)if(843<-1) and (783<0,4)if(843<-0,8) and (929≥-0,4)

5 if(17≥-0,8) and (19<-2,1) and (229<-0,7) 1 1if(17≥-0,8) and (229<-0,8) and (306<-1)if(17≥-0,9) and (229<-0,8) and (380<-0,3)if(41≥-2) and (721≥0,6) and (46<0,8)if(41≥-2,3) and (721≥0,9) and (783<0,1)if(97<0,1) and (306<-0,8) and (380<-0,3)if(97<0,1) and (379<0,1) and (380<-0,4)if(97<0,1) and (379<0,2) and (721≥0,3)if(97<0,5) and (721≥0,7) and (306<-0,8)if(229<-0,7) and (890≥-0,1) and (380<-0,5)if(242≥0,1) and (41≥-2,4) and (46<-0,3)if(242≥0,1) and (302<0,2) and (41≥-2,4)if(289≥-1,4) and (2<-1,1) and (380<-0,6)if(289≥-1,4) and (224≥-1,4) and (380<-0,6)if(289≥-1,4) and (637≥0,2) and (380<-0,6)if(289≥-1,4) and (721≥0,9) and (380<-0,6)if(890≥-0,1) and (46<-0,3) and (306<-1)

6 if(242<0,3) and (637≥0,5) and (661<0,3) 1 0,5497 if(242≥-0,1) and (63≥0,3) 1 0,9528 if(46≥1) and (865<-0,4) 1 0,667

if(97≥1,5) and (177≥0,2)if(97≥1,6) and (280≥-0,3)if(97≥1,6) and (348<-0,1)if(97≥1,2) and (409≥0,6)if(97≥1,6) and (881≥0,2)

9 if(18<-3) and (46<-0,5) 1 1if(18<-3,1) and (292≥-1,6)if(18<-3,2) and (637≥-1,5)

117

Page 130: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 23: Melhores regras encontradas na base de dados B1B3

Classes Regras AptTrein AptTeste

1 if(289<0,5) and (531≥0,2) and (721≥0,1) and (870≥-0,2) 1 0,533if(289<0,5) and (839<1,9) and (531≥0,2) and (721≥0,2)if(289<0,5) and (863<1) and (531≥0,2) and (870≥0)

2 if(11≥0,1) and (289<-0,5) 1 1if(11≥0,4) and (637<0,5)if(229≥1,1) and (456≥-0,9)if(289<-0,5) and (229≥1,1)if(839≥0,5) and (637<0,4)

3 if(50<-2,3) and (63≥-0,2) 1 0,9384 if(2<-0,1) and (485≥0,6) 1 1

if(11<-2,7) and (485≥0,6)if(50≥-2,1) and (485≥0,7)if(63<-0,3) and (485≥0,7)if(194<-0,8) and (485≥0,7)if(366≥-0,9) and (485≥0,7)if(475≥-2,8) and (485≥0,5)if(485≥0,7) and (525≥-1,1)if(485≥0,7) and (929≥-0,4)if(839<-0,5) and (485≥0,6)if(881<-0,2) and (485≥0,6)

5 if(11≥-1,6) and (97<0,1) and (229<-0,7) 1 1if(11≥-1,6) and (97<0,1) and (379<0,1)if(97<0,4) and (41≥-2,3) and (721≥1)if(97<0,3) and (194≥-1,6) and (721≥1)if(97<0,1) and (379<0,1) and (721≥1)if(97<0,4) and (881≥-0,9) and (721≥1)if(348<-1,5) and (41≥-2,1) and (229<0,2)

6 if(242<0,3) and (881<1) and (2<-1,2) and (637≥0,5) 1 0,627if(828<0,7) and (2<-1,1) and (379≥0,2) and (637≥0,4)

7 if(242≥-0,1) and (63≥0,3) 1 0,9528 if(97≥0,7) and (127≥0,1) and (863<0,7) 1 1

if(97≥0,7) and (348<-0,8) and (863<0,7)if(97≥0,7) and (863<0,8) and (63<-0,4)if(97≥0,7) and (863<0,8) and (881≥0,1)if(127≥0,3) and (348<-0,7) and (863<0,7)

9 if(242<-0,9) and (456≥0,6) 1 0,952

118

Page 131: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 24: Melhores regras encontradas na base de dados B1B4

Classes Regras AptTrein AptTeste

1 if(194<0,2) and (289<0,1) and (839<0,8) and (177≥-1,1) and (865≥-0,9) 1 0,3172 if(11≥0,4) and (289<-0,5) 1 13 if(50<-2,3) and (194<-1,1) and (289≥-0,3) 1 1

if(50<-2,3) and (242<0,6) and (289≥-0,7)if(50<-2,3) and (289≥-0,4) and (306≥-0,9)

4 if(194<-2,4) 1 0,55 if(11≥-1,5) and (97<0,1) and (46<-0,3) 1 1

if(11≥-1,7) and (97<0,1) and (348<-1,4)if(11≥-1,7) and (97<0,1) and (380<-0,6)if(11≥-1,5) and (289≥-1,3) and (380<-0,7)if(97<0,1) and (194≥-1,4) and (380<-0,6)if(97<0,1) and (242≥0,3) and (380<-0,7)if(97≥-1,2) and (289≥-1,6) and (380<-0,6)if(97<0,1) and (306<-0,9) and (380<-0,6)if(242≥0,3) and (289≥-1,3) and (380<-0,7)if(289≥-1,5) and (177≥-1,8) and (380<-0,6)if(289≥-1,3) and (306<-1) and (380<-0,6)if(289≥-1,3) and (336≥-0,6) and (380<-0,7)if(289≥-1,4) and (366≥-0,6) and (380<-0,5)if(289≥-1,6) and (380<-0,6) and (661≥-1,2)if(289≥-1,3) and (380<-0,7) and (865≥-0,9)if(289≥-1,3) and (380<-0,7) and (950≥-0,5)if(289≥-1,4) and (828≥-0,8) and (380<-0,6)if(289≥-1,6) and (881≥-1) and (380<-0,5)

6 if(127<0,1) and (242<-0,6) and (366≥-0,1) 1 0,333if(242<-0,6) and (366≥-0,1) and (177<1,1)

7 if(839<0,4) and (46≥-0,7) and (306≥-0,6) 1 0,9388 if(97≥0,7) and (863<0,8) 1 0,959 if(50<-2,1) and (177<-1,9) and (783≥-0,7) 1 1

119

Page 132: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 26: Melhores regras encontradas na base de dados B2B4

Classes Regras AptTrein AptTeste

1 if(97<0,8) and (246≥-0,2) and (177≥-1) and (289<0,2) and (306≥-1,7) 1 0,2832 if(11≥0,4) and (289<-0,5) 1 1

if(637<0,4) and (11≥0,4)3 if(75≥-0,7) and (246<-0,3) 1 0,8754 if(19<-0,4) and (526<-0,9) 1 1

if(19<-0,4) and (843<-1)if(224<-2,2) and (380≥-0,2)if(224<-2,2) and (843<-0,9)if(224<-2,2) and (865≥0,1)if(224<-1,8) and (950≥0)if(409≥-1,9) and (843<-1)if(843<-1) and (783<0,4)

5 if(2<-1,9) and (289≥-1,3) and (380<-0,7) 1 1if(17≥-0,9) and (46<-0,2) and (306<-1)if(17≥-0,9) and (289≥-1,3) and (380<-0,7)if(18<0,7) and (97<0,2) and (11≥-1,5)if(19<-0,7) and (289≥-1,3) and (380<-0,7)if(28≥-0,7) and (97<0,1) and (380<-0,7)if(28≥-0,5) and (289≥-1,3) and (380<-0,7)if(97<0,4) and (11≥-1,6) and (46<-0,2)if(97<0,1) and (11≥-1,7) and (380<-0,7)if(97<0,1) and (224≥-0,6) and (380<-0,6)if(97<0,1) and (246≥-0,4) and (380<-0,6)if(97≥-0,7) and (289≥-1,3) and (380<-0,7)if(97<0,2) and (292<0,9) and (11≥-1,5)if(97<0,1) and (302<0,1) and (11≥-1,5)if(97<0,1) and (306<-1) and (380<-0,5)if(97<0,1) and (380<-0,6) and (950≥0)if(97<0,1) and (637≥0,1) and (306<-0,5)if(141≥-1,4) and (289≥-1,6) and (380<-0,7)if(224≥-0,7) and (289≥-1,3) and (380<-0,7)if(289≥-1,6) and (336≥-0,5) and (380<-0,5)if(289≥-1,3) and (380<-0,7) and (865≥-1)if(289≥-1,3) and (380<-0,7) and (950≥-0,8)if(526≥-0,4) and (289≥-1,3) and (380<-0,7)

6 if(2<0,8) and (28<0,6) and (141≥-0,4) and (499≥-1) and (177<1,1) and (306≥-1) 1 0,3337 if(19≥-1,7) and (224≥-0,2) and (306≥-0,5) 1 0,9448 if(46≥0,7) and (865<-0,4) 1 0,8759 if(18<-3,1) and (19≥-0,2) 1 1

if(18<-3,1) and (637≥-1,5)

120

Page 133: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 28: Melhores regras encontradas na base de dados B1B2B4

Classes Regras AptidaoTrein AptidaoTeste

1 if(242<1,5) and (348<1,8) and (366<0,9) and (19<1,3) and 0,972 0,389(75<2,2) and (235≥-1,2) and (843≥-0,3) and (783<0,2) and (950≥-0,2)

2 if(11≥0,4) and (289<-0,5) 1 1if(839≥0,5) and (637<0,4)

3 if(75≥-0,7) and (246<-0,3) 1 0,8754 if(19<-0,4) and (526<-0,8) 1 1

if(19<-0,4) and (843<-1)if(50≥-2) and (280<-0,7)if(50≥-2) and (526<-0,8)if(50≥-2) and (843<-1)if(224<-2,1) and (950≥0)if(366≥-0,9) and (526<-0,9)if(366≥-0,9) and (843<-1)

5 if(11≥-2,2) and (289≥-1,3) and (380<-0,5) 1 1if(17≥-1) and (46<-0,3) and (306<-1)if(17≥-0,9) and (46<-0,2) and (661<0,1)if(97<0,1) and (224≥-0,6) and (380<-0,2)if(97<0,1) and (231≥-0,3) and (306<-0,8)if(97<0,1) and (242≥0,1) and (380<-0,2)if(97≥-1,6) and (289≥-1,3) and (380<-0,5)if(242≥0,3) and (289≥-1,3) and (380<-0,7)if(289≥-1,3) and (2<-1) and (380<-0,7)if(289≥-1,3) and (17≥-1,6) and (380<-0,7)if(289≥-1,3) and (19<-1) and (380<-0,7)if(289≥-1,4) and (28≥-0,6) and (380<-0,6)if(289≥-1,3) and (224≥-0,6) and (380<-0,7)if(289≥-1,3) and (246≥-0,4) and (380<-0,7)if(289≥-1,3) and (366≥-1,2) and (380<-0,7)if(289≥-1,3) and (380<-0,7) and (865≥-1,2)if(289≥-1,3) and (380<-0,7) and (950≥-0,1)if(289≥-1,4) and (881≥-0,9) and (380<-0,6)

6 if(828<0,1) and (19<1,1) and (141≥-0,4) and (306≥-1) 1 0,5337 if(2≥-2,3) and (224≥-0,4) and (336<1,1) 1 0,938

if(194≥-1) and (839<0,1) and (306≥-0,5)8 if(46≥0,8) and (865<-0,4) 1 0,9389 if(18<-3,1) and (19≥-0,6) 1 0,952

if(19≥-0,2) and (231<-1,2)

121

Page 134: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 29: Melhores regras encontradas na base de dados B1B3B4

Classes Regras AptTrein AptTeste

1 if(531≥0,2) and (870≥0) and (929<0,2) 1 0,32 if(11≥0,2) and (289<-0,5) 1 1

if(11≥0,4) and (637<0,4)if(229≥1) and (177<1)if(229≥1,1) and (456≥-0,9)if(289<-0,5) and (229≥1,1)if(839≥0,5) and (637<0,4)

3 if(50<-2,3) and (63≥-0,5) 1 0,9384 if(2<-0,2) and (485≥0,6) 1 1

if(11<-2,8) and (485≥0,7)if(63<-0,3) and (485≥0,7)if(194<-0,8) and (485≥0,7)if(366≥-0,9) and (485≥0,6)if(475≥-2,5) and (485≥0,1)if(485≥0,7) and (661<-0,3)if(485≥0,6) and (783<0,4)if(485≥0,7) and (865<1,5)if(485≥0,7) and (929≥-0,3)if(839<-0,5) and (485≥0,7)if(881<-0,2) and (485≥0,6)

5 if(11≥-1,5) and (97<0,1) and (46<-0,4) 1 1if(11≥-1,5) and (97<0,1) and (229<-0,5)if(41≥-2,2) and (46<0,8) and (380<-0,6)if(41≥-2,1) and (229<0,1) and (380<-0,6)if(41≥-2,1) and (721≥0,6) and (380<-0,6)if(97<0,1) and (41≥-3) and (380<-0,6)if(97<0,1) and (306<-0,9) and (380<-0,6)if(97<0,1) and (379<0,1) and (380<-0,6)if(97<0,3) and (379<0,2) and (721≥1)if(97<0,1) and (637≥0,1) and (306<-0,8)if(97<0,1) and (721≥1) and (306<-1)if(97<0,1) and (870≥-0,9) and (380<-0,6)if(97<0,1) and (890≥-0,8) and (380<-0,6)if(194≥-1,3) and (229<-0,8) and (380<-0,5)if(229<-0,7) and (890≥-0,4) and (306<-1)if(242≥0,3) and (41≥-2) and (46<-0,1)if(289≥-1,3) and (177≥-1,4) and (380<-0,7)if(289≥-1,5) and (721≥0,9) and (380<-0,4)if(289≥-1,5) and (890≥-0,2) and (380<-0,4)

6 if(242<-0,6) and (366≥-0,1) and (890<-0,7) 1 0,333if(242<-0,6) and (890<-0,1) and (499≥-0,8)

7 if(242≥-0,1) and (63≥0,3) 1 0,9528 if(46≥0,8) and (865<-0,4) 1 0,9389 if(242<-1) and (456≥0,6) 1 0,952

122

Page 135: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

APÊNDICE E

123

Page 136: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Classificacao de Oncogenes medidos por Microarray utilizando AlgoritmosGeneticos

Laurence Rodrigues do AmaralUniversidade Federal de UberlandiaLaboratorio de Inteligencia Artificial

Av. Joao Naves de Avila, 2160 Uberlandia, [email protected]

Centro Universitario do Cerrado-Patrocınio

Gina Maira B. OliveiraUniversidade Federal de UberlandiaLaboratorio de Inteligencia Artificial

Av. Joao Naves de Avila, 2160 Bloco B Uberlandia, [email protected]

Foued Salmen EspindolaUniversidade Federal de UberlandiaInstituto de Genetica e Bioquımica

Laboratorio de Bioquımica e Biologia MolecularAv. Para, 1720 Bloco 2E39A Uberlandia, Brasil

[email protected]

Geraldo Sadoyama LealCentro Universitario do Cerrado-Patrocınio

Laboratorio de Imunologia, Genetica e MicrobiologiaAv. Arthur Botelho, S/N Patrocınio, Brasil

[email protected]

Abstract

Tecnicas de Inteligencia Artificial (IA) tem se tor-nado cada vez mais importantes na solucao de problemasbiologicos. Neste artigo, utilizamos um Algoritmo Genetico(AG) na busca de regras de alto nıvel do tipo IF-THEN. EsteAG foi aplicado na classificacao de uma base de dados deexpressao genica de celulas cancerıgenas advindas de ex-perimentos de microarray, buscando assim, relacoes entreos nıveis de expressoes genicas e os nove tipos de classesde cancer analisados.

1. Introducao

Uma das areas em que a aplicacao de tecnicas compu-tacionais inteligentes tem se mostrado mais promissora e aBiologia Molecular [35].

Devido a grande quantidade e complexidade dainformacao, as ferramentas baseadas na computacao con-vencional tem se mostrado limitadas na abordagem de pro-blemas biologicos complexos. Uma das explicacoes paraessa dificuldade e a ineficiencia das ferramentas convenci-onais em lidar com grandes volumes de dados. Tecnicasadvindas da Inteligencia Artificial (IA), tais como, os algo-ritmos geneticos e as redes neurais artificiais, sao cada vezmais empregadas para tratar problemas em Biologia Mole-cular. A aplicabilidade dessas tecnicas advem de sua ca-pacidade de aprender automaticamente a partir de grandes

Page 137: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

volumes de dados e produzir hipoteses uteis [4].Um fragmento de DNA pode conter diversos genes. A

propriedade mais importante dos genes esta no fato de queeles contem o codigo genetico para a expressao do mRNA(RNA mensageiro) que sera traduzido em proteınas, com-ponentes estes, essenciais a todo ser vivo [9]. As proteınassao polipeptıdeos compostas por conjuntos de aminoacidos.Estes aminoacidos sao representados por trincas (codons)de nucleotıdeos (Adenina - A, Uracila - U, Citosina - C eGuanina - G) no DNA. O processo pelo qual as sequenciasde nucleotıdeos dos genes sao interpretados na producao deproteınas e denominado expressao genica [9]. Mensurar eanalisar informacoes de expressao genica e de grande inte-resse para as Ciencias Biologicas. Esse tipo de analise podefornecer informacoes importantes sobre as funcoes de umacelula, uma vez que as mudancas na fisiologia de um or-ganismo sao geralmente acompanhadas por mudancas nospadroes de expressao dos genes [1]. Uma das tecnicas maisdifundidas para esta medicao sao os Microarrays de DNA[5] [38] [15] [23].

Diferentes tecnicas de IA foram aplicadas na analise dedados de expressao genica, tais como: redes neurais arti-ficiais [41] [25], Support Vector Machines [18] [6] e al-goritmos geneticos [42] [31] [10] [28] [30] [39]. Em to-dos os projetos citados anteriormente, o objetivo e encon-trar conjuntos de genes (clusters) que possam ser utiliza-dos como classificadores confiaveis, com uma elevada taxade classificacao e um bom desempenho de generalizacao.Dessa forma, os conjuntos minerados podem auxiliar naclassificacao de novos casos, facilitando o diagnostico e otratamento de doencas. Entretanto, em nenhum desses tra-balhos, encontramos classificadores baseados em regras dealto nıvel, como por exemplo, regras do tipo IF-THEN. Aocontrario, os classificadores obtidos sao do tipo caixa-preta,onde a entrada sao os dados de expressao de uma deter-minada amostra de celulas e a saıda e a classe a qual essaamostra provavelmente pertence. Por exemplo, essa saıdaassociada pode ser uma classe de doenca. Assim, a partirde um conjunto de dados de milhares de genes chega-se aum pequeno conjunto de poucas dezenas de genes que se-jam discriminantes para o problema.

Neste trabalho o enfoque sera a busca (mineracao) deregras de alto nıvel, que nao so sejam associadas a cadaclasse individualmente, reduzindo o problema a poucos ge-nes por classe, mas tambem associando o nıvel de expressaogenica a cada gene que compoe a regra. Acreditamos queesse tipo de informacao possa ser de grande utilidade aosespecialistas que buscam entender o mecanismo por detrasde alteracoes nos padroes de expressao genica associadas aoaparecimento de determinadas doencas. Para tal, elaborou-se um Algoritmo Genetico para a obtencao de regras do tipoIF-THEN a partir de bases de dados de expressoes genicas.Este ambiente evolutivo foi aplicado na classificacao de

uma base de dados de expressoes genicas de celulas can-cerıgenas, advindas de experimentos de microarray [34]. Oprincipal objetivo e a busca das relacoes entre os nıveis deexpressoes genicas e nove classes de cancer: mama, sis-tema nervoso central, colom, leucemia, melanoma, pulmao,ovario, renal e reprodutivas. Como ponto de partida, utili-zamos conjuntos reduzidos de genes que foram mineradosa partir de trabalhos anteriores nessa mesma base de dados[31] [13] e [20].

2. Algoritmos Geneticos (AGs)

AGs sao metodos computacionais de busca baseados nosmecanismos da evolucao natural e na genetica, simulando ateoria da selecao natural de Darwin [19]. Os AGs fazemparte da Computacao Evolutiva, area da Inteligencia Arti-ficial baseada nas Ciencias Biologicas e que se baseia nateoria da evolucao das especies de Charles Darwin.

O AG e um algoritmo que manipula, em paralelo, umconjunto de indivıduos (populacao), tipicamente cadeias desımbolos de tamanho fixo, que representam cromossomos.A cada indivıduo esta associada uma avaliacao. O AG trans-forma a populacao corrente em uma nova populacao usandooperacoes de reproducao e sobrevivencia, segundo criteriosbaseados na funcao de avaliacao [27].

Em AGs, uma populacao de possıveis solucoes para oproblema em questao evolui de acordo com operadores pro-babilısticos concebidos a partir de metaforas biologicas, demodo que ha uma tendencia de que, na media, os indivıduosrepresentem solucoes cada vez melhores a medida que oprocesso evolutivo continua [37].

2.1. Aplicacoes de Algoritmos Geneticos emData Mining e em Expressao Genica

Data Mining e um conjunto de tecnicas e ferramentasaplicado para a descoberta do conhecimento em bases dedados. O conhecimento minerado e utilizado em nıvel es-trategico, para a tomada de decisao. As aplicacoes de datamining encontram em outras areas de estudo a construcao deabordagens mistas, isto e, solucoes multidisciplinares queobtenham melhores resultados, acrescentando desempenho,confiabilidade e permitindo a otimizacao do processo demineracao de dados [2].

A tarefa de classificacao e uma das varias estudadas emdata mining. Em essencia, o problema consiste em atribuirvalores para os registros pertencentes a um pequeno con-junto de classes, e assim, descobrir algum relacionamentoentre estes atributos. Cada registro e composto de um con-junto de atributos preditos e um atributo objetivo [22] [17].

O conhecimento descoberto e usualmente representadona forma de regras de predicao do tipo IF-THEN. Este

2

Page 138: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

tipo de regra se destaca devido ao seu alto nıvel de enten-dimento e pela representacao do conhecimento simbolico,contribuindo para compreensibilidade das informacoes des-cobertas. As regras descobertas podem ser construıdas deacordo com varios criterios, tais como: grau de confiancada predicao, taxa de acerto da classificacao para amostrasde classes desconhecidas, compreensibilidade, dentre ou-tros [14].

Dentre os varios trabalhos que foram desenvolvidos uti-lizando AGs na solucao de tarefas de data mining podemoscitar [14] [40] [26] [24] [11] [12] [36] [16] [3] [8] [7] [33][32].

Uma outra area onde os AGs estao contribuindo para adescoberta de conhecimento e a area de expressao genica.Na maioria destes projetos, buscamos clusterizar conjun-tos de genes na busca de relacoes entre estes genes, objeti-vando assim, encontrar conjuntos de genes que sao classifi-cadores confiaveis, que auxiliam na classificacao de novoscasos, facilitando o diagnostico e o tratamento de tumorescancerıgenos. Podemos citar [42] [30] [10] [31], [28]. [39],

3 Ambiente Evolutivo

O modelo do AG empregado em nosso ambiente evolu-tivo foi adaptado a partir do modelo de AG proposto em[14]. O AG em [14] foi desenvolvido na ferramenta GA-LOPPS [21] e foi elaborado com o objetivo de obter re-gras de classificacao do tipo IF-THEN em bases de dadosclınicos de pacientes. Dessa forma, as bases de dados ondeo ambiente de Fidelis e colaboradores ([21]) foram aplica-das eram formadas por registros que se caracterizavam pordados do paciente, no caso, a idade e presenca da doenca emhistorico familiar e por dados relacionados a sintomas dapaciente, tal como, presenca abundante de manchas bran-cas na face. As caracterısticas que se relacionavam aos sin-tomas, que eram a maioria, foram todas discretizadas em:0-ausente, 1-ocorrencia leve, 2- ocorrencia moderada e 4-ocorrencia severa. Nosso ambiente evolutivo, implemen-tado na linguagem Delphi R©, precisou ser adaptado paratrabalhar com bases de dados de expressao genica, ondeos registros apresentam os nıveis de expressao de dezenas(centenas ou milhares) de genes, que sao valores contınuose com precisao variavel (numeros reais). A seguir as princi-pais caracterısticas de nosso modelo de AG sao detalhadas:codificacao do indivıduo, operadores geneticos e funcao deavaliacao.

3.1 Cromossomo ou Indivıduo

O indivıduo ou cromossomo do nosso AG e compostopor N genes, onde cada gene do indivıduo esta relacionadoa uma condicao envolvendo um atributo (um gene do da-taset), onde N e o numero de genes encontrados na base

de expressao genica. A primeira posicao do indivıduo cor-responde ao primeiro gene encontrado na base de dados eassim sucessivamente ate que todos os genes de cada data-set estejam representados. O indıviduo e ilustrado na figura1

Figura 1. Cromossomo ou Individuo

Cada i-esima posicao do indivıduo e subdividida em trescampos: Peso, Operador e Valor, como ilustrado acima.Cada gene corresponde a uma condicao na parte SE da re-gra e o individuo (cromossomo) a toda a parte SE da regra.O campo Peso e uma variavel do tipo inteira e o seu valoresta compreendido entre os valores 0 (zero) e 10 (dez). Eimportante dizer que este campo Peso e o responsavel pelainsercao ou exclusao do gene na regra. Caso este valor sejamenor do que um valor limite este gene nao fara parte daregra, caso contrario o mesmo fara. Neste trabalho foi utili-zado como limite o valor 8 (oito). O campo Operador podevariar entre as operacoes < (menor) e ≥ (maior ou igual).O campo de Valor e uma variavel do tipo ponto flutuanteque pode variar entre o menor e o maior valor encontradosna base de expressao genica avaliada.

3.2 Operadores Geneticos

Na selecao dos pais para crossover aplicamos o metododo Torneio Estocastico utilizando tour de tamanho 3 (tres).Nestes pais selecionados, aplicamos crossover multiplocom dois pontos de corte, gerando dois novos filhos comtaxa de crossover de 100%. Nestes dois filhos gerados, apli-camos o operador de mutacao. Os operadores de mutacaoutilizados neste trabalho variam com o tipo do gene avaliadoe possui taxa de mutacao por gene no valor de 30%. Parao gene Peso o novo valor e dado sorteando o incrementoou o decremento de um (1) ao valor original. Para o geneOperador ocorre o sorteio de um novo operador dentre ospossıveis excluindo o encontrado originalmente. Neste tra-balho foi utilizado apenas dois operadores (≥ e <), levandoa troca de um pelo outro quando aplica-se o operador demutacao ao gene Operador. Na composicao dos individuosque irao participar da proxima geracao do AG, seleciona-mos os melhores pais e filhos.

3.3 Funcao de Avaliacao ou Aptidao (FA)(Fitness Function)

A Aptidao (ou fitness) refere-se ao grau de contribuicaode uma determinada solucao candidata para a convergencia

3

Page 139: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

do AG na busca da melhor solucao dentro do espaco debusca.

Neste trabalho a FA avalia a qualidade de cada regra (in-divıduo). A FA aqui aplicada pode ser encontrada em [29].Para o perfeito entendimento da FA aqui aplicada, algunsconceitos precisam ser reforcados. Quando utilizamos umadeterminada regra na classificacao de um exemplo, quatrodiferentes tipos de resultados podem ser observados, depen-dendo da classe predita pela regra e a verdadeira regra doexemplo. Sao eles:

• True Positive (tp) - A regra prediz que o exemplo per-tence a uma determinada classe e o mesmo pertence;

• False Positive (fp) - A regra prediz que o exemplo per-tence a uma determinada classe mas o mesmo nao per-tence;

• True Negative (tn) - A regra prediz que o exemplo naopertence a uma determinada classe e o mesmo nao per-tence;

• False Negative (fn) - A regra prediz que o exemplonao pertence a uma determinada classe mas o mesmopertence;

A FA utiliza dois indicadores comumente utilizados emdomınios medicos, chamados de sensibilidade (Se) e espe-cificidade (Sp). Se e Sp sao definidos abaixo:

Se =tp

(tp + fn)(1)

Sp =tn

(tn + fp)(2)

Finalmente, a FA utilizada e definida como o produtodestes dois indicadores, Se e Sp, como segue abaixo:

Aptidao = Se ∗ Sp (3)

O objetivo do trabalho e maximizar ao mesmo tempo See Sp e consequentemente Aptidao, utilizando para isso, asequacoes 1, 2 e 3. Em cada execucao, o nosso AG traba-lha com um problema de classificacao de duas classes, istoe, quando o AG esta procurando por regras de uma dadaclasse, todas as outras classes sao agrupadas em uma unicaclasse.

3.4 Bases de dados

As bases utilizadas no nosso trabalho, foram extraıdasdos trabalhos [31], [13] e [20]. Cada um destes trabalhospartiram de conjuntos de genes extraıdos da base NCI60[34] composta por dados de expressao genica, advindosde experimentos de microarray, contendo informacoes so-bre celulas cancerıgenas de 9 (nove) classes. Sao elas:

mama, sistema nervoso central, colom, leucemia, mela-noma, pulmao, ovario, renal e reprodutivas. Cada um destestrabalhos chegaram a um conjunto de genes preditores paratodas as classes de cancer citadas acima. No trabalho [31]foi obtido um conjunto preditor, chamado no trabalho deB1, constituıdo de 13 genes respectivamente.

No trabalho [13] o conjunto preditor, chamado de B2, econstituıdo por 20 genes e no trabalho [20] por 17 genes(B3).

4 Resultados

Na obtencao destes resultados utilizamos, comoparametros do AG, populacao inicial de 400 indivıduos eo executamos por 100 geracoes.

Como e possıvel observar na Tabela 1, embora o resul-tado de treinamento seja quase sempre 100% nas tres ba-ses avaliadas, o resultado de generalizacao dessas regrasnao e tao bom, pois ao aplicarmos as mesmas sobre a ter-ceira particao dos registros que ficaram de fora da evolucaodo AG, o resultado de classificacao das regras cai bastante.Acreditamos que esse desempenho se deva ao baixo numerode amostras por classe que, em alguns casos chega a apenas3 (tres) registros por classe. Entretanto, essa e uma carac-terıstica peculiar aos experimentos de microarray, devidoao seu alto custo e dificuldade de execucao. Assim, reali-zamos varias execucoes do AG na esperanca de que ao ob-termos uma variedade de regras com 100% de treinamentopara cada classe, pelo menos uma delas tivesse uma boa ca-pacidade de generalizacao (alto valor de teste).

Tabela 1. Media geralMedia Geral

Base Treinamento TesteB1 0,996481 0,433B2 1 0,386852B3 1 0,304148

A Tabela 2 traz os melhores resultados obtidos nessabusca, apresentando as melhores regras descobertas pelonosso AG. Para cada cada classe, nosso ambiente evolu-tivo foi executado 50 (cinquenta) vezes, variando a se-mente randomica utilizada na geracao da populacao inicial.A melhor regra encontrada nas 50 execucoes, levando emconsideracao seu valor de treinamento em dois tercos dosregistros (e usando o menor numero de genes como criteriode desempate) foi selecionada como a regra preditora daclasse. Cada uma destas regras foi aplicada separadamenteem uma nova amostra de teste (1/3 dos registros), para ava-liar o do nıvel de generalizacao de cada regra obtida emtreinamento.

4

Page 140: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

Tabela 2. Melhrores Resultados

C Regra Trein Teste Base1 if(Gene 28<0,7) and 1 0.5 B2

(Gene 409≥0,4) and(Gene 499<0,2)if(Gene 63<-1) and 1 0.5 B3(Gene 379≥-0,5) and(Gene 890≥0,1)

2 if(Gene 289<-0,5) and 1 1 B1(Gene 839≥-0,2)

3 if(Gene 97<-1,4) and 1 1 B2(Gene 231≥-0,4)

4 if(Gene 485≥0,7) 1 0.5 B35 if(Gene 97<0,6) and 1 1 B1

(Gene 242≥0,5) and(Gene 348<-1,1)

6 if(Gene 2≥-3,1) and 1 0.933 B3(Gene 229≥-0,7)

7 if(Gene 63≥0) and 1 1 B3(Gene 379<0,5)

8 if(Gene 97≥0,9) and 1 1 B1(Gene 348<-0,2)if(Gene 97≥1) and 1 1 B2(Gene 292≥0,5)

9 if(Gene 366<-0,6) 1 0 B1if(Gene 409<-1,7) 1 0 B2if(Gene 525<-1,3) 1 0 B3

Para cada regra encontrada na tabela 2 mostramosinformacoes do seu desempenho em um conjunto de trei-namento e teste, obtidos atraves da equacao 3, alem de qualbase de dados a regra provem.

Das nove classes avaliadas, em cinco delas (classes 2, 3,5, 7 e 8) foi possıvel atingir 100% de classificacao, tantoem treinamento quanto em teste. Na classe 6 o resultadotambem foi bom, pois encontramos uma regra que obteve100% de acertos em treinamento e 93,3% em teste. Infe-lizmente, nas tres classes restantes, embora a regra tenhaatingido 100% em treinamento, o desempenho em teste naofoi bom: 50% para as classes 1 e 4 e 0% para a classe 9.Assim, consideramos que o desempenho foi muito bom emseis das nove classes, mas bem abaixo do satisfatorio nasoutras tres.

5 Conclusao e Trabalhos Futuros

Com nossos experimentos de crossvalidation, foipossıvel observar que embora a obtencao de regras comalto ındice de treinamento seja relativamente facil, a qua-lidade dessas regras e logo descartada pelo desempenhodas mesmas na base de testes. Tal comportamento, acre-ditamos que possa ser justificado pelo baixo numero deamostras por classe, inerente ao problema. Para com-

pensar essa dificuldade, procuramos executar um grandenumero de execucoes do AG, para obtencao de um maiornumero de regras por classe, com alta taxa de desempe-nho na base de treinamento. Dessa forma, conseguimos ob-ter excelentes regras em seis das nove classes. Entretanto,em tres classes nao foi possıvel obter regras satisfatorias.Animados com os resultados promissores desse trabalho,pretendemos dar continuidade ao mesmo com os seguin-tes passos: (i) analise de uma quarta base (B4) tambemextraıda de [31] que tambem provocou uma reducao dabase de dados de expressoes genicas em [34], obtendoum conjunto de 11 genes; (ii) aplicar a metodologia ado-tada nesse trabalho em novas bases criadas a partir dacomposicao das quatro bases ja existentes na literatura [31],[13] e [20], obtendo-se 11 novas bases (B1+B2, B1+B3,B1+B4, B2+B3, B2+B4, B3+B4, B1+B2+B3, B1+B2+B4,B2+B3+B4, B1+B3+B4, B1+B2+B3+B4). Esses experi-mentos ja se encontram em andamento e ate o momentoconseguimos regras com pelo menos 75% de desempenhona base de testes. Com as regras de alto nıvel obtidas, ecom as que ainda serao obtidas em novos experimentos,conseguimos delimitar possıveis genes relacionados a cadaclasse de cancer e seus respectivos nıveis de expressao, con-seguindo assim, uma associacao gene/cancer e gene/geneque esperamos que possa contribuir para o diagnostico destetipo de cancer limitando assim o numero de genes a seremanalisados na busca de novos tratamentos.

Referencias

[1] B. Alberts, D. Bray, and J. Lewis. Biolgia Molecular daCelula. Artes Medicas, 3 edition, 1997.

[2] I. Anciutti, A. L. Goncalves, F. A. Siqueira, and P. S. S.Borges. Uma aplicacao de data mining sobre circuitoseletricos de baixa tensao utilizando algoritmos geneticos.1o Workshop de Ciencias da Computacao e Sistemas daInformacao da Regiao Sul (WorkComp Sul), Maio 2004.

[3] D. Araujo, H. Lopes, and A. Freitas. A parallel genetic al-gorithm for rule discovery in large databases. In Systems,Man and Cybernetics, volume 3, pages 940 – 945, Tokyo,October 1999. IEEE.

[4] P. Baldi and S. Brunak. Bioinformatics: the Machine Lear-ning approach. MIT Press, 2 edition, 2001.

[5] S. Brenner, M. Johnson, J. Bridgham, G. Golda, D. H.Lloyd, D. Johnson, S. M. S. Luo, M. Foy, M. Ewan, R. Roth,D. George, S. Eletr, G. Albrecht, E. Vermaas, S. R. Willi-ams, T. B. K. Moon, R. B. M. Pallas, J. Kirchner, K. Fea-ron, J. Mao, and K. Corcoran. Gene expression analysis bymassive parallel signature sequencing (mpss) on microbeadarray. Nature Biotechnology, 18(10):630–640, 2000.

[6] M. P. S. Brown, W. N. Grundy, D. Lin, N. Cristianini, C. W.Sugnet, T. S. Furey, M. Ares, and D. Haussler. Knowledge-based analysis of microarray gene expression data by usingsupport vector machines. Stanford University of Medicine,1999.

5

Page 141: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[7] D. Carvalho and A. Freitas. A genetic algorithm-based solu-tion for the problem of small disjuncts. In Springer-Verlag,editor, Principles of Data Mining and Knowledge Disco-very, volume 1910, pages 345–352, Lyon, France, 2000. 4thEuropean, Lecture Notes in Artificial Intelligence.

[8] D. Carvalho and A. Freitas. A hybrid decision tree/geneticalgorithm for coping with the problem of small disjunctsin data mining. In Genetic and Evolutionary Computation(GECCO-2000), pages 1061–1068, Las Vegas, NV, USA,Jully 2000.

[9] M. C. P. de Souto, A. C. Lorena, A. C. B. Delbem, and A. C.P. L. F. de Carvalho. Tecnicas de aprendizado de maquinapara problemas de biologia molecular. Sociedade Brasileirade Computacao, 2003.

[10] K. Deb and A. R. Reddy. Classification of two and multi-class cancer data reliably using multi-objective evolutionaryalgorithms. KanGAL Report, 2003.

[11] H. Ding, L. Benyoucef, and X. Xie. A simulation-basedmulti-objective genetic algorithm approach for networkedenterprises optimization. Engineering Applications of Ar-tificial Intelligence, 2005.

[12] C. R. dos Santos Miranda, G. M. B. de Oliveira, and J. B.dos Santos. Algoritmos geneticos aplicados em data mi-ning para obtencao de regras simples e precisas. In Anaisdo SBAI2003, pages 638–643, 2003.

[13] S. Dudoit, J. Fridlyand, and T. Speed. Comparison of discri-mination methods for the classification of tumors using geneexpression data. in press 576, Berkeley Stat. Dept. TechnicalReport, JASA, 2000.

[14] M. V. Fidelis, H. S. Lopes, and A. A. Freitas. Discoverycomprehensible classification rules with a genetic algorithm.In Congress on Evolutionary Computation - (CEC-2000),pages 805–810. La Jolla, CA, USA, 2000.

[15] W. M. Freeman, S. J. Walker, and K. E. Vrana. Quantitativert-pcr: pitfalls and potentials. Biotechniques, 26:112–122,1999.

[16] A. A. Freitas. Advances in Evolutionary Computation, chap-ter A Survey of Evolutionary Algorithms for Data Miningand Knowledge Discovery. Springer-Verlag, 2002.

[17] A. A. Freitas and S. H. Lavington. Mining Very Large Da-tabases with Parallel Processing. Kluwer Academic Pu-blishers, London, 1998.

[18] T. S. Furey, N. Cristianini, N. Duffy, D. W. Bednarski,M. Schummer, and D. Haussler. Support vector machineclassification and validation of cancer tissue samples usingmicroarray expression data. Oxford University Press, 2000.

[19] D. E. Goldberg. Genetic Algorithms in Search, Optimizationand Machine Learning. Adison-Wesley, USA, 1989.

[20] T. R. Golub, D. K. Slonim, P. Tamayo, C. Huard, M. Ga-asenbeek, J. P. Mesirov, H. Coller, M. L. Loh, J. R. Dow-ning, M. A. Caligiuri, C. D. Bloomfield, and E. S. Lander.Molecular classification of cancer: class discovery and classprediction. Science, 286, October 1999.

[21] E. D. Goodman. An introduction to gallops - the geneticalgorithms optimized for portability and parallelism system.Technical report, Departament od Computer Science - Mi-chigan State University, 1996.

[22] D. Hand. Construction and Assessment If Classification Ru-les. John Wiley and Sons, Chichester, 1997.

[23] C. A. Harrington, C. Rosenow, and J. Retief. Monitoringgene expression using dna microarrays. Curr. Opin. Micro-biol., 3:285–291, 2000.

[24] H. Ishibuchi and T. Yamamoto. Fuzzy rule selection bymulti-objective genetic local search algorithms and rule eva-luation measures in data mining. Fuzzy Sets and Systems,(141):59–88, 2004.

[25] J. Khan, J. S. Wei, M. Ringner, L. H. Saal, M. Ladanyi,F. Westermann, F. Berthold, M. Schwab, C. R. Antonescu,C. Peterson, and P. S. Meltzer. Classifiction and diagnos-tic prediction of cancers using gene expression profiling andartificial neural networks. Nature Medicine, 2001.

[26] Y. Kim and W. N. Street. An intelligent system for custo-mer targeting: a data mining approach. Decision SupportSystems, (37):215–228, 2004.

[27] J. R. Koza. Genetic Programming. On the Programming ofComputers by Means of Natural Selection. MIT Press, USA,1992.

[28] J. J. Liu, G. Culter, W. Li, Z. Pan, S. Peng, T. Hoey, L. Chen,and X. Ling. Genetic algorithms applied to multi-class pre-diction for the analysis of gene expression data. Oxford Uni-versity Press, 21(11 2005):2691–2697, 2005.

[29] H. S. Lopes, M. S. Coutinho, and W. C. Lima. An evolu-tionary approach to simulate cognitive feedback learning inmedical domain. In E. Sanchez, T. Shibata, and L. A. Zadeh,editors, Genetic Algorithms and Fuzzy Logic Systems, pages193–207. World Scientific, 1997.

[30] S. Mitra and H. Banka. Multi-objective evolutionary biclus-tering of gene expression data. Pattern Recognition, 2006.

[31] C. H. Ooi and P. Tan. Genetic algorithms applied to multi-class prediction for the analysis of gene expression data. Bi-oinformatic, 19(1):37–44, 2003.

[32] M. A. C. Pacheco, M. M. R. Vellasco, C. H. P. Lopes, andE. P. L. Passos. Extracao de regras de associacao em bases dedados por algoritmos geneticos. In Anais do XIII CongressoBrasileiro de Automatica (CBA 2000), Floarianopolis, Se-tembro 2000.

[33] W. Romao, A. A. Freitas, and R. C. S. Pacheco. A geneticalgorithm for discovering interesting fuzzy prediction rules:applications to science and technology data. In Genetic andEvolutionary Computation (GECCO-2002), New York, July2002.

[34] D. T. Ross, U. Scherf, M. B. Eisen, C. M. Perou,C. Rees, P. Spellman, V. Iyer, S. S. Jeffrey, M. V. de Rijn,M. Waltham, A. Pergamenschikov, J. C. F. Lee, D. Lash-kari, D. Shalon, T. G. Myers, J. N. Weinstein, D. Botstein,and P. O. Brown. Systematic variation in gene expressionpatterns in human cancer cell lines. Nature Genetics, 2000.

[35] J. C. Setubal and J. Meidanis. Introduction to Computacio-nal Molecular Biology. PWS Publishing Company, Boston,1997.

[36] K. C. Tan, Q. Yu, C. M. Heng, and T. H. Lee. Evolutionarycomputing for knowledge dicovery in medical diagnosis. Ar-tificial Intelligence in Medicine, (27):129–154, 2003.

[37] J. Tanomaru. Motivacao, fundamentos e aplicacoes de algo-ritmos geneticos. In Congresso Brasileiro de Redes Neurais,Curitiba, 1995. III Escola de Redes Neurais.

[38] V. E. Velculescu, L. Zhang, B. Vogelstein, and K. W. Kinz-ler. Serial analysis of gene expression. Science, 270:484–487, 1995.

6

Page 142: MINERAÇÃODEREGRASPARACLASSIFICAÇÃO ......genéticos[11,3,12,13,14,15,16,17,18]. Emtodososprojetoscitadosanteriormente, oobjetivoéencontrarconjuntosdegenes(clusters)quepossamserutilizadoscomoclas-si

[39] M. Wahde and Z. Szallasi. Improving the prediction of theclinical outcome of breast cancer using evolutionary algo-rithms. Soft Comput, 2006.

[40] D. C. Weaver. Applying data mining techniques to librarydesign, lead generation and lead optimization. Science Di-rect, 2004.

[41] Y. Xu, F. M. Selaru, J. Yin, T. T. Zou, V. Shustova, Y. Mori,F. Sato, T. C. Liu, A. Olaru, S. Wang, M. C. Kimos, K. Perry,K. Desai, B. D. Greenwald, M. J. Krasna, D. Shibata, J. M.Abraham, and S. J. Meltzer. Artificial neural networks andgene filtering distinguish between global gene expressionprofiles of barret’s esophagus and esophageal cancer. Can-cer Research, 2002.

[42] I. Zwir, R. R. Zaliz, and E. H. Ruspini. Automated biologicalsequence description by genetic multiobjective generalizedclustering. New York Academy of Sciences, (980):65–82,2002.

7