Seleção Dinâmica de Atributos para Comitês de Classi cadores · Lista de abreviaturas e siglas AM Aprendizado de Máquina k -NN k-Nearest Neighbour SVM Support ectorV Machine

Universidade Federal do Rio Grande do Norte

Centro de Ciências Exatas e da Terra

Departamento de Informática e Matemática Aplicada

Programa de Pós-Graduação em Sistemas e Computação

Doutorado em Ciência da Computação

Seleção Dinâmica de Atributos para Comitêsde Classi�cadores

Rômulo de Oliveira Nunes

Natal-RN

Fevereiro de 2019

Rômulo de Oliveira Nunes

Seleção Dinâmica de Atributos para Comitês de

Classi�cadores

Tese de Doutorado apresentada ao Programade Pós-Graduação de Sistemas e Computa-ção da Universidade Federal do Rio Grandedo Norte.

Orientadora

Profa. Dra. Anne Magály de Paula Canuto

UFRN � Universidade Federal do Rio Grande do Norte

DIMAp � Departamento de Informática e Matemática Aplicada

Natal-RN

Fevereiro de 2019

Nunes, Rômulo de Oliveira. Seleção dinâmica de atributos para comitês de classificadores/ Rômulo de Oliveira Nunes. - 2019. 125f.: il.

Tese (Doutorado) - Universidade Federal do Rio Grande doNorte, Centro de Ciências Exatas e da Terra, Programa de Pós-graduação em Sistemas e Computação. Natal, 2019. Orientadora: Anne Magály de Paula Canuto.

1. Computação - Tese. 2. Seleção dinâmica de atributos -Tese. 3. Comitês de classificadores - Tese. 4. Diversidade -Tese. I. Canuto, Anne Magály de Paula. II. Título.

RN/UF/CCET CDU 004

Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

Elaborado por Joseneide Ferreira Dantas - CRB-15/324

Seleção dinâmica de atributos para Comitês deClassi�cadores

Autor: Rômulo de Oliveira Nunes

Orientador(a): Profa. Dra. Anne Magály de Paula Canuto

Resumo

Em aprendizado de máquina (AM), o pré-processamento dos dados tem como objetivo

aprimorar a qualidade dos dados que serão utilizados, visando apresentá-los em uma forma

adequada para a técnica de AM escolhida. A seleção de atributos é uma de suas principais

etapas. Seu principal objetivo é escolher o subconjunto que melhor represente o conjunto

de dados, permitindo a redução da dimensionalidade e um possível aumento na precisão

dos classi�cadores. Existem diferentes abordagens para se realizar a seleção de atributos.

A a Seleção Dinâmica é uma delas e parte do princípio de que cada instância é única

e que melhores resultados são obtidos quando se seleciona um subconjunto de atributos

para cada instância em vez de um único subconjunto para toda a base de dados. Uma

vez que uma representação mais compacta dos dados foi selecionada, o próximo passo

na classi�cação dos dados é a escolha do modelo a ser utilizado. Esse modelo pode ser

formado por um único classi�cador ou por um sistema de combinação de classi�cadores,

conhecido como Comitês de classi�cadores, que pode ser de�nido como a combinação

múltiplos classi�cadores que serão utilizados para gerar uma resposta �nal para o sistema

através da combinação de suas respostas individuais. Para que esses sistemas apresentem

melhor desempenho que um classi�cador individual é necessário promover a diversidade

entre os componentes que formam o comitê, isto é, que os componentes do sistema não

cometam erros nos mesmos padrões. Por este motivo, a diversidade tem sido considerada

um dos aspectos mais importantes no projeto de comitês, já que não existe vantagem na

combinação de métodos de classi�cação idênticos. O objetivo deste trabalho é utilizar a

seleção dinâmica de atributos em sistemas de combinação de classi�cadores. Para isso,

foram desenvolvidas três versões que realizam essa adaptação de maneira a gerar a di-

versidade entre os classi�cadores base. As versões foram comparadas utilizando diferentes

taxas de seleção e quantidade de classi�cadores, logo após, a melhor versão encontrada

foi comparada com outros métodos encontrados na literatura.

Palavras-chave: Seleção dinâmica de atributos, Comitês de Classi�cação, Diversidade.

Dynamic Feature Selection for Ensembles

Author: Rômulo de Oliveira Nunes

Supervisor: Prof.a Dr.a Anne Magály de Paula Canuto

Abstract

In machine learning, the data preprocessing has the aim to improve the data quality,

through to analyze and to identify of problems in it. So, the machine learning technique

will receive the data of a good quality. The feature selection is one of the most important

pre-processing phases. Its main aim is to choose the best subset that represents the dataset,

aiming to reduce the dimensionality and to increase the classi�er performance. There are

di�erent features selection approaches, on of them is the Dynamic Feature Selection. The

Dynamic Feature Selection selects the best subset of attributes for each instance, instead

of only one subset for a full dataset. After to select a more compact data representation,

the next step in the classi�cation is to choose the model to classify the data. This model

can be composed by a single classi�er or by a system with multiples classi�ers, known

as Ensembles classi�er. These systems to combine the output to obtain a �nal answer

for the system. For these systems to get better performance than a single classi�er it is

necessary to promote diversity between the components of the system. So, it is necessary

that the base classi�ers do not make mistakes for the same patterns. For this, the diversity

is considered one of the most important aspects to use ensembles. The aim of the work is

to use the Dynamic Feature Selection in Ensembles systems. To this, three versions were

developed to adapt this feature selection and to create diversity between the classi�ers

of the ensemble. The versions were compared using di�erent selection rates and ensemble

sizes. After this, the best version was tested with other methods founded in literature.

Keywords : Dynamic Feature Selection, Classi�cation, Ensembles, Diversity.

Lista de �guras

1 Processo de classi�cação . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21

2 Estrutura modular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27

3 Estrutura Ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 28

4 Estrutura metodológica retirada de (NUNES et al., 2016) . . . . . . . . . p. 35

5 Metodologia do experimento . . . . . . . . . . . . . . . . . . . . . . . . p. 52

6 Grá�co de violino para os resultados obtidos da análise do parâmetro W p. 68

7 Grá�co de violino para os resultados obtidos da análise do parâmetro N p. 76

8 Grá�co de violino para os resultados obtidos da análise dos tamanhos

dos comitês . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 83

9 Grá�co de violino para os resultados obtidos da análise das versões de-

senvolvidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 86

10 Grá�co de violino para os resultados obtidos da comparação entre as

duas versões determinísticas . . . . . . . . . . . . . . . . . . . . . . . . p. 89

11 Grá�co de violino para os resultados obtidos da comparação com outros

métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92

Lista de tabelas

1 Descrição das con�gurações. Tabela retirada de (DANTAS; NUNES et al.,

2017) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37

2 Con�gurações executadas nos experimentos para cada versão . . . . . . p. 53

3 Bases de Dados Usadas nos Experimentos . . . . . . . . . . . . . . . . p. 58

4 Comparação entre os valores de W para a SD-R . . . . . . . . . . . . . p. 62

5 Resultado estatístico da comparação entre os valores de W para a SD-R p. 63

6 Comparação entre os valores de W para a SD-P . . . . . . . . . . . . . p. 64

7 Resultado estatístico da comparação entre os valores de W para a SD-P p. 65

8 Comparação entre os valores de W para a SD-D . . . . . . . . . . . . . p. 66

9 Resultado estatístico da comparação entre os valores de W para a SD-D p. 67

10 Comparação entre os valores de N para a SD-R . . . . . . . . . . . . . p. 70

11 Resultado estatístico da comparação entre os valores de N para a SD-R p. 71

12 Comparação entre os valores de N para a SD-P . . . . . . . . . . . . . p. 72

13 Resultado estatístico da comparação entre os valores de N para a SD-P p. 73

14 Comparação entre os valores de N para a SD-D . . . . . . . . . . . . . p. 74

15 Resultado estatístico da comparação entre os valores de N para a SD-D p. 75

16 Comparação entre os tamanhos do Comitê para a SD-R . . . . . . . . . p. 77

17 Resultado estatístico da comparação entre os tamanhos do Comitê para

a SD-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 78

18 Comparação entre os tamanhos do Comitê para a SD-P . . . . . . . . . p. 79


a SD-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 80

20 Comparação entre os tamanhos do Comitê para a SD-D . . . . . . . . . p. 81


a SD-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 82

22 Comparação entre as versões desenvolvidas . . . . . . . . . . . . . . . . p. 84

23 Resultado estatístico da comparação entre as versões desenvolvidas . . p. 85

24 Comparação entre a SD-D e a SD-D' . . . . . . . . . . . . . . . . . . . p. 87

25 Resultado estatístico da comparação entre a SD-D e a SD-D' . . . . . . p. 88

26 Comparação entre a melhor versão encontrada e demais métodos . . . . p. 90

27 Resultado estatístico da comparação entre a melhor versão encontrada e

demais métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 91

28 SD-R: Média da acurácia - 5 Classi�cadores . . . . . . . . . . . . . . . p. 101

29 SD-R: Desvio Padrão - 5 Classi�cadores . . . . . . . . . . . . . . . . . p. 102







36 SD-P: Média da acurácia - 5 Classi�cadores . . . . . . . . . . . . . . . p. 109

37 SD-P: Desvio Padrão - 5 Classi�cadores . . . . . . . . . . . . . . . . . . p. 110


39 SD-P: Desvio Padrão - 10 Classi�cadores . . . . . . . . . . . . . . . . . p. 112





44 SD-D: Média da acurácia - 5 Classi�cadores . . . . . . . . . . . . . . . p. 117

45 SD-D: Desvio Padrão - 5 Classi�cadores . . . . . . . . . . . . . . . . . p. 118







Lista de abreviaturas e siglas

AM � Aprendizado de Máquina

k -NN � k-Nearest Neighbour

SVM � Support Vector Machine

EM � Expectation Maximization

PCA � Principal Component Analysis

LDA � Linear Discriminat Analysis

CFS � Correlation-based Feature Selection

LLCFS � Feature Selection and Kernel Learning for Local Learning-Based Clustering

FSV � Feature Selection Via Concave Minimization

Sumário

1 Introdução p. 13

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 15

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16

1.3 Principais contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17

1.4 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18

2 Conceitos Relacionados p. 20

2.1 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20

2.1.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . p. 21

2.1.1.1 k -NN . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22

2.2 Aprendizado Não-Supervisionado . . . . . . . . . . . . . . . . . . . . . p. 23

2.2.1 k-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 23

2.3 Comitês de Classi�cadores . . . . . . . . . . . . . . . . . . . . . . . . . p. 25

2.3.1 Estrutura do Sistema . . . . . . . . . . . . . . . . . . . . . . . . p. 26

2.3.2 Componentes do Sistema . . . . . . . . . . . . . . . . . . . . . . p. 28

2.3.3 Método de combinação . . . . . . . . . . . . . . . . . . . . . . . p. 29

2.4 Seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30

2.5 Considerações �nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31

3 Trabalhos Relacionados p. 33

3.1 Seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33

3.2 Seleção de atributos para comitês de classi�cadores . . . . . . . . . . . p. 37

3.3 Dinamicidade em Comitês de Classi�cadores . . . . . . . . . . . . . . . p. 38


4 Seleção Dinâmica de Atributos para Comitês de Classi�cação p. 41

4.1 SD-R: Seleção Dinâmica Baseada em uma Escolha Randômica Simples p. 41

4.1.1 Funcionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44

4.2 SD-P: Seleção Dinâmica Baseada em uma Escolha Randômica Baseada

em Proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47

4.3 SD-D: Seleção Baseada em uma Escolha Determinística . . . . . . . . . p. 48

4.3.1 Funcionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 49


5 Metodologia p. 51

5.1 Análise empírica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 51

5.2 Bases de dados utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . p. 54

5.3 Métodos e materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 58

6 Resultados p. 61

6.1 Considerações iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61

6.2 Comparação entre os valores de W . . . . . . . . . . . . . . . . . . . . p. 62

6.2.1 Considerações sobre o parâmetro W . . . . . . . . . . . . . . . . p. 67

6.3 Comparação entre os valores de N . . . . . . . . . . . . . . . . . . . . . p. 69

6.3.1 Considerações sobre o parâmetro N . . . . . . . . . . . . . . . . p. 75

6.4 Comparação entre os tamanhos do comitê . . . . . . . . . . . . . . . . p. 76

6.4.1 Considerações sobre os tamanhos de comitês utilizados . . . . . p. 82

6.5 Comparação entre as três versões desenvolvidas . . . . . . . . . . . . . p. 83

6.5.1 Considerações sobre as versões desenvolvidas . . . . . . . . . . . p. 85

6.6 Comparação entre as duas versões da SD-D . . . . . . . . . . . . . . . p. 86

6.7 Comparação com métodos de classi�cação existentes na literatura . . . p. 89

7 Conclusão p. 93

7.1 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 93

7.1.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . p. 94

Referências p. 95

Apêndice A -- Resultados obtidos para todas as con�gurações testadas p. 101

A.1 SD-R: Seleção Dinâmica Baseada em uma Escolha Randômica Simples p. 101

A.2 SD-P: Seleção Dinâmica Baseada em uma Escolha Randômica Baseada

em Proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 109

A.3 SD-D: Seleção Dinâmica Baseada em uma Escolha Determinística . . . p. 117

13

1 Introdução

Em diversas áreas de conhecimento, sejam elas acadêmicas ou industriais, os sistemas

informatizados fazem uso de um elevado volume de dados. Analisar esses grandes volumes

de dados e encontrar algum signi�cado entre eles é uma tarefa complexa, que visa trans-

formar dados brutos em informações dotadas de relevância e propósito (SOMASUNDARAM;

SHRIVASTAVA et al., 2009).

O ser humano sempre construiu o seu conhecimento através da observação de padrões

e da construção de hipóteses para descobrir como os fatos e eventos sobre um determinado

assunto se relacionam. Com o aumento do volume dos dados e das diversas fontes onde

os mesmos podem ser obtidos, aumenta-se também a di�culdade de entendê-los. Sendo

assim, o processo de descoberta da informação relevante pode ser melhor desenvolvido de

forma automática, com a ajuda de um computador, através da utilização de métodos de

Aprendizado de Máquina, possibilitando o entendimento e o bom uso dessas informações

durante uma tomada de decisão. O Aprendizado de Máquina constitui um importante

campo da computação cujo objetivo é explorar e analisar bancos de dados, com o intuito

de �ltrar, entender o que é relevante e utilizar essas informações da melhor maneira

possível para avaliar os resultados obtidos (MITCHELL et al., 1997).

Uma das principais tarefas do Aprendizado de Máquina é a classi�cação. Essa tarefa

é aplicada em um conjunto de dados formado basicamente por atributos e instâncias.

Um atributo é uma característica que descreve um padrão (instância) da base de dados.

Cada instância possui um atributo especial chamado atributo classe, que é utilizado para

identi�car uma instância entre as diferentes categorias que um determinado problema

possui. Assim, o objetivo de um algoritmo de classi�cação é analisar as instâncias de uma

base de dados para criar um modelo capaz de determinar a qual classe uma nova instância

pertence (MITCHELL et al., 1997).

Inicialmente, um único classi�cador era utilizado para classi�car as novas instâncias

durante o processo de classi�cação. Com o passar do tempo, tem sido observado que a

14

combinação de diferentes classi�cadores para resolver um mesmo problema tem obtido

melhores resultados do que quando um único classi�cador é utilizado (KUNCHEVA, 2004).

A ideia principal consiste em combinar diversos especialistas (classi�cadores) para re-

solver um determinado problema. Essa abordagem que combina diferentes métodos de

classi�cação é conhecido por Comitês de Classi�cadores.

Diversos trabalhos que mostram o ganho de desempenho através da utilização da

combinação de classi�cadores são encontrados na literatura (HUANG et al., 2017; COLETTA

et al., 2015; LEMIEUX; PARIZEAU, 2003; BEN-YACOUB; ABDELJAOUED; MAYORAZ, 1999;

ZHOU, 2002). Esses sistemas são compostos por classi�cadores individuais que possuem

suas saídas combinadas por um método de combinação para determinar a qual classe uma

determinada instância de teste pertence. Um dos princípios desse sistema é a diversidade

entre seus classi�cadores, isto é, os classi�cadores devem possuir comportamentos distintos

para poderem explorar diferentes aspectos do problema.

A diversidade buscada durante a construção de sistemas de combinação pode ser en-

contrada de diversas formas, como: diferentes algoritmos de classi�cação, variados conjun-

tos de treinamento, diferentes parâmetros de con�guração dos classi�cadores, conjuntos

de atributos distintos, etc. O ideal é que cada classi�cador possua erros e acertos comple-

mentares que auxiliem no processo de tomada de decisão. Caso contrário, o uso de um

único classi�cador seria a escolha menos custosa para o problema.

Antes de qualquer processo de classi�cação, seja ele utilizando um único classi�cador

ou um sistema de combinação, é necessário veri�car a qualidade dos dados. O grande

volume de dados e as diferentes fontes de obtenção dos mesmos podem gerar dados im-

próprios para serem utilizados em um determinado método de mineração de dados. Esse

processo ocorre durante a fase de pré-processamento de dados, que tem como objetivo a

preparação dos dados para os algoritmos que serão utilizados no processo de aprendizado

de máquina.

Uma das principais etapas da fase de pré-processamento é a seleção de atributos. O

aumento no tamanho dos dados faz com que essa etapa tenha um importante papel para

o bom desempenho dos métodos de classi�cação de dados. Dependendo do problema a ser

resolvido, é possível que alguns atributos possuam pouca relevância para o que se deseja

classi�car, bem como pode ocorrer de atributos possuírem o mesmo signi�cado entre eles.

A etapa de seleção de atributos tem por objetivo identi�car esses atributos e removê-los

da base de dados (CHANDRASHEKAR; SAHIN, 2014).

A identi�cação dos atributos mais importantes para uma base de dados permite que

15

seja de�nido um subconjunto de atributos que possua melhor capacidade de trabalhar

com o problema a ser resolvido. Além da melhora em termos preditivo, ocorre também

uma redução na dimensionalidade dos dados, o que acarreta em uma melhor representati-

vidade do problema, uma necessidade de uma menor capacidade de armazenamento e uma

melhora no processamento computacional dos algoritmos de aprendizado de máquina. Vá-

rios estudos mostram que a redução dos atributos irrelevantes e redundantes melhora o

desempenho dos modelos criados pelos classi�cadores (GUYON; ELISSEEFF, 2003). Assim,

o principal objetivo de um método de seleção de atributos é encontrar um subconjunto de

atributos que represente os dados de uma forma tão e�ciente quanto uma base de dados

por completo.

Os métodos de seleção de atributos que comumente aparecem em trabalhos na lite-

ratura selecionam um único subconjunto de atributos para representar toda uma base de

dados. Partindo do pressuposto de que cada instância é única, e que um atributo pode

ser mais impactante para uma determinada instância do que para outra, a seleção de

atributos dinâmica seleciona um subconjunto de atributos para cada instância ou para

cada grupo de instâncias, sendo assim, vários subconjuntos de atributos são selecionados,

um para cada instância presente na base de dados.

Assim como em problemas que utilizam um único classi�cador, a seleção de atributos

é amplamente utilizada para sistemas de combinação de classi�cadores (SEIJO-PARDO et

al., 2017; ONAN, 2016; NOVAKOVIC, 2014). Em comitês de classi�cadores homogêneos,

ou seja, formados por um mesmo tipo de classi�cador, a seleção de atributos, além de

promover todos os seus benefícios citados anteriormente, serve como diversi�cador dos

classi�cadores. Uma maneira de aplicar a seleção de atributos a um comitê é selecio-

nar diferentes subconjuntos de atributos, uma para cada classi�cador, produzindo assim,

diferentes resultados entre os classi�cadores base.

1.1 Motivação

Alguns métodos de aprendizado de máquina possuem seu desempenho afetado pela

presença de atributos irrelevantes, como o k -NN. A seleção de atributos é uma das prin-

cipais etapas de pré-processamento e possui um impacto signi�cativo na capacidade pre-

ditiva dos classi�cadores.

Diversos métodos que realizam a seleção de atributos, seja para classi�cação ou para

formar os melhores grupos, já foram propostos na literatura (ZHENG; WANG, 2018; KUO

16

et al., 2014; NAKANISHI, 2015; HIRA; GILLIES, 2015; WEI et al., 2017; ABUALIGAH et al.,

2017; ABUALIGAH; KHADER, 2017). Em (NUNES et al., 2016) uma nova abordagem de

realizar essa seleção foi proposta. Tal abordagem, chamada seleção dinâmica, seleciona

diversos subconjuntos de atributos, um para cada instância ou grupo de instâncias. A

seleção dinâmica conseguiu obter excelentes resultados quando comparado com métodos

já consolidados na literatura, tando para métodos de seleção quanto para de extração de

atributos.

A seleção dinâmica mostrou-se bastante adequada para sistemas com um único classi�-

cador. Além disso, diversos trabalhos mostram a melhora no resultado �nal da classi�cação

quando se utiliza um sistema de combinação de múltiplos classi�cadores. Ambas as abor-

dagens apresentam resultados promissores quando usadas individualmente, porém não

foram ainda exploradas de maneira integrada. Sendo assim, a principal motivação deste

trabalho é promover integração dessas duas abordagens, Seleção Dinâmica de atributos e

Comitês de classi�cação.

1.2 Objetivos

O principal objetivo deste trabalho é aumentar a e�ciência em termos de desempenho

e dimensionalidade do processo de classi�cação de dados. Para isto, este trabalho visa

propor técnicas que realizem a integração da seleção dinâmica de atributos, proposta em

(NUNES et al., 2016), com sistemas de combinação de classi�cadores. A seleção de atributos

para sistemas de combinação de classi�cadores é uma das formas de diversi�car o comitê.

Esse processo ocorre através da seleção de subconjuntos diferentes de atributos para cada

classi�cador.

O uso da seleção dinâmica permitirá utilizar diversos subconjuntos de atributos para

classi�car uma única instância, obtendo diferentes resultados que ao serem combinados

gerem um maior ganho na capacidade preditiva do sistema como um todo. Além disso, será

investigado a melhor maneira de se fazer essa diversi�cação, bem como se a quantidade

de classi�cadores base tem impacto signi�cativo durante o uso dessas técnicas.

Assim, integrando essas técnicas é esperado que obtenhamos uma abordagem e�ci-

ente da utilização da Seleção Dinâmica de Atributos para comitês de classi�cação. Essa

integração é realizada selecionando diferentes subconjuntos para cada classi�cador, sub-

conjuntos esses que são utilizados na classi�cação de uma única instância. Assim, para

cada instância de teste a um comitê com N classi�cadores, haverá N subconjuntos de

17

atributos selecionados para serem utilizados na classi�cação.

Utilizando esse conjunto formado pelo método de seleção dinâmica de atributos e

comitês de classi�cadores é esperado um ganho signi�cativo no que se refere ao desem-

penho de classi�cação em um conjunto de dados, principalmente pelo fato de analisar

cada instância individualmente e selecionar os melhores conjuntos de atributos para a

mesma. Neste trabalho, o termo desempenho está associado unicamente a acurácia de

classi�cação, sem levar em consideração fatores como o tempo de processamento.

1.3 Principais contribuições

O desenvolvimento deste trabalho passou por várias etapas que resultaram nas publi-

cações que serão apresentadas a seguir.

Inicialmente, duas versões da seleção dinâmica para atributos foram criadas, uma

supervisionada, que utilizava o k-NN como método de seleção de atributos, e outra não-

supervisionada, que utilizava o k-Means. Experimentos iniciais, mostraram que a versão

não-supervisionada obteve os melhores resultados em termos de acurácia quando compa-

radas entre si. Em seguida, diversos experimentos, envolvendo os principais parâmetros da

seleção dinâmica (principalmente o algoritmo de agrupamento utilizado) foram realizados,

a �m de avaliar a sua viabilidade. Os resultados podem ser visualizados no artigo:

• NUNES, R. O.; DANTAS, C. A.; CANUTO, ANNEM.P.; XAVIER-JUNIOR, JOÃO

C. .An Unsupervised-based Dynamic Feature Selection for Classi�cation tasks. In:

IEEE World Congress on Computational Intelligence (IEEE WCCI), 2016, Vancou-

ver. International Joint Conference on Neural Networks (IJCNN) 2016. New York:

IEEE, 2016. v. 1. p. 4213-4220.

A Seleção Dinâmica de atributos, proposta anteriormente, selecionava os melhores

atributos para um grupo de instâncias. Buscando uma maior dinamicidade, uma nova

versão foi proposta. A nova seleção dinâmica utilizada todos os grupos para selecionar

os atributos mais importantes para uma única instância, utilizando uma proporção de

atributos de cada grupo, estabelecida similaridade entre a instância e os grupos formados.

Assim, foi produzido o seguinte artigo:

• DANTAS, C. A. ; NUNES, ROMULO DE O. ; CANUTO, A. M. P.; XAVIER JU-

NIOR, Joao Carlos. Dynamic Feature Selection Based on Clustering Algorithm and

18

Individual Similarity. In: International Conference on Arti�cial Neural Networks,

2017, Alghero, Sardinia, Italia. LNCS proceedings of ICANN 2017. Berlin: Springer,

2017. v. 10614. p. 1.

Dois dos mais importantes parâmetros utilizados na seleção dinâmica, são o critério

de avaliação e a medida de similaridade. Esses parâmetros foram os objetos de estudo no

seguinte artigo:

• NUNES, ROMULO DE O. ; DANTAS, C. A. ; CANUTO, A. M. P. ; XAVIER JU-

NIOR, Joao Carlos. Investigating the Impact of Similarity Metrics in an Unsupervised-

based Feature Selection Method. In: BRACIS - Brazilian Conference on Intelligent

Systems, 2017, Uberlandia. IEEE proceedings of BRACIS, 2017. v. 1. p. 1.

Em seguida, a seleção dinâmica foi aplicada de maneira integrada com métodos de

seleção de comitês, gerando um sistema completamente dinâmico:

• DANTAS, C. A. ; NUNES, ROMULO DE O. ; CANUTO, A. M. P.; XAVIER JU-

NIOR, Joao Carlos: Evaluating the Dynamicity of Feature and Individual Classi�ers

Selection in Ensembles of Classi�ers. In: IEEE World Congress on Computational

Intelligence (IEEE WCCI), 2018, Rio de Janeiro. International Joint Conference on

Neural Networks (IJCNN) 2018.

Paralelamente, o trabalho em questão estava sendo desenvolvido. Uma das versões

iniciais foi fruto do estudo utilizado no seguinte artigo:

• NUNES, R. O.; DANTAS, C. A.; CANUTO, ANNEM.P.; XAVIER-JUNIOR, JOÃO

C. Dynamic Feature Selection for Ensemble Classi�er. In: BRACIS - Brazilian Con-

ference on Intelligent Systems, 2018, São Paulo.

1.4 Organização do trabalho

O restante deste trabalho está organizado em 7 capítulos: O Capítulo 2 apresenta os

principais conceitos utilizados para o desenvolvimento deste trabalho. Capítulo 3 mostra

alguns estudos relacionados com o tema deste trabalho, apresentando uma visão geral do

que foi desenvolvido da seleção dinâmica de atributos e alguns trabalhos que realizam a

seleção de atributos aplicados à sistemas de combinação de classi�cadores.

19

O Capítulo 4 apresenta as três versões propostas, enquanto o Capítulo 5 mostra a

metodologia aplicada aos experimentos realizados. Os resultados preliminares obtidos são

apresentados no Capítulo 6, enquanto os Capítulos 7 apresenta as considerações �nais,

incluindo os trabalhos futuros.

20

2 Conceitos Relacionados

Este capítulo tem a �nalidade de apresentar os principais fundamentos teóricos que

foram utilizados durante a concepção deste trabalho.

2.1 Aprendizado de Máquina

Aprendizado de Máquina - AM é uma das principais áreas da Inteligência Arti�cial.

Seu principal foco é utilizar/desenvolver algoritmos que sejam capazes de aprender o

conhecimento de forma automática, obtendo informações úteis de um conjunto de dados

(MITCHELL et al., 1997).

O aumento da complexidade dos problemas a serem tratados e o grande volume de

dados gerados de diferentes fontes de conhecimento, torna necessária a utilização de méto-

dos computacionais que consigam realizar o processo de aquisição do conhecimento, sem a

necessidade da interferência de um especialista, utilizando apenas as informações passadas

para gerar mecanismos que sejam capazes de resolver um determinado problema.

AM pode ser aplicado em diversas áreas, tais como diagnósticos médicos, análise de

crédito, reconhecimento de voz, reconhecimento de padrões, processamento de linguagem

natural dentre outras. Existem diversos algoritmos que são utilizados para criar aplica-

ções em AM, onde o principal objetivo é adquirir a capacidade de generalização, isto é,

obter conclusões genéricas a partir de um conjunto de exemplos utilizados para que novos

problemas do mesmo domínio sejam resolvidos por meio de indução.

Esse conjunto de exemplos forma o que chamamos de conjunto de dados, ou base

de dados. Cada exemplo representa uma instância do problema a ser resolvido. Cada

instância é representada por um conjunto de propriedades/características que a descreve,

chamada de atributos. Os atributos são campos que armazenam os diferentes valores que

as características de uma instância deve conter, diferenciando os exemplos que formam o

conjunto de dados.

21

A maioria desses métodos podem ser divididos em duas abordagens, aprendizado

supervisionado e aprendizado não supervisionado (MITCHELL et al., 1997).

2.1.1 Aprendizado Supervisionado

No aprendizado supervisionado, cada instância possui um atributo especial, chamado

atributo classe, que tem como objetivo associar a instância a uma determinada categoria.

Esse tipo de aprendizado induz um modelo, cujo treinamento é realizado com uma base

de dados em que cada uma das observações possui a classe que ela pertence.

Durante a criação do modelo, as saídas previstas são comparadas com os valores

esperados (valor do atributo classe) e, conforme os resultados obtidos, os parâmetros são

alterados até que se encontre um resultado desejável. Assim, o modelo criado será capaz

de classi�car novas observações de forma e�ciente, com base no aprendizado obtido com

o seu treinamento.

O objetivo da adoção de aprendizado supervisionado é criar, através do algoritmo,

um classi�cador que tem por objetivo a criação de um estimador através de exemplos

rotulados. Este estimador será utilizado para atribuir o valor de uma das possíveis classes

(ou um valor real) a uma instância não rotulada, como mostra a Figura 1.

Figura 1: Processo de classi�cação

O objetivo do classi�cador é a correta associação entre os instâncias não rotuladas e as

possíveis classes do problema em questão. A avaliação do classi�cador pode ser realizada

de diversas maneiras, dependendo da propriedade que se deseja alcançar para avaliar

22

o quão bom um classi�cador é para a tarefa em questão. São exemplos de medida de

avaliação do aprendizado de um classi�cador: Acurácia de classi�cação (porcentagem de

instâncias classi�cadas corretamente), tempo de treinamento, tempo de teste, etc.

2.1.1.1 k-NN

O k-NN (k-Nearest Neighbour) é uma das técnicas de aprendizado de máquina mais

simples e utilizadas na literatura. Consiste em um método baseado em instâncias que

leva em consideração os k vizinhos mais próximos de uma instância para classi�cá-la

(MITCHELL et al., 1997). Assim como outros métodos baseados em distância, esse algo-

ritmo parte do princípio de que os padrões similares tendem a estar localizados em uma

mesma região do espaço de entrada. Partindo da mesma ideia, então, padrões com baixa

similaridade estarão distantes entre si.

Esse algoritmo parte do pressuposto de que todos os padrões (instâncias) de uma

base de dados são pontos presentes no espaço n-dimensional Rn de�nidos através dos

seus atributos. Sendo assim, é possível calcular a distância entre os pontos nesse espaço.

Idealmente, a métrica de distância escolhida deve ser adaptada de acordo com o problema

que se deseja resolver (CARVALHO et al., 2011), porém a maioria dos k -NNs encontrados na

literatura, utilizam a distância euclidiana como métrica. A distância euclidiana é de�nida

pela Equação (2.1).

Para duas instâncias X = x1, x2, ..., xn e Y = y1, y2, ..., yn, onde n é a quantidade de

atributos, a distância euclidiana d é (DANIELSSON, 1980):

d(X, Y ) =

√√√√ n∑i=1

(xi − yi)2 (2.1)

Para cada padrão p que se deseja rotular, se calcula a distância entre p e todos os

outros presentes no espaço em questão. Os k padrões mais próximos (Nearest Neighbours)

serão utilizados para determinar a classe de p. O valor do atributo classe mais presente

nas instâncias que formam o conjunto de vizinhos mais próximos será o escolhido para

rotular o padrão p.

A escolha do valor de k para um problema de classi�cação pode não ser trivial.

Esse valor é de�nido pelo usuário e costuma ser um valor pequeno e ímpar, para evitar

empates (CARVALHO et al., 2011). Essa escolha deve ser feita com cautela, pois um valor

muito pequeno pode deixar o método sensível a ruído, enquanto um valor grande pode

23

fazer com que padrões de outras classes sejam escolhidos para o conjunto de vizinhos mais

próximos.

O k -NN não possui um processo de treinamento explícito, isto é, a cada padrão que se

deseja classi�car é necessário calcular a distância desse objeto para todos os demais. Assim,

a predição pode ser custosa para um grande conjunto de dados. Outro fator negativo é

o fato de assim como todos os algoritmos baseados em distâncias, o mesmo é afetado

pela presença de atributos redundantes e/ou irrelevantes (CARVALHO et al., 2011). Mesmo

assim, devido a sua simplicidade e e�ciência, o k -NN consiste em um dos algoritmos de

classi�cação e regressão mais utilizados na literatura.

2.2 Aprendizado Não-Supervisionado

Por outro lado, o aprendizado do tipo não supervisionado não contém a informação de

qual classe a observação pertence, ou seja, o treinamento do modelo não possui nenhum

conhecimento prévio. Portanto, o objetivo do aprendizado não supervisionado é encontrar

regularidades ou categorias nos dados, assim como, relações entre os padrões para extrair

as informações necessárias.

A principal técnica não-supervisionada é o agrupamento de dados (LINOFF; MICHAEL,

2000). Algoritmos de agrupamento são métodos de aprendizado de máquina cujo objetivo

é separar objetos em grupos, baseando-se nas características que os mesmos possuem. O

funcionamento principal se baseia em colocar em um mesmo grupo objetos que sejam

similares entre si através da utilização de alguma métrica pré-estabelecida.

Um bom agrupamento é encontrado quando os objetos de um mesmo grupo possuem

uma alta homogeneidade, ou seja, são bastante similares entre si. Além disso, se deseja

encontrar entre os diferentes grupos formados uma alta heterogeneidade externa, ou seja,

que elementos de um grupo sejam bastante diferentes dos componentes dos demais grupos.

2.2.1 k-Means

O k-Means é um algoritmo de agrupamento iterativo que particiona os dados em uma

quantidade de k grupos distintos. O valor do parâmetro k é de�nido a priori, ou seja, o

k-Means forma a quantidade de grupos que o usuário deseja (LINOFF; MICHAEL, 2000).

Os dados são agrupados pela similaridade entre as instâncias e os centros de cada um

dos k grupos. Ou seja, a distância entre o padrão e os centros dos grupos são calculadas, e

24

a mesma é alocada ao grupo mais próximo. O centro do grupo é denominado de centroide.

O centroide c para um conjunto de n pontos pi = (xi, yi) no plano, para todo i =

1, ..., n, é o ponto médio em relação aos n pontos deste conjunto:

c = (x, y) (2.2)

em que:

• x =∑n

i=1 xi

n;

• y =∑n

i=1 yin

;

Essa de�nição pode ser expandida para além de duas dimensões no espaço.

A principal ideia do algoritmo k-Means é de�nir k centroides, um para cada grupo.

Os centroides iniciais são de�nidos aleatoriamente. Em seguida, o método aloca cada uma

das instâncias ao grupo do centroide mais próximo. Quando todas as amostras já possuí-

rem grupo, os centroides são recalculados através de (2.2) e as instâncias são novamente

associadas a um grupo. Esse processo ocorre até o momento em que não houver alteração

nos centroides. Os principais aspectos do k-Means serão descritos a seguir.

Parâmetros:

• k: número de grupos;

• n: número de instâncias;

• a: quantidade de atributos em cada instância;

• vi = {vi1, vi2, ..., via}: vetor que representa o valor dos a atributos para cada instânciai (i = 1, 2, ..., n);

Variáveis:

• cj = {cj1, cj2, ..., cja}: Vetor que representa o valor dos a atributos para cada cen-

troide j (j = 1, 2, ..., k);

• gij: Representa a qual centroide j a instância i está associada;

O objetivo do algoritmo k-Means é classi�car um conjunto de n instâncias em k grupos

de forma a minimizar a função objetivo F (2.3):

25

F =k∑

j=1

n∑i=1

gij(‖vi − cj‖)2 (2.3)

em que, (‖vi − cj‖)2 representa qualquer medida de distância utilizada entre a instân-cia i e o centroide j.

Pode-se visualizar os passos do k-Means através do Algoritmo 1:

Algoritmo 1 Algoritmo do método de agrupamento k-Means1: procedure k-Means2: Entrada: k, v, n, a3: De�nir aleatoriamente cj para todo j = 1, ..., k4: repetir5: para i = 1, ..., n faça6: Associar a instância i ao centroide j mais próximo (gij);7: �m para8: para j = 1, ..., k faça9: Recalcular os novos centroides cj com relação aos atributos das instâncias10: que pertencem ao cada grupo j;11: �m para12: até que cj não for alterado para todo j = 1, ..., k13: retorna g;14: �m procedure

2.3 Comitês de Classi�cadores

Geralmente, durante qualquer processo de tomada de decisões, sejam elas médicas,

�nanceiras, sociais, entre outras, é comum procurarmos sempre uma segunda opinião, ou

quantas forem necessárias, para auxiliar-nos durante a escolha que será realizada. A partir

desse conjunto de opiniões, é esperado que obtenhamos uma opinião �nal melhor, bem

mais informada, do que todas as opiniões avaliadas isoladamente. Diferentes propostas

de uma solução podem levar em consideração aspectos distintos relevantes de um mesmo

problema, o que não aconteceria se fosse avaliado apenas uma única proposta. A ideia de

combinar diferentes soluções para resolver um único problema, pode ser utilizada também

no processo de classi�cação através da combinação de diversos algoritmos de classi�cação,

conhecido como Comitês de classi�cadores ou Sistemas multi-classi�cadores (KUNCHEVA,

2004).

O desempenho obtido por um classi�cador depende de diversos fatores referentes a

maneira de como os dados que se desejam classi�car se encontram. Pode-se dizer que não

26

existe o classi�cador perfeito para todas as situações e tipos de problemas, ou seja, todos

os classi�cadores apresentam pontos fortes e fracos. Alguns fatores podem fazer com que

os algoritmos de classi�cação apresentem desempenhos diferentes, como o tamanho dos

dados, o tipo dos dados, a relevância dos atributos, a presença de atributos redundantes,

entre outros fatores. Diversas pesquisas tem mostrado que a combinação dos resultados

de diversos classi�cadores é capaz de obter melhores resultados do que as de um único

classi�cador (KUNCHEVA, 2004), combinando as vantagens e superando as limitações dos

classi�cadores utilizados.

Durante o processo de criação de um Sistema de Combinação de classi�cadores, três

aspectos principais devem ser levados em consideração: a estrutura do Sistema, os com-

ponentes do Sistema e o método de combinação.

2.3.1 Estrutura do Sistema

A estrutura do sistema é responsável por de�nir como os componentes estão organi-

zados e interagem dentro do sistema. Pode ser classi�cado em duas categorias: modular e

ensembles.

Na arquitetura modular é utilizado o princípio de "dividir para conquistar", onde

um problema inicial é decomposto em diversas sub-tarefas, tornando cada método um

especialista em um aspecto do problema. Cada especialista executa uma sub-tarefa e a

combinação das soluções obtidas são combinadas para determinar a saída �nal do sistema.

Uma representação da arquitetura modular é apresentada na Figura 2.

27

Figura 2: Estrutura modular

Os ensembles, por sua vez, utilizam a combinação de modelos paralelos e redundan-

tes, tendo em vista que, todos os classi�cadores que formam o sistema de combinação

executam a mesma tarefa. Essa arquitetura explora as diferenças entre os classi�cadores

base, buscando a diferentes maneiras de se resolver um mesmo problema que possibili-

tem a obtenção de informações complementares sobre os padrões que serão classi�cados.

Essa utilização de diferentes modelos para gerar uma saída baseada na combinação de

diferentes opiniões torna o sistema mais robusto e tolerante a falhas (BRAGA, 2005). Uma

representação da arquitetura de um ensemble é apresentada na Figura 3.

28

Figura 3: Estrutura Ensemble

2.3.2 Componentes do Sistema

Após a escolha da arquitetura do Sistema, é necessário de�nir os componentes (classi-

�cadores) que o compõe. A utilização de classi�cadores idênticos, que obtenham a mesma

resposta, não produz nenhum benefício para a classi�cação. Um dos principais fatores bus-

cados na hora de escolher os componentes do sistema é a diversidade, que busca atingir

um nível em que os classi�cadores obtenham diferentes erros durante a classi�cação. Essa

combinação de classi�cadores pode ser realizada através de duas abordagens: homogênea

e heterogênea (BIAN; WANG, 2007).

• Comitês homogêneos: Esta abordagem utiliza apenas um único método de apren-

dizagem para a construção do sistema de classi�cação. Para obter diversidade uti-

lizando apenas uma única técnica, é necessário utilizar diferentes parâmetros para

que assim, modelos distintos sejam gerados para cada classi�cador. Em um comitê

formado apenas por k-NNs, por exemplo, para obter a diversidade pode-se variar

o valor do parâmetro k. Outra maneira de obter a diversidade com classi�cadores

homogêneos é a utilização de diferentes conjuntos de treinamento, seleção de pa-

drões distintos para cada classi�cador ou a utilização de métodos de distribuição de

atributos para cada componente do sistema (SANTANA, 2012).

29

• Comitês heterogêneos: Esta abordagem utiliza diferentes algoritmos de aprendiza-

gem em um mesmo conjunto de treinamento. Sua diversidade é obtida pelos dife-

rentes modelos criados a partir de cada método de classi�cação utilizado, buscando

tirar vantagens dos pontos fortes de cada classi�cador.

2.3.3 Método de combinação

Após a escolha da estrutura e dos componentes do sistema, o próximo passo é a de�ni-

ção de uma maneira efetiva de combinar os seus resultados. As estratégias de combinação

discutidas na literatura são: seleção e fusão (CANUTO et al., 2007).

Na seleção apenas um classi�cador é responsável pela saída do sistema. A ideia de

utilizar a seleção é a de que cada classi�cador é um especialista e que o classi�cador esco-

lhido para indicar a saída do sistema será o mais capacitado para classi�car determinado

padrão de entrada.

Na fusão as saídas de cada classi�cador base são usadas em conjunto para determinar

a saída geral do sistema. Todos os classi�cadores participam do processo de tomada de

decisão. Uma função é aplicada as saídas dos classi�cadores para combinar os resultados

e obter uma opinião geral sobre a saída do sistema, determinando assim, o consenso

do grupo sobre a classe de uma determinada instância. Pode-se citar como exemplos os

seguintes métodos:

• Voto Majoritário (KUNCHEVA et al., 2003): Consiste em uma regra de decisão simples,

onde, quando uma instância de teste é apresentada ao comitê, cada classi�cador

vota em uma determinada classe. A classe escolhida é aquela que obtiver a maior

quantidade de votos.

• Soma (KITTLER; ALKOOT, 2003): Método de combinação linear, onde, quando uma

instância de teste é apresentada ao comitê, os valores de saída correspondentes a

cada classe (nível de con�ança) são somados. A classe cuja soma resultante for a

mais elevada, é declarada vencedora.

• Média (KUNCHEVA, 2002): Método de combinação linear, onde, quando uma instân-

cia de teste é apresentada ao comitê, a média dos valores de saída correspondentes

a cada classe (nível de con�ança) são obtidas. A classe cuja média resultante for a

mais elevada, é declarada vencedora.

30

• Máximo (KUNCHEVA, 2002): Método de combinação linear, onde, quando uma ins-

tância de teste é apresentada ao comitê, os valores de saída correspondentes a cada

classe (nível de con�ança) são calculados. A classe que possuir o maior (Máximo)

valor, é declarada vencedora.

2.4 Seleção de atributos

Para que se obtenha um resultado desejável ao se aplicar os métodos de aprendizado

de máquina a um conjunto de dados, é necessário que esses dados apresentem uma boa

qualidade. Devido ao grande volume de dados e as diversas fontes de obtenção dos mesmos,

pode ser necessário a realização de um pré-processamento para deixar os dados adequados

para o método que irá utiliza-los. Uma das principais etapas da fase de pré-processamento

é a seleção de atributos, que consiste em uma etapa fundamental para se obter sucesso

em tarefas de classi�cação e agrupamento (WITTEN et al., 2016).

O conjunto de atributos descreve as características das instâncias de um determinado

problema. Pode ocorrer de alguns desses atributos trazerem pouca relevância para a tarefa

que se deseja realizar durante o processo de classi�cação, bem como é possível a presença

de atributos redundantes.

Para solucionar esse problema é necessário a ajuda de um especialista para identi�car

quais atributos mais contribuem para a resolução do problema. Porém, com o aumento

do tamanho dos dados, surgiu a necessidade de se produzir métodos automáticos que

sejam capazes de realizar essa tarefa, substituindo o especialista e obtendo um melhor

desempenho em tempo de processamento. Esses métodos são chamados de Métodos de

Seleção de Atributos, que tem como principal objetivo identi�car e remover os atributos

redundantes e/ou irrelevantes da base de dados (JAIN; ZONGKER, 1997).

Através da seleção dos atributos mais relevantes é possível atingir os seguintes obje-

tivos:

• Reduzir da dimensionalidade dos dados: aumentando a velocidade do algoritmo e

utilizando menos armazenamento para os dados.

• Melhorar na performance: a qualidade dos atributos escolhidos para o processo de

classi�cação está diretamente ligada a capacidade preditiva, permitindo um maior

ganho em termos de acurácia.

• Facilitar o entendimento dos dados: a seleção dos melhores atributos possibilita um

31

melhor entendimento da organização dos dados e de como os mesmos interferem no

resolução do problema.

Diferentes abordagens de seleção de atributos podem ser consideradas, as duas prin-

cipais são: Filtro e Wrapper (LAW; FIGUEIREDO; JAIN, 2004). Na abordagem por Filtro, a

ideia principal é selecionar os atributos mais importantes através de algum critério esco-

lhido. Essa seleção considera as características gerais do conjunto de dados para selecionar

os melhores atributos. Sendo assim, métodos de �ltro são independentes do algoritmo de

classi�cação que utilizará o novo conjunto de dados, contendo as instâncias sem a presença

dos atributos que foram descartados.

Na abordagem porWrapper, o próprio classi�cador é utilizado para avaliar a qualidade

dos subconjuntos de atributos selecionados. Isto é, um método de busca é utilizado para

percorrer todo o espaço dos possíveis subconjuntos de atributos que possam ser utilizados,

para cada subconjunto o classi�cador é treinando, e seu resultado indicará a qualidade

do subconjunto avaliado. Esse processo se repete diversas vezes, até que um critério de

parada seja satisfeito. Assim, o algoritmo de seleção retornará o subconjunto de atributos

que obteve um melhor desempenho durante a avaliação. Esse tipo de abordagem possui

um elevado custo de computacional, devido às repetidas execuções do classi�cador para

avaliar a qualidade dos subconjuntos de atributos obtidos durante o processo de busca.

Para diminuir essa limitação, estratégias envolvendo heurísticas e meta-heurísticas são

comumente utilizadas para solucionar os subconjuntos de atributos que serão avaliados.

Independente da abordagem utilizada, o processo de seleção de atributos é uma das

principais etapas de pré-processamento e tem um papel importante nos problemas de

classi�cação, permitindo que se obtenha um melhor desempenho através da redução da

dimensionalidade dos dados e da utilização do subconjunto de atributos que melhor re-

presente o conjunto de dados geral.

2.5 Considerações �nais

Neste Capítulo foram apresentados os principais conceitos que foram utilizados para

o desenvolvimento desta proposta. Inicialmente, um conceito geral sobre Aprendizado de

Máquina foi apresentado, através da apresentação da divisão do mesmo em Aprendizado

Supervisionado e Não-Supervisionado. Para cada um dos aprendizados, um método foi

descrito, método esse que tem fundamental participação no trabalho. Para o aprendizado

supervisionado foi descrito o classi�cador k -NN, enquanto que para o aprendizado não-

32

supervisionado foi explicado o funcionamento do k -Means.

Em seguida, os principais conceitos envolvendo as duas abordagens utilizadas neste

trabalho são explicados: Comitês de classi�cação e Seleção de atributos. Apresentando os

principais pontos que devem ser levados em consideração na utilização de métodos que

realizam essas abordagens.

33

3 Trabalhos Relacionados

Neste capítulo serão apresentados alguns trabalhos com o tema relacionado ao desta

proposta. A primeira seção apresenta um conjunto de estudos que foi publicado até agora

sobre a Seleção Dinâmica de atributos, mostrando um resumo dos principais tópicos abor-

dados em cada um dos trabalhos produzidos. Logo após, diversos trabalhos que utilizam

métodos de seleção de atributos para Comitês de Classi�cação são apresentados e alguns

trabalhos que realizam a Seleção Dinâmica de Comitês.

3.1 Seleção de atributos

Como mencionado anteriormente, seleção de atributos é um importante passo da fase

de pré-processamento de dados. Seu objetivo é selecionar o subconjunto mais represen-

tativo de atributos de um conjunto de dados. O processo de seleção ocorre através da

eliminação de atributos irrelevantes e/ou redundantes.

Diversos métodos de seleção de atributos para classi�cadores individuais são encon-

trados na literatura, (LI et al., 2017; SHARDLOW, 2016; KUO et al., 2014; NAKANISHI, 2015;

HIRA; GILLIES, 2015; ZHENG; WANG, 2018). Esses métodos realizam a seleção de maneira

estática, isto é, selecionam um único subconjunto de atributos para representar a base

de dados. Em (LI et al., 2017), por exemplo, os autores apresentam um survey com uma

revisão sobre os recentes avanços na pesquisa sobre seleção de atributos. Assim como

em (SHARDLOW, 2016), onde vários métodos de seleção de atributos são explorados e

avaliados utilizando o classi�cador SVM .

Os métodos de seleção de atributos tradicionais recebem como entrada um conjunto de

dados e devolvem como saída um subconjunto dos atributos mais relevantes, ou seja, que

melhor descrevem a base de dados. Durante o processo de classi�cação, o subconjunto

selecionado é utilizado para treinamento e teste de todas as instâncias, sem levar em

consideração a particularidade de cada amostra.

34

A seleção dinâmica, por sua vez, tem como objetivo selecionar os melhores atributos

para cada instância ou grupo de instâncias individualmente. Os métodos desenvolvidos

partem do principio que os atributos que melhor descrevem uma instância, não necessa-

riamente são os mesmos para as demais instâncias do conjunto de dados. Sendo assim,

diferentes subconjuntos de atributos são selecionados, e cada instância é classi�cada uti-

lizando o seu próprio subconjunto de atributos. Trabalhos sobre a seleção dinâmica de

atributos podem ser encontrados em (NUNES et al., 2016) (DANTAS et al., 2017) (DANTAS;

NUNES et al., 2017).

Em (NUNES et al., 2016), a seleção dinâmica é realizada através da aplicação de um

algoritmo de agrupamento em um conjunto de validação. Após separar as instâncias em

grupos, um critério de avaliação é aplicado para determinar os atributos mais importante

para cada grupo. Assim, quando se deseja classi�car uma instância, a mesma é comparada

com todos os grupos formados através da aplicação de uma medida de similaridade, utili-

zada para de�nir a qual grupo esta instância pertence. Então, o processo de classi�cação

da instância em questão é realizado utilizando o subconjunto de atributos selecionados

para o grupo ao qual ela pertence.

Em (NUNES et al., 2016), foram utilizados três diferentes algoritmos de agrupamento

(k-Means, DBScan e EM ) para selecionar os atributos mais relevantes. Após o processo

de seleção, a e�ciência do método foi comprovada através da aplicação de quatro classi-

�cadores (k -NN, Árvore de Decisão, SVM e Naive Bayes), como foi ilustrado na Figura

4.

35

Figura 4: Estrutura metodológica retirada de (NUNES et al., 2016)

Dentre os algoritmos de agrupamento utilizados, o que obteve melhores resultados foi

o k-Means, seguido pelo EM e por �m o DBScan. Os resultados obtidos com a utilização

do k-Means na seleção foram comparados com três métodos de redução de dimensiona-

lidade: A seleção randômica, PCA (LIU; MOTODA, 2007) e LDA (LIU; MOTODA, 2007).

O resultado desse novo método foi bastante promissor, pois o mesmo obteve melhores

resultados em termos de acurácia que os três métodos analisados, bem como, obteve um

melhor desempenho do que quando todos os atributos foram utilizados para o processo

de classi�cação.

Buscando uma maior dinamicidade para o método proposto, em(DANTAS et al., 2017)

uma alteração na seleção dinâmica foi proposta. A diferença entre as duas versões está

no momento em que será de�nido os atributos que representam uma dada instância. Na

36

nova versão, é de�nida uma proporção baseada na distância da instância para todos os

grupos, sendo assim, os atributos que serão utilizados para treinamento e teste da instância

serão escolhidos de todos os grupos, baseado na proporção estabelecida pela medida de

similaridade. Assim, a nova abordagem realiza um processo realmente dinâmico, onde cada

instância possui seu próprio subconjunto de atributos selecionados, diferente da anterior,

em que os subconjuntos eram pertencentes a todo um grupo de instâncias.

Também em (DANTAS et al., 2017), foi realizado uma análise baseada na taxa de sele-

ção de atributos, buscando analisar o comportamento do método proposto nas seguintes

proporções de seleção: 25%, 50% e 75%. Todos os experimentos conduzidos foram reali-

zados utilizando o k-Means no processo de seleção de atributos, uma vez que os melhores

resultados obtidos em (NUNES et al., 2016) foram com esse algoritmo.

Em (NUNES et al., 2016), a comparação do método foi realizada apenas com a seleção

randômica e dois métodos de extração de atributos. Em (DANTAS et al., 2017), fora adi-

cionados mais três métodos, todos de seleção de atributos. Os métodos escolhidos para o

experimento foram: CFS (HALL, 1999), LLCFS (ZENG; CHEUNG, 2011) e FSV (BRA-

DLEY; MANGASARIAN, 1998). O método proposto obteve melhor desempenho do que todos

os outros métodos testados.

A seleção dinâmica possui duas principais medidas em seu processo: O critério de

avaliação e a medida de similaridade. O critério de avaliação é aplicado nas instâncias que

formam os grupos, para de�nir os atributos mais importantes para cada grupo formado.

A medida de similaridade é utilizada entre as instâncias de teste e os grupos formados,

para de�nir o subconjunto de atributos que será utilizado para a instância em questão.

Essas duas mediadas podem ser variadas. Em (DANTAS; NUNES et al., 2017), foi realizado

um estudo para analisar quais as medidas que traziam um melhor desempenho para a

seleção dinâmica.

Foram utilizas um total de seis medidas, duas como critério de avaliação e quatro

como medidas de similaridade. As métricas utilizadas foram: Coe�ciente de Correlação de

Spearman (SPRENT; SMEETON, 2000), Coe�ciente de Correlação de Pearson (GARREN,

1998), Distância Euclidiana (BERRY; LINOFF, 2000), Distância de Manhattan (BERRY;

LINOFF, 2000), Distância de Minkowski (BERRY; LINOFF, 2000) e Distância de Mahala-

nobis (BERRY; LINOFF, 2000). Foram utilizado um total de oito con�gurações para os

experimentos, como pode ser visto na Tabela 1.

37

Tabela 1: Descrição das con�gurações. Tabela retirada de (DANTAS; NUNES et al., 2017)

Conf Critério de avaliação Medida de Similaridade

Conf1

Correlação de Pearson

Euclidiana

Conf2 Manhattan

Conf3 Minkowski

Conf4 Mahalanobis

Conf5

Correlação de Spearman

Euclidiana

Conf6 Manhattan

Conf7 Minkowski

Conf8 Mahalanobis

A con�guração que obteve melhor desempenho foi quando se utilizou o Coe�ciente de

Correlação de Pearson como critério de avaliação e a Distância Euclidiana como medida

de similaridade. Após isso, a melhor con�guração foi comparada novamente com métodos

de seleção e extração de atributos já conhecidos e obteve um melhor desempenho do que

todos os outros métodos.

Outra avaliação da Seleção Dinâmica pode ser encontrada em (JESUS; CANUTO; ARAÚJO,

2017b, 2017a). Em (JESUS; CANUTO; ARAÚJO, 2017b), os autores propõem o uso de alguns

elementos da Teoria da Informação na Seleção Dinâmica de atributos, como Informações

Mútuas (GALLAGER, 1968). Este estudo tem como objetivo veri�car o impacto que a mu-

dança em importantes parâmetros (medida de similaridade e proporções de treinamento,

teste e validação de dados) podem trazer para o processo de classi�cação.

3.2 Seleção de atributos para comitês de classi�cadores

Na literatura encontramos diferentes trabalhos relacionados a seleção de atributos para

serem utilizados em comitês de classi�cação, como em (OPTZ, 1999; MORITA; OLIVEIRA;

SABOURIN, 2004; ONAN, 2016; SEIJO-PARDO et al., 2017; NAMSRAI et al., 2013; NOVAKOVIC,

2014; XU et al., 2014; LIU et al., 2012; BACAUSKIENE; VERIKAS, 2004; NETO; CANUTO,

2018).

Por exemplo, em (ONAN, 2016) os autores apresentam um artigo voltado para clas-

si�cação de páginas Web através da utilização de comitês de classi�cadores. Para isso,

um estudo experimental é realizado utilizando quatro diferentes algoritmos de seleção de

atributos, quatro métodos de aprendizado para comitês baseados na utilização de 4 clas-

38

si�cadores base. O objetivo dos autores é mostrar que a utilização de métodos de seleção

de atributos e combinação de classi�cadores melhora a capacidade preditiva de métodos

que realizam classi�cação de páginas Web.

Em (NAMSRAI et al., 2013) os autores propõem um método de construção de comitês

de classi�cadores para a classi�cação de arritmias. O primeiro passo consiste na seleção

de três diferentes subconjuntos de características. Em seguida, para cada subconjunto um

modelo é criado. Por �m, os modelos são combinados através do método de votação. O

método utiliza o CFS como método de seleção de atributos e os comitês são formados

pela combinação dos seguintes métodos: Árvore de decisão, Naive Bayes, SVM e Rede

Bayesiana.

Em (NOVAKOVIC, 2014), os autores tem por objetivo avaliar os impactos da utilização

do SVM como método seletor de atributos para serem utilizados em comitês de classi�-

cação. O SVM é utilizado para atribuir pesos a cada atributos, selecionando os melhores

para compor cada modelo que será criado. A combinação dos classi�cadores foi utilizada

em diferentes contextos de diagnóstico médico.

Em (XU et al., 2014) os autores criaram um novo método que utiliza o algoritmo de

seleção de atributos baseado na correlação (CFS) através da combinação da otimização por

nuvem de partículas e da informação mútua para selecionar os melhores subconjuntos de

atributos para a criação dos comitês. Os comitês criados utilizam o SVM como classi�cador

base e são utilizados no processo de classi�cação de problemas de reconhecimento de

câncer.

Todos esses trabalhos realizam uma seleção de maneira estática, selecionando os me-

lhores atributos para a base de dados e utilizando o comitê para realizar a classi�cação

de todas as instâncias com um mesmo conjunto de atributos. A dinamicidade encontrada

em comitês durante a classi�cação, normalmente é realizada com a seleção dos classi�ca-

dores que formarão o conjunto de classi�cadores que será utilizado para classi�car cada

instância individualmente, alguns trabalhos que realizam esse processo estão descritos na

próxima seção.

3.3 Dinamicidade em Comitês de Classi�cadores

A dinamicidade em comitês de classi�cadores pode ser alcançada de diferentes ma-

neiras, com a seleção de atributos ou de classi�cadores para serem utilizados pelo comitê.

Até onde sabemos, não existe nenhum método que promova a dinamicidade na seleção

39

de atributos para comitês de classi�cadores. Em termos de dinamicidade, existem alguns

trabalhos que selecionam classi�cadores de maneira dinâmica para classi�car uma deter-

minada instância.

Um comitê de classi�cação estático determina um único conjunto de classi�cadores

para todos os conjuntos de testes durante a fase de classi�cação. Por outro lado, um co-

mitê de classi�cação dinâmico seleciona um ou mais classi�cadores para cada instância de

teste individualmente, essa seleção é feita através da determinação de quais dos classi�-

cadores, que compões o conjunto inicial de classi�cadores, são considerados mais adequa-

dos/competentes para classi�car determinada instância. Assim, em um comitê dinâmico,

cada instância de teste é classi�cada por um subconjunto diferente de classi�cadores se-

lecionados.

A principal estratégia para se criar um comitê dinâmico é a Seleção Dinâmica de

Comitês (KO; SABOURIN; JR, 2008). Diversos trabalhos envolvendo a Seleção Dinâmica

de Comitês foram realizados nos últimos anos, alguns deles podem ser encontrados em

(KO; SABOURIN; JR, 2008; CAVALIN; SABOURIN; SUEN, 2013; CRUZ et al., 2015; OLIVEIRA;

CAVALCANTI; SABOURIN, 2017; CRUZ; SABOURIN; CAVALCANTI, 2017).

Por exemplo, em (KO; SABOURIN; JR, 2008) os autores apresentam quatro abordagens

para a realização da Seleção Dinâmica de Comitês, comparando os resultados obtidos

com a seleção estática. Os resultados apresentados neste trabalho mostram que o uso da

dinamicidade obteve melhores resultados quando comparado com os obtidos utilizado uma

seleção estática, onde o conjunto de classi�cadores era o mesmo para todos os padrões de

testes.

Em (CRUZ et al., 2015), os autores apresentam um framework para seleção dinâmica

de comitês, chamado META-DES. Os autores a�rmam que o uso de apenas um critério

não é su�ciente para corretamente determinar o nível de competência de um classi�cador.

A ideia principal deste framework consiste em selecionar cinco diferentes características

que serão utilizadas para treinar um meta classi�cador que será utilizado para prever se

um classi�cador é ou não competente para classi�car uma determinada instância de teste.

Todos os trabalhos citados nesta seção, conseguem obter dinamicidade para os comitês

através da seleção dos classi�cadores que serão utilizados para classi�car uma determinada

instância. Este trabalho também visa promover a dinamicidade nos comitês formados,

porém essa dinamicidade será alcançada com o processo de seleção de atributos, buscando

a criação de estruturas robustas obtidas através da utilização da Seleção Dinâmica de

atributos em comitês de classi�cação.

40


Neste Capítulo, foram apresentados alguns estudos sobre os temas relacionados com

esta Proposta. Inicialmente, alguns trabalhos que utilizam métodos que realizam a seleção

de atributos de maneira estática foram apresentados. Em seguida, um levantamento sobre

os trabalhos que propuseram e avaliaram a Seleção Dinâmica de atributos é realizado,

mostrando o funcionamento e os princípios básicos da Seleção Dinâmica.

Ainda neste Capítulo, alguns trabalhos que utilizam seleção de atributos para comi-

tês de classi�cadores são apresentados. Por �m, como não foram encontrados trabalhos

que promovam a dinamicidade em comitês através da seleção de atributos, estudos que

utilizam seleção de classi�cadores e/ou seleção de comitês são descritos.

41

4 Seleção Dinâmica de Atributos

para Comitês de Classi�cação

Neste capítulo serão apresentadas as versões desenvolvidas para o método proposto.

Será mostrada a arquitetura geral e o seu funcionamento, apresentando os principais pas-

sos que envolvem o processo de seleção de atributos e classi�cação de uma instância pelo

comitê. Foram desenvolvida três versões (SD-R, SD-P e SD-D), que serão apresentadas a

seguir.

4.1 SD-R: Seleção Dinâmica Baseada em uma Escolha

Randômica Simples

Para entender melhor essa versão proposta, suponha que seja B uma base de dados,

composta por A = {att1, att2, ..., attq} atributos e I instâncias, onde q é o número total deatributos que a base de dados B possui. As instâncias são divididas em 3 conjuntos, treina-

mento TR = {tr1, tr2, ..., trntr}, validação V = {v1, v2, ..., vnv} e teste T = {t1, t2, ..., tnt},onde ntr, nv e nt representam os conjuntos de treinamento, validação e teste, respectiva-

mente.

O método proposto pode ser descritos através dos seguintes passos:

1. Agrupar os dados: Para tal, um algoritmo de agrupamento Alg é aplicado ao con-

junto de validação V , que é responsável pela separação das instâncias em grupos. A

aplicação do algoritmo é representado pela Equação 4.1:

G = Alg(V ) (4.1)

Onde G = {g1, ..., gj} é a partição criada pelo algoritmo e j é o número de grupos

42

formados pela partição;

2. Selecionar os atributos mais importantes para cada grupo: Para tal, os seguintes

passos serão executados. No 1o passo, para cada grupo gj é aplicado uma função

F (gj) que de�ne um critério de avaliação, de�nindo a importância dos atributos

para este grupo.

(a) Como resultado desta função, um valor E é obtido, onde E = {e1, .., eq}, e q onúmero de atributos inicial da base de dados. O valor ei para cada atributo i de

A, usando como base as instâncias de gj, de�ne a importância deste atributo

para o grupo gj, baseado no critério utilizado por F .

(b) Baseado neste critério de avaliação, todos os atributos são ordenados, como

representado na equação pela Equação 4.2. Essa ordenação pode ser crescente

ou decrescente, dependendo da medida escolhida.

Rj = rank(F (gj)) (4.2)

(c) Uma vez ordenado, os N atributos mais bem posicionados no ranking são se-

lecionados para cada grupo gj. Os Ngj atributos selecionados para representar

gj formam o conjunto Aj, como mostra a Equação 4.3. Neste método, pode-se

utilizar um valor de Ngj para cada grupo. A quantidade de atributos seleci-

onados N é uma escolha de implementação, ou seja, qualquer taxa pode ser

utilizada.

Aj = select(Rj, Ngj) (4.3)

Onde,

Aj = {att1, att2, ..., attN}|Aj ⊂ A;

3. De�nir as proporções de atributos por grupo: Neste passo, a proporção de atributos

que será utilizada de cada grupo será de�nida.

(a) Quando se deseja classi�car uma instância de teste ti, a mesma é comparada

com a partição G para se de�nir a distancia de ti para os diferentes grupos de

G, utilizando uma medida de similaridade DIST.

DIST = disty(ti, py)|y = {1, .., j}. (4.4)

43

O principal objetivo de DIST é calcular a distância entre a instância de teste

ti e o centroide de cada grupo. Onde py é o protótipo do grupo y, que pode ser

o centroide ou qualquer vetor que melhor consiga representar o grupo y.

(b) Uma função PROB é aplicada para cada valor de DIST , visando transformar

a distância (similaridade) disty no formato de probabilidade a posteriori, Py,

como mostrado na Equação 4.5, que, desta forma, pode ser interpretado como

a probabilidade da instância ti pertencer ao grupo gy.

Py = PROB(ti, disty). (4.5)

(c) Essa função de probabilidade é baseada na distância entre ti e cada um dos

grupos formados. A probabilidade é inversamente proporcional a distância en-

contrada. Quanto mais distante, menor vai ser a probabilidade de pertinência.

Essa medida será utilizada para representar a proporção de atributos que serão

selecionados de cada grupo para compor o subconjunto de atributos gerais S

selecionados para a instância de teste.

S = select(Aj, Pj) (4.6)

Onde, j é o total de grupos formados.

4. Seleção dos atributos para a instância de testes: Para o processo de classi�cação

da instância de teste ti, suponha que seja C um comitê de classi�cação formado

por z classi�cadores, onde C = {c1, c2, ..., cz}. Para diversi�car o comitê é neces-

sário selecionar z diferentes subconjuntos de atributos, um para cada classi�cador,

para representar a instância e treinar os classi�cadores de maneira a gerar diversi-

dade entre eles. Portanto, serão necessários z subconjuntos de atributos, obtidos do

subconjunto global S para classi�car a instância de teste ti.

SS(ti, S) = {ss1, ss2, ..., ssz} (4.7)

(a) Visando de�nir o subconjunto de atributos para cada classi�cador,W atributos

são selecionados aleatoriamente a partir de S. W pode ser igual ou diferente

para cada membro do conjunto de classi�cadores.

ssk = select(ti, S,Wk)∀k = 1...z (4.8)

44

5. Classi�cação da instância utilizando os atributos selecionados: Após a de�nição dos

subconjuntos de atributos mais importantes para a instância de teste ti, z classi�ca-

dores ck são treinados, cada classi�cador com um subconjunto diferente de atributos

ssk. Então ti será classi�cada pelo comitê C.

6. A acurácia é obtida através da aplicação dos Passos 3 - 6 para todo conjunto de

testes T ao comitê de classi�cadores C.

Para melhor ilustrar, suponha que ti seja uma instância composta por 50 atributos

após a seleção dos N melhores atributos de cada grupo. Supondo que ti possua o conjunto

de proporções de�nido por P = {0.3, 0.6, 0.1}. Baseado em P , 30% serão selecionados do

grupo 1 (15 atributos), 60% serão selecionados do grupo 2 (30 atributos) e 10% serão

selecionados do grupo 3 (5 atributos). Formando assim, o conjunto geral de atributos S

para representar a instância ti.

Durante o processo de escolha dos atributos, pode ocorrer de serem selecionados o

mesmo atributo de diferentes grupos. Caso isso aconteça, o atributo será escolhido do

grupo onde o mesmo tiver o maior valor no ranqueamento R. Assim, não haverá repetição

dos atributos escolhidos. Por exemplo, se o atributo att2 for escolhido do grupo 1 e do

grupo 2, o valor do ranqueamento dele em ambos os grupos será observado. Se o seu

melhor valor for no grupo 1, ele entrará como um dos atributos escolhidos pela proporção

do grupo 1, enquanto um novo atributo será selecionado para o grupo 2.

4.1.1 Funcionamento

O Algoritmo 2 apresenta os principais passos da SD-R da abordagem proposta.

45

Algoritmo 2 Algoritmo demonstrando a versão SD-R1: procedure Seleção dinâmica de atributos

2: Entrada: B =(V, TR, T)

3: G← Alg(V )

4: para cada grupo gj faça

5: para cada instância vi em gj faça

6: para cada atributo ai em vi faça

7: E ← F (gj)

8: �m para

9: Rj = rank(E)

10: Aj = select(Rj, N)

11: �m para

12: �m para

13: para cada padrão de teste ti em T faça


15: Calcular a distância de Ti para pj através de d

16: �m para


18: Pj = P (Ti, dj)

19: �m para

20: para cada atributo a de Aj faça

21: Si = select(Aj, Pj)

22: �m para

23: para cada classi�cador k de C faça

24: SSk = select(ti, S,Wk)

25: �m para

26: Ci ← Train(TR, SSi)

27: acc← Test(Ci, Ti, SSi)

28: �m para

29: �m procedure

O método recebe como entrada uma base de dados dividida em três conjuntos: Trei-

namento, Teste e Validação (linha 2), com o conjunto de validação correspondente a 30%

dos padrões que formam a base de dados. Um algoritmo de agrupamento é aplicado no

conjunto de validação para separar as instâncias em grupos (linha 3), visando obter os

atributos mais importante para as instâncias de cada grupo formado.

46

Após a criação dos grupos, um critério de avaliação é aplicado sobre os atributos das

instâncias que formam cada grupo (linha 7). Desse critério será obtido um valor para cada

atributo, valor esse que representa o grau de importância que o mesmo possui durante a

classi�cação daquelas instâncias. Esses atributos são ordenados a partir desse grau e os N

melhores são selecionados para compor o subconjunto de atributos mais relevantes para

aquele grupo (linhas 9 - 10).

Após a de�nição dos atributos mais importantes para cada grupo, dá-se início o pro-

cesso de classi�cação das instâncias do conjunto de testes. Quando se deseja classi�car

uma instância, o primeiro passo é calcular a distância entre a mesma e os centros dos

grupos formados (linha 15). O valor dessas distâncias são transformados em probabili-

dades (linha 17 - 19), que representa a probabilidade da instância de testes pertencer a

cada grupo. Esse valor é inversamente proporcional à distância, ou seja, quanto menor a

distância maior será o valor da probabilidade encontrada para aquele grupo.

O valor dessa probabilidade servirá para de�nir a quantidade de atributos que será

utilizado de cada grupo para compor o subconjunto de melhores atributos para a instância

de teste. Assim, cada instância possuirá um conjunto de atributos selecionados diferente

das demais, obedecendo as proporções estabelecidas pelo cálculo da probabilidade (linha

20 - 22).

O próximo passo é treinar os classi�cadores que serão utilizados para a formação do

comitê. Para cada classi�cador é necessário de�nir um subconjunto diferente de atributos

que serão utilizados, visando diversi�car o sistema de classi�cação. Cada classi�cador

será treinado com um conjunto de atributos diferente, selecionados aleatoriamente do

subconjunto S, conjunto de atributos mais relevantes para a instância da vez (linha 23 -

25). A quantidade de atributos selecionados W é uma escolha de implementação, ou seja,

qualquer taxa pode ser utilizada. Essa taxa de seleção é aplicada sobre o valor de N e não

sobre a quantidade total de atributos da base de dados inicial.

Cada classi�cador será treinado utilizando apenas os atributos selecionados (linha

26) e, após o treinamento de todos os classi�cadores, a instância de teste é submetida ao

sistema de classi�cação (linha 27). A saída dos classi�cadores são combinadas e a acurácia

é obtida quando todas as instâncias do conjunto de teste são classi�cadas pelo comitê.

47

4.2 SD-P: Seleção Dinâmica Baseada em uma Escolha

Randômica Baseada em Proporções

A SD-P tem o funcionamento bastante similar a SD-R. Sua única diferença está na

maneira como os atributos são selecionados para serem utilizados no processo de treina-

mento de cada classi�cador. Na SD-P o subconjunto S de atributos mais importantes para

a instância de teste é obtido da mesma maneira que na SD-R, através da utilização das

proporções estabelecidas pelo cálculo da probabilidade da mesma pertencer aos grupos

formados.

Na SD-R, após a criação do conjunto S, os W atributos são selecionados para serem

utilizados em cada classi�cador do comitê, sem levar em consideração qual grupo teve

maior participação na seleção dos atributos, ou seja, pode acontecer de selecionar apenas

atributos oriundos do grupo menos similar, ou selecionar todos atributos do grupo mais

próximo, entre outras situações que podem ocorrer, tendo em vista que a seleção é livre

para ser realizada de qualquer forma, como mostra a equação abaixo.

ssk = select(ti, S,Wk)∀k = 1...z (4.9)

A SD-P, trabalha de maneira semelhante, selecionando os W atributos para compor

o conjunto de características que serão utilizados em cada classi�cador. A principal di-

ferença está na maneira que a seleção é realizada. A SD-P mantém para esses conjuntos

de atributos a mesma proporção encontrada em P . Assim, o subconjunto de atributos

de cada classi�cador continuará sendo diferente, mas respeitam a proporção estabelecida

pela distância entre a instância de teste e os grupos formados. Assim, a equação do Passo

4 seria alterada para a equação abaixo:

ssk = select(ti, S,Wk, P )∀k = 1...z (4.10)

O principal objetivo desta alteração é evitar que um grupo seja mais bene�ciado que

outro apenas por questão do tipo de seleção realizada. A manutenção das proporções

possibilita que os atributos sejam selecionados de maneira a garantir que quanto maior a

similaridade entre a instância e o grupo, maior será a quantidade de atributos deste grupo

utilizada na classi�cação da instância. Assim, será garantido que os grupos mais similares

tenham uma maior in�uência na seleção dos atributos mais representativos, para todos

os membros do comitê de classi�cadores. Assim, cada classi�cador será treinado usando

48

um subconjunto diferente, uma vez que os atributos são selecionados aleatoriamente, mas

mantendo as mesmas proporções estabelecidas nos passos anteriores.

4.3 SD-D: Seleção Baseada em uma Escolha Determi-

nística

A versão SD-D funciona de maneira distinta das demais versões da abordagem pro-

posta. Diferente das demais versões, a SD-D não utiliza a noção de probabilidade de�nida

pelas demais versões. Seu funcionamento inicial é o mesmo das versões anteriores (Passo 1

e 2), onde um algoritmo de agrupamento é aplicado a um conjunto de validação para for-

mar grupos de instâncias. Após a formação dos grupos, o critério de avaliação é aplicado

e os N melhores atributos para cada grupo são selecionados.

Quando se deseja testar uma instância de testes, a função de distância DIST é uti-

lizada para calcular a similaridade entre o padrão de teste e os grupos formados. Porém,

nessa versão não é de�nido a ideia de probabilidade. Os atributos serão selecionados utili-

zando apenas os grupos mais similares, enquanto as demais versões utilizam atributos de

todos os grupos de acordo com as proporções estabelecidas. O objetivo dessa alteração é

utilizar apenas os atributos dos grupos mais próximos a instância, evitando utilizar atri-

butos de grupos pouco similares a ti. Qualquer quantidade de grupos pode ser escolhida.

1. Após de�nir as distâncias entre a instância de testes ti e todos os grupos da partição

G. Os grupos mais similares são separados, para serem utilizados no processo de

classi�cação.

Gsel = select(G,min(ti, disty))|y = {1, ..., j} (4.11)

Onde, Gsel é uma partição formada pelos grupos mais próximos a instância ti e j é

o número de grupos total da partição G.

2. Assim como nas versões anteriores, para o processo de classi�cação da instância

de teste ti, teremos um comitê de classi�cação C formado por z classi�cadores.

Portanto, como nas demais versões, são necessários um total de z subconjuntos de

atributos SS, um para cada classi�cador, para representar a instância ti.

3. Para de�nir o conjunto SS de cada classi�cador, é preciso determinar a porcentagem

de atributos L que serão utilizados para cada classi�cador de cada grupo de Gsel.

ssk = select(Gsel,W, L)∀k = 1...z (4.12)

49

4. Após a seleção dos atributos, a instância de teste ti é classi�cada e os resultados são

combinados para obter o seu atributo classe.

4.3.1 Funcionamento

O Algoritmo 3 apresenta os principais passos que distinguem a SD-D das demais

versões. Da linhas 1 a 12 do Algoritmo 2, as versões possuem o mesmo funcionamento, onde

os atributos mais correlacionados para cada grupo são selecionados. A grande variação

ocorre no momento que a instância será testada. Os principais passos estão presentes no

algoritmo abaixo.

Algoritmo 3 Algoritmo demonstrando a versão SD-D1: para cada padrão de teste ti em T faça


3: Calcular a distância de Ti para pj através de d

4: �m para

5: para cada distância dj faça

6: d = menores_dists(dj)

7: �m para

8: Gsel = select(G, d);

9: para cada classi�cador c de C faça

10: De�nir a porcentagem L de seleção

11: �m para

12: para cada k classi�cador c de C faça

13: SSk = rand(Gsel,Wk, L)

14: �m para

15: Ci ← Train(TR, SSi)

16: acc← Test(Ci, Ti, SSi)

17: �m para

Após calcular a distância entre a instância de teste e os grupos formados, as menores

distâncias são guardadas (Linhas 5 - 7) e os grupos correspondentes a esses valores são

selecionados (Linha 8). Os atributos utilizados para classi�car a instância de teste serão

selecionados apenas desses grupos.

O próximo passo é decidir a porcentagem de atributos que serão utilizados de cada

um dos grupos para cada classi�cador que compõe o comitê (Linhas 8 - 11).

50

Os atributos são escolhidos de cada grupo de acordo com a porcentagem escolhida

(Linhas 12 - 14). A porcentagem varia para cada classi�cador, fazendo com que diferentes

quantidades de atributos mais e menos bem posicionados no ranking sejam utilizados,

buscando assim, uma maior diversi�cação do comitê.

Após a seleção dos atributos mais importantes, cada classi�cador é treinado com

os atributos correspondentes e a instância é classi�cada pelo conjunto de classi�cadores

(Linha 15). Por �m, assim como nas demais, a acurácia é estabelecida após todas as

instâncias de teste obterem a sua classi�cação pelo comitê de classi�cadores formado

(Linhas 16).


Neste Capítulo, as versões desenvolvidas da abordagem proposta foram apresentadas.

Para cada versão, foi apresentado os principais passos e as principais diferenças entre as

mesmas. Foram desenvolvidas um total de três versões, que realizam a seleção dinâmica

de atributos para comitês de classi�cadores, promovendo a dinamicidade nos comitês

formados e diversi�cando-os através da seleção de diferentes subconjuntos de atributos

para cada classi�cador.

51

5 Metodologia

Neste capítulo será apresentado a metodologia utilizada para realizar os experimentos

deste trabalho. Será apresentado os principais parâmetros utilizados no método proposto,

as bases de dados utilizadas e as con�gurações escolhidas para a execução do experimento.

5.1 Análise empírica

Visando analisar a viabilidade da utilização da Seleção Dinâmica em Comitês de clas-

si�cadores uma análise empírica foi realizada. A Figura 5 ilustra a estrutura metodológica

utilizada para a realização dessa análise. Um dos principais pontos de escolha é o algo-

ritmo de agrupamento que será utilizado. Em (NUNES et al., 2016) diferentes algoritmos

de agrupamento foi utilizado, porém, o que obteve o melhor desempenho foi o k -Médias.

Sendo assim, o mesmo foi o algoritmo de agrupamento escolhido para ser utilizado durante

os experimentos.

52

Figura 5: Metodologia do experimento

Dois importantes parâmetros são o critério de avaliação e a medida de similaridade.

O critério de avaliação tem por objetivo determinar os principais atributos de cada grupo

formado pelo algoritmo de agrupamento. Já a medida de similaridade serve para de�nir

a probabilidade da instância de teste aos grupos formados. Qualquer medida pode ser

utilizada, porém, em (DANTAS; NUNES et al., 2017) foi demonstrado que as que mais eram

adequadas para a seleção dinâmica foram respectivamente, o coe�ciente de correlação de

Pearson e a Distância Euclidiana.

Cada base de dados será executada por todas as três versões propostas em um Comitê

com 5, 10, 15 e 25 classi�cadores. Em cada um dos métodos desenvolvidos, existem duas

taxas de seleção,N eW (como mostrado na seção anterior), que são utilizadas para reduzir

a dimensionalidade dos dados. Nesse experimento os resultados serão comparados entre si

53

em três diferentes proporções de seleção de atributos para casa uma das taxas. Os valores

utilizados para N serão de 30%, 50% e 70%, enquanto os valores utilizados para W serão

de 25%, 50% e 75%. Essa comparação visa analisar o comportamento das versões com

diferentes quantidades de atributos removidos e encontrar a melhor con�guração entre as

versões desenvolvidas.

Todos os comitês foram formados de maneira homogênea, apenas com o uso de k-

NNs e usando o voto majoritário como método de combinação. A escolha do k-NN como

classi�cador base se deu pelo motivo de o mesmo não possuir uma etapa de treinamento

explícito, isto é, não construir um modelo para classi�cação da instância.

Para cada versão desenvolvida, um total de 36 con�gurações de parâmetros foram

utilizadas na execução do experimento, como pode ser visto na Tabela 2, onde C é o

número de classi�cadores base utilizados na construção do comitê.

Tabela 2: Con�gurações executadas nos experimentos para cada versãoN W C N W C N W C

0,3 0,25 5 0,5 0,25 5 0,7 0,25 5

0,3 0,5 5 0,5 0,5 5 0,7 0,5 5

0,3 0,75 5 0,5 0,75 5 0,7 0,75 5

0,3 0,25 10 0,5 0,25 10 0,7 0,25 10

0,3 0,5 10 0,5 0,5 10 0,7 0,5 10

0,3 0,75 10 0,5 0,75 10 0,7 0,75 10

0,3 0,25 15 0,5 0,25 15 0,7 0,25 15

0,3 0,5 15 0,5 0,5 15 0,7 0,5 15

0,3 0,75 15 0,5 0,75 15 0,7 0,75 15

0,3 0,25 25 0,5 0,25 25 0,7 0,25 25

0,3 0,5 25 0,5 0,5 25 0,7 0,5 25

0,3 0,75 25 0,5 0,75 25 0,7 0,75 25

Para determinar os melhores parâmetros, a análise empírica será dividida em passos.

O primeiro passo é descobrir o melhor valor de W . Para isso, a média de todos os valores

de acurácia obtidos para cada valor de N e C são calculados, com isso, o objetivo deste

primeiro passo é estabelecer o valor de W que será utilizado no restante do experimento.

O próximo passo é determinar o melhor valor de N , para isso, apenas o melhor valor

de W , descoberto na etapa anterior, será utilizado. Os resultados dos valores obtidos para

cada valor de N são comparados entre sim, utilizando a média das acurácias obtidas de

54

todos os tamanhos C.

Com os valores de W e N estabelecidos, os resultados são novamente comparados

para determinar o melhor parâmetro para C. Assim, após a determinação dos melhores

valores para cada um dos parâmetros mostrados na Tabela 2, as versões desenvolvidas

serão comparadas e analisadas entre si.

O objetivo desse experimento é encontrar a melhor con�guração de parâmetros e com

eles, descobrir a versão que obteve o melhor desempenho. A melhor versão encontrada,

em termos de acurácia será utilizada em uma nova análise, comparando o seus resultados

com outros métodos presentes na literatura.

Para isso, foram escolhidos os seguintes métodos: DFS (Dynamic Feature Selection)

para um classi�cador único, Random Forest (BREIMAN, 2001) e Knora-Union (KO; SA-

BOURIN; JR, 2008). Além disso, também foi realizada a comparação com o NoFS (comitê

estático sem a utilização da seleção de atributos).

5.2 Bases de dados utilizadas

Os experimentos deste trabalho foram realizados com 20 bases de dados para serem

utilizadas no método proposto. Todas as bases de dados foram obtidas no repositório

UCI (ASUNCION; NEWMAN, 2007), com diferentes características e contendo diferentes

números de atributos e instâncias. Um pré processamento foi aplicado a todas as bases,

visando obter apenas valores reais normalizados entre [0,1] e remover atributos com valores

faltosos. A seguir, uma breve descrição de cada uma das bases será apresentada.

• ADS: Essa base de dados é composta por 1559 atributos e 2379 instâncias, possuindo

um atributo classe que varia entre dois possíveis valores. O objetivo deste conjunto

de dados é identi�car possíveis anúncios em páginas Web, classi�cando as imagens

encontradas de maneira a determinar se a mesma é ou não um anúncio publicitário.

• Breast Cancer Wiscosin (Prognostic): Essa base de dados tem como objetivo a

utilização no diagnóstico do câncer de mama. Cada instância representa dados de

acompanhamento de pacientes com câncer de mama. É incluído apenas os casos

que apresentam câncer de mama invasivo e sem evidência de metástases. A base é

composta por 34 atributos, 2 valores possíveis de atributo classe e um total de 198

registros.

55

• Ecoli: Essa base de dados possui um total de 8 atributos e 336 instâncias, com um

total de 8 atributos classes. Sua �nalidade é prever a localização de determinadas

proteínas em células.

• Gaussian: A base de dados Gaussian possui um total de 600 atributos numéricos, 60

instâncias e 3 classes. O principal ponto a se falar dessa classe, é que a quantidade

de instâncias é igualmente dividida de acordo com o número de classes. Ou seja,

existem 20 padrões para cada classe {0, 1, 2}.

• German Credit: Essa base de dados é composta por dados de pessoas e tem por

objetivo identi�car se as pessoas descritas por cada instância possuem risco de serem

bons ou ruins para receber determinado crédito. A base é composta por 20 atributos

e 1000 instâncias, com um total de 2 atributos classes (good, bad).

• Glass Identi�cation: Esse conjunto de dados é composto por 10 atributos e 214

instâncias. O objetivo do estudo é identi�car o tipo de vidro encontrado. Esse estudo

foi motivado pela investigação criminal, pois os vidros encontrados em uma cena de

crime, se bem identi�cados, podem ser usados como evidência.

• Heart: Essa base possui um total de 13 atributos e 270 instâncias. O objetivo da

base de dados é identi�car a presença de doenças no coração de pacientes através

de algumas características, como: sexo, taxa de açúcar no sangue, colesterol, nível

de dor no peito, etc.

• Hill-Valley: Nesse conjunto de dados, cada padrão representa 100 pontos em um

grá�co bidimensional, que quando plotado, em ordem (de 1 a 100) como a coorde-

nada Y, os pontos irão criar tanto uma colina (Hill) ou um vale(Valley). A base

apresenta um total de 101 atributos, 606 instâncias e 2 classes, representando se os

pontos do grá�co formam um vale ou uma colina.

• Ionosphere: Essa base de dados tem por objetivo descrever sinais omitidos por de-

terminados objetos. Os sinais são classi�cados em fracos e fortes. Um sinal é consi-

derado fraco quando o mesmo passa direto pela ionosfera, enquanto um sinal bom

é re�etido de volta a um objeto qualquer. Cada instância representa medições rece-

bidas por um sistema de radar composto por antenas de alta frequência. A base é

comporta por 34 atributos e 351 instâncias.

• Jude: Essa base de dados possui um total de 248 instâncias e 985 atributos. Os dados

da base foram gerados a partir de dados de células de leucemia. Cada instância

56

descreve uma amostra de células de leucemia e cada atributo descrevem o nível de

expressão de cada gene para as amostras das células.

• Lung Cancer: Essa base é composta por 56 atributos e 32 instâncias. A base tem

por objetivo ajudar no diagnóstico do câncer de mama. A base foi gerada a partir

de imagens em que os atributos são responsáveis por descrever os núcleos celulares

encontrados na imagem.

• Liver Disorder: Essa base de dados é composta por 7 atributos e 245 instâncias.

O objetivo do conjunto de dados é ajudar a identi�car problemas no fígado. Os

atributos representam exames de sangue sensíveis a distúrbios hepáticos que possam

surgir com o consumo excessivo de álcool.

• Micromass: Essa base é composta por 1300 atributos numéricos e 931 instâncias. Seu

objetivo é explorar abordagens de aprendizagem de máquina para a identi�cação de

microorganismos a partir de dados de espectrometria de massa.

• Parkinsons: A base de dados Parkinsons é formada por uma variedade de medições

biomédicas de vozes, algumas delas de indivíduos com a doenção de Parkinson. O

objetivo é a separação de indivíduos com essa doença de indivíduos saudáveis. A

base é composta por 23 atributos, onde cada um representa uma voz um indivíduo

e 195 instâncias que corresponde as gravações de vozes.

• Pima Indians Diabetes: Esse conjunto de dados é composto por 8 atributos, sendo

2 atributos classe, e um total de 768 instâncias. O objetivo desta base de dados é

investigar se o paciente apresenta sinais de diabetes de acordo com os critérios da

Organização Mundial de Saúde.

• Semeion Handwritten Digit: Esta base é formada com 1593 instâncias e 256 atri-

butos. Cada instância representa dígitos escritos à mão que foram digitalizados de

cerca de 80 pessoas. Estes dígitos foram estendidos em escala cinza de 256 valores.

• Simulated: Essa base possui um total de 600 atributos, sendo 6 atributos classe, e

60 instâncias. A Simulated é um banco de dados que simula dados de microarranjos,

criada para testar os algoritmos de aprendizado de maquina na análise da expressão

do gene.

• Sonar: A base de dados é formada por padrões obtidos por um sonar em um cilindro

de metal em vários ângulos e sob várias condições. O objetivo é classi�car os sinais

57

obtidos do sonar para determinar se o registro é uma rocha ou uma mina (cilindro

de metal). A base contém 60 atributos e 208 instâncias.

• Wine Quality: Essa base de dados é composta por 12 atributos e 4898 instâncias.

Cada instância representa um tipo de vinho branco ou tinto, e o principal objetivo

da base de dados é classi�car o vinho de acordo com a sua qualidade, em um valor

que varia de 0 a 10.

• Vehicle Silhouettes: Essa base de dados é composta por 18 atributos, sendo 4 valores

de atributo classes, e 946 instâncias. O objetivo é classi�car uma dada silhueta

em um dos 4 tipos de veículo, usando um conjunto de características extraídos da

silhueta.

A Tabela 3 apresenta a quantidade de instâncias, atributos e classes que cada base

de dados utiliza possui. A primeira coluna da Tabela 3 apresenta um identi�cador que

será utilizado para referenciar cada uma das bases durante a apresentação dos resultados

obtidos com a realização dos experimentos.

58

Tabela 3: Bases de Dados Usadas nos Experimentos

ID Base de dadosQtd. de

Instâncias

Qtd. de

Atributos

Qtd. de

Classes

b1 Ionosphere 351 34 2

b2 Breast Cancer(Prognostic) 198 34 2

b3 Micromass 931 1301 2

b4 Gaussian 60 600 3

b5 Hill-Valley 606 101 2

b6 Jude 248 985 6

b7 Lung Cancer 32 56 3

b8 Simulated 60 600 6

b9 ADS 3279 1559 2

b10 Parkinsons 195 23 2

b11 Semeion Handwritten Digit 1593 256 2

b12 Ecoli 336 8 2

b13 Glass Identi�cation 214 10 6

b14 Wine Quality 4898 12 3

b15 Vehicle Silhouettes 946 18 4

b16 Pima Indians Diabetes 768 8 2

b17 Liver Disorder 245 7 2

b18 Sonar 208 60 2

b19 Heart 270 13 2

b20 German Credit 1000 20 2

5.3 Métodos e materias

Para todas as versões desenvolvidas, a seleção utilizada foi a Seleção Randômica. Nas

versões SD-R e SD-P, o conjunto de atributos geral S é formado baseado em proporções

estabelecidas pela distância entre a instância de teste e os grupos formados. Essa seleção

foi utilizada para formar os subconjuntos de atributos especí�cos para cada classi�cador

do comitê, selecionando de maneira aleatória os atributos de S, sem levar em consideração

as proporções (SD-R) ou mantendo as proporções de�nidas anteriormente (SD-P).

Para a SD-D foi escolhido sempre dois grupos para formar o conjunto de atributos

59

de cada classi�cador. Para determinar L, divide-se a porcentagem de 100% pela quan-

tidade de classi�cadores, de maneira a obter z porcentagens com diferença de L% entre

elas. Assim, L deve ser um valor no intervalo [0,100], e os atributos foram selecionados,

aleatoriamente, dos L% mais correlacionados do primeiro grupo e dos L% menos corre-

lacionados do segundo grupo. Na seção de resultados, faremos uma pequena alteração na

SD-D para melhor explorar o métodos, criando assim uma nova versão, a SD-D'.

Por exemplo, para um comitê de 5 classi�cadores o valor de L foi de�nido por L =

[90, 70, 50, 30, 10]. Assim, para o primeiro classi�cador foram selecionados aleatoriamente

dos 90% mais correlacionados do grupo mais próximo e 10% dos menos correlacionados

do segundo grupo, e assim por diante.

Todas os algoritmos utilizados nesse trabalho foram desenvolvidos no MATLAB. Para

a execução da análise empírica é necessário de�nir os parâmetros dos métodos utilizados.

Para a utilização do k -Means é necessário de�nir o valor de k, ou seja, do número

de grupos que serão formados. O valor de k escolhido para cada base é a quantidade de

valores possíveis que o atributo classe pode possuir. Por exemplo, a base Ionosphere possui

2 valores possíveis para o atributo classe, assim o valor de k para ela é 2. Já a base Glass

Identi�cation, por exemplo, possui um total de 6 atributos classe, assim, a quantidade de

grupos formados, valor de k, para essa base foi 6.

Para cada con�guração foram realizadas um total de 10 execuções. Assim, com o

intuito de obter uma melhor precisão foi utilizado o método de validação cruzada 10-

fold-cross-validation, totalizando assim, 100 valores de precisão para cada con�guração

testada.

Durante as análises realizadas, o desempenho foi medido levando em consideração a

média da acurácia e a média do ranqueamento dos resultados obtidos pelas execuções.

Esse ranqueamento é baseado na acurácia e funciona da seguinte maneira: o melhor valor

(maior acurácia) recebe o valor 1, o segundo melhor valor recebe o valor 2, e assim por

diante. O n-ésimo valor (onde n é o número de métodos comparados) recebe o valor n.

Esses valores são colocados para cada uma das 100 observações e o resultado �nal é obtido

pela média dos valores do ranqueamento. Assim, os resultados relativos a performance de

cada método aparecerá em cada tabela da seguinte maneira: média da acurácia (média

do ranqueamento).

Na análise dos resultado obtidos, será aplicado o teste de Friedman e o teste post-hoc

Nemenyi (DEM�AR, 2006). Esses testes consistem em testes não paramétricos que são

60

adequados para comparar a performance de diferentes métodos de aprendizado. Baseado

na informação obtida, juntamente com o número de amostras, a signi�cância da diferença

entre os diferentes conjuntos de amostras é de�nida, baseada em um nível de con�ança

(α). O nível de con�ança adotado neste trabalho é 95% (α = 0.05).

61

6 Resultados

Este capítulo apresenta e discute os resultados dos experimentos obtidos pelo método

proposto nas três versões desenvolvidas. As próximas seções apresentam os resultados da

análise de desempenho em que as con�gurações testadas são comparadas baseadas na

média das acurácias obtidas em cada execução.

6.1 Considerações iniciais

As análises presentes neste capítulo tem o objetivo de descobrir a melhor con�guração

e a melhor versão dentre as desenvolvidas para o método proposto. Para isso, diversas

comparações foram realizadas com diferentes valores (como apresentado no Capítulo 5)

para determinar qual dentre as versões desenvolvidas da abordagem proposta obteve me-

lhor desempenho durante o processo de classi�cação.

Em seguida, a melhor versão encontrada, utilizando os valores dos parâmetros que

obtiveram melhores resultados, será comparada com outros métodos já existentes na lite-

ratura. O objetivo desta comparação é analisar o impacto da seleção dinâmica de atributos

na criação de comitês.

Para cada base de dados, é mostrado nas tabelas duas informações, a média das

acurácias de cada execução e a média do ranqueamento, destacando os melhores resulta-

dos encontrados. Durante a análise estatísticas os resultados que aparecem em destaque

são aqueles que obtiveram um valor signi�cante (< 0, 05) quando comparado todos os

métodos, permitindo assim, uma comparação par-a-par entre eles.

No momento em que uma comparação entre dois métodos será realizada, X vs Y , o

símbolo "= "é utilizado para representar que não existe signi�cância estatística entre eles.

QuandoX for melhor do que Y será utilizado o símbolo "<", caso contrário, ">"aparecerá

para representar esse cenário.

62

6.2 Comparação entre os valores de W

Nesta seção, a média todos os resultados é comparada separando pelos diferentes

valores de W . Esse parâmetro é responsável por selecionar o subconjunto de atributos

especí�cos SSk para cada classi�cador k. Os valores utilizados para essa taxa de seleção

de atributos foram respectivamente: 25%, 50% e 75%.

A Tabela 4 apresenta os resultados da comparação entre os três valores de W para a

versão SD-R. Nela, podemos observar que os melhores resultados foram obtidos quando

se utilizou uma taxa de seleção W de 50%, obtendo a melhor acurácia em 15 das 20

comparações realizadas.

Tabela 4: Comparação entre os valores de W para a SD-RSD-R 0,25 0,5 0,75

b1 91,1 (1,895) 90,51 (2,100) 90,97 (2,005)

b2 73,05 (1,990) 72,94 (2,130) 73,06 (1,880)

b3 91,99 (2,350) 93,47 (1,785) 93,08 (1,865)

b4 100 (2,000) 100 (2,000) 100 (2,000)

b5 99,84 (2,070) 99,98 (1,950) 99,97 (1,980)

b6 99,64 (1,980) 99,58 (1,995) 99,51 (2,025)

b7 55,94 (2,045) 56,63 (1,855) 55,5 (2,100)

b8 98,39 (2,035) 99,6 (1,990) 99,64 (1,975)

b9 91,93 (2,060) 92,42 (1,940) 92,07 (2,000)

b10 88,65 (2,390) 92,09 (1,645) 90,09 (1,965)

b11 94,56 (2,560) 96,9 (1,700) 96,2 (1,740)

b12 94,24 (2,145) 95,91 (1,850) 95,88 (2,005)

b13 67,2 (2,375) 76,33 (1,525) 67,84 (2,100)

b14 97,79 (2,155) 99,97 (1,930) 99,98 (1,915)

b15 83,36 (2,690) 89,12 (1,445) 87,17 (1,865)

b16 62,58 (2,635) 67,11 (1,465) 65,44 (1,900)

b17 54,87 (2,075) 58,29 (1,785) 53,8 (2,140)

b18 77,29 (2,200) 80,72 (1,775) 79,15 (2,025)

b19 60,25 (2,100) 62,24 (1,560) 57,66 (2,340)

b20 68,14 (2,130) 69,13 (1,995) 69,25 (1,875)

Res 3 15 4

63

A Tabela 5 apresenta os resultados estatístico da comparação entre as três taxas, uti-

lizando a SD-R. É mostrado também uma comparação par-a-par nas bases que obtiveram

resultados com signi�cância estatística.

Tabela 5: Resultado estatístico da comparação entre os valores de W para a SD-RSD-R Fried 0,25/0,5 0,25/0,75 0,5/0,75

b1 0,048 < = >

b2 0,135 - - -

b3 0,019 > > <

b4 1 - - -

b5 0,841 - - -

b6 0,053 - - -

b7 0,044 > = <

b8 0,072 - - -

b9 0,088 - - -

b10 < 0,001 > > <

b11 0,078 - - -

b12 0,22 - - -

b13 < 0,001 > = <

b14 0,992 - - -

b15 < 0,001 > > <

b16 0,002 > > <

b17 < 0,001 > < <

b18 0,033 > = <

b19 0,018 > < <

b20 0,055 - - -

Res 10 1 x 9 2 x 4 9 x 1

Pelos resultados estatísticos, �ca evidente que os melhores resultados foram encontra-

dos quando a taxa de 50% foi utilizada na seleção dos atributos. Para essa versão, tivemos

um total de 10 bases com diferença estatística. Na comparação par-a-par, a taxa de 50%

obteve 9 melhores resultados contra as outras taxas.

A Tabela 6 apresenta os resultados da mesma comparação, porém para a versão SD-P.

Assim como na verão anterior, os melhores resultados foram obtidos com a taxa de seleção

de 50%, obtendo novamente os melhores valores de acurácia em 15 bases.

64

Tabela 6: Comparação entre os valores de W para a SD-PSD-P 0,25 0,5 0,75

b1 90,72 (2,045) 90,78 (1,980) 90,98 (1,975)

b2 73,42 (1,950) 73,35 (2,050) 73,22 (2,000)

b3 91,95 (2,080) 93,23 (1,910) 93,01 (2,010)

b4 100 (2,000) 100 (2,000) 100 (2,000)

b5 99,88 (2,015) 99,97 (1,985) 99,96 (2,000)

b6 99,53 (2,030) 99,83 (1,970) 99,66 (2,000)

b7 59,13 (2,105) 60,17 (1,860) 59,54 (2,035)

b8 98,94 (2,040) 99,06 (1,995) 99,54 (1,965)

b9 92,36 (1,910) 92,15 (2,070) 92,16 (2,020)

b10 90 (2,120) 91,84 (1,900) 91,21 (1,980)

b11 94,53 (2,040) 96,59 (1,965) 96,37 (1,995)

b12 95,97 (2,105) 96,06 (1,945) 95,59 (1,950)

b13 68,86 (2,140) 72,87 (1,810) 68,99 (2,050)

b14 98,29 (2,150) 99,86 (1,920) 99,84 (1,930)

b15 83,52 (2,890) 87,89 (1,530) 87,37 (1,580)

b16 63,51 (2,075) 65,79 (1,930) 65,3 (1,995)

b17 54,3 (2,070) 55,88 (1,945) 55,18 (1,985)

b18 78,33 (2,125) 80,28 (1,975) 80,32 (1,900)

b19 58,92 (2,025) 60,04 (1,945) 58,99 (2,030)

b20 68,7 (2,190) 69,02 (1,745) 68,78 (2,065)

Res 3 15 4

A Tabela 7 apresenta os resultados estatístico obtidos para os dados da mostrados

anteriormente.

65

Tabela 7: Resultado estatístico da comparação entre os valores de W para a SD-PSD-P Fried 0,25/0,5 0,25/0,75 0,5/0,75

b1 0,151 - - -

b2 0,328 - - -

b3 0,013 > > =

b4 1 - - -

b5 0,284 - - -

b6 0,039 > = <

b7 0,005 > = <

b8 0,043 = > >

b9 0,712 - - -

b10 0,222 - - -

b11 0,038 > = =

b12 < 0,001 > = <

b13 <0,001 > = <

b14 0,84 - - -

b15 0,004 > > <

b16 0,048 > > =

b17 0,492 - - -

b18 0,052 - - -

b19 0,002 > = <

b20 0,12 - - -

Res 10 0 x 9 0 x 4 6 x 1

Assim como a SD-R, na SD-P a taxa vencedora da comparação foi 50%. Nela, 10

bases obtiveram diferença estatística, onde a taxa de 50% venceu a de 25% em 9 bases,

perdendo em nenhuma, e venceu a de 75% em 6 de 7 bases.

Por �m, a Tabela 8 apresenta os resultados desta análise para a versão SD-D. Assim

como nas demais, a taxa de 50% foi a vencedora (12 melhores resultados).

66

Tabela 8: Comparação entre os valores de W para a SD-DSD-D 0,25 0,5 0,75

b1 93,01 (1,710) 90,88 (2,235) 91,69 (2,055)

b2 74,26 (1,975) 73,94 (2,070) 74,47 (1,955)

b3 96,13 (1,815) 93,22 (2,225) 94,04 (1,960)

b4 100 (2,000) 100 (2,000) 100 (2,000)

b5 99,97 (2,060) 99,99 (1,970) 99,99 (1,970)

b6 100 (2,000) 100 (2,000) 100 (2,000)

b7 60,25 (2,040) 63,63 (1,955) 61,29 (2,005)

b8 99,65 (2,015) 99,79 (2,000) 99,85 (1,985)

b9 93,56 (2,267) 93,4 (2,139) 94,2 (1,594)

b10 89,3 (2,124) 91,04 (1,911) 90,16 (1,965)

b11 96,28 (2,129) 96,57 (2,079) 96,59 (1,792)

b12 92,6 (2,257) 95,03 (1,756) 94,24 (1,986)

b13 74,17 (2,173) 79,23 (1,812) 77,98 (2,015)

b14 98,46 (2,074) 99,78 (1,896) 99,68 (2,030)

b15 90,9 (2,624) 95,17 (1,594) 94,8 (1,782)

b16 65,95 (2,188) 67,49 (1,990) 67,87 (1,822)

b17 57,26 (2,243) 60,98 (1,812) 59,11 (1,946)

b18 82,79 (2,030) 82,54 (2,089) 83,61 (1,881)

b19 65,87 (2,069) 66,48 (1,960) 66,1 (1,9700

b20 69,77 (2,287) 70,07 (1,911) 70,98 (1,802)

Res 4 12 9

A Tabela 9 mostra os resultados estatísticos para a SD-D. Assim como nas demais

versões, os resultados estatísticos mostram a superioridade dos valores obtidos pela taxa

de 50%, uma vez que a mesma obteve a vitória na maioria dos casos quando comparado

com as demais taxas nas bases que obtiveram diferença estatística.

67

Tabela 9: Resultado estatístico da comparação entre os valores de W para a SD-DSD-D Fried 0,25/0,5 0,25/0,75 0,5/0,75

b1 0,002 < < >

b2 0,13 - - -

b3 <0,001 < < =

b4 1 - - -

b5 0,988 - - -

b6 1 - - -

b7 0,004 > > <

b8 0,773 - - -

b9 0,054 - - -

b10 0,049 > > <

b11 0,239 - - -

b12 0,002 > > <

b13 <0,001 > > <

b14 0,922 - - -

b15 0,024 > > <

b16 0,448 - - -

b17 0,101 - - -

b18 0,299 - - -

b19 0,746 - - -

b20 0,66 - - -

Res 7 2x5 2x5 1x5

Por �m, �ca evidente que a melhor taxa de seleção W para a abordagem proposta

é a de 50%, uma vez que a mesma obteve os melhores resultados para as três versões

desenvolvidas. Sendo assim, a partir de agora, para as demais análises e comparações o

valor do parâmetro W utilizado será o de 50%.

6.2.1 Considerações sobre o parâmetro W

Esse parâmetro é escolhido no momento de selecionar os atributos para cada classi-

�cador que compõe o comitê. Antes deste processo, já aconteceu um primeiro corte no

número de atributos totais, logo após o agrupamento das instâncias. Sendo assim, essa

porcentagem de�nida por esse parâmetro é aplicada em cima de um conjunto de atributos

68

menor que o inicial.

Dentre os valores utilizados, os melhores resultados foram obtidos quando a porcenta-

gem de 50% foi utilizada para realizar essa seleção. Acreditamos que esse resultado se deu

devido a 50% não ser uma taxa tão extrema de seleção. Quando selecionamos 75%, pou-

cos atributos são removidos, podendo assim, manter alguns atributos irrelevantes para o

processo de classi�cação. Por outro lado, a seleção de apenas 25% consiste em uma grande

redução dos atributos, o que pode ocasionar perda na informação necessária para realizar

uma boa classi�cação.

Os resultados podem ser melhor visualizados através do grá�co de violinos apresen-

tado abaixo. Nele, estão presentes a distribuição obtida pelas 3 versões, respectivamente,

variando o valor do parâmetro W . A linha preta representa a média dos valores obtidos e

a linha vermelha a mediana dos dados avaliados. Mostrando que o valor de 0.5 apresenta

a maior média e mediana quando comparado com os demais, além de ser possível veri�-

car pela densidade do grá�co que os demais valores estão mais próximos ao valor médio

obtido.

Figura 6: Grá�co de violino para os resultados obtidos da análise do parâmetro W

Dentre os valores utilizados por esse parâmetro, os piores resultados foram obtidos

quando 25% foi utilizado. Podemos ver, que ganhamos em desempenho quando passamos

de 75% para 50%, selecionando uma maior quantidade de atributos e eliminando aqueles

menos signi�cantes. Porém, devido a quantidade de atributos nas bases de dados e ao fato

desse parâmetro ser aplicado em um subconjunto ja selecionado de atributos, a melhora

não foi obtida quando passamos de 50% para 25%. Isso se deve ao pequeno número de

atributos utilizados para cada classi�cador, reduzindo bastante a quantidade de atributos

utilizado e prejudicando, assim, a capacidade preditiva do sistema de classi�cação.

69

6.3 Comparação entre os valores de N

Durante todo o processo realizado pela abordagem proposta, em dois momentos os

atributos são reduzidos da base de dados. Um primeiro momento, ocorre logo nos primeiros

passos, onde os atributos para cada grupo são ranqueados, seguindo algum critério, e os

N melhores atributos são selecionados como os mais importantes para aquele grupo. O

objetivo desta seção é encontrar o melhor valor para esse parâmetro N , que em conjunto

com o melhor valor de W obtido na seção anterior, obtenha os melhores resultados para

a abordagem proposta.

Foram utilizados três valores diferentes para N , são eles: 30%, 50% e 70%. Os resulta-

dos apresentados nesta seção consiste na média de todas as execuções realizadas, porém

utilizando apenas o valor de 50% para W , melhor valor encontrado na seção anterior.

A Tabela 10 apresenta os resultados da comparação dos diferentes valores de N para

a SD-R. Os melhores resultados foram obtidos com a utilização do valor de 70%, obtendo

os melhores valores de acurácia em 10 das 20 bases de dados utilizadas.

70

Tabela 10: Comparação entre os valores de N para a SD-RSD-R 0,7 0,5 0,3

b1 89,91 (2,176) 90,45 (1,975) 91,17 (1,848)

b2 71,26 (2,127) 73,79 (1,868) 73,77 (2,005)

b3 92,7 (2,270) 93,39 (2,108) 94,33 (1,623)

b4 100 (2,000) 100 (2,000) 100 (2,000)

b5 99,97 (2,049) 99,99 (1,956) 99,98 (1,995)

b6 99,5 (2,039) 99,56 (1,985) 99,67 (1,975)

b7 60,25 (1,589) 53,5 (2,169) 56,13 (2,110)

b8 99,87 (1,682) 99,54 (2,064) 99,38 (2,123)

b9 92,6 (1,992) 92,61 (1,746) 92,05 (2,127)

b10 92,7 (1,875) 92,46 (1,996) 91,12 (2,153)

b11 97,13 (1,895) 96,99 (2,032) 96,57 (2,097)

b12 96,88 (1,762) 96,6 (2,065) 94,25 (2,198)

b13 79,46 (1,714) 76,29 (2,044) 73,25 (2,266)

b14 100 (1,950) 100 (2,950) 99,93 (2,100)

b15 89,37 (1,988) 89,29 (2,000) 88,71 (2,036)

b16 68,03 (1,859) 67,26 (2,040) 66,03 (2,125)

b17 58,33 (2,020) 58,63 (1,875) 57,93 (2,129)

b18 80,59 (2,081) 80,63 (2,044) 80,94 (1,899)

b19 60,14 (2,144) 63,21 (1,989) 63,36 (1,867)

b20 68,36 (2,222) 69,42 (1,988) 69,6 (1,810)

Res 10 5 7

A Tabela 11 apresenta os resultados estatísticos para os dados mostrados na tabela

anterior, versão SD-R. Como pode ser observado, o melhor resultado na comparação par-

a-par foi obtido utilizando 70%, pois a mesma ganhou das temais taxas em 4 bases das 7

que obtiveram diferença estatística.

71

Tabela 11: Resultado estatístico da comparação entre os valores de N para a SD-RSD-R Fried 0,7/05 0,7/0,3 0,5/0,3

b1 0,043 > > <

b2 0,052 - - -

b3 0,038 > > >

b4 1 - - -

b5 0,994 - - -

b6 0,814 - - -

b7 0,002 < < >

b8 0,859 - - -

b9 0,775 - - -

b10 0,663 - - -

b11 0,029 < < =

b12 0,351 - - -

b13 0,015 < < <

b14 0,998 - - -

b15 0,86 - - -

b16 0,033 < < =

b17 0,7 - - -

b18 0,68 - - -

b19 0,044 > > =

b20 0,403 - - -

Res 7 4x3 4x3 2x2

A Tabela 12 mostra os resultados para a SD-P da comparação realizada com os

diferentes valores de N . Assim como na SD-R, os melhores resultados para essa versão

foram obtidos com a taxa de 70% na seleção dos atributos mais importantes para cada

grupo, vencendo em 9 das 20 bases de dados utilizadas.

72

Tabela 12: Comparação entre os valores de N para a SD-PSD - P 0,7 0,5 0,3

b1 90,73 (2,060) 90,6 (2,135) 91,01 (1,805)

b2 72,91 (2,050) 73,57 (2,005) 73,58 (1,945)

b3 93,7 (1,645) 92,84 (2,510) 93,16 (1,845)

b4 100 (2,000) 100 (2,000) 100 (2,000)

b5 99,98 (1,965) 99,96(2,070) 99,98 (1,965)

b6 99,69 (2,045) 99,83 (1,985) 99,96 (1,970)

b7 60,75 (1,985) 61,5 (1,965) 58,25 (2,050)

b8 99,17 (1,965) 99,17 (1,965) 98,83 (2,070)

b9 91,86 (2,069) 92,43 (1,931) 92,16 (2,000)

b10 92,6 (1,901) 91,71 (1,955) 91,21 (2,144)

b11 96,71 (1,960) 96,79 (1,942) 96,28 (2,098)

b12 94,95 (2,218) 96,95 (1,871) 96,28 (1,911)

b13 74,79 (1,851) 72,68 (1,990) 71,14 (2,158)

b14 100 (1,965) 99,98 (1,990) 99,6 (2,045)

b15 87,51 (2,134) 88,47 (1,906) 87,69 (1,960)

b16 65,42 (2,079) 65,93 (2,020) 66,02 (1,901)

b17 57,15 (1,871) 55,43 (2,045) 55,07 (2,084)

b18 80,49 (1,901) 80,48 (2,025) 79,88 (2,074)

b19 59,99 (2,015) 59,92 (2,064) 60,21 (1,921)

b20 68,81 (2,079) 69,87 (1,822) 68,38 (2,099)

Res 9 8 6

Nos resultados estatísticos, a taxa de 70% também foi a vencedora para a SD-P

quando comparada com as demais taxas, como apresentado na Tabela 13. Apenas 6 bases

obtiveram diferença estatística. Nela, a taxa de 70% foi a vencedora quando comparada

com as demais na maioria dos casos.

73

Tabela 13: Resultado estatístico da comparação entre os valores de N para a SD-PSD - P Fried 0,7/05 0,7/0,3 0,5/0,3

b1 0,045 = > >

b2 0,352 - - -

b3 0,038 < = >

b4 1 - - -

b5 0,941 - - -

b6 0,839 - - -

b7 0,004 > > <

b8 0,901 - - -

b9 0,119 - - -

b10 0,043 < < =

b11 0,737 - - -

b12 0,24 - - -

b13 0,001 < < <

b14 0,993 - - -

b15 0,083 - - -

b16 0,06 - - -

b17 0,026 < < =

b18 0,137 - - -

b19 0,3 - - -

b20 0,081 - - -

Res 6 4 x 1 3 x 2 2 x 2

A Tabela 14 mostra os resultados das acurácias da comparação dos valores de N para

a SD-D. Assim como nas demais versões, o melhor valor de N foi novamente 70%, obtendo

os melhores resultados em 12 das 20 bases de dados utilizadas.

74

Tabela 14: Comparação entre os valores de N para a SD-DSD-D 0,7 0,5 0,3

b1 90,29 (2,069) 91,06 (2,015) 91,3 (1,917)

b2 73,73 (1,990) 73,76 (2,103) 74,32 (1,907)

b3 92,19 (2,299) 93,34 (2,108) 94,12 (1,593)

b4 100 (2,000) 100 (2,000) 100 (2,000)

b5 99,99 (1,966) 99,99 (1,966) 99,98 (2,068)

b6 100 (2,000) 100 (2,000) 100 (2,000)

b7 62,63 (2,106) 63,75 (2,097) 64,5 (1,665)

b8 99,92 (1,712) 99,67 (2,110) 99,79 (2,051)

b9 94,82 (1,636) 93,08 (2,017) 92,3 (2,220)

b10 90,02 (2,081) 91,86 (1,899) 91,24 (2,052)

b11 97,12 (1,790) 97,02 (1,883) 95,58 (2,359)

b12 93,4 (2,056) 95,77 (2,024) 95,92 (1,952)

b13 79,73 (2,040) 80,68 (1,907) 77,29 (2,085)

b14 99,95 (1,895) 99,8 (2,048) 99,6 (2,089)

b15 96,5 (1,851) 94,87 (1,984) 94,14 (2,198)

b16 67,87 (1,923) 67,74 (1,931) 66,85 (2,181)

b17 60,44 (1,956) 62,84 (1,996) 59,68 (2,085)

b18 83,84 (1,887) 82,69 (2,065) 81,1 (2,085)

b19 71,42 (1,581) 64,4 (2,077) 63,63 (2,379)

b20 71,45 (1,835) 69,39 (2,008) 69,37 (2,194)

Res 12 6 7

A Tabela 15 mostra os resultados estatísticos para a análise do valor de N utilizando

a SD-D. 70% foi novamente vitorioso na comparação com as demais taxas.

75

Tabela 15: Resultado estatístico da comparação entre os valores de N para a SD-DSD-D Fried 0,7/05 0,7/0,3 0,5/0,3

b1 0,058 - - -

b2 0,047 = > >

b3 0,031 > > >

b4 1 - - -

b5 0,999 - - -

b6 1 - - -

b7 0,021 > > >

b8 0,899 - - -

b9 0,01 < < <

b10 0,742 - - -

b11 0,433 - - -

b12 0,222 - - -

b13 0,02 < > <

b14 0,92 - - -

b15 0,009 < < =

b16 0,301 - - -

b17 0,006 > < <

b18 0,011 < < =

b19 0,001 < < =

b20 0,033 < < =

Res 10 6x3 6x4 3x3

Em todas as versões, o valor de N que obteve o melhor resultado, em conjunto com o

valor de W obtido na análise anterior, foi o de 70%. Assim, nas demais seções os valores

apresentados nas tabelas de foram obtidos utilizando a média de todas as execuções,

porém fazendo uso apenas da combinação de N e W com os valores de 70% e 50%,

respectivamente.

6.3.1 Considerações sobre o parâmetro N

Com os resultados apresentados nesta seção, �ca evidente que os melhores resultados

foram encontrados quando o valor de 70% foi utilizado. Esse resultado não signi�ca dizer

que 70% é o melhor valor para esse parâmetro. Signi�ca apenas que ele obteve os melhores

76

resultados em conjunto com o W = 50%.

Sabendo que a segunda seleção (parâmetro W), seleciona 50% dos subconjuntos de

atributos gerados pelo uso do critério de avaliação, acreditamos que, devido a necessidade

de se selecionar um subconjunto para cada classi�cador, 70% obteve os melhores resultados

pois deixava uma maior possibilidade de atributos para serem selecionados, principalmente

em bases com menos atributos, onde duas seleções maiores deixariam a base de dados com

uma quantidade muito pequena de atributos.

As demais taxas de seleção, 30% e 50%, apresentaram desempenhos semelhantes, ou

seja, a diminuição desse valor, consequente, um maior corte no conjunto de atributos

iniciais, sabendo que um novo corte de 50% será realizado, trás prejuízos para o processo

de classi�cação na abordagem propostas. Como pode ser observado no grá�co a seguir:

Figura 7: Grá�co de violino para os resultados obtidos da análise do parâmetro N

Sendo assim, os melhores resultados foram encontrados quando um pequeno corte é

realizado inicialmente, e um corte médio é realizado no momento de selecionar os atributos

para cada classi�cador que compõe o comitê.

6.4 Comparação entre os tamanhos do comitê

Nesta seção, os resultados apresentados são oriundos da comparação entre as diferen-

tes quantidades de classi�cadores utilizados na construção do comitê. Serão mostrados

apenas os resultados, para cada versão, utilizando os melhores parâmetros para W e N

encontrados nas seções anteriores. Foram utilizados quatro tamanhos diferentes: 5, 10, 15

e 25.

A Tabela 16 apresenta os resultados da comparação entre os diferentes tamanhos

utilizados para a versão SD-R. Nela, podemos observar que os melhores resultados foram

obtidos quando 15 classi�cadores foram utilizados, uma vez que o mesmo obteve melhores

resultados em 12 das 20 bases de dados.

77

Tabela 16: Comparação entre os tamanhos do Comitê para a SD-RSD-R 5C 10C 15C 25C

b1 92,26 (2,196) 89,71 (2,672) 90,37 (2,441) 89,54 (2,613)

b2 72,52 (2,431) 71,68 (2,544) 73,84 (2,392) 71,26 (2,520)

b3 92,61 (2,922) 90,13 (2,775) 92,40 (2,387) 93,78 (1,838)

b4 100,00 (2,500) 100,00 (2,500) 100,00 (2,500) 100,00 (2,500)

b5 99,95 (2,544) 100,00 (2,407) 99,98 (2,505) 99,95 (2,466)

b6 100,00 (2,471) 98,17 (2,588) 100,00 (2,471) 100,00 (2,471)

b7 58,50 (2,554) 56,00 (2,525) 68,50 (2,176) 50,50 (2,667)

b8 99,50 (2,534) 99,50 (2,456) 99,50 (2,534) 100,00 (2,397)

b9 95,79 (2,000) 91,24 (2,627) 91,59 (2,456) 91,02 (2,873)

b10 91,05 (1,774) 90,47 (2,012) 91,58 (2,621) 90,53 (1,952)

b11 96,75 (1,694) 96,47 (1,819) 96,61 (2,613) 96,20 (2,234)

b12 97,59 (1,815) 96,86 (1,827) 97,95 (2,637) 95,73 (2,081)

b13 68,28 (1,960) 69,57 (1,843) 69,93 (2,520) 65,93 (2,036)

b14 100,00 (1,887) 100,00 (1,855) 100,00 (2,790) 100,00 (1,827)

b15 88,64 (1,907) 87,31 (2,169) 89,69 (2,685) 88,49 (1,589)

b16 66,28 (2,040) 67,04 (1,738) 68,26 (2,601) 66,67 (1,964)

b17 54,32 (1,835) 53,62 (1,859) 54,59 (2,681) 51,91 (1,968)

b18 79,70 (1,726) 79,90 (1,734) 80,65 (3,012) 77,40 (1,871)

b19 56,92 (1,895) 57,37 (1,605) 55,85 (2,847) 54,07 (1,996)

b20 68,32 (2,032) 68,02 (1,899) 68,84 (2,718) 69,15 (1,694)

Res 6 4 12 6

A Tabela 17 apresenta os resultados estatísticos para a comparação realizada acima,

mostrando o par-a-par para os resultados que obtiveram diferença estatística. Nela, po-

demos notar que o uso de 15 classi�cadores foi o vencedor quando foi comparado com

todos os demais tamanhos, ganhando na maioria das bases em que houveram diferença

estatística.

78

Tabela 17: Resultado estatístico da comparação entre os tamanhos do Comitê para a

SD-RSD-R Fried 5C - 10C 5C - 15C 5C - 25C 10C - 15C 10C-25C 15C - 25C

b1 0,028 < < < > = <

b2 0,012 = > = > = <

b3 0,044 < = > > > >

b4 1 - - - - - -

b5 0,992 - - - - - -

b6 0,999 - - - - - -

b7 0,018 = > = > = <

b8 0,847 - - - - - -

b9 0,03 < < < = = =

b10 0,212 - - - - - -

b11 0,752 - - - - - -

b12 0,111 - - - - - -

b13 0,02 > > = = < <

b14 1 - - - - - -

b15 0,009 < > = > > <

b16 0,046 > > = > < <

b17 0,063 - - - - - -

b18 0,21 - - - - - -

b19 0,082 - - - - - -

b20 0,036 = = > = > >

Res 9 4x2 2x5 2 x 2 0x6 2x3 6x2

Os resultados da SD-P estão presentes na Tabela 18. Assim como na versão anterior,

os melhores resultados foram encontrados usando o tamanho 15 para o comitê, obtendo

novamente 12 melhores resultados em 20 bases de dados utilizadas.

79

Tabela 18: Comparação entre os tamanhos do Comitê para a SD-PSD-P 5C 10C 15C 25C

b1 91,51 (2,324) 89,57 (2,828) 91,94 (2,309) 89,80 (2,520)

b2 70,78 (2,667) 72,37 (2,387) 76,74 (2,279) 71,47 (2,647)

b3 93,17 (2,191) 89,72 (3,044) 95,20 (2,108) 92,99 (2,637)

b4 100,00 (2,500) 100,00 (2,500) 100,00 (2,500) 100,00 (2,500)

b5 99,95 (2,505) 99,98 (2,412) 99,97 (2,505) 99,93 (2,559)

b6 99,41 (2,559) 99,08 (2,525) 100,00 (2,461) 100,00 (2,436)

b7 58,00 (2,534) 56,50 (2,500) 60,50 (2,417) 58,00 (2,529)

b8 99,50 (2,529) 99,67 (2,456) 100,00 (2,490) 99,67 (2,505)

b9 95,79 (1,676) 91,53 (2,755) 92,76 (2,554) 90,46 (3,005)

b10 91,05 (2,972) 91,53 (2,605) 92,21 (1,798) 91,21 (1,935)

b11 96,75 (2,621) 96,54 (2,726) 96,81 (1,867) 96,53 (2,097)

b12 97,59 (2,625) 97,77 (2,657) 96,86 (2,032) 97,27 (1,996)

b13 81,07 (1,899) 64,08 (3,020) 68,71 (2,258) 70,00 (2,133)

b14 100,00 (2,500) 100,00 (2,500) 100,00 (2,500) 100,00 (2,500)

b15 90,07 (2,435) 86,85 (3,250) 91,82 (1,383) 89,44 (2,254)

b16 68,05 (2,319) 65,91 (2,669) 62,12 (2,286) 65,39 (2,052)

b17 62,17 (2,387) 62,79 (2,302) 56,91 (2,270) 53,59 (2,367)

b18 81,75 (2,690) 81,80 (2,581) 81,15 (1,903) 79,70 (2,153)

b19 61,70 (2,306) 55,78 (2,944) 59,22 (1,919) 57,00 (2,157)

b20 69,14 (2,730) 67,75 (2,875) 71,49 (1,492) 67,70 (2,230)

Res 6 6 12 2

Assim como para a SD-R, na SD-P os resultados da comparação par-a-par realizada

pelo teste estatístico, presentes na Tabela 19, aponta a vantagem para o tamanho 15

quando comparada com os demais.

80

Tabela 19: Resultado estatístico da comparação entre os tamanhos do Comitê para a SD-PSD-P Fried 5C - 10C 5C - 15C 5C - 25C 10C - 15C 10C-25C 15C - 25C

b1 0,041 < = < > = <

b2 0,024 > > > > < <

b3 0,033 < > = > > <

b4 1 - - - - - -

b5 0,888 - - - - - -

b6 0,992 - - - - - -

b7 0,036 = > = > = <

b8 0,059 - - - - - -

b9 0,039 < < < = < <

b10 0,047 > > = > < <

b11 0,64 - - - - - -

b12 0,522 - - - - - -

b13 0,02 < < < > > =

b14 1 - - - - - -

b15 0,052 - - - - - -

b16 0,06 - - - - - -

b17 0,03 > < < < < =

b18 0,449 - - - - - -

b19 0,069 - - - - - -

b20 0,044 = > = > = <

Res 8 4 x3 3x5 4x1 1x7 4x2 7x0

A Tabela 20 mostra os resultados para a SD-D. Assim como nas demais versões, os

melhores resultados foram obtidos novamente com o uso de 15 classi�cadores na formação

do comitê, ganhando em 11 das 20 bases de dados.

81

Tabela 20: Comparação entre os tamanhos do Comitê para a SD-DSD-D 5C 10C 15C 25C

b1 91,31 (2,685) 89,52 (2,840) 92,11 (2,125) 91,77 (2,350)

b2 72,52 (2,675) 76,10 (2,280) 74,78 (2,480) 74,83 (2,565)

b3 93,88 (2,590) 93,77 (2,780) 94,80 (1,800) 91,77 (2,830)

b4 100,00 (2,500) 100,00 (2,500) 100,00 (2,500) 100,00 (2,500)

b5 99,98 (2,505) 100,00 (2,485) 99,98 (2,505) 99,98 (2,505)

b6 100,00 (2,500) 100,00 (2,500) 100,00 (2,500) 100,00 (2,500)

b7 61,50 (2,550) 60,00 (2,595) 63,00 (2,520) 66,50 (2,335)

b8 100,00 (2,480) 99,66 (2,540) 99,83 (2,500) 100,00 (2,480)

b9 96,24 (2,330) 96,43 (2,275) 96,58 (2,180) 93,76 (3,215)

b10 90,42 (2,325) 89,52 (2,520) 89,00 (2,655) 90,11 (2,500)

b11 97,32 (2,230) 97,27 (2,410) 97,14 (2,355) 96,75 (3,005)

b12 91,00 (2,745) 92,63 (2,455) 92,68 (2,465) 93,73 (2,335)

b13 79,35 (2,540) 79,78 (2,535) 82,14 (2,175) 76,64 (2,750)

b14 99,80 (2,490) 99,70 (2,510) 99,90 (2,490) 99,70 (2,510)

b15 95,11 (2,941) 95,97 (2,332) 96,22 (2,178) 95,60 (2,460)

b16 67,72 (2,787) 69,92 (2,441) 69,98 (2,262) 68,12 (2,450)

b17 58,26 (2,733) 60,64 (2,208) 61,88 (2,094) 57,18 (2,906)

b18 83,15 (2,589) 86,85 (2,495) 86,95 (2,252) 81,15 (2,604)

b19 70,07 (2,500) 74,44 (1,921) 73,00 (2,574) 60,56 (2,946)

b20 70,00 (2,970) 73,79 (2,114) 73,37 (2,233) 70,86 (2,624)

Res 5 6 11 5

Os resultados estatísticos obtidos por essa comparação para a SD-D pode ser encon-

trados na Tabela 21. Assim como nas demais versões, o uso de 15 classi�cadores obteve

uma grande vantagem na comparação com os demais, sendo estatisticamente melhor que

os outros tamanhos utilizados na maioria dos casos.

82

Tabela 21: Resultado estatístico da comparação entre os tamanhos do Comitê para a

SD-DSD-D Fried 5C - 10C 5C - 15C 5C - 25C 10C - 15C 10C-25C 15C - 25C

b1 0,034 < > > > > <

b2 0,019 > < < < < =

b3 0,029 = > < > < <

b4 1 - - - - - -

b5 0,992 - - - - - -

b6 1 - - - - - -

b7 0,013 < > > > > >

b8 0,996 - - - - - -

b9 0,1 - - - - - -

b10 0,569 - - - - - -

b11 0,751 - - - - - -

b12 0,048 = = > = > >

b13 0,038 = > < > < <

b14 0,912 - - - - - -

b15 0,442 - - - - - -

b16 0,041 > > > = < <

b17 0,029 > > = = < <

b18 0,035 > > = = < <

b19 0,009 > > < = < <

b20 0,058 - - - - - -

Res 10 2x5 1x8 4x4 1x4 7x3 7x2

Pelos resultados apresentados para as três versões, �ca evidente que o melhor tamanho

para os comitês formados pela abordagem proposta é 15. Assim, para as próximas seções,

todas as comparações serão realizadas utilizando 15 classi�cadores bases.

6.4.1 Considerações sobre os tamanhos de comitês utilizados

Para parâmetro, foram utilizados 4 diferentes tamanhos (5, 10, 15 e 25). Como a

quantidade de atributos da maioria das bases, principalmente após as seleções, é pequena,

foram escolhido apenas tamanhos pequenos para formar os comitês.

Com a quantidade de atributos utilizado, na maioria das bases, �ca evidente que a

83

acurácia foi melhorada no momento em que no número de classi�cadores aumentava até

15. Como pode ser visto no grá�co a seguir:

Figura 8: Grá�co de violino para os resultados obtidos da análise dos tamanhos dos comitês

Ou seja, podemos ver que de 5 para 10 classi�cadores houve uma melhora, ou uma

manutenção, para o SD-P e o SD-D, que são métodos mais estáveis, diferentemente do

SD-R, onde mais aleatoriedade foi utilizada na seleção de atributos.

Outro fator que podemos observar em todas as versões é a queda de desempenho

quando o número de classi�cadores aumentou para 25. Sendo assim, o uso de mais classi-

�cadores, não acarreta uma melhora na classi�cação, principalmente pela quantidade de

atributos utilizadas.

6.5 Comparação entre as três versões desenvolvidas

Agora que três dos principais parâmetros já foram de�nidos pelas seções anteriores,

será realizada uma comparação entre as três versões desenvolvidas. Para isso, os resul-

tados mostrados nas tabelas a seguir foram obtidos quando as versões foram executadas

utilizando os melhores valores para W e N , e a quantidade de classi�cadores que obteve

a melhor performance, são eles: 50%, 70% e 15 classi�cadores, respectivamente.

84

Tabela 22: Comparação entre as versões desenvolvidasBases SD-R SD-P SD-D

b1 90,37 (2,098) 91,94 (1,956) 92,11 (1,946)

b2 73,84 (2,029) 76,74 (1,941) 74,78 (2,029)

b3 92,40 (2,235) 95,20 (1,814) 94,80 (1,951)

b4 100,00 (2,000) 100,00 (2,000) 100,00 (2,000)

b5 99,98 (1,985) 99,97 (2,005) 99,98 (2,010)

b6 100,00 (2,000) 100,00 (2,000) 100,00 (2,000)

b7 68,50 (1,576) 60,50 (2,229) 63,00 (1,665)

b8 99,50 (1,674) 100,00 (2,131) 99,83 (1,665)

b9 91,59 (1,949) 92,76 (2,284) 96,58 (1,233)

b10 91,58 (1,972) 92,21 (1,798) 89,00 (2,242)

b11 96,61 (2,121) 96,81 (2,282) 97,14 (1,609)

b12 97,95 (1,863) 96,86 (1,774) 92,68 (2,375)

b13 69,93 (2,262) 68,71 (2,238) 82,14 (1,512)

b14 100,00 (2,040) 100,00 (1,927) 99,90 (2,044)

b15 89,69 (2,560) 91,82 (2,073) 96,22 (1,379)

b16 68,26 (1,940) 62,12 (2,258) 69,98 (1,815)

b17 54,59 (2,250) 56,91 (2,048) 61,88 (1,714)

b18 80,65 (2,020) 81,15 (2,081) 86,95 (1,911)

b19 55,85 (2,359) 59,22 (1,948) 73,00 (1,706)

b20 68,84 (2,266) 71,49 (1,984) 73,37 (1,762)

Res 5 7 13

A Tabela 22 apresenta os resultados obtidos pelas três versões com os melhores parâ-

metros de�nidos nas seções anteriores. A versão que obtive os melhores resultados foi a

SD-D, 13 de 20 bases de dados com melhores valores de acurácia. A segunda melhor foi a

SD-P, com 7 bases no total, e por �m a SD-R, com apenas 5 melhores resultados.

Os resultados da estatísticos da comparação podem ser encontrados na Tabela 23. Das

20 bases utilizadas, 13 obtiveram resultados com signi�cância estatística. Na comparação

par-a-par, a SD-D venceu a SD-P e a SD-R em 10 de 13 bases e em 8 de 10 bases,

respectivamente.

85

Tabela 23: Resultado estatístico da comparação entre as versões desenvolvidasBases Fried SP vs P SP vs D P vs D

b1 0,043 = > >

b2 0,028 > = <

b3 0,036 > = <

b4 1 - - -

b5 0,921 - - -

b6 1 - - -

b7 <0,001 < < >

b8 0,823 - - -

b9 <0,001 = > >

b10 0,059 - - -

b11 0,319 - - -

b12 0,023 < < <

b13 0,002 = > >

b14 0,992 - - -

b15 0,033 > > >

b16 0,041 < = >

b17 <0,001 = > >

b18 0,005 = > >

b19 <0,001 > > >

b20 0,002 > > >

Res 13 3x5 2x8 3x10

6.5.1 Considerações sobre as versões desenvolvidas

Pelos resultados apresentados acima, �ca evidente que a versão que obteve melhores

resultados foi a SD-D. Acreditamos que isso aconteceu devido a mesma utilizar apenas os

grupos mais próximos, e não todos os grupos, como as demais.

Além disso, durante toda a abordagem, métodos baseados em instância são utilizados,

como o K-NN e o K-Means, favorecendo o funcionamento da SD-D, que utiliza uma

metodologia similar aos métodos baseados em distância, onde apenas os mais próximos

são utilizados.

Podemos observar também que a SD-P obteve melhores resultados que a SD-R, uma

86

vez que a SD-P possui uma seleção menos aleatória que a SD-R, permitindo assim, uma

seleção de atributos mais estável e e�ciente.

Os resultados �cam evidentes quando observamos o grá�co a seguir, podemos cons-

tatar o aumento da média e a menor variação dos valores próximos a essa média para a

versão DFSE-D.

Figura 9: Grá�co de violino para os resultados obtidos da análise das versões desenvolvidas

6.6 Comparação entre as duas versões da SD-D

Na seção anterior foi realizada uma comparação entre as três versões desenvolvidas e a

que obteve os melhores resultados foi a SD-D. Para esta seção, uma pequena modi�cação

foi feita, buscando melhorar o desempenho desta versão.

Na SD-D eram utilizados dois grupos, em que W atributos eram selecionados alea-

toriamente de uma porcentagem L dos atributos mais correlacionados do grupo 1 e dos

L menos correlacionados do grupo 2. Com a modi�cação, uma nova versão (SD-D') foi

criada. Nela, serão usados apenas os mais correlacionados, para o grupo 1 e para o grupo

2.

A Tabela 24 apresenta os resultados obtidos pela alteração realizada na SD-D. Nela,

podemos ver que a nova versão (SD-D') obteve melhores resultados que a SD-D, possuindo

87

um maior valor de acurácia em 14 das 20 bases de dados utilizadas.

Tabela 24: Comparação entre a SD-D e a SD-D'Bases SD-D SD-D'

b1 92,11 (1,580) 93,91 (1,420)

b2 74,78 (1,430) 73,68 (1,570)

b3 94,80 (1,495) 95,01 (1,505)

b4 100,00 (1,495) 100,00 (1,505)

b5 99,98 (1,505) 100,00 (1,495)

b6 100,00 (1,500) 100,00 (1,500)

b7 63,00 (1,520) 65,50 (1,480)

b8 99,83 (1,550) 100,00 (1,450)

b9 96,58 (1,460) 93,69 (1,540)

b10 89,00 (1,550) 89,58 (1,450)

b11 97,14 (1,530) 97,30 (1,470)

b12 92,68 (1,660) 94,45 (1,340)

b13 82,14 (1,510) 82,21 (1,490)

b14 99,90 (1,500) 99,90 (1,500)

b15 96,22 (1,400) 95,23 (1,600)

b16 69,98 (1,500) 70,21 (1,500)

b17 61,88 (1,475) 61,35 (1,525)

b18 86,95 (1,450) 82,85 (1,550)

b19 73,00 (1,545) 74,04 (1,455)

b20 73,37 (1,470) 72,11 (1,530)

Res 9 14

A Tabela 25 apresenta os resultados estatístico da comparação entre a SD-D e a SD-D'.

Por se tratar de uma pequena alteração, apenas 6 bases obtiveram diferença estatística.

A SD-D' obteve uma vitória em 4 das 6 bases de dados.

88

Tabela 25: Resultado estatístico da comparação entre a SD-D e a SD-D'Bases W Win

b1 0,002 SD-D'

b2 0,041 SD-D

b3 0,842 -

b4 1 -

b5 0,993 -

b6 1 -

b7 0,032 SD-D'

b8 0,889 -

b9 0,002 SD-D

b10 0,542 -

b11 0,748 -

b12 0,004 SD-D'

b13 0,883 -

b14 0,999 -

b15 0,091 -

b16 0,131 -

b17 0,44 -

b18 0,383 -

b19 0,046 SD-D'

b20 0,056 -

Res 6 2x4

Assim, �ca evidente que a alteração realizada proporcionou uma melhora em termos

de acurácia. Mesmo que pequena, a utilização de apenas os mais correlacionados melhorou

os resultados obtidos para esta versão. Como pode ser visto no grá�co a seguir:

89

Figura 10: Grá�co de violino para os resultados obtidos da comparação entre as duas

versões determinísticas

Assim, a SD-D' será utilizada na próxima seção na comparação realizada com os

demais métodos.

6.7 Comparação com métodos de classi�cação existen-

tes na literatura

Nesta seção a melhor versão encontrada será comparada com outros métodos existen-

tes na literatura para observar o desempenho do mesmo quando comparado com métodos

já consolidados. A SD-D', utilizando os mesmos parâmetros da seção anterior, será com-

parado com os seguintes métodos:

• DFS: Método que utiliza a seleção dinâmica de atributos para um classi�cador

individual (Taxa de seleção de atributos de 50%).

• NoFS: Comitê formado por 15 classi�cadores sem o uso da seleção de atributos.

• RF: Random forest com 15 classi�cadores.

• KU: Knora-Union com 15 classi�cadores.

90

A Tabela 26 apresenta os resultados obtidos pelos métodos listados acima. Nela po-

demos ver que a SD-D' obteve melhores resultados em 12 das 20 bases, seguido pelo RF

e KU, com melhores resultados em 5 bases cada um. Por �m, com apenas 2 bases cada

método, temos o DFS e o NoFS.

Tabela 26: Comparação entre a melhor versão encontrada e demais métodosBases SD-D' DFS NoFS RF KU

b1 93,91 (2,480) 88,38 (2,970) 84,17 (3,805) 89,17 (2,855) 88,71 (2,890)

b2 73,68 (2,650) 71,53 (3,030) 66,08 (3,550) 72,92 (2,730) 71,21 (3,040)

b3 95,01 (2,400) 91,86 (3,370) 91,63 (3,515) 96,12 (2,250) 91,72 (3,465)

b4 100,00 (2,820) 97,00 (2,970) 98,50 (2,895) 94,65 (3,470) 99,50 (2,845)

b5 100,00 (2,895) 99,74 (3,170) 99,96 (2,945) 99,83 (3,045) 99,97 (2,945)

b6 100,00 (3,000) 100,00 (3,000) 100,00 (3,000) 100,00 (3,000) 100,00 (3,000)

b7 65,50 (2,863) 64,50 (3,154) 65,00 (2,917) 58,50 (3,393) 67,00 (2,628)

b8 100,00 (2,441) 93,50 (3,691) 99,50 (2,795) 96,88 (3,485) 99,67 (2,585)

b9 93,69 (2,583) 92,48 (3,951) 90,24 (4,255) 97,30 (1,328) 95,17 (2,441)

b10 89,58 (2,985) 87,38 (3,147) 89,23 (2,995) 88,69 (2,833) 89,74 (2,500)

b11 97,30 (2,958) 97,02 (3,197) 97,21 (3,020) 96,22 (3,200) 98,43 (2,588)

b12 94,45 (1,941) 92,87 (3,145) 92,73 (3,187) 83,17 (4,278) 93,36 (2,407)

b13 82,21 (2,775) 82,13 (2,912) 80,74 (3,250) 85,30 (2,417) 81,64 (2,912)

b14 99,90 (2,804) 99,90 (2,814) 99,00 (2,833) 99,86 (2,990) 99,90 (2,824)

b15 95,23 (4,578) 95,90 (2,186) 96,06 (2,181) 93,76 (3,118) 95,89 (2,201)

b16 70,21 (2,667) 67,75 (2,775) 66,75 (3,034) 68,13 (2,765) 66,75 (3,025)

b17 61,35 (2,433) 59,56 (3,146) 60,71 (2,855) 57,92 (3,506) 60,26 (3,126)

b18 82,85 (2,711) 80,07 (2,873) 79,00 (2,922) 78,86 (2,941) 80,30 (2,819)

b19 74,04 (3,260) 76,44 (3,034) 70,54 (3,510) 81,11 (1,971) 77,81 (2,490)

b20 72,11 (2,319) 65,47 (3,127) 65,75 (3,319) 68,23 (2,745) 67,49 (2,755)

Res 12 2 2 5 5

A Tabela 27 apresenta os resultados estatístico da comparação individual da SD-

D' com os demais métodos. Das 20 bases de dados, em 12 foram obtidos signi�cância

estatística. Na Tabela 27 estão presente apenas as comparações par-a-par que envolvem

a SD-'D, técnica da abordagem proposta. Nela, podemos ver que a SD-D' ganhou em

todas as comparações que foram estatisticamente diferentes da NoFS e DFS. Quando

comparado com a RF e o KU, a SD-D' ganhou em 8 das 12 bases e em 7 das 10 bases,

respectivamente.

91

Tabela 27: Resultado estatístico da comparação entre a melhor versão encontrada e demais

métodosBases Fried SD-D' - DFS SD-D' - NoFS SD-D' - RF SD-D' - KU

b1 0,032 < < < <

b2 0,004 < < < <

b3 0,022 < < > <

b4 0,662 - - - -

b5 0,938 - - - -

b6 1,000 - - - -

b7 0,048 = = < >

b8 0,736 - - - -

b9 0,004 = < > >

b10 0,210 - - - -

b11 0,434 - - - -

b12 0,002 < < < =

b13 0,003 = < > <

b14 0,981 - - - -

b15 0,073 - - - -

b16 0,041 < < < <

b17 0,037 < = < =

b18 0,029 < < < <

b19 0,002 < < > >

b20 0,001 < < < <

Res 12 9x0 10x0 8x4 7x3

Esses resultados também podem ser visualizados no grá�co a seguir. Nele é possível

observar a distribuição dos resultados obtidos por todos os métodos, bem como a marcação

da média (linha preta) e mediana (linha vermelha) obtida dos resultados gerados.

92

Figura 11: Grá�co de violino para os resultados obtidos da comparação com outros mé-

todos

De acordo com os resultados mostrados nesta seção, a abordagem proposta obteve

resultados promissores, uma vez que o mesmo conseguiu obter um maior acurácia para

a maioria das bases de dados quando comparado com os demais métodos. Além disso, a

SD-D' não perdeu em nenhuma das bases de dados que obtiveram diferença estatística

para o DFS e o NoFS, mostrando que o uso da seleção dinâmica de atributos em comitês

de classi�cadores consegue aumentar a capacidade de classi�cação dos dados.

93

7 Conclusão

Este capítulo apresenta as considerações �nais deste trabalho, apresentando as con-

clusões obtidas com os experimentos realizados, as principais contribuições deste trabalho,

e os trabalhos futuros que podem ser realizados a partir da abordagem proposta.

7.1 Considerações Finais

Este trabalho apresentou uma nova abordagem para utilizar a Seleção Dinâmica de

Atributos em comitês de classi�cação. O principal objetivo da abordagem proposta é

selecionar os principais atributos para cada instância. Como a mesma será classi�cada

por um conjunto de z classi�cadores, é necessário selecionar z subconjuntos diferentes de

atributos para diversi�car os classi�cadores base do comitê.

Para isso, foram desenvolvidas três versões diferentes da seleção dinâmica para co-

mitês, visando descobrir qual das três formas de diversi�car os classi�cadores é mais

adequada para o problema em questão.

Durante o processo de classi�cação, a dimensionalidade da base de dados é reduzida

em dois momentos, através dos seguintes parâmetros: N eW (como explicado no Capítulo

4). Para descobrir a melhor versão desenvolvida, diversas comparações foram realizadas,

variando esses dois parâmetros e a quantidade de classi�cadores base.

Após a descoberta da melhor con�guração para a combinação desses parâmetros (70%

para N , 50% para W e 15 classi�cadores base), as três versões foram comparadas entre

si. Os melhores resultados foram obtidos quando a SD-D foi utilizada. Após isso, uma

pequena alteração foi realizada na SD-D, criando assim, a SD-D'.

A SD-D e a SD-D' foram comparadas entre si, e a SD-D' obteve os melhores resultados

em 14 das 20 bases de dados, enquanto a SD-D em 9 das 20 bases. Assim, a versão escolhida

para ser comparada com outros métodos da literatura foi a SD-D'.

94

Por �m, a SD-D' foi comparada com os seguintes métodos: DFS (seleção dinâmica

para um classi�cador individual), NoFS (Comitê tradicional, sem a utilização da seleção

de atributos), Random Forest e Knora-Union. Quando todos os métodos são comparados

ao mesmo tempo, a SD-D'obteve os melhores resultados em 12 bases, seguido pela RF e

pela KU com 5 bases cada.

Na comparação par-a-par a SD-D' ganhou de todas os demais métodos, ganhando em

todas as comparações que obtiveram diferença estatística da DFS e da NoFS. A SD-D'

também obteve melhores resultados que a RF e a KU em 8 de 12 bases e em 7 de 10

bases, respectivamente.

Assim, a abordagem proposta apresentou resultados promissores, uma vez que a

mesma obteve bons resultados quando comparada com os demais métodos, apresentando

melhores valores de acurácia nas comparações realizadas, na maioria dos casos. Além

disso, foram apresentadas e analisadas diversas maneiras de como utilizar a seleção di-

nâmica de atributos para comitês de classi�cadores, mostrando assim, os ganhos de se

realizar a integração dessas duas técnicas.

7.1.1 Trabalhos Futuros

Essa Tese consistiu em um trabalho investigativo e empírico sobre o uso da seleção

dinâmica de atributos em comitês de classi�cação. Nós analisamos o comportamento de

forma empírica de três métodos, mas algumas análises e investigações ainda precisam ser

feitas, seriam as seguintes:

• Utilização de medidas de avaliação de instâncias para diminuir a complexidade e o

tempo de execução;

• Utilização de comitês heterogêneos;

• Utilização de outros métodos de classi�cação;

• Utilização da abordagem proposta para um problema especí�co;

95

Referências

ABUALIGAH, L. M.; KHADER, A. T. Unsupervised text feature selection techniquebased on hybrid particle swarm optimization algorithm with genetic operators for thetext clustering. The Journal of Supercomputing, Springer, v. 73, n. 11, p. 4773�4795,2017.

ABUALIGAH, L. M. et al. Feature selection with β-hill climbing search for textclustering application. In: IEEE. Information and Communication Technology (PICICT),2017 Palestinian International Conference on. [S.l.], 2017. p. 22�27.

ASUNCION, A.; NEWMAN, D. UCI machine learning repository. 2007.

BACAUSKIENE, M.; VERIKAS, A. Selecting salient features for classi�cation basedon neural network committees. Pattern recognition letters, Elsevier, v. 25, n. 16, p.1879�1891, 2004.

BEN-YACOUB, S.; ABDELJAOUED, Y.; MAYORAZ, E. Fusion of face and speechdata for person identity veri�cation. IEEE transactions on neural networks, IEEE, v. 10,n. 5, p. 1065�1074, 1999.

BERRY, M. J.; LINOFF, G. Mastering data mining. [S.l.]: Wiley New York, 2000.

BIAN, S.; WANG, W. On diversity and accuracy of homogeneous and heterogeneousensembles. International Journal of Hybrid Intelligent Systems, IOS Press, v. 4, n. 2, p.103�128, 2007.

BRADLEY, P. S.; MANGASARIAN, O. L. Feature selection via concave minimizationand support vector machines. In: ICML. [S.l.: s.n.], 1998. v. 98, p. 82�90.

BRAGA, L. P. V. Introdução à mineração de dados. 2a edição. Rio de Janeiro: E-papersServiços Editoriais, 2005.

BREIMAN, L. Random forests. Machine learning, Springer, v. 45, n. 1, p. 5�32, 2001.

CANUTO, A. M. et al. Investigating the in�uence of the choice of the ensemble membersin accuracy and diversity of selection-based and fusion-based methods for ensembles.Pattern recognition letters, Elsevier, v. 28, n. 4, p. 472�486, 2007.

CARVALHO, A. et al. Inteligência arti�cial�uma abordagem de aprendizado de máquina.Rio de Janeiro: LTC, 2011.

CAVALIN, P. R.; SABOURIN, R.; SUEN, C. Y. Dynamic selection approaches formultiple classi�er systems. Neural Computing and Applications, Springer, v. 22, n. 3-4,p. 673�688, 2013.

96

CHANDRASHEKAR, G.; SAHIN, F. A survey on feature selection methods. Computers& Electrical Engineering, Elsevier, v. 40, n. 1, p. 16�28, 2014.

COLETTA, L. F. et al. Using metaheuristics to optimize the combination of classi�erand cluster ensembles. Integrated Computer-Aided Engineering, IOS Press, v. 22, n. 3, p.229�242, 2015.

CRUZ, R. M.; SABOURIN, R.; CAVALCANTI, G. D. Meta-des. oracle: Meta-learningand feature selection for dynamic ensemble selection. Information fusion, Elsevier, v. 38,p. 84�103, 2017.

CRUZ, R. M. et al. Meta-des: A dynamic ensemble selection framework usingmeta-learning. Pattern recognition, Elsevier, v. 48, n. 5, p. 1925�1935, 2015.

DANIELSSON, P.-E. Euclidean distance mapping. Computer Graphics and imageprocessing, Elsevier, v. 14, n. 3, p. 227�248, 1980.

DANTAS, C. A.; NUNES, R. d. O. et al. Investigating the impact of similarity metricsin an unsupervised-based feature selection method. In: IEEE. Intelligent Systems(BRACIS), 2017 Brazilian Conference on. [S.l.], 2017. p. 55�60.

DANTAS, C. A. et al. Dynamic feature selection based on clustering algorithm andindividual similarity. In: SPRINGER. International Conference on Arti�cial NeuralNetworks. [S.l.], 2017. p. 467�474.

DEM�AR, J. Statistical comparisons of classi�ers over multiple data sets. Journal ofMachine learning research, v. 7, n. Jan, p. 1�30, 2006.

GALLAGER, R. G. Information theory and reliable communication. [S.l.]: Springer,1968.

GARREN, S. T. Maximum likelihood estimation of the correlation coe�cient in abivariate normal model with missing data. Statistics & probability letters, Elsevier, v. 38,n. 3, p. 281�288, 1998.

GUYON, I.; ELISSEEFF, A. An introduction to variable and feature selection. Journalof machine learning research, v. 3, n. Mar, p. 1157�1182, 2003.

HALL, M. A. Correlation-based feature selection for machine learning. University ofWaikato Hamilton, 1999.

HIRA, Z. M.; GILLIES, D. F. A review of feature selection and feature extractionmethods applied on microarray data. Advances in bioinformatics, Hindawi, v. 2015, 2015.

HUANG, M.-W. et al. Svm and svm ensembles in breast cancer prediction. PloS one,Public Library of Science, v. 12, n. 1, p. e0161501, 2017.

JAIN, A.; ZONGKER, D. Feature selection: Evaluation, application, and small sampleperformance. IEEE transactions on pattern analysis and machine intelligence, IEEE,v. 19, n. 2, p. 153�158, 1997.

JESUS, J.; CANUTO, A.; ARAÚJO, D. Estudo sobre o impacto do particionamentodos dados na seleção dinâmica de atributos. In: UBERLâNDIA, MG. XIV EncontroNacional de Inteligência Arti�cial e Computacional (ENIAC). [S.l.], 2017.

97

JESUS, J.; CANUTO, A.; ARAÚJO, D. A feature selection approach based oninformation theory for classi�cation tasks. In: SPRINGER. International Conference onArti�cial Neural Networks. [S.l.], 2017. p. 359�367.

KITTLER, J.; ALKOOT, F. M. Sum versus vote fusion in multiple classi�er systems.IEEE transactions on pattern analysis and machine intelligence, IEEE, v. 25, n. 1, p.110�115, 2003.

KO, A. H.; SABOURIN, R.; JR, A. S. B. From dynamic classi�er selection to dynamicensemble selection. Pattern Recognition, Elsevier, v. 41, n. 5, p. 1718�1731, 2008.

KUNCHEVA, L. I. A theoretical study on six classi�er fusion strategies. IEEETransactions on pattern analysis and machine intelligence, IEEE, v. 24, n. 2, p. 281�286,2002.

KUNCHEVA, L. I. Combining pattern classi�ers: methods and algorithms. [S.l.]: JohnWiley & Sons, 2004.

KUNCHEVA, L. I. et al. Limits on the majority vote accuracy in classi�er fusion.Pattern Analysis & Applications, Springer, v. 6, n. 1, p. 22�31, 2003.

KUO, B.-C. et al. A kernel-based feature selection method for svm with rbf kernel forhyperspectral image classi�cation. IEEE Journal of Selected Topics in Applied EarthObservations and Remote Sensing, IEEE, v. 7, n. 1, p. 317�326, 2014.

LAW, M. H.; FIGUEIREDO, M. A.; JAIN, A. K. Simultaneous feature selection andclustering using mixture models. IEEE transactions on pattern analysis and machineintelligence, IEEE, v. 26, n. 9, p. 1154�1166, 2004.

LEMIEUX, A.; PARIZEAU, M. Flexible multi-classi�er architecture for face recognitionsystems. In: CITESEER. The 16th International Conference on Vision Interface. [S.l.],2003.

LI, J. et al. Feature selection: A data perspective. ACM Computing Surveys (CSUR),ACM, v. 50, n. 6, p. 94, 2017.

LINOFF, G. S.; MICHAEL, J. B. Mastering data mining. John Willey and Sons, NewYork, 2000.

LIU, H.; MOTODA, H. Computational methods of feature selection. [S.l.]: CRC Press,2007.

LIU, M. et al. Ensemble sparse classi�cation of alzheimer's disease. NeuroImage, Elsevier,v. 60, n. 2, p. 1106�1116, 2012.

MITCHELL, T. M. et al. Machine learning. 1997. Burr Ridge, IL: McGraw Hill, v. 45,n. 37, p. 870�877, 1997.

MORITA, M.; OLIVEIRA, L. S.; SABOURIN, R. Unsupervised feature selection forensemble of classi�ers. In: IEEE. Frontiers in Handwriting Recognition, 2004. IWFHR-92004. Ninth International Workshop on. [S.l.], 2004. p. 81�86.

98

NAKANISHI, T. A feature selection method for comparision of each concept in bigdata. In: IEEE. Computer and Information Science (ICIS), 2015 IEEE/ACIS 14thInternational Conference on. [S.l.], 2015. p. 229�234.

NAMSRAI, E. et al. A feature selection-based ensemble method for arrhythmiaclassi�cation. Journal of Information Processing Systems, Korea Information ProcessingSociety, v. 9, n. 1, p. 31�40, 2013.

NETO, A. A. F.; CANUTO, A. M. An exploratory study of mono and multi-objectivemetaheuristics to ensemble of classi�ers. Applied Intelligence, Springer, v. 48, n. 2, p.416�431, 2018.

NOVAKOVIC, J. Support vector machine as feature selection method in classi�erensembles. International Journal of Modern Education and Computer Science, ModernEducation and Computer Science Press, v. 6, n. 4, p. 1, 2014.

NUNES, R. O. et al. An unsupervised-based dynamic feature selection for classi�cationtasks. In: IEEE. IEEE World Congress on Computational Intelligence (IEEE WCCI).[S.l.], 2016. p. 4213�4220.

OLIVEIRA, D. V.; CAVALCANTI, G. D.; SABOURIN, R. Online pruning of baseclassi�ers for dynamic ensemble selection. Pattern Recognition, Elsevier, v. 72, p. 44�58,2017.

ONAN, A. Classi�er and feature set ensembles for web page classi�cation. In: Journal ofInformation Science. London, England: [s.n.], 2016. p. 150�165.

OPTZ, D. W. Feature selection for ensembles. In: AAAI/IAAI. [S.l.], 1999. p. 384.

SANTANA, L. E. A. d. S. Otimização em comitês de classi�cadores: uma abordagembaseada em �ltro para seleção de subconjuntos de atributos. Universidade Federal doRio Grande do Norte, 2012.

SEIJO-PARDO, B. et al. Ensemble feature selection: homogeneous and heterogeneousapproaches. Knowledge-Based Systems, Elsevier, v. 118, p. 124�139, 2017.

SHARDLOW, M. An analysis of feature selection techniques. The University ofManchester, 2016.

SOMASUNDARAM, G.; SHRIVASTAVA, A. et al. Armazenamento e gerenciamento deinformações: como armazenar, gerenciar e proteger informações digitais. [S.l.]: BookmanEditora, 2009.

SPRENT, P.; SMEETON, N. C. Applied nonparametric statistical methods. [S.l.]:Chapman and Hall/CRC, 2000.

WEI, Z. et al. A novel intelligent method for bearing fault diagnosis based on a�nitypropagation clustering and adaptive feature selection. Knowledge-Based Systems,Elsevier, v. 116, p. 1�12, 2017.

WITTEN, I. H. et al. Data Mining: Practical machine learning tools and techniques.[S.l.]: Morgan Kaufmann, 2016.

99

XU, J. et al. An ensemble feature selection technique for cancer recognition. Bio-medicalmaterials and engineering, IOS Press, v. 24, n. 1, p. 1001�1008, 2014.

ZENG, H.; CHEUNG, Y.-m. Feature selection and kernel learning for local learning-basedclustering. IEEE transactions on pattern analysis and machine intelligence, IEEE, v. 33,n. 8, p. 1532�1547, 2011.

ZHENG, K.; WANG, X. Feature selection method with joint maximal informationentropy between features and class. Pattern Recognition, Elsevier, v. 77, p. 20�29, 2018.

ZHOU, J. Face recognition by combining several algorithms. In: IEEE. PatternRecognition, 2002. Proceedings. 16th International Conference on. [S.l.], 2002. v. 3, p.497�500.

100

APÊNDICE A -- Resultados obtidos para todas

as con�gurações testadas

101

A.1 SD-R: Seleção Dinâmica Baseada em uma Escolha

Randômica Simples

Tabela 28: SD-R: Média da acurácia - 5 Classi�cadores5 Classi�cadores

W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 89,71 89,77 90,34 90,42 89,97 90,54 91,09 92,26 91,15

b2 71,15 71,63 71,05 71,10 72,31 71,68 71,89 72,52 71,78

b3 92,77 92,81 92,75 92,43 92,79 92,58 91,52 92,61 92,61

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 99,95 99,98 99,97 99,98 99,98 99,98 99,82 99,95 99,98

b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b7 53,00 52,50 61,00 50,00 59,00 58,50 65,00 58,50 60,00

b8 99,67 100,00 99,50 98,67 98,50 98,33 98,33 99,50 99,83

b9 91,95 91,63 92,40 91,36 91,81 91,61 91,58 95,79 95,42

b10 88,05 89,32 90,79 91,21 91,26 91,95 89,53 91,05 92,68

b11 96,63 96,67 96,60 96,64 96,48 96,75 94,64 96,75 96,60

b12 90,18 94,32 95,41 84,32 91,82 96,91 97,77 97,59 97,63

b13 69,07 70,41 71,29 67,29 70,07 70,43 71,29 68,28 75,92

b14 100,00 100,00 100,00 98,80 100,00 100,00 98,40 100,00 99,98

b15 86,44 88,95 90,07 89,29 89,44 89,76 85,50 88,64 88,97

b16 65,20 65,79 65,49 65,38 65,28 66,24 65,70 66,28 66,10

b17 54,56 53,62 54,38 54,56 53,53 54,26 58,59 54,32 55,02

b18 79,45 80,00 78,55 80,00 79,40 78,90 79,80 79,70 79,60

b19 55,11 54,93 56,19 55,74 58,26 56,63 60,96 56,92 54,33

b20 65,91 69,27 67,84 67,76 68,48 68,10 68,22 68,32 67,48

102

Tabela 29: SD-R: Desvio Padrão - 5 Classi�cadores5 Classi�cadores

W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 5,175 5,128 5,175 5,068 4,424 5,379 5,794 4,832 5,757

b2 9,746 10,287 9,855 9,813 9,618 9,526 9,709 10,126 10,183

b3 2,886 2,407 2,990 3,046 2,940 2,430 2,665 2,893 2,911

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,278 0,120 0,135 0,119 0,193 0,137 0,270 0,119 0,108

b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b7 32,355 33,368 32,191 33,754 33,511 35,491 34,841 33,700 35,131

b8 1,413 0,000 3,782 3,752 3,141 2,855 2,030 3,808 1,374

b9 3,250 3,140 3,383 2,818 3,275 3,386 2,719 3,018 3,573

b10 5,769 5,463 5,867 5,505 6,059 5,579 5,689 5,973 6,362

b11 1,397 1,703 1,643 1,773 1,219 1,414 1,598 1,369 1,338

b12 4,067 3,937 3,886 3,991 3,071 3,523 3,677 3,361 4,073

b13 12,712 11,563 12,462 11,276 12,673 11,277 12,176 11,732 12,614

b14 0,000 0,000 0,000 2,995 0,000 0,000 2,031 0,000 2,487

b15 4,367 4,238 4,380 3,878 4,292 4,598 3,331 3,434 4,860

b16 7,280 5,809 6,412 5,427 5,940 5,902 6,161 5,533 6,218

b17 7,646 8,561 7,613 8,616 7,979 7,557 7,911 8,383 8,454

b18 8,726 9,121 9,702 7,353 8,050 7,329 7,747 9,216 9,221

b19 11,046 10,189 8,705 11,176 10,821 9,329 10,077 11,356 10,575

b20 4,839 4,433 4,471 4,561 4,269 4,749 4,504 4,647 4,308

103


W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 91,03 91,74 91,14 91,74 90,86 89,63 90,69 89,71 89,03

b2 72,74 73,16 73,74 73,38 72,68 73,28 73,26 71,68 71,21

b3 90,98 91,84 92,97 90,41 91,09 92,14 89,17 90,13 91,34

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 99,83 99,97 99,95 100,00 99,97 99,98 99,85 100,00 99,98

b6 98,58 98,33 99,50 98,42 97,75 99,33 98,67 98,17 99,58

b7 52,50 54,00 53,00 55,50 54,00 51,50 59,50 56,00 59,00

b8 98,17 99,67 99,33 98,33 99,50 100,00 98,00 99,50 99,67

b9 90,51 91,05 91,99 92,42 92,05 92,44 92,07 91,24 92,00

b10 87,84 90,00 92,16 88,32 91,11 93,58 88,79 90,47 92,89

b11 93,41 95,75 96,92 94,24 96,36 97,21 94,04 96,47 97,38

b12 94,86 96,91 93,32 96,73 96,95 95,55 97,82 96,86 96,45

b13 65,43 65,86 72,14 70,93 67,79 80,00 71,07 69,57 82,00

b14 96,10 100,00 100,00 96,60 99,90 100,00 99,00 100,00 100,00

b15 80,44 81,83 86,75 80,23 86,08 88,64 82,93 87,31 88,23

b16 61,09 64,72 64,46 64,98 66,03 66,78 64,97 67,04 67,72

b17 54,56 52,88 57,85 54,68 56,32 59,32 58,53 53,62 58,62

b18 75,00 79,90 82,50 76,85 78,95 81,75 75,90 79,90 80,55

b19 62,07 61,22 63,74 64,33 58,67 64,67 62,85 57,37 62,26

b20 65,03 68,33 69,27 67,82 68,31 68,51 67,11 68,02 67,07

104


W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 4,508 5,013 4,844 5,482 5,470 5,303 4,500 4,332 5,140

b2 9,701 10,339 10,381 9,687 10,201 10,296 9,998 10,284 10,344

b3 2,784 2,910 2,804 2,418 2,713 2,852 2,765 2,661 3,056

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,114 0,177 0,227 0,000 0,254 0,192 0,244 0,000 0,285

b6 0,307 0,281 0,182 0,195 0,152 0,265 0,285 0,292 0,217

b7 34,096 32,521 35,149 33,576 32,720 35,149 34,669 35,089 32,997

b8 3,020 2,993 1,368 2,222 1,826 0,000 1,850 3,689 3,480

b9 2,807 2,947 3,203 3,385 3,093 3,047 2,724 2,893 3,228

b10 6,238 6,009 5,026 5,945 5,614 5,613 5,164 6,141 5,455

b11 1,348 1,406 1,425 1,528 1,537 1,437 1,439 1,509 1,595

b12 4,426 4,084 3,600 4,248 3,202 3,091 3,126 3,246 3,486

b13 11,603 11,023 12,080 11,191 11,293 12,262 12,719 12,948 12,142

b14 4,990 0,000 0,000 2,925 3,233 0,000 2,120 0,000 0,000

b15 3,998 4,623 3,931 4,282 4,610 4,718 4,790 3,605 3,714

b16 8,143 7,077 6,763 7,145 7,868 6,862 5,707 6,589 6,498

b17 8,659 8,244 8,334 8,364 7,916 8,120 8,168 7,688 8,174

b18 9,145 8,394 9,542 9,248 8,208 8,472 8,282 9,372 9,256

b19 9,748 10,512 11,241 10,774 10,546 8,817 9,631 10,214 9,832

b20 4,050 4,229 4,834 4,016 4,864 4,078 4,669 4,500 4,218

105


W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 92,11 92,89 91,80 92,71 92,06 91,40 91,32 90,37 89,89

b2 74,11 76,26 76,12 75,32 74,88 75,79 71,89 73,84 72,21

b3 93,11 95,32 95,62 93,20 94,52 92,97 92,47 92,40 92,74

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 99,82 99,97 100,00 99,77 99,97 100,00 100,00 99,98 99,97

b6 100,00 100,00 99,50 100,00 100,00 99,83 100,00 100,00 99,25

b7 60,80 62,50 65,50 62,50 61,45 57,50 60,00 68,50 58,50

b8 98,33 99,67 99,83 98,67 100,00 99,83 99,83 99,50 100,00

b9 91,11 91,89 92,09 93,06 92,69 93,17 95,43 91,59 91,34

b10 89,11 88,84 90,62 88,42 90,37 92,53 92,68 91,58 92,95

b11 93,17 95,69 96,50 94,58 96,21 97,16 96,60 96,61 97,48

b12 94,36 96,55 95,86 96,50 96,95 97,05 93,64 97,95 96,95

b13 65,86 65,93 77,29 64,07 69,21 79,43 72,79 69,93 82,14

b14 97,40 100,00 100,00 97,80 100,00 100,00 100,00 100,00 100,00

b15 80,11 84,76 89,60 82,14 88,92 89,48 89,92 89,69 90,71

b16 58,61 64,58 68,58 59,62 63,83 68,04 63,47 68,26 69,57

b17 54,44 55,50 60,59 54,12 52,50 60,62 53,68 54,59 61,00

b18 77,40 81,90 82,50 76,30 80,40 82,20 79,60 80,65 82,15

b19 63,70 61,89 69,41 62,96 58,41 66,41 54,85 55,85 64,67

b20 70,23 71,17 71,49 69,39 70,22 70,46 69,13 68,84 68,60

106


W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 5,157 4,483 5,307 5,199 4,384 4,385 4,529 4,329 4,953

b2 10,232 10,017 9,920 10,264 9,498 10,308 9,508 9,917 9,543

b3 2,792 2,403 2,937 2,994 3,042 3,091 2,754 2,590 2,471

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,184 0,279 0,000 0,186 0,260 0,000 0,000 0,229 0,170

b6 0,000 0,000 0,282 0,000 0,000 0,193 0,000 0,000 0,275

b7 33,413 33,366 33,262 32,491 32,910 32,304 33,503 32,900 33,041

b8 2,275 1,358 2,485 3,119 0,000 3,355 1,222 2,182 0,000

b9 2,587 2,302 2,546 2,485 2,648 2,527 2,480 3,079 3,471

b10 6,315 5,310 5,676 5,526 5,733 5,371 5,096 5,611 5,243

b11 1,216 1,773 1,458 1,777 1,657 1,204 1,608 1,624 1,587

b12 3,828 3,327 4,159 3,342 3,556 4,336 4,285 3,604 3,477

b13 12,217 12,820 12,818 12,183 11,665 12,706 11,885 12,809 11,066

b14 3,551 0,000 0,000 2,943 0,000 0,000 0,000 0,000 0,000

b15 4,184 3,740 3,686 3,689 3,547 4,830 4,797 4,610 4,465

b16 5,615 6,261 5,661 5,004 6,107 7,449 7,188 6,901 6,537

b17 7,845 8,102 8,414 8,415 8,191 8,397 8,275 7,648 8,105

b18 8,172 7,458 7,614 7,755 9,082 8,408 9,144 7,919 7,227

b19 10,044 9,310 11,244 11,129 9,639 8,572 10,447 10,928 11,317

b20 4,057 4,450 4,582 4,687 4,719 4,650 4,727 4,374 4,582

107


W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 90,46 91,60 91,40 91,43 90,91 90,23 90,51 89,54 89,57

b2 74,32 73,21 74,16 75,00 73,32 74,42 72,47 71,26 69,84

b3 92,68 94,78 95,97 93,34 94,89 95,86 91,78 93,78 94,11

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 99,65 99,98 100,00 99,75 99,95 99,98 99,70 99,95 99,97

b6 100,00 99,92 99,67 100,00 100,00 99,08 100,00 100,00 99,17

b7 49,50 41,00 45,00 54,50 48,00 46,50 48,50 50,50 63,50

b8 97,17 100,00 98,83 97,67 99,83 100,00 97,83 100,00 100,00

b9 89,98 92,49 91,70 92,24 91,58 93,21 91,41 91,02 91,63

b10 85,21 88,63 90,89 87,26 87,89 91,79 87,32 90,53 92,26

b11 92,71 95,03 96,26 93,97 96,18 96,85 94,09 96,20 97,06

b12 95,23 93,68 92,41 92,73 95,23 96,91 96,73 95,73 96,50

b13 57,21 63,07 72,29 62,57 68,07 75,29 68,79 65,93 77,79

b14 96,40 99,90 99,70 95,70 100,00 100,00 97,30 100,00 100,00

b15 76,87 84,15 88,42 81,69 87,76 89,29 84,79 88,49 89,57

b16 57,95 62,21 65,61 59,97 64,64 67,97 64,04 66,67 68,75

b17 52,97 51,26 58,88 50,94 55,59 60,29 56,85 51,91 58,68

b18 76,50 77,45 80,20 74,20 74,20 79,65 76,50 77,40 80,05

b19 61,11 57,15 64,11 61,67 57,19 65,15 57,67 54,07 59,30

b20 68,36 69,80 69,80 69,64 71,15 70,61 69,09 69,15 70,30

108


W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 4,474 4,386 5,770 4,727 5,192 5,743 4,579 4,590 4,812

b2 10,333 9,791 9,673 9,552 9,797 9,775 9,531 9,835 9,492

b3 2,830 2,408 2,801 2,953 2,565 2,714 2,799 2,443 2,747

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,282 0,218 0,000 0,133 0,117 0,148 0,263 0,273 0,233

b6 0,000 0,148 0,221 0,000 0,000 0,308 0,000 0,000 0,207

b7 32,212 34,540 33,948 33,853 34,905 35,006 34,762 33,112 33,583

b8 3,257 0,000 1,329 1,810 2,574 0,000 3,131 0,000 0,000

b9 3,405 3,485 3,131 2,632 2,415 3,390 3,060 3,533 2,379

b10 5,818 5,399 6,159 5,267 5,620 5,551 6,157 5,948 5,291

b11 1,391 1,280 1,603 1,543 1,302 1,289 1,486 1,745 1,531

b12 3,049 3,081 4,208 3,677 3,574 4,184 3,546 3,799 4,067

b13 12,743 11,657 12,300 12,950 11,152 12,174 11,828 11,618 11,528

b14 4,252 4,985 2,478 4,322 0,000 0,000 4,387 0,000 0,000

b15 4,097 4,594 3,870 3,417 4,246 4,756 3,610 3,992 4,499

b16 5,137 8,312 7,673 6,956 5,643 6,743 6,812 8,480 7,992

b17 8,655 8,315 7,984 8,622 8,075 7,778 7,976 8,346 8,170

b18 9,319 9,987 9,895 8,698 9,899 7,524 7,344 8,052 8,825

b19 10,040 11,114 10,068 9,753 10,074 10,566 8,548 10,823 8,913

b20 4,478 4,257 4,369 4,662 4,170 4,279 4,198 4,195 4,327

109

A.2 SD-P: Seleção Dinâmica Baseada em uma Escolha

Randômica Baseada em Proporções

Tabela 36: SD-P: Média da acurácia - 5 Classi�cadores5 Classi�cadores

W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 90,06 90,20 89,86 89,90 90,23 89,80 88,54 91,51 91,40

b2 71,63 72,32 71,84 72,53 72,32 72,05 69,52 70,78 70,47

b3 92,65 92,99 92,83 93,15 92,41 92,54 93,15 93,17 96,54

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 99,92 99,97 100,00 99,97 99,98 99,97 99,98 99,95 99,97

b6 100,00 100,00 100,00 100,00 100,00 100,00 99,50 99,41 99,41

b7 62,00 64,50 62,50 61,00 62,00 64,00 55,00 58,00 59,50

b8 99,67 99,50 99,50 99,83 99,00 99,50 99,50 99,50 99,16

b9 92,81 90,20 93,01 90,66 90,41 92,24 95,53 95,79 95,51

b10 91,16 92,42 92,11 91,37 91,84 90,95 92,15 91,05 94,84

b11 96,81 96,86 96,64 96,62 97,01 96,71 88,89 96,75 97,52

b12 96,27 96,14 97,77 97,23 97,18 96,45 97,50 97,59 96,72

b13 70,36 69,14 69,14 72,07 72,29 72,29 80,92 81,07 81,97

b14 98,50 98,80 99,08 99,02 99,50 100,00 100,00 100,00 99,98

b15 88,26 89,13 89,38 90,31 89,19 89,27 90,32 90,07 89,19

b16 67,04 64,92 65,91 65,33 65,26 65,92 68,22 68,05 68,30

b17 53,47 54,00 52,91 53,91 53,88 53,91 53,67 62,17 62,11

b18 79,50 80,25 79,40 79,95 79,80 80,45 81,35 81,75 81,75

b19 57,41 55,15 55,89 56,96 55,74 55,56 60,77 61,70 60,74

b20 68,78 68,16 68,44 68,67 68,79 69,80 67,63 69,14 68,28

110

Tabela 37: SD-P: Desvio Padrão - 5 Classi�cadores5 Classi�cadores

W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 5,621 5,007 4,906 4,569 5,753 4,911 5,567 5,223 4,865

b2 10,277 10,185 9,865 10,214 10,298 9,829 9,734 9,997 10,302

b3 2,891 2,664 2,914 3,068 2,780 2,778 2,618 2,450 2,527

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,124 0,102 0,238 0,167 0,248 0,183 0,183 0,109 0,109

b6 0,000 0,000 0,000 0,000 0,000 0,000 0,203 0,146 0,148

b7 33,879 34,667 33,216 33,614 34,238 35,211 32,566 34,505 34,022

b8 2,300 3,653 2,179 1,537 2,900 2,872 1,984 3,409 3,998

b9 3,575 2,465 2,602 2,331 3,090 2,444 2,830 3,449 3,013

b10 5,517 5,292 5,617 6,339 5,174 5,659 6,200 5,061 5,968

b11 1,787 1,370 1,280 1,611 1,746 1,567 1,740 1,316 1,653

b12 3,519 3,628 3,234 4,229 3,937 4,108 4,208 3,101 4,426

b13 11,995 12,510 12,485 12,662 11,313 11,915 12,236 12,864 12,670

b14 4,676 3,706 3,707 4,550 2,008 0,000 0,000 0,000 4,213

b15 3,548 3,530 4,270 3,707 3,819 3,943 3,950 3,918 4,276

b16 5,584 5,658 5,331 6,131 7,694 5,819 7,591 7,425 7,884

b17 8,494 7,852 7,871 8,128 7,890 8,498 8,472 8,168 7,816

b18 9,106 7,854 8,478 8,277 8,708 9,977 9,315 9,945 7,857

b19 10,033 8,649 10,695 10,246 10,986 11,366 11,196 9,688 8,501

b20 4,541 4,208 4,219 4,326 4,096 4,748 4,749 4,543 4,338

111


W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 90,74 91,40 91,14 91,60 90,83 89,86 90,97 89,57 89,34

b2 72,89 72,21 73,79 75,11 73,63 73,16 74,47 72,37 72,16

b3 90,39 92,22 92,67 88,35 91,87 90,79 88,60 89,72 90,08

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 99,87 99,98 100,00 99,87 99,93 99,98 99,80 99,98 99,97

b6 98,50 98,33 99,83 98,33 99,17 99,33 98,08 99,08 99,33

b7 58,00 48,50 51,00 60,50 60,50 58,00 50,00 56,50 58,00

b8 98,33 99,17 98,50 97,83 99,00 99,50 98,33 99,67 99,50

b9 92,55 93,32 91,99 93,32 92,35 92,65 90,61 91,53 90,87

b10 86,95 90,63 92,42 88,26 90,26 93,42 89,16 91,53 93,00

b11 93,38 95,97 97,06 93,72 96,13 97,36 94,26 96,54 97,26

b12 94,36 89,36 96,95 95,00 95,50 96,86 94,05 97,77 95,23

b13 63,79 66,21 78,21 67,43 66,07 80,43 65,57 64,08 78,20

b14 96,50 99,80 99,50 97,20 100,00 100,00 96,80 100,00 100,00

b15 73,85 81,71 87,20 82,07 87,01 88,58 80,79 86,85 87,95

b16 57,42 63,64 67,24 65,04 66,34 68,55 57,34 65,91 67,30

b17 53,82 53,56 60,15 59,26 55,53 59,56 52,76 62,79 58,82

b18 74,40 79,55 83,00 75,45 80,35 82,90 76,60 81,80 79,85

b19 57,70 62,78 69,26 61,70 64,59 65,07 59,15 55,78 61,26

b20 68,19 67,47 67,42 69,25 67,99 69,77 67,52 67,75 68,99

112


W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 5,127 5,508 5,351 5,608 4,378 4,630 4,989 5,738 5,485

b2 9,852 9,733 9,459 10,141 9,907 9,600 9,827 9,569 10,152

b3 2,658 3,059 2,412 2,980 2,839 2,777 2,855 2,909 2,466

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,264 0,111 0,000 0,200 0,232 0,140 0,203 0,233 0,282

b6 0,193 0,118 0,112 0,232 0,267 0,245 0,173 0,299 0,209

b7 35,338 32,258 32,725 34,713 35,200 34,739 33,034 32,531 34,968

b8 3,355 1,812 1,683 1,963 3,489 3,467 2,712 2,715 1,858

b9 3,209 3,335 2,874 2,880 2,905 2,663 3,178 3,475 3,481

b10 6,046 5,365 5,965 5,185 5,173 5,267 5,204 5,819 5,103

b11 1,693 1,634 1,756 1,496 1,593 1,734 1,523 1,369 1,786

b12 3,055 3,489 4,460 3,548 3,464 3,181 4,374 3,203 3,498

b13 12,795 11,999 12,231 12,166 12,397 11,059 12,056 11,064 12,654

b14 2,954 4,525 2,663 3,703 0,000 0,000 2,067 0,000 0,000

b15 4,258 3,482 4,574 4,289 3,412 3,411 3,518 4,562 3,448

b16 5,833 5,853 5,367 8,004 7,444 7,568 7,277 6,807 6,142

b17 8,294 7,641 7,677 7,524 8,657 8,664 7,649 8,061 8,288

b18 8,013 9,313 8,763 8,398 7,948 9,310 9,715 9,240 8,339

b19 11,221 9,241 10,046 11,269 9,276 9,225 11,190 8,699 9,368

b20 4,592 4,203 4,636 4,798 4,502 4,651 4,796 4,233 4,601

113


W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 92,31 92,89 93,17 91,66 93,17 92,43 92,63 91,94 92,54

b2 77,26 76,37 77,26 76,53 75,95 75,37 76,95 76,74 76,79

b3 92,86 95,18 95,51 93,20 95,59 95,40 93,44 95,20 95,14

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 99,78 99,97 99,97 99,82 99,98 99,92 99,75 99,97 100,00

b6 100,00 100,00 100,00 100,00 99,92 100,00 100,00 100,00 100,00

b7 63,00 63,00 58,50 63,50 56,50 59,00 60,00 60,50 66,00

b8 98,00 99,83 98,00 98,33 99,83 98,00 98,33 100,00 98,67

b9 90,59 92,27 91,53 91,24 92,86 92,84 92,98 92,76 89,69

b10 87,26 90,74 89,32 88,05 89,95 91,26 90,42 92,21 90,05

b11 93,03 95,19 95,03 93,09 95,99 96,29 94,55 96,81 95,03

b12 94,39 94,09 92,64 96,59 96,64 98,14 95,65 96,86 90,59

b13 63,21 65,43 66,86 62,29 66,00 65,93 68,21 68,71 67,43

b14 96,30 100,00 99,80 98,00 100,00 99,90 97,20 100,00 100,00

b15 75,67 84,64 84,38 74,94 84,23 87,07 79,65 91,82 83,74

b16 61,51 65,47 64,96 59,21 64,29 64,53 61,26 62,12 61,82

b17 54,06 53,62 53,29 52,97 54,24 54,38 56,26 56,91 52,56

b18 77,10 79,85 78,35 77,40 80,80 78,70 79,80 81,15 80,65

b19 61,48 60,07 59,81 60,30 60,81 62,93 61,59 59,22 61,81

b20 69,01 69,84 69,92 68,68 70,86 70,87 70,16 71,49 69,65

114


W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 5,589 4,811 4,507 5,062 5,585 4,876 5,344 5,242 4,976

b2 9,874 10,350 9,483 9,680 9,847 9,988 10,278 9,869 9,837

b3 2,922 2,728 3,003 2,727 2,749 2,741 2,561 2,460 2,447

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,223 0,270 0,192 0,103 0,218 0,144 0,200 0,238 0,000

b6 0,000 0,000 0,000 0,000 0,102 0,000 0,000 0,000 0,000

b7 35,102 32,864 32,031 34,852 32,492 35,080 32,334 33,234 34,077

b8 2,756 3,003 2,944 2,300 1,419 3,256 1,725 0,000 3,572

b9 2,410 3,564 2,341 3,386 3,386 2,365 3,010 3,526 2,718

b10 6,129 5,842 6,105 6,119 5,069 5,396 5,915 5,686 6,362

b11 1,649 1,541 1,379 1,354 1,732 1,468 1,690 1,259 1,716

b12 3,041 4,349 4,350 3,786 3,180 3,267 4,059 4,247 3,052

b13 12,516 12,914 11,686 12,276 11,686 11,433 12,572 12,446 11,558

b14 3,706 0,000 2,185 1,974 0,000 2,763 2,953 0,000 0,000

b15 3,939 4,416 3,626 4,366 4,009 3,993 3,580 3,609 4,286

b16 5,942 6,959 8,307 7,501 7,377 8,358 7,714 7,127 8,318

b17 7,572 7,822 8,684 8,427 8,070 8,317 8,000 7,956 7,756

b18 8,272 7,283 8,522 8,133 9,932 8,755 9,570 8,343 8,494

b19 10,896 11,374 10,019 11,184 10,643 10,146 11,309 10,891 11,283

b20 4,646 4,380 4,477 4,912 4,015 4,157 4,472 4,543 4,060

115


W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 90,26 89,91 89,86 89,97 90,29 90,31 90,06 89,80 89,63

b2 71,21 71,84 71,42 71,32 72,68 73,68 71,63 71,47 72,21

b3 92,77 92,33 91,66 92,15 92,49 92,62 92,65 92,99 93,05

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 99,95 99,92 99,97 99,97 99,97 99,97 99,92 99,93 99,97

b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b7 57,00 64,00 61,00 60,50 62,50 65,00 59,00 58,00 59,50

b8 99,50 99,67 99,33 100,00 99,67 99,67 99,67 99,67 99,33

b9 92,45 91,48 92,09 92,76 92,55 91,99 92,81 90,46 91,38

b10 92,21 91,11 91,00 91,89 91,58 91,21 91,16 91,21 92,53

b11 96,55 96,55 96,39 96,62 96,60 96,80 96,81 96,53 97,03

b12 96,36 95,95 97,77 97,59 97,18 96,36 96,27 97,27 97,27

b13 71,29 69,86 70,36 70,79 69,00 72,07 70,36 70,00 71,57

b14 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b15 89,25 88,43 89,80 88,85 88,96 88,95 88,26 89,44 89,17

b16 65,07 66,05 65,97 67,66 66,16 64,71 67,04 65,39 64,26

b17 54,21 54,56 53,94 53,76 54,29 53,85 53,47 53,59 55,12

b18 79,50 80,35 78,75 79,35 80,90 79,85 79,50 79,70 79,70

b19 56,59 58,48 55,89 55,93 56,56 56,11 57,41 57,00 56,15

b20 69,04 68,00 67,72 68,69 68,16 69,02 68,78 67,70 68,30

116


W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 4,692 4,442 4,976 5,260 4,498 4,979 5,278 5,540 4,762

b2 9,802 10,284 10,101 9,642 10,160 9,691 9,677 9,406 9,775

b3 2,706 2,613 2,604 2,570 3,056 3,002 2,678 2,736 2,795

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,132 0,281 0,203 0,148 0,210 0,274 0,270 0,192 0,184

b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b7 33,008 32,876 33,709 34,552 32,709 32,757 35,417 34,076 33,065

b8 3,903 3,688 1,570 1,005 3,135 3,603 1,355 1,117 2,795

b9 3,086 2,971 2,310 3,196 3,530 3,436 2,447 2,761 2,615

b10 5,784 5,858 5,421 6,117 6,114 6,094 5,492 5,076 5,992

b11 1,796 1,297 1,268 1,748 1,489 1,711 1,686 1,312 1,348

b12 3,081 3,913 4,166 3,767 3,042 4,486 3,751 3,498 3,261

b13 12,251 12,150 12,502 11,307 11,714 11,288 12,701 11,676 11,550

b14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b15 4,836 4,254 4,594 4,875 4,717 3,642 3,355 4,022 3,322

b16 6,658 8,329 5,871 6,352 6,510 7,908 7,886 6,585 6,332

b17 8,611 8,389 8,385 8,636 8,112 8,450 8,043 8,519 7,969

b18 9,267 9,934 8,665 8,404 7,780 8,106 7,510 8,251 8,124

b19 9,492 10,870 10,042 10,011 10,745 8,849 10,314 9,505 9,470

b20 4,575 4,864 4,199 4,672 4,902 4,199 4,298 4,497 4,890

117

A.3 SD-D: Seleção Dinâmica Baseada em uma Escolha

Determinística

Tabela 44: SD-D: Média da acurácia - 5 Classi�cadores5 Classi�cadores

W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 92,23 91,63 90,91 90,97 91,83 91,20 92,31 91,31 90,22

b2 71,89 71,63 71,68 71,95 72,68 71,82 72,73 72,52 74,47

b3 94,97 93,63 92,94 95,70 94,02 93,59 95,23 93,88 92,16

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 99,95 100,00 99,98 100,00 99,98 99,98 100,00 99,98 100,00

b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b7 56,50 55,00 63,50 63,50 62,50 63,50 62,50 61,50 62,00

b8 99,17 100,00 99,33 99,50 99,83 99,00 99,83 100,00 99,83

b9 89,92 92,55 91,80 91,72 92,31 91,84 95,94 96,24 95,66

b10 93,05 92,37 91,16 88,11 91,37 93,37 88,89 90,42 91,00

b11 96,85 96,72 96,81 96,65 97,30 97,49 96,72 97,32 97,30

b12 96,64 97,41 97,45 95,95 96,64 97,45 88,18 91,00 92,04

b13 71,93 72,93 76,93 72,43 77,86 81,86 73,64 79,35 81,71

b14 92,90 98,20 99,70 99,40 100,00 100,00 98,40 99,80 99,90

b15 89,95 92,54 94,01 89,11 93,81 93,50 90,75 95,11 96,55

b16 58,70 64,30 66,58 65,87 67,66 67,66 66,56 67,72 67,32

b17 52,76 54,97 60,47 58,26 59,74 68,09 58,58 58,26 60,73

b18 80,35 80,55 79,65 84,15 83,60 82,55 83,60 83,15 84,65

b19 58,07 58,85 57,59 63,93 62,07 58,44 66,29 70,07 73,70

b20 69,10 68,87 67,73 67,92 69,60 68,21 68,48 70,00 71,58

118

Tabela 45: SD-D: Desvio Padrão - 5 Classi�cadores5 Classi�cadores

W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 5,549 5,129 5,736 5,639 4,835 5,120 4,820 5,234 5,495

b2 10,146 9,526 10,222 9,425 9,814 10,131 10,181 9,767 10,145

b3 3,025 2,570 2,491 2,558 2,645 2,601 3,049 2,436 2,815

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,163 0,000 0,278 0,000 0,283 0,183 0,000 0,101 0,000

b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b7 33,093 34,046 34,905 33,017 33,409 35,017 34,152 35,469 32,713

b8 3,482 0,000 1,747 2,427 2,197 2,798 3,402 0,000 3,464

b9 3,393 2,761 2,859 3,044 3,211 3,265 3,285 2,806 2,858

b10 6,339 5,802 6,190 5,387 5,871 5,824 6,349 5,120 5,701

b11 1,513 1,254 1,743 1,731 1,463 1,669 1,289 1,572 1,356

b12 3,668 4,266 3,294 3,456 3,725 3,507 4,198 4,481 3,239

b13 11,474 12,404 11,751 12,947 12,945 12,287 12,720 11,804 12,264

b14 4,954 3,634 4,794 4,133 0,000 0,000 4,652 2,516 3,126

b15 4,887 3,944 4,354 4,742 4,893 4,345 3,473 3,358 4,289

b16 6,985 8,367 7,611 7,319 6,832 5,910 8,367 6,891 5,106

b17 8,336 8,124 7,571 8,568 7,896 7,776 7,637 7,873 7,774

b18 9,026 7,385 7,971 7,989 9,664 8,444 9,317 8,889 9,393

b19 8,830 11,338 10,961 8,647 9,852 9,444 10,328 9,168 10,182

b20 4,603 4,600 4,448 4,035 4,514 4,408 4,108 4,460 4,451

119


W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 92,46 91,81 91,46 92,06 91,14 90,66 96,76 89,52 90,28

b2 72,89 74,00 74,21 73,68 73,89 73,59 76,00 76,10 73,73

b3 94,90 94,17 94,90 95,55 93,66 92,73 95,78 93,77 91,86

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 100,00 99,97 100,00 99,98 100,00 99,98 99,75 100,00 99,98

b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b7 55,00 57,50 64,50 58,50 58,50 58,50 57,00 60,00 58,00

b8 99,33 99,67 99,83 99,17 99,33 99,83 99,66 99,66 99,83

b9 92,45 92,65 92,49 92,57 93,24 92,71 96,19 96,43 95,65

b10 86,79 88,37 89,84 86,79 89,47 90,89 88,15 89,52 90,10

b11 96,58 97,19 97,21 96,64 97,14 97,28 97,15 97,27 97,27

b12 93,50 94,82 96,50 92,59 93,55 95,09 90,70 92,63 93,90

b13 72,36 79,36 76,36 72,57 78,57 82,43 74,42 79,78 78,85

b14 98,70 99,90 98,70 98,40 99,40 99,40 99,70 99,70 99,90

b15 90,70 93,76 90,70 90,12 94,17 94,42 92,14 95,97 96,55

b16 65,07 67,67 65,07 67,67 67,43 68,16 68,71 69,92 68,30

b17 54,32 56,74 57,97 59,62 59,82 60,00 57,05 60,64 61,02

b18 81,55 82,80 81,55 82,20 83,20 82,75 84,85 86,85 85,05

b19 63,19 62,89 66,19 67,85 62,93 66,74 69,81 74,44 75,25

b20 67,49 69,52 69,82 70,85 70,17 69,84 71,49 73,79 72,64

120


W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 4,469 5,074 5,557 5,681 5,047 4,716 5,279 5,676 5,065

b2 10,374 9,597 9,511 9,697 9,796 9,821 9,711 10,094 9,492

b3 2,681 2,607 2,615 2,474 2,816 2,598 2,509 2,400 2,599

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,000 0,177 0,000 0,209 0,000 0,141 0,199 0,000 0,193

b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b7 34,588 33,837 34,816 34,859 32,663 32,433 34,873 34,233 32,056

b8 3,688 2,546 2,634 2,819 3,281 3,566 2,149 1,254 3,202

b9 2,732 3,392 2,783 3,377 2,529 2,468 3,444 2,357 3,193

b10 6,027 5,612 5,532 6,372 5,559 5,616 5,220 5,456 5,440

b11 1,737 1,348 1,386 1,445 1,625 1,286 1,723 1,250 1,477

b12 3,046 4,130 4,050 3,322 4,020 3,836 4,276 3,838 4,353

b13 11,839 11,716 11,978 11,512 12,858 11,934 11,508 11,862 12,405

b14 3,147 2,464 4,554 3,711 3,058 2,587 2,579 3,519 3,244

b15 4,486 3,413 4,656 4,388 3,519 4,673 3,620 4,272 4,169

b16 5,568 5,020 7,700 7,677 6,474 5,199 7,050 5,610 7,550

b17 8,141 7,804 8,600 8,410 8,564 7,583 7,720 8,384 8,336

b18 9,376 8,605 8,391 8,911 9,596 9,078 8,666 8,037 9,171

b19 9,607 10,146 11,075 10,945 11,107 11,223 10,865 8,504 8,509

b20 4,087 4,261 4,023 4,424 4,341 4,541 4,926 4,298 4,338

121


W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 93,16 92,21 92,49 93,51 93,20 92,51 93,37 92,11 90,36

b2 76,68 77,53 76,47 77,32 76,74 76,77 74,78 74,78 72,10

b3 96,97 95,93 96,02 96,82 96,57 94,51 96,96 94,80 92,05

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 100,00 100,00 100,00 100,00 100,00 100,00 100,00 99,98 99,98

b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b7 65,00 65,00 65,50 61,00 64,00 68,50 58,50 63,00 63,50

b8 99,83 100,00 100,00 100,00 100,00 100,00 100,00 99,83 100,00

b9 92,45 93,57 93,53 96,18 96,33 96,24 96,25 96,58 96,21

b10 92,45 90,89 94,00 90,51 91,05 92,79 89,26 89,00 88,47

b11 96,43 96,85 96,56 97,09 97,36 97,42 96,89 97,14 97,21

b12 93,82 94,82 95,50 94,23 96,55 97,18 90,18 92,68 93,86

b13 75,29 76,93 78,57 77,71 82,21 81,64 76,07 82,14 80,00

b14 99,10 100,00 100,00 99,60 99,80 100,00 99,60 99,90 100,00

b15 91,00 95,46 96,07 92,54 95,57 96,13 92,77 96,22 97,00

b16 66,74 68,71 67,83 69,95 69,86 68,45 68,02 69,98 68,15

b17 58,09 59,29 61,09 60,65 62,04 62,59 59,98 61,88 62,29

b18 81,90 83,00 82,93 84,00 87,10 84,90 83,90 86,95 84,70

b19 69,19 71,44 72,19 71,78 73,15 74,53 71,07 73,00 74,48

b20 70,84 71,49 71,95 70,62 71,30 70,96 71,70 73,37 73,37

122


W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 5,287 5,634 4,464 4,957 4,720 5,778 5,213 4,681 4,499

b2 9,945 10,228 10,237 10,233 9,604 9,944 10,275 9,521 10,256

b3 3,030 2,553 2,454 2,732 2,985 2,729 2,690 2,752 2,488

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,264 0,180

b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b7 32,228 33,176 32,015 34,898 33,776 33,282 32,793 33,872 33,013

b8 1,205 0,000 0,000 0,000 0,000 0,000 0,000 2,061 0,000

b9 3,040 3,438 2,753 2,354 2,485 2,400 3,263 2,893 3,169

b10 5,979 5,800 5,880 6,229 5,927 6,226 5,655 5,198 5,095

b11 1,629 1,385 1,603 1,591 1,519 1,629 1,503 1,493 1,499

b12 4,404 3,584 3,176 3,361 4,027 4,259 4,455 3,323 4,141

b13 12,168 11,806 12,020 11,991 12,303 12,487 11,604 11,179 12,652

b14 3,108 0,000 0,000 2,239 4,706 0,000 4,999 4,579 0,000

b15 4,171 4,896 4,118 4,698 3,412 4,880 4,776 4,203 3,990

b16 6,182 7,523 5,048 6,309 8,229 6,913 6,659 6,738 6,081

b17 8,641 8,678 8,116 8,691 8,047 8,011 7,756 7,732 8,499

b18 9,235 8,683 9,521 8,633 8,745 7,797 8,846 7,600 7,346

b19 10,482 10,265 9,137 9,678 10,327 10,110 8,870 8,991 8,503

b20 4,418 4,488 4,160 4,667 4,018 4,120 4,952 4,976 4,031

123


W = 0,3 W = 0,5 W = 0,7

Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 92,91 92,03 90,34 93,31 91,74 89,86 93,09 91,77 90,31

b2 73,88 75,49 74,89 74,34 73,42 72,84 74,95 74,83 74,63

b3 96,86 94,52 92,62 96,92 91,74 92,52 96,92 91,77 92,69

b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b5 100,00 99,98 99,95 100,00 99,98 100,00 99,98 99,98 99,98

b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

b7 62,50 61,50 64,50 60,00 60,50 64,50 63,00 66,50 67,00

b8 100,00 100,00 100,00 99,67 99,83 99,83 99,67 100,00 100,00

b9 93,20 93,43 91,37 92,98 93,33 91,53 92,90 93,76 91,76

b10 89,37 89,63 89,95 88,74 89,68 90,37 89,47 90,11 90,53

b11 92,45 92,21 91,73 95,48 95,81 95,88 96,39 96,75 96,71

b12 91,36 93,59 94,23 91,64 93,45 93,36 92,45 93,73 93,82

b13 72,86 75,36 77,29 74,64 74,64 76,79 76,07 76,64 78,36

b14 97,70 99,80 100,00 99,40 99,90 99,80 98,60 99,70 100,00

b15 90,85 95,11 95,77 90,40 94,31 95,43 90,52 95,60 95,88

b16 67,43 68,18 67,91 60,53 64,93 66,71 66,21 68,12 67,72

b17 54,47 56,94 59,18 58,85 61,88 60,68 54,53 57,18 57,71

b18 81,65 81,95 80,25 82,90 83,05 80,55 82,45 81,15 80,95

b19 62,93 62,07 58,56 63,44 61,74 57,89 62,89 60,56 62,26

b20 69,42 71,70 67,96 70,49 71,13 68,55 68,78 70,86 68,20

124


W = 0,3 W = 0,5 W = 0,7

Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75

b1 5,052 4,715 5,101 5,161 4,919 4,322 5,354 5,060 4,872

b2 9,465 9,759 9,634 9,604 10,214 9,793 9,454 9,775 10,175

b3 2,516 3,039 2,623 2,631 2,543 2,937 2,449 3,065 2,511

b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b5 0,000 0,199 0,142 0,000 0,226 0,000 0,251 0,189 0,159

b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

b7 32,238 35,390 32,346 33,914 33,410 32,375 34,535 34,148 34,740

b8 0,000 0,000 0,000 3,832 3,614 2,523 3,366 0,000 0,000

b9 2,719 3,569 2,662 2,395 3,277 3,381 3,499 2,725 3,345

b10 5,754 5,649 6,149 6,333 5,107 5,992 5,329 5,558 5,375

b11 1,700 1,797 1,590 1,622 1,759 1,613 1,541 1,429 1,581

b12 3,545 3,611 3,553 3,703 3,755 4,366 3,310 3,508 3,861

b13 11,974 11,524 12,159 12,757 11,122 11,882 11,169 12,126 12,079

b14 4,281 2,623 0,000 3,323 4,569 3,949 2,997 2,976 0,000

b15 4,824 3,777 3,553 3,878 4,487 4,429 4,421 3,310 3,899

b16 8,155 6,114 7,090 6,042 5,438 6,359 7,862 8,434 8,017

b17 7,601 7,905 7,783 7,881 8,681 8,158 8,399 8,510 7,700

b18 9,729 7,494 9,286 9,242 9,209 7,574 8,448 8,625 8,685

b19 10,993 10,465 10,837 10,041 11,272 8,693 10,070 9,317 9,895

b20 4,685 4,208 4,608 4,326 4,881 4,133 4,102 4,959 4,153

Documents

Seleção Dinâmica de Atributos para Comitês de Classi cadores · Lista de abreviaturas e siglas AM Aprendizado de Máquina k -NN k-Nearest Neighbour SVM Support ectorV Machine