Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Universidade Federal do Rio Grande do Norte
Centro de Ciências Exatas e da Terra
Departamento de Informática e Matemática Aplicada
Programa de Pós-Graduação em Sistemas e Computação
Doutorado em Ciência da Computação
Seleção Dinâmica de Atributos para Comitêsde Classi�cadores
Rômulo de Oliveira Nunes
Natal-RN
Fevereiro de 2019
Rômulo de Oliveira Nunes
Seleção Dinâmica de Atributos para Comitês de
Classi�cadores
Tese de Doutorado apresentada ao Programade Pós-Graduação de Sistemas e Computa-ção da Universidade Federal do Rio Grandedo Norte.
Orientadora
Profa. Dra. Anne Magály de Paula Canuto
UFRN � Universidade Federal do Rio Grande do Norte
DIMAp � Departamento de Informática e Matemática Aplicada
Natal-RN
Fevereiro de 2019
Nunes, Rômulo de Oliveira. Seleção dinâmica de atributos para comitês de classificadores/ Rômulo de Oliveira Nunes. - 2019. 125f.: il.
Tese (Doutorado) - Universidade Federal do Rio Grande doNorte, Centro de Ciências Exatas e da Terra, Programa de Pós-graduação em Sistemas e Computação. Natal, 2019. Orientadora: Anne Magály de Paula Canuto.
1. Computação - Tese. 2. Seleção dinâmica de atributos -Tese. 3. Comitês de classificadores - Tese. 4. Diversidade -Tese. I. Canuto, Anne Magály de Paula. II. Título.
RN/UF/CCET CDU 004
Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET
Elaborado por Joseneide Ferreira Dantas - CRB-15/324
Seleção dinâmica de atributos para Comitês deClassi�cadores
Autor: Rômulo de Oliveira Nunes
Orientador(a): Profa. Dra. Anne Magály de Paula Canuto
Resumo
Em aprendizado de máquina (AM), o pré-processamento dos dados tem como objetivo
aprimorar a qualidade dos dados que serão utilizados, visando apresentá-los em uma forma
adequada para a técnica de AM escolhida. A seleção de atributos é uma de suas principais
etapas. Seu principal objetivo é escolher o subconjunto que melhor represente o conjunto
de dados, permitindo a redução da dimensionalidade e um possível aumento na precisão
dos classi�cadores. Existem diferentes abordagens para se realizar a seleção de atributos.
A a Seleção Dinâmica é uma delas e parte do princípio de que cada instância é única
e que melhores resultados são obtidos quando se seleciona um subconjunto de atributos
para cada instância em vez de um único subconjunto para toda a base de dados. Uma
vez que uma representação mais compacta dos dados foi selecionada, o próximo passo
na classi�cação dos dados é a escolha do modelo a ser utilizado. Esse modelo pode ser
formado por um único classi�cador ou por um sistema de combinação de classi�cadores,
conhecido como Comitês de classi�cadores, que pode ser de�nido como a combinação
múltiplos classi�cadores que serão utilizados para gerar uma resposta �nal para o sistema
através da combinação de suas respostas individuais. Para que esses sistemas apresentem
melhor desempenho que um classi�cador individual é necessário promover a diversidade
entre os componentes que formam o comitê, isto é, que os componentes do sistema não
cometam erros nos mesmos padrões. Por este motivo, a diversidade tem sido considerada
um dos aspectos mais importantes no projeto de comitês, já que não existe vantagem na
combinação de métodos de classi�cação idênticos. O objetivo deste trabalho é utilizar a
seleção dinâmica de atributos em sistemas de combinação de classi�cadores. Para isso,
foram desenvolvidas três versões que realizam essa adaptação de maneira a gerar a di-
versidade entre os classi�cadores base. As versões foram comparadas utilizando diferentes
taxas de seleção e quantidade de classi�cadores, logo após, a melhor versão encontrada
foi comparada com outros métodos encontrados na literatura.
Palavras-chave: Seleção dinâmica de atributos, Comitês de Classi�cação, Diversidade.
Dynamic Feature Selection for Ensembles
Author: Rômulo de Oliveira Nunes
Supervisor: Prof.a Dr.a Anne Magály de Paula Canuto
Abstract
In machine learning, the data preprocessing has the aim to improve the data quality,
through to analyze and to identify of problems in it. So, the machine learning technique
will receive the data of a good quality. The feature selection is one of the most important
pre-processing phases. Its main aim is to choose the best subset that represents the dataset,
aiming to reduce the dimensionality and to increase the classi�er performance. There are
di�erent features selection approaches, on of them is the Dynamic Feature Selection. The
Dynamic Feature Selection selects the best subset of attributes for each instance, instead
of only one subset for a full dataset. After to select a more compact data representation,
the next step in the classi�cation is to choose the model to classify the data. This model
can be composed by a single classi�er or by a system with multiples classi�ers, known
as Ensembles classi�er. These systems to combine the output to obtain a �nal answer
for the system. For these systems to get better performance than a single classi�er it is
necessary to promote diversity between the components of the system. So, it is necessary
that the base classi�ers do not make mistakes for the same patterns. For this, the diversity
is considered one of the most important aspects to use ensembles. The aim of the work is
to use the Dynamic Feature Selection in Ensembles systems. To this, three versions were
developed to adapt this feature selection and to create diversity between the classi�ers
of the ensemble. The versions were compared using di�erent selection rates and ensemble
sizes. After this, the best version was tested with other methods founded in literature.
Keywords : Dynamic Feature Selection, Classi�cation, Ensembles, Diversity.
Lista de �guras
1 Processo de classi�cação . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21
2 Estrutura modular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27
3 Estrutura Ensemble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 28
4 Estrutura metodológica retirada de (NUNES et al., 2016) . . . . . . . . . p. 35
5 Metodologia do experimento . . . . . . . . . . . . . . . . . . . . . . . . p. 52
6 Grá�co de violino para os resultados obtidos da análise do parâmetro W p. 68
7 Grá�co de violino para os resultados obtidos da análise do parâmetro N p. 76
8 Grá�co de violino para os resultados obtidos da análise dos tamanhos
dos comitês . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 83
9 Grá�co de violino para os resultados obtidos da análise das versões de-
senvolvidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 86
10 Grá�co de violino para os resultados obtidos da comparação entre as
duas versões determinísticas . . . . . . . . . . . . . . . . . . . . . . . . p. 89
11 Grá�co de violino para os resultados obtidos da comparação com outros
métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92
Lista de tabelas
1 Descrição das con�gurações. Tabela retirada de (DANTAS; NUNES et al.,
2017) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37
2 Con�gurações executadas nos experimentos para cada versão . . . . . . p. 53
3 Bases de Dados Usadas nos Experimentos . . . . . . . . . . . . . . . . p. 58
4 Comparação entre os valores de W para a SD-R . . . . . . . . . . . . . p. 62
5 Resultado estatístico da comparação entre os valores de W para a SD-R p. 63
6 Comparação entre os valores de W para a SD-P . . . . . . . . . . . . . p. 64
7 Resultado estatístico da comparação entre os valores de W para a SD-P p. 65
8 Comparação entre os valores de W para a SD-D . . . . . . . . . . . . . p. 66
9 Resultado estatístico da comparação entre os valores de W para a SD-D p. 67
10 Comparação entre os valores de N para a SD-R . . . . . . . . . . . . . p. 70
11 Resultado estatístico da comparação entre os valores de N para a SD-R p. 71
12 Comparação entre os valores de N para a SD-P . . . . . . . . . . . . . p. 72
13 Resultado estatístico da comparação entre os valores de N para a SD-P p. 73
14 Comparação entre os valores de N para a SD-D . . . . . . . . . . . . . p. 74
15 Resultado estatístico da comparação entre os valores de N para a SD-D p. 75
16 Comparação entre os tamanhos do Comitê para a SD-R . . . . . . . . . p. 77
17 Resultado estatístico da comparação entre os tamanhos do Comitê para
a SD-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 78
18 Comparação entre os tamanhos do Comitê para a SD-P . . . . . . . . . p. 79
19 Resultado estatístico da comparação entre os tamanhos do Comitê para
a SD-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 80
20 Comparação entre os tamanhos do Comitê para a SD-D . . . . . . . . . p. 81
21 Resultado estatístico da comparação entre os tamanhos do Comitê para
a SD-D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 82
22 Comparação entre as versões desenvolvidas . . . . . . . . . . . . . . . . p. 84
23 Resultado estatístico da comparação entre as versões desenvolvidas . . p. 85
24 Comparação entre a SD-D e a SD-D' . . . . . . . . . . . . . . . . . . . p. 87
25 Resultado estatístico da comparação entre a SD-D e a SD-D' . . . . . . p. 88
26 Comparação entre a melhor versão encontrada e demais métodos . . . . p. 90
27 Resultado estatístico da comparação entre a melhor versão encontrada e
demais métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 91
28 SD-R: Média da acurácia - 5 Classi�cadores . . . . . . . . . . . . . . . p. 101
29 SD-R: Desvio Padrão - 5 Classi�cadores . . . . . . . . . . . . . . . . . p. 102
30 SD-R: Média da acurácia - 10 Classi�cadores . . . . . . . . . . . . . . . p. 103
31 SD-R: Desvio Padrão - 10 Classi�cadores . . . . . . . . . . . . . . . . . p. 104
32 SD-R: Média da acurácia - 15 Classi�cadores . . . . . . . . . . . . . . . p. 105
33 SD-R: Desvio Padrão - 15 Classi�cadores . . . . . . . . . . . . . . . . . p. 106
34 SD-R: Média da acurácia - 25 Classi�cadores . . . . . . . . . . . . . . . p. 107
35 SD-R: Desvio Padrão - 25 Classi�cadores . . . . . . . . . . . . . . . . . p. 108
36 SD-P: Média da acurácia - 5 Classi�cadores . . . . . . . . . . . . . . . p. 109
37 SD-P: Desvio Padrão - 5 Classi�cadores . . . . . . . . . . . . . . . . . . p. 110
38 SD-P: Média da acurácia - 10 Classi�cadores . . . . . . . . . . . . . . . p. 111
39 SD-P: Desvio Padrão - 10 Classi�cadores . . . . . . . . . . . . . . . . . p. 112
40 SD-P: Média da acurácia - 15 Classi�cadores . . . . . . . . . . . . . . . p. 113
41 SD-P: Desvio Padrão - 15 Classi�cadores . . . . . . . . . . . . . . . . . p. 114
42 SD-P: Média da acurácia - 25 Classi�cadores . . . . . . . . . . . . . . . p. 115
43 SD-P: Desvio Padrão - 25 Classi�cadores . . . . . . . . . . . . . . . . . p. 116
44 SD-D: Média da acurácia - 5 Classi�cadores . . . . . . . . . . . . . . . p. 117
45 SD-D: Desvio Padrão - 5 Classi�cadores . . . . . . . . . . . . . . . . . p. 118
46 SD-D: Média da acurácia - 10 Classi�cadores . . . . . . . . . . . . . . . p. 119
47 SD-D: Desvio Padrão - 10 Classi�cadores . . . . . . . . . . . . . . . . . p. 120
48 SD-D: Média da acurácia - 15 Classi�cadores . . . . . . . . . . . . . . . p. 121
49 SD-D: Desvio Padrão - 15 Classi�cadores . . . . . . . . . . . . . . . . . p. 122
50 SD-D: Média da acurácia - 25 Classi�cadores . . . . . . . . . . . . . . . p. 123
51 SD-D: Desvio Padrão - 25 Classi�cadores . . . . . . . . . . . . . . . . . p. 124
Lista de abreviaturas e siglas
AM � Aprendizado de Máquina
k -NN � k-Nearest Neighbour
SVM � Support Vector Machine
EM � Expectation Maximization
PCA � Principal Component Analysis
LDA � Linear Discriminat Analysis
CFS � Correlation-based Feature Selection
LLCFS � Feature Selection and Kernel Learning for Local Learning-Based Clustering
FSV � Feature Selection Via Concave Minimization
Sumário
1 Introdução p. 13
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 15
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16
1.3 Principais contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17
1.4 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18
2 Conceitos Relacionados p. 20
2.1 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20
2.1.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . p. 21
2.1.1.1 k -NN . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22
2.2 Aprendizado Não-Supervisionado . . . . . . . . . . . . . . . . . . . . . p. 23
2.2.1 k-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 23
2.3 Comitês de Classi�cadores . . . . . . . . . . . . . . . . . . . . . . . . . p. 25
2.3.1 Estrutura do Sistema . . . . . . . . . . . . . . . . . . . . . . . . p. 26
2.3.2 Componentes do Sistema . . . . . . . . . . . . . . . . . . . . . . p. 28
2.3.3 Método de combinação . . . . . . . . . . . . . . . . . . . . . . . p. 29
2.4 Seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30
2.5 Considerações �nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31
3 Trabalhos Relacionados p. 33
3.1 Seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33
3.2 Seleção de atributos para comitês de classi�cadores . . . . . . . . . . . p. 37
3.3 Dinamicidade em Comitês de Classi�cadores . . . . . . . . . . . . . . . p. 38
3.4 Considerações �nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40
4 Seleção Dinâmica de Atributos para Comitês de Classi�cação p. 41
4.1 SD-R: Seleção Dinâmica Baseada em uma Escolha Randômica Simples p. 41
4.1.1 Funcionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44
4.2 SD-P: Seleção Dinâmica Baseada em uma Escolha Randômica Baseada
em Proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47
4.3 SD-D: Seleção Baseada em uma Escolha Determinística . . . . . . . . . p. 48
4.3.1 Funcionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 49
4.4 Considerações �nais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50
5 Metodologia p. 51
5.1 Análise empírica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 51
5.2 Bases de dados utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . p. 54
5.3 Métodos e materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 58
6 Resultados p. 61
6.1 Considerações iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61
6.2 Comparação entre os valores de W . . . . . . . . . . . . . . . . . . . . p. 62
6.2.1 Considerações sobre o parâmetro W . . . . . . . . . . . . . . . . p. 67
6.3 Comparação entre os valores de N . . . . . . . . . . . . . . . . . . . . . p. 69
6.3.1 Considerações sobre o parâmetro N . . . . . . . . . . . . . . . . p. 75
6.4 Comparação entre os tamanhos do comitê . . . . . . . . . . . . . . . . p. 76
6.4.1 Considerações sobre os tamanhos de comitês utilizados . . . . . p. 82
6.5 Comparação entre as três versões desenvolvidas . . . . . . . . . . . . . p. 83
6.5.1 Considerações sobre as versões desenvolvidas . . . . . . . . . . . p. 85
6.6 Comparação entre as duas versões da SD-D . . . . . . . . . . . . . . . p. 86
6.7 Comparação com métodos de classi�cação existentes na literatura . . . p. 89
7 Conclusão p. 93
7.1 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 93
7.1.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . p. 94
Referências p. 95
Apêndice A -- Resultados obtidos para todas as con�gurações testadas p. 101
A.1 SD-R: Seleção Dinâmica Baseada em uma Escolha Randômica Simples p. 101
A.2 SD-P: Seleção Dinâmica Baseada em uma Escolha Randômica Baseada
em Proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 109
A.3 SD-D: Seleção Dinâmica Baseada em uma Escolha Determinística . . . p. 117
13
1 Introdução
Em diversas áreas de conhecimento, sejam elas acadêmicas ou industriais, os sistemas
informatizados fazem uso de um elevado volume de dados. Analisar esses grandes volumes
de dados e encontrar algum signi�cado entre eles é uma tarefa complexa, que visa trans-
formar dados brutos em informações dotadas de relevância e propósito (SOMASUNDARAM;
SHRIVASTAVA et al., 2009).
O ser humano sempre construiu o seu conhecimento através da observação de padrões
e da construção de hipóteses para descobrir como os fatos e eventos sobre um determinado
assunto se relacionam. Com o aumento do volume dos dados e das diversas fontes onde
os mesmos podem ser obtidos, aumenta-se também a di�culdade de entendê-los. Sendo
assim, o processo de descoberta da informação relevante pode ser melhor desenvolvido de
forma automática, com a ajuda de um computador, através da utilização de métodos de
Aprendizado de Máquina, possibilitando o entendimento e o bom uso dessas informações
durante uma tomada de decisão. O Aprendizado de Máquina constitui um importante
campo da computação cujo objetivo é explorar e analisar bancos de dados, com o intuito
de �ltrar, entender o que é relevante e utilizar essas informações da melhor maneira
possível para avaliar os resultados obtidos (MITCHELL et al., 1997).
Uma das principais tarefas do Aprendizado de Máquina é a classi�cação. Essa tarefa
é aplicada em um conjunto de dados formado basicamente por atributos e instâncias.
Um atributo é uma característica que descreve um padrão (instância) da base de dados.
Cada instância possui um atributo especial chamado atributo classe, que é utilizado para
identi�car uma instância entre as diferentes categorias que um determinado problema
possui. Assim, o objetivo de um algoritmo de classi�cação é analisar as instâncias de uma
base de dados para criar um modelo capaz de determinar a qual classe uma nova instância
pertence (MITCHELL et al., 1997).
Inicialmente, um único classi�cador era utilizado para classi�car as novas instâncias
durante o processo de classi�cação. Com o passar do tempo, tem sido observado que a
14
combinação de diferentes classi�cadores para resolver um mesmo problema tem obtido
melhores resultados do que quando um único classi�cador é utilizado (KUNCHEVA, 2004).
A ideia principal consiste em combinar diversos especialistas (classi�cadores) para re-
solver um determinado problema. Essa abordagem que combina diferentes métodos de
classi�cação é conhecido por Comitês de Classi�cadores.
Diversos trabalhos que mostram o ganho de desempenho através da utilização da
combinação de classi�cadores são encontrados na literatura (HUANG et al., 2017; COLETTA
et al., 2015; LEMIEUX; PARIZEAU, 2003; BEN-YACOUB; ABDELJAOUED; MAYORAZ, 1999;
ZHOU, 2002). Esses sistemas são compostos por classi�cadores individuais que possuem
suas saídas combinadas por um método de combinação para determinar a qual classe uma
determinada instância de teste pertence. Um dos princípios desse sistema é a diversidade
entre seus classi�cadores, isto é, os classi�cadores devem possuir comportamentos distintos
para poderem explorar diferentes aspectos do problema.
A diversidade buscada durante a construção de sistemas de combinação pode ser en-
contrada de diversas formas, como: diferentes algoritmos de classi�cação, variados conjun-
tos de treinamento, diferentes parâmetros de con�guração dos classi�cadores, conjuntos
de atributos distintos, etc. O ideal é que cada classi�cador possua erros e acertos comple-
mentares que auxiliem no processo de tomada de decisão. Caso contrário, o uso de um
único classi�cador seria a escolha menos custosa para o problema.
Antes de qualquer processo de classi�cação, seja ele utilizando um único classi�cador
ou um sistema de combinação, é necessário veri�car a qualidade dos dados. O grande
volume de dados e as diferentes fontes de obtenção dos mesmos podem gerar dados im-
próprios para serem utilizados em um determinado método de mineração de dados. Esse
processo ocorre durante a fase de pré-processamento de dados, que tem como objetivo a
preparação dos dados para os algoritmos que serão utilizados no processo de aprendizado
de máquina.
Uma das principais etapas da fase de pré-processamento é a seleção de atributos. O
aumento no tamanho dos dados faz com que essa etapa tenha um importante papel para
o bom desempenho dos métodos de classi�cação de dados. Dependendo do problema a ser
resolvido, é possível que alguns atributos possuam pouca relevância para o que se deseja
classi�car, bem como pode ocorrer de atributos possuírem o mesmo signi�cado entre eles.
A etapa de seleção de atributos tem por objetivo identi�car esses atributos e removê-los
da base de dados (CHANDRASHEKAR; SAHIN, 2014).
A identi�cação dos atributos mais importantes para uma base de dados permite que
15
seja de�nido um subconjunto de atributos que possua melhor capacidade de trabalhar
com o problema a ser resolvido. Além da melhora em termos preditivo, ocorre também
uma redução na dimensionalidade dos dados, o que acarreta em uma melhor representati-
vidade do problema, uma necessidade de uma menor capacidade de armazenamento e uma
melhora no processamento computacional dos algoritmos de aprendizado de máquina. Vá-
rios estudos mostram que a redução dos atributos irrelevantes e redundantes melhora o
desempenho dos modelos criados pelos classi�cadores (GUYON; ELISSEEFF, 2003). Assim,
o principal objetivo de um método de seleção de atributos é encontrar um subconjunto de
atributos que represente os dados de uma forma tão e�ciente quanto uma base de dados
por completo.
Os métodos de seleção de atributos que comumente aparecem em trabalhos na lite-
ratura selecionam um único subconjunto de atributos para representar toda uma base de
dados. Partindo do pressuposto de que cada instância é única, e que um atributo pode
ser mais impactante para uma determinada instância do que para outra, a seleção de
atributos dinâmica seleciona um subconjunto de atributos para cada instância ou para
cada grupo de instâncias, sendo assim, vários subconjuntos de atributos são selecionados,
um para cada instância presente na base de dados.
Assim como em problemas que utilizam um único classi�cador, a seleção de atributos
é amplamente utilizada para sistemas de combinação de classi�cadores (SEIJO-PARDO et
al., 2017; ONAN, 2016; NOVAKOVIC, 2014). Em comitês de classi�cadores homogêneos,
ou seja, formados por um mesmo tipo de classi�cador, a seleção de atributos, além de
promover todos os seus benefícios citados anteriormente, serve como diversi�cador dos
classi�cadores. Uma maneira de aplicar a seleção de atributos a um comitê é selecio-
nar diferentes subconjuntos de atributos, uma para cada classi�cador, produzindo assim,
diferentes resultados entre os classi�cadores base.
1.1 Motivação
Alguns métodos de aprendizado de máquina possuem seu desempenho afetado pela
presença de atributos irrelevantes, como o k -NN. A seleção de atributos é uma das prin-
cipais etapas de pré-processamento e possui um impacto signi�cativo na capacidade pre-
ditiva dos classi�cadores.
Diversos métodos que realizam a seleção de atributos, seja para classi�cação ou para
formar os melhores grupos, já foram propostos na literatura (ZHENG; WANG, 2018; KUO
16
et al., 2014; NAKANISHI, 2015; HIRA; GILLIES, 2015; WEI et al., 2017; ABUALIGAH et al.,
2017; ABUALIGAH; KHADER, 2017). Em (NUNES et al., 2016) uma nova abordagem de
realizar essa seleção foi proposta. Tal abordagem, chamada seleção dinâmica, seleciona
diversos subconjuntos de atributos, um para cada instância ou grupo de instâncias. A
seleção dinâmica conseguiu obter excelentes resultados quando comparado com métodos
já consolidados na literatura, tando para métodos de seleção quanto para de extração de
atributos.
A seleção dinâmica mostrou-se bastante adequada para sistemas com um único classi�-
cador. Além disso, diversos trabalhos mostram a melhora no resultado �nal da classi�cação
quando se utiliza um sistema de combinação de múltiplos classi�cadores. Ambas as abor-
dagens apresentam resultados promissores quando usadas individualmente, porém não
foram ainda exploradas de maneira integrada. Sendo assim, a principal motivação deste
trabalho é promover integração dessas duas abordagens, Seleção Dinâmica de atributos e
Comitês de classi�cação.
1.2 Objetivos
O principal objetivo deste trabalho é aumentar a e�ciência em termos de desempenho
e dimensionalidade do processo de classi�cação de dados. Para isto, este trabalho visa
propor técnicas que realizem a integração da seleção dinâmica de atributos, proposta em
(NUNES et al., 2016), com sistemas de combinação de classi�cadores. A seleção de atributos
para sistemas de combinação de classi�cadores é uma das formas de diversi�car o comitê.
Esse processo ocorre através da seleção de subconjuntos diferentes de atributos para cada
classi�cador.
O uso da seleção dinâmica permitirá utilizar diversos subconjuntos de atributos para
classi�car uma única instância, obtendo diferentes resultados que ao serem combinados
gerem um maior ganho na capacidade preditiva do sistema como um todo. Além disso, será
investigado a melhor maneira de se fazer essa diversi�cação, bem como se a quantidade
de classi�cadores base tem impacto signi�cativo durante o uso dessas técnicas.
Assim, integrando essas técnicas é esperado que obtenhamos uma abordagem e�ci-
ente da utilização da Seleção Dinâmica de Atributos para comitês de classi�cação. Essa
integração é realizada selecionando diferentes subconjuntos para cada classi�cador, sub-
conjuntos esses que são utilizados na classi�cação de uma única instância. Assim, para
cada instância de teste a um comitê com N classi�cadores, haverá N subconjuntos de
17
atributos selecionados para serem utilizados na classi�cação.
Utilizando esse conjunto formado pelo método de seleção dinâmica de atributos e
comitês de classi�cadores é esperado um ganho signi�cativo no que se refere ao desem-
penho de classi�cação em um conjunto de dados, principalmente pelo fato de analisar
cada instância individualmente e selecionar os melhores conjuntos de atributos para a
mesma. Neste trabalho, o termo desempenho está associado unicamente a acurácia de
classi�cação, sem levar em consideração fatores como o tempo de processamento.
1.3 Principais contribuições
O desenvolvimento deste trabalho passou por várias etapas que resultaram nas publi-
cações que serão apresentadas a seguir.
Inicialmente, duas versões da seleção dinâmica para atributos foram criadas, uma
supervisionada, que utilizava o k-NN como método de seleção de atributos, e outra não-
supervisionada, que utilizava o k-Means. Experimentos iniciais, mostraram que a versão
não-supervisionada obteve os melhores resultados em termos de acurácia quando compa-
radas entre si. Em seguida, diversos experimentos, envolvendo os principais parâmetros da
seleção dinâmica (principalmente o algoritmo de agrupamento utilizado) foram realizados,
a �m de avaliar a sua viabilidade. Os resultados podem ser visualizados no artigo:
• NUNES, R. O.; DANTAS, C. A.; CANUTO, ANNEM.P.; XAVIER-JUNIOR, JOÃO
C. .An Unsupervised-based Dynamic Feature Selection for Classi�cation tasks. In:
IEEE World Congress on Computational Intelligence (IEEE WCCI), 2016, Vancou-
ver. International Joint Conference on Neural Networks (IJCNN) 2016. New York:
IEEE, 2016. v. 1. p. 4213-4220.
A Seleção Dinâmica de atributos, proposta anteriormente, selecionava os melhores
atributos para um grupo de instâncias. Buscando uma maior dinamicidade, uma nova
versão foi proposta. A nova seleção dinâmica utilizada todos os grupos para selecionar
os atributos mais importantes para uma única instância, utilizando uma proporção de
atributos de cada grupo, estabelecida similaridade entre a instância e os grupos formados.
Assim, foi produzido o seguinte artigo:
• DANTAS, C. A. ; NUNES, ROMULO DE O. ; CANUTO, A. M. P.; XAVIER JU-
NIOR, Joao Carlos. Dynamic Feature Selection Based on Clustering Algorithm and
18
Individual Similarity. In: International Conference on Arti�cial Neural Networks,
2017, Alghero, Sardinia, Italia. LNCS proceedings of ICANN 2017. Berlin: Springer,
2017. v. 10614. p. 1.
Dois dos mais importantes parâmetros utilizados na seleção dinâmica, são o critério
de avaliação e a medida de similaridade. Esses parâmetros foram os objetos de estudo no
seguinte artigo:
• NUNES, ROMULO DE O. ; DANTAS, C. A. ; CANUTO, A. M. P. ; XAVIER JU-
NIOR, Joao Carlos. Investigating the Impact of Similarity Metrics in an Unsupervised-
based Feature Selection Method. In: BRACIS - Brazilian Conference on Intelligent
Systems, 2017, Uberlandia. IEEE proceedings of BRACIS, 2017. v. 1. p. 1.
Em seguida, a seleção dinâmica foi aplicada de maneira integrada com métodos de
seleção de comitês, gerando um sistema completamente dinâmico:
• DANTAS, C. A. ; NUNES, ROMULO DE O. ; CANUTO, A. M. P.; XAVIER JU-
NIOR, Joao Carlos: Evaluating the Dynamicity of Feature and Individual Classi�ers
Selection in Ensembles of Classi�ers. In: IEEE World Congress on Computational
Intelligence (IEEE WCCI), 2018, Rio de Janeiro. International Joint Conference on
Neural Networks (IJCNN) 2018.
Paralelamente, o trabalho em questão estava sendo desenvolvido. Uma das versões
iniciais foi fruto do estudo utilizado no seguinte artigo:
• NUNES, R. O.; DANTAS, C. A.; CANUTO, ANNEM.P.; XAVIER-JUNIOR, JOÃO
C. Dynamic Feature Selection for Ensemble Classi�er. In: BRACIS - Brazilian Con-
ference on Intelligent Systems, 2018, São Paulo.
1.4 Organização do trabalho
O restante deste trabalho está organizado em 7 capítulos: O Capítulo 2 apresenta os
principais conceitos utilizados para o desenvolvimento deste trabalho. Capítulo 3 mostra
alguns estudos relacionados com o tema deste trabalho, apresentando uma visão geral do
que foi desenvolvido da seleção dinâmica de atributos e alguns trabalhos que realizam a
seleção de atributos aplicados à sistemas de combinação de classi�cadores.
19
O Capítulo 4 apresenta as três versões propostas, enquanto o Capítulo 5 mostra a
metodologia aplicada aos experimentos realizados. Os resultados preliminares obtidos são
apresentados no Capítulo 6, enquanto os Capítulos 7 apresenta as considerações �nais,
incluindo os trabalhos futuros.
20
2 Conceitos Relacionados
Este capítulo tem a �nalidade de apresentar os principais fundamentos teóricos que
foram utilizados durante a concepção deste trabalho.
2.1 Aprendizado de Máquina
Aprendizado de Máquina - AM é uma das principais áreas da Inteligência Arti�cial.
Seu principal foco é utilizar/desenvolver algoritmos que sejam capazes de aprender o
conhecimento de forma automática, obtendo informações úteis de um conjunto de dados
(MITCHELL et al., 1997).
O aumento da complexidade dos problemas a serem tratados e o grande volume de
dados gerados de diferentes fontes de conhecimento, torna necessária a utilização de méto-
dos computacionais que consigam realizar o processo de aquisição do conhecimento, sem a
necessidade da interferência de um especialista, utilizando apenas as informações passadas
para gerar mecanismos que sejam capazes de resolver um determinado problema.
AM pode ser aplicado em diversas áreas, tais como diagnósticos médicos, análise de
crédito, reconhecimento de voz, reconhecimento de padrões, processamento de linguagem
natural dentre outras. Existem diversos algoritmos que são utilizados para criar aplica-
ções em AM, onde o principal objetivo é adquirir a capacidade de generalização, isto é,
obter conclusões genéricas a partir de um conjunto de exemplos utilizados para que novos
problemas do mesmo domínio sejam resolvidos por meio de indução.
Esse conjunto de exemplos forma o que chamamos de conjunto de dados, ou base
de dados. Cada exemplo representa uma instância do problema a ser resolvido. Cada
instância é representada por um conjunto de propriedades/características que a descreve,
chamada de atributos. Os atributos são campos que armazenam os diferentes valores que
as características de uma instância deve conter, diferenciando os exemplos que formam o
conjunto de dados.
21
A maioria desses métodos podem ser divididos em duas abordagens, aprendizado
supervisionado e aprendizado não supervisionado (MITCHELL et al., 1997).
2.1.1 Aprendizado Supervisionado
No aprendizado supervisionado, cada instância possui um atributo especial, chamado
atributo classe, que tem como objetivo associar a instância a uma determinada categoria.
Esse tipo de aprendizado induz um modelo, cujo treinamento é realizado com uma base
de dados em que cada uma das observações possui a classe que ela pertence.
Durante a criação do modelo, as saídas previstas são comparadas com os valores
esperados (valor do atributo classe) e, conforme os resultados obtidos, os parâmetros são
alterados até que se encontre um resultado desejável. Assim, o modelo criado será capaz
de classi�car novas observações de forma e�ciente, com base no aprendizado obtido com
o seu treinamento.
O objetivo da adoção de aprendizado supervisionado é criar, através do algoritmo,
um classi�cador que tem por objetivo a criação de um estimador através de exemplos
rotulados. Este estimador será utilizado para atribuir o valor de uma das possíveis classes
(ou um valor real) a uma instância não rotulada, como mostra a Figura 1.
Figura 1: Processo de classi�cação
O objetivo do classi�cador é a correta associação entre os instâncias não rotuladas e as
possíveis classes do problema em questão. A avaliação do classi�cador pode ser realizada
de diversas maneiras, dependendo da propriedade que se deseja alcançar para avaliar
22
o quão bom um classi�cador é para a tarefa em questão. São exemplos de medida de
avaliação do aprendizado de um classi�cador: Acurácia de classi�cação (porcentagem de
instâncias classi�cadas corretamente), tempo de treinamento, tempo de teste, etc.
2.1.1.1 k-NN
O k-NN (k-Nearest Neighbour) é uma das técnicas de aprendizado de máquina mais
simples e utilizadas na literatura. Consiste em um método baseado em instâncias que
leva em consideração os k vizinhos mais próximos de uma instância para classi�cá-la
(MITCHELL et al., 1997). Assim como outros métodos baseados em distância, esse algo-
ritmo parte do princípio de que os padrões similares tendem a estar localizados em uma
mesma região do espaço de entrada. Partindo da mesma ideia, então, padrões com baixa
similaridade estarão distantes entre si.
Esse algoritmo parte do pressuposto de que todos os padrões (instâncias) de uma
base de dados são pontos presentes no espaço n-dimensional Rn de�nidos através dos
seus atributos. Sendo assim, é possível calcular a distância entre os pontos nesse espaço.
Idealmente, a métrica de distância escolhida deve ser adaptada de acordo com o problema
que se deseja resolver (CARVALHO et al., 2011), porém a maioria dos k -NNs encontrados na
literatura, utilizam a distância euclidiana como métrica. A distância euclidiana é de�nida
pela Equação (2.1).
Para duas instâncias X = x1, x2, ..., xn e Y = y1, y2, ..., yn, onde n é a quantidade de
atributos, a distância euclidiana d é (DANIELSSON, 1980):
d(X, Y ) =
√√√√ n∑i=1
(xi − yi)2 (2.1)
Para cada padrão p que se deseja rotular, se calcula a distância entre p e todos os
outros presentes no espaço em questão. Os k padrões mais próximos (Nearest Neighbours)
serão utilizados para determinar a classe de p. O valor do atributo classe mais presente
nas instâncias que formam o conjunto de vizinhos mais próximos será o escolhido para
rotular o padrão p.
A escolha do valor de k para um problema de classi�cação pode não ser trivial.
Esse valor é de�nido pelo usuário e costuma ser um valor pequeno e ímpar, para evitar
empates (CARVALHO et al., 2011). Essa escolha deve ser feita com cautela, pois um valor
muito pequeno pode deixar o método sensível a ruído, enquanto um valor grande pode
23
fazer com que padrões de outras classes sejam escolhidos para o conjunto de vizinhos mais
próximos.
O k -NN não possui um processo de treinamento explícito, isto é, a cada padrão que se
deseja classi�car é necessário calcular a distância desse objeto para todos os demais. Assim,
a predição pode ser custosa para um grande conjunto de dados. Outro fator negativo é
o fato de assim como todos os algoritmos baseados em distâncias, o mesmo é afetado
pela presença de atributos redundantes e/ou irrelevantes (CARVALHO et al., 2011). Mesmo
assim, devido a sua simplicidade e e�ciência, o k -NN consiste em um dos algoritmos de
classi�cação e regressão mais utilizados na literatura.
2.2 Aprendizado Não-Supervisionado
Por outro lado, o aprendizado do tipo não supervisionado não contém a informação de
qual classe a observação pertence, ou seja, o treinamento do modelo não possui nenhum
conhecimento prévio. Portanto, o objetivo do aprendizado não supervisionado é encontrar
regularidades ou categorias nos dados, assim como, relações entre os padrões para extrair
as informações necessárias.
A principal técnica não-supervisionada é o agrupamento de dados (LINOFF; MICHAEL,
2000). Algoritmos de agrupamento são métodos de aprendizado de máquina cujo objetivo
é separar objetos em grupos, baseando-se nas características que os mesmos possuem. O
funcionamento principal se baseia em colocar em um mesmo grupo objetos que sejam
similares entre si através da utilização de alguma métrica pré-estabelecida.
Um bom agrupamento é encontrado quando os objetos de um mesmo grupo possuem
uma alta homogeneidade, ou seja, são bastante similares entre si. Além disso, se deseja
encontrar entre os diferentes grupos formados uma alta heterogeneidade externa, ou seja,
que elementos de um grupo sejam bastante diferentes dos componentes dos demais grupos.
2.2.1 k-Means
O k-Means é um algoritmo de agrupamento iterativo que particiona os dados em uma
quantidade de k grupos distintos. O valor do parâmetro k é de�nido a priori, ou seja, o
k-Means forma a quantidade de grupos que o usuário deseja (LINOFF; MICHAEL, 2000).
Os dados são agrupados pela similaridade entre as instâncias e os centros de cada um
dos k grupos. Ou seja, a distância entre o padrão e os centros dos grupos são calculadas, e
24
a mesma é alocada ao grupo mais próximo. O centro do grupo é denominado de centroide.
O centroide c para um conjunto de n pontos pi = (xi, yi) no plano, para todo i =
1, ..., n, é o ponto médio em relação aos n pontos deste conjunto:
c = (x, y) (2.2)
em que:
• x =∑n
i=1 xi
n;
• y =∑n
i=1 yin
;
Essa de�nição pode ser expandida para além de duas dimensões no espaço.
A principal ideia do algoritmo k-Means é de�nir k centroides, um para cada grupo.
Os centroides iniciais são de�nidos aleatoriamente. Em seguida, o método aloca cada uma
das instâncias ao grupo do centroide mais próximo. Quando todas as amostras já possuí-
rem grupo, os centroides são recalculados através de (2.2) e as instâncias são novamente
associadas a um grupo. Esse processo ocorre até o momento em que não houver alteração
nos centroides. Os principais aspectos do k-Means serão descritos a seguir.
Parâmetros:
• k: número de grupos;
• n: número de instâncias;
• a: quantidade de atributos em cada instância;
• vi = {vi1, vi2, ..., via}: vetor que representa o valor dos a atributos para cada instânciai (i = 1, 2, ..., n);
Variáveis:
• cj = {cj1, cj2, ..., cja}: Vetor que representa o valor dos a atributos para cada cen-
troide j (j = 1, 2, ..., k);
• gij: Representa a qual centroide j a instância i está associada;
O objetivo do algoritmo k-Means é classi�car um conjunto de n instâncias em k grupos
de forma a minimizar a função objetivo F (2.3):
25
F =k∑
j=1
n∑i=1
gij(‖vi − cj‖)2 (2.3)
em que, (‖vi − cj‖)2 representa qualquer medida de distância utilizada entre a instân-cia i e o centroide j.
Pode-se visualizar os passos do k-Means através do Algoritmo 1:
Algoritmo 1 Algoritmo do método de agrupamento k-Means1: procedure k-Means2: Entrada: k, v, n, a3: De�nir aleatoriamente cj para todo j = 1, ..., k4: repetir5: para i = 1, ..., n faça6: Associar a instância i ao centroide j mais próximo (gij);7: �m para8: para j = 1, ..., k faça9: Recalcular os novos centroides cj com relação aos atributos das instâncias10: que pertencem ao cada grupo j;11: �m para12: até que cj não for alterado para todo j = 1, ..., k13: retorna g;14: �m procedure
2.3 Comitês de Classi�cadores
Geralmente, durante qualquer processo de tomada de decisões, sejam elas médicas,
�nanceiras, sociais, entre outras, é comum procurarmos sempre uma segunda opinião, ou
quantas forem necessárias, para auxiliar-nos durante a escolha que será realizada. A partir
desse conjunto de opiniões, é esperado que obtenhamos uma opinião �nal melhor, bem
mais informada, do que todas as opiniões avaliadas isoladamente. Diferentes propostas
de uma solução podem levar em consideração aspectos distintos relevantes de um mesmo
problema, o que não aconteceria se fosse avaliado apenas uma única proposta. A ideia de
combinar diferentes soluções para resolver um único problema, pode ser utilizada também
no processo de classi�cação através da combinação de diversos algoritmos de classi�cação,
conhecido como Comitês de classi�cadores ou Sistemas multi-classi�cadores (KUNCHEVA,
2004).
O desempenho obtido por um classi�cador depende de diversos fatores referentes a
maneira de como os dados que se desejam classi�car se encontram. Pode-se dizer que não
26
existe o classi�cador perfeito para todas as situações e tipos de problemas, ou seja, todos
os classi�cadores apresentam pontos fortes e fracos. Alguns fatores podem fazer com que
os algoritmos de classi�cação apresentem desempenhos diferentes, como o tamanho dos
dados, o tipo dos dados, a relevância dos atributos, a presença de atributos redundantes,
entre outros fatores. Diversas pesquisas tem mostrado que a combinação dos resultados
de diversos classi�cadores é capaz de obter melhores resultados do que as de um único
classi�cador (KUNCHEVA, 2004), combinando as vantagens e superando as limitações dos
classi�cadores utilizados.
Durante o processo de criação de um Sistema de Combinação de classi�cadores, três
aspectos principais devem ser levados em consideração: a estrutura do Sistema, os com-
ponentes do Sistema e o método de combinação.
2.3.1 Estrutura do Sistema
A estrutura do sistema é responsável por de�nir como os componentes estão organi-
zados e interagem dentro do sistema. Pode ser classi�cado em duas categorias: modular e
ensembles.
Na arquitetura modular é utilizado o princípio de "dividir para conquistar", onde
um problema inicial é decomposto em diversas sub-tarefas, tornando cada método um
especialista em um aspecto do problema. Cada especialista executa uma sub-tarefa e a
combinação das soluções obtidas são combinadas para determinar a saída �nal do sistema.
Uma representação da arquitetura modular é apresentada na Figura 2.
27
Figura 2: Estrutura modular
Os ensembles, por sua vez, utilizam a combinação de modelos paralelos e redundan-
tes, tendo em vista que, todos os classi�cadores que formam o sistema de combinação
executam a mesma tarefa. Essa arquitetura explora as diferenças entre os classi�cadores
base, buscando a diferentes maneiras de se resolver um mesmo problema que possibili-
tem a obtenção de informações complementares sobre os padrões que serão classi�cados.
Essa utilização de diferentes modelos para gerar uma saída baseada na combinação de
diferentes opiniões torna o sistema mais robusto e tolerante a falhas (BRAGA, 2005). Uma
representação da arquitetura de um ensemble é apresentada na Figura 3.
28
Figura 3: Estrutura Ensemble
2.3.2 Componentes do Sistema
Após a escolha da arquitetura do Sistema, é necessário de�nir os componentes (classi-
�cadores) que o compõe. A utilização de classi�cadores idênticos, que obtenham a mesma
resposta, não produz nenhum benefício para a classi�cação. Um dos principais fatores bus-
cados na hora de escolher os componentes do sistema é a diversidade, que busca atingir
um nível em que os classi�cadores obtenham diferentes erros durante a classi�cação. Essa
combinação de classi�cadores pode ser realizada através de duas abordagens: homogênea
e heterogênea (BIAN; WANG, 2007).
• Comitês homogêneos: Esta abordagem utiliza apenas um único método de apren-
dizagem para a construção do sistema de classi�cação. Para obter diversidade uti-
lizando apenas uma única técnica, é necessário utilizar diferentes parâmetros para
que assim, modelos distintos sejam gerados para cada classi�cador. Em um comitê
formado apenas por k-NNs, por exemplo, para obter a diversidade pode-se variar
o valor do parâmetro k. Outra maneira de obter a diversidade com classi�cadores
homogêneos é a utilização de diferentes conjuntos de treinamento, seleção de pa-
drões distintos para cada classi�cador ou a utilização de métodos de distribuição de
atributos para cada componente do sistema (SANTANA, 2012).
29
• Comitês heterogêneos: Esta abordagem utiliza diferentes algoritmos de aprendiza-
gem em um mesmo conjunto de treinamento. Sua diversidade é obtida pelos dife-
rentes modelos criados a partir de cada método de classi�cação utilizado, buscando
tirar vantagens dos pontos fortes de cada classi�cador.
2.3.3 Método de combinação
Após a escolha da estrutura e dos componentes do sistema, o próximo passo é a de�ni-
ção de uma maneira efetiva de combinar os seus resultados. As estratégias de combinação
discutidas na literatura são: seleção e fusão (CANUTO et al., 2007).
Na seleção apenas um classi�cador é responsável pela saída do sistema. A ideia de
utilizar a seleção é a de que cada classi�cador é um especialista e que o classi�cador esco-
lhido para indicar a saída do sistema será o mais capacitado para classi�car determinado
padrão de entrada.
Na fusão as saídas de cada classi�cador base são usadas em conjunto para determinar
a saída geral do sistema. Todos os classi�cadores participam do processo de tomada de
decisão. Uma função é aplicada as saídas dos classi�cadores para combinar os resultados
e obter uma opinião geral sobre a saída do sistema, determinando assim, o consenso
do grupo sobre a classe de uma determinada instância. Pode-se citar como exemplos os
seguintes métodos:
• Voto Majoritário (KUNCHEVA et al., 2003): Consiste em uma regra de decisão simples,
onde, quando uma instância de teste é apresentada ao comitê, cada classi�cador
vota em uma determinada classe. A classe escolhida é aquela que obtiver a maior
quantidade de votos.
• Soma (KITTLER; ALKOOT, 2003): Método de combinação linear, onde, quando uma
instância de teste é apresentada ao comitê, os valores de saída correspondentes a
cada classe (nível de con�ança) são somados. A classe cuja soma resultante for a
mais elevada, é declarada vencedora.
• Média (KUNCHEVA, 2002): Método de combinação linear, onde, quando uma instân-
cia de teste é apresentada ao comitê, a média dos valores de saída correspondentes
a cada classe (nível de con�ança) são obtidas. A classe cuja média resultante for a
mais elevada, é declarada vencedora.
30
• Máximo (KUNCHEVA, 2002): Método de combinação linear, onde, quando uma ins-
tância de teste é apresentada ao comitê, os valores de saída correspondentes a cada
classe (nível de con�ança) são calculados. A classe que possuir o maior (Máximo)
valor, é declarada vencedora.
2.4 Seleção de atributos
Para que se obtenha um resultado desejável ao se aplicar os métodos de aprendizado
de máquina a um conjunto de dados, é necessário que esses dados apresentem uma boa
qualidade. Devido ao grande volume de dados e as diversas fontes de obtenção dos mesmos,
pode ser necessário a realização de um pré-processamento para deixar os dados adequados
para o método que irá utiliza-los. Uma das principais etapas da fase de pré-processamento
é a seleção de atributos, que consiste em uma etapa fundamental para se obter sucesso
em tarefas de classi�cação e agrupamento (WITTEN et al., 2016).
O conjunto de atributos descreve as características das instâncias de um determinado
problema. Pode ocorrer de alguns desses atributos trazerem pouca relevância para a tarefa
que se deseja realizar durante o processo de classi�cação, bem como é possível a presença
de atributos redundantes.
Para solucionar esse problema é necessário a ajuda de um especialista para identi�car
quais atributos mais contribuem para a resolução do problema. Porém, com o aumento
do tamanho dos dados, surgiu a necessidade de se produzir métodos automáticos que
sejam capazes de realizar essa tarefa, substituindo o especialista e obtendo um melhor
desempenho em tempo de processamento. Esses métodos são chamados de Métodos de
Seleção de Atributos, que tem como principal objetivo identi�car e remover os atributos
redundantes e/ou irrelevantes da base de dados (JAIN; ZONGKER, 1997).
Através da seleção dos atributos mais relevantes é possível atingir os seguintes obje-
tivos:
• Reduzir da dimensionalidade dos dados: aumentando a velocidade do algoritmo e
utilizando menos armazenamento para os dados.
• Melhorar na performance: a qualidade dos atributos escolhidos para o processo de
classi�cação está diretamente ligada a capacidade preditiva, permitindo um maior
ganho em termos de acurácia.
• Facilitar o entendimento dos dados: a seleção dos melhores atributos possibilita um
31
melhor entendimento da organização dos dados e de como os mesmos interferem no
resolução do problema.
Diferentes abordagens de seleção de atributos podem ser consideradas, as duas prin-
cipais são: Filtro e Wrapper (LAW; FIGUEIREDO; JAIN, 2004). Na abordagem por Filtro, a
ideia principal é selecionar os atributos mais importantes através de algum critério esco-
lhido. Essa seleção considera as características gerais do conjunto de dados para selecionar
os melhores atributos. Sendo assim, métodos de �ltro são independentes do algoritmo de
classi�cação que utilizará o novo conjunto de dados, contendo as instâncias sem a presença
dos atributos que foram descartados.
Na abordagem porWrapper, o próprio classi�cador é utilizado para avaliar a qualidade
dos subconjuntos de atributos selecionados. Isto é, um método de busca é utilizado para
percorrer todo o espaço dos possíveis subconjuntos de atributos que possam ser utilizados,
para cada subconjunto o classi�cador é treinando, e seu resultado indicará a qualidade
do subconjunto avaliado. Esse processo se repete diversas vezes, até que um critério de
parada seja satisfeito. Assim, o algoritmo de seleção retornará o subconjunto de atributos
que obteve um melhor desempenho durante a avaliação. Esse tipo de abordagem possui
um elevado custo de computacional, devido às repetidas execuções do classi�cador para
avaliar a qualidade dos subconjuntos de atributos obtidos durante o processo de busca.
Para diminuir essa limitação, estratégias envolvendo heurísticas e meta-heurísticas são
comumente utilizadas para solucionar os subconjuntos de atributos que serão avaliados.
Independente da abordagem utilizada, o processo de seleção de atributos é uma das
principais etapas de pré-processamento e tem um papel importante nos problemas de
classi�cação, permitindo que se obtenha um melhor desempenho através da redução da
dimensionalidade dos dados e da utilização do subconjunto de atributos que melhor re-
presente o conjunto de dados geral.
2.5 Considerações �nais
Neste Capítulo foram apresentados os principais conceitos que foram utilizados para
o desenvolvimento desta proposta. Inicialmente, um conceito geral sobre Aprendizado de
Máquina foi apresentado, através da apresentação da divisão do mesmo em Aprendizado
Supervisionado e Não-Supervisionado. Para cada um dos aprendizados, um método foi
descrito, método esse que tem fundamental participação no trabalho. Para o aprendizado
supervisionado foi descrito o classi�cador k -NN, enquanto que para o aprendizado não-
32
supervisionado foi explicado o funcionamento do k -Means.
Em seguida, os principais conceitos envolvendo as duas abordagens utilizadas neste
trabalho são explicados: Comitês de classi�cação e Seleção de atributos. Apresentando os
principais pontos que devem ser levados em consideração na utilização de métodos que
realizam essas abordagens.
33
3 Trabalhos Relacionados
Neste capítulo serão apresentados alguns trabalhos com o tema relacionado ao desta
proposta. A primeira seção apresenta um conjunto de estudos que foi publicado até agora
sobre a Seleção Dinâmica de atributos, mostrando um resumo dos principais tópicos abor-
dados em cada um dos trabalhos produzidos. Logo após, diversos trabalhos que utilizam
métodos de seleção de atributos para Comitês de Classi�cação são apresentados e alguns
trabalhos que realizam a Seleção Dinâmica de Comitês.
3.1 Seleção de atributos
Como mencionado anteriormente, seleção de atributos é um importante passo da fase
de pré-processamento de dados. Seu objetivo é selecionar o subconjunto mais represen-
tativo de atributos de um conjunto de dados. O processo de seleção ocorre através da
eliminação de atributos irrelevantes e/ou redundantes.
Diversos métodos de seleção de atributos para classi�cadores individuais são encon-
trados na literatura, (LI et al., 2017; SHARDLOW, 2016; KUO et al., 2014; NAKANISHI, 2015;
HIRA; GILLIES, 2015; ZHENG; WANG, 2018). Esses métodos realizam a seleção de maneira
estática, isto é, selecionam um único subconjunto de atributos para representar a base
de dados. Em (LI et al., 2017), por exemplo, os autores apresentam um survey com uma
revisão sobre os recentes avanços na pesquisa sobre seleção de atributos. Assim como
em (SHARDLOW, 2016), onde vários métodos de seleção de atributos são explorados e
avaliados utilizando o classi�cador SVM .
Os métodos de seleção de atributos tradicionais recebem como entrada um conjunto de
dados e devolvem como saída um subconjunto dos atributos mais relevantes, ou seja, que
melhor descrevem a base de dados. Durante o processo de classi�cação, o subconjunto
selecionado é utilizado para treinamento e teste de todas as instâncias, sem levar em
consideração a particularidade de cada amostra.
34
A seleção dinâmica, por sua vez, tem como objetivo selecionar os melhores atributos
para cada instância ou grupo de instâncias individualmente. Os métodos desenvolvidos
partem do principio que os atributos que melhor descrevem uma instância, não necessa-
riamente são os mesmos para as demais instâncias do conjunto de dados. Sendo assim,
diferentes subconjuntos de atributos são selecionados, e cada instância é classi�cada uti-
lizando o seu próprio subconjunto de atributos. Trabalhos sobre a seleção dinâmica de
atributos podem ser encontrados em (NUNES et al., 2016) (DANTAS et al., 2017) (DANTAS;
NUNES et al., 2017).
Em (NUNES et al., 2016), a seleção dinâmica é realizada através da aplicação de um
algoritmo de agrupamento em um conjunto de validação. Após separar as instâncias em
grupos, um critério de avaliação é aplicado para determinar os atributos mais importante
para cada grupo. Assim, quando se deseja classi�car uma instância, a mesma é comparada
com todos os grupos formados através da aplicação de uma medida de similaridade, utili-
zada para de�nir a qual grupo esta instância pertence. Então, o processo de classi�cação
da instância em questão é realizado utilizando o subconjunto de atributos selecionados
para o grupo ao qual ela pertence.
Em (NUNES et al., 2016), foram utilizados três diferentes algoritmos de agrupamento
(k-Means, DBScan e EM ) para selecionar os atributos mais relevantes. Após o processo
de seleção, a e�ciência do método foi comprovada através da aplicação de quatro classi-
�cadores (k -NN, Árvore de Decisão, SVM e Naive Bayes), como foi ilustrado na Figura
4.
35
Figura 4: Estrutura metodológica retirada de (NUNES et al., 2016)
Dentre os algoritmos de agrupamento utilizados, o que obteve melhores resultados foi
o k-Means, seguido pelo EM e por �m o DBScan. Os resultados obtidos com a utilização
do k-Means na seleção foram comparados com três métodos de redução de dimensiona-
lidade: A seleção randômica, PCA (LIU; MOTODA, 2007) e LDA (LIU; MOTODA, 2007).
O resultado desse novo método foi bastante promissor, pois o mesmo obteve melhores
resultados em termos de acurácia que os três métodos analisados, bem como, obteve um
melhor desempenho do que quando todos os atributos foram utilizados para o processo
de classi�cação.
Buscando uma maior dinamicidade para o método proposto, em(DANTAS et al., 2017)
uma alteração na seleção dinâmica foi proposta. A diferença entre as duas versões está
no momento em que será de�nido os atributos que representam uma dada instância. Na
36
nova versão, é de�nida uma proporção baseada na distância da instância para todos os
grupos, sendo assim, os atributos que serão utilizados para treinamento e teste da instância
serão escolhidos de todos os grupos, baseado na proporção estabelecida pela medida de
similaridade. Assim, a nova abordagem realiza um processo realmente dinâmico, onde cada
instância possui seu próprio subconjunto de atributos selecionados, diferente da anterior,
em que os subconjuntos eram pertencentes a todo um grupo de instâncias.
Também em (DANTAS et al., 2017), foi realizado uma análise baseada na taxa de sele-
ção de atributos, buscando analisar o comportamento do método proposto nas seguintes
proporções de seleção: 25%, 50% e 75%. Todos os experimentos conduzidos foram reali-
zados utilizando o k-Means no processo de seleção de atributos, uma vez que os melhores
resultados obtidos em (NUNES et al., 2016) foram com esse algoritmo.
Em (NUNES et al., 2016), a comparação do método foi realizada apenas com a seleção
randômica e dois métodos de extração de atributos. Em (DANTAS et al., 2017), fora adi-
cionados mais três métodos, todos de seleção de atributos. Os métodos escolhidos para o
experimento foram: CFS (HALL, 1999), LLCFS (ZENG; CHEUNG, 2011) e FSV (BRA-
DLEY; MANGASARIAN, 1998). O método proposto obteve melhor desempenho do que todos
os outros métodos testados.
A seleção dinâmica possui duas principais medidas em seu processo: O critério de
avaliação e a medida de similaridade. O critério de avaliação é aplicado nas instâncias que
formam os grupos, para de�nir os atributos mais importantes para cada grupo formado.
A medida de similaridade é utilizada entre as instâncias de teste e os grupos formados,
para de�nir o subconjunto de atributos que será utilizado para a instância em questão.
Essas duas mediadas podem ser variadas. Em (DANTAS; NUNES et al., 2017), foi realizado
um estudo para analisar quais as medidas que traziam um melhor desempenho para a
seleção dinâmica.
Foram utilizas um total de seis medidas, duas como critério de avaliação e quatro
como medidas de similaridade. As métricas utilizadas foram: Coe�ciente de Correlação de
Spearman (SPRENT; SMEETON, 2000), Coe�ciente de Correlação de Pearson (GARREN,
1998), Distância Euclidiana (BERRY; LINOFF, 2000), Distância de Manhattan (BERRY;
LINOFF, 2000), Distância de Minkowski (BERRY; LINOFF, 2000) e Distância de Mahala-
nobis (BERRY; LINOFF, 2000). Foram utilizado um total de oito con�gurações para os
experimentos, como pode ser visto na Tabela 1.
37
Tabela 1: Descrição das con�gurações. Tabela retirada de (DANTAS; NUNES et al., 2017)
Conf Critério de avaliação Medida de Similaridade
Conf1
Correlação de Pearson
Euclidiana
Conf2 Manhattan
Conf3 Minkowski
Conf4 Mahalanobis
Conf5
Correlação de Spearman
Euclidiana
Conf6 Manhattan
Conf7 Minkowski
Conf8 Mahalanobis
A con�guração que obteve melhor desempenho foi quando se utilizou o Coe�ciente de
Correlação de Pearson como critério de avaliação e a Distância Euclidiana como medida
de similaridade. Após isso, a melhor con�guração foi comparada novamente com métodos
de seleção e extração de atributos já conhecidos e obteve um melhor desempenho do que
todos os outros métodos.
Outra avaliação da Seleção Dinâmica pode ser encontrada em (JESUS; CANUTO; ARAÚJO,
2017b, 2017a). Em (JESUS; CANUTO; ARAÚJO, 2017b), os autores propõem o uso de alguns
elementos da Teoria da Informação na Seleção Dinâmica de atributos, como Informações
Mútuas (GALLAGER, 1968). Este estudo tem como objetivo veri�car o impacto que a mu-
dança em importantes parâmetros (medida de similaridade e proporções de treinamento,
teste e validação de dados) podem trazer para o processo de classi�cação.
3.2 Seleção de atributos para comitês de classi�cadores
Na literatura encontramos diferentes trabalhos relacionados a seleção de atributos para
serem utilizados em comitês de classi�cação, como em (OPTZ, 1999; MORITA; OLIVEIRA;
SABOURIN, 2004; ONAN, 2016; SEIJO-PARDO et al., 2017; NAMSRAI et al., 2013; NOVAKOVIC,
2014; XU et al., 2014; LIU et al., 2012; BACAUSKIENE; VERIKAS, 2004; NETO; CANUTO,
2018).
Por exemplo, em (ONAN, 2016) os autores apresentam um artigo voltado para clas-
si�cação de páginas Web através da utilização de comitês de classi�cadores. Para isso,
um estudo experimental é realizado utilizando quatro diferentes algoritmos de seleção de
atributos, quatro métodos de aprendizado para comitês baseados na utilização de 4 clas-
38
si�cadores base. O objetivo dos autores é mostrar que a utilização de métodos de seleção
de atributos e combinação de classi�cadores melhora a capacidade preditiva de métodos
que realizam classi�cação de páginas Web.
Em (NAMSRAI et al., 2013) os autores propõem um método de construção de comitês
de classi�cadores para a classi�cação de arritmias. O primeiro passo consiste na seleção
de três diferentes subconjuntos de características. Em seguida, para cada subconjunto um
modelo é criado. Por �m, os modelos são combinados através do método de votação. O
método utiliza o CFS como método de seleção de atributos e os comitês são formados
pela combinação dos seguintes métodos: Árvore de decisão, Naive Bayes, SVM e Rede
Bayesiana.
Em (NOVAKOVIC, 2014), os autores tem por objetivo avaliar os impactos da utilização
do SVM como método seletor de atributos para serem utilizados em comitês de classi�-
cação. O SVM é utilizado para atribuir pesos a cada atributos, selecionando os melhores
para compor cada modelo que será criado. A combinação dos classi�cadores foi utilizada
em diferentes contextos de diagnóstico médico.
Em (XU et al., 2014) os autores criaram um novo método que utiliza o algoritmo de
seleção de atributos baseado na correlação (CFS) através da combinação da otimização por
nuvem de partículas e da informação mútua para selecionar os melhores subconjuntos de
atributos para a criação dos comitês. Os comitês criados utilizam o SVM como classi�cador
base e são utilizados no processo de classi�cação de problemas de reconhecimento de
câncer.
Todos esses trabalhos realizam uma seleção de maneira estática, selecionando os me-
lhores atributos para a base de dados e utilizando o comitê para realizar a classi�cação
de todas as instâncias com um mesmo conjunto de atributos. A dinamicidade encontrada
em comitês durante a classi�cação, normalmente é realizada com a seleção dos classi�ca-
dores que formarão o conjunto de classi�cadores que será utilizado para classi�car cada
instância individualmente, alguns trabalhos que realizam esse processo estão descritos na
próxima seção.
3.3 Dinamicidade em Comitês de Classi�cadores
A dinamicidade em comitês de classi�cadores pode ser alcançada de diferentes ma-
neiras, com a seleção de atributos ou de classi�cadores para serem utilizados pelo comitê.
Até onde sabemos, não existe nenhum método que promova a dinamicidade na seleção
39
de atributos para comitês de classi�cadores. Em termos de dinamicidade, existem alguns
trabalhos que selecionam classi�cadores de maneira dinâmica para classi�car uma deter-
minada instância.
Um comitê de classi�cação estático determina um único conjunto de classi�cadores
para todos os conjuntos de testes durante a fase de classi�cação. Por outro lado, um co-
mitê de classi�cação dinâmico seleciona um ou mais classi�cadores para cada instância de
teste individualmente, essa seleção é feita através da determinação de quais dos classi�-
cadores, que compões o conjunto inicial de classi�cadores, são considerados mais adequa-
dos/competentes para classi�car determinada instância. Assim, em um comitê dinâmico,
cada instância de teste é classi�cada por um subconjunto diferente de classi�cadores se-
lecionados.
A principal estratégia para se criar um comitê dinâmico é a Seleção Dinâmica de
Comitês (KO; SABOURIN; JR, 2008). Diversos trabalhos envolvendo a Seleção Dinâmica
de Comitês foram realizados nos últimos anos, alguns deles podem ser encontrados em
(KO; SABOURIN; JR, 2008; CAVALIN; SABOURIN; SUEN, 2013; CRUZ et al., 2015; OLIVEIRA;
CAVALCANTI; SABOURIN, 2017; CRUZ; SABOURIN; CAVALCANTI, 2017).
Por exemplo, em (KO; SABOURIN; JR, 2008) os autores apresentam quatro abordagens
para a realização da Seleção Dinâmica de Comitês, comparando os resultados obtidos
com a seleção estática. Os resultados apresentados neste trabalho mostram que o uso da
dinamicidade obteve melhores resultados quando comparado com os obtidos utilizado uma
seleção estática, onde o conjunto de classi�cadores era o mesmo para todos os padrões de
testes.
Em (CRUZ et al., 2015), os autores apresentam um framework para seleção dinâmica
de comitês, chamado META-DES. Os autores a�rmam que o uso de apenas um critério
não é su�ciente para corretamente determinar o nível de competência de um classi�cador.
A ideia principal deste framework consiste em selecionar cinco diferentes características
que serão utilizadas para treinar um meta classi�cador que será utilizado para prever se
um classi�cador é ou não competente para classi�car uma determinada instância de teste.
Todos os trabalhos citados nesta seção, conseguem obter dinamicidade para os comitês
através da seleção dos classi�cadores que serão utilizados para classi�car uma determinada
instância. Este trabalho também visa promover a dinamicidade nos comitês formados,
porém essa dinamicidade será alcançada com o processo de seleção de atributos, buscando
a criação de estruturas robustas obtidas através da utilização da Seleção Dinâmica de
atributos em comitês de classi�cação.
40
3.4 Considerações �nais
Neste Capítulo, foram apresentados alguns estudos sobre os temas relacionados com
esta Proposta. Inicialmente, alguns trabalhos que utilizam métodos que realizam a seleção
de atributos de maneira estática foram apresentados. Em seguida, um levantamento sobre
os trabalhos que propuseram e avaliaram a Seleção Dinâmica de atributos é realizado,
mostrando o funcionamento e os princípios básicos da Seleção Dinâmica.
Ainda neste Capítulo, alguns trabalhos que utilizam seleção de atributos para comi-
tês de classi�cadores são apresentados. Por �m, como não foram encontrados trabalhos
que promovam a dinamicidade em comitês através da seleção de atributos, estudos que
utilizam seleção de classi�cadores e/ou seleção de comitês são descritos.
41
4 Seleção Dinâmica de Atributos
para Comitês de Classi�cação
Neste capítulo serão apresentadas as versões desenvolvidas para o método proposto.
Será mostrada a arquitetura geral e o seu funcionamento, apresentando os principais pas-
sos que envolvem o processo de seleção de atributos e classi�cação de uma instância pelo
comitê. Foram desenvolvida três versões (SD-R, SD-P e SD-D), que serão apresentadas a
seguir.
4.1 SD-R: Seleção Dinâmica Baseada em uma Escolha
Randômica Simples
Para entender melhor essa versão proposta, suponha que seja B uma base de dados,
composta por A = {att1, att2, ..., attq} atributos e I instâncias, onde q é o número total deatributos que a base de dados B possui. As instâncias são divididas em 3 conjuntos, treina-
mento TR = {tr1, tr2, ..., trntr}, validação V = {v1, v2, ..., vnv} e teste T = {t1, t2, ..., tnt},onde ntr, nv e nt representam os conjuntos de treinamento, validação e teste, respectiva-
mente.
O método proposto pode ser descritos através dos seguintes passos:
1. Agrupar os dados: Para tal, um algoritmo de agrupamento Alg é aplicado ao con-
junto de validação V , que é responsável pela separação das instâncias em grupos. A
aplicação do algoritmo é representado pela Equação 4.1:
G = Alg(V ) (4.1)
Onde G = {g1, ..., gj} é a partição criada pelo algoritmo e j é o número de grupos
42
formados pela partição;
2. Selecionar os atributos mais importantes para cada grupo: Para tal, os seguintes
passos serão executados. No 1o passo, para cada grupo gj é aplicado uma função
F (gj) que de�ne um critério de avaliação, de�nindo a importância dos atributos
para este grupo.
(a) Como resultado desta função, um valor E é obtido, onde E = {e1, .., eq}, e q onúmero de atributos inicial da base de dados. O valor ei para cada atributo i de
A, usando como base as instâncias de gj, de�ne a importância deste atributo
para o grupo gj, baseado no critério utilizado por F .
(b) Baseado neste critério de avaliação, todos os atributos são ordenados, como
representado na equação pela Equação 4.2. Essa ordenação pode ser crescente
ou decrescente, dependendo da medida escolhida.
Rj = rank(F (gj)) (4.2)
(c) Uma vez ordenado, os N atributos mais bem posicionados no ranking são se-
lecionados para cada grupo gj. Os Ngj atributos selecionados para representar
gj formam o conjunto Aj, como mostra a Equação 4.3. Neste método, pode-se
utilizar um valor de Ngj para cada grupo. A quantidade de atributos seleci-
onados N é uma escolha de implementação, ou seja, qualquer taxa pode ser
utilizada.
Aj = select(Rj, Ngj) (4.3)
Onde,
Aj = {att1, att2, ..., attN}|Aj ⊂ A;
3. De�nir as proporções de atributos por grupo: Neste passo, a proporção de atributos
que será utilizada de cada grupo será de�nida.
(a) Quando se deseja classi�car uma instância de teste ti, a mesma é comparada
com a partição G para se de�nir a distancia de ti para os diferentes grupos de
G, utilizando uma medida de similaridade DIST.
DIST = disty(ti, py)|y = {1, .., j}. (4.4)
43
O principal objetivo de DIST é calcular a distância entre a instância de teste
ti e o centroide de cada grupo. Onde py é o protótipo do grupo y, que pode ser
o centroide ou qualquer vetor que melhor consiga representar o grupo y.
(b) Uma função PROB é aplicada para cada valor de DIST , visando transformar
a distância (similaridade) disty no formato de probabilidade a posteriori, Py,
como mostrado na Equação 4.5, que, desta forma, pode ser interpretado como
a probabilidade da instância ti pertencer ao grupo gy.
Py = PROB(ti, disty). (4.5)
(c) Essa função de probabilidade é baseada na distância entre ti e cada um dos
grupos formados. A probabilidade é inversamente proporcional a distância en-
contrada. Quanto mais distante, menor vai ser a probabilidade de pertinência.
Essa medida será utilizada para representar a proporção de atributos que serão
selecionados de cada grupo para compor o subconjunto de atributos gerais S
selecionados para a instância de teste.
S = select(Aj, Pj) (4.6)
Onde, j é o total de grupos formados.
4. Seleção dos atributos para a instância de testes: Para o processo de classi�cação
da instância de teste ti, suponha que seja C um comitê de classi�cação formado
por z classi�cadores, onde C = {c1, c2, ..., cz}. Para diversi�car o comitê é neces-
sário selecionar z diferentes subconjuntos de atributos, um para cada classi�cador,
para representar a instância e treinar os classi�cadores de maneira a gerar diversi-
dade entre eles. Portanto, serão necessários z subconjuntos de atributos, obtidos do
subconjunto global S para classi�car a instância de teste ti.
SS(ti, S) = {ss1, ss2, ..., ssz} (4.7)
(a) Visando de�nir o subconjunto de atributos para cada classi�cador,W atributos
são selecionados aleatoriamente a partir de S. W pode ser igual ou diferente
para cada membro do conjunto de classi�cadores.
ssk = select(ti, S,Wk)∀k = 1...z (4.8)
44
5. Classi�cação da instância utilizando os atributos selecionados: Após a de�nição dos
subconjuntos de atributos mais importantes para a instância de teste ti, z classi�ca-
dores ck são treinados, cada classi�cador com um subconjunto diferente de atributos
ssk. Então ti será classi�cada pelo comitê C.
6. A acurácia é obtida através da aplicação dos Passos 3 - 6 para todo conjunto de
testes T ao comitê de classi�cadores C.
Para melhor ilustrar, suponha que ti seja uma instância composta por 50 atributos
após a seleção dos N melhores atributos de cada grupo. Supondo que ti possua o conjunto
de proporções de�nido por P = {0.3, 0.6, 0.1}. Baseado em P , 30% serão selecionados do
grupo 1 (15 atributos), 60% serão selecionados do grupo 2 (30 atributos) e 10% serão
selecionados do grupo 3 (5 atributos). Formando assim, o conjunto geral de atributos S
para representar a instância ti.
Durante o processo de escolha dos atributos, pode ocorrer de serem selecionados o
mesmo atributo de diferentes grupos. Caso isso aconteça, o atributo será escolhido do
grupo onde o mesmo tiver o maior valor no ranqueamento R. Assim, não haverá repetição
dos atributos escolhidos. Por exemplo, se o atributo att2 for escolhido do grupo 1 e do
grupo 2, o valor do ranqueamento dele em ambos os grupos será observado. Se o seu
melhor valor for no grupo 1, ele entrará como um dos atributos escolhidos pela proporção
do grupo 1, enquanto um novo atributo será selecionado para o grupo 2.
4.1.1 Funcionamento
O Algoritmo 2 apresenta os principais passos da SD-R da abordagem proposta.
45
Algoritmo 2 Algoritmo demonstrando a versão SD-R1: procedure Seleção dinâmica de atributos
2: Entrada: B =(V, TR, T)
3: G← Alg(V )
4: para cada grupo gj faça
5: para cada instância vi em gj faça
6: para cada atributo ai em vi faça
7: E ← F (gj)
8: �m para
9: Rj = rank(E)
10: Aj = select(Rj, N)
11: �m para
12: �m para
13: para cada padrão de teste ti em T faça
14: para cada grupo gj faça
15: Calcular a distância de Ti para pj através de d
16: �m para
17: para cada grupo gj faça
18: Pj = P (Ti, dj)
19: �m para
20: para cada atributo a de Aj faça
21: Si = select(Aj, Pj)
22: �m para
23: para cada classi�cador k de C faça
24: SSk = select(ti, S,Wk)
25: �m para
26: Ci ← Train(TR, SSi)
27: acc← Test(Ci, Ti, SSi)
28: �m para
29: �m procedure
O método recebe como entrada uma base de dados dividida em três conjuntos: Trei-
namento, Teste e Validação (linha 2), com o conjunto de validação correspondente a 30%
dos padrões que formam a base de dados. Um algoritmo de agrupamento é aplicado no
conjunto de validação para separar as instâncias em grupos (linha 3), visando obter os
atributos mais importante para as instâncias de cada grupo formado.
46
Após a criação dos grupos, um critério de avaliação é aplicado sobre os atributos das
instâncias que formam cada grupo (linha 7). Desse critério será obtido um valor para cada
atributo, valor esse que representa o grau de importância que o mesmo possui durante a
classi�cação daquelas instâncias. Esses atributos são ordenados a partir desse grau e os N
melhores são selecionados para compor o subconjunto de atributos mais relevantes para
aquele grupo (linhas 9 - 10).
Após a de�nição dos atributos mais importantes para cada grupo, dá-se início o pro-
cesso de classi�cação das instâncias do conjunto de testes. Quando se deseja classi�car
uma instância, o primeiro passo é calcular a distância entre a mesma e os centros dos
grupos formados (linha 15). O valor dessas distâncias são transformados em probabili-
dades (linha 17 - 19), que representa a probabilidade da instância de testes pertencer a
cada grupo. Esse valor é inversamente proporcional à distância, ou seja, quanto menor a
distância maior será o valor da probabilidade encontrada para aquele grupo.
O valor dessa probabilidade servirá para de�nir a quantidade de atributos que será
utilizado de cada grupo para compor o subconjunto de melhores atributos para a instância
de teste. Assim, cada instância possuirá um conjunto de atributos selecionados diferente
das demais, obedecendo as proporções estabelecidas pelo cálculo da probabilidade (linha
20 - 22).
O próximo passo é treinar os classi�cadores que serão utilizados para a formação do
comitê. Para cada classi�cador é necessário de�nir um subconjunto diferente de atributos
que serão utilizados, visando diversi�car o sistema de classi�cação. Cada classi�cador
será treinado com um conjunto de atributos diferente, selecionados aleatoriamente do
subconjunto S, conjunto de atributos mais relevantes para a instância da vez (linha 23 -
25). A quantidade de atributos selecionados W é uma escolha de implementação, ou seja,
qualquer taxa pode ser utilizada. Essa taxa de seleção é aplicada sobre o valor de N e não
sobre a quantidade total de atributos da base de dados inicial.
Cada classi�cador será treinado utilizando apenas os atributos selecionados (linha
26) e, após o treinamento de todos os classi�cadores, a instância de teste é submetida ao
sistema de classi�cação (linha 27). A saída dos classi�cadores são combinadas e a acurácia
é obtida quando todas as instâncias do conjunto de teste são classi�cadas pelo comitê.
47
4.2 SD-P: Seleção Dinâmica Baseada em uma Escolha
Randômica Baseada em Proporções
A SD-P tem o funcionamento bastante similar a SD-R. Sua única diferença está na
maneira como os atributos são selecionados para serem utilizados no processo de treina-
mento de cada classi�cador. Na SD-P o subconjunto S de atributos mais importantes para
a instância de teste é obtido da mesma maneira que na SD-R, através da utilização das
proporções estabelecidas pelo cálculo da probabilidade da mesma pertencer aos grupos
formados.
Na SD-R, após a criação do conjunto S, os W atributos são selecionados para serem
utilizados em cada classi�cador do comitê, sem levar em consideração qual grupo teve
maior participação na seleção dos atributos, ou seja, pode acontecer de selecionar apenas
atributos oriundos do grupo menos similar, ou selecionar todos atributos do grupo mais
próximo, entre outras situações que podem ocorrer, tendo em vista que a seleção é livre
para ser realizada de qualquer forma, como mostra a equação abaixo.
ssk = select(ti, S,Wk)∀k = 1...z (4.9)
A SD-P, trabalha de maneira semelhante, selecionando os W atributos para compor
o conjunto de características que serão utilizados em cada classi�cador. A principal di-
ferença está na maneira que a seleção é realizada. A SD-P mantém para esses conjuntos
de atributos a mesma proporção encontrada em P . Assim, o subconjunto de atributos
de cada classi�cador continuará sendo diferente, mas respeitam a proporção estabelecida
pela distância entre a instância de teste e os grupos formados. Assim, a equação do Passo
4 seria alterada para a equação abaixo:
ssk = select(ti, S,Wk, P )∀k = 1...z (4.10)
O principal objetivo desta alteração é evitar que um grupo seja mais bene�ciado que
outro apenas por questão do tipo de seleção realizada. A manutenção das proporções
possibilita que os atributos sejam selecionados de maneira a garantir que quanto maior a
similaridade entre a instância e o grupo, maior será a quantidade de atributos deste grupo
utilizada na classi�cação da instância. Assim, será garantido que os grupos mais similares
tenham uma maior in�uência na seleção dos atributos mais representativos, para todos
os membros do comitê de classi�cadores. Assim, cada classi�cador será treinado usando
48
um subconjunto diferente, uma vez que os atributos são selecionados aleatoriamente, mas
mantendo as mesmas proporções estabelecidas nos passos anteriores.
4.3 SD-D: Seleção Baseada em uma Escolha Determi-
nística
A versão SD-D funciona de maneira distinta das demais versões da abordagem pro-
posta. Diferente das demais versões, a SD-D não utiliza a noção de probabilidade de�nida
pelas demais versões. Seu funcionamento inicial é o mesmo das versões anteriores (Passo 1
e 2), onde um algoritmo de agrupamento é aplicado a um conjunto de validação para for-
mar grupos de instâncias. Após a formação dos grupos, o critério de avaliação é aplicado
e os N melhores atributos para cada grupo são selecionados.
Quando se deseja testar uma instância de testes, a função de distância DIST é uti-
lizada para calcular a similaridade entre o padrão de teste e os grupos formados. Porém,
nessa versão não é de�nido a ideia de probabilidade. Os atributos serão selecionados utili-
zando apenas os grupos mais similares, enquanto as demais versões utilizam atributos de
todos os grupos de acordo com as proporções estabelecidas. O objetivo dessa alteração é
utilizar apenas os atributos dos grupos mais próximos a instância, evitando utilizar atri-
butos de grupos pouco similares a ti. Qualquer quantidade de grupos pode ser escolhida.
1. Após de�nir as distâncias entre a instância de testes ti e todos os grupos da partição
G. Os grupos mais similares são separados, para serem utilizados no processo de
classi�cação.
Gsel = select(G,min(ti, disty))|y = {1, ..., j} (4.11)
Onde, Gsel é uma partição formada pelos grupos mais próximos a instância ti e j é
o número de grupos total da partição G.
2. Assim como nas versões anteriores, para o processo de classi�cação da instância
de teste ti, teremos um comitê de classi�cação C formado por z classi�cadores.
Portanto, como nas demais versões, são necessários um total de z subconjuntos de
atributos SS, um para cada classi�cador, para representar a instância ti.
3. Para de�nir o conjunto SS de cada classi�cador, é preciso determinar a porcentagem
de atributos L que serão utilizados para cada classi�cador de cada grupo de Gsel.
ssk = select(Gsel,W, L)∀k = 1...z (4.12)
49
4. Após a seleção dos atributos, a instância de teste ti é classi�cada e os resultados são
combinados para obter o seu atributo classe.
4.3.1 Funcionamento
O Algoritmo 3 apresenta os principais passos que distinguem a SD-D das demais
versões. Da linhas 1 a 12 do Algoritmo 2, as versões possuem o mesmo funcionamento, onde
os atributos mais correlacionados para cada grupo são selecionados. A grande variação
ocorre no momento que a instância será testada. Os principais passos estão presentes no
algoritmo abaixo.
Algoritmo 3 Algoritmo demonstrando a versão SD-D1: para cada padrão de teste ti em T faça
2: para cada grupo gj faça
3: Calcular a distância de Ti para pj através de d
4: �m para
5: para cada distância dj faça
6: d = menores_dists(dj)
7: �m para
8: Gsel = select(G, d);
9: para cada classi�cador c de C faça
10: De�nir a porcentagem L de seleção
11: �m para
12: para cada k classi�cador c de C faça
13: SSk = rand(Gsel,Wk, L)
14: �m para
15: Ci ← Train(TR, SSi)
16: acc← Test(Ci, Ti, SSi)
17: �m para
Após calcular a distância entre a instância de teste e os grupos formados, as menores
distâncias são guardadas (Linhas 5 - 7) e os grupos correspondentes a esses valores são
selecionados (Linha 8). Os atributos utilizados para classi�car a instância de teste serão
selecionados apenas desses grupos.
O próximo passo é decidir a porcentagem de atributos que serão utilizados de cada
um dos grupos para cada classi�cador que compõe o comitê (Linhas 8 - 11).
50
Os atributos são escolhidos de cada grupo de acordo com a porcentagem escolhida
(Linhas 12 - 14). A porcentagem varia para cada classi�cador, fazendo com que diferentes
quantidades de atributos mais e menos bem posicionados no ranking sejam utilizados,
buscando assim, uma maior diversi�cação do comitê.
Após a seleção dos atributos mais importantes, cada classi�cador é treinado com
os atributos correspondentes e a instância é classi�cada pelo conjunto de classi�cadores
(Linha 15). Por �m, assim como nas demais, a acurácia é estabelecida após todas as
instâncias de teste obterem a sua classi�cação pelo comitê de classi�cadores formado
(Linhas 16).
4.4 Considerações �nais
Neste Capítulo, as versões desenvolvidas da abordagem proposta foram apresentadas.
Para cada versão, foi apresentado os principais passos e as principais diferenças entre as
mesmas. Foram desenvolvidas um total de três versões, que realizam a seleção dinâmica
de atributos para comitês de classi�cadores, promovendo a dinamicidade nos comitês
formados e diversi�cando-os através da seleção de diferentes subconjuntos de atributos
para cada classi�cador.
51
5 Metodologia
Neste capítulo será apresentado a metodologia utilizada para realizar os experimentos
deste trabalho. Será apresentado os principais parâmetros utilizados no método proposto,
as bases de dados utilizadas e as con�gurações escolhidas para a execução do experimento.
5.1 Análise empírica
Visando analisar a viabilidade da utilização da Seleção Dinâmica em Comitês de clas-
si�cadores uma análise empírica foi realizada. A Figura 5 ilustra a estrutura metodológica
utilizada para a realização dessa análise. Um dos principais pontos de escolha é o algo-
ritmo de agrupamento que será utilizado. Em (NUNES et al., 2016) diferentes algoritmos
de agrupamento foi utilizado, porém, o que obteve o melhor desempenho foi o k -Médias.
Sendo assim, o mesmo foi o algoritmo de agrupamento escolhido para ser utilizado durante
os experimentos.
52
Figura 5: Metodologia do experimento
Dois importantes parâmetros são o critério de avaliação e a medida de similaridade.
O critério de avaliação tem por objetivo determinar os principais atributos de cada grupo
formado pelo algoritmo de agrupamento. Já a medida de similaridade serve para de�nir
a probabilidade da instância de teste aos grupos formados. Qualquer medida pode ser
utilizada, porém, em (DANTAS; NUNES et al., 2017) foi demonstrado que as que mais eram
adequadas para a seleção dinâmica foram respectivamente, o coe�ciente de correlação de
Pearson e a Distância Euclidiana.
Cada base de dados será executada por todas as três versões propostas em um Comitê
com 5, 10, 15 e 25 classi�cadores. Em cada um dos métodos desenvolvidos, existem duas
taxas de seleção,N eW (como mostrado na seção anterior), que são utilizadas para reduzir
a dimensionalidade dos dados. Nesse experimento os resultados serão comparados entre si
53
em três diferentes proporções de seleção de atributos para casa uma das taxas. Os valores
utilizados para N serão de 30%, 50% e 70%, enquanto os valores utilizados para W serão
de 25%, 50% e 75%. Essa comparação visa analisar o comportamento das versões com
diferentes quantidades de atributos removidos e encontrar a melhor con�guração entre as
versões desenvolvidas.
Todos os comitês foram formados de maneira homogênea, apenas com o uso de k-
NNs e usando o voto majoritário como método de combinação. A escolha do k-NN como
classi�cador base se deu pelo motivo de o mesmo não possuir uma etapa de treinamento
explícito, isto é, não construir um modelo para classi�cação da instância.
Para cada versão desenvolvida, um total de 36 con�gurações de parâmetros foram
utilizadas na execução do experimento, como pode ser visto na Tabela 2, onde C é o
número de classi�cadores base utilizados na construção do comitê.
Tabela 2: Con�gurações executadas nos experimentos para cada versãoN W C N W C N W C
0,3 0,25 5 0,5 0,25 5 0,7 0,25 5
0,3 0,5 5 0,5 0,5 5 0,7 0,5 5
0,3 0,75 5 0,5 0,75 5 0,7 0,75 5
0,3 0,25 10 0,5 0,25 10 0,7 0,25 10
0,3 0,5 10 0,5 0,5 10 0,7 0,5 10
0,3 0,75 10 0,5 0,75 10 0,7 0,75 10
0,3 0,25 15 0,5 0,25 15 0,7 0,25 15
0,3 0,5 15 0,5 0,5 15 0,7 0,5 15
0,3 0,75 15 0,5 0,75 15 0,7 0,75 15
0,3 0,25 25 0,5 0,25 25 0,7 0,25 25
0,3 0,5 25 0,5 0,5 25 0,7 0,5 25
0,3 0,75 25 0,5 0,75 25 0,7 0,75 25
Para determinar os melhores parâmetros, a análise empírica será dividida em passos.
O primeiro passo é descobrir o melhor valor de W . Para isso, a média de todos os valores
de acurácia obtidos para cada valor de N e C são calculados, com isso, o objetivo deste
primeiro passo é estabelecer o valor de W que será utilizado no restante do experimento.
O próximo passo é determinar o melhor valor de N , para isso, apenas o melhor valor
de W , descoberto na etapa anterior, será utilizado. Os resultados dos valores obtidos para
cada valor de N são comparados entre sim, utilizando a média das acurácias obtidas de
54
todos os tamanhos C.
Com os valores de W e N estabelecidos, os resultados são novamente comparados
para determinar o melhor parâmetro para C. Assim, após a determinação dos melhores
valores para cada um dos parâmetros mostrados na Tabela 2, as versões desenvolvidas
serão comparadas e analisadas entre si.
O objetivo desse experimento é encontrar a melhor con�guração de parâmetros e com
eles, descobrir a versão que obteve o melhor desempenho. A melhor versão encontrada,
em termos de acurácia será utilizada em uma nova análise, comparando o seus resultados
com outros métodos presentes na literatura.
Para isso, foram escolhidos os seguintes métodos: DFS (Dynamic Feature Selection)
para um classi�cador único, Random Forest (BREIMAN, 2001) e Knora-Union (KO; SA-
BOURIN; JR, 2008). Além disso, também foi realizada a comparação com o NoFS (comitê
estático sem a utilização da seleção de atributos).
5.2 Bases de dados utilizadas
Os experimentos deste trabalho foram realizados com 20 bases de dados para serem
utilizadas no método proposto. Todas as bases de dados foram obtidas no repositório
UCI (ASUNCION; NEWMAN, 2007), com diferentes características e contendo diferentes
números de atributos e instâncias. Um pré processamento foi aplicado a todas as bases,
visando obter apenas valores reais normalizados entre [0,1] e remover atributos com valores
faltosos. A seguir, uma breve descrição de cada uma das bases será apresentada.
• ADS: Essa base de dados é composta por 1559 atributos e 2379 instâncias, possuindo
um atributo classe que varia entre dois possíveis valores. O objetivo deste conjunto
de dados é identi�car possíveis anúncios em páginas Web, classi�cando as imagens
encontradas de maneira a determinar se a mesma é ou não um anúncio publicitário.
• Breast Cancer Wiscosin (Prognostic): Essa base de dados tem como objetivo a
utilização no diagnóstico do câncer de mama. Cada instância representa dados de
acompanhamento de pacientes com câncer de mama. É incluído apenas os casos
que apresentam câncer de mama invasivo e sem evidência de metástases. A base é
composta por 34 atributos, 2 valores possíveis de atributo classe e um total de 198
registros.
55
• Ecoli: Essa base de dados possui um total de 8 atributos e 336 instâncias, com um
total de 8 atributos classes. Sua �nalidade é prever a localização de determinadas
proteínas em células.
• Gaussian: A base de dados Gaussian possui um total de 600 atributos numéricos, 60
instâncias e 3 classes. O principal ponto a se falar dessa classe, é que a quantidade
de instâncias é igualmente dividida de acordo com o número de classes. Ou seja,
existem 20 padrões para cada classe {0, 1, 2}.
• German Credit: Essa base de dados é composta por dados de pessoas e tem por
objetivo identi�car se as pessoas descritas por cada instância possuem risco de serem
bons ou ruins para receber determinado crédito. A base é composta por 20 atributos
e 1000 instâncias, com um total de 2 atributos classes (good, bad).
• Glass Identi�cation: Esse conjunto de dados é composto por 10 atributos e 214
instâncias. O objetivo do estudo é identi�car o tipo de vidro encontrado. Esse estudo
foi motivado pela investigação criminal, pois os vidros encontrados em uma cena de
crime, se bem identi�cados, podem ser usados como evidência.
• Heart: Essa base possui um total de 13 atributos e 270 instâncias. O objetivo da
base de dados é identi�car a presença de doenças no coração de pacientes através
de algumas características, como: sexo, taxa de açúcar no sangue, colesterol, nível
de dor no peito, etc.
• Hill-Valley: Nesse conjunto de dados, cada padrão representa 100 pontos em um
grá�co bidimensional, que quando plotado, em ordem (de 1 a 100) como a coorde-
nada Y, os pontos irão criar tanto uma colina (Hill) ou um vale(Valley). A base
apresenta um total de 101 atributos, 606 instâncias e 2 classes, representando se os
pontos do grá�co formam um vale ou uma colina.
• Ionosphere: Essa base de dados tem por objetivo descrever sinais omitidos por de-
terminados objetos. Os sinais são classi�cados em fracos e fortes. Um sinal é consi-
derado fraco quando o mesmo passa direto pela ionosfera, enquanto um sinal bom
é re�etido de volta a um objeto qualquer. Cada instância representa medições rece-
bidas por um sistema de radar composto por antenas de alta frequência. A base é
comporta por 34 atributos e 351 instâncias.
• Jude: Essa base de dados possui um total de 248 instâncias e 985 atributos. Os dados
da base foram gerados a partir de dados de células de leucemia. Cada instância
56
descreve uma amostra de células de leucemia e cada atributo descrevem o nível de
expressão de cada gene para as amostras das células.
• Lung Cancer: Essa base é composta por 56 atributos e 32 instâncias. A base tem
por objetivo ajudar no diagnóstico do câncer de mama. A base foi gerada a partir
de imagens em que os atributos são responsáveis por descrever os núcleos celulares
encontrados na imagem.
• Liver Disorder: Essa base de dados é composta por 7 atributos e 245 instâncias.
O objetivo do conjunto de dados é ajudar a identi�car problemas no fígado. Os
atributos representam exames de sangue sensíveis a distúrbios hepáticos que possam
surgir com o consumo excessivo de álcool.
• Micromass: Essa base é composta por 1300 atributos numéricos e 931 instâncias. Seu
objetivo é explorar abordagens de aprendizagem de máquina para a identi�cação de
microorganismos a partir de dados de espectrometria de massa.
• Parkinsons: A base de dados Parkinsons é formada por uma variedade de medições
biomédicas de vozes, algumas delas de indivíduos com a doenção de Parkinson. O
objetivo é a separação de indivíduos com essa doença de indivíduos saudáveis. A
base é composta por 23 atributos, onde cada um representa uma voz um indivíduo
e 195 instâncias que corresponde as gravações de vozes.
• Pima Indians Diabetes: Esse conjunto de dados é composto por 8 atributos, sendo
2 atributos classe, e um total de 768 instâncias. O objetivo desta base de dados é
investigar se o paciente apresenta sinais de diabetes de acordo com os critérios da
Organização Mundial de Saúde.
• Semeion Handwritten Digit: Esta base é formada com 1593 instâncias e 256 atri-
butos. Cada instância representa dígitos escritos à mão que foram digitalizados de
cerca de 80 pessoas. Estes dígitos foram estendidos em escala cinza de 256 valores.
• Simulated: Essa base possui um total de 600 atributos, sendo 6 atributos classe, e
60 instâncias. A Simulated é um banco de dados que simula dados de microarranjos,
criada para testar os algoritmos de aprendizado de maquina na análise da expressão
do gene.
• Sonar: A base de dados é formada por padrões obtidos por um sonar em um cilindro
de metal em vários ângulos e sob várias condições. O objetivo é classi�car os sinais
57
obtidos do sonar para determinar se o registro é uma rocha ou uma mina (cilindro
de metal). A base contém 60 atributos e 208 instâncias.
• Wine Quality: Essa base de dados é composta por 12 atributos e 4898 instâncias.
Cada instância representa um tipo de vinho branco ou tinto, e o principal objetivo
da base de dados é classi�car o vinho de acordo com a sua qualidade, em um valor
que varia de 0 a 10.
• Vehicle Silhouettes: Essa base de dados é composta por 18 atributos, sendo 4 valores
de atributo classes, e 946 instâncias. O objetivo é classi�car uma dada silhueta
em um dos 4 tipos de veículo, usando um conjunto de características extraídos da
silhueta.
A Tabela 3 apresenta a quantidade de instâncias, atributos e classes que cada base
de dados utiliza possui. A primeira coluna da Tabela 3 apresenta um identi�cador que
será utilizado para referenciar cada uma das bases durante a apresentação dos resultados
obtidos com a realização dos experimentos.
58
Tabela 3: Bases de Dados Usadas nos Experimentos
ID Base de dadosQtd. de
Instâncias
Qtd. de
Atributos
Qtd. de
Classes
b1 Ionosphere 351 34 2
b2 Breast Cancer(Prognostic) 198 34 2
b3 Micromass 931 1301 2
b4 Gaussian 60 600 3
b5 Hill-Valley 606 101 2
b6 Jude 248 985 6
b7 Lung Cancer 32 56 3
b8 Simulated 60 600 6
b9 ADS 3279 1559 2
b10 Parkinsons 195 23 2
b11 Semeion Handwritten Digit 1593 256 2
b12 Ecoli 336 8 2
b13 Glass Identi�cation 214 10 6
b14 Wine Quality 4898 12 3
b15 Vehicle Silhouettes 946 18 4
b16 Pima Indians Diabetes 768 8 2
b17 Liver Disorder 245 7 2
b18 Sonar 208 60 2
b19 Heart 270 13 2
b20 German Credit 1000 20 2
5.3 Métodos e materias
Para todas as versões desenvolvidas, a seleção utilizada foi a Seleção Randômica. Nas
versões SD-R e SD-P, o conjunto de atributos geral S é formado baseado em proporções
estabelecidas pela distância entre a instância de teste e os grupos formados. Essa seleção
foi utilizada para formar os subconjuntos de atributos especí�cos para cada classi�cador
do comitê, selecionando de maneira aleatória os atributos de S, sem levar em consideração
as proporções (SD-R) ou mantendo as proporções de�nidas anteriormente (SD-P).
Para a SD-D foi escolhido sempre dois grupos para formar o conjunto de atributos
59
de cada classi�cador. Para determinar L, divide-se a porcentagem de 100% pela quan-
tidade de classi�cadores, de maneira a obter z porcentagens com diferença de L% entre
elas. Assim, L deve ser um valor no intervalo [0,100], e os atributos foram selecionados,
aleatoriamente, dos L% mais correlacionados do primeiro grupo e dos L% menos corre-
lacionados do segundo grupo. Na seção de resultados, faremos uma pequena alteração na
SD-D para melhor explorar o métodos, criando assim uma nova versão, a SD-D'.
Por exemplo, para um comitê de 5 classi�cadores o valor de L foi de�nido por L =
[90, 70, 50, 30, 10]. Assim, para o primeiro classi�cador foram selecionados aleatoriamente
dos 90% mais correlacionados do grupo mais próximo e 10% dos menos correlacionados
do segundo grupo, e assim por diante.
Todas os algoritmos utilizados nesse trabalho foram desenvolvidos no MATLAB. Para
a execução da análise empírica é necessário de�nir os parâmetros dos métodos utilizados.
Para a utilização do k -Means é necessário de�nir o valor de k, ou seja, do número
de grupos que serão formados. O valor de k escolhido para cada base é a quantidade de
valores possíveis que o atributo classe pode possuir. Por exemplo, a base Ionosphere possui
2 valores possíveis para o atributo classe, assim o valor de k para ela é 2. Já a base Glass
Identi�cation, por exemplo, possui um total de 6 atributos classe, assim, a quantidade de
grupos formados, valor de k, para essa base foi 6.
Para cada con�guração foram realizadas um total de 10 execuções. Assim, com o
intuito de obter uma melhor precisão foi utilizado o método de validação cruzada 10-
fold-cross-validation, totalizando assim, 100 valores de precisão para cada con�guração
testada.
Durante as análises realizadas, o desempenho foi medido levando em consideração a
média da acurácia e a média do ranqueamento dos resultados obtidos pelas execuções.
Esse ranqueamento é baseado na acurácia e funciona da seguinte maneira: o melhor valor
(maior acurácia) recebe o valor 1, o segundo melhor valor recebe o valor 2, e assim por
diante. O n-ésimo valor (onde n é o número de métodos comparados) recebe o valor n.
Esses valores são colocados para cada uma das 100 observações e o resultado �nal é obtido
pela média dos valores do ranqueamento. Assim, os resultados relativos a performance de
cada método aparecerá em cada tabela da seguinte maneira: média da acurácia (média
do ranqueamento).
Na análise dos resultado obtidos, será aplicado o teste de Friedman e o teste post-hoc
Nemenyi (DEM�AR, 2006). Esses testes consistem em testes não paramétricos que são
60
adequados para comparar a performance de diferentes métodos de aprendizado. Baseado
na informação obtida, juntamente com o número de amostras, a signi�cância da diferença
entre os diferentes conjuntos de amostras é de�nida, baseada em um nível de con�ança
(α). O nível de con�ança adotado neste trabalho é 95% (α = 0.05).
61
6 Resultados
Este capítulo apresenta e discute os resultados dos experimentos obtidos pelo método
proposto nas três versões desenvolvidas. As próximas seções apresentam os resultados da
análise de desempenho em que as con�gurações testadas são comparadas baseadas na
média das acurácias obtidas em cada execução.
6.1 Considerações iniciais
As análises presentes neste capítulo tem o objetivo de descobrir a melhor con�guração
e a melhor versão dentre as desenvolvidas para o método proposto. Para isso, diversas
comparações foram realizadas com diferentes valores (como apresentado no Capítulo 5)
para determinar qual dentre as versões desenvolvidas da abordagem proposta obteve me-
lhor desempenho durante o processo de classi�cação.
Em seguida, a melhor versão encontrada, utilizando os valores dos parâmetros que
obtiveram melhores resultados, será comparada com outros métodos já existentes na lite-
ratura. O objetivo desta comparação é analisar o impacto da seleção dinâmica de atributos
na criação de comitês.
Para cada base de dados, é mostrado nas tabelas duas informações, a média das
acurácias de cada execução e a média do ranqueamento, destacando os melhores resulta-
dos encontrados. Durante a análise estatísticas os resultados que aparecem em destaque
são aqueles que obtiveram um valor signi�cante (< 0, 05) quando comparado todos os
métodos, permitindo assim, uma comparação par-a-par entre eles.
No momento em que uma comparação entre dois métodos será realizada, X vs Y , o
símbolo "= "é utilizado para representar que não existe signi�cância estatística entre eles.
QuandoX for melhor do que Y será utilizado o símbolo "<", caso contrário, ">"aparecerá
para representar esse cenário.
62
6.2 Comparação entre os valores de W
Nesta seção, a média todos os resultados é comparada separando pelos diferentes
valores de W . Esse parâmetro é responsável por selecionar o subconjunto de atributos
especí�cos SSk para cada classi�cador k. Os valores utilizados para essa taxa de seleção
de atributos foram respectivamente: 25%, 50% e 75%.
A Tabela 4 apresenta os resultados da comparação entre os três valores de W para a
versão SD-R. Nela, podemos observar que os melhores resultados foram obtidos quando
se utilizou uma taxa de seleção W de 50%, obtendo a melhor acurácia em 15 das 20
comparações realizadas.
Tabela 4: Comparação entre os valores de W para a SD-RSD-R 0,25 0,5 0,75
b1 91,1 (1,895) 90,51 (2,100) 90,97 (2,005)
b2 73,05 (1,990) 72,94 (2,130) 73,06 (1,880)
b3 91,99 (2,350) 93,47 (1,785) 93,08 (1,865)
b4 100 (2,000) 100 (2,000) 100 (2,000)
b5 99,84 (2,070) 99,98 (1,950) 99,97 (1,980)
b6 99,64 (1,980) 99,58 (1,995) 99,51 (2,025)
b7 55,94 (2,045) 56,63 (1,855) 55,5 (2,100)
b8 98,39 (2,035) 99,6 (1,990) 99,64 (1,975)
b9 91,93 (2,060) 92,42 (1,940) 92,07 (2,000)
b10 88,65 (2,390) 92,09 (1,645) 90,09 (1,965)
b11 94,56 (2,560) 96,9 (1,700) 96,2 (1,740)
b12 94,24 (2,145) 95,91 (1,850) 95,88 (2,005)
b13 67,2 (2,375) 76,33 (1,525) 67,84 (2,100)
b14 97,79 (2,155) 99,97 (1,930) 99,98 (1,915)
b15 83,36 (2,690) 89,12 (1,445) 87,17 (1,865)
b16 62,58 (2,635) 67,11 (1,465) 65,44 (1,900)
b17 54,87 (2,075) 58,29 (1,785) 53,8 (2,140)
b18 77,29 (2,200) 80,72 (1,775) 79,15 (2,025)
b19 60,25 (2,100) 62,24 (1,560) 57,66 (2,340)
b20 68,14 (2,130) 69,13 (1,995) 69,25 (1,875)
Res 3 15 4
63
A Tabela 5 apresenta os resultados estatístico da comparação entre as três taxas, uti-
lizando a SD-R. É mostrado também uma comparação par-a-par nas bases que obtiveram
resultados com signi�cância estatística.
Tabela 5: Resultado estatístico da comparação entre os valores de W para a SD-RSD-R Fried 0,25/0,5 0,25/0,75 0,5/0,75
b1 0,048 < = >
b2 0,135 - - -
b3 0,019 > > <
b4 1 - - -
b5 0,841 - - -
b6 0,053 - - -
b7 0,044 > = <
b8 0,072 - - -
b9 0,088 - - -
b10 < 0,001 > > <
b11 0,078 - - -
b12 0,22 - - -
b13 < 0,001 > = <
b14 0,992 - - -
b15 < 0,001 > > <
b16 0,002 > > <
b17 < 0,001 > < <
b18 0,033 > = <
b19 0,018 > < <
b20 0,055 - - -
Res 10 1 x 9 2 x 4 9 x 1
Pelos resultados estatísticos, �ca evidente que os melhores resultados foram encontra-
dos quando a taxa de 50% foi utilizada na seleção dos atributos. Para essa versão, tivemos
um total de 10 bases com diferença estatística. Na comparação par-a-par, a taxa de 50%
obteve 9 melhores resultados contra as outras taxas.
A Tabela 6 apresenta os resultados da mesma comparação, porém para a versão SD-P.
Assim como na verão anterior, os melhores resultados foram obtidos com a taxa de seleção
de 50%, obtendo novamente os melhores valores de acurácia em 15 bases.
64
Tabela 6: Comparação entre os valores de W para a SD-PSD-P 0,25 0,5 0,75
b1 90,72 (2,045) 90,78 (1,980) 90,98 (1,975)
b2 73,42 (1,950) 73,35 (2,050) 73,22 (2,000)
b3 91,95 (2,080) 93,23 (1,910) 93,01 (2,010)
b4 100 (2,000) 100 (2,000) 100 (2,000)
b5 99,88 (2,015) 99,97 (1,985) 99,96 (2,000)
b6 99,53 (2,030) 99,83 (1,970) 99,66 (2,000)
b7 59,13 (2,105) 60,17 (1,860) 59,54 (2,035)
b8 98,94 (2,040) 99,06 (1,995) 99,54 (1,965)
b9 92,36 (1,910) 92,15 (2,070) 92,16 (2,020)
b10 90 (2,120) 91,84 (1,900) 91,21 (1,980)
b11 94,53 (2,040) 96,59 (1,965) 96,37 (1,995)
b12 95,97 (2,105) 96,06 (1,945) 95,59 (1,950)
b13 68,86 (2,140) 72,87 (1,810) 68,99 (2,050)
b14 98,29 (2,150) 99,86 (1,920) 99,84 (1,930)
b15 83,52 (2,890) 87,89 (1,530) 87,37 (1,580)
b16 63,51 (2,075) 65,79 (1,930) 65,3 (1,995)
b17 54,3 (2,070) 55,88 (1,945) 55,18 (1,985)
b18 78,33 (2,125) 80,28 (1,975) 80,32 (1,900)
b19 58,92 (2,025) 60,04 (1,945) 58,99 (2,030)
b20 68,7 (2,190) 69,02 (1,745) 68,78 (2,065)
Res 3 15 4
A Tabela 7 apresenta os resultados estatístico obtidos para os dados da mostrados
anteriormente.
65
Tabela 7: Resultado estatístico da comparação entre os valores de W para a SD-PSD-P Fried 0,25/0,5 0,25/0,75 0,5/0,75
b1 0,151 - - -
b2 0,328 - - -
b3 0,013 > > =
b4 1 - - -
b5 0,284 - - -
b6 0,039 > = <
b7 0,005 > = <
b8 0,043 = > >
b9 0,712 - - -
b10 0,222 - - -
b11 0,038 > = =
b12 < 0,001 > = <
b13 <0,001 > = <
b14 0,84 - - -
b15 0,004 > > <
b16 0,048 > > =
b17 0,492 - - -
b18 0,052 - - -
b19 0,002 > = <
b20 0,12 - - -
Res 10 0 x 9 0 x 4 6 x 1
Assim como a SD-R, na SD-P a taxa vencedora da comparação foi 50%. Nela, 10
bases obtiveram diferença estatística, onde a taxa de 50% venceu a de 25% em 9 bases,
perdendo em nenhuma, e venceu a de 75% em 6 de 7 bases.
Por �m, a Tabela 8 apresenta os resultados desta análise para a versão SD-D. Assim
como nas demais, a taxa de 50% foi a vencedora (12 melhores resultados).
66
Tabela 8: Comparação entre os valores de W para a SD-DSD-D 0,25 0,5 0,75
b1 93,01 (1,710) 90,88 (2,235) 91,69 (2,055)
b2 74,26 (1,975) 73,94 (2,070) 74,47 (1,955)
b3 96,13 (1,815) 93,22 (2,225) 94,04 (1,960)
b4 100 (2,000) 100 (2,000) 100 (2,000)
b5 99,97 (2,060) 99,99 (1,970) 99,99 (1,970)
b6 100 (2,000) 100 (2,000) 100 (2,000)
b7 60,25 (2,040) 63,63 (1,955) 61,29 (2,005)
b8 99,65 (2,015) 99,79 (2,000) 99,85 (1,985)
b9 93,56 (2,267) 93,4 (2,139) 94,2 (1,594)
b10 89,3 (2,124) 91,04 (1,911) 90,16 (1,965)
b11 96,28 (2,129) 96,57 (2,079) 96,59 (1,792)
b12 92,6 (2,257) 95,03 (1,756) 94,24 (1,986)
b13 74,17 (2,173) 79,23 (1,812) 77,98 (2,015)
b14 98,46 (2,074) 99,78 (1,896) 99,68 (2,030)
b15 90,9 (2,624) 95,17 (1,594) 94,8 (1,782)
b16 65,95 (2,188) 67,49 (1,990) 67,87 (1,822)
b17 57,26 (2,243) 60,98 (1,812) 59,11 (1,946)
b18 82,79 (2,030) 82,54 (2,089) 83,61 (1,881)
b19 65,87 (2,069) 66,48 (1,960) 66,1 (1,9700
b20 69,77 (2,287) 70,07 (1,911) 70,98 (1,802)
Res 4 12 9
A Tabela 9 mostra os resultados estatísticos para a SD-D. Assim como nas demais
versões, os resultados estatísticos mostram a superioridade dos valores obtidos pela taxa
de 50%, uma vez que a mesma obteve a vitória na maioria dos casos quando comparado
com as demais taxas nas bases que obtiveram diferença estatística.
67
Tabela 9: Resultado estatístico da comparação entre os valores de W para a SD-DSD-D Fried 0,25/0,5 0,25/0,75 0,5/0,75
b1 0,002 < < >
b2 0,13 - - -
b3 <0,001 < < =
b4 1 - - -
b5 0,988 - - -
b6 1 - - -
b7 0,004 > > <
b8 0,773 - - -
b9 0,054 - - -
b10 0,049 > > <
b11 0,239 - - -
b12 0,002 > > <
b13 <0,001 > > <
b14 0,922 - - -
b15 0,024 > > <
b16 0,448 - - -
b17 0,101 - - -
b18 0,299 - - -
b19 0,746 - - -
b20 0,66 - - -
Res 7 2x5 2x5 1x5
Por �m, �ca evidente que a melhor taxa de seleção W para a abordagem proposta
é a de 50%, uma vez que a mesma obteve os melhores resultados para as três versões
desenvolvidas. Sendo assim, a partir de agora, para as demais análises e comparações o
valor do parâmetro W utilizado será o de 50%.
6.2.1 Considerações sobre o parâmetro W
Esse parâmetro é escolhido no momento de selecionar os atributos para cada classi-
�cador que compõe o comitê. Antes deste processo, já aconteceu um primeiro corte no
número de atributos totais, logo após o agrupamento das instâncias. Sendo assim, essa
porcentagem de�nida por esse parâmetro é aplicada em cima de um conjunto de atributos
68
menor que o inicial.
Dentre os valores utilizados, os melhores resultados foram obtidos quando a porcenta-
gem de 50% foi utilizada para realizar essa seleção. Acreditamos que esse resultado se deu
devido a 50% não ser uma taxa tão extrema de seleção. Quando selecionamos 75%, pou-
cos atributos são removidos, podendo assim, manter alguns atributos irrelevantes para o
processo de classi�cação. Por outro lado, a seleção de apenas 25% consiste em uma grande
redução dos atributos, o que pode ocasionar perda na informação necessária para realizar
uma boa classi�cação.
Os resultados podem ser melhor visualizados através do grá�co de violinos apresen-
tado abaixo. Nele, estão presentes a distribuição obtida pelas 3 versões, respectivamente,
variando o valor do parâmetro W . A linha preta representa a média dos valores obtidos e
a linha vermelha a mediana dos dados avaliados. Mostrando que o valor de 0.5 apresenta
a maior média e mediana quando comparado com os demais, além de ser possível veri�-
car pela densidade do grá�co que os demais valores estão mais próximos ao valor médio
obtido.
Figura 6: Grá�co de violino para os resultados obtidos da análise do parâmetro W
Dentre os valores utilizados por esse parâmetro, os piores resultados foram obtidos
quando 25% foi utilizado. Podemos ver, que ganhamos em desempenho quando passamos
de 75% para 50%, selecionando uma maior quantidade de atributos e eliminando aqueles
menos signi�cantes. Porém, devido a quantidade de atributos nas bases de dados e ao fato
desse parâmetro ser aplicado em um subconjunto ja selecionado de atributos, a melhora
não foi obtida quando passamos de 50% para 25%. Isso se deve ao pequeno número de
atributos utilizados para cada classi�cador, reduzindo bastante a quantidade de atributos
utilizado e prejudicando, assim, a capacidade preditiva do sistema de classi�cação.
69
6.3 Comparação entre os valores de N
Durante todo o processo realizado pela abordagem proposta, em dois momentos os
atributos são reduzidos da base de dados. Um primeiro momento, ocorre logo nos primeiros
passos, onde os atributos para cada grupo são ranqueados, seguindo algum critério, e os
N melhores atributos são selecionados como os mais importantes para aquele grupo. O
objetivo desta seção é encontrar o melhor valor para esse parâmetro N , que em conjunto
com o melhor valor de W obtido na seção anterior, obtenha os melhores resultados para
a abordagem proposta.
Foram utilizados três valores diferentes para N , são eles: 30%, 50% e 70%. Os resulta-
dos apresentados nesta seção consiste na média de todas as execuções realizadas, porém
utilizando apenas o valor de 50% para W , melhor valor encontrado na seção anterior.
A Tabela 10 apresenta os resultados da comparação dos diferentes valores de N para
a SD-R. Os melhores resultados foram obtidos com a utilização do valor de 70%, obtendo
os melhores valores de acurácia em 10 das 20 bases de dados utilizadas.
70
Tabela 10: Comparação entre os valores de N para a SD-RSD-R 0,7 0,5 0,3
b1 89,91 (2,176) 90,45 (1,975) 91,17 (1,848)
b2 71,26 (2,127) 73,79 (1,868) 73,77 (2,005)
b3 92,7 (2,270) 93,39 (2,108) 94,33 (1,623)
b4 100 (2,000) 100 (2,000) 100 (2,000)
b5 99,97 (2,049) 99,99 (1,956) 99,98 (1,995)
b6 99,5 (2,039) 99,56 (1,985) 99,67 (1,975)
b7 60,25 (1,589) 53,5 (2,169) 56,13 (2,110)
b8 99,87 (1,682) 99,54 (2,064) 99,38 (2,123)
b9 92,6 (1,992) 92,61 (1,746) 92,05 (2,127)
b10 92,7 (1,875) 92,46 (1,996) 91,12 (2,153)
b11 97,13 (1,895) 96,99 (2,032) 96,57 (2,097)
b12 96,88 (1,762) 96,6 (2,065) 94,25 (2,198)
b13 79,46 (1,714) 76,29 (2,044) 73,25 (2,266)
b14 100 (1,950) 100 (2,950) 99,93 (2,100)
b15 89,37 (1,988) 89,29 (2,000) 88,71 (2,036)
b16 68,03 (1,859) 67,26 (2,040) 66,03 (2,125)
b17 58,33 (2,020) 58,63 (1,875) 57,93 (2,129)
b18 80,59 (2,081) 80,63 (2,044) 80,94 (1,899)
b19 60,14 (2,144) 63,21 (1,989) 63,36 (1,867)
b20 68,36 (2,222) 69,42 (1,988) 69,6 (1,810)
Res 10 5 7
A Tabela 11 apresenta os resultados estatísticos para os dados mostrados na tabela
anterior, versão SD-R. Como pode ser observado, o melhor resultado na comparação par-
a-par foi obtido utilizando 70%, pois a mesma ganhou das temais taxas em 4 bases das 7
que obtiveram diferença estatística.
71
Tabela 11: Resultado estatístico da comparação entre os valores de N para a SD-RSD-R Fried 0,7/05 0,7/0,3 0,5/0,3
b1 0,043 > > <
b2 0,052 - - -
b3 0,038 > > >
b4 1 - - -
b5 0,994 - - -
b6 0,814 - - -
b7 0,002 < < >
b8 0,859 - - -
b9 0,775 - - -
b10 0,663 - - -
b11 0,029 < < =
b12 0,351 - - -
b13 0,015 < < <
b14 0,998 - - -
b15 0,86 - - -
b16 0,033 < < =
b17 0,7 - - -
b18 0,68 - - -
b19 0,044 > > =
b20 0,403 - - -
Res 7 4x3 4x3 2x2
A Tabela 12 mostra os resultados para a SD-P da comparação realizada com os
diferentes valores de N . Assim como na SD-R, os melhores resultados para essa versão
foram obtidos com a taxa de 70% na seleção dos atributos mais importantes para cada
grupo, vencendo em 9 das 20 bases de dados utilizadas.
72
Tabela 12: Comparação entre os valores de N para a SD-PSD - P 0,7 0,5 0,3
b1 90,73 (2,060) 90,6 (2,135) 91,01 (1,805)
b2 72,91 (2,050) 73,57 (2,005) 73,58 (1,945)
b3 93,7 (1,645) 92,84 (2,510) 93,16 (1,845)
b4 100 (2,000) 100 (2,000) 100 (2,000)
b5 99,98 (1,965) 99,96(2,070) 99,98 (1,965)
b6 99,69 (2,045) 99,83 (1,985) 99,96 (1,970)
b7 60,75 (1,985) 61,5 (1,965) 58,25 (2,050)
b8 99,17 (1,965) 99,17 (1,965) 98,83 (2,070)
b9 91,86 (2,069) 92,43 (1,931) 92,16 (2,000)
b10 92,6 (1,901) 91,71 (1,955) 91,21 (2,144)
b11 96,71 (1,960) 96,79 (1,942) 96,28 (2,098)
b12 94,95 (2,218) 96,95 (1,871) 96,28 (1,911)
b13 74,79 (1,851) 72,68 (1,990) 71,14 (2,158)
b14 100 (1,965) 99,98 (1,990) 99,6 (2,045)
b15 87,51 (2,134) 88,47 (1,906) 87,69 (1,960)
b16 65,42 (2,079) 65,93 (2,020) 66,02 (1,901)
b17 57,15 (1,871) 55,43 (2,045) 55,07 (2,084)
b18 80,49 (1,901) 80,48 (2,025) 79,88 (2,074)
b19 59,99 (2,015) 59,92 (2,064) 60,21 (1,921)
b20 68,81 (2,079) 69,87 (1,822) 68,38 (2,099)
Res 9 8 6
Nos resultados estatísticos, a taxa de 70% também foi a vencedora para a SD-P
quando comparada com as demais taxas, como apresentado na Tabela 13. Apenas 6 bases
obtiveram diferença estatística. Nela, a taxa de 70% foi a vencedora quando comparada
com as demais na maioria dos casos.
73
Tabela 13: Resultado estatístico da comparação entre os valores de N para a SD-PSD - P Fried 0,7/05 0,7/0,3 0,5/0,3
b1 0,045 = > >
b2 0,352 - - -
b3 0,038 < = >
b4 1 - - -
b5 0,941 - - -
b6 0,839 - - -
b7 0,004 > > <
b8 0,901 - - -
b9 0,119 - - -
b10 0,043 < < =
b11 0,737 - - -
b12 0,24 - - -
b13 0,001 < < <
b14 0,993 - - -
b15 0,083 - - -
b16 0,06 - - -
b17 0,026 < < =
b18 0,137 - - -
b19 0,3 - - -
b20 0,081 - - -
Res 6 4 x 1 3 x 2 2 x 2
A Tabela 14 mostra os resultados das acurácias da comparação dos valores de N para
a SD-D. Assim como nas demais versões, o melhor valor de N foi novamente 70%, obtendo
os melhores resultados em 12 das 20 bases de dados utilizadas.
74
Tabela 14: Comparação entre os valores de N para a SD-DSD-D 0,7 0,5 0,3
b1 90,29 (2,069) 91,06 (2,015) 91,3 (1,917)
b2 73,73 (1,990) 73,76 (2,103) 74,32 (1,907)
b3 92,19 (2,299) 93,34 (2,108) 94,12 (1,593)
b4 100 (2,000) 100 (2,000) 100 (2,000)
b5 99,99 (1,966) 99,99 (1,966) 99,98 (2,068)
b6 100 (2,000) 100 (2,000) 100 (2,000)
b7 62,63 (2,106) 63,75 (2,097) 64,5 (1,665)
b8 99,92 (1,712) 99,67 (2,110) 99,79 (2,051)
b9 94,82 (1,636) 93,08 (2,017) 92,3 (2,220)
b10 90,02 (2,081) 91,86 (1,899) 91,24 (2,052)
b11 97,12 (1,790) 97,02 (1,883) 95,58 (2,359)
b12 93,4 (2,056) 95,77 (2,024) 95,92 (1,952)
b13 79,73 (2,040) 80,68 (1,907) 77,29 (2,085)
b14 99,95 (1,895) 99,8 (2,048) 99,6 (2,089)
b15 96,5 (1,851) 94,87 (1,984) 94,14 (2,198)
b16 67,87 (1,923) 67,74 (1,931) 66,85 (2,181)
b17 60,44 (1,956) 62,84 (1,996) 59,68 (2,085)
b18 83,84 (1,887) 82,69 (2,065) 81,1 (2,085)
b19 71,42 (1,581) 64,4 (2,077) 63,63 (2,379)
b20 71,45 (1,835) 69,39 (2,008) 69,37 (2,194)
Res 12 6 7
A Tabela 15 mostra os resultados estatísticos para a análise do valor de N utilizando
a SD-D. 70% foi novamente vitorioso na comparação com as demais taxas.
75
Tabela 15: Resultado estatístico da comparação entre os valores de N para a SD-DSD-D Fried 0,7/05 0,7/0,3 0,5/0,3
b1 0,058 - - -
b2 0,047 = > >
b3 0,031 > > >
b4 1 - - -
b5 0,999 - - -
b6 1 - - -
b7 0,021 > > >
b8 0,899 - - -
b9 0,01 < < <
b10 0,742 - - -
b11 0,433 - - -
b12 0,222 - - -
b13 0,02 < > <
b14 0,92 - - -
b15 0,009 < < =
b16 0,301 - - -
b17 0,006 > < <
b18 0,011 < < =
b19 0,001 < < =
b20 0,033 < < =
Res 10 6x3 6x4 3x3
Em todas as versões, o valor de N que obteve o melhor resultado, em conjunto com o
valor de W obtido na análise anterior, foi o de 70%. Assim, nas demais seções os valores
apresentados nas tabelas de foram obtidos utilizando a média de todas as execuções,
porém fazendo uso apenas da combinação de N e W com os valores de 70% e 50%,
respectivamente.
6.3.1 Considerações sobre o parâmetro N
Com os resultados apresentados nesta seção, �ca evidente que os melhores resultados
foram encontrados quando o valor de 70% foi utilizado. Esse resultado não signi�ca dizer
que 70% é o melhor valor para esse parâmetro. Signi�ca apenas que ele obteve os melhores
76
resultados em conjunto com o W = 50%.
Sabendo que a segunda seleção (parâmetro W), seleciona 50% dos subconjuntos de
atributos gerados pelo uso do critério de avaliação, acreditamos que, devido a necessidade
de se selecionar um subconjunto para cada classi�cador, 70% obteve os melhores resultados
pois deixava uma maior possibilidade de atributos para serem selecionados, principalmente
em bases com menos atributos, onde duas seleções maiores deixariam a base de dados com
uma quantidade muito pequena de atributos.
As demais taxas de seleção, 30% e 50%, apresentaram desempenhos semelhantes, ou
seja, a diminuição desse valor, consequente, um maior corte no conjunto de atributos
iniciais, sabendo que um novo corte de 50% será realizado, trás prejuízos para o processo
de classi�cação na abordagem propostas. Como pode ser observado no grá�co a seguir:
Figura 7: Grá�co de violino para os resultados obtidos da análise do parâmetro N
Sendo assim, os melhores resultados foram encontrados quando um pequeno corte é
realizado inicialmente, e um corte médio é realizado no momento de selecionar os atributos
para cada classi�cador que compõe o comitê.
6.4 Comparação entre os tamanhos do comitê
Nesta seção, os resultados apresentados são oriundos da comparação entre as diferen-
tes quantidades de classi�cadores utilizados na construção do comitê. Serão mostrados
apenas os resultados, para cada versão, utilizando os melhores parâmetros para W e N
encontrados nas seções anteriores. Foram utilizados quatro tamanhos diferentes: 5, 10, 15
e 25.
A Tabela 16 apresenta os resultados da comparação entre os diferentes tamanhos
utilizados para a versão SD-R. Nela, podemos observar que os melhores resultados foram
obtidos quando 15 classi�cadores foram utilizados, uma vez que o mesmo obteve melhores
resultados em 12 das 20 bases de dados.
77
Tabela 16: Comparação entre os tamanhos do Comitê para a SD-RSD-R 5C 10C 15C 25C
b1 92,26 (2,196) 89,71 (2,672) 90,37 (2,441) 89,54 (2,613)
b2 72,52 (2,431) 71,68 (2,544) 73,84 (2,392) 71,26 (2,520)
b3 92,61 (2,922) 90,13 (2,775) 92,40 (2,387) 93,78 (1,838)
b4 100,00 (2,500) 100,00 (2,500) 100,00 (2,500) 100,00 (2,500)
b5 99,95 (2,544) 100,00 (2,407) 99,98 (2,505) 99,95 (2,466)
b6 100,00 (2,471) 98,17 (2,588) 100,00 (2,471) 100,00 (2,471)
b7 58,50 (2,554) 56,00 (2,525) 68,50 (2,176) 50,50 (2,667)
b8 99,50 (2,534) 99,50 (2,456) 99,50 (2,534) 100,00 (2,397)
b9 95,79 (2,000) 91,24 (2,627) 91,59 (2,456) 91,02 (2,873)
b10 91,05 (1,774) 90,47 (2,012) 91,58 (2,621) 90,53 (1,952)
b11 96,75 (1,694) 96,47 (1,819) 96,61 (2,613) 96,20 (2,234)
b12 97,59 (1,815) 96,86 (1,827) 97,95 (2,637) 95,73 (2,081)
b13 68,28 (1,960) 69,57 (1,843) 69,93 (2,520) 65,93 (2,036)
b14 100,00 (1,887) 100,00 (1,855) 100,00 (2,790) 100,00 (1,827)
b15 88,64 (1,907) 87,31 (2,169) 89,69 (2,685) 88,49 (1,589)
b16 66,28 (2,040) 67,04 (1,738) 68,26 (2,601) 66,67 (1,964)
b17 54,32 (1,835) 53,62 (1,859) 54,59 (2,681) 51,91 (1,968)
b18 79,70 (1,726) 79,90 (1,734) 80,65 (3,012) 77,40 (1,871)
b19 56,92 (1,895) 57,37 (1,605) 55,85 (2,847) 54,07 (1,996)
b20 68,32 (2,032) 68,02 (1,899) 68,84 (2,718) 69,15 (1,694)
Res 6 4 12 6
A Tabela 17 apresenta os resultados estatísticos para a comparação realizada acima,
mostrando o par-a-par para os resultados que obtiveram diferença estatística. Nela, po-
demos notar que o uso de 15 classi�cadores foi o vencedor quando foi comparado com
todos os demais tamanhos, ganhando na maioria das bases em que houveram diferença
estatística.
78
Tabela 17: Resultado estatístico da comparação entre os tamanhos do Comitê para a
SD-RSD-R Fried 5C - 10C 5C - 15C 5C - 25C 10C - 15C 10C-25C 15C - 25C
b1 0,028 < < < > = <
b2 0,012 = > = > = <
b3 0,044 < = > > > >
b4 1 - - - - - -
b5 0,992 - - - - - -
b6 0,999 - - - - - -
b7 0,018 = > = > = <
b8 0,847 - - - - - -
b9 0,03 < < < = = =
b10 0,212 - - - - - -
b11 0,752 - - - - - -
b12 0,111 - - - - - -
b13 0,02 > > = = < <
b14 1 - - - - - -
b15 0,009 < > = > > <
b16 0,046 > > = > < <
b17 0,063 - - - - - -
b18 0,21 - - - - - -
b19 0,082 - - - - - -
b20 0,036 = = > = > >
Res 9 4x2 2x5 2 x 2 0x6 2x3 6x2
Os resultados da SD-P estão presentes na Tabela 18. Assim como na versão anterior,
os melhores resultados foram encontrados usando o tamanho 15 para o comitê, obtendo
novamente 12 melhores resultados em 20 bases de dados utilizadas.
79
Tabela 18: Comparação entre os tamanhos do Comitê para a SD-PSD-P 5C 10C 15C 25C
b1 91,51 (2,324) 89,57 (2,828) 91,94 (2,309) 89,80 (2,520)
b2 70,78 (2,667) 72,37 (2,387) 76,74 (2,279) 71,47 (2,647)
b3 93,17 (2,191) 89,72 (3,044) 95,20 (2,108) 92,99 (2,637)
b4 100,00 (2,500) 100,00 (2,500) 100,00 (2,500) 100,00 (2,500)
b5 99,95 (2,505) 99,98 (2,412) 99,97 (2,505) 99,93 (2,559)
b6 99,41 (2,559) 99,08 (2,525) 100,00 (2,461) 100,00 (2,436)
b7 58,00 (2,534) 56,50 (2,500) 60,50 (2,417) 58,00 (2,529)
b8 99,50 (2,529) 99,67 (2,456) 100,00 (2,490) 99,67 (2,505)
b9 95,79 (1,676) 91,53 (2,755) 92,76 (2,554) 90,46 (3,005)
b10 91,05 (2,972) 91,53 (2,605) 92,21 (1,798) 91,21 (1,935)
b11 96,75 (2,621) 96,54 (2,726) 96,81 (1,867) 96,53 (2,097)
b12 97,59 (2,625) 97,77 (2,657) 96,86 (2,032) 97,27 (1,996)
b13 81,07 (1,899) 64,08 (3,020) 68,71 (2,258) 70,00 (2,133)
b14 100,00 (2,500) 100,00 (2,500) 100,00 (2,500) 100,00 (2,500)
b15 90,07 (2,435) 86,85 (3,250) 91,82 (1,383) 89,44 (2,254)
b16 68,05 (2,319) 65,91 (2,669) 62,12 (2,286) 65,39 (2,052)
b17 62,17 (2,387) 62,79 (2,302) 56,91 (2,270) 53,59 (2,367)
b18 81,75 (2,690) 81,80 (2,581) 81,15 (1,903) 79,70 (2,153)
b19 61,70 (2,306) 55,78 (2,944) 59,22 (1,919) 57,00 (2,157)
b20 69,14 (2,730) 67,75 (2,875) 71,49 (1,492) 67,70 (2,230)
Res 6 6 12 2
Assim como para a SD-R, na SD-P os resultados da comparação par-a-par realizada
pelo teste estatístico, presentes na Tabela 19, aponta a vantagem para o tamanho 15
quando comparada com os demais.
80
Tabela 19: Resultado estatístico da comparação entre os tamanhos do Comitê para a SD-PSD-P Fried 5C - 10C 5C - 15C 5C - 25C 10C - 15C 10C-25C 15C - 25C
b1 0,041 < = < > = <
b2 0,024 > > > > < <
b3 0,033 < > = > > <
b4 1 - - - - - -
b5 0,888 - - - - - -
b6 0,992 - - - - - -
b7 0,036 = > = > = <
b8 0,059 - - - - - -
b9 0,039 < < < = < <
b10 0,047 > > = > < <
b11 0,64 - - - - - -
b12 0,522 - - - - - -
b13 0,02 < < < > > =
b14 1 - - - - - -
b15 0,052 - - - - - -
b16 0,06 - - - - - -
b17 0,03 > < < < < =
b18 0,449 - - - - - -
b19 0,069 - - - - - -
b20 0,044 = > = > = <
Res 8 4 x3 3x5 4x1 1x7 4x2 7x0
A Tabela 20 mostra os resultados para a SD-D. Assim como nas demais versões, os
melhores resultados foram obtidos novamente com o uso de 15 classi�cadores na formação
do comitê, ganhando em 11 das 20 bases de dados.
81
Tabela 20: Comparação entre os tamanhos do Comitê para a SD-DSD-D 5C 10C 15C 25C
b1 91,31 (2,685) 89,52 (2,840) 92,11 (2,125) 91,77 (2,350)
b2 72,52 (2,675) 76,10 (2,280) 74,78 (2,480) 74,83 (2,565)
b3 93,88 (2,590) 93,77 (2,780) 94,80 (1,800) 91,77 (2,830)
b4 100,00 (2,500) 100,00 (2,500) 100,00 (2,500) 100,00 (2,500)
b5 99,98 (2,505) 100,00 (2,485) 99,98 (2,505) 99,98 (2,505)
b6 100,00 (2,500) 100,00 (2,500) 100,00 (2,500) 100,00 (2,500)
b7 61,50 (2,550) 60,00 (2,595) 63,00 (2,520) 66,50 (2,335)
b8 100,00 (2,480) 99,66 (2,540) 99,83 (2,500) 100,00 (2,480)
b9 96,24 (2,330) 96,43 (2,275) 96,58 (2,180) 93,76 (3,215)
b10 90,42 (2,325) 89,52 (2,520) 89,00 (2,655) 90,11 (2,500)
b11 97,32 (2,230) 97,27 (2,410) 97,14 (2,355) 96,75 (3,005)
b12 91,00 (2,745) 92,63 (2,455) 92,68 (2,465) 93,73 (2,335)
b13 79,35 (2,540) 79,78 (2,535) 82,14 (2,175) 76,64 (2,750)
b14 99,80 (2,490) 99,70 (2,510) 99,90 (2,490) 99,70 (2,510)
b15 95,11 (2,941) 95,97 (2,332) 96,22 (2,178) 95,60 (2,460)
b16 67,72 (2,787) 69,92 (2,441) 69,98 (2,262) 68,12 (2,450)
b17 58,26 (2,733) 60,64 (2,208) 61,88 (2,094) 57,18 (2,906)
b18 83,15 (2,589) 86,85 (2,495) 86,95 (2,252) 81,15 (2,604)
b19 70,07 (2,500) 74,44 (1,921) 73,00 (2,574) 60,56 (2,946)
b20 70,00 (2,970) 73,79 (2,114) 73,37 (2,233) 70,86 (2,624)
Res 5 6 11 5
Os resultados estatísticos obtidos por essa comparação para a SD-D pode ser encon-
trados na Tabela 21. Assim como nas demais versões, o uso de 15 classi�cadores obteve
uma grande vantagem na comparação com os demais, sendo estatisticamente melhor que
os outros tamanhos utilizados na maioria dos casos.
82
Tabela 21: Resultado estatístico da comparação entre os tamanhos do Comitê para a
SD-DSD-D Fried 5C - 10C 5C - 15C 5C - 25C 10C - 15C 10C-25C 15C - 25C
b1 0,034 < > > > > <
b2 0,019 > < < < < =
b3 0,029 = > < > < <
b4 1 - - - - - -
b5 0,992 - - - - - -
b6 1 - - - - - -
b7 0,013 < > > > > >
b8 0,996 - - - - - -
b9 0,1 - - - - - -
b10 0,569 - - - - - -
b11 0,751 - - - - - -
b12 0,048 = = > = > >
b13 0,038 = > < > < <
b14 0,912 - - - - - -
b15 0,442 - - - - - -
b16 0,041 > > > = < <
b17 0,029 > > = = < <
b18 0,035 > > = = < <
b19 0,009 > > < = < <
b20 0,058 - - - - - -
Res 10 2x5 1x8 4x4 1x4 7x3 7x2
Pelos resultados apresentados para as três versões, �ca evidente que o melhor tamanho
para os comitês formados pela abordagem proposta é 15. Assim, para as próximas seções,
todas as comparações serão realizadas utilizando 15 classi�cadores bases.
6.4.1 Considerações sobre os tamanhos de comitês utilizados
Para parâmetro, foram utilizados 4 diferentes tamanhos (5, 10, 15 e 25). Como a
quantidade de atributos da maioria das bases, principalmente após as seleções, é pequena,
foram escolhido apenas tamanhos pequenos para formar os comitês.
Com a quantidade de atributos utilizado, na maioria das bases, �ca evidente que a
83
acurácia foi melhorada no momento em que no número de classi�cadores aumentava até
15. Como pode ser visto no grá�co a seguir:
Figura 8: Grá�co de violino para os resultados obtidos da análise dos tamanhos dos comitês
Ou seja, podemos ver que de 5 para 10 classi�cadores houve uma melhora, ou uma
manutenção, para o SD-P e o SD-D, que são métodos mais estáveis, diferentemente do
SD-R, onde mais aleatoriedade foi utilizada na seleção de atributos.
Outro fator que podemos observar em todas as versões é a queda de desempenho
quando o número de classi�cadores aumentou para 25. Sendo assim, o uso de mais classi-
�cadores, não acarreta uma melhora na classi�cação, principalmente pela quantidade de
atributos utilizadas.
6.5 Comparação entre as três versões desenvolvidas
Agora que três dos principais parâmetros já foram de�nidos pelas seções anteriores,
será realizada uma comparação entre as três versões desenvolvidas. Para isso, os resul-
tados mostrados nas tabelas a seguir foram obtidos quando as versões foram executadas
utilizando os melhores valores para W e N , e a quantidade de classi�cadores que obteve
a melhor performance, são eles: 50%, 70% e 15 classi�cadores, respectivamente.
84
Tabela 22: Comparação entre as versões desenvolvidasBases SD-R SD-P SD-D
b1 90,37 (2,098) 91,94 (1,956) 92,11 (1,946)
b2 73,84 (2,029) 76,74 (1,941) 74,78 (2,029)
b3 92,40 (2,235) 95,20 (1,814) 94,80 (1,951)
b4 100,00 (2,000) 100,00 (2,000) 100,00 (2,000)
b5 99,98 (1,985) 99,97 (2,005) 99,98 (2,010)
b6 100,00 (2,000) 100,00 (2,000) 100,00 (2,000)
b7 68,50 (1,576) 60,50 (2,229) 63,00 (1,665)
b8 99,50 (1,674) 100,00 (2,131) 99,83 (1,665)
b9 91,59 (1,949) 92,76 (2,284) 96,58 (1,233)
b10 91,58 (1,972) 92,21 (1,798) 89,00 (2,242)
b11 96,61 (2,121) 96,81 (2,282) 97,14 (1,609)
b12 97,95 (1,863) 96,86 (1,774) 92,68 (2,375)
b13 69,93 (2,262) 68,71 (2,238) 82,14 (1,512)
b14 100,00 (2,040) 100,00 (1,927) 99,90 (2,044)
b15 89,69 (2,560) 91,82 (2,073) 96,22 (1,379)
b16 68,26 (1,940) 62,12 (2,258) 69,98 (1,815)
b17 54,59 (2,250) 56,91 (2,048) 61,88 (1,714)
b18 80,65 (2,020) 81,15 (2,081) 86,95 (1,911)
b19 55,85 (2,359) 59,22 (1,948) 73,00 (1,706)
b20 68,84 (2,266) 71,49 (1,984) 73,37 (1,762)
Res 5 7 13
A Tabela 22 apresenta os resultados obtidos pelas três versões com os melhores parâ-
metros de�nidos nas seções anteriores. A versão que obtive os melhores resultados foi a
SD-D, 13 de 20 bases de dados com melhores valores de acurácia. A segunda melhor foi a
SD-P, com 7 bases no total, e por �m a SD-R, com apenas 5 melhores resultados.
Os resultados da estatísticos da comparação podem ser encontrados na Tabela 23. Das
20 bases utilizadas, 13 obtiveram resultados com signi�cância estatística. Na comparação
par-a-par, a SD-D venceu a SD-P e a SD-R em 10 de 13 bases e em 8 de 10 bases,
respectivamente.
85
Tabela 23: Resultado estatístico da comparação entre as versões desenvolvidasBases Fried SP vs P SP vs D P vs D
b1 0,043 = > >
b2 0,028 > = <
b3 0,036 > = <
b4 1 - - -
b5 0,921 - - -
b6 1 - - -
b7 <0,001 < < >
b8 0,823 - - -
b9 <0,001 = > >
b10 0,059 - - -
b11 0,319 - - -
b12 0,023 < < <
b13 0,002 = > >
b14 0,992 - - -
b15 0,033 > > >
b16 0,041 < = >
b17 <0,001 = > >
b18 0,005 = > >
b19 <0,001 > > >
b20 0,002 > > >
Res 13 3x5 2x8 3x10
6.5.1 Considerações sobre as versões desenvolvidas
Pelos resultados apresentados acima, �ca evidente que a versão que obteve melhores
resultados foi a SD-D. Acreditamos que isso aconteceu devido a mesma utilizar apenas os
grupos mais próximos, e não todos os grupos, como as demais.
Além disso, durante toda a abordagem, métodos baseados em instância são utilizados,
como o K-NN e o K-Means, favorecendo o funcionamento da SD-D, que utiliza uma
metodologia similar aos métodos baseados em distância, onde apenas os mais próximos
são utilizados.
Podemos observar também que a SD-P obteve melhores resultados que a SD-R, uma
86
vez que a SD-P possui uma seleção menos aleatória que a SD-R, permitindo assim, uma
seleção de atributos mais estável e e�ciente.
Os resultados �cam evidentes quando observamos o grá�co a seguir, podemos cons-
tatar o aumento da média e a menor variação dos valores próximos a essa média para a
versão DFSE-D.
Figura 9: Grá�co de violino para os resultados obtidos da análise das versões desenvolvidas
6.6 Comparação entre as duas versões da SD-D
Na seção anterior foi realizada uma comparação entre as três versões desenvolvidas e a
que obteve os melhores resultados foi a SD-D. Para esta seção, uma pequena modi�cação
foi feita, buscando melhorar o desempenho desta versão.
Na SD-D eram utilizados dois grupos, em que W atributos eram selecionados alea-
toriamente de uma porcentagem L dos atributos mais correlacionados do grupo 1 e dos
L menos correlacionados do grupo 2. Com a modi�cação, uma nova versão (SD-D') foi
criada. Nela, serão usados apenas os mais correlacionados, para o grupo 1 e para o grupo
2.
A Tabela 24 apresenta os resultados obtidos pela alteração realizada na SD-D. Nela,
podemos ver que a nova versão (SD-D') obteve melhores resultados que a SD-D, possuindo
87
um maior valor de acurácia em 14 das 20 bases de dados utilizadas.
Tabela 24: Comparação entre a SD-D e a SD-D'Bases SD-D SD-D'
b1 92,11 (1,580) 93,91 (1,420)
b2 74,78 (1,430) 73,68 (1,570)
b3 94,80 (1,495) 95,01 (1,505)
b4 100,00 (1,495) 100,00 (1,505)
b5 99,98 (1,505) 100,00 (1,495)
b6 100,00 (1,500) 100,00 (1,500)
b7 63,00 (1,520) 65,50 (1,480)
b8 99,83 (1,550) 100,00 (1,450)
b9 96,58 (1,460) 93,69 (1,540)
b10 89,00 (1,550) 89,58 (1,450)
b11 97,14 (1,530) 97,30 (1,470)
b12 92,68 (1,660) 94,45 (1,340)
b13 82,14 (1,510) 82,21 (1,490)
b14 99,90 (1,500) 99,90 (1,500)
b15 96,22 (1,400) 95,23 (1,600)
b16 69,98 (1,500) 70,21 (1,500)
b17 61,88 (1,475) 61,35 (1,525)
b18 86,95 (1,450) 82,85 (1,550)
b19 73,00 (1,545) 74,04 (1,455)
b20 73,37 (1,470) 72,11 (1,530)
Res 9 14
A Tabela 25 apresenta os resultados estatístico da comparação entre a SD-D e a SD-D'.
Por se tratar de uma pequena alteração, apenas 6 bases obtiveram diferença estatística.
A SD-D' obteve uma vitória em 4 das 6 bases de dados.
88
Tabela 25: Resultado estatístico da comparação entre a SD-D e a SD-D'Bases W Win
b1 0,002 SD-D'
b2 0,041 SD-D
b3 0,842 -
b4 1 -
b5 0,993 -
b6 1 -
b7 0,032 SD-D'
b8 0,889 -
b9 0,002 SD-D
b10 0,542 -
b11 0,748 -
b12 0,004 SD-D'
b13 0,883 -
b14 0,999 -
b15 0,091 -
b16 0,131 -
b17 0,44 -
b18 0,383 -
b19 0,046 SD-D'
b20 0,056 -
Res 6 2x4
Assim, �ca evidente que a alteração realizada proporcionou uma melhora em termos
de acurácia. Mesmo que pequena, a utilização de apenas os mais correlacionados melhorou
os resultados obtidos para esta versão. Como pode ser visto no grá�co a seguir:
89
Figura 10: Grá�co de violino para os resultados obtidos da comparação entre as duas
versões determinísticas
Assim, a SD-D' será utilizada na próxima seção na comparação realizada com os
demais métodos.
6.7 Comparação com métodos de classi�cação existen-
tes na literatura
Nesta seção a melhor versão encontrada será comparada com outros métodos existen-
tes na literatura para observar o desempenho do mesmo quando comparado com métodos
já consolidados. A SD-D', utilizando os mesmos parâmetros da seção anterior, será com-
parado com os seguintes métodos:
• DFS: Método que utiliza a seleção dinâmica de atributos para um classi�cador
individual (Taxa de seleção de atributos de 50%).
• NoFS: Comitê formado por 15 classi�cadores sem o uso da seleção de atributos.
• RF: Random forest com 15 classi�cadores.
• KU: Knora-Union com 15 classi�cadores.
90
A Tabela 26 apresenta os resultados obtidos pelos métodos listados acima. Nela po-
demos ver que a SD-D' obteve melhores resultados em 12 das 20 bases, seguido pelo RF
e KU, com melhores resultados em 5 bases cada um. Por �m, com apenas 2 bases cada
método, temos o DFS e o NoFS.
Tabela 26: Comparação entre a melhor versão encontrada e demais métodosBases SD-D' DFS NoFS RF KU
b1 93,91 (2,480) 88,38 (2,970) 84,17 (3,805) 89,17 (2,855) 88,71 (2,890)
b2 73,68 (2,650) 71,53 (3,030) 66,08 (3,550) 72,92 (2,730) 71,21 (3,040)
b3 95,01 (2,400) 91,86 (3,370) 91,63 (3,515) 96,12 (2,250) 91,72 (3,465)
b4 100,00 (2,820) 97,00 (2,970) 98,50 (2,895) 94,65 (3,470) 99,50 (2,845)
b5 100,00 (2,895) 99,74 (3,170) 99,96 (2,945) 99,83 (3,045) 99,97 (2,945)
b6 100,00 (3,000) 100,00 (3,000) 100,00 (3,000) 100,00 (3,000) 100,00 (3,000)
b7 65,50 (2,863) 64,50 (3,154) 65,00 (2,917) 58,50 (3,393) 67,00 (2,628)
b8 100,00 (2,441) 93,50 (3,691) 99,50 (2,795) 96,88 (3,485) 99,67 (2,585)
b9 93,69 (2,583) 92,48 (3,951) 90,24 (4,255) 97,30 (1,328) 95,17 (2,441)
b10 89,58 (2,985) 87,38 (3,147) 89,23 (2,995) 88,69 (2,833) 89,74 (2,500)
b11 97,30 (2,958) 97,02 (3,197) 97,21 (3,020) 96,22 (3,200) 98,43 (2,588)
b12 94,45 (1,941) 92,87 (3,145) 92,73 (3,187) 83,17 (4,278) 93,36 (2,407)
b13 82,21 (2,775) 82,13 (2,912) 80,74 (3,250) 85,30 (2,417) 81,64 (2,912)
b14 99,90 (2,804) 99,90 (2,814) 99,00 (2,833) 99,86 (2,990) 99,90 (2,824)
b15 95,23 (4,578) 95,90 (2,186) 96,06 (2,181) 93,76 (3,118) 95,89 (2,201)
b16 70,21 (2,667) 67,75 (2,775) 66,75 (3,034) 68,13 (2,765) 66,75 (3,025)
b17 61,35 (2,433) 59,56 (3,146) 60,71 (2,855) 57,92 (3,506) 60,26 (3,126)
b18 82,85 (2,711) 80,07 (2,873) 79,00 (2,922) 78,86 (2,941) 80,30 (2,819)
b19 74,04 (3,260) 76,44 (3,034) 70,54 (3,510) 81,11 (1,971) 77,81 (2,490)
b20 72,11 (2,319) 65,47 (3,127) 65,75 (3,319) 68,23 (2,745) 67,49 (2,755)
Res 12 2 2 5 5
A Tabela 27 apresenta os resultados estatístico da comparação individual da SD-
D' com os demais métodos. Das 20 bases de dados, em 12 foram obtidos signi�cância
estatística. Na Tabela 27 estão presente apenas as comparações par-a-par que envolvem
a SD-'D, técnica da abordagem proposta. Nela, podemos ver que a SD-D' ganhou em
todas as comparações que foram estatisticamente diferentes da NoFS e DFS. Quando
comparado com a RF e o KU, a SD-D' ganhou em 8 das 12 bases e em 7 das 10 bases,
respectivamente.
91
Tabela 27: Resultado estatístico da comparação entre a melhor versão encontrada e demais
métodosBases Fried SD-D' - DFS SD-D' - NoFS SD-D' - RF SD-D' - KU
b1 0,032 < < < <
b2 0,004 < < < <
b3 0,022 < < > <
b4 0,662 - - - -
b5 0,938 - - - -
b6 1,000 - - - -
b7 0,048 = = < >
b8 0,736 - - - -
b9 0,004 = < > >
b10 0,210 - - - -
b11 0,434 - - - -
b12 0,002 < < < =
b13 0,003 = < > <
b14 0,981 - - - -
b15 0,073 - - - -
b16 0,041 < < < <
b17 0,037 < = < =
b18 0,029 < < < <
b19 0,002 < < > >
b20 0,001 < < < <
Res 12 9x0 10x0 8x4 7x3
Esses resultados também podem ser visualizados no grá�co a seguir. Nele é possível
observar a distribuição dos resultados obtidos por todos os métodos, bem como a marcação
da média (linha preta) e mediana (linha vermelha) obtida dos resultados gerados.
92
Figura 11: Grá�co de violino para os resultados obtidos da comparação com outros mé-
todos
De acordo com os resultados mostrados nesta seção, a abordagem proposta obteve
resultados promissores, uma vez que o mesmo conseguiu obter um maior acurácia para
a maioria das bases de dados quando comparado com os demais métodos. Além disso, a
SD-D' não perdeu em nenhuma das bases de dados que obtiveram diferença estatística
para o DFS e o NoFS, mostrando que o uso da seleção dinâmica de atributos em comitês
de classi�cadores consegue aumentar a capacidade de classi�cação dos dados.
93
7 Conclusão
Este capítulo apresenta as considerações �nais deste trabalho, apresentando as con-
clusões obtidas com os experimentos realizados, as principais contribuições deste trabalho,
e os trabalhos futuros que podem ser realizados a partir da abordagem proposta.
7.1 Considerações Finais
Este trabalho apresentou uma nova abordagem para utilizar a Seleção Dinâmica de
Atributos em comitês de classi�cação. O principal objetivo da abordagem proposta é
selecionar os principais atributos para cada instância. Como a mesma será classi�cada
por um conjunto de z classi�cadores, é necessário selecionar z subconjuntos diferentes de
atributos para diversi�car os classi�cadores base do comitê.
Para isso, foram desenvolvidas três versões diferentes da seleção dinâmica para co-
mitês, visando descobrir qual das três formas de diversi�car os classi�cadores é mais
adequada para o problema em questão.
Durante o processo de classi�cação, a dimensionalidade da base de dados é reduzida
em dois momentos, através dos seguintes parâmetros: N eW (como explicado no Capítulo
4). Para descobrir a melhor versão desenvolvida, diversas comparações foram realizadas,
variando esses dois parâmetros e a quantidade de classi�cadores base.
Após a descoberta da melhor con�guração para a combinação desses parâmetros (70%
para N , 50% para W e 15 classi�cadores base), as três versões foram comparadas entre
si. Os melhores resultados foram obtidos quando a SD-D foi utilizada. Após isso, uma
pequena alteração foi realizada na SD-D, criando assim, a SD-D'.
A SD-D e a SD-D' foram comparadas entre si, e a SD-D' obteve os melhores resultados
em 14 das 20 bases de dados, enquanto a SD-D em 9 das 20 bases. Assim, a versão escolhida
para ser comparada com outros métodos da literatura foi a SD-D'.
94
Por �m, a SD-D' foi comparada com os seguintes métodos: DFS (seleção dinâmica
para um classi�cador individual), NoFS (Comitê tradicional, sem a utilização da seleção
de atributos), Random Forest e Knora-Union. Quando todos os métodos são comparados
ao mesmo tempo, a SD-D'obteve os melhores resultados em 12 bases, seguido pela RF e
pela KU com 5 bases cada.
Na comparação par-a-par a SD-D' ganhou de todas os demais métodos, ganhando em
todas as comparações que obtiveram diferença estatística da DFS e da NoFS. A SD-D'
também obteve melhores resultados que a RF e a KU em 8 de 12 bases e em 7 de 10
bases, respectivamente.
Assim, a abordagem proposta apresentou resultados promissores, uma vez que a
mesma obteve bons resultados quando comparada com os demais métodos, apresentando
melhores valores de acurácia nas comparações realizadas, na maioria dos casos. Além
disso, foram apresentadas e analisadas diversas maneiras de como utilizar a seleção di-
nâmica de atributos para comitês de classi�cadores, mostrando assim, os ganhos de se
realizar a integração dessas duas técnicas.
7.1.1 Trabalhos Futuros
Essa Tese consistiu em um trabalho investigativo e empírico sobre o uso da seleção
dinâmica de atributos em comitês de classi�cação. Nós analisamos o comportamento de
forma empírica de três métodos, mas algumas análises e investigações ainda precisam ser
feitas, seriam as seguintes:
• Utilização de medidas de avaliação de instâncias para diminuir a complexidade e o
tempo de execução;
• Utilização de comitês heterogêneos;
• Utilização de outros métodos de classi�cação;
• Utilização da abordagem proposta para um problema especí�co;
95
Referências
ABUALIGAH, L. M.; KHADER, A. T. Unsupervised text feature selection techniquebased on hybrid particle swarm optimization algorithm with genetic operators for thetext clustering. The Journal of Supercomputing, Springer, v. 73, n. 11, p. 4773�4795,2017.
ABUALIGAH, L. M. et al. Feature selection with β-hill climbing search for textclustering application. In: IEEE. Information and Communication Technology (PICICT),2017 Palestinian International Conference on. [S.l.], 2017. p. 22�27.
ASUNCION, A.; NEWMAN, D. UCI machine learning repository. 2007.
BACAUSKIENE, M.; VERIKAS, A. Selecting salient features for classi�cation basedon neural network committees. Pattern recognition letters, Elsevier, v. 25, n. 16, p.1879�1891, 2004.
BEN-YACOUB, S.; ABDELJAOUED, Y.; MAYORAZ, E. Fusion of face and speechdata for person identity veri�cation. IEEE transactions on neural networks, IEEE, v. 10,n. 5, p. 1065�1074, 1999.
BERRY, M. J.; LINOFF, G. Mastering data mining. [S.l.]: Wiley New York, 2000.
BIAN, S.; WANG, W. On diversity and accuracy of homogeneous and heterogeneousensembles. International Journal of Hybrid Intelligent Systems, IOS Press, v. 4, n. 2, p.103�128, 2007.
BRADLEY, P. S.; MANGASARIAN, O. L. Feature selection via concave minimizationand support vector machines. In: ICML. [S.l.: s.n.], 1998. v. 98, p. 82�90.
BRAGA, L. P. V. Introdução à mineração de dados. 2a edição. Rio de Janeiro: E-papersServiços Editoriais, 2005.
BREIMAN, L. Random forests. Machine learning, Springer, v. 45, n. 1, p. 5�32, 2001.
CANUTO, A. M. et al. Investigating the in�uence of the choice of the ensemble membersin accuracy and diversity of selection-based and fusion-based methods for ensembles.Pattern recognition letters, Elsevier, v. 28, n. 4, p. 472�486, 2007.
CARVALHO, A. et al. Inteligência arti�cial�uma abordagem de aprendizado de máquina.Rio de Janeiro: LTC, 2011.
CAVALIN, P. R.; SABOURIN, R.; SUEN, C. Y. Dynamic selection approaches formultiple classi�er systems. Neural Computing and Applications, Springer, v. 22, n. 3-4,p. 673�688, 2013.
96
CHANDRASHEKAR, G.; SAHIN, F. A survey on feature selection methods. Computers& Electrical Engineering, Elsevier, v. 40, n. 1, p. 16�28, 2014.
COLETTA, L. F. et al. Using metaheuristics to optimize the combination of classi�erand cluster ensembles. Integrated Computer-Aided Engineering, IOS Press, v. 22, n. 3, p.229�242, 2015.
CRUZ, R. M.; SABOURIN, R.; CAVALCANTI, G. D. Meta-des. oracle: Meta-learningand feature selection for dynamic ensemble selection. Information fusion, Elsevier, v. 38,p. 84�103, 2017.
CRUZ, R. M. et al. Meta-des: A dynamic ensemble selection framework usingmeta-learning. Pattern recognition, Elsevier, v. 48, n. 5, p. 1925�1935, 2015.
DANIELSSON, P.-E. Euclidean distance mapping. Computer Graphics and imageprocessing, Elsevier, v. 14, n. 3, p. 227�248, 1980.
DANTAS, C. A.; NUNES, R. d. O. et al. Investigating the impact of similarity metricsin an unsupervised-based feature selection method. In: IEEE. Intelligent Systems(BRACIS), 2017 Brazilian Conference on. [S.l.], 2017. p. 55�60.
DANTAS, C. A. et al. Dynamic feature selection based on clustering algorithm andindividual similarity. In: SPRINGER. International Conference on Arti�cial NeuralNetworks. [S.l.], 2017. p. 467�474.
DEM�AR, J. Statistical comparisons of classi�ers over multiple data sets. Journal ofMachine learning research, v. 7, n. Jan, p. 1�30, 2006.
GALLAGER, R. G. Information theory and reliable communication. [S.l.]: Springer,1968.
GARREN, S. T. Maximum likelihood estimation of the correlation coe�cient in abivariate normal model with missing data. Statistics & probability letters, Elsevier, v. 38,n. 3, p. 281�288, 1998.
GUYON, I.; ELISSEEFF, A. An introduction to variable and feature selection. Journalof machine learning research, v. 3, n. Mar, p. 1157�1182, 2003.
HALL, M. A. Correlation-based feature selection for machine learning. University ofWaikato Hamilton, 1999.
HIRA, Z. M.; GILLIES, D. F. A review of feature selection and feature extractionmethods applied on microarray data. Advances in bioinformatics, Hindawi, v. 2015, 2015.
HUANG, M.-W. et al. Svm and svm ensembles in breast cancer prediction. PloS one,Public Library of Science, v. 12, n. 1, p. e0161501, 2017.
JAIN, A.; ZONGKER, D. Feature selection: Evaluation, application, and small sampleperformance. IEEE transactions on pattern analysis and machine intelligence, IEEE,v. 19, n. 2, p. 153�158, 1997.
JESUS, J.; CANUTO, A.; ARAÚJO, D. Estudo sobre o impacto do particionamentodos dados na seleção dinâmica de atributos. In: UBERLâNDIA, MG. XIV EncontroNacional de Inteligência Arti�cial e Computacional (ENIAC). [S.l.], 2017.
97
JESUS, J.; CANUTO, A.; ARAÚJO, D. A feature selection approach based oninformation theory for classi�cation tasks. In: SPRINGER. International Conference onArti�cial Neural Networks. [S.l.], 2017. p. 359�367.
KITTLER, J.; ALKOOT, F. M. Sum versus vote fusion in multiple classi�er systems.IEEE transactions on pattern analysis and machine intelligence, IEEE, v. 25, n. 1, p.110�115, 2003.
KO, A. H.; SABOURIN, R.; JR, A. S. B. From dynamic classi�er selection to dynamicensemble selection. Pattern Recognition, Elsevier, v. 41, n. 5, p. 1718�1731, 2008.
KUNCHEVA, L. I. A theoretical study on six classi�er fusion strategies. IEEETransactions on pattern analysis and machine intelligence, IEEE, v. 24, n. 2, p. 281�286,2002.
KUNCHEVA, L. I. Combining pattern classi�ers: methods and algorithms. [S.l.]: JohnWiley & Sons, 2004.
KUNCHEVA, L. I. et al. Limits on the majority vote accuracy in classi�er fusion.Pattern Analysis & Applications, Springer, v. 6, n. 1, p. 22�31, 2003.
KUO, B.-C. et al. A kernel-based feature selection method for svm with rbf kernel forhyperspectral image classi�cation. IEEE Journal of Selected Topics in Applied EarthObservations and Remote Sensing, IEEE, v. 7, n. 1, p. 317�326, 2014.
LAW, M. H.; FIGUEIREDO, M. A.; JAIN, A. K. Simultaneous feature selection andclustering using mixture models. IEEE transactions on pattern analysis and machineintelligence, IEEE, v. 26, n. 9, p. 1154�1166, 2004.
LEMIEUX, A.; PARIZEAU, M. Flexible multi-classi�er architecture for face recognitionsystems. In: CITESEER. The 16th International Conference on Vision Interface. [S.l.],2003.
LI, J. et al. Feature selection: A data perspective. ACM Computing Surveys (CSUR),ACM, v. 50, n. 6, p. 94, 2017.
LINOFF, G. S.; MICHAEL, J. B. Mastering data mining. John Willey and Sons, NewYork, 2000.
LIU, H.; MOTODA, H. Computational methods of feature selection. [S.l.]: CRC Press,2007.
LIU, M. et al. Ensemble sparse classi�cation of alzheimer's disease. NeuroImage, Elsevier,v. 60, n. 2, p. 1106�1116, 2012.
MITCHELL, T. M. et al. Machine learning. 1997. Burr Ridge, IL: McGraw Hill, v. 45,n. 37, p. 870�877, 1997.
MORITA, M.; OLIVEIRA, L. S.; SABOURIN, R. Unsupervised feature selection forensemble of classi�ers. In: IEEE. Frontiers in Handwriting Recognition, 2004. IWFHR-92004. Ninth International Workshop on. [S.l.], 2004. p. 81�86.
98
NAKANISHI, T. A feature selection method for comparision of each concept in bigdata. In: IEEE. Computer and Information Science (ICIS), 2015 IEEE/ACIS 14thInternational Conference on. [S.l.], 2015. p. 229�234.
NAMSRAI, E. et al. A feature selection-based ensemble method for arrhythmiaclassi�cation. Journal of Information Processing Systems, Korea Information ProcessingSociety, v. 9, n. 1, p. 31�40, 2013.
NETO, A. A. F.; CANUTO, A. M. An exploratory study of mono and multi-objectivemetaheuristics to ensemble of classi�ers. Applied Intelligence, Springer, v. 48, n. 2, p.416�431, 2018.
NOVAKOVIC, J. Support vector machine as feature selection method in classi�erensembles. International Journal of Modern Education and Computer Science, ModernEducation and Computer Science Press, v. 6, n. 4, p. 1, 2014.
NUNES, R. O. et al. An unsupervised-based dynamic feature selection for classi�cationtasks. In: IEEE. IEEE World Congress on Computational Intelligence (IEEE WCCI).[S.l.], 2016. p. 4213�4220.
OLIVEIRA, D. V.; CAVALCANTI, G. D.; SABOURIN, R. Online pruning of baseclassi�ers for dynamic ensemble selection. Pattern Recognition, Elsevier, v. 72, p. 44�58,2017.
ONAN, A. Classi�er and feature set ensembles for web page classi�cation. In: Journal ofInformation Science. London, England: [s.n.], 2016. p. 150�165.
OPTZ, D. W. Feature selection for ensembles. In: AAAI/IAAI. [S.l.], 1999. p. 384.
SANTANA, L. E. A. d. S. Otimização em comitês de classi�cadores: uma abordagembaseada em �ltro para seleção de subconjuntos de atributos. Universidade Federal doRio Grande do Norte, 2012.
SEIJO-PARDO, B. et al. Ensemble feature selection: homogeneous and heterogeneousapproaches. Knowledge-Based Systems, Elsevier, v. 118, p. 124�139, 2017.
SHARDLOW, M. An analysis of feature selection techniques. The University ofManchester, 2016.
SOMASUNDARAM, G.; SHRIVASTAVA, A. et al. Armazenamento e gerenciamento deinformações: como armazenar, gerenciar e proteger informações digitais. [S.l.]: BookmanEditora, 2009.
SPRENT, P.; SMEETON, N. C. Applied nonparametric statistical methods. [S.l.]:Chapman and Hall/CRC, 2000.
WEI, Z. et al. A novel intelligent method for bearing fault diagnosis based on a�nitypropagation clustering and adaptive feature selection. Knowledge-Based Systems,Elsevier, v. 116, p. 1�12, 2017.
WITTEN, I. H. et al. Data Mining: Practical machine learning tools and techniques.[S.l.]: Morgan Kaufmann, 2016.
99
XU, J. et al. An ensemble feature selection technique for cancer recognition. Bio-medicalmaterials and engineering, IOS Press, v. 24, n. 1, p. 1001�1008, 2014.
ZENG, H.; CHEUNG, Y.-m. Feature selection and kernel learning for local learning-basedclustering. IEEE transactions on pattern analysis and machine intelligence, IEEE, v. 33,n. 8, p. 1532�1547, 2011.
ZHENG, K.; WANG, X. Feature selection method with joint maximal informationentropy between features and class. Pattern Recognition, Elsevier, v. 77, p. 20�29, 2018.
ZHOU, J. Face recognition by combining several algorithms. In: IEEE. PatternRecognition, 2002. Proceedings. 16th International Conference on. [S.l.], 2002. v. 3, p.497�500.
100
APÊNDICE A -- Resultados obtidos para todas
as con�gurações testadas
101
A.1 SD-R: Seleção Dinâmica Baseada em uma Escolha
Randômica Simples
Tabela 28: SD-R: Média da acurácia - 5 Classi�cadores5 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 89,71 89,77 90,34 90,42 89,97 90,54 91,09 92,26 91,15
b2 71,15 71,63 71,05 71,10 72,31 71,68 71,89 72,52 71,78
b3 92,77 92,81 92,75 92,43 92,79 92,58 91,52 92,61 92,61
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 99,95 99,98 99,97 99,98 99,98 99,98 99,82 99,95 99,98
b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b7 53,00 52,50 61,00 50,00 59,00 58,50 65,00 58,50 60,00
b8 99,67 100,00 99,50 98,67 98,50 98,33 98,33 99,50 99,83
b9 91,95 91,63 92,40 91,36 91,81 91,61 91,58 95,79 95,42
b10 88,05 89,32 90,79 91,21 91,26 91,95 89,53 91,05 92,68
b11 96,63 96,67 96,60 96,64 96,48 96,75 94,64 96,75 96,60
b12 90,18 94,32 95,41 84,32 91,82 96,91 97,77 97,59 97,63
b13 69,07 70,41 71,29 67,29 70,07 70,43 71,29 68,28 75,92
b14 100,00 100,00 100,00 98,80 100,00 100,00 98,40 100,00 99,98
b15 86,44 88,95 90,07 89,29 89,44 89,76 85,50 88,64 88,97
b16 65,20 65,79 65,49 65,38 65,28 66,24 65,70 66,28 66,10
b17 54,56 53,62 54,38 54,56 53,53 54,26 58,59 54,32 55,02
b18 79,45 80,00 78,55 80,00 79,40 78,90 79,80 79,70 79,60
b19 55,11 54,93 56,19 55,74 58,26 56,63 60,96 56,92 54,33
b20 65,91 69,27 67,84 67,76 68,48 68,10 68,22 68,32 67,48
102
Tabela 29: SD-R: Desvio Padrão - 5 Classi�cadores5 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 5,175 5,128 5,175 5,068 4,424 5,379 5,794 4,832 5,757
b2 9,746 10,287 9,855 9,813 9,618 9,526 9,709 10,126 10,183
b3 2,886 2,407 2,990 3,046 2,940 2,430 2,665 2,893 2,911
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,278 0,120 0,135 0,119 0,193 0,137 0,270 0,119 0,108
b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b7 32,355 33,368 32,191 33,754 33,511 35,491 34,841 33,700 35,131
b8 1,413 0,000 3,782 3,752 3,141 2,855 2,030 3,808 1,374
b9 3,250 3,140 3,383 2,818 3,275 3,386 2,719 3,018 3,573
b10 5,769 5,463 5,867 5,505 6,059 5,579 5,689 5,973 6,362
b11 1,397 1,703 1,643 1,773 1,219 1,414 1,598 1,369 1,338
b12 4,067 3,937 3,886 3,991 3,071 3,523 3,677 3,361 4,073
b13 12,712 11,563 12,462 11,276 12,673 11,277 12,176 11,732 12,614
b14 0,000 0,000 0,000 2,995 0,000 0,000 2,031 0,000 2,487
b15 4,367 4,238 4,380 3,878 4,292 4,598 3,331 3,434 4,860
b16 7,280 5,809 6,412 5,427 5,940 5,902 6,161 5,533 6,218
b17 7,646 8,561 7,613 8,616 7,979 7,557 7,911 8,383 8,454
b18 8,726 9,121 9,702 7,353 8,050 7,329 7,747 9,216 9,221
b19 11,046 10,189 8,705 11,176 10,821 9,329 10,077 11,356 10,575
b20 4,839 4,433 4,471 4,561 4,269 4,749 4,504 4,647 4,308
103
Tabela 30: SD-R: Média da acurácia - 10 Classi�cadores10 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 91,03 91,74 91,14 91,74 90,86 89,63 90,69 89,71 89,03
b2 72,74 73,16 73,74 73,38 72,68 73,28 73,26 71,68 71,21
b3 90,98 91,84 92,97 90,41 91,09 92,14 89,17 90,13 91,34
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 99,83 99,97 99,95 100,00 99,97 99,98 99,85 100,00 99,98
b6 98,58 98,33 99,50 98,42 97,75 99,33 98,67 98,17 99,58
b7 52,50 54,00 53,00 55,50 54,00 51,50 59,50 56,00 59,00
b8 98,17 99,67 99,33 98,33 99,50 100,00 98,00 99,50 99,67
b9 90,51 91,05 91,99 92,42 92,05 92,44 92,07 91,24 92,00
b10 87,84 90,00 92,16 88,32 91,11 93,58 88,79 90,47 92,89
b11 93,41 95,75 96,92 94,24 96,36 97,21 94,04 96,47 97,38
b12 94,86 96,91 93,32 96,73 96,95 95,55 97,82 96,86 96,45
b13 65,43 65,86 72,14 70,93 67,79 80,00 71,07 69,57 82,00
b14 96,10 100,00 100,00 96,60 99,90 100,00 99,00 100,00 100,00
b15 80,44 81,83 86,75 80,23 86,08 88,64 82,93 87,31 88,23
b16 61,09 64,72 64,46 64,98 66,03 66,78 64,97 67,04 67,72
b17 54,56 52,88 57,85 54,68 56,32 59,32 58,53 53,62 58,62
b18 75,00 79,90 82,50 76,85 78,95 81,75 75,90 79,90 80,55
b19 62,07 61,22 63,74 64,33 58,67 64,67 62,85 57,37 62,26
b20 65,03 68,33 69,27 67,82 68,31 68,51 67,11 68,02 67,07
104
Tabela 31: SD-R: Desvio Padrão - 10 Classi�cadores10 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 4,508 5,013 4,844 5,482 5,470 5,303 4,500 4,332 5,140
b2 9,701 10,339 10,381 9,687 10,201 10,296 9,998 10,284 10,344
b3 2,784 2,910 2,804 2,418 2,713 2,852 2,765 2,661 3,056
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,114 0,177 0,227 0,000 0,254 0,192 0,244 0,000 0,285
b6 0,307 0,281 0,182 0,195 0,152 0,265 0,285 0,292 0,217
b7 34,096 32,521 35,149 33,576 32,720 35,149 34,669 35,089 32,997
b8 3,020 2,993 1,368 2,222 1,826 0,000 1,850 3,689 3,480
b9 2,807 2,947 3,203 3,385 3,093 3,047 2,724 2,893 3,228
b10 6,238 6,009 5,026 5,945 5,614 5,613 5,164 6,141 5,455
b11 1,348 1,406 1,425 1,528 1,537 1,437 1,439 1,509 1,595
b12 4,426 4,084 3,600 4,248 3,202 3,091 3,126 3,246 3,486
b13 11,603 11,023 12,080 11,191 11,293 12,262 12,719 12,948 12,142
b14 4,990 0,000 0,000 2,925 3,233 0,000 2,120 0,000 0,000
b15 3,998 4,623 3,931 4,282 4,610 4,718 4,790 3,605 3,714
b16 8,143 7,077 6,763 7,145 7,868 6,862 5,707 6,589 6,498
b17 8,659 8,244 8,334 8,364 7,916 8,120 8,168 7,688 8,174
b18 9,145 8,394 9,542 9,248 8,208 8,472 8,282 9,372 9,256
b19 9,748 10,512 11,241 10,774 10,546 8,817 9,631 10,214 9,832
b20 4,050 4,229 4,834 4,016 4,864 4,078 4,669 4,500 4,218
105
Tabela 32: SD-R: Média da acurácia - 15 Classi�cadores15 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 92,11 92,89 91,80 92,71 92,06 91,40 91,32 90,37 89,89
b2 74,11 76,26 76,12 75,32 74,88 75,79 71,89 73,84 72,21
b3 93,11 95,32 95,62 93,20 94,52 92,97 92,47 92,40 92,74
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 99,82 99,97 100,00 99,77 99,97 100,00 100,00 99,98 99,97
b6 100,00 100,00 99,50 100,00 100,00 99,83 100,00 100,00 99,25
b7 60,80 62,50 65,50 62,50 61,45 57,50 60,00 68,50 58,50
b8 98,33 99,67 99,83 98,67 100,00 99,83 99,83 99,50 100,00
b9 91,11 91,89 92,09 93,06 92,69 93,17 95,43 91,59 91,34
b10 89,11 88,84 90,62 88,42 90,37 92,53 92,68 91,58 92,95
b11 93,17 95,69 96,50 94,58 96,21 97,16 96,60 96,61 97,48
b12 94,36 96,55 95,86 96,50 96,95 97,05 93,64 97,95 96,95
b13 65,86 65,93 77,29 64,07 69,21 79,43 72,79 69,93 82,14
b14 97,40 100,00 100,00 97,80 100,00 100,00 100,00 100,00 100,00
b15 80,11 84,76 89,60 82,14 88,92 89,48 89,92 89,69 90,71
b16 58,61 64,58 68,58 59,62 63,83 68,04 63,47 68,26 69,57
b17 54,44 55,50 60,59 54,12 52,50 60,62 53,68 54,59 61,00
b18 77,40 81,90 82,50 76,30 80,40 82,20 79,60 80,65 82,15
b19 63,70 61,89 69,41 62,96 58,41 66,41 54,85 55,85 64,67
b20 70,23 71,17 71,49 69,39 70,22 70,46 69,13 68,84 68,60
106
Tabela 33: SD-R: Desvio Padrão - 15 Classi�cadores15 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 5,157 4,483 5,307 5,199 4,384 4,385 4,529 4,329 4,953
b2 10,232 10,017 9,920 10,264 9,498 10,308 9,508 9,917 9,543
b3 2,792 2,403 2,937 2,994 3,042 3,091 2,754 2,590 2,471
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,184 0,279 0,000 0,186 0,260 0,000 0,000 0,229 0,170
b6 0,000 0,000 0,282 0,000 0,000 0,193 0,000 0,000 0,275
b7 33,413 33,366 33,262 32,491 32,910 32,304 33,503 32,900 33,041
b8 2,275 1,358 2,485 3,119 0,000 3,355 1,222 2,182 0,000
b9 2,587 2,302 2,546 2,485 2,648 2,527 2,480 3,079 3,471
b10 6,315 5,310 5,676 5,526 5,733 5,371 5,096 5,611 5,243
b11 1,216 1,773 1,458 1,777 1,657 1,204 1,608 1,624 1,587
b12 3,828 3,327 4,159 3,342 3,556 4,336 4,285 3,604 3,477
b13 12,217 12,820 12,818 12,183 11,665 12,706 11,885 12,809 11,066
b14 3,551 0,000 0,000 2,943 0,000 0,000 0,000 0,000 0,000
b15 4,184 3,740 3,686 3,689 3,547 4,830 4,797 4,610 4,465
b16 5,615 6,261 5,661 5,004 6,107 7,449 7,188 6,901 6,537
b17 7,845 8,102 8,414 8,415 8,191 8,397 8,275 7,648 8,105
b18 8,172 7,458 7,614 7,755 9,082 8,408 9,144 7,919 7,227
b19 10,044 9,310 11,244 11,129 9,639 8,572 10,447 10,928 11,317
b20 4,057 4,450 4,582 4,687 4,719 4,650 4,727 4,374 4,582
107
Tabela 34: SD-R: Média da acurácia - 25 Classi�cadores25 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 90,46 91,60 91,40 91,43 90,91 90,23 90,51 89,54 89,57
b2 74,32 73,21 74,16 75,00 73,32 74,42 72,47 71,26 69,84
b3 92,68 94,78 95,97 93,34 94,89 95,86 91,78 93,78 94,11
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 99,65 99,98 100,00 99,75 99,95 99,98 99,70 99,95 99,97
b6 100,00 99,92 99,67 100,00 100,00 99,08 100,00 100,00 99,17
b7 49,50 41,00 45,00 54,50 48,00 46,50 48,50 50,50 63,50
b8 97,17 100,00 98,83 97,67 99,83 100,00 97,83 100,00 100,00
b9 89,98 92,49 91,70 92,24 91,58 93,21 91,41 91,02 91,63
b10 85,21 88,63 90,89 87,26 87,89 91,79 87,32 90,53 92,26
b11 92,71 95,03 96,26 93,97 96,18 96,85 94,09 96,20 97,06
b12 95,23 93,68 92,41 92,73 95,23 96,91 96,73 95,73 96,50
b13 57,21 63,07 72,29 62,57 68,07 75,29 68,79 65,93 77,79
b14 96,40 99,90 99,70 95,70 100,00 100,00 97,30 100,00 100,00
b15 76,87 84,15 88,42 81,69 87,76 89,29 84,79 88,49 89,57
b16 57,95 62,21 65,61 59,97 64,64 67,97 64,04 66,67 68,75
b17 52,97 51,26 58,88 50,94 55,59 60,29 56,85 51,91 58,68
b18 76,50 77,45 80,20 74,20 74,20 79,65 76,50 77,40 80,05
b19 61,11 57,15 64,11 61,67 57,19 65,15 57,67 54,07 59,30
b20 68,36 69,80 69,80 69,64 71,15 70,61 69,09 69,15 70,30
108
Tabela 35: SD-R: Desvio Padrão - 25 Classi�cadores25 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 4,474 4,386 5,770 4,727 5,192 5,743 4,579 4,590 4,812
b2 10,333 9,791 9,673 9,552 9,797 9,775 9,531 9,835 9,492
b3 2,830 2,408 2,801 2,953 2,565 2,714 2,799 2,443 2,747
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,282 0,218 0,000 0,133 0,117 0,148 0,263 0,273 0,233
b6 0,000 0,148 0,221 0,000 0,000 0,308 0,000 0,000 0,207
b7 32,212 34,540 33,948 33,853 34,905 35,006 34,762 33,112 33,583
b8 3,257 0,000 1,329 1,810 2,574 0,000 3,131 0,000 0,000
b9 3,405 3,485 3,131 2,632 2,415 3,390 3,060 3,533 2,379
b10 5,818 5,399 6,159 5,267 5,620 5,551 6,157 5,948 5,291
b11 1,391 1,280 1,603 1,543 1,302 1,289 1,486 1,745 1,531
b12 3,049 3,081 4,208 3,677 3,574 4,184 3,546 3,799 4,067
b13 12,743 11,657 12,300 12,950 11,152 12,174 11,828 11,618 11,528
b14 4,252 4,985 2,478 4,322 0,000 0,000 4,387 0,000 0,000
b15 4,097 4,594 3,870 3,417 4,246 4,756 3,610 3,992 4,499
b16 5,137 8,312 7,673 6,956 5,643 6,743 6,812 8,480 7,992
b17 8,655 8,315 7,984 8,622 8,075 7,778 7,976 8,346 8,170
b18 9,319 9,987 9,895 8,698 9,899 7,524 7,344 8,052 8,825
b19 10,040 11,114 10,068 9,753 10,074 10,566 8,548 10,823 8,913
b20 4,478 4,257 4,369 4,662 4,170 4,279 4,198 4,195 4,327
109
A.2 SD-P: Seleção Dinâmica Baseada em uma Escolha
Randômica Baseada em Proporções
Tabela 36: SD-P: Média da acurácia - 5 Classi�cadores5 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 90,06 90,20 89,86 89,90 90,23 89,80 88,54 91,51 91,40
b2 71,63 72,32 71,84 72,53 72,32 72,05 69,52 70,78 70,47
b3 92,65 92,99 92,83 93,15 92,41 92,54 93,15 93,17 96,54
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 99,92 99,97 100,00 99,97 99,98 99,97 99,98 99,95 99,97
b6 100,00 100,00 100,00 100,00 100,00 100,00 99,50 99,41 99,41
b7 62,00 64,50 62,50 61,00 62,00 64,00 55,00 58,00 59,50
b8 99,67 99,50 99,50 99,83 99,00 99,50 99,50 99,50 99,16
b9 92,81 90,20 93,01 90,66 90,41 92,24 95,53 95,79 95,51
b10 91,16 92,42 92,11 91,37 91,84 90,95 92,15 91,05 94,84
b11 96,81 96,86 96,64 96,62 97,01 96,71 88,89 96,75 97,52
b12 96,27 96,14 97,77 97,23 97,18 96,45 97,50 97,59 96,72
b13 70,36 69,14 69,14 72,07 72,29 72,29 80,92 81,07 81,97
b14 98,50 98,80 99,08 99,02 99,50 100,00 100,00 100,00 99,98
b15 88,26 89,13 89,38 90,31 89,19 89,27 90,32 90,07 89,19
b16 67,04 64,92 65,91 65,33 65,26 65,92 68,22 68,05 68,30
b17 53,47 54,00 52,91 53,91 53,88 53,91 53,67 62,17 62,11
b18 79,50 80,25 79,40 79,95 79,80 80,45 81,35 81,75 81,75
b19 57,41 55,15 55,89 56,96 55,74 55,56 60,77 61,70 60,74
b20 68,78 68,16 68,44 68,67 68,79 69,80 67,63 69,14 68,28
110
Tabela 37: SD-P: Desvio Padrão - 5 Classi�cadores5 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 5,621 5,007 4,906 4,569 5,753 4,911 5,567 5,223 4,865
b2 10,277 10,185 9,865 10,214 10,298 9,829 9,734 9,997 10,302
b3 2,891 2,664 2,914 3,068 2,780 2,778 2,618 2,450 2,527
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,124 0,102 0,238 0,167 0,248 0,183 0,183 0,109 0,109
b6 0,000 0,000 0,000 0,000 0,000 0,000 0,203 0,146 0,148
b7 33,879 34,667 33,216 33,614 34,238 35,211 32,566 34,505 34,022
b8 2,300 3,653 2,179 1,537 2,900 2,872 1,984 3,409 3,998
b9 3,575 2,465 2,602 2,331 3,090 2,444 2,830 3,449 3,013
b10 5,517 5,292 5,617 6,339 5,174 5,659 6,200 5,061 5,968
b11 1,787 1,370 1,280 1,611 1,746 1,567 1,740 1,316 1,653
b12 3,519 3,628 3,234 4,229 3,937 4,108 4,208 3,101 4,426
b13 11,995 12,510 12,485 12,662 11,313 11,915 12,236 12,864 12,670
b14 4,676 3,706 3,707 4,550 2,008 0,000 0,000 0,000 4,213
b15 3,548 3,530 4,270 3,707 3,819 3,943 3,950 3,918 4,276
b16 5,584 5,658 5,331 6,131 7,694 5,819 7,591 7,425 7,884
b17 8,494 7,852 7,871 8,128 7,890 8,498 8,472 8,168 7,816
b18 9,106 7,854 8,478 8,277 8,708 9,977 9,315 9,945 7,857
b19 10,033 8,649 10,695 10,246 10,986 11,366 11,196 9,688 8,501
b20 4,541 4,208 4,219 4,326 4,096 4,748 4,749 4,543 4,338
111
Tabela 38: SD-P: Média da acurácia - 10 Classi�cadores10 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 90,74 91,40 91,14 91,60 90,83 89,86 90,97 89,57 89,34
b2 72,89 72,21 73,79 75,11 73,63 73,16 74,47 72,37 72,16
b3 90,39 92,22 92,67 88,35 91,87 90,79 88,60 89,72 90,08
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 99,87 99,98 100,00 99,87 99,93 99,98 99,80 99,98 99,97
b6 98,50 98,33 99,83 98,33 99,17 99,33 98,08 99,08 99,33
b7 58,00 48,50 51,00 60,50 60,50 58,00 50,00 56,50 58,00
b8 98,33 99,17 98,50 97,83 99,00 99,50 98,33 99,67 99,50
b9 92,55 93,32 91,99 93,32 92,35 92,65 90,61 91,53 90,87
b10 86,95 90,63 92,42 88,26 90,26 93,42 89,16 91,53 93,00
b11 93,38 95,97 97,06 93,72 96,13 97,36 94,26 96,54 97,26
b12 94,36 89,36 96,95 95,00 95,50 96,86 94,05 97,77 95,23
b13 63,79 66,21 78,21 67,43 66,07 80,43 65,57 64,08 78,20
b14 96,50 99,80 99,50 97,20 100,00 100,00 96,80 100,00 100,00
b15 73,85 81,71 87,20 82,07 87,01 88,58 80,79 86,85 87,95
b16 57,42 63,64 67,24 65,04 66,34 68,55 57,34 65,91 67,30
b17 53,82 53,56 60,15 59,26 55,53 59,56 52,76 62,79 58,82
b18 74,40 79,55 83,00 75,45 80,35 82,90 76,60 81,80 79,85
b19 57,70 62,78 69,26 61,70 64,59 65,07 59,15 55,78 61,26
b20 68,19 67,47 67,42 69,25 67,99 69,77 67,52 67,75 68,99
112
Tabela 39: SD-P: Desvio Padrão - 10 Classi�cadores10 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 5,127 5,508 5,351 5,608 4,378 4,630 4,989 5,738 5,485
b2 9,852 9,733 9,459 10,141 9,907 9,600 9,827 9,569 10,152
b3 2,658 3,059 2,412 2,980 2,839 2,777 2,855 2,909 2,466
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,264 0,111 0,000 0,200 0,232 0,140 0,203 0,233 0,282
b6 0,193 0,118 0,112 0,232 0,267 0,245 0,173 0,299 0,209
b7 35,338 32,258 32,725 34,713 35,200 34,739 33,034 32,531 34,968
b8 3,355 1,812 1,683 1,963 3,489 3,467 2,712 2,715 1,858
b9 3,209 3,335 2,874 2,880 2,905 2,663 3,178 3,475 3,481
b10 6,046 5,365 5,965 5,185 5,173 5,267 5,204 5,819 5,103
b11 1,693 1,634 1,756 1,496 1,593 1,734 1,523 1,369 1,786
b12 3,055 3,489 4,460 3,548 3,464 3,181 4,374 3,203 3,498
b13 12,795 11,999 12,231 12,166 12,397 11,059 12,056 11,064 12,654
b14 2,954 4,525 2,663 3,703 0,000 0,000 2,067 0,000 0,000
b15 4,258 3,482 4,574 4,289 3,412 3,411 3,518 4,562 3,448
b16 5,833 5,853 5,367 8,004 7,444 7,568 7,277 6,807 6,142
b17 8,294 7,641 7,677 7,524 8,657 8,664 7,649 8,061 8,288
b18 8,013 9,313 8,763 8,398 7,948 9,310 9,715 9,240 8,339
b19 11,221 9,241 10,046 11,269 9,276 9,225 11,190 8,699 9,368
b20 4,592 4,203 4,636 4,798 4,502 4,651 4,796 4,233 4,601
113
Tabela 40: SD-P: Média da acurácia - 15 Classi�cadores15 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 92,31 92,89 93,17 91,66 93,17 92,43 92,63 91,94 92,54
b2 77,26 76,37 77,26 76,53 75,95 75,37 76,95 76,74 76,79
b3 92,86 95,18 95,51 93,20 95,59 95,40 93,44 95,20 95,14
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 99,78 99,97 99,97 99,82 99,98 99,92 99,75 99,97 100,00
b6 100,00 100,00 100,00 100,00 99,92 100,00 100,00 100,00 100,00
b7 63,00 63,00 58,50 63,50 56,50 59,00 60,00 60,50 66,00
b8 98,00 99,83 98,00 98,33 99,83 98,00 98,33 100,00 98,67
b9 90,59 92,27 91,53 91,24 92,86 92,84 92,98 92,76 89,69
b10 87,26 90,74 89,32 88,05 89,95 91,26 90,42 92,21 90,05
b11 93,03 95,19 95,03 93,09 95,99 96,29 94,55 96,81 95,03
b12 94,39 94,09 92,64 96,59 96,64 98,14 95,65 96,86 90,59
b13 63,21 65,43 66,86 62,29 66,00 65,93 68,21 68,71 67,43
b14 96,30 100,00 99,80 98,00 100,00 99,90 97,20 100,00 100,00
b15 75,67 84,64 84,38 74,94 84,23 87,07 79,65 91,82 83,74
b16 61,51 65,47 64,96 59,21 64,29 64,53 61,26 62,12 61,82
b17 54,06 53,62 53,29 52,97 54,24 54,38 56,26 56,91 52,56
b18 77,10 79,85 78,35 77,40 80,80 78,70 79,80 81,15 80,65
b19 61,48 60,07 59,81 60,30 60,81 62,93 61,59 59,22 61,81
b20 69,01 69,84 69,92 68,68 70,86 70,87 70,16 71,49 69,65
114
Tabela 41: SD-P: Desvio Padrão - 15 Classi�cadores15 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 5,589 4,811 4,507 5,062 5,585 4,876 5,344 5,242 4,976
b2 9,874 10,350 9,483 9,680 9,847 9,988 10,278 9,869 9,837
b3 2,922 2,728 3,003 2,727 2,749 2,741 2,561 2,460 2,447
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,223 0,270 0,192 0,103 0,218 0,144 0,200 0,238 0,000
b6 0,000 0,000 0,000 0,000 0,102 0,000 0,000 0,000 0,000
b7 35,102 32,864 32,031 34,852 32,492 35,080 32,334 33,234 34,077
b8 2,756 3,003 2,944 2,300 1,419 3,256 1,725 0,000 3,572
b9 2,410 3,564 2,341 3,386 3,386 2,365 3,010 3,526 2,718
b10 6,129 5,842 6,105 6,119 5,069 5,396 5,915 5,686 6,362
b11 1,649 1,541 1,379 1,354 1,732 1,468 1,690 1,259 1,716
b12 3,041 4,349 4,350 3,786 3,180 3,267 4,059 4,247 3,052
b13 12,516 12,914 11,686 12,276 11,686 11,433 12,572 12,446 11,558
b14 3,706 0,000 2,185 1,974 0,000 2,763 2,953 0,000 0,000
b15 3,939 4,416 3,626 4,366 4,009 3,993 3,580 3,609 4,286
b16 5,942 6,959 8,307 7,501 7,377 8,358 7,714 7,127 8,318
b17 7,572 7,822 8,684 8,427 8,070 8,317 8,000 7,956 7,756
b18 8,272 7,283 8,522 8,133 9,932 8,755 9,570 8,343 8,494
b19 10,896 11,374 10,019 11,184 10,643 10,146 11,309 10,891 11,283
b20 4,646 4,380 4,477 4,912 4,015 4,157 4,472 4,543 4,060
115
Tabela 42: SD-P: Média da acurácia - 25 Classi�cadores25 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 90,26 89,91 89,86 89,97 90,29 90,31 90,06 89,80 89,63
b2 71,21 71,84 71,42 71,32 72,68 73,68 71,63 71,47 72,21
b3 92,77 92,33 91,66 92,15 92,49 92,62 92,65 92,99 93,05
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 99,95 99,92 99,97 99,97 99,97 99,97 99,92 99,93 99,97
b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b7 57,00 64,00 61,00 60,50 62,50 65,00 59,00 58,00 59,50
b8 99,50 99,67 99,33 100,00 99,67 99,67 99,67 99,67 99,33
b9 92,45 91,48 92,09 92,76 92,55 91,99 92,81 90,46 91,38
b10 92,21 91,11 91,00 91,89 91,58 91,21 91,16 91,21 92,53
b11 96,55 96,55 96,39 96,62 96,60 96,80 96,81 96,53 97,03
b12 96,36 95,95 97,77 97,59 97,18 96,36 96,27 97,27 97,27
b13 71,29 69,86 70,36 70,79 69,00 72,07 70,36 70,00 71,57
b14 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b15 89,25 88,43 89,80 88,85 88,96 88,95 88,26 89,44 89,17
b16 65,07 66,05 65,97 67,66 66,16 64,71 67,04 65,39 64,26
b17 54,21 54,56 53,94 53,76 54,29 53,85 53,47 53,59 55,12
b18 79,50 80,35 78,75 79,35 80,90 79,85 79,50 79,70 79,70
b19 56,59 58,48 55,89 55,93 56,56 56,11 57,41 57,00 56,15
b20 69,04 68,00 67,72 68,69 68,16 69,02 68,78 67,70 68,30
116
Tabela 43: SD-P: Desvio Padrão - 25 Classi�cadores25 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 4,692 4,442 4,976 5,260 4,498 4,979 5,278 5,540 4,762
b2 9,802 10,284 10,101 9,642 10,160 9,691 9,677 9,406 9,775
b3 2,706 2,613 2,604 2,570 3,056 3,002 2,678 2,736 2,795
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,132 0,281 0,203 0,148 0,210 0,274 0,270 0,192 0,184
b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b7 33,008 32,876 33,709 34,552 32,709 32,757 35,417 34,076 33,065
b8 3,903 3,688 1,570 1,005 3,135 3,603 1,355 1,117 2,795
b9 3,086 2,971 2,310 3,196 3,530 3,436 2,447 2,761 2,615
b10 5,784 5,858 5,421 6,117 6,114 6,094 5,492 5,076 5,992
b11 1,796 1,297 1,268 1,748 1,489 1,711 1,686 1,312 1,348
b12 3,081 3,913 4,166 3,767 3,042 4,486 3,751 3,498 3,261
b13 12,251 12,150 12,502 11,307 11,714 11,288 12,701 11,676 11,550
b14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b15 4,836 4,254 4,594 4,875 4,717 3,642 3,355 4,022 3,322
b16 6,658 8,329 5,871 6,352 6,510 7,908 7,886 6,585 6,332
b17 8,611 8,389 8,385 8,636 8,112 8,450 8,043 8,519 7,969
b18 9,267 9,934 8,665 8,404 7,780 8,106 7,510 8,251 8,124
b19 9,492 10,870 10,042 10,011 10,745 8,849 10,314 9,505 9,470
b20 4,575 4,864 4,199 4,672 4,902 4,199 4,298 4,497 4,890
117
A.3 SD-D: Seleção Dinâmica Baseada em uma Escolha
Determinística
Tabela 44: SD-D: Média da acurácia - 5 Classi�cadores5 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 92,23 91,63 90,91 90,97 91,83 91,20 92,31 91,31 90,22
b2 71,89 71,63 71,68 71,95 72,68 71,82 72,73 72,52 74,47
b3 94,97 93,63 92,94 95,70 94,02 93,59 95,23 93,88 92,16
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 99,95 100,00 99,98 100,00 99,98 99,98 100,00 99,98 100,00
b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b7 56,50 55,00 63,50 63,50 62,50 63,50 62,50 61,50 62,00
b8 99,17 100,00 99,33 99,50 99,83 99,00 99,83 100,00 99,83
b9 89,92 92,55 91,80 91,72 92,31 91,84 95,94 96,24 95,66
b10 93,05 92,37 91,16 88,11 91,37 93,37 88,89 90,42 91,00
b11 96,85 96,72 96,81 96,65 97,30 97,49 96,72 97,32 97,30
b12 96,64 97,41 97,45 95,95 96,64 97,45 88,18 91,00 92,04
b13 71,93 72,93 76,93 72,43 77,86 81,86 73,64 79,35 81,71
b14 92,90 98,20 99,70 99,40 100,00 100,00 98,40 99,80 99,90
b15 89,95 92,54 94,01 89,11 93,81 93,50 90,75 95,11 96,55
b16 58,70 64,30 66,58 65,87 67,66 67,66 66,56 67,72 67,32
b17 52,76 54,97 60,47 58,26 59,74 68,09 58,58 58,26 60,73
b18 80,35 80,55 79,65 84,15 83,60 82,55 83,60 83,15 84,65
b19 58,07 58,85 57,59 63,93 62,07 58,44 66,29 70,07 73,70
b20 69,10 68,87 67,73 67,92 69,60 68,21 68,48 70,00 71,58
118
Tabela 45: SD-D: Desvio Padrão - 5 Classi�cadores5 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 5,549 5,129 5,736 5,639 4,835 5,120 4,820 5,234 5,495
b2 10,146 9,526 10,222 9,425 9,814 10,131 10,181 9,767 10,145
b3 3,025 2,570 2,491 2,558 2,645 2,601 3,049 2,436 2,815
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,163 0,000 0,278 0,000 0,283 0,183 0,000 0,101 0,000
b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b7 33,093 34,046 34,905 33,017 33,409 35,017 34,152 35,469 32,713
b8 3,482 0,000 1,747 2,427 2,197 2,798 3,402 0,000 3,464
b9 3,393 2,761 2,859 3,044 3,211 3,265 3,285 2,806 2,858
b10 6,339 5,802 6,190 5,387 5,871 5,824 6,349 5,120 5,701
b11 1,513 1,254 1,743 1,731 1,463 1,669 1,289 1,572 1,356
b12 3,668 4,266 3,294 3,456 3,725 3,507 4,198 4,481 3,239
b13 11,474 12,404 11,751 12,947 12,945 12,287 12,720 11,804 12,264
b14 4,954 3,634 4,794 4,133 0,000 0,000 4,652 2,516 3,126
b15 4,887 3,944 4,354 4,742 4,893 4,345 3,473 3,358 4,289
b16 6,985 8,367 7,611 7,319 6,832 5,910 8,367 6,891 5,106
b17 8,336 8,124 7,571 8,568 7,896 7,776 7,637 7,873 7,774
b18 9,026 7,385 7,971 7,989 9,664 8,444 9,317 8,889 9,393
b19 8,830 11,338 10,961 8,647 9,852 9,444 10,328 9,168 10,182
b20 4,603 4,600 4,448 4,035 4,514 4,408 4,108 4,460 4,451
119
Tabela 46: SD-D: Média da acurácia - 10 Classi�cadores10 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 92,46 91,81 91,46 92,06 91,14 90,66 96,76 89,52 90,28
b2 72,89 74,00 74,21 73,68 73,89 73,59 76,00 76,10 73,73
b3 94,90 94,17 94,90 95,55 93,66 92,73 95,78 93,77 91,86
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 100,00 99,97 100,00 99,98 100,00 99,98 99,75 100,00 99,98
b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b7 55,00 57,50 64,50 58,50 58,50 58,50 57,00 60,00 58,00
b8 99,33 99,67 99,83 99,17 99,33 99,83 99,66 99,66 99,83
b9 92,45 92,65 92,49 92,57 93,24 92,71 96,19 96,43 95,65
b10 86,79 88,37 89,84 86,79 89,47 90,89 88,15 89,52 90,10
b11 96,58 97,19 97,21 96,64 97,14 97,28 97,15 97,27 97,27
b12 93,50 94,82 96,50 92,59 93,55 95,09 90,70 92,63 93,90
b13 72,36 79,36 76,36 72,57 78,57 82,43 74,42 79,78 78,85
b14 98,70 99,90 98,70 98,40 99,40 99,40 99,70 99,70 99,90
b15 90,70 93,76 90,70 90,12 94,17 94,42 92,14 95,97 96,55
b16 65,07 67,67 65,07 67,67 67,43 68,16 68,71 69,92 68,30
b17 54,32 56,74 57,97 59,62 59,82 60,00 57,05 60,64 61,02
b18 81,55 82,80 81,55 82,20 83,20 82,75 84,85 86,85 85,05
b19 63,19 62,89 66,19 67,85 62,93 66,74 69,81 74,44 75,25
b20 67,49 69,52 69,82 70,85 70,17 69,84 71,49 73,79 72,64
120
Tabela 47: SD-D: Desvio Padrão - 10 Classi�cadores10 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 4,469 5,074 5,557 5,681 5,047 4,716 5,279 5,676 5,065
b2 10,374 9,597 9,511 9,697 9,796 9,821 9,711 10,094 9,492
b3 2,681 2,607 2,615 2,474 2,816 2,598 2,509 2,400 2,599
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,000 0,177 0,000 0,209 0,000 0,141 0,199 0,000 0,193
b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b7 34,588 33,837 34,816 34,859 32,663 32,433 34,873 34,233 32,056
b8 3,688 2,546 2,634 2,819 3,281 3,566 2,149 1,254 3,202
b9 2,732 3,392 2,783 3,377 2,529 2,468 3,444 2,357 3,193
b10 6,027 5,612 5,532 6,372 5,559 5,616 5,220 5,456 5,440
b11 1,737 1,348 1,386 1,445 1,625 1,286 1,723 1,250 1,477
b12 3,046 4,130 4,050 3,322 4,020 3,836 4,276 3,838 4,353
b13 11,839 11,716 11,978 11,512 12,858 11,934 11,508 11,862 12,405
b14 3,147 2,464 4,554 3,711 3,058 2,587 2,579 3,519 3,244
b15 4,486 3,413 4,656 4,388 3,519 4,673 3,620 4,272 4,169
b16 5,568 5,020 7,700 7,677 6,474 5,199 7,050 5,610 7,550
b17 8,141 7,804 8,600 8,410 8,564 7,583 7,720 8,384 8,336
b18 9,376 8,605 8,391 8,911 9,596 9,078 8,666 8,037 9,171
b19 9,607 10,146 11,075 10,945 11,107 11,223 10,865 8,504 8,509
b20 4,087 4,261 4,023 4,424 4,341 4,541 4,926 4,298 4,338
121
Tabela 48: SD-D: Média da acurácia - 15 Classi�cadores15 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 93,16 92,21 92,49 93,51 93,20 92,51 93,37 92,11 90,36
b2 76,68 77,53 76,47 77,32 76,74 76,77 74,78 74,78 72,10
b3 96,97 95,93 96,02 96,82 96,57 94,51 96,96 94,80 92,05
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 100,00 100,00 100,00 100,00 100,00 100,00 100,00 99,98 99,98
b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b7 65,00 65,00 65,50 61,00 64,00 68,50 58,50 63,00 63,50
b8 99,83 100,00 100,00 100,00 100,00 100,00 100,00 99,83 100,00
b9 92,45 93,57 93,53 96,18 96,33 96,24 96,25 96,58 96,21
b10 92,45 90,89 94,00 90,51 91,05 92,79 89,26 89,00 88,47
b11 96,43 96,85 96,56 97,09 97,36 97,42 96,89 97,14 97,21
b12 93,82 94,82 95,50 94,23 96,55 97,18 90,18 92,68 93,86
b13 75,29 76,93 78,57 77,71 82,21 81,64 76,07 82,14 80,00
b14 99,10 100,00 100,00 99,60 99,80 100,00 99,60 99,90 100,00
b15 91,00 95,46 96,07 92,54 95,57 96,13 92,77 96,22 97,00
b16 66,74 68,71 67,83 69,95 69,86 68,45 68,02 69,98 68,15
b17 58,09 59,29 61,09 60,65 62,04 62,59 59,98 61,88 62,29
b18 81,90 83,00 82,93 84,00 87,10 84,90 83,90 86,95 84,70
b19 69,19 71,44 72,19 71,78 73,15 74,53 71,07 73,00 74,48
b20 70,84 71,49 71,95 70,62 71,30 70,96 71,70 73,37 73,37
122
Tabela 49: SD-D: Desvio Padrão - 15 Classi�cadores15 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 5,287 5,634 4,464 4,957 4,720 5,778 5,213 4,681 4,499
b2 9,945 10,228 10,237 10,233 9,604 9,944 10,275 9,521 10,256
b3 3,030 2,553 2,454 2,732 2,985 2,729 2,690 2,752 2,488
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,264 0,180
b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b7 32,228 33,176 32,015 34,898 33,776 33,282 32,793 33,872 33,013
b8 1,205 0,000 0,000 0,000 0,000 0,000 0,000 2,061 0,000
b9 3,040 3,438 2,753 2,354 2,485 2,400 3,263 2,893 3,169
b10 5,979 5,800 5,880 6,229 5,927 6,226 5,655 5,198 5,095
b11 1,629 1,385 1,603 1,591 1,519 1,629 1,503 1,493 1,499
b12 4,404 3,584 3,176 3,361 4,027 4,259 4,455 3,323 4,141
b13 12,168 11,806 12,020 11,991 12,303 12,487 11,604 11,179 12,652
b14 3,108 0,000 0,000 2,239 4,706 0,000 4,999 4,579 0,000
b15 4,171 4,896 4,118 4,698 3,412 4,880 4,776 4,203 3,990
b16 6,182 7,523 5,048 6,309 8,229 6,913 6,659 6,738 6,081
b17 8,641 8,678 8,116 8,691 8,047 8,011 7,756 7,732 8,499
b18 9,235 8,683 9,521 8,633 8,745 7,797 8,846 7,600 7,346
b19 10,482 10,265 9,137 9,678 10,327 10,110 8,870 8,991 8,503
b20 4,418 4,488 4,160 4,667 4,018 4,120 4,952 4,976 4,031
123
Tabela 50: SD-D: Média da acurácia - 25 Classi�cadores25 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \ N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 92,91 92,03 90,34 93,31 91,74 89,86 93,09 91,77 90,31
b2 73,88 75,49 74,89 74,34 73,42 72,84 74,95 74,83 74,63
b3 96,86 94,52 92,62 96,92 91,74 92,52 96,92 91,77 92,69
b4 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b5 100,00 99,98 99,95 100,00 99,98 100,00 99,98 99,98 99,98
b6 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
b7 62,50 61,50 64,50 60,00 60,50 64,50 63,00 66,50 67,00
b8 100,00 100,00 100,00 99,67 99,83 99,83 99,67 100,00 100,00
b9 93,20 93,43 91,37 92,98 93,33 91,53 92,90 93,76 91,76
b10 89,37 89,63 89,95 88,74 89,68 90,37 89,47 90,11 90,53
b11 92,45 92,21 91,73 95,48 95,81 95,88 96,39 96,75 96,71
b12 91,36 93,59 94,23 91,64 93,45 93,36 92,45 93,73 93,82
b13 72,86 75,36 77,29 74,64 74,64 76,79 76,07 76,64 78,36
b14 97,70 99,80 100,00 99,40 99,90 99,80 98,60 99,70 100,00
b15 90,85 95,11 95,77 90,40 94,31 95,43 90,52 95,60 95,88
b16 67,43 68,18 67,91 60,53 64,93 66,71 66,21 68,12 67,72
b17 54,47 56,94 59,18 58,85 61,88 60,68 54,53 57,18 57,71
b18 81,65 81,95 80,25 82,90 83,05 80,55 82,45 81,15 80,95
b19 62,93 62,07 58,56 63,44 61,74 57,89 62,89 60,56 62,26
b20 69,42 71,70 67,96 70,49 71,13 68,55 68,78 70,86 68,20
124
Tabela 51: SD-D: Desvio Padrão - 25 Classi�cadores25 Classi�cadores
W = 0,3 W = 0,5 W = 0,7
Bases \N 0,25 0,5 0,75 0,25 0,5 0,75 0,25 0,5 0,75
b1 5,052 4,715 5,101 5,161 4,919 4,322 5,354 5,060 4,872
b2 9,465 9,759 9,634 9,604 10,214 9,793 9,454 9,775 10,175
b3 2,516 3,039 2,623 2,631 2,543 2,937 2,449 3,065 2,511
b4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b5 0,000 0,199 0,142 0,000 0,226 0,000 0,251 0,189 0,159
b6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
b7 32,238 35,390 32,346 33,914 33,410 32,375 34,535 34,148 34,740
b8 0,000 0,000 0,000 3,832 3,614 2,523 3,366 0,000 0,000
b9 2,719 3,569 2,662 2,395 3,277 3,381 3,499 2,725 3,345
b10 5,754 5,649 6,149 6,333 5,107 5,992 5,329 5,558 5,375
b11 1,700 1,797 1,590 1,622 1,759 1,613 1,541 1,429 1,581
b12 3,545 3,611 3,553 3,703 3,755 4,366 3,310 3,508 3,861
b13 11,974 11,524 12,159 12,757 11,122 11,882 11,169 12,126 12,079
b14 4,281 2,623 0,000 3,323 4,569 3,949 2,997 2,976 0,000
b15 4,824 3,777 3,553 3,878 4,487 4,429 4,421 3,310 3,899
b16 8,155 6,114 7,090 6,042 5,438 6,359 7,862 8,434 8,017
b17 7,601 7,905 7,783 7,881 8,681 8,158 8,399 8,510 7,700
b18 9,729 7,494 9,286 9,242 9,209 7,574 8,448 8,625 8,685
b19 10,993 10,465 10,837 10,041 11,272 8,693 10,070 9,317 9,895
b20 4,685 4,208 4,608 4,326 4,881 4,133 4,102 4,959 4,153