WEKA APLICADO A DADOS ELEITORAIS - gc.facet.brgc.facet.br/v5n1/pdf/descoberta_de_conhecimento_aplicado_a_dados... · Por fim, o(s) arquivo(s) .arff serão aplicados no weka e os resultados

DESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

sDESCOBERTA DE CONHECIMENTO APLICADO A DADOS ELEITORAIS

Claudio Tavares Especialista em Banco de Dados, Unicenp. E-mail: clá[email protected]

Daniel Bozza Especialista em Banco de Dados, Unicenp. E-mail: [email protected]

Frank Kono Especialista em Banco de Dados, Unicenp. E-mail: [email protected]

Resumo: Este artigo tem como objetivo encontrar uma possível tendência a ser observada, no tocante as pessoas que almejem se candidatar e conseqüentemente se eleger Deputado Estadual na cidade de Curitiba. Para alcançar o objetivo, será analisado e preparado um conjunto de dados que envolvem as eleições de 1994 e 1998 e posteriormente serão aplicadas algumas técnicas de Data Minining para que possam ser geradas regras de associações. Tais regras ou resultados serão analisados para então se determinar a existência ou não de tendências no tocante ao perfil dos candidatos ao cargo de suplente de Deputado Estadual na cidade de Curitiba.Por fim serão apresentados os resultados encontrados, quer sejam eles confirmando uma certa tendência ou não. Palavras-chave: Data Mining, Classificação, Algoritmo J48 1 INTRODUÇÃO

Inicialmente, será feita uma breve descrição do processo que envolve a

descoberta de conhecimento, passando, posteriormente, para o desenvolvimento do

trabalho, levando-se em consideração o cronograma, o escopo inicial do projeto, o

negócio em questão e a parte lógica. A parte lógica será subdividida na busca da

base de dados, que irá dar suporte a todo o processo de descoberta de

conhecimento, bem como a geração do modelo de dado para o DW, a extração dos

dados irrelevantes para o processo, a conseqüente limpeza e padronização dos

dados, para que estes estejam adequados ao objetivo do trabalho.

Ainda, na parte lógica será abordado o item referente à geração do arquivo

.arff, tomando como base os dados disponíveis, bem como a escolha do método e

algoritmo, que serão utilizados sobre os dados para a busca do conhecimento. Mais

especificamente, no caso do algoritmo, será feita uma descrição em relação ao seu

funcionamento e parâmetros que podem ser alterados e seus efeitos.

Tendo sido gerados os arquivos.arff, imprescindíveis para a utilização no

weka, será, então, feita uma explanação sobre a ferramenta weka e demonstrado

como utilizá-la. Muitos serão os resultados gerados pelo weka, e, por causa disso,

Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007: 54 - 94

mailto:cl%C3%[email protected]

mailto:[email protected]

mailto:[email protected]

Tavares, Claudio; Bozza, Daniel e Kono, Frank

será dada à devida atenção a uma explanação sobre como interpretar os resultados

do weka.

Por fim, o(s) arquivo(s) .arff serão aplicados no weka e os resultados serão

gerados, dando início, então, a toda uma explanação e interpretação sobre os

resultados a fim de encontrar uma possível tendência em relação aos dados, a qual

é: “Será que pode-se determinar um padrão, uma semelhança no perfil dos

candidatos que conseguem ser eleitos ao cargo de deputado estadual na cidade de

Curitiba ? “

2 O PROCESSO DE DESCOBERTA DE CONHECIMENTO DO DATA MINING (DM)

A análise das grandes quantidades de dados armazenadas nos SGBD’s,

visando encontrar informações estratégicas não conhecidas, tem exigido técnicas

mais adequadas, sendo que o processo de DM permite em suas várias etapas

extrair tais informações.

De forma macro, pode-se definir o processo de DM como:

- definição do problema;

- pré-processamento dos dados;

- mineração (analise) dos dados;

- interpretação.

FIGURA 1: ETAPAS NO PROCESSO DE DM

FONTE: Os autores.

Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007

55


A figura acima demonstra, de forma gráfica, o processo da descoberta de

conhecimento, onde cada parte da figura representa:

-Dados: conjunto de dados armazenados em uma ou mais base(s) de dados,

os quais são a matéria prima de todo o processo de Data Mining.

- Dados Selecionados: de todos os dados disponíveis será separado um

conjunto que contenha os dados que sejam relevantes para a questão,

dúvida, informação estratégica que se pretende obter.

- Dados processados: todos os dados selecionados serão previamente pré-

processados, ou seja, serão tratados, limpos consistidos, visando à remoção

de qualquer ruído nos dados.

- Dados Transformados: depois de processados ou tratados, os dados serão

formatados de forma a adequá-los à ferramenta de mineração ( weka ).

- Padrões: os dados transformados aplicados aos algoritmos previamente

escolhidos na ferramenta de mineração ( weka ) irão resultar em padrões,

regras, gráficos, dados numéricos, os quais serão analisados

exaustivamente.

-Conhecimento: analisando os padrões gerados pelos algoritmos,

possivelmente serão encontradas as “informações estratégicas não

conhecidas “.

3 PLANEJAMENTO E DESCRIÇÃO DO PROCESSO DE DESCOBERTA DO CONHECIMENTO

3.1 CRONOGRAMA

O cronograma abaixo representa as várias atividades que envolveram o

processo de DM neste artigo.


56


FIGURA 2 – CRONOGRAMA

FONTE: Os autores.

Onde:

- Tarefa: refere-se à atividade executada;

- Etapa: refere-se à relação atividade * etapa descrita no item 2 deste artigo;

- Semana/Dias: tempo em semanas para a execução da atividade

As tarefas executadas foram as seguintes:

- entender o funcionamento do weka: inicialmente, a ferramenta do weka era

desconhecida pelo grupo;

- escrever o artigo: este processo deu-se durante todo o tempo do trabalho;

- buscar o problema a ser resolvido: o grupo não tinha bem claro o problema

que pretendia resolver;

- encontrar a(s) base(s) de dados: após definir o problema, deu-se início a

busca pela(s) base(s) de dados que conteriam os dados necessários para o

trabalho;

- modelar os dados: desenhar o modelo de dados;

- limpar os dados: tratar os dados adequadamente;


57


- trabalhar os dados: alguns dados, como idade e qtd. de votos, tiveram seus

valores alterados para uma faixa de números;

- gerar arquivo.arff: geração do arquivo .arff;

- aplicar o arquivo .arff ao algoritmo: aplicar os algoritmos sobre os arquivos

.arff;

3.2 O ESCOPO INICIAL DO PROJETO

De posse das bases de dados referentes às eleições de 1994, 1996 e 1998,

as quais contemplavam os cargos de Deputado Estadual, Deputado Federal,

Senador, Prefeito, Governador e Presidente de todos os municípios do País,

entendeu-se que a abrangência era muito grande. A partir deste momento, muitas

foram as mudanças no escopo, as quais são melhores identificadas na figura 2 -

Cronograma, pois as tarefas marcadas no cronograma em azul representam o clico

de extração e interpretação dos dados devido às alterações no escopo.

Abaixo são listadas as várias alterações:

1ª - a idéia era a de se trabalhar como todos os registros relacionados com o

cargo de Deputado Estadual a nível nacional.

2ª - posteriormente, a idéia foi alterada para se trabalhar somente com os

registros relacionados com o cargo de Deputado Estadual do Estado do

Paraná.

3ª - finalmente, decidiu-se trabalhar somente com os registros relacionados

com o cargo de Deputado Estadual da cidade de Curitiba.

O motivo para tantas alterações foi que, ao aplicar o arquivo .arff no weka,

os resultados eram muito abrangentes, ou seja, muitos eram os cargos ou muitas

eram as cidades e a interpretação tornou-se inviável. Analisando que, para cada

uma das alterações, era necessário voltar ao item de extração de dados (vide figura

2 - Cronograma ), pode-se afirmar que o trabalho era exaustivo, as mudanças não

foram fáceis, pois o retrabalho custou muito tempo e esforço.


58


3.3 ANÁLISE DO NEGÓCIO

O negócio em questão, neste artigo, é o de se analisar os dados

disponibilizados na(s) base(s) de dados, referentes aos candidatos ao cargo de

Deputado Estadual na cidade de Curitiba e verificar se existe alguma tendência de

perfil para que um candidato possa garantir a sua eleição.

3.4 ANÁLISE LÓGICA

Este item será subdividido para contemplar o detalhamento de várias etapas,

desde a busca dos dados até a geração dos resultados pelo(s) algoritmo(s) do weka.

3.4.1 Busca da(s) base(s) de dados

O(s) banco(s) de dado(s) foram encontrados no seguinte link:

http://www.tse.gov.br/utilidades/download/see.html

Os dados estavam distribuídos em bases de dados distintas, ou seja, uma

base para cada um dos anos (1994, 1996 e 1998), logo foram feitos os downloads

dos seguintes arquivos:

1º donwload - 1994C.exe (Banco de Dados – 1994 completo) – tamanho

instalado 30,90 mb – qtd. de linhas na tab_candidato era de 11.999;

2º download - 1996C.exe (Banco de Dados – 1996 completo) – tamanho

instalado 54,00 mb – qtd. de linhas na tab_candidato era de 322.698;

3º download - 1998C.exe (Banco de Dados – 1998 completo) – tamanho

instalado 35,34 mb – qtd. de linhas na tab_candidato era de 14.909.

É importante salientar, que os dados acima referem-se à base de dados

completa, ou seja, todos os registros a nível nacional, contendo todos os cargos e

cidades. Posteriormente, os arquivos foram descompactados e gerado, para cada

um dos anos (1994, 1996 e 1998), um arquivo .mdb.


59


A figura abaixo representa o modelo de dados do(s) banco(s), sendo que

este modelo é idêntico para os três anos ( 94, 96 e 98 ):

FIGURA 3 – MODELO DE DADOS ORIGINAL

FONTE: Os autores

3.4.2 Gerando o Modelo de Dados para o DW

Analisando o modelo da figura 3 – Modelo de Dados original, foi feita uma

análise de todas as tabelas e seus atributos e, de acordo com o escopo do artigo, ou

seja, a pergunta que se pretende responder, vide item 3.3, foi identificado que

muitos dados das tabelas do modelo original eram desnecessárias para o novo

modelo. A partir deste momento, foi gerado um novo modelo de dados, o qual irá

suportar os dados necessários para que se possa encontrar a resposta deste artigo:


60


FIGURA 4 – MODELO DE DADOS DO DW ELEIÇÕES

FONTE: Os autores.

É importante salientar, que nem todos os atributos descritos no modelo de

dados do DW irão aparecer no arquivo que será utilizado no weka, mas todos os

atributos serão necessários para a geração da tabela TAB_WEKA, conforme

descrita no modelo de dados o anexo 1, pois esta tabela irá conter todos os dados

que, posteriormente, serão exportados e que darão origem ao arquivo ( .arff ), o qual

será utilizado no weka.

3.4.3 Extração de Dados

Os dados continuarão sendo trabalhados de forma distinta, ou seja, para

cada ano será criado um novo modelo de dados e um arquivo ( .arff). De acordo com

o modelo de dados do DW e com as três etapas descritas no item 3.2 Escopo Inicial

do Projeto, foram, então, gerados as seguintes bases de dados:

- eleicoes_1994.mdb

- eleicoes_1996.mdb

- eleicoes_1998.mdb

Estas bases, inicialmente, continham todos os valores para o atributo cargo

(dep. Estadual, prefeito, etc) para a cidade de Curitiba. Após as alterações de


61


escopo, foram, então, geradas novas bases de dados para a cidade de Curitiba e

para o cargo de Deputado Estadual.

- eleicoes_1994.mdb (359 registros)

- eleicoes_1998.mdb ( 411 registros )

Totalizando 770 registros, os quais irão compor o arquivo (.arff ) final.

Abaixo, relacionam-se alguns dos motivos para se trabalhar com os dados em bases

diferentes:

- por exemplo, na tabela profissão do ano de 1994 tinha-se advogado com o

valor 1, para a chave primária; e, no ano de 1996, tinha-se advogado com o

valor de 7, como chave primária. Este problema de atributos iguais com

valores de chaves primárias diferentes foi identificado em outras tabelas.

Realizar um mapeamento “de-para” entre as tabelas seria muito custoso e,

por isso, decidiu-se manter os dados em bancos distintos.

Na tabela abaixo, pode-se visualizar com mais detalhes a tabela de dados

do WEKA

TABELA 1 – TABELA DE DADOS DO WEKA

Atributo Tipo dados Descrição NOMSEXO varchar Armazena a descrição do sexo NOMGRAINS Varchar Armazena a descrição do grau de instrução (escolaridade) NOMESTCIV Varchar Armazena a descrição do est.civil NOMPROFIS Varchar Armazena a descrição da profissão SGLPAR Varchar Armazena a sigla do partido NOMSITUA Varchar Armazena a situação do candidato ANOELEIC Integer Armazena o ano de eleição NOMCAR Varchar Armazena o nome do cargo FAIXAIDADE Integer Armazena a faixa de idade FAIXAVOTOS integer Armazena a faixa de votos

FONTE: Os autores.

3.4.4 Limpeza dos Dados

Abaixo, serão descritos os tratamentos ou limpeza as quais os dados foram

submetidos. Foram removidos os espaços em branco na descrição dos atributos por

exemplo:


62


- Na tabela profissão, o atributo profissão continha o seguinte valor (auxiliar

de escritório), sendo que este valor foi substituído por (auxiliardeescritorio)

Foram removidos os acentos:

- Na tab_profissao, o atributo profissão continha o seguinte valor (médico) e

foi substituído por “medico” sem o acento (as “” não acompanham o

atributo). Este item “ii” refere-se ao tratamento feito para a remoção de

acentos e caracteres especiais dos valores dos atributos.

Foram padronizados os valores dos atributos:

- No banco eleicao_1994.mdb tab_profissao, o atributo profissão continha o

seguinte valor ( funcionário público ) e, no banco eleicao_1996.mdb

tab_profissao, o atributo profissão continha o seguinte valor (func. Público),

foi feito um tratamento para que, em ambos os bancos, o valor fosse

substituído por ( funcpublico).

Estes tratamentos foram feitos em todas as tabelas/atributos para que todos

os dados estivessem padronizados.

3.4.5 Geração dos dados Conforme descrito no item 3.4.2 foi criada uma tabela chamada TAB_WEKA,

a qual irá armazenar todos os dados que, posteriormente, serão exportados para a

criação do arquivo (.arff ). Neste momento, foram montados os sql’s que irão gerar a

massa de dados para popular a TAB_WEKA.mdb (formato de banco Access).

Abaixo, serão descritos os passos para a geração dos dados na

TAB_WEKA:

- Inicialmente, foi criada uma consulta para visualização dos dados, conforme

a figura do anexo nº 1 – Tabela de dados do weka.

Feita uma conferência do resultado gerado no anexo nº 1, posteriormente foi

utilizado outro recurso do banco .mdb para com base no resultado do select criar

uma nova tabela contendo todos os dados gerados pela consulta (TAB_WEKA).


63


Na TAB_WEKA foram feitos os seguintes tratamentos:

- foram retirados os seguintes campos: Nomcan, datnas, codcan, nommun;

- foi renomeado o campo Expr1 para idade;

- todos os valores dos atributos texto foram descritos com letras minúsculas.

- os campos da tabela TAB_WEKA foram ordenados na seguinte seqüência:

- IDADE, NOMSEXO, NOMGRAINS, NOMEESTCIV, NOMPROFIS, SGLPAR,

VOTOS, NOMSITUAC, ANOELEICAO, NOMCAR, sendo que esta seqüência

será a mesma que o arquivo ( .arff ) conterá.

É importante salientar, que a TAB_WEKA foi criada em cada um dos dois

bancos de dados (1994 e 1996), logo todo o procedimento foi aplicado na tabela dos

dois bancos.

3.4.6 Padronização dos Dados

Na tabela de dados Weka foi necessário padronizar os valores de dois

atributos, idade e quantidade de votos, isto porque eles continham uma seqüência

de valores muito abrangente, o que dificultava o processamento e entendimento dos

resultados. Para resolver este problema foram criadas faixas que enquadravam os

valores dos atributos, valores estes representados na tabela abaixo.


64


TABELA 2 – FAIXA IDADE E VOTOS

Atributo Faixa Valor Idade % idade >=20 e idade <= 30

% idade >=31 e idade <= 40 % idade >=41 e idade <= 50 % idade >=51 e idade <= 60 % idade >=61 e idade <= 70 % idade >=71 e idade <= 80 % idade >=81 e idade <= 90 % idade >=91

1 2 3 4 5 6 7 8

Votos %votos >=0 e votos <= 200

%votos >=201 e votos <= 400 %votos >=401 e votos <= 600 %votos >=601 e votos <= 800 %votos >=801 e votos <= 1000 %votos >=1001 e votos <= 5000 %votos >=5001 e votos <= 10000 %votos >=10001 e votos <= 15000 %votos >=15001 e votos <= 20000 %votos >=20001 e votos <= 25000 %votos >=25001 e votos <= 30000 %votos >=30001 e votos <= 40000 %votos >=40001 e votos <= 50000 %votos >=50001 e votos <= 100000 %votos >=100001 e votos <=1000000 %votos >=1000001 e votos <=2000000 %votos >=2000001

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

FONTE: Os autores. 3.4.7 Geração do arquivo .arff

Neste momento, as tabelas TAB_WEKA (ano 1994) e TAB_WEKA (ano 1998)

já estão criadas e com seus dados tratados. Foram gerados três arquivos .arff para

os testes:

- eleicoes_1994.arff, contendo 359 registros.

- eleicoes_1998.arff, contendo 411 registros.

- eleicoes_94_98.arff, o qual contém todos os dados de 1994 e 1998,

totalizando 770 registros.

O arquivo .arff foi subdividido da seguinte forma:

- Declarando o arquivo @relation eleições

- Declarando todos os atributos @attribute idade real

@attribute sexo {masculino, ...}

@attribute grauinstrucao {1graucompleto, ..}


65


@attribute estcivil {casado, ...}

@attribute profissão {administrador, ...}

@attribute partido {pan, ...}

@attribute votos real

@attribute situação {eleito, ...}

@attribute anoeleicao real

@attribute cargo {deputadoestadual, ...}

- Declarando o data @Data 5,masculino,1graucompleto,casado,outros,pdt,10,eleito,1994,deputadoestadual

Este é somente um exemplo das várias linhas que o atributo @Data contém.

3.4.8 Escolha do Método e Algoritmo

Para a análise dos três arquivos .arff, foi escolhido o Método de Classificação

e o algoritmo J48. Isso em decorrência do escopo do trabalho e dos valores que

compõem o arquivo .arff. Após análises dos diferentes métodos, que podem ser

aplicados, e das formas de se minerar os dados e das características dos dados,

constatou-se que os diferentes métodos podem ser aplicados com diferentes

algoritmos a diferentes tipos de dados; tudo depende do tipo de problema que se

deseja solucionar.

O método de classificação foi escolhido por melhor responder à questão alvo

deste artigo, ou seja, com o método de classificação pode-se inferir (prever) que

determinados candidatos, com um determinado perfil, consigam se eleger. Neste

caso, o atributo cargo é denominado como atributo alvo da classificação (poderia ser

outro) e, sobre este, regras de classificação em relação ao outros atributos serão

geradas.

As formas mais comuns de representação de conhecimento dos algoritmos de

classificação são regras e árvores. Os algoritmos Id3, C45, J48, ADTree,

UserClassifier, PredictionNode, Splitter, ClassifierTree, M5Prime, por exemplo,

geram, como resultado, árvores de classificação, enquanto que outros como Prism,

Part, OneR geram regras de classificação. Já o algoritmo escolhido para a análise

dos dados foi o J48, isso levando-se em consideração o tipo dos dados que serão

analisados.


66


Abaixo, será feita uma breve explanação, um pouco mais detalhada com

relação ao algoritmo J48:

- J48 constrói uma árvore de decisão. A forma de construção é a

abordagem top-down, em que o atributo mais significativo, ou seja, o mais

generalizado, quando comparado a outros atributos do conjunto, é

considerado raiz da árvore. Na seqüência da construção, o próximo nó da

árvore será o segundo atributo mais significativo, e, assim,

sucessivamente, até gerar o nó folha, que representa o atributo alvo da

instância. O processo de geração de regras, para classificação de

sistemas normalmente atua em dois estágios: as regras são induzidas e

posteriormente refinadas. Isto é feito através de dois métodos, através da

geração das árvores de decisão e o posterior mapeamento da árvore em

regras e, então, aplicando processos de refinamento, ou pela utilização do

paradigma “separar – pra – conquistar”. ”. Assim como na árvore de

decisão, esse processo também possuiu um estágio de otimização das

regras geradas

Com relação ao algoritmo J48 podem-se alterar os valores padrões dos seus

vários atributos, conforme a descrição dos atributos na tabela abaixo:

TABELA 3 – PARÂMETROS J48

U usa a árvore sem poda C confidence: escolhe o fator de confiança

inicial para a podar -> default:0.25 M escolhe o número mínimo de instâncias por

folha -> default:2 R usa a poda com redução de erro N escolhe o número de partições para a poda

com redução de erro, onde uma partição é utilizada como conjunto de poda ->default:3

B usa árvore binária S não utiliza subárvore de poda L não apaga a árvore depois de construída FONTE: Os autores.

Os parâmetros acima mencionados podem ser configurados na seguinte tela

do weka:


67


FIGURA 5 – ESCOLHA DO ALGORITMO NO WEKA

FONTE: Os autores.

Clicando sobre o botão Choose surgira a tela para configuração dos

parâmetros:

FIGURA 6 – PARÂMETROS J48 NO WEKA

FONTE: Os autores.

Onde cada campo representa um parâmetro a ser configurado:

1) binarySplits:

2) confidenceFactor:

3) debug:

4) minNumObj:

5) numFolds:

6) reducedErrorPruning :

7) saveInstanceData:


68


8) seed:

9) subtreeRaising:

10)unpruned:

11)useLaplace:

3.4.9 Abrindo o Weka

Com o aplicativo do weka aberto em modo Explorer, aparecerá a seguinte

janela:

FIGURA 7 – WEKA

FONTE: Os autores. 3.4.9.1 Buscando o arquivo .arff

Seleciona-se a opção OpenFile para encontrar o arquivo eleicoes.arff e,

após escolhido o arquivo, a seguinte tela foi apresentada. O arquivo eleicoes.arff

estava no seguinte diretório: ..weka-3-4\data\eleicoes.arff

FIGURA 8 – TELA WEKA


69


FONTE: Os autores. Obs:. Neste artigo estão sendo processados três arquivos .arff, conforme item 3.4.7 .

Nesta visualização, podem-se analisar os seguintes dados:

- as abas Classify, Cluster, Associate, Select Atributes são os métodos que

podemos escolher para gerar os dados;

- na guia Visualize, podemos visualizar os resultados dos algoritmos através

de alguns gráficos, os quais veremos posteriormente;

- o botão Chosse nos permite navegar em uma árvore na qual podemos

escolher o algoritmo;

- no campo onde aparece a palavra “NONE”, podemos alterar os parâmetros

de configuração para o algoritmo;

- na área “Currente Rellation” temos a qtd. de instâncias, nº de atributos e,

também, a relação que será usada inicialmente para gerar alguns gráficos;-

na área “Attributes” temos a relação de todos os atributos;

- no botão visualize all, poderemos obter várias informações através de

gráficos. 3.4.10 Versões do arquivo .arff

Foram geradas duas versões para o arquivo .arff, visando encontrar os

atributos que efetivamente iriam ser utilizados, bem como os tipos de dados dos

atributos, conforme descrito na figura abaixo:


70


FIGURA 9 – VERSÕES GERADAS PARA O ARQUIVO .ARFF

FONTE: Os autores.

O maior problema encontrado, foi com relação aos valores do atributo idade

e votos, pois os mesmos possuíam, inicialmente, uma seqüência de valores muito

grande e, para resolver isso, foram criadas faixas para agrupar os valores, conforme

descrito no item 3.4.6.

3.4.11 Interpretando os dados gerados pelo J48 no weka

Abaixo, serão feitas algumas observações para que o leitor possa entender

como os dados podem ser analisados ou interpretados. Tais resultados foram

obtidos através da aplicação do Método de Classificação, utilizando-se o algoritmo

J48.

3.4.11.1 Análise da precisão

O algoritmo J48 apresenta o seguinte quadro:

FIGURA 10 – ANALISE DE PRECISÃO


71


FONTE: Os autores.

Onde, na classificação de exemplos (levando-se em conta todos os registros

analisados ), o fator de precisão para o cargo de suplente foi de 91,70%

3.4.11.2 Análise da Matriz de Confusão

A matriz de confusão contém informações muito importantes para o

entendimento do resultado do algoritmo, dentre elas:

- a quantidade de instâncias classificadas corretamente;

- a quantidade de instâncias classificadas erroneamente;

- a quantidade de instâncias que o algoritmo acreditava ser de um tipo

(eleito) e na verdade foram classificadas como (não eleito) por exemplo:

FIGURA 11 – MATRIZ DE CONFUSÃO

FONTE: Os autores.

É possível analisar que:

- dos 15 exemplos(1ªlinha), 12 foram classificados corretamente como eleito,

3 foram classificados erroneamente como suplente;

- dos 3 exemplos (2ªlinha), 1 foi classificado erroneamente como eleito e 2

foram classificados erroneamente como suplente;

- dos 4 exemplos (3ªlinha), 4 foram classificados erroneamente como

suplente;


72


- dos 101 exemplos (4ªlinha), 100 foram classificados corretamente como

suplente e 1 foi classificado erroneamente como eleito.

Mas como chegou-se ao numero das instâncias classificadas corretamente e

erroneamente no exemplo acima? Para isso, basta analisar o quadro abaixo, no qual

a somatória dos valores, que fazem parte da diagonal marcada como azul,

representam os valores classificados como corretos e os demais valores somados

em suas respectivas diagonais, correspondem aos valores classificados

erroneamente. Obviamente, na somatória dos valores errados, deve-se excluir os

valores que fazem intersecção com a linha em azul.


FONTE: Os autores.

Com isto, obtemos o seguinte resultado:

- Instâncias classificadas corretamente: 112;

- Instâncias classificadas erroneamente: 11;

- Perfazendo um total de 123 instâncias analisadas.

Estes valores, apresentados pela matriz de confusão, são os mesmos que o

algoritmo do weka apresenta, conforme quadro abaixo:


73


FIGURA 13 – RESULTADOS WEKA

FONTE: Os autores.

3.4.11.3 Análise da Arvore de Decisão

FIGURA 14 – ARVORE DE DECISÃO

FONTE: Os autores.

Onde os valores tem a seguinte representação:

FIGURA 15 – PERCENTUAL DE ACERTOS

FONTE: Os autores.


74


Neste artigo, não foram abordadas todas as possibilidades de interpretação

dos resultados do algoritmos J48. As interpretações que aqui foram abordadas

permitirão realizar uma análise inicial dos resultados.

3.4.11.4 Análise Acertos * Erros

Tomando como exemplo parte do resultado do arquivo eleições.arff

sexo = masculino | anoeleicao > 1996 | | situacao = eleito | | | votos <= 13 | | | | estcivil = casado: deputadoestadual (37.0/3.0)

O que significam os valores ( 37.0 / 3.0 ):

- 37 significa o número de acertos, ou seja, 37 registros, nos quais a regra

acima se aplica corretamente;

- 3 significa o número de erros, ou seja, 3 registros, nos quais a regra

acima não se aplica corretamente.

3.4.12 Resultado

A tabela abaixo, demonstra os diferentes experimentos realizados para se

encontrar o resultado do weka que mais se aproximasse do desejado, em termos

dos valores dos atributos.


75


TABELA 4 – ETAPAS DOS EXPERIMENTOS

Exp. Nº registros bd original

Nº registros treinamento

Nº registros testes

comentário

E1

349.606

349.606

*

Inicialmente, foi feito um teste com todos os registros de todos os anos e todas as cidades. Ficou impraticável a análise

E2

349.606

*

770

Neste momento, foram gerados os testes com todos os registros para que o J48 pudesse gerar os resultados a serem analisados.

FONTE: Os autores.

Abaixo serão demonstrados os resultados obtidos com o primeiro

treinamento e com o último treinamento. A análise será subdividida da seguinte

forma:

- análise dos gráficos;

- análise dos resultados gerados pelo J48.

3.4.12.1 Resultado gerado pelos gráficos

No tocante aos gráficos, é possível escolher um dos atributos como chave

para que o resultado seja baseado neste. O atributo escolhido neste momento foi o

atributo sexo. A tela para a escolha do atributo no weka é a seguinte:

FIGURA 16 – ESCOLHA DO ATRIBUTO

FONTE: Os autores.


76


Os gráficos serão gerados pelo botão “Visualize All“, conforme mostrado na

figura acima. No gráfico gerado pelo botão ,o sexo masculino está representado pela

cor azul e o sexo feminino pela cor vermelha, conforme gráficos abaixo.

A primeira análise feita foi em relação ao Sexo e Idade:

GRÁFICO 1 – RELAÇÃO AO SEXO E IDADE

FONTE: Os autores.

A maior barra representa a faixa de idade, entre 3,947 a 4,316; isso

corresponde à faixa aproximada de 48 a 54 anos, com um total de 288 instâncias, ou

seja 37,4% de todos os registros (770). Observe que a predominância nesta faixa é

do sexo masculino.

A segunda análise feita foi em relação ao sexo e sexo:


77


GRÁFICO 2 – RELAÇÃO AO SEXO E SEXO

FONTE: Os autores.

A maior barra corresponde ao sexo masculino, com 705 instâncias, o que

corresponde a 91,56%; já a menor barra corresponde ao sexo feminino, com 65

registros, o que corresponde a 8,44%. Um ponto interessante, levando em

consideração que estes dados referem-se somente à cidade de Curitiba, é que para

o grau de instrução, lê e escreve, somente 3 instâncias foram selecionadas.

A terceira análise feita foi em relação ao sexo e o grau de instrução:

GRÁFICO 3 – RELAÇÃO AO SEXO E GRAU DE INSTRUÇÃO

FONTE: Os autores.


78


A maior barra, corresponde ao grau de instrução Superior Completo, com

um total de 390 instâncias, o que corresponde a 50,64% de todos os registros (770).

Observe que a predominância é do sexo masculino.

A quarta análise feita foi em relação ao sexo e estado civil:

GRÁFICO 4 – RELAÇÃO AO SEXO E ESTADO CIVIL

FONTE: Os autores.

A maior barra corresponde à situação civil de casado, com um total de 584

instâncias, o que corresponde a 75,85% de todos os registros (770). Observe que a

predominância é do sexo masculino.

A quinta análise foi feita em relação ao sexo e profissão:

GRÁFICO 5 – RELAÇÃO AO SEXO E PROFISSÃO

FONTE: Os autores.


79


Neste item será feita menção de três barras. A maior representa a profissão

“outros”. Não se pode afirmar o motivo pelo qual, na base de dados, muitas

instâncias foram classificadas como outros. A segunda maior barra representa a

profissão de “Proprietário de Estabelecimento“, com 77 instâncias, o que representa

a 10% do total. A terceira maior barra representa a profissão de “Advogado”, com 73

instâncias, o que representa 9,48 %. Note que a predominância também é do sexo

masculino.

A sexta análise foi feita em relação ao sexo e partido:

GRÁFICO 6 – RELAÇÃO AO SEXO E PARTIDO POLÍTICO

FONTE: Os autores.

Neste item será feita menção de duas barras. A maior barra representa o

partido “PMDB”, com 105 instâncias, o que representa 13,64 % de todos os

registros. A segunda maior barra representa o partido “PT”, com 99 instâncias, o que

representa 12,87% de todos os registros. Note que a predominância também é do

sexo masculino.

A sétima análise foi feita em relação ao sexo e quantidade de votos:


80


GRÁFICO 7 – RELAÇÃO AO SEXO E QUANTIDADE DE VOTOS

FONTE: Os autores.

A maior barra representa a faixa de votos, aproximada entre 4.800 a 15.000

votos, com 191 instâncias, o que representa 24,80%. Note que a predominância

também é do sexo masculino.

A oitava análise foi feita em relação ao sexo e a situação:

GRÁFICO 8 – RELAÇÃO AO SEXO E SITUAÇÃO

FONTE: Os autores.

A maior barra corresponde à situação de “Suplente” com 648 instâncias, o

que representa 84,15% do total de instâncias. Note que a predominância também é

do sexo masculino.Com este gráfico pode-se chegar às seguintes conclusões:


81


- existe uma predominância da cor azul (sexo masculino) em relação a cor

vermelha (sexo feminino);

- e a concentração da cor azul para o cargo de suplente.

Uma outra informação que pode ser retirada deste gráfico, é a de se clicar

sobre qualquer um dos “x”, azul ou vermelho, automaticamente, serão demonstradas

todas as informações referentes ao “x” selecionado, ou melhor dizendo, ao “x” que

representa uma determinada instância.

FIGURA 17 – DADOS PONTUAIS DO WEKA

FONTE: Os autores.

3.4.12.1.1 Tendências encontradas

a) Perfil do candidato a suplente de deputado estadual na cidade de Curitiba

- ter idade entre 48 a 54 anos;

- ser do sexo masculino;

- possuir um grau de instrução Superior Completo;

- ser casado;

- ter como profissão proprietário de estabelecimento ou advogado;

- ser filiado aos partidos PMBD ou PT.


82


Um fato marcante em todos as relações é que o sexo masculino predominou

em todos os atributos.

b) Perfil do candidato vencedor em relação ao atributo Sexo

Observe a tabela abaixo:

TABELA 5 – RELAÇÃO SEXO * SUCESSO

Sexo

Candidatos

Suplentes

% Sucesso

Masculino

705

587

82,26

Feminino

65

61

93,85

FONTE: Os autores.

Onde:

- candidatos: refere-se à quantidade total de candidatos, nos anos de 1994

e 1998;

- suplentes: quantidade de candidatos que alcançaram a posição de

suplente de deputados estadual;

- % de sucesso: representa a relação em (%) entre o total de candidatos *

suplentes / por 100.

No ano de 1994, as mulheres tiveram um desempenho muito melhor do que

os homens, pois 5% do total de mulheres candidatas foram eleitas, em contrapartida,

somente 2,33% dos candidatos homens se elegeram. O gráfico abaixo, ilustra a

distribuição de candidatos em relação ao sexo:


83


GRÁFICO 9 – DISTRIBUIÇÃO DE CANDIDATOS EM RELAÇÃO AO SEXO

FONTE: Os autores.

c) Perfil em relação ao grau de instrução e idade

No gráfico abaixo, pode-se visualizar que existe uma distribuição bastante

proporcional referente ao grau de instrução, onde cada cor representa um nível de

escolaridade (eixo x) em relação a faixa de idade (eixo x ):

GRÁFICO 10 – DISTRIBUIÇÃO REFERENTE AO GRAU DE INSTRUÇÃO

FONTE: Os autores.


84


d) Perfil em relação ao grau de instrução e sexo

No gráfico abaixo, é possível visualizar a relação entre sexo e grau de

instrução. Note que a maior concentração para ambos os sexos é o grau de

instrução superior completo.

GRÁFICO 11 – RELAÇÃO ENTRE SEXO E GRAU DE INSTRUÇÃO

FONTE: Os autores.

e) Perfil do grau de instrução na cidade de Curitiba

O gráfico abaixo, demonstra que, na cidade de Curitiba, pouquíssimos são

os candidatos com grau de instrução ( lê e escreve):


85


GRÁFICO 12 – GRAU DE INSTRUÇÃO EM CURITIBA

FONTE: Os autores. 4 RESULTADOS GERADOS PELO ALGORITMO J48

Foi utilizado o método de classificação e o algoritmo J48. Os parâmetros do

J48 alterados foram os seguintes:

TABELA 6 – PARÂMETROS DO J48

C confidence: escolhe o fator de confiança inicial para a podar -> default:0.25

M escolhe o número mínimo de instâncias por folha -> default:2

FONTE: Os autores.

Onde:

C = 0.9

M = 0.25

Os demais atributos foram mantidos com os valores default do J48.


86


Os resultados que serão apresentados e suas respectivas análises, tomaram

como base a argumentação teórica apresentada no item 3.4.11 Interpretando os

dados gerados pelo J48 no weka e o item 3.4.9.1 Buscando o arquivo .arff . Ao

aplicar o arquivo .arff ao algoritmo, inicialmente temos um resumo gerado pelo J48

com relação as regras, atributos e instâncias analisadas:

FIGURA 18 – ALGORITMO J48

FONTE: Os autores.

Este é o cabeçalho do resultado do J48, no qual tem-se as seguintes

informações:

- Schema: que demonstra o metódo, o algoritmo e os parametros utilizados;

- Relation: informa o nome do arquivo .arff e dois dos parâmetros que foram

removidos.

Os parâmetros aqui removidos foram cargo e ano da eleição, isso porque o

único valor para o atributo cargo, no arquivo .arff, é suplente de deputado estadual e

os anos são de 1994 e 1998, visto que, neste momento, a temporalidade não era

importante.

- Instances: total de instancias analisadas;

- Abribute: relação dos atributos analisados;

- Test-mode: informa que será realizada cross-validation.


87


Posteriormente, o J48 gera várias regras sobre a relação existente entre os

atributos. Estas regras irão, posteriormente, dar origem à árvore:

FIGURA 19 – REGRAS GERADAS

FONTE: Os autores.

As informações abaixo, demonstram o tamanho da árvore que será gerada:

FIGURA 16 – NÍVEIS DA ÁRVORE

FONTE: Os autores.

Onde,

- J48 pruned tree: indica que será feita a poda na árvore;

- logo após é montada uma série de linhas classificatórias, na qual se

demonstra a regra e os valores para os atributos;

- Number of leaves: número de níveis que a árvore gerou;

- Size of the tree: o tamanho da árvore.


88


No weka, é possível visualizar a árvore gerada para as regras acima

mencionadas, executando os seguinte passos: Após o J48 ter concluído o seu

processamento de um clique com o botão direito do mouse sobre a última linha do

campo Result list e escolha a opção Visualize tree.

FIGURA 20 – CHAMADA DA ÁRVORE

FONTE: Os autores.

Será, então, apresentada a árvore gerada pelo weka:

FIGURA 21 – ARVORE DE DECISÃO

FONTE: Os autores.


89


É necessário que a árvore acima seja expandida para melhor visualização.

Outro conjunto de informações muito importante é referente ao sumário, ou seja, um

breve resumo do que foi gerado pelo J48:

FIGURA 22 – RESULTADO J48

FONTE: Os autores.

- Correctly classified instances: representa o número de instâncias

classificadas corretamente;

- Incorrectly classified instances: representa o número de instâncias

classificadas de forma errada.

Um dos parâmetros do J48 alterados foi o C 0.9 ou seja, desejava-se

alcançar 90% de sucesso, mas o J48 retornou um sucesso de 92.4675 %, bem

acima do desejado. Também, é apresentada uma tabela informando, dentre muitos

parâmetros, o fator de precisão:

FIGURA 23 – RESULTADO J48

FONTE: Os autores.

Nota-se nesta tabela o seguinte: o fator de precisão de acerto, para o cargo

de suplente, foi de 96.4%, o mais alto dentre todos os cargos; muito importante, visto


90


que o objetivo inicial do trabalho era o de encontrar uma tendência para os

candidatos ao cargo de suplente de deputado estadual.

Já a matriz de confusão, conforme apresentada na figura abaixo, é muito

importante para que se possa extrair informações valiosas.


FONTE: Os autores.

Da matriz de confusão podem-se extrair as seguintes informações:

- de todos os 770 registros analisados, o J48 conseguiu classificar

corretamente 712 ,sendo que estes estão subdivididos da seguinte forma:

• 76 – cargo eleito

• 1 – cargo media

• 13 – não eleito

• 622 - suplente

- de todos os 770 registros analisados, o J48 classificou erroneamente 58,

sendo que estes estão subdivididos da seguinte forma:

• dos 17 registros que eram para ser classificados como eleito, 4

foram classificados como média e 13 como suplente;

• dos 14 registros que eram para ser classificados como média, 5

foram classificados como eleito e 9 como suplente;

• do total de 1 registro que era para ser classificado como não eleito,

este 1 foi classificado como suplente;

• dos 26 registros que eram para ser classificados como suplente, 21

foram classificados como eleito, 3 como média e 2 com não eleito.


91


Para chegar a esta conclusão basta somar todos os valores de cada

linha, excluindo os valores que fazem parte da diagonal que inicia-se em (a,a) e

termina em (a,e).

5 CONCLUSÕES Os dados analisados vêm a comprovar um fato já conhecido, o de que as

pessoas do sexo masculino têm uma representatividade muito maior na Câmara dos

Deputados do que as mulheres. Mas, outro fato muito interessante é que as

mulheres têm um desempenho muito melhor do que os homens, quando estas se

elegem, o que nos leva à seguinte indagação:

- qual o diferencial que as mulheres tem em relação aos homens para ter

um melhor desempenho ?

- será que os eleitores homens tem votado nas mulheres acreditando

neste potencial? ou será que as eleitoras mulheres tem votado na

candidata mulher, como uma forma de revolta contra o desempenho

masculino ?

Sabe-se que as mulheres tem alcançado, com muita naturalidade, os postos

que, anteriormente, eram de exclusividade masculina e isto também fica evidenciado

pelos resultados deste trabalho, pois se elas, “ candidatas mulheres“, continuarem a

ter um desempenho melhor do que os homens, logo o quadro no cenário político

será revertido, ou seja, haverá mais mulheres na política do que homens.

Um ponto interessante, é o de que o nível de escolaridade dos candidatos

eleitos tem sido não inferior ao Superior Completo, o que reflete o anseio da

sociedade, no tocante a colocar no meio político pessoas mais esclarecidas, mais

cultas, com uma visão mais ampla do todo.

Normalmente, quando uma pessoa necessita de um conselho acerca de

alguma decisão, irá buscar esta ajuda com pessoas mais velhas e mais experientes,

o que deixa claro que pessoas de mais idade tem mais experiência na vida.Em

relação a isto, os dados encontrados na aplicação do algoritmo, demonstraram que

os candidatos eleitos estavam na faixa dos 45 aos 55 anos, ou seja, acima da

metade da sua vida; isso, se considerarmos a expectativa de vida em,


92


aproximadamente, 90 anos, o que vem a afirmar que a sociedade também acredita

que candidatos com idade média têm experiências suficientes para auxiliar a

sociedade em seus problemas, fazendo para isso uso de seu poder político.

Outro fato muito interessante, é em relação à profissão do candidato, pois a

facilidade de comunicação, a habilidade de convencimento está diretamente

relacionada entre o político e a população. Com base nisto, foi identificado que as

duas profissões que tiveram o maior destaque foram a de proprietário de

estabelecimento comercial e advogado, duas profissão que estão diretamente

envolvidas com o público exercendo seu poder de convencimento e habilidade em

técnicas de relacionamento. Será que é por acaso que os políticos tem tais

habilidades ?

Artigo recebido em 23/04/2007 e aprovado em 15/05/2007.

REFERÊNCIAS

CAMEIRÃO, A. J. “Esboço” da NETLIG - A rede de “antigos alunos da LIG”. Universidade do Minho, Escola de Engenharia, Licenciatura em Informática de Gestão, OPÇÃO III - Tecnologias e Sistemas de Informação, 2004/2005. Disponível: http://72.14.205.104/search?q=cache:iVPvv5OgFL4J:papadocs.dsi.uminho.pt:8080/retrieve/737/Relat%C3%B3rio.pdf+%22Aurora+Jo%C3%A3o+Cameir%C3%A3o%22&hl=pt-BR&ct=clnk&cd=1&gl=br&lr=lang_pt

CARVALHO, L, A. V. de. Datamining: a mineração de dados no Marketing, Medicina, Economia, Engenharia e Administração. São Paulo: Ciência Moderna, 2006.

DIAS, M. M. Parâmetros na escolha de técnicas e ferramentas de mineração de dados. Acta Scientiarum, UEM - Maringá - PR, v. 24, n. 6, p. 1715-1725, 2002.

MALUF, R. T. A Carreira Política na Câmara Municipal de São Paulo. Doutorado em Ciência Política. Universidade de São Paulo, USP, Brasil, 2006.

MARTINHAGO, S. Descoberta de conhecimento sobre o processo seletivo da UFPR. Dissertação de Mestrado em Ciências, do Programa de Pós-graduação em Métodos Numéricos em Engenharia, Departamento de Matemática, Setor de Ciências Exatas e Departamento de Construção Civil, Setor de Tecnologia da Universidade Federal do Paraná, 2005. Disponível em: http://www.ppgmne.ufpr.br/dissertacoes/D120_Sergio_Martinhago06072005.pdf


93


SENKO, L.G. M. Um Método Baseado em Lógica Paraconsistente para Detecção de Inconsistências em Classificadores à Base de Regras. Mestrado em Informática Aplicada. Pontifícia Universidade Católica do Paraná, PUC-PR, Brasil, 2006.

SILVA, M. P. dos S. Análise de episódios de tornados em Santa Catarina: caracterização sinótica e mineração de dados. Mestrado em Sensoriamento Remoto, Instituto Nacional de Pesquisas Espaciais, INPE, Brasil, 2003.

SILVA, M. P. dos S. SKDQL Uma Linguagem Declarativa de Especificações de Consultas e Processos para Descoberta de Conhecimento em Bancos de Dados e sua Implementação. Mestrado em Ciências da Computação. Universidade Federal de Pernambuco, UFPE, Brasil, 2003.

TSE - Tribunal Superior Eleitoral. “Bases de Dados das Eleições”, Disponível em: http://www.tse.gov.br, Junho, 2006.

TSUNODA, D. F. Abordagens evolucionárias para a descoberta de padrões e classificação de proteínas. Doutorado em Pós Graduação em Engenharia Elétrica e Informática. Universidade Tecnológica Federal do Paraná, UTFPR, Brasil, 2004.

ANEXOS

ANEXO 1 – TABELA DE DADOS DO WEKA

FONTE: Os autores.


94

http://www.tse.gov.br/

Documents

WEKA APLICADO A DADOS ELEITORAIS - gc.facet.brgc.facet.br/v5n1/pdf/descoberta_de_conhecimento_aplicado_a_dados... · Por fim, o(s) arquivo(s) .arff serão aplicados no weka e os resultados