Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Embed Size (px)

Citation preview

  • 8/6/2019 Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka

    1/8

    Extrao de rvores de

    Deciso com a Ferramenta de

    Data Mining WekaEste artigo apresenta uma introduo ao sistema

    WEKA, um software livre para Data Mining.

    Compartilhar

    1 Introduo

    A minerao de dados (data mining) pode ser definida como o processo automtico de

    descoberta de conhecimento em bases de dados muito volumosas. Os primeirossoftwarespara minerao de dados comearam a ser desenvolvidos em meados da dcada de 90, aindaem ambiente acadmico. Hoje em dia j existem algumas dezenas de ferramentas comerciaispara data mining, desenvolvidas por empresas como SAS (Enterprise Miner), IBM (IntelligentMiner) e SPSS (Clementine). Alm disso, diversos recursos para minerao de dadosencontram-se disponibilizados nas verses mais recentes dos SGBDs Oracle e SQL Server.

    Este artigo pretende apresentar ao leitor uma das ferramentas de data mining maissimples e largamente utilizadas: a ferramenta Weka. O sistema Weka um software livre (decdigo aberto) para minerao de dados, desenvolvido em Java, dentro das especificaes daGNU (General Public License). As suas caractersticas, bem como as tcnicas neleimplementadas so descritas de forma detalhada em [Witten e Frank 2005], cujos autores soos responsveis pela implementao da ferramenta. O software est disponvel para Windows,Linuxe outras plataformas.

    2 rvores de Deciso

    A ferramenta Weka possui como ponto forte a extrao de classificadores em basesde dados. Um classificador (ou modelo declassificao) utilizado para identificar a classe qual pertence uma determinada observao de uma base de dados, a partir de suascaractersticas (seus atributos).

    A minerao de modelos de classificao em bases de dados um processo compostopor duas fases: aprendizado e teste. Na fase de aprendizado, um algoritmo classificador

    aplicado sobre um conjunto de dados de treinamento. Como resultado, obtem-se aconstruo do classificador propriamente dito. Tipicamente, o conjunto de treinamentocorresponde a um subconjunto de observaes selecionadas de maneira aleatria a partir dabase de dados que se deseja analisar. Cada observao do conjunto de treinamento caracterizada por dois tipos de atributo: o atributo classe, que indica a classe a qual aobservao pertence; e os atributos preditivos, cujos valores sero analisados para que sejadescoberto o modo como eles se relacionam com o atributo classe. Para exemplificar estesconceitos, considere o conjunto de dados de treinamento apresentado na Tabela 1. Nesteexemplo, o conjunto de dados composto por observaes selecionadas a partir de uma basehipottica de informaes censitrias. Cada observao contm os dados de uma pessoa

  • 8/6/2019 Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka

    2/8

    entrevistada. Observe que o atributo Rico - utilizado para indicar se uma pessoa possui rendaanual igual ou superior a R$ 50.000,00 - representa o atributo classe, enquanto os atributosescolaridade e idade so preditivos.

    Tabela 1 Base de Dados Censitrios

    NOME ESCOLARIDADE IDADE RICO(atributo classe)

    Alva Mestrado >30 Sim

    Amanda Doutorado 30 Sim

    Raphael Mestrado

  • 8/6/2019 Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka

    3/8

    Figura 1 rvore de deciso construda a partir do conjunto de dados da Tabela 1.

    A rvore de deciso apresentada na Figura 1 indica se uma pessoa rica ou nocom base nos seus outros atributos, os atributos preditivos. A estrutura possui as seguintescaractersticas:

    - cada n interno um teste em um atributo preditivo;- uma ramificao partindo de um n interno representa um resultado para o teste

    (por exemplo, Escolaridade = Doutorado);- uma folha da rvore representa um rtulo de classe (por exemplo, Rico = Sim ou

    Rico = No);- em cada n da rvore, um atributo deve ser escolhido para dividir as observaes do

    conjunto de treinamento em classes, na medida do possvel.- uma nova observao classificada seguindo um caminho na rvore, da raiz at a

    folha.

    importante observar que uma rvore de deciso pode ser utilizada com duas

    finalidades: previso (exemplo: descobrir se um cliente ser um bom pagador em funo desuas caractersticas) e descrio (fornecer informaes interessantes a respeito das relaesentre os atributos preditivos e o atributo classe numa base de dados).

    Uma rvore de deciso formada por um conjunto de regras declassificao. Cadacaminho da raiz at uma folha representa uma destas regras. A rvore de deciso deve serdefinida de forma que, para cada observao da base de dados, haja um e apenas umcaminho da raiz at a folha. As quatro regras de classificao a seguir, compem a rvore dedeciso da Figura 1.

    1. (Escolaridade = Graduao)(Rico = No)

    2. (Escolaridade = Doutorado) (Rico = Sim)

    3. (Escolaridade = Mestrado) & (Idade = >30)(Rico = Sim)

    4. (Escolaridade = Mestrado) & (Idade =

  • 8/6/2019 Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka

    4/8

    na estratgia para a escolha dos atributos que estaro mais prximos da raiz da rvore (ouseja, os atributos que so inicialmente avaliados para determinar a classe a qual umaobservao pertence). Observe que na Figura 1, o atributo Escolaridade encontra-se na raizda rvore, pois foi considerado pelo algoritmo classificador como o atributo mais importantepara determinar se uma pessoa rica ou no. Geralmente so utilizadas medidas baseadas naentropia para tratar este problema.

    3. Construo de uma rvore de Deciso Utilizando a FerramentaWeka

    A ferramenta Weka trabalha com arquivos de entrada no formato ARFF, quecorresponde a um arquivo texto contendo um conjunto de observaes, precedidopor umpequeno cabealho. O cabealho utilizado para fornecer informaes a respeito dos camposque compem o conjunto de observaes. Dessa forma, antes da minerao de dados, aferramenta pode verificar alguma inconsistncia na base de dados e sinaliz-la. A Figura 2ilustra um exemplo de arquivo ARFF, contendo um cabealho e um conjunto de 8 registros querepresentam a base de dados apresentada na Tabela 1. Observe que o cabealho contm adeclarao da relao que o arquivo representa (comando @relation), uma lista de atributos(comando @attribute) e a relao de valores que os mesmos podem assumir. O conjunto deobservaes precedido por um comando @data. Cada observao representada por umalinha. Os valores dos campos dentro de uma observao devem ser separados utilizando avrgula.

    Figura 2 Arquivo ARFF.

    O instalador da ferramenta Weka pode ser obtido de maneira gratuita (juntamentecom seu cdigo fonte) no site http://www.cs.waikato.ac.nz/~ml/weka. Uma vez instalado, o

    sistema Weka pode ser utilizado para minerar rvores de deciso atravs da execuo dosseguintes passos:

    PASSO 1: Executar o programa. A partir do menu Iniciar / Programas, selecioneWEKA e clique em Weka 3-4 (verso atual do sistema). O menu principal Weka GUI Chooserser exibido na tela. Clique no boto Explorer (Figura 3).

  • 8/6/2019 Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka

    5/8

    Figura 3 Weka GUI Chooser

    PASSO 2: Importar o arquivo ARFF . Aps iniciar o Weka Explorer, a opo OpenFile deve ser utilizada para abrir o arquivo ARFF que ser minerado.

    PASSO 3: Selecionar os Atributos . Em seguida, o Weka abrir uma telaque permite com que o usurio possa definir qual o atributo da base que ser utilizado comoclasse e quais os atributos que sero utilizados como preditivos (Figura 4). No momento daimportao, pordefault, o Weka ir considerar o ltimo atributo especificado no cabealho do

    arquivo ARFF, como o atributo classe, enquanto os demais atributos sero tratados comoatributos preditivos. Observe que, nesta tela (aba Preprocess), tambm possvel consultargrficos de barra que indicam os cruzamentos de freqncia envolvendo todos os atributospreditivos e o atributo classe.

  • 8/6/2019 Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka

    6/8

    Figura 4 Seleo da Classe e dos Atributos Preditivos

    PASSO 4: Selecionar o Algoritmo de Minerao . Clique na aba Classify. A partirdesta tela possvel escolher e executar um algoritmo de classificao sobre a base de dadosimportada. Os resultados da minerao tambm podero ser consultados neste mesmo local.Clique no boto "Choose". Ser aberta uma janela que permitir a escolha do algoritmo de

    minerao de dados. Clique na pasta "trees" (algoritmos de rvore de deciso) e selecione aopo "Id3" (Figura 5).

  • 8/6/2019 Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka

    7/8

    Figura 5 Seleo do Algoritmo de Minerao de Dados

    PASSO 5: Executar o Algoritmo de Minerao. No painel Test options selecione a opoUse training set. Esta seleo indica ao Weka que toda a base de dados serutilizada comobase de treinamento durante o processo de minerao. A seguir clique no boto "Start". A

    rvore de deciso gerada pelo algoritmo ID3 apresentada no canto direito da tela do Weka,conforme ilustra a rea destacada no crculo vermelho da Figura 6. Na mesma tela soapresentadas algumas medidas de interesse que indicam a qualidade da rvore minerada.

    Figura 6 rvore de Deciso Minerada pelo Weka

    4. Concluses

    Este artigo demonstrou os passos necessrios para a extrao de rvores de deciso apartir de bases de dados atravs da utilizao da ferramenta de data miningWeka. O trabalho

    tambm apresentou conceitos introdutrios sobre a minerao de classificadores e sobrervores de deciso.

    Como trabalho futuro pretende-se apresentar outros conceitos associados mineraode rvores de deciso como, por exemplo, as medidas de interesse para avaliar a qualidadedestas rvores. Alm disso pretende-se descrever outras capacidades do sistema Weka, comoa minerao de regras de associao e clusters de dados e a obteno de modelos declassificao atravs de outros algoritmos diferentes do ID3.

    Referncias

  • 8/6/2019 Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka

    8/8

    BERRY, M. L. A. e LINOFF, G. (2004), Data Mining Techniques: for Marketing, Sales andCustomer Relationship Management, John Wiley Consumer, 2nd edition.

    HAN, J. e KAMBER, M. (2006), Data Mining: Concepts and Techniques, Morgan KaufmannPublishers, 2nd edition.

    WITTEN, I. H. e FRANK, E. (2005), Data Mining: Practical Machine Learning Tools andTechniques, Morgan Kaufmann Publishers, 2nd edition.