Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas

  • View
    220

  • Download
    1

Embed Size (px)

Text of Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas

  • Minerao de Dados: Conceitos, Tarefas,

    Mtodos e Ferramentas

    Cssio Oliveira Camilo Joo Carlos da Silva

    Technical Report - RT-INF_001-09 - Relatrio TcnicoAugust - 2009 - Agosto

    The contents of this document are the sole responsibility of the authors.

    O contedo do presente documento de nica responsabilidade dos autores.

    Instituto de Informtica

    Universidade Federal de Gois

    www.inf.ufg.br

  • Minerao de Dados: Conceitos, Tarefas, Mtodose Ferramentas

    Cssio Oliveira Camilo

    cassio@inf.ufg.br

    Joo Carlos da Silva

    jcs@inf.ufg.br

    Abstract. This work will be presented the key concepts of Data Mining, main tasksand methods. Besides the traditional methods, some variations and new approacheswill be discussed. Finally, a list of the main tools to work with mining.

    Keywords: Data Mining, Tasks, Methods, Tools.

    Resumo. Neste trabalho sero apresentados os conceitos fundamentais da Miner-ao de Dados, principais tarefas e mtodos. Alm dos mtodos tradicionais, algu-mas variantes e novas abordagens sero discutidas. Ao final ser apresentada umalista das principais ferramentas para se trabalhar com minerao.

    Palavras-Chave: Minerao de Dados, Tarefas, Mtodos, Ferramentas.

    1 IntroduoDesde o surgimento dos sistemas computacionais, um dos principais objetivos das orga-

    nizaes tem sido o de armazenar dados. Nas ltimas dcadas essa tendncia ficou ainda maisevidente com a queda nos custos para a aquisio de hardware, tornando possvel armazenarquantidades cada vez maiores de dados. Novas e mais complexas estruturas de armazenamentoforam desenvolvidas, tais como: banco de dados, Data Warehouses , Bibliotecas Virtuais, Webe outras [16] [27].

    Bramer [6], exemplifica o enorme volume de dados gerado pelas aplicaes atuais:

    Os satlites de observao da NASA geram cerca de um terabyte de dados por dia;

    O projeto Genoma armazena milhares de bytes para cada uma das bilhes de bases genti-cas;

    Instituies mantm repositrios com milhares de transaes dos seus clientes;

    Com o volume de dados armazenados crescendo diariamente, responder uma questotornou-se crucial [39]: O que fazer com os dados armazenados? As tcnicas tradicionais deexplorao de dados no so mais adequadas para tratar a grande maioria dos repositrios. Com

    Mestrando em Cincia da Computao - INF/UFGOrientador - INF/UFG

    1

  • Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 2

    a finalidade de responder a esta questo, foi proposta, no final da dcada de 80, a Minerao deDados, do ingls Data Mining.

    A Minerao de Dados uma das tecnologias mais promissoras da atualidade. Um dosfatores deste sucesso o fato de dezenas, e muitas vezes centenas de milhes de reais seremgastos pelas companhias na coleta dos dados e, no entanto, nenhuma informao til identifi-cada [39]. Em seu trabalho, Han [27] refere-se a essa situao como "rico em dados, pobre eminformao". Alm da iniciativa privada, o setor pblico e o terceiro setor (ONGts) tambmpodem se beneficiar com a Minerao de Dados [84].

    Witten et al. [88], Olson et al. [58] e Bramer [6] apresentam algumas das reas nas quaisa Minerao de Dados aplicada de forma satisfatria:

    Reteno de clientes: identificao de perfis para determinados produtos, venda cruzada;

    Bancos: identificar padres para auxiliar no gerenciamento de relacionamento com ocliente;

    Carto de Crdito: identificar segmentos de mercado, identificar padres de rotatividade;

    Cobrana: deteco de fraudes;

    Telemarketing: acesso facilitado aos dados do cliente;

    Eleitoral: identificao de um perfil para possveis votantes;

    Medicina: indicao de diagnsticos mais precisos;

    Segurana: na deteco de atividades terroristas e criminais [48] [15];

    Auxlio em pesquisas biomtricas [38];

    RH: identificao de competncias em currculos [9];

    Tomada de Deciso: filtrar as informaes relevantes, fornecer indicadores de probabili-dade.

    Segundo Ponniah [65], o uso da Minerao de Dados permite, por exemplo, que:

    Um supermercado melhore a disposio de seus produtos nas prateleiras, atravs dopadro de consumo de seus clientes;

    Uma companhia de marketing direcione o envio de mensagens promocionais, obtendomelhores retornos;

    Uma empresa area possa diferenciar seus servios oferecendo um atendimento person-alizado;

    Empresas planejem melhor a logstica de distribuio dos seus produtos, prevendo picosnas vendas;

    Empresas possam economizar identificando fraudes;

    Agncias de viagens possam aumentar o volume de vendas direcionando seus pacotes aclientes com aquele perfil;

    Alguns casos de sucesso da Minerao de Dados esto relatados em Ye [91], Han et al.[27], Myatt et al. [54] e Hornick et al. [30].

  • Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 3

    2 Descoberta de ConhecimentoSegundo Fayyad [20], o modelo tradicional para transformao dos dados em informao

    (conhecimento), consiste em um processamento manual de todas essas informaes por es-pecialistas que, ento, produzem relatrios que devero ser analisados. Na grande maioriadas situaes, devido ao grande volume de dados, esse processo manual torna-se impraticvel.Ainda segundo Fayyad, o KDD (Knowledge Discovery in Databases ou Descoberta de Conhec-imento nas Bases de Dados) uma tentativa de solucionar o problema causado pela chamada"era da informao": a sobrecarga de dados.

    Ainda no consenso a definio dos termos KDD e Data Mining. Em Rezende [69],Wang [83] e Han et al. [27] eles so considerados sinnimos. Para Cios et al. [16] e Fayyad[20] o KDD refere-se a todo o processo de descoberta de conhecimento, e a Minerao de Dadosa uma das atividades do processo. No entanto, todos concordam que o processo de mineraodeve ser iterativo, interativo e divido em fases. Na figura 1 podemos ver uma representao doprocesso de KDD.

    Figura 1: Figura representando o processo de KDD [20]

    Uma das definies mais utilizadas para o termo KDD de Fayyad [20], que o definecomo "um processo no trivial de identificao de novos padres vlidos, teis e compreen-sveis".

    Atualmente diversos processos definem e padronizam as fases e atividades da Mineraode Dados. Apesar das particularidades, todos em geral contm a mesma estrutura. Neste tra-balho, escolhemos o CRISP-DM (Cross-Industry Standard Processo of Data Mining) [14] comomodelo, devido vasta literatura disponvel e por atualmente ser considerado o padro de maioraceitao [39] [28]. Um ranking do uso dos principais processos pode ser encontrado em [32].

    Como afirma Olson et al. [58], o processo CRISP-DM consiste de seis fases organizadasde maneira cclica, conforme mostra a figura 2. Alm disto, apesar de ser composto por fases,o fluxo no unidirecional, podendo ir e voltar entre as fases.

  • Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 4

    Figura 2: Figura representando o processo CRISP [39]

    As fases do processo CRISP-DM so:

    1. Entendimento dos Negcios: Nessa etapa, o foco entender qual o objetivo que sedeseja atingir com a minerao de dados. O entendimento do negcio ir ajudar nasprximas etapas.

    2. Entendimento dos Dados: As fontes fornecedoras dos dados podem vir de diversoslocais e possurem diversos formatos. Segundo Olson et al. [58], aps definir os objetivos, necessrio conhecer os dados visando:

    Descrever de forma clara o problema; Identificar os dados relevantes para o problema em questo; Certificar-se de que as variveis relevantes para o projeto no so interdependentes.

    Normalmente as tcnicas de agrupamento e de explorao visual tambm so utilizadasnesta etapa [58].

    3. Preparao dos Dados: Devido s diversas origens possveis, comum que os dados noestejam preparados para que os mtodos de Minerao de Dados sejam aplicados dire-tamente. Dependendo da qualidade desses dados, algumas aes podem ser necessrias.Este processo de limpeza dos dados geralmente envolve filtrar, combinar e preencher val-ores vazios.

    4. Modelagem: nesta fase que as tcnicas (algoritmos) de minerao sero aplicadas. Aescolha da(s) tcnica(s) depende dos objetivos desejados [48].

  • Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas 5

    5. Avaliao: Considerada uma fase crtica do processo de minerao, nesta etapa necessria a participao de especialistas nos dados, conhecedores do negcio etomadores de deciso. Diversas ferramentas grficas so utilizadas para a visualizaoe anlise dos resultados (modelos).

    Testes e validaes, visando obter a confiabilidade nos modelos, devem ser executados(cross validation, suplied test set, use training set, percentage split) e indicadores paraauxiliar a anlise dos resultados precisam ser obtidos (matriz de confuso, ndice de cor-reo e incorreo de instncias mineradas, estatstica kappa, erro mdio absoluto, errorelativo mdio, preciso, F-measure, dentre outros) [27] [88].

    6. Distribuio: Aps executado o modelo com os dados reais e completos necessrioque os envolvidos conheam os resultados.

    Constantemente, novos processos so propostos para se trabalhar com a Minerao deDados. Aranda et al. [23], prope um modelo envolvendo o processo RUP e o CRISP-DM.Pechenizkiy et al. [61], prope um processo baseado no modelo dos Sistemas de Informaes.

    3 Os DadosConhecer o tipo dos dados com o qual se ir trabalhar tambm fundamental para a

    escolha do(s) mtodo(s) mais adequado(s). Pode-se categorizar os dados em dois tipos: quan-titativos e qualitativos. Os dados quantitativos so representados por valores numricos. Elesainda podem ser discretos e contnuos. J os dados qualitativos contm os valores nominais eordinais (categricos). Em geral, antes de se aplicar os algoritmos de minerao necessrioexplorar, conhecer e preparar os dados.

    Nesse sentido, uma das primeiras atividades obter uma visualizao dos dados