Minerao de Dados - Conceitos, Aplicaes e de Dados - Conceitos, Aplicaes e ... estes termos individualmente: • Dados: conjunto de fatos F, como instncias de um banco de dados

  • View
    214

  • Download
    2

Embed Size (px)

Text of Minerao de Dados - Conceitos, Aplicaes e de Dados - Conceitos, Aplicaes e ... estes termos...

  • Minerao de Dados - Conceitos, Aplicaes e Experimentos com Weka

    Marcelino Pereira dos Santos Silva1,2

    1Universidade do Estado do Rio Grande do Norte (UERN) BR 110, Km 48, 59610-090, Mossor, RN, Brasil

    2Instituto Nacional de Pesquisas Espaciais (INPE) C. Postal 515, 12201-097, So Jos dos Campos, SP, Brasil

    mpss@dpi.inpe.br

    Abstract. Tools and techniques employed for automatic and smart analysis of huge data repositories of industries, governments, corporations and scientific institutes are the subjects dealt by the emerging field of Knowledge Discovery in Databases (KDD). Data mining is the KDD step where it's performed the method selection to search patterns in data, followed by the search for interesting patterns in a particular representation and the best parameter tuning of the chosen algorithms. This course will present the fundamentals of data mining, as well some research and application areas of this technology. In order to reach a practical and applied approach, data mining tasks will be performed using Weka, a collection of machine learning algorithms for real data mining tasks. The activities will help to fix concepts shown, allowing the perception of potentialities of this recent and challenging research area.

    Resumo. As ferramentas e tcnicas empregadas para anlise automtica e inteligente dos imensos repositrios de dados de indstrias, governos, corporaes e institutos cientficos so os objetos tratados pelo campo emergente da Descoberta de Conhecimento em Bancos de Dados (Knowledge Discovery in Databases - KDD). Minerao de dados a etapa em KDD responsvel pela seleo dos mtodos a serem utilizados para localizar padres nos dados, seguida da efetiva busca por padres de interesse numa forma particular de representao, juntamente com a busca pelo melhor ajuste dos parmetros do algoritmo para a tarefa em questo. Neste minicurso, os fundamentos de minerao de dados sero apresentados, bem como diferentes reas de pesquisa e aplicao desta tecnologia. Visando um enfoque prtico e aplicado, atividades de minerao sero realizadas com o Weka, um pacote de algoritmos de aprendizagem de mquina para resolver problemas reais de minerao de dados. Estas atividades auxiliaro na fixao dos conceitos apresentados, bem como numa melhor percepo do potencial desta recente e desafiadora rea de pesquisa.

    1. Introduo As reas governamentais, corporativas e cientficas tm promovido um crescimento explosivo em seus bancos de dados, superando em muito a usual capacidade de

  • interpretar e examinar estes dados, gerando a necessidade de novas ferramentas e tcnicas para anlise automtica e inteligente de bancos de dados [Fayyad et al. 1996].

    Nos diferentes segmentos da sociedade, as instituies tm buscado na tecnologia recursos que agreguem valor aos seus negcios, seja agilizando operaes, suportando ambientes ou viabilizando inovaes. Diariamente, pessoas e instituies disponibilizam dados oriundos de tarefas cotidianas a estas plataformas tecnolgicas atravs de simples atividades como compras no supermercado do bairro ou operaes bancrias. Os sistemas de computao participam da vida das pessoas de forma cada vez mais prxima e constante. No obstante, institutos cientficos, indstrias, corporaes e governos acumulam volumes gigantescos de dados, impulsionados tambm pela versatilidade e alcance proporcionados pela Internet.

    Esta ampla disponibilidade de imensas bases de dados, aliada eminente necessidade de transformar tais dados em informao e conhecimento teis para o suporte deciso, tm demandado investimentos considerveis da comunidade cientfica e da indstria de software. A informao e o conhecimento obtidos podem ser utilizados para diversas aplicaes, que vo do gerenciamento de negcios, controle de produo e anlise de mercado ao projeto de engenharia e explorao cientfica [Han & Kamber 2001].

    As ferramentas e tcnicas empregadas para anlise automtica e inteligente destes imensos repositrios so os objetos tratados pelo campo emergente da descoberta de conhecimento em bancos de dados (DCBD), da expresso em ingls Knowledge Discovery in Databases (KDD). Minerao de dados a etapa em KDD responsvel pela seleo dos mtodos a serem utilizados para localizar padres nos dados, seguida da efetiva busca por padres de interesse numa forma particular de representao, juntamente com a busca pelo melhor ajuste dos parmetros do algoritmo para a tarefa em questo.

    1.1. O Processo de Descoberta de Conhecimento em Bancos de Dados (KDD)

    Descoberta de conhecimento em bancos de dados, o processo no trivial de identificar em dados padres que sejam vlidos, novos (previamente desconhecidos), potencialmente teis e compreensveis, visando melhorar o entendimento de um problema ou um procedimento de tomada de deciso [Fayyad et al. 1996]. Examinando estes termos individualmente:

    Dados: conjunto de fatos F, como instncias de um banco de dados. Por exemplo, uma coleo de n cadastros de pessoas fsicas contendo idade, profisso, renda etc.

    Padro: expresso E em uma linguagem L descrevendo fatos em um subconjunto FE de F. E dito um padro se mais simples do que a enumerao de todos os fatos em FE. Por exemplo, o padro: Se renda < $r ento a pessoa no recebe financiamento seria aplicvel para uma escolha apropriada de r.

    Processo: geralmente em KDD, processo uma seqncia de vrios passos que envolve preparao de dados, pesquisa de padres, avaliao de conhecimento, refinao envolvendo iterao e modificao.

    Validade: os padres descobertos devem ser vlidos em novos dados com algum grau de certeza. Uma medida de certeza uma funo C mapeando expresses

  • em L para um espao de medidas MC . Por exemplo, se um limite de padro de crdito ampliado, ento a medida de certeza diminuiria, uma vez que mais financiamentos seriam concedidos a um grupo at ento restrito a esta operao.

    Novo: em geral, assume-se que novidade pode ser medida por uma funo N(E,F), que pode ser uma funo booleana ou uma medida que expresse grau de novidade ou surpresa. Exemplo de um fato que no novidade: sejam E = usa tnis e F = alunos de colgio ento N(E,F) = 0 ou N(E,F) = false. Por outro lado: sejam E = bom pagador e F = trabalhador da construo civil ento N(E,F) = 0,85 ou N(E,F) = true.

    Potencialmente til: padres devem potencialmente levar a alguma atitude prtica, conforme medido por alguma funo de utilidade. Por exemplo, regras obtidas no processo podem ser aplicadas para aumentar o retorno financeiro de uma instituio.

    Compreensvel: um dos objetivos de KDD tornar padres compreensveis para humanos, visando promover uma melhor compreenso dos prprios dados. Embora seja um tanto subjetivo medir compreensibilidade, um dos fatores freqentes a medida de simplicidade. O fator de compreenso dos dados est relacionado intuitividade da representao destes, bem como da granularidade alta o suficiente para que estes sejam compreendidos. Por exemplo: o log de um servidor Web no uma representao compreensvel; j fatos estatsticos extrados deste log, tais como totais de acesso ou classificao dos acessos realizados, fornecem informao num formato mais intuitivo e de granularidade humanamente compreensvel.

    1.2. Etapas do Processo de Descoberta de Conhecimento em Bancos de Dados

    O processo de KDD interativo, iterativo, cognitivo e exploratrio, envolvendo vrios passos (Figura 1) com muitas decises sendo feitas pelo analista (que um especialista do domnio dos dados, ou um especialista de anlise dos dados), conforme descrito:

    1. Definio do tipo de conhecimento a descobrir, o que pressupe uma compreenso do domnio da aplicao bem como do tipo de deciso que tal conhecimento pode contribuir para melhorar.

    2. Criao de um conjunto de dados alvo (Selection): selecionar um conjunto de dados, ou focar num subconjunto, onde a descoberta deve ser realizada.

    3. Limpeza de dados e pr-processamento (Preprocessing): operaes bsicas tais como remoo de rudos quando necessrio, coleta da informao necessria para modelar ou estimar rudo, escolha de estratgias para manipular campos de dados ausentes, formatao de dados de forma a adequ-los ferramenta de minerao.

    4. Reduo de dados e projeo (Transformation): localizao de caractersticas teis para representar os dados dependendo do objetivo da tarefa, visando a reduo do nmero de variveis e/ou instncias a serem consideradas para o conjunto de dados, bem como o enriquecimento semntico das informaes.

    5. Minerao de dados (Data Mining): selecionar os mtodos a serem utilizados para localizar padres nos dados, seguida da efetiva busca por padres de

  • interesse numa forma particular de representao ou conjunto de representaes; busca pelo melhor ajuste dos parmetros do algoritmo para a tarefa em questo.

    6. Interpretao dos padres minerados (Interpretation/Evaluation), com um possvel retorno aos passos 1-6 para posterior iterao.

    7. Implantao do conhecimento descoberto (Knowledge): incorporar este conhecimento performance do sistema, ou document-lo e report-lo s partes interessadas.

    Figura 1. Etapas de KDD [Fayyad et al. 1996]

    1.3. Aplicabilidade de Descoberta de Conhecimento em Bancos de Dados

    Visando uma exemplificao da aplicabilidade de KDD, so apresentados a seguir casos onde a descoberta de conhecimento em bancos de dados pode desempenhar tarefas relevantes [Witten & Frank 2000]:

    Submisses a emprstimos demandam do proponente o fornecimento de dados pessoais e financeiros relevantes. Estas informaes so utilizadas pelas instituies financeiras como base para a deciso de efetuar ou no o emprstimo. Tal deciso comumente tomada em dois estgios. Primeiro, mtodos estatsticos so utilizados para determinar situaes bem definidas em relao aceitao ou rejeio do pedido. Os casos remanescentes, ou seja, aqueles que esto no limite necessitam de anlise humana. KDD