DATA MINING - olguin/4463-semin/g2- آ  Data Mining Data mining (DM), أک o processo de seleأ§آھo,

  • View
    0

  • Download
    0

Embed Size (px)

Text of DATA MINING - olguin/4463-semin/g2- آ  Data Mining Data mining (DM), أک o processo de...

  • Unioeste - Universidade Estadual do Oeste do Paraná CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS Colegiado de Informática Curso de Bacharelado em Informática

    DATA MINING

    Fabiany Lamboia Luciano Machado Pereira

    CASCAVEL 2005

  • Fabiany Lamboia Luciano Machado Pereira

    DATA MINING

    Trabalho apresentado como nota parcial da disci- plina de Banco de Dados II do Curso de Bacha- rel em Informática, do Centro de Ciências Exatas e Tecnológicas da Universidade Estadual do Oeste do Paraná - Campus de Cascavel

    Professor: Carlos José Maria Olguín

    CASCAVEL 2005

  • Lista de Figuras

    2.1 Estratégias e Algoritmos utilizados . . . . . . . . . . . . . . . . . . . . . . . . 8

    3.1 Exemplo de um conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . . 14

    iii

  • Lista de Abreviaturas e Siglas

    DM Data Mining IBM International Business Machines KDD Knowledge Discovery in Databases OLAP Online Analytical Processing CAD Computer Aided Design CAM Computer Aided Manufacturing

    iv

  • Sumário

    Lista de Figuras iii

    Lista de Abreviaturas e Siglas iv

    Sumário v

    1 Introdução 1

    2 Data Mining 3

    2.1 Principais Tarefas de Data Mining . . . . . . . . . . . . . . . . . . . . . . . . 4

    2.1.1 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.1.2 Estimativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.1.3 Segmentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.1.4 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.1.5 Agregação (clustering) . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.1.6 Sumarização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.1.7 Modelo de Dependência . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.1.8 Associação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.1.9 Análise de Sequência . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.1.10 Predição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    3 Técnicas de Data Mining 9

    3.1 Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    3.2 Métodos Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    3.3 Indução de Regras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    3.3.1 Regras de Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    3.3.2 Regras de Associação . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    3.3.3 Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    v

  • 3.3.4 Regras de Caracterização . . . . . . . . . . . . . . . . . . . . . . . . . 13

    3.3.5 Regras de Discriminação . . . . . . . . . . . . . . . . . . . . . . . . . 13

    3.4 Alguns Algoritmos utilizados em Data Mining . . . . . . . . . . . . . . . . . . 13

    3.4.1 Árvores de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    3.4.2 Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    3.4.3 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    3.4.4 Adaptive Bayes Network . . . . . . . . . . . . . . . . . . . . . . . . . 17

    3.5 Aplicações para Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    3.5.1 Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    3.5.2 Vendas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    3.5.3 Finanças . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    3.5.4 Manufatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3.5.5 Saúde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3.5.6 Energia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3.6 Tecnologias que Implementam Data Mining . . . . . . . . . . . . . . . . . . . 20

    3.7 Exemplos de Empresas que utilizam Data Mining . . . . . . . . . . . . . . . . 20

    4 Conclusão 22

    5 Bibliografia 23

    vi

  • Capítulo 1

    Introdução

    O grande volume de dados disponíveis cresce a cada dia e desafia a capacidade de arma-

    zenamento, seleção e uso dos mesmos. Assim surge a necessidade de uso de tecnologias que

    permitem a obtenção (mineração) de dados afim de gerar informações e conhecimento a partir

    dos dados.

    A tecnologia de Data Mining com suas ferramentas permite a "mineração"destes dados. Esta

    tecnologia é formada por um conjunto de ferramentas que são capazes de explorar um grande

    conjunto de dados, extraindo destes conhecimentos na forma de hipóteses e de regras.

    Diariamente as empresas acumulam diversos dados em seus bancos de dados, tornando-os

    em informação sobre os vários processos e procedimentos das funções da empresa, inclusive

    com dados e hábitos de seus clientes, suas histórias de sucesso e fracassos. Todos estes dados

    podem contribuir com a empresa, sugerindo tendências e particularidades pertinentes a ela e seu

    meio ambiente interno e externo, visando uma rápida ação de seus gestores.

    Com a geração de informações e conhecimentos úteis para as empresas, os seus negócios

    podem se tornar mais lucrativos. Os recursos da Tecnologia da Informação, mais precisamente

    a capacidade do hardware e software disponíveis podem efetuar atividades em horas o que

    tradicionalmente as pessoas levariam meses.

    Os sistemas tradicionais são ferramentas capazes de manipular dados de forma rápida, se-

    gura e efetiva em bancos de dados, mas apresentam restrições para gerar informações com

    análises significativas. Estas restrições são melhores trabalhadas quando as empresas utilizam-

    se da tecnologia de Data Mining aliada a outras tecnologias, tais como, Knowledge Discovery

    in Databases (KDD).

    No ambiente comercial atual, data mining está começando a ganhar mais atenção. Como

  • esse recurso trata de exploração e análise, de forma automática ou semi-automática, quantida-

    des de dados podem ajudar a descobrir padrões e regras significativas. Esses padrões e regras

    ajudam as empresas a aprimorar áreas de marketing, vendas e de operações de suporte ao cliente

    para entendê-los melhor.

    2

  • Capítulo 2

    Data Mining

    Data mining (DM), é o processo de seleção, exploração de dados e criação de modelos que

    utiliza um grande volume de armazenamento de dados para identificar padrões previamente des-

    conhecidos. Consiste na construção de modelos computacionais para a descoberta automática

    de novos fatos e relacionamentos entre dados, produzindo novos conhecimentos.

    Tais conhecimentos são utilizados para informar melhor os tomadores de decisão antes de

    eles agirem. O DM Pode criar um modelo do mundo real com base nos dados coletados de

    várias fontes, incluindo transações corporativas, dados históricos e demográficos de clientes,

    e mesmo de fontes externas, como empresas de análise de crédito. Depois, pode utilizar esse

    modelo para produzir padrões a partir de informações, os quais podem dar suporte às tomadas

    de decisão e prever novas oportunidades de negócios. O data mining está presente em vários

    setores e atividades de negócio, como por exemplo:

    • Empresas de telecomunicações, seguros, cartões de crédito e do mercado de ações utili- zam o data mining para detectar fraudes, otimizar campanhas de marketing e identificar

    as estratégias mais lucrativas.

    • A área médica utiliza o data mining para prever a eficácia de procedimentos cirúrgicos, exames médicos e medicações.

    • O setor de varejo utiliza o data mining para avaliar a eficácia de promoções e eventos especiais, e prever que ofertas são mais apropriadas para os diferentes consumidores.

    É importante não confundir data mining com complexas estruturas de consulta a bases de

    dados, onde o usuário já possua alguma hipótese e deseja apenas extrair material para manu-

  • almente verificar e confirmar a validade de sua hipótese. A idéia central em data mining é a

    de que seus algoritmos atuem como extratores de dados e sejam capazes de automaticamente

    identificar a existência de padrões e relacionamentos desconhecidos, que ao serem analisados

    posteriormente, possam mostrar e induzir a geração de hipóteses úteis e relevantes para o usuá-

    rio.

    O Data Mining representa uma forma de capitalizar o investimento necessário para o arma-

    zenamento de grandes volumes de dados, tentando, por exemplo, descobrir padrões de compor-

    tamento de clientes para fins de concessão de crédito, ou identificando estilos de ações fraudu-

    lentas em administradoras de cartão de créditos.

    Um problema nesta abordagem é que além da possibilidade de criar relacionamentos inúteis,

    o número de correlações possíveis de serem obtidas tende a ser muito grande, o que impede a

    análise exaustiva de cada uma. A solução é usar algoritmos e técnicas inteligentes que possam

    identificar e sel