Introdução a Mineração de Dados

  • View
    71

  • Download
    31

Embed Size (px)

DESCRIPTION

ok

Text of Introdução a Mineração de Dados

  • LUIS PAULO VIEIRA BRAGA

    Introduo Minerao de Dados

    2 edio revista e ampliada

    Rio de Janeiro, 2005

  • Luis Paulo Vieira Braga / E-papers Servios Editoriais Ltda., 2005.Todos os direitos reservados Luis Paulo Vieira Braga / E-papers Servios Editoriais Ltda. proibida a reproduo ou transmisso desta obra, ou parte dela, por qualquer meio, sem a prvia autorizao dos editores.Impresso no Brasil.

    SPSS, SAS, Microsoft, IBM, Harley-Davidson e outros nomes de empresas so marcas registradas.

    1 edio: 20042 edio: 2005

    ISBN: 85-7650-035-3

    Projeto gr co, diagramao e CapaLivia Krykhtine

    Reviso de texto Elisa SankuevitzHel CastroMrio Jos de Oliveira

    Esta publicao encontra-se venda no site da E-papers Servios Editoriais.http://www.e-papers.com.brE-papers Servios Editoriais Ltda.Rua Mariz e Barros, 72, sala 202Praa da Bandeira Rio de JaneiroRio de Janeiro BrasilCEP 20.270-006

    Braga, Luis Paulo Vieira Introduo Minerao de Dados/ Luis Paulo Vieira Braga. 2 edio revista e ampliada. Rio de Janeiro: E-Papers Servios Editoriais, 2005. 212 p.

    1. Banco de Dados I. Ttulo 311.07

  • Sumrio

    9 Prefcio

    11 Introduo

    15 KDD e Minerao de Dados16 De nio do problema 16 Aquisio e Avaliao dos dados 17 Extrao de caractersticas e realce 17 Plano de prototipagem, prototipagem e

    desenvolvimento do modelo 17 Avaliao do modelo 17 Implementao 17 Avaliao do retorno do investimento (ps-projeto)

    19 Bancos de Dados para Minerao de Dados Data warehouse, Data mart e Data webhouse

    23 A Construo de Modelos no Processo KDD/DM23 Problema

    27 Tratamento de Dados para DM27 De nio da Populao28 Amostragem31 Triagem dos Dados32 Transformao dos Dados

    37 Mtodos para Modelagem37 Seleo do Mtodo44 Anlise de Regresso no-Linear46 Regresso Logstica48 rvores de Classi cao

    PERTENCE A NOME DO CLIENTE

  • 52 Redes Neurais58 Anlise Discriminante61 Anlise de Similaridade e de Conglomerados68 Anlise de A nidade

    73 Plano de Prototipagem73 Plano de Prototipagem, Prototipagem e

    Desenvolvimento do Modelo

    79 Validao do Modelo79 Validao

    83 Implementao83 Implementao

    85 Retorno do Investimento (ROI)

    89 Exemplos89 A Partir de uma Base de Clientes, para Quais Enviar

    um Novo Catlogo?90 Penetrao no Mercado90 Classi cao para Clientes de um Carto de Crdito91 Previso de Vendas para uma Campanha Promocional92 Modelando Risco

    93 Bibliogra a

    95 Anexo I Repositrios de Dados na Internet

    97 Anexo II Pacotes Computacionais em Minerao de Dados

    99 Anexo III Anteprojeto de Minerao de Dados

    103 Anexo IV Estudos de Caso104 AIV.1 Classi cao de doadores potenciais da

    Paralyzed Veterans of America110 AIV.2 Identi cao de padres no acesso s pginas

    do site MSNBC117 AIV.3 Identi cao de per s em basede dados de

    acidentes de trabalho126 AIV.4 Aquisio de Seguros135 AIV.5 Projeto de minerao de dados para

    categorizao de clientes de uma instituio nanceira

    PERTENCE A NOME DO CLIENTE

  • 156 AIV.6 Classi cao Supervisionada de Crdito em um Banco na Alemanha

    163 AIV-7 Predio do Interesse pela Compra de Seguro de Trailers

    193 AIV-8 Sistema de Deteco de Intruso

    205 Anexo V Estatstica do Quiquadrado para alguns Atributos

    207 Anexo VI Transformaes matemticas

    209 Anexo VII Exemplos de taxas de acerto e matrizes de confuso

    PERTENCE A NOME DO CLIENTE

  • ndice de Figuras

    13 Figura 1.1. Tipos de Negcios Eletrnicos15 Figura 2.1. KDD20 Figura 3.1. Sistemas para Business Intelligence22 Figura 3.2. Banco Relacional versus Multidimensional31 Figura 5.1. Outliers38 Figura 6.1. Resduos versus estimativas44 Figura 6.2. Regresso No-linear45 Figura 6.3. Superfcie de Regresso46 Figura 6.4. Regresso Logstica49 Figura 6.5. rvore de Classi cao51 Figura 6.6. rvore de Classi cao do exerccio52 Figura 6.7. Modelo de um neurnio53 Figura 6.8. Rede neural58 Figura 6.9. Funo discriminante 64 Figura 6.10. Anlise de agrupamento66 Figura 6.11. Dendograma67 Figura 6.12. Mtodo das K-mdias69 Figura 6.13. Caminhos em sites

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 9

    meu primeiro contacto com Minerao de Dados, no sentido estrito que este jargo passou a ser utilizado, se deu durante o perodo em que cursei o MBA em Comrcio Eletrnico da

    FGV-RJ no ano de 2001. Por outro lado minha experincia com an-lise de dados em cincias da natureza de cerca de 20 anos. Coin-cidentemente ou no, eu j trabalhava com dados em minerao e passei ento a trabalhar com minerao de dados. Nesse texto o termo ser utilizado no contexto do mundo dos negcios, embora as tcnicas de minerao de dados possam tambm ser aplicadas em reas sociais, alguns estudos de caso contemplam exatamente este segmento.

    O assunto est exposto em 11 captulos, alm da bibliogra a e quatro anexos. A meta apresentar a metodologia para o de-senvolvimento de um projeto em minerao de dados, de modo que o leitor que apto a formular um projeto de acordo com as necessidades da organizao para a qual trabalha. No ensinado nenhum particular pacote computacional, mas aps o estudo do material apresentado, o leitor certamente saber utilizar melhor as facilidades que a maioria dos bons pacotes oferece. Estudantes de graduao em economia, administrao, marketing, engenharia, matemtica, estatstica e informtica, alm de pro ssionais que trabalhem nestas reas podem se bene ciar do texto, tomando contacto com uma ferramenta que est se tornando cada vez mais presente no mercado de trabalho.

    O texto, agora em sua segunda edio, vem sendo utilizado na disciplina Minerao de Dados que tenho oferecido a nvel de graduao, ps-graduao ou extenso no Instituto de Matemtica

    Prefcio

    O

    PERTENCE A NOME DO CLIENTE

  • 10 Prefcio

    da Universidade Federal do Rio de Janeiro. Muitas melhorias foram introduzidas em relao edio anterior: cinco novos estudos de caso, sees adicionais cobrindo mais tcnicas, melhoria do texto, entre outras.

    Agradeo os comentrios, contribuies e crticas de colegas e estudantes, dentre eles: Adriano Moutinho, Airam Carlos Pais Barreto Marques, Alexander Lima da Silva, Alexandra Ribeiro Men-des de Almeida, Anderson Scot de Mello, Andr Valle, Alissandra Evangelista Martins, Antonio Anibal de Souza Teles, Artur Versiani Scott Varella, Carlos Alberto Franco, Cassio Almeida, Catia Cristina de Arajo Quarterolli Bastos, Ftima Luciana Contim Figueiredo, Fernando Tamberlini Alves, Geraldo Oliveira Santos, Guido Alberti Moreira, Jeffrey Hanson Costa, Joo Ismael Damasceno Pinheiro, Jorge Leonardo Lima Barboza, Jorge de Rezende, Luiz Eduardo Va-rella, Marcelo Amorim Bastos, Marcelo Poton, Mrcio Bartolomeu Azevedo da Costa, Raimundo Jos Macrio Costa, Regis da Rocha Motta, Samuel Martins de Souza, Srgio Ellery Giro Barroso, Sonia Baptista da Cunha, Viviane Soares Rodrigues Silva, Telma S. Par.

    PERTENCE A NOME DO CLIENTE

  • Introduo Minerao de Dados 11

    maior desa o que as empresas enfrentam hoje o de manter uma carteira de clientes lucrativos. No se trata mais de orga-nizar a produo, reduzir custos e atender bem condies

    necessrias mas no su cientes para vencer no mercado global e altamente competitivo.

    preciso, mediante o conhecimento adquirido sobre seus clien-tes, ser capaz de interpretar seus objetivos, expectativas e desejos. Isto conseguido pela minerao de dados (data mining), ou ainda pela minerao de dados centrada no cliente (customer centric data mining), que uma coleo de tcnicas e mtodos facilitadora da aquisio e reteno da parte do mercado que cabe a uma empresa (market share). As metas de bom atendimento e reduo de custos tambm valem para as organizaes no lucrativas, governamentais ou no.

    Para atingir estes objetivos no bastam as ferramentas genricas de CRM (Client Relationship Management), ERP (Enterprise Resour-ces Planning) ou BI (Business Intelligence) mas tambm capacidade analtica para identi cao de padres e predio a partir dos dados estratgicos de uma organizao. Analistas de minerao de dados desenvolvem dois tipos de modelos: preditivos e descritivos.

    A minerao de dados prov um mtodo automtico para des-cobrir padres em dados, sem a tendenciosidade e a limitao de uma anlise baseada meramente na intuio humana. Presidentes de grandes corporaes como IBM, Microsoft e Harley-Davidson no foram capazes de prever que o mercado ia preferir PCs, Internet e motos populares. Alm disso massas de dados so demasiadamente grandes e intrincadas para tratamento manual.

    Introduo

    O

    PERTENCE A NOME DO CLIENTE

  • 12 Introduo

    Em particular, o comrcio eletrnico vem pressionando drasti-camente as empresas para utilizao de formas mais elaboradas de obteno de conhecimento sobre seus clientes. A grande diferena entre as empresas reais e as empresas na Internet, supondo-se que o bsico seja atingido, o relacionamento. O negcio que conhece seus clientes vai servi-los ainda melhor. Igualmente no setor pblico a introduo do e-governo visa potencializar o acesso da populao s diversas instncias governamentais, aumentando a presso sobre o funcionamento da burocracia estatal.

    A minerao de dados centrada no cliente prov o conhecimento das caractersticas e do comportamento dos clientes. Esta compre-enso a base para qualquer prospeco realstica. Reter clientes custa menos que adquirir novos e a expanso do comrcio eletrnico tornou fcil a mudana de fornecedor. Muitas relaes comerciais no passaro de uma simples transao, por este motivo o melhor gasto com marketing aquele que mantm os clientes que voc j tem. Obviamente no se deve esquecer da e cincia operacional, que a chave para manter os custos sob controle.

    Hoje em dia a projeo de negcios fundamental, por exemplo, a estimativa do ciclo