INE5644 – Data Mining

  • View
    27

  • Download
    5

Embed Size (px)

DESCRIPTION

INE5644 – Data Mining. Tarefas de DCBD Prof. Luis Otavio Alvares alvares@inf.ufsc.br Apresentação adaptada do material do livro Introduction to Data Mining – Tan, Steinbach e Kumar e de slides do prof. José Leomar Todesco (UFSC). Porque DCBD? Ponto de vista comercial. - PowerPoint PPT Presentation

Text of INE5644 – Data Mining

  • INE5644 Data Mining

    Tarefas de DCBD

    Prof. Luis Otavio Alvaresalvares@inf.ufsc.br

    Apresentao adaptada do material do livro Introduction to Data Mining Tan, Steinbach e Kumare de slides do prof. Jos Leomar Todesco (UFSC)

  • Enormes quantidades de dados so coletadas e armazenadas Dados da Web, e-commerceCompras em supermercados, lojas de departamentos, etc.Transaes bancrias e de cartes de crditoOs computadores se tornaram baratos e mais poderososA presso competitiva muito forte

    Porque DCBD? Ponto de vista comercial

    prof. Luis Otavio Alvares

  • Porque DCBD? Ponto de vista cientficoDados captados e armazenados em grande velocidade (GB/hora)sensores remotos em satlitestelescpios varrendo o firmamentomicroarrays gerando dados de expresso gnicasimulaes cientficas gerando terabytes de dados

    Tcnicas tradicionais de anilise so inviveis para estes dados brutos

    prof. Luis Otavio Alvares

  • Motivao para minerar grandes bases de dadosFreqentemente h informao escondida nos dados, que no evidenteAnalistas humanos podem levar semanas para descobrir informao tilMuitos dados nunca so analisadosThe Data GapTotal new disk (TB) since 1995Number of analysts

    disks

    UnitsCapacity PBs

    199589,054104.8

    1996105,686183.9

    1997129,281343.63

    1998143,649724.36

    1999165,8571394.6

    2000187,8352553.7

    2001212,8004641

    2002239,1388119

    2003268,22713027

    1995104.8

    1996183.9

    1997343.63

    1998724.36

    19991394.6

    20002553.7

    20014641

    20028119

    200313027

    disks

    chart data gap

    26535105700

    27229333100

    27245758430

    273091650400

    259533377400

    chart data gap 2

    26535105700

    27229333100

    27245758430

    273091650400

    259533377400

    data gap

    Ph.D.PetabytesTerabytesTotal TBsPBs

    1995105.7105700105700105.7

    1996227.4227400333100333.1

    1997425.33425330758430758.43

    1998891.9789197016504001650.4

    19991727172700033774003377.4

    20005792579200091694009169.4

    1990199119921993199419951996199719981999

    Science and engineering Ph.D.s, total22,86824,02324,67525,44326,20526,53527,22927,24527,30925,953

    10570033310075843016504003377400

    10570033310075843016504003377400

    Sheet3

  • O que DCBD?Muitas definiesExtrao no-trivial de informao implcita, previamente desconhecida e potencialmente til de um conjunto de dadosExplorao e anlise, de modo automtico ou semi-automtico, de grandes quantidades de dados para descobrir padres teis

    prof. Luis Otavio Alvares

  • O que (no) DCBD? O que DCBD: descobrir que certos nomes so mais comuns em alguns lugares (OBrien, ORurke, OReilly na rea de Boston)

    Agrupar documentos similares recuperados por um motor de busca de acordo com o seu contexto (ex: Amazon rainforest, Amazon.com,) O que no : buscar um nome e nmero de telefone em um arquivo de clientes Consultar um motor de busca na web sobre Amazon

    prof. Luis Otavio Alvares

  • Exemplo: um proprietrio de uma pequena loja de vinhos conhece tudo sobre vinhos, por exemplo, o tipo de uva, a regio onde a uva foi cultivada, o clima, o solo, a altitude dos parreirais, aroma, sabor, cor, o processo de fabricao. Os clientes gostam de visitar sua loja pois, tambm, aprendem muito sobre vinhos. Porm, s isto no basta, o proprietrio precisa conhec-los, como por exemplo, qual o tipo de vinho que o cliente gosta? Qual o poder aquisitivo? Assim, ele poder dar um atendimento diferenciado (um a um) aos clientes. Temos, portanto, duas necessidades: conhecimento e aprendizadoUma pequena loja poucos clientes atendimento personalizadoUma grande empresa milhares de clientes dificuldade em dar um atendimento dedicadoObservando e Aprendendo

    prof. Luis Otavio Alvares

  • Qual a tendncia nos dias atuais?Ter clientes leais, atravs de um relacionamento pessoal, um-para-um, entre a empresa e o cliente.Dentro desta tendncia, as empresas desejam identificar os clientes cujos valores e necessidades sejam compatveis com o uso prolongado de seus produtos, e nos quais vlido o risco de investir em promoes com descontos, pacotes, brindes e outras formas de criar essa relao pessoal.Esta mudana de foco requer mudanas em toda a empresa, mas principalmente nos setores de marketing, vendas e atendimento ao cliente.Observando e Aprendendo

    prof. Luis Otavio Alvares

  • Na pequena empresa, o proprietrio com sua inteligncia e memria aprende, conhece o cliente.

    prof. Luis Otavio Alvares

  • Para criar relaes um-para-um em uma grande empresa, o proprietrio humano precisa ser substitudo por uma mquina capaz de tratar grandes nmeros, o computador. A memria do proprietrio substituda por um grande banco de dados denominado de Data Warehouse, enquanto a capacidade de aprendizado substituda por tcnicas de inteligncia artificial e estatstica genericamente denominadas de Data Mining. Diariamente gera-se dados, por exemplo, considere que gera-se e armazena-se atributos tais como: o nmero do telefone, a durao da chamada telefnica, o nmero do carto de crdito, o endereo da entrega, o produto escolhido, renda do consumidor, escolaridade do consumidor, gasto com lazer, etc. Certamente, s armazenar dados no significa aprender sobre o cliente.Data Warehouse: a memria da empresa

    prof. Luis Otavio Alvares

  • Dados armazenadosFonte de informaespreciosas para a empresaMemria da empresa

    prof. Luis Otavio Alvares

  • Para o aprendizado ocorrer, uma srie de informaes de diferentes formatos e fontes precisa ser organizada de maneira consistente na grande memria empresarial. Aps isto, mtodos de anlise estatstica e inteligncia artificial precisam ser aplicados sobre esses dados e relaes novas e teis empresa devem ser descobertas, ou seja, os dados devem ser minerados. A minerao dos dados consiste mais especificamente em descobrir relaes entre produtos, classificar consumidores, prever vendas, localizar reas geogrficas potencialmente lucrativas para novas filiais, inferir necessidades, entre outras.Data Mining: a inteligncia da empresa

    prof. Luis Otavio Alvares

  • Data MiningNa grande empresa, a memria o data warehouse, enquanto a inteligncia o data mining

    prof. Luis Otavio Alvares

  • Data Mining and BIAumento do potencialPara suportar decises do negcioDiretorAnalistade negciosAnalistade dadosDBA MakingDecisionsData PresentationVisualization TechniquesData MiningKnowledge DiscoveryData ExplorationOLAP, MDAStatistical Analysis, Querying and ReportingData Warehouses / Data MartsData SourcesPapel, Arquivos, Provedores de informao, Database Systems, OLTP

    prof. Luis Otavio Alvares

  • prof. Luis Otavio AlvaresTipos de descobertas (tarefas de DCBD)Os dois principais objetivos de alto nvel da DCBD so a descrio e a predio

    a descrio se concentra em encontrar padres que descrevem os dados de forma compreensvel para o usurioa predio envolve usar valores conhecidos de campos ou variveis para predizer o valor desconhecido ou futuro de variveis de interesse para isso, utiliza-se vrios tipos de descoberta ou tarefas de DCBD

    prof. Luis Otavio Alvares

  • Principais Tarefas de DCBD ...Classificao [Preditiva]Clustering [Descritiva]Descoberta de regras de associao [Descritiva]Descoberta de padres seqenciais [Descritiva]Regresso [Preditiva]Deteco de desvios [Preditiva]

    prof. Luis Otavio Alvares

  • Classificao

  • prof. Luis Otavio AlvaresClassificao: exemplosO professor classifica o desempenho do aluno em A, B, C, D ou E

    Identificar um cogumelo como sendo venenoso ou no

    Reconhecimento de caracteres

    prof. Luis Otavio Alvares

  • Classificao: definioDada uma coleo de registros (conjunto de treinamento)Cada registro contm um conjunto de atributos, e um dos atributos a classe.

    Encontre um modelo para o atributo classe como uma funo dos valores dos outros atributosObjetivo: definir a classe para novos registros to acuradamente quanto possvel.

    prof. Luis Otavio Alvares

    Id

    Casa

    prpria

    EstCivil

    Rendim.

    Mau Pagador

    1

    S

    Solteiro

    125K

    NO

    2

    N

    Casado

    100K

    NO

    3

    N

    Solteiro

    70K

    NO

    4

    S

    Casado

    120K

    NO

    5

    N

    Divorc.

    95K

    SIM

    6

    N

    Casado

    60K

    NO

    7

    S

    Divorc.

    220K

    NO

    8

    N

    Solteiro

    85K

    SIM

    10

    Casa

    prpria

    EstCivil

    Rendim.

    Mau Pagador

    N

    Solteiro

    75K

    ?

    S

    Casado

    50K

    ?

    N

    Casado

    150K

    ?

    S

    Divorciado

    90K

    ?

    10

  • Classificao: Aplicao 1Marketing diretoObjetivo: Reduzir o custo na oferta para um conjunto alvo de consumidores mais provveis de comprar um novo produto.Abordagem:Usar os dados de um produto similar oferecido anteriormente. Sabemos quais consumidores compraram e quais no compraram. Esta deciso {compra, no compra} forma o atributo classe.Coletar vrias informaes pessoais, de estilo de vida e de interaes com a empresa de todos estes clientes.Tipo de atividade, local da moradia, rendimentos, estado civil, compras anteriores, etc.Usar esta informao como atributos de entrada para gerar um modelo de classificao.From [Berry & Linoff] Data Mining Techniques, 1997

    prof. Luis Otavio Alvares

  • Classificao: Aplicao 2Deteco de fraudesObjetivo: identificar casos de fraude em transaes com carto de crdito.Abordagem:Usar as transaes do carto de crdito e as informaes do proprietrio como atributos.Quand