Data mining Metáfora :

  • View
    33

  • Download
    0

Embed Size (px)

DESCRIPTION

Subsistema de gestão de dados. Data mining Metáfora : Minas – para extrair um diamante é necessário extrair primeiro uma série de escombros. Information overload - “procurar uma agulha num palheiro” Exemplo: search engines. Descoberta automática de informação. - PowerPoint PPT Presentation

Text of Data mining Metáfora :

  • Data mining Metfora : Minas para extrair um diamante necessrio extrair primeiro uma srie de escombros.

    Information overload - procurar uma agulha num palheiro Exemplo: search engines.Descoberta automtica de informao.Processo mgico que transforma matria em bruto em diamantes.Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Data mining Principais caractersticas:Revela dados escondidos, encobertos, no bvios;As ferramentas de data mining so normalmente usadas em ambientes cliente/servidor;O utilizador normalmente o utilizador final da informao que atravs de ferramentas de query pretende construir queries e receber respostas sem ter de recorrer programao;Obtm-se muitas vezes resultados inesperados;Devido s grandes quantidades de dados muitas vezes necessrio usar processamento paralelo. Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Data mining Principais objectivos:Previso - Ex: alguns padres da ondas ssmicas podem prever um tremor de terra com grande probabilidade; prever o que os clientes iro comprar com certos descontos.Identificao - Certos padres podem identificar a existncia de um objecto, evento ou actividade. Ex: Intrusos de um sistema informtico podem ser identificados pelos programas executados, ficheiros acedidos, tempo de CPU por sesso.Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Data mining Principais objectivos (continuao):Classificao - Podemos dividir os dados de modo a identificar diferentes classes ou categorias baseadas em combinaes de parmetros. Ex: os clientes de um supermercado podem ser classificados em compradores assduos, compradores ocasionais, compradores caa de promoes. A classificao pode ser usada para decompr o problema em problemas mais simples.Optimizao - Podemos querer optimizar o uso de recursos limitados, tais como tempo, espao, dinheiro ou matrias primas e maximizar os lucros obedecendo a determinadas restries. Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Data mining Aplicaes:Marketing - previso de quantos clientes vo comprar um produto, classificao de clientes;Banca - previso de crdito mal parado e utilizao fraudulenta de cartes de crdito;Retalhistas - previso de vendas e calendarizao da distribuio;Seguros - Previso do nmero de queixas e dos custos correspondentes, deteco de fraudes;Polcia - Reconhecimento de padres nos crimes, no comportamento criminal;Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Data mining Aplicaes (continuao):Hardware/software - Previso de avarias e de potenciais violaes de segurana;Companhias areas - Recolha de informao dos destinos mais escolhidos em vos com escala, calendarizao de tripulaes;Sade - Correlacionamento da morada dos doentes com as doenas que tm;Broadcasting - Definio da grelha de programas - o que melhor para o prime time, maximizao de lucro pela publicidade;Indstria - optimizao da capacidade de produo.Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Data mining Formas de conhecimento:Regras de associao - estas regras correlacionam a presena de um conjunto de items com a presena de outro conjunto de valores para outro conjunto de variveis. Ex: um cliente que compra queijo e fiambre tambm compra po.Categorizao ou segmentao - Um conjunto de dados pode ser separado em grupos com caractersticas semelhantes. Ex: os possiveis tratamentos para uma doena podem ser dividdos em grupos baseados nos efeitos secundrios produzidos. Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Data miningFormas de conhecimento (continuao):Padres sequenciais - detectar associaes entre eventos que ocorrem dentro de certos perodos de tempo. Ex: um doente que faz um bypass e posteriormente desenvolve uma concentrao elevada de ureia no sangue e provvel que sofra de insuficincia renal nos prximos 18 meses.Padres de sries temporais - Ex: 2 produtos tm o mesmo padro de vendas durante o vero, mas diferentes no inverno; encontrar um perodo de tempo em que inflao desceu.Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Processo de descoberta do conhecimentoSeleco de dadosLimpezaEnriquecimentoCodificaoData mining (verdadeira fase de descoberta)Relatrio e apresentao da informao descoberta Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Processo de descoberta do conhecimentoExemplo:Uma editora vende 5 tipos de revistas: automveis, decorao, desporto, msica e banda desenhada. O objectivo do processo de data mining descobrir novos agrupamentos de clientes de modo a definir uma poltica de marketing. Esto interessados em questes como: "Qual o perfil tpico de leitor das revistas de automveis? "Existe alguma correlao entre o gosto por automveis e o gosto por banda desenhada?" Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Processo de descoberta do conhecimentoSeleco de dadosConsiste na seleco de dados operacionais do sistema de facturao, que contm informao acerca das pessoas que subscreveram as diferentes revistas. De modo a facilitar o processo de descoberta de conhecimento feita uma cpia dos dados operacionais e guardada numa base de dados separada.Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Subsistema de gesto de dados

    N ClienteNomeMoradaData subscrioRevista12003SantosR. Alegria 1215-04-94Auto12003SantosR. Alegria 1221-06-93Msica12003SantosR. Alegria 1230-05-92Bd12009LopesAv. Lberdade 101-01-01Bd12013DiasPr. Flores 3430-02-95Desporto12018SantoR. Alegria 1210-08-98Decorao

    Sistemas de Apoio Deciso

  • Processo de descoberta do conhecimentoLimpezaProblemas: erros de dactilografia, o cliente muda de residncia e no avisa, o cliente fornece informao incorrecta, falta de consistncia.Algoritmos de reconhecimento de padros podem ser usados para a limpeza dos dados.Se o data mining for executado numa data warehouse o processo de limpeza j estar efectuado. Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Subsistema de gesto de dados

    N ClienteNomeMoradaData subscrioRevista12003SantosR. Alegria 1215-04-94Auto12003SantosR. Alegria 1221-06-93Msica12003SantosR. Alegria 1230-05-92Bd12009LopesAv. Lberdade 1NULLBd12013DiasPr. Flores 3430-02-95Desporto12003SantosR. Alegria 1210-08-98Decorao

    Sistemas de Apoio Deciso

  • Processo de descoberta do conhecimentoEnriquecimentoSuponhamos que compramos informao extra acerca dos clientes (data de nascimento, rendimento, quantidade de crdito, possuem carro e casa). Pela morada (bairro) pode inferir-se um rendimento. Podem tambm entrevistar-se uma amostra de clientes da base de dados, o que nos dar informao detalhada acerca do comportamento dos clientes.H que incorporar esta informao na nossa base de dados. Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Subsistema de gesto de dados

    NomeData nascimentoRendimentoCrditoCarroCasaSantos13-04-763.000.0001.100.000NoNoLopes20-10-716.000.0002.400.000SimNo

    Sistemas de Apoio Deciso

  • Subsistema de gesto de dados

    N ClienteNomeData nascimentoRendimentoCrditoCarroCasaMoradaData subscrioRevista12003Santos13-04-763.000.0001.100.000NoNoR. Alegria 1215-04-94Auto12003Santos13-04-763.000.0001.100.000NoNoR. Alegria 1221-06-93Msica12003Santos13-04-763.000.0001.100.000NoNoR. Alegria 1230-05-92Bd12009Lopes20-10-716.000.0002.400.000SimNoAv. Lberdade 1NULLBd12013DiasNULLNULLNULLNULLNULLPr. Flores 3430-02-95Desporto12003Santos13-04-763.000.0001.100.000NoNoR. Alegria 1210-08-98Decorao

    Sistemas de Apoio Deciso

  • Processo de descoberta do conhecimentoCodificaoNesta fase selecciona-se apenas os registos que tm suficiente informao. Muitas vezes existem registos em que faltam muitos dados e que no possvel complet-los. Temos que decidir se vale a pena mant-los ou se os podemos apagar, uma vez que dado a falta de dados no servem para nada. Nalguns casos, especialmente na deteco de fraudes, a falta de informao pode ser um indcio.Vamos agora fazer uma projecco dos registos. Assumimos que no estamos interessados nos nomes dos clientes, uma vez que s queremos identificar certos tipos de clientes. Assim eliminamos os seus nomes.At aqui a codificao consistiu apenas em operaes de SQL. Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Subsistema de gesto de dados

    N ClientecData nascimentoRendimentoCrditoCarroCasaMoradaData subscrioRevista1200313-04-763.000.0001.100.000NoNoR. Alegria 1215-04-94Auto1200313-04-763.000.0001.100.000NoNoR. Alegria 1221-06-93Msica1200313-04-763.000.0001.100.000NoNoR. Alegria 1230-05-92Bd1200920-10-716.000.0002.400.000SimNoAv. Lberdade 1NULLBd1200313-04-763.000.0001.100.000NoNoR. Alegria 1210-08-98Decorao

    Sistemas de Apoio Deciso

  • Processo de descoberta do conhecimentoCodificao (continuao)Neste momento, a informao da nossa base de dados ainda muito detalhada para ser usada como input de um algoritmo de reconhecimento de padres. Ex: data de nascimento classes de idadesMorada cdigo postal. Data de subscrio poderiam ser agrupadas em meses comeando em 1990 ou anos.Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Processo de descoberta do conhecimentoCodificao (continuao)Poderiamos encontrar dependncias do gnero:Um cliente com rendimento > 15.000 euros e idade entre 20 e 30 anos que subscreveu revistas de banda desenhada no ms M aparentemente ir subscrever uma revista de automveis 5 anos depois.Ou identificar tendncias como:O n de revistas de decorao vendidas a clientes com rendimento entre 10.000 e 20.000 euros que vivem na regio R est a aumentar.O modo como codificamos os dados determina o tipo de padres e relaes que vamos encontrar.Subsistema de gesto de dados

    Sistemas de Apoio Deciso

  • Processo de descoberta do conhecimentoCodificao (con