Robert Groth Extracção de Conhecimento em Bases de Dados ...ão do ECBD com outras ferramentas de

  • View
    213

  • Download
    0

Embed Size (px)

Text of Robert Groth Extracção de Conhecimento em Bases de Dados ...ão do ECBD com outras ferramentas de

1

1

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Extraco de Conhecimento em Bases de Dados (ECBD ou KDD)

Usama Fayyad et al

Robert Groth

2

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Extraco de Conhecimento em Bases de Dados (ECBD ou KDD)

Definio de ECBD / Data Mining

Breve histria do Data Mining

Introduo ao Data Mining

Tecnologias de Suporte ao Data Mining

Fases do processo de ECBD

Operaes de Data Mining

Mtodos e Algoritmos de Data Mining

Solues distncia (K-vizinhos ,mais prximos e associaes)

Nave-Bayes

Arvores de deciso

Regras de associao

Redes neuronais,

Algoritmos genticos.

Combinao de mltiplos mtodos de predio.

Alguns prs e contras das tecnologias mais comuns; ferramentas mais relevantes e suas caractersticas

2

3

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Extraco de Conhecimento em Bases de Dados (ECBD ou KDD)

O ECBD ou KDD muitas vezes denominado de apenas Data Mining, ainda que, este seja, mais propriamente, uma das fases do processo (KDD conference, 1995, Montreal).

Relao do ECBD com outras ferramentas de explorao de informao:

Com ferramentas at agora descritas (captulo anterior), poder-se- responder a questes como: as vendas do produto X cresceram em Novembro? as vendas do produto X diminuem quando h uma promoo do

produto Y? Com ferramentas no domnio do ECBD/Data Mining,

poderemos colocar a questo: Quais so os factores que determinam as vendas do produto X?

4

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

DQ/Reporting e OLAP x Data MiningRelembrando o que j atrs foi focado (captulo 1): Com as ferramentas tradicionais, o analista coloca uma questo, ou suposio

ou talvez s uma inclinao e explora os dados. Cria um modelo, passo-a-passo, trabalhando para provar ou negar uma teoria.

da responsabilidade do analista propor cada hiptese, test-la, propor uma hiptese substituta ou adicional, test-la e assim sucessivamente, e desta forma interactiva, criar o modelo.

Esta responsabilidade no desaparece inteiramente com data mining, mas, muito do trabalho, encontar o modelo apropriado, deslocado do

analista para o computador. O sistema toma a iniciativa da anlise de dados, no o utilizador.Benefcios: gerar o modelo requer menor esforo manual (mais eficiente); podem avaliar-se muito mais modelos, aumentando assim a

possibilidade de encontar melhor modelo; o analista necessita de muito menor habilidade, dado que muitos dos

procedimentos passo-a-passo so automticos.

3

5

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Definio de Data Mining (1)J no 1 captulo, estabelecemos algumas diferenas entre Data Mining e

outras ferramentas utilizadas no domnio da extraco de informao de uma base de dados (data query, reporting e OLAP).

O Data Mining, ou mais genericamente o ECBD, pode ser visto segundo diversas perspectivas:

1. Numa perspectiva de negcio, ser: O processo de identificao de padres e

relacionamentos escondidos numa base de dados Data Mining: Building Competitive Advantage

Extraco de informao de negcio til a partir de grandes bases de dados.

Data Warehousing, Data Mining and OLAP

6

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Definio de Data Mining (2)2. Numa perspectiva funcional: a procura de informao valiosa em grandes volumes de

dados, resultado da cooperao de esforos humanos e de computadores. Os humanos desenham as bases de dados, descrevem problemas e estabelecem objectivos. Os computadores peneiram os dados, procurando padres que correspondam aos objectivos.

Predictive Data Mining: a practical guide, Weiss S.M, and Indurkhya N.

3. Numa perspectiva mais acadmica: A extraco implcita, no trivial de conhecimentos teis,

previamente desconhecidos, dos dados.Data Mining, Pieter Adrians, Dolf Zantige

O processo no trivial de identificao de padres vlidos, novos, potencialmente teis e compreensveis nos dados.

Frawley, Piatetsky e Matheus, 1991

4

7

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Definio de Data Mining (3)Analisemos esta ltima definio:Padro - descrio mais simples do que a enumerao de

todos os factos.Processo - O processo de ECBD compreende, em geral,

vrias fases, envolvendo: (1) Definio do problema, (2) preparao dos dados, (3) procura de padres, (4) avaliao dos resultados e (5) refinamento iterativo dos resultados.

No trivial - O processo deve envolver um certo grau de procura de padres teis. (Ex. calcular uma remunerao mdia dos clientes de uma base de dados sobre emprstimos, embora possa ser til, no poder ser entendido como extraco).

8

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Definio de Data Mining (4)Validade - Os padres extrados devem, com um

determinado grau de certeza, ser vlidos para novos dados.

Novidade - A novidade pode ser medida com referncia aos dados (comparao dos valores correntes com valores prvios ou esperados) ou ao conhecimento (comparao de uma nova descoberta com as anteriores).

Utilidade potencial - Os padres de detectados devem conduzir potencialmente a aces teis. Ex. num exemplo de emprstimos bancrios, seria uma medida do aumento de lucros esperados para o banco em resultado da aplicao da regra de deciso decorrente do padro obtido.

5

9

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Definio de Data Mining (5)Compreensibilidade / Sensibilidade - Um dos objectivos da

extraco de conhecimento tornar os padres gerados compreensveis com vista a possibilitar uma melhor compreenso dos dados.Como veremos, h tcnicas de DM que so inerentemente mais potentes quanto a esta caracterstica (ex. rvores de deciso - transparentes) do que outras (ex. redes neuronais - opacas).

Medida de Interesse - medida do valor de um padro, combinando:

validade novidade utilidade simplicidade

10

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Poder do Data Mining O poder do data mining devido ao facto de ele no

depender das vistas humanas estreitas, para produzir os seus resultados, mas, em seu lugar, procura e identifica relacionamentos de que os humanos nunca teriam percepo.

Uma boa forma de identificar esta realidade avaliar o modo como um mestre de xadrez distingue um opositor humano de um ciberntico. Um computador faz muitas vezes jogadas que um humano nunca

executaria, pois que este ltimo no olhou bem. O que se passa que a capacidade humana para explorar um

grande nmero de movimentaes, num tempo exguo, limitada. Tem assim que minimizar a rvore de pesquisa, limitando o nmero de caminhos possveis, baseados na pr-concepo do que entendemos como estar ou no estar certo.

6

11

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Breve Histria do Data MiningConceito relativamente recente, o ECBD foi trazido para a ribalta a partir

de 1995, aquando da 1. conferncia internacional sobre KDD, em Montreal. Apesar da sua curta existncia, as suas razes remontam a eras bem mais vetustas (da Estatstica e IA).

Matemtica

Estatstica

Heurstica

Inteligncia Artificial

Machine Learning

Data MIning

Aplicaes de Negcio

12

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Estatstica: Constitui os fundamentos de muitas das

tecnologias nas quais o DM baseado. Introduz muitos conceitos utilizados

para estudar os dados e seus inter-relacionamentos.

Breve Histria do Data MiningMatemtica

Estatstica

Heurstica

Inteligncia Artificial

Machine Learning

Data MIning

Aplicaes de Negcio

Inteligncia Artificial: Tenta aplicar processamento tipo humano (pensamento) aos problemas

estatsticos. Conheceu algumas glrias, mas sofre do chamado problema do symbol

grounding - mapeamento dos smbolos s entradas sensoriais que feita pelo intelecto que manipula os smbolos.

Foram criados muitos sistemas periciais bem sucedidos e muitos conceitos de IA foram igualmente adoptados por muitos produtos comerciais no domnios dos SGBDs, nos mdulos de optimizao de queries.

7

13

Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia

Anlise Inteligente de DadosAnlise Inteligente de Dados

Breve Histria do Data MiningMachine Learning: Como mostrado no diagrama, resulta da

combinao de heurstica da IA com anlise estatstica avanada.

Tenta fazer com qu