View
213
Download
0
Embed Size (px)
1
1
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Extraco de Conhecimento em Bases de Dados (ECBD ou KDD)
Usama Fayyad et al
Robert Groth
2
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Extraco de Conhecimento em Bases de Dados (ECBD ou KDD)
Definio de ECBD / Data Mining
Breve histria do Data Mining
Introduo ao Data Mining
Tecnologias de Suporte ao Data Mining
Fases do processo de ECBD
Operaes de Data Mining
Mtodos e Algoritmos de Data Mining
Solues distncia (K-vizinhos ,mais prximos e associaes)
Nave-Bayes
Arvores de deciso
Regras de associao
Redes neuronais,
Algoritmos genticos.
Combinao de mltiplos mtodos de predio.
Alguns prs e contras das tecnologias mais comuns; ferramentas mais relevantes e suas caractersticas
2
3
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Extraco de Conhecimento em Bases de Dados (ECBD ou KDD)
O ECBD ou KDD muitas vezes denominado de apenas Data Mining, ainda que, este seja, mais propriamente, uma das fases do processo (KDD conference, 1995, Montreal).
Relao do ECBD com outras ferramentas de explorao de informao:
Com ferramentas at agora descritas (captulo anterior), poder-se- responder a questes como: as vendas do produto X cresceram em Novembro? as vendas do produto X diminuem quando h uma promoo do
produto Y? Com ferramentas no domnio do ECBD/Data Mining,
poderemos colocar a questo: Quais so os factores que determinam as vendas do produto X?
4
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
DQ/Reporting e OLAP x Data MiningRelembrando o que j atrs foi focado (captulo 1): Com as ferramentas tradicionais, o analista coloca uma questo, ou suposio
ou talvez s uma inclinao e explora os dados. Cria um modelo, passo-a-passo, trabalhando para provar ou negar uma teoria.
da responsabilidade do analista propor cada hiptese, test-la, propor uma hiptese substituta ou adicional, test-la e assim sucessivamente, e desta forma interactiva, criar o modelo.
Esta responsabilidade no desaparece inteiramente com data mining, mas, muito do trabalho, encontar o modelo apropriado, deslocado do
analista para o computador. O sistema toma a iniciativa da anlise de dados, no o utilizador.Benefcios: gerar o modelo requer menor esforo manual (mais eficiente); podem avaliar-se muito mais modelos, aumentando assim a
possibilidade de encontar melhor modelo; o analista necessita de muito menor habilidade, dado que muitos dos
procedimentos passo-a-passo so automticos.
3
5
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Definio de Data Mining (1)J no 1 captulo, estabelecemos algumas diferenas entre Data Mining e
outras ferramentas utilizadas no domnio da extraco de informao de uma base de dados (data query, reporting e OLAP).
O Data Mining, ou mais genericamente o ECBD, pode ser visto segundo diversas perspectivas:
1. Numa perspectiva de negcio, ser: O processo de identificao de padres e
relacionamentos escondidos numa base de dados Data Mining: Building Competitive Advantage
Extraco de informao de negcio til a partir de grandes bases de dados.
Data Warehousing, Data Mining and OLAP
6
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Definio de Data Mining (2)2. Numa perspectiva funcional: a procura de informao valiosa em grandes volumes de
dados, resultado da cooperao de esforos humanos e de computadores. Os humanos desenham as bases de dados, descrevem problemas e estabelecem objectivos. Os computadores peneiram os dados, procurando padres que correspondam aos objectivos.
Predictive Data Mining: a practical guide, Weiss S.M, and Indurkhya N.
3. Numa perspectiva mais acadmica: A extraco implcita, no trivial de conhecimentos teis,
previamente desconhecidos, dos dados.Data Mining, Pieter Adrians, Dolf Zantige
O processo no trivial de identificao de padres vlidos, novos, potencialmente teis e compreensveis nos dados.
Frawley, Piatetsky e Matheus, 1991
4
7
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Definio de Data Mining (3)Analisemos esta ltima definio:Padro - descrio mais simples do que a enumerao de
todos os factos.Processo - O processo de ECBD compreende, em geral,
vrias fases, envolvendo: (1) Definio do problema, (2) preparao dos dados, (3) procura de padres, (4) avaliao dos resultados e (5) refinamento iterativo dos resultados.
No trivial - O processo deve envolver um certo grau de procura de padres teis. (Ex. calcular uma remunerao mdia dos clientes de uma base de dados sobre emprstimos, embora possa ser til, no poder ser entendido como extraco).
8
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Definio de Data Mining (4)Validade - Os padres extrados devem, com um
determinado grau de certeza, ser vlidos para novos dados.
Novidade - A novidade pode ser medida com referncia aos dados (comparao dos valores correntes com valores prvios ou esperados) ou ao conhecimento (comparao de uma nova descoberta com as anteriores).
Utilidade potencial - Os padres de detectados devem conduzir potencialmente a aces teis. Ex. num exemplo de emprstimos bancrios, seria uma medida do aumento de lucros esperados para o banco em resultado da aplicao da regra de deciso decorrente do padro obtido.
5
9
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Definio de Data Mining (5)Compreensibilidade / Sensibilidade - Um dos objectivos da
extraco de conhecimento tornar os padres gerados compreensveis com vista a possibilitar uma melhor compreenso dos dados.Como veremos, h tcnicas de DM que so inerentemente mais potentes quanto a esta caracterstica (ex. rvores de deciso - transparentes) do que outras (ex. redes neuronais - opacas).
Medida de Interesse - medida do valor de um padro, combinando:
validade novidade utilidade simplicidade
10
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Poder do Data Mining O poder do data mining devido ao facto de ele no
depender das vistas humanas estreitas, para produzir os seus resultados, mas, em seu lugar, procura e identifica relacionamentos de que os humanos nunca teriam percepo.
Uma boa forma de identificar esta realidade avaliar o modo como um mestre de xadrez distingue um opositor humano de um ciberntico. Um computador faz muitas vezes jogadas que um humano nunca
executaria, pois que este ltimo no olhou bem. O que se passa que a capacidade humana para explorar um
grande nmero de movimentaes, num tempo exguo, limitada. Tem assim que minimizar a rvore de pesquisa, limitando o nmero de caminhos possveis, baseados na pr-concepo do que entendemos como estar ou no estar certo.
6
11
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Breve Histria do Data MiningConceito relativamente recente, o ECBD foi trazido para a ribalta a partir
de 1995, aquando da 1. conferncia internacional sobre KDD, em Montreal. Apesar da sua curta existncia, as suas razes remontam a eras bem mais vetustas (da Estatstica e IA).
Matemtica
Estatstica
Heurstica
Inteligncia Artificial
Machine Learning
Data MIning
Aplicaes de Negcio
12
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Estatstica: Constitui os fundamentos de muitas das
tecnologias nas quais o DM baseado. Introduz muitos conceitos utilizados
para estudar os dados e seus inter-relacionamentos.
Breve Histria do Data MiningMatemtica
Estatstica
Heurstica
Inteligncia Artificial
Machine Learning
Data MIning
Aplicaes de Negcio
Inteligncia Artificial: Tenta aplicar processamento tipo humano (pensamento) aos problemas
estatsticos. Conheceu algumas glrias, mas sofre do chamado problema do symbol
grounding - mapeamento dos smbolos s entradas sensoriais que feita pelo intelecto que manipula os smbolos.
Foram criados muitos sistemas periciais bem sucedidos e muitos conceitos de IA foram igualmente adoptados por muitos produtos comerciais no domnios dos SGBDs, nos mdulos de optimizao de queries.
7
13
Instituto Superior Politcnico de VISEUEscola Superior de Tecnologia
Anlise Inteligente de DadosAnlise Inteligente de Dados
Breve Histria do Data MiningMachine Learning: Como mostrado no diagrama, resulta da
combinao de heurstica da IA com anlise estatstica avanada.
Tenta fazer com qu