31
Abordagens de Mineração de Dados Multi Relacional Rosalvo Neto

Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Abordagens de Mineração de Dados Multi Relacional

Rosalvo Neto

Page 2: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Roteiro

1. Introdução

2. Motivação

3. Tipos de Abordagens

4. Classificação das abordagens

5. Descrição das abordagens

6. Estudo comparativo

Page 3: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Introdução

• Os dados estão contidos em banco de dados Relacionais;

• Muitas Relações;

• Muitos atributos;

• Muitas tuplas;

• Como extrair as informações de forma eficiente?

Page 4: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Motivação

50% - 80%

Source: excerpt of Fayyad et al. 1996

Page 5: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Tipos de abordagens

Proposicionalização Mineração de dados Multi Dimensional

Page 6: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Proposicionalização

Table 01 Table 02 Table N Table...

Result Table

AI Algorithm

Intelligent Systems

Page 7: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Mineração de dados Multi Relacional

Table 01 Table 02 Table N Table...

AI Algorithm

Intelligent Systems

Page 8: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Classificação das Abordagens Existentes

Multi Relacional Data Mining

Multi Dimensional DM

Proposicionalização ILP

Graph Mining

TupleID Propagation

Multi view Learning

LINUS DINUS

RelAggs FOIL CrossMine

CMVV

Page 9: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Inductive Logic Programming (ILP)

Indutive Logic Program (ILP) é um subcampo da área de aprendizagem de máquina que utiliza a programação em lógica como uma representação uniforme para exemplos, base de conhecimento e hipóteses

Page 10: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Inductive Logic Programming (ILP)

O problema de aprendizado em ILP é normalmente especificado como segue:

Dado: uma base de conhecimento B, expressa como um conjunto de definições de predicados, exemplos positivos E+ e exemplos negativos E-

Procurar: procurar uma hipótese H tal que o erro de h seja minimizado em exemplos futuros

Page 11: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Inductive Logic Programming (ILP)

Em ILP, h é usualmente um conjunto de clausulas de lógica de primeira ordem, e novos exemplos serão classificados como pertencente a classe positiva se e somente se ele é coberto por todas as clausulas de h.

Page 12: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

LINUS

O LINUS é uma abordagem de Inductive Logic Program (ILP) que incorpora existentes sistemas de aprendizagem atributo-valor.

A ideia é transformar um problema descrito em ILP dentro da forma proposicional e resolver o problema através da aprendizagem de regras proposicionais.

Page 13: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

LINUS Exemplos de treinamento Relações

filha (sue,eve). Pos progenitor (eve,sue). feminino (ann). masculino (pat).

filha (ann,pat). pos progenitor (ann,tom). feminino (sue). masculino (tom).

filha (tom,ann). Neg progenitor (pat,ann). feminino (eve).

filha (eve,ann). neg progenitor (tom,sue).

Variáveis Características proposicionais

X Y F(x) F(y) M(x) M(y) P(x,

x)

P(x, y) P(y,

x)

P(y,

y)

Classe

Sue Eve 1 1 0 0 0 0 1 0 Pos

Ann Pat 1 0 0 1 0 0 1 0 Pos

Tom Ann 0 1 1 0 0 0 1 0 Neg

Eve ann 0 1 0 0 0 0 0 0 Neg

Page 14: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

RelAggs

Em sua abordagem é aplicada a ideia de agregação, comumente utilizada na área de Data WareHouse.

Exemplo

Cliente Parcela

Page 15: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

RelAggs

Page 16: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Graph Mining

Mineração baseada em grafos é uma técnica que extrai as informações a partir de dados representados na forma de grafos estruturados. Um grafo pode ser definido pela equação G={V,E}, onde

V ={v1,v2,v3,…vn} é o conjunto ordenado de vértices do grafo e

E={e1,e2,e3,……..en} é o conjunto das bordas do grafo

Page 17: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Graph Mining

A C

B

A C

B

Page 18: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Propagation ID

Este é método faz a transferência de informação entre as diferentes relações por meio de junções virtuais;

Este método mostra-se menos custoso do realizar a

junção física tanto em termos de tempo quanto espaço;

Quando deseja-se realizar uma predição então

propaga-se os identificadores entre duas relações;

Page 19: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Propagation ID

Page 20: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Multi View Learning

A abordagem de classificação de múltiplas visões opera diretamente no banco de dados relacional com métodos convencionais de mineração de dados.

Page 21: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Multi View Learning

A abordagem é composta por cinco etapas:

1- Information Propagation Stage

2- Aggregation Stage

3- Multiple Views Construction Stage

4- View Validation Stage

5- View Combination Stage

Page 22: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Comparative Study between

Propositionalization and Multi

Relational Data Mining on a

Relational Database

Rosalvo Neto Paulo Jorge Adeodato Ana Carolina Salgado

Murilo Boratto

Page 23: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Outline

1. Objectives

2. Related Work

3. Compared Approaches

4. Database

5. Experimental Methodology

6. Results

7. Conclusions and Future Works

Page 24: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Objective

Performance Comparison:

- Propositionalization X Multi Relational Data Mining

- Binary Classification

- Database Benchmark (PKDD 1999)

- Credit Risk Domain

Page 25: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Related Work

Early Studies Recent Studies

Comparative Study between the same

approach

Comparative Study between different

approaches

Page 26: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Compared Approach - RELAGGS (RELational AGGregationS)

Page 27: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Compared Approach - Correlation-based Multiple View Validation

Source: excerpt of Guo and Viktor 2006

Page 28: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Database

Page 29: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Experimental Methodology

Cross Validation k-fold

Neural Network - MultiLayer Perceptron (MLP)

Kolmogorov-Smirnov Curve (KS)

Paired t-student test

Page 30: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Results

µd = µ1 − µ2 upper limit p-value

0,0805 ∞ 0,0181

Paired t-test result

Null Hypothesis:

Alternative Hypothesis:

Page 31: Abordagens de Mineração de Dados Multi Relacionalrosalvo.oliveira/Disciplinas/2012_2/...as informações a partir de dados representados na forma de grafos estruturados. Um grafo

Conclusions and Future Work

- There is indicative of Propositionalization outperforms Multi Relational Data Mining in Credit Risk Domain

- Domain Driven Data Mining (D3M)

- Investigate the performance of others AI Algorithms and others databases of the same domain