40
Gabrielle K. Canalle Bernadette Farias Lóscio Ana Carolina Salgado Universidade Federal de Pernambuco Centro de Informática Uma Estratégia para Seleção de Atributos Relevantes no Processo de Resolução de Entidades

Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

Gabrielle K. Canalle Bernadette Farias Lóscio

Ana Carolina Salgado

Universidade Federal de Pernambuco

Centro de Informática

Uma Estratégia para Seleção de

Atributos Relevantes no Processo de

Resolução de Entidades

Page 2: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Agenda

Motivação

Estratégia de Seleção de Atributos

Avaliação Experimental

Conclusão e Trabalhos Futuros

2

Page 3: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Agenda

Motivação

Estratégia de Seleção de Atributos

Avaliação Experimental

Conclusão e Trabalhos Futuros

3

Page 4: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Introdução

4

Page 5: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Integração de Dados

Diferentes fontes

de dadosDados Integrados

5

Page 6: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Etapas da Integração de Dados

Alinhamento de

Esquemas

Resolução de Entidades

Fusão de Dados

6

Page 7: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Etapas da Integração de Dados

Alinhamento de

Esquemas

Resolução de Entidades

Fusão de Dados

7

Page 8: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Resolução de Entidades

Blocagem

Correspondência de Pares

Classificação

8

Page 9: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Resolução de Entidades

Blocagem

Correspondência de Pares

Classificação

9

Page 10: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

±

CORRESPONDENTES

NÃO CORRESPONDENTES

POTENCIALMENTE CORRESPONDENTES

Resolução de Entidades

Blocagem

Correspondência de Pares

Classificação

10

Page 11: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Cenário Motivacional

11

Page 12: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Cenário Motivacional

Não Duplicadas

12

Page 13: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Cenário Motivacional

Duplicadas

13

Page 14: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Cenário Motivacional

Não Duplicadas

14

Page 15: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Como selecionar os atributos mais relevantes

para serem utilizados na fase de correspondência

entre pares do processo de Resolução de

Entidades?

15

Page 16: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Agenda

Motivação

Estratégia de Seleção de Atributos

Avaliação Experimental

Conclusão e Trabalhos Futuros

16

Page 17: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Visão geral da Estratégia

Classificação ordenada

17

Page 18: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Visão geral da Estratégia

E1

E2 E3

a1

a2

a3

a4

a5

a6

a7

a5

Conjunto de Atributos

Comuns

18

Page 19: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Visão geral da Estratégia

Conjunto de EntidadesConjunto de Atributos Comuns

Classificação ordenada

19

Page 20: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Critérios de Avaliação

20

Page 21: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Repetição

Quantidade de vezes que um mesmo valor para um

atributo aparece no conjunto de dados

21

Page 22: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Densidade

Percentual de valores na o nulos contidos no conjunto

de valores que descreve um atributo

22

Page 23: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Dinamicidade

Grau de dinamicidade dos atributos, ou seja, seu ni vel

de alterac a o ao longo do tempo

23

Page 24: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Ruído

Quanto um atributo e suscetível a erros. O rui do e um

erro aleatorio ou variabilidade presente nos valores

de entrada de um atributo.

24

Page 25: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Confiabilidade

Grau em que os dados fornecidos por uma

fonte de dados sa o veri dicos e confia veis

– Estimado por meio de metadados de qualidade

associados as fontes de dados

25

Page 26: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Cobertura

Percentual de insta ncias que uma fonte de

dados fornece para o conjunto de dados

avaliado

26

Page 27: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Análise de Relevância Individual

• Neste trabalho, implementamos os critérios de Repetição e

Densidade

• Repetição –

• Densidade –

• Relevância Individual –

27

Page 28: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Análise de Relevância Global

– ponderar a relevancia de um atributo utilizando critérios de qualidade das fontes

– calculo da Relevância Individual, apenas os valores dos dados sao levados emconsiderac ao

• Cobertura

• Qualidade do Conjunto de Fontes de Dados

• Relevância Global

28

Page 29: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Agenda

Motivação

Estratégia de Seleção de Atributos

Avaliação Experimental

Conclusão e Trabalhos Futuros

29

Page 30: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Hipóteses

H1 - Considerar todos os atributos na fase de comparac ao ocasiona em um resultado com baixo

F-measure.

H2 - Considerar os atributos mais relevantes de acordo com a classificac ao realizada pela

estrategia proposta faz com que o resultado obtido tenha um alto F-measure.

H3 - A medida que atributos menos relevantes sao adicionados ao grupo de atributos

considerados, o numero de corresponde ncias erradas aumenta, diminuindo o F-measure do

resultado.

30

Page 31: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Avaliação Experimental

• Dominio de referencias bibliograficas de Ciencia da Computac ao– Base de dados Cora

• 1.879 instâncias

• 15 atributos

• Aproximadamente 90% de duplicação

• Gold Standard

• Particionada em diferentes cenários de duplicação

• Ferramenta para Resolução de Entidades– DuDe – Duplicate Detection

• Java

• Estrutura modular

• Medidas de Qualidade• Revocação(Recall)

• Precisão (Precision)

• Medida F (F-measure)

31

Page 32: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Cenário

32

Page 33: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Grupos de Atributos

Grupo 1 – dois atributos mais relevantes

Grupo 2 – três atributos mais relevantes

Grupo 3 – quatro atributos mais relevantes

Grupo 4 – oito atributos mais relevantes

33

Page 34: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Cenário 1

34

1

0,66 0,66

0

0

Page 35: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Cenário 2

35

0,82

0,46

0,33

0

Page 36: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Cenário 3

36

0,460,40

0,36

0

0

Page 37: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Cenário 4

37

0,98 0,98

0,85

0

Page 38: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Agenda

Motivação

Estratégia de Seleção de Atributos

Avaliação Experimental

Conclusão e Trabalhos Futuros

38

Page 39: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

CIn.ufpe.br

Conclusão

• A estratégia proposta se mostrou eficiente em todos os

cenários.

• Confirmamos que utilizar uma grande quantidade de atributos

na Resolução de Entidades não é viável.

• Verificamos que, à medida que atributos com menor valor de

relevância são considerados na comparação, o F-measure

diminui.

• Os resultados obtidos por meio dos experimentos validaram

nossas hipóteses.

39

Page 40: Uma Estratégia para Seleção de Atributos Relevantes no ...sbbd2016.fpc.ufba.br/sbbd2016/slides/ST06_01.pdf · Universidade Federal de Pernambuco Centro de Informática Uma Estratégia

Universidade Federal de Pernambuco

Centro de Informática

Obrigada pela Atenção!

Dúvidas?

[email protected]