38
Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

Embed Size (px)

Citation preview

Page 1: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

Alinhamento de esquemas baseado em instâncias

PROPOSTA DE DOUTORADO

Daniela F. Brauner

Orientador:

Prof. Marco Antonio Casanova

Page 2: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Agenda

• Definição do problema

• Abordagem proposta

– Alinhamento de tesauros

– Alinhamento de esquemas conceituais

• Trabalhos relacionados

• Contribuições

• Organização da tese

• Cronograma

Page 3: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Agenda

• Definição do problema

• Abordagem proposta

– Alinhamento de tesauros

– Alinhamento de esquemas conceituais

• Trabalhos relacionados

• Contribuições

• Organização da tese

• Cronograma

Page 4: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Definição do problema

• Como acessar bancos de dados que adotam esquemas heterogêneos?

SA

TBDBA DBB

?

Esquema conceitual:descreve em alto nível como

organizar os dados armazenados em um BD

Esquema de Classificação:classifica os dados

armazenados em um BD em categorias pré-definidas

Ex: palavras-chave, tesauros, taxonomias.

?

TA

?

SB

Page 5: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Definição do problema

Ex:

ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG

67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333

39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15

76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333

identifier display-name class gml:y gml:x

adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5

adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95

adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333

adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15

adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167

DBA

DBB

Page 6: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Definição do problema

Solução:

• Alinhamento de esquemas (schema matching): Dados dois esquemas como entrada, gerar um mapeamento entre os elementos desses esquemas que correspondem semanticamente um ao outro.

SA

sb = (sa)SB

Page 7: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Definição do problema

Aplicações:

• Transformação de dados

Ex: data warehousing

• Mediação de consultas

Ex: arquitetura de mediadores

Page 8: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Definição do problema

TA TB

DBA DBB

Transformação de dados:

______

______

?“Populated places” ≠ “PPL”

Page 9: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Definição do problema

TA TB

DBA DBB

______

______

“Populated places” “PPL”

Transformação de dados:

Page 10: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Definição do problema

TA TB

DBA DBB

Populated placesPopulated places

ClientClient

Request“Populated places” Request

“PPL”

______

______

TA

PPLPPL

TB

Mediação de consultas:

Page 11: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Definição do problema

TA TB

DBA DBB

Populated placesPopulated places

ClientClient

Request“Populated places”

Request“Populated places”

Request“PPL”

“Populated places” “PPL”

______

______

______

Mediação de consultas:

TA

?

Page 12: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Definição do problema

Como obter os mapeamentos?

Manualmente:• Nível de esforço linear com relação ao número de mapeamentos

• Processo tedioso e dispendioso– Consome cerca de 40% do tempo de trabalho dos departamentos de TI

Abordagens a priori:

• Requer amadurecimento das técnicas de projeto de BDs

Abordagens sintáticas:• Suscetíveis a erros

Abordagens semânticas:• Utilizam instâncias

CASANOVA, M. A.; BREITMAN, K. K.; BRAUNER, D. F.; MARINS, A. L. Database Conceptual Schema Matching. IEEE Computer Society, Computer, vol. 40,  n. 10,  pp. 102-104,  Oct.,  2007.

KEENE, C. Data Services for Next-Generation SOAs. SOA WebServices Journal, 4(12), 2004. http://webservices.syscon.com/read/47283.htm

Page 13: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Agenda

• Definição do problema

• Abordagem proposta

– Alinhamento de tesauros

– Alinhamento de esquemas conceituais

• Trabalhos relacionados

• Contribuições

• Organização da tese

• Cronograma

Page 14: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Abordagem proposta

• Alinhamento de esquemas utilizando instâncias

– Abordagem a priori:descoberta dos mapeamentos antes da implantação do mediador

– Abordagem adaptativa: descoberta e adaptação dos mapeamentos de forma incremental, utilizando as respostas às consultas dos usuários como evidências dos mapeamentos

Page 15: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Agenda

• Definição do problema

• Abordagem proposta

– Alinhamento de tesauros

– Alinhamento de esquemas conceituais

• Trabalhos relacionados

• Contribuições

• Organização da tese

• Cronograma

Page 16: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

DBA

Alinhamento de tesauros

• Utilizando instâncias

– Identifica instâncias equivalentes

– Conta os casamentos entre termos de tesauros distintos

– Define taxa de mapeamento para pares de termos

ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG

67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333

39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15

identifier display-name class gml:y gml:x

adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5

adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95

adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333

adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167

DBB

Page 17: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Alinhamento de tesauros

• Abordagem a priori

Mapping Rate Estimator Module

1

2

CA CB

ThesaurusThesaurus

RA RB

Mapping Rates Matrix

BRAUNER, D. F.; CASANOVA, M. A.; MILIDIU, R. L. Towards Gazetteer Integration Through an Instance-based Thesauri Mapping Approach. In: Clodoveu A. Davis Jr; Antonio M.V.M. Monteiro. (Org.). Advances in Geoinformatics. Heidelberg: Springer, 2007, v.1, p.235-245.

Page 18: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Alinhamento de tesauros

TA TB

DBA DBB

______

______

“Populated places” “PPL”

• Abordagem a priori: transformação de dados

Page 19: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Alinhamento de tesauros

• Abordagem adaptativa

Query Manager Module

Cache

MappingsMapping Rate

Estimator Module

Mapping Rates Matrix

Thesaurus1

Client

3

4

5

7

6

CA CB

ThesaurusQuery

2

8

Query

BRAUNER, D. F.; CASANOVA, M. A.; MILIDIU, R. L. Mediation as Recommendation: An Approach to Design Mediators for Object Catalogs. In: 5th International Conference on Ontologies, DataBases, and Applications of Semantics, 2006, Montpellier, OTM 2006 Workshops. Berlin/Heidelberg:Springer, 2006. v. 4277. p. 46-47.

Page 20: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Cache Mappings

Alinhamento de tesauros

TA TB

DBA DBB

Populated placesPopulated places

ClientClient

Request“Populated places”

using TA

Request“PPL”

using TB

______

______

TA

PPLPPL

TB

..in a user session..

______

______

• Abordagem adaptativa: mediação de consultas

Page 21: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Alinhamento de tesauros

Geração de tesauro de referência:

• Abordagem a priori:– Assume-se um dos tesauros das fontes como

tesauro de referência

– A pertinência dos elementos é confirmada a partir dos mapeamentos realizados

• Abordagem adaptativa:– Assume-se um dos tesauros das fontes como referência

(por exemplo, o da primeira fonte cadastrada)

– A pertinência dos elementos é confirmada a medida que os mapeamentos são descobertos

– Novos elementos são incluídos quando novos mapeamentos são descobertos

Page 22: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Agenda

• Definição do problema

• Abordagem proposta

– Alinhamento de tesauros

– Alinhamento de esquemas conceituais

• Trabalhos relacionados

• Contribuições

• Organização da tese

• Cronograma

Page 23: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Ref.

Alinhamento de esquemas conceituais

• Utilizando instâncias

– Utiliza um conjunto de instâncias de referência

– Conta re-ocorrência dos valores dos atributos

– Define matrizes de ocorrência

ID NAME IDTYPE LAT LONG

67203 Rio de Janeiro PPLA -22.9 -43.2333333

266178 Alps MTS 46.41666 10.0

433587 Mississippi River STM 29.15105 -89.253342

identifier display-name class gml:y gml:x

adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5

adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95

adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333

adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167

DBA

Page 24: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Alinhamento de esquemas conceituais

• Abordagem a priori

Query Manager Module

Cache

MappingsMapping Rate

Estimator Module

Occurrence Matrixbetween SG e SA

3

4

5

6

Global Instances+

Global Schema

SA1 2

DBA DBB

SB

SG

RG

Occurrence Matrixbetween SG e SB

BRAUNER, D. F.; INTRATOR, C.; FREITAS, J. C.; CASANOVA, M. A. An Instance-based Approach for Matching Export Schemas of Geographical Database Web Services. In: IX Brazilian Symposium on GeoInformatics, 2007, Campos do Jordão. IX Brazilian Symposium on GeoInformatics (GeoInfo 2007), 2007.

Page 25: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Alinhamento de esquemas conceituais

• Abordagem adaptativa

Query Manager Module

Cache

MappingsMapping Rate

Estimator Module

Occurrence Matrix EMI Matrix

SA1

Client

Query 2

3

4

5 7

6

DBA DBB

SB

8

BRAUNER, D. F.; GAZOLA, A.; CASANOVA, M. A.; BREITMAN, K. K. Matching Schemas of Database Web Services by Mediating User Queries. In: 10th International Conference on Enterprise Information Systems (ICEIS 2008), 12-16, June, 2008. Barcelona, Spain (Submitted).

Page 26: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Alinhamento de esquemas conceituais

Geração de esquema conceitual global:

• Abordagem a priori:– O esquema conceitual global é definido a priori

– A pertinência dos elementos (atributos) é confirmada a partir dos mapeamentos realizados

• Abordagem adaptativa:– Assume-se um dos esquemas conceituais

das fontes cadastradas como esquema global(por exemplo, o da primeira fonte cadastrada)

– A pertinência dos elementos (atributos) é confirmada a medida que os mapeamentos são descobertos

– Novos atributos são incluídos quando novos mapeamentos são descobertos

Page 27: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Agenda

• Definição do problema

• Abordagem proposta

– Alinhamento de tesauros

– Alinhamento de esquemas conceituais

• Trabalhos relacionados

• Contribuições

• Organização da tese

• Cronograma

Page 28: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Trabalhos Relacionados

• Rahm e Bernstein (2001) apresentam um survey incluindo diversas técnicas de alinhamento de esquemas conceituais, e propõem uma taxonomia para classificá-las.

• Bernstein e Melnik (2007) apresentam uma revisão dos requisitos para um Sistema de Gerenciamento de Modelos (que inclui operações para alinhamento de esquemas, diff de esquemas, transformação de dados a partir dos mapeamentos, etc.).

– Apontam a necessidade de inclusão de um componente para execução dos mapeamentos em runtime.

Rahm, E.; Bernstein, P. A. A Survey of Approaches to Automatic Schema Matching, The VDLB Journal, vol. 10, pp. 334–350, 2001.

Bernstein, P. A.; Melnik, S. Model management 2.0: manipulating richer mappings. In Proc. of the 2007 ACM SIGMOD International Conference on Management of Data, Beijing, China, 2007. pp.1 - 12.

Page 29: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Trabalhos Relacionados

(Wang et al. 2004)

• Técnica de alinhamento de esquemas baseada em instâncias usando sondagem de consultas específica de domínio, aplicada a bancos de dados na Web

• Um banco de dados na Web é composto por:

– Esquema de Interface: o que pode ser consultado

– Esquema de Resultado: o que é apresentado aos usuários

• Assume a existência/definição prévia de:

– um esquema global para bancos de dados na Web de um mesmo domínio

– um conjunto de instâncias de referência

Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419.

Page 30: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Trabalhos Relacionados

Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419.

Esquema global + Instâncias de referência

Title Author Publisher ISBN

xxxx xxxxxxx xxxx xxxx xxxx

xxxx xxxxxxx xxxx xxxx xxxx

xxxx xxxxxxx xxxx xxxx xxxx

xxxx xxxxxxx xxxx xxxx xxxx

Instâncias de Referência

Web Database (Esquema de Interface)

Page 31: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Trabalhos Relacionados

Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419.

Title Author Publisher ISBN

xxxx xxxxxxx xxxx xxxx xxxx

xxxx xxxxxxx xxxx xxxx xxxx

xxxx xxxxxxx xxxx xxxx xxxx

xxxx xxxxxxx xxxx xxxx xxxx

Result Page (Esquema de Resultado)

Esquema global + Instâncias de referência

Instâncias de Referência

Web Database (Esquema de Interface)

Page 32: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Agenda

• Definição do problema

• Abordagem proposta

– Alinhamento de tesauros

– Alinhamento de esquemas conceituais

• Trabalhos relacionados

• Contribuições

• Organização da tese

• Cronograma

Page 33: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Contribuições

• Técnicas baseadas em instâncias para alinhamento de:

– esquemas de classificação (tesauros)

– esquemas conceituais

• Classificação das técnicas em a priori e adaptativas

• Técnicas para, a partir destes alinhamentos, criação de:

– esquemas de classificação (tesauros) de referência

– esquemas conceituais globais

Page 34: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Agenda

• Definição do problema

• Abordagem proposta

– Alinhamento de tesauros

– Alinhamento de esquemas conceituais

• Trabalhos relacionados

• Contribuições

• Organização da tese

• Cronograma

Page 35: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Organização da tese

1. Introdução

2. Trabalhos relacionados

3. Alinhamento de tesauros

4. Alinhamento de esquemas

5. Conclusões

Page 36: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Agenda

• Definição do problema

• Abordagem proposta

– Alinhamento de tesauros

– Alinhamento de esquemas conceituais

• Trabalhos relacionados

• Contribuições

• Organização da tese

• Cronograma

Page 37: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

© Daniela F. Brauner

Cronograma

Page 38: Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova

Alinhamento de esquemas baseado em instâncias

PROPOSTA DE DOUTORADO

Daniela F. Brauner

Orientador:

Prof. Marco Antonio Casanova