30
Integração de Dados Danusa Ribeiro [email protected]

Integração de dados

Embed Size (px)

DESCRIPTION

Apresentação no grupo de pesquisas de banco de dados da UFPE!

Citation preview

Page 1: Integração de dados

Integração de Dados

Danusa [email protected]

Page 2: Integração de dados

2

Porque integrar?

Page 3: Integração de dados

3

Porque integrar?Sist. de Suporte

a Decisão

Outras áreasLinguagens

deProgramação

Inteligência

Artificial

Sistemas Distribuídos

& Internet

Sistemas de Bancos de Dados

TemporalEspacial

Espaço Temporal

BD Multimídia

BD Dimensional

DW

BD Distribuídos

BDOO

BDDOO

BD AtivoBDD

BDD Ativo BDOO Ativo

BD deRestrições

BD OO Espacial

BD XML Nativo

[Lóscio, 2014]

Page 4: Integração de dados

4

Porque integrar?

• Heterogeneidade– nível físico (diferentes plataformas de hardware e

software).

– nível lógico (diferentes modelos de dados).

– nível conceitual (diferentes esquemas e conceitos).

Page 5: Integração de dados

5

Porque integrar?

“Integration of multiple information systems aims at combining selected systems so that they form a unified

new whole and give users the illusion of interacting with one single

information system.”[Patrick Ziegler and Klaus R. Dittrich, 2004]

Page 6: Integração de dados

6

Sistemas de Integração de Dados

• Objetivo dos sistemas de integração de dados– permitir que usuários consultem simultaneamente

múltiplas fontes de dados• Heterogêneas• Distribuídas• Autônomas

– Manter transparentes os procedimentos de acesso, extração e integração dos dados

Page 7: Integração de dados

7

Sistemas de Integração de Dados

• Abordagens– Virtual

– Materializada

Page 8: Integração de dados

8

Sistemas de Integração de Dados

• Virtual– Os dados são recuperados diretamente das fontes.– As consultas são enviadas diretamente às fontes

de dados .– Os resultados individuais obtidos são integrados e

enviados ao usuário. – Vantagem: Os dados estão sempre atualizados.– Desvantagem: Os custos de processamento das

consultas e de acesso às fontes são elevados.

Page 9: Integração de dados

9

Sistemas de Integração de Dados

• Materializada– Os dados da fontes distintas são extraídos e

materializados localmente em repositórios chamados datawarehouses.

– Vantagem: As consultas são realizadas sobre a base materializada.• Melhor desempenho

– Desvantagem: Necessidade de manter a base materializada sempre atualizada

Page 10: Integração de dados

10

Arquitetura para Integração de Dados

• Arquiteturas Clássicas para Integração de Dados– Esquema Global• Construção de um esquema global a partir da integração dos

esquemas das fontes de dados locais.• As fontes de dados distribuídas e heterogêneas podem ser acessadas

de maneira uniforme e transparente através deste esquema global.

– Federada• Bancos de dados cooperantes e autônomos que participam da

federação para permitir um compartilhamento parcial e controlado de seus dados.

• São oferecidos múltiplos esquemas integrados, de acordo com os requisitos das aplicações– estáticos e definidos a priori

Page 11: Integração de dados

11

Arquitetura para Integração de Dados

• Arquitetura baseada em Mediadores

Page 12: Integração de dados

12

Arquitetura para Integração de Dados

• Arquitetura de Data Warehouse

Page 13: Integração de dados

13

Arquitetura para Integração de Dados

• Sistemas de Gerenciamento de Dados peer-to-peer

Page 14: Integração de dados

14

Arquitetura para Integração de Dados

• Dataspaces – Fase de inicialização rápida e de baixo custo, por meio da

geração incremental e automática dos mapeamentos. – Como consequência disto, os resultados recuperados

pelas consultas são imprecisos. – Isto se deve a baixa qualidade dos mapeamentos, que

por muitas vezes, são obtidos de maneira automática pelas ferramentas existentes.

– Não há uma definição clara do esquema de mediação ou esquema global, já que o mesmo é um sistema bastante flexível, podendo variar conforme a necessidade.

Page 15: Integração de dados

15

Principais Desafios

• Modelagem de Dados

• Definição da visão integrada

• Reformulação de consultas

• Construção de tradutores

Page 16: Integração de dados

16

Sistemas de Integração de Dados

• Para que ocorra a integração de dados, devem ser definidos relacionamentos ou mapeamentos entre cada esquema fonte e o esquema de mediação.

• Um mapeamento especifica como instâncias de dados de um esquema correspondem à instância de dados de outro esquema.

Page 17: Integração de dados

17

Abordagem para definição de Mapeamentos

• Para especificar a descrição das fontes de dados:– Global-As-View (GAV)– Local-As-View (LAV)– Global-Local-as-View (GLAV)

Page 18: Integração de dados

18

• Global-As-View (GAV)– Cada entidade no esquema de mediação tem uma

correspondência com o esquema da fonte de dado.

– Neste caso a reformulação de consultas torna-se mais simples.

Abordagem para definição de Mapeamentos

Page 19: Integração de dados

19

• Local-As-View (GAV)– Cada elemento em uma fonte local é definido

como uma visão sobre o esquema de mediação.– Torna mais fácil a manutenção das fontes de

dados.– O processo de decomposição de consultas é mais

complexo.

Abordagem para definição de Mapeamentos

Page 20: Integração de dados

20

Abordagem para definição de Mapeamentos

Fonte de dados1

Fonte de dados2

Esquema de mediação

Page 21: Integração de dados

21

Abordagem para definição de Mapeamentos

Fonte de dados1

Fonte de dados2

Esquema de mediação

Global-As-View (GAV)

Page 22: Integração de dados

22

Abordagem para definição de Mapeamentos

Fonte de dados1

Fonte de dados2

Esquema de mediação

Local-As-View (GAV)

Page 23: Integração de dados

23

Histórico

WebHTTPHTML/CSS/ JavaScript

Web SocialCompartilhamento, Grupos,Relacionamentos, Tags...

Web Semântica (visão desde 1998)Raciocinadores, Lógica, Regras...

...O que vem por aí?

1990-2000

2000-2010

2010-2020?

Page 24: Integração de dados

24

E com o advento da Web... Ainda é necessário integrar os dados?

A Web revolucionou a forma como os

dados são gerados e manipulados!

Page 25: Integração de dados

25

Desafios para Integração de Dados na Web

• Existem algumas diferenças que precisam ser consideradas quando fontes de dados Web são integradas como:– O número de fontes de dados pode ser grande, o que dificulta os processos de

integração de esquemas e resolução de conflitos.

– As fontes de dados • são muito dinâmicas e assim a adição ou remoção de fontes de dados

deve ser feita de maneira a minimizar o impacto na visão integrada.

• são bastante heterogêneas, podendo ser desde sistemas de gerenciamento de bancos de dados até simples arquivos.

• podem ser não estruturadas ou semiestruturadas e, na maioria das vezes, não fornecem informações suficientes para a integração dos esquemas.

Page 26: Integração de dados

26

Desafios para Integração de Dados na Web

• Os dados na Web– são organizados para serem lidos ou compreendidos por humanos e não por

agentes de software. – é necessário processar a semântica envolvida naquele dado, num

determinado contexto.

• Semântica diz respeito à atribuição de significado a elementos, dados ou expressões que precisam ser interpretados numa dada situação. – atribuir significado aos dados interligando-os com outros conjuntos de dados

ou outros domínios de conhecimento, conseguindo, assim, criar uma relação de significância entre os conteúdos publicados na Internet de modo que seja perceptível tanto pelo usuário quanto pelos agentes de software.

– Essa visão da Web é denominada de Web Semântica (Semantic Web)

Page 27: Integração de dados

27

E o que é Web Semântica?

Como ela ajuda no processo de integração de dados na Web?

Cenas dos próximos capítulos. Não percam!!!

Page 28: Integração de dados

28

Referências• [Franklin et al. 2005] Franklin, M., Halevy, A., Maier, D. From Databases to

Dataspaces: A New Abstraction for Information Management. In: SIGMOD ’05: Proceedings of the 2005 ACM SIGMOD international conference on Management of data (2005) 27–33.

• [Halevy 2003] Havely, A. Y., Data Integration: A Status Report. . In proceedings of BTW, 2003.

• [Halevy et al. 2006a] Halevy, A., Rajaraman, A., Ordille, J.: Data integration: the teenage years. In: VLDB’06: 32nd International Conference on Very Large Data Bases, ACM (2006).

• [Halevy et al. 2006b] Halevy, A., Franklin, M., Maier, D. Principles of Dataspace Systems. In: PODS ’06: Proceedings of the twenty-fifth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems, ACM (2006).

• [Heath and Bizer 2011] Heath, T., Bizer, C., Linked Data: Evolving the Web into a Global Data Space (1st edition). Synthesis Lectures on the Semantic Web: Theory and Technology. Morgan & Claypool, 2011.

Page 29: Integração de dados

29

Referências• [Herschel and Heese 2005] Herschel, S. and Heese, R. Humboldt

Discoverer: A Semantic P2P index for PDMS. In: Proc. of the International Workshop Data Integration and the Semantic Web, Porto, Portugal, 2005.

• [Lóscio 2003] Lóscio, B. F. Managing the Evolution of XML-based Mediation Queries. Ph.D. Thesis, Federal University of Pernambuco, Brazil, 2003.

• [Navathe et al. 1986] Navathe, S. B., Elmasri, R. and Larson, J. (1986). Integrating user views in database design. IEEE Computer, vol. 19, no. 1.

• [Madhavan et al. 2007] Madhavan, J., Cohen, S., Dong, X.L., Halevy, A.Y., Jeffery, S.R., Ko, D., Yu, C. Web-scale data integration: You can afford to pay as you go. In: Proc. of Third Biennial Conference on Innovative Data Systems Research, 2007, Asilomar, CA, USA.

Page 30: Integração de dados

30

Referências• [Pires 2009] Pires, C. E. S. (2009). Ontology-based Clustering in a Peer

Data Management System. PhD thesis, Federal University of Pernambuco.

• [Salles et al. 2007] Salles, M.A.V., Dittrich, J.P., Karakashian, S.K., Girard, O.R., Blunschi, L.: iTrails: Pay-as-you-go Information Integration in Dataspaces. In: VLDB’07: 33rd International Conference on Very Large Data Bases, ACM (2007).

• [Sarma et al 2008] Sarma, A. D., Dong, X., Halevy, A. 2008. Bootstrapping pay-as-you-go data integration systems. In Proceedings of the 2008 ACM SIGMOD international conference on Management of data (SIGMOD '08). ACM, New York, NY, USA, 861-874.

• [Sung et al. 2005] Sung, L. G. A., Ahmed, N., Blanco, R., Li, H, Soliman, M. A., Hadaller, D. A Survey of Data Management in Peer-to-Peer Systems. In: School of Computer Science, University of Waterloo, 2005.