35
Dados, Integração de Dados e Dados Interligados II Workshop de Introdução a Engenharia de Ontologias e Web Semântica Bernadette Farias Lóscio [email protected]

Dados, Integração de Dados e Dados Interligados · Dados armazenados em bancos de dados relacionais Possuem uma estrutura fixa e bem definida (esquema do banco de dados) – Esquema

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Dados, Integração de Dados e Dados Interligados

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

Bernadette Farias Lóscio [email protected]

PARTE 1 – DADOS E INTEGRAÇÃO DE DADOS

2

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

Dados – Fatos registrados, e que têm um significado

implícito, sobre fenômenos do mundo real

– Tipicamente representam valores (números, caracteres) de variáveis (qualitativas ou quantitativas)

– Utilizados para transmitir, armazenar e deduzir informações

3

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 4

–  raw data – Dados que ainda não foram processados – Termo relativo!

• O processamento de dados ocorre em etapas

• O processamento dos dados gera informação

Dados brutos

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 5

–  facilitam o entendimento dos relacionamentos e a utilidade das informações dos dados

metaDados

Central do Brasil Walter Sales Fernanda Montenegro

!tulo  

diretor  

atriz_principal  

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

dado

6

informação conhecimento

Informação  adicional  extraída  dos  dados  ou  do  especialista  do  

domínio  da  aplicação  

Significado  associado  ou  deduzido  de  um  

conjunto  de  dados  e  de  associações  entre  eles  

Valor  sem  um  significado  explícito  

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

A principal diferença entre eles é o nível de abstração !

7

dado

informação

conhecimento A

BST

RA

ÇÃ

O

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

Processar dados para gerar

informação

8

Interesse comum de organizações públicas e privadas!

Processar informação para gerar

conhecimento

dado

informação

conhecimento

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 9

Quem são as fontes de dados?

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

Podem estar armazenados em – Fontes de dados privadas - disponíveis nas

organizações – Fontes de dados públicas - disponíveis na

Web

10

Dados

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 11

1960

hierárquico em rede

relacional

orientado a objeto

OEM

XML RDF

1970 1980 1990 2000 2012

Web

Web Semântica

Linked Data

modelos de dados

Dados são representados usando modelos de dados!

NoSQL

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

Podem ter diferentes formatos – Dados estruturados (ex. bancos de dados

relacionais) – Dados semi-estruturados (ex. documentos

xml) – Dados não estruturados (ex. documentos

texto)

12

Dados

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 13

Dados estruturados

Dados provenientes dos sistemas transacionais Dados armazenados em bancos de dados relacionais Possuem uma estrutura fixa e bem definida (esquema do banco de dados)

– Esquema pré-definido – Todos os dados de acordo com o esquema

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 14

cod! título! cod_autor!Mar Morto!L01! autor_1!

ano!

L02!L03!L04!L05!

A Estrada do Mar!1936! genero_1!

cod_genero!

autor_1! 1938! genero_2!!O mundo da Paz! autor_1! genero_3!1951!

autor_2! 1930! genero_1!!Tieta do Agreste! autor_1! 1977! genero_1!!

O Quinze!

Tabela relacional - Livros

Dados estruturados

Tabela Gêneros Tabela

Autores

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 15

Dados estruturados

–  Grandes volumes de dados armazenados em registros bem definidos

–  SGBD, em geral, trabalha com dados bem estruturados –  Um SGBD precisa do esquema para

•  Armazenar e indexar dados •  Processar consultas e atualizações

–  Usuários precisam do esquema para formular consultas e atualizações

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 16

Dados semi-estruturados

• Ausência de uma estrutura regular, ou a estrutura é capaz de evoluir de forma imprevisível

• Dados podem ser incompletos • Estrutura irregular (dados heterogêneos) • Tipos são apenas indicativos • A estrutura pode ser implícita • Dados na Web

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 17

Dados semi-estruturados

<?xml version="1.0" encoding="utf-8"?> <livraria> <livro id="L01" ano="1936">

<autor> Jorge Amado </autor> <titulo>Mar Morto</titulo>

</livro> <livro id="L04" ano="1930">

<autor> <nome>Rachel</nome > <sobrenome>de Queiroz</sobrenome > </autor> <titulo>O Quinze</titulo>

<genero> Romance </genero> </livro> </livraria>

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 18

Dados não estruturados

• Ausência de estrutura • Dados que ainda não foram “tratados” ou modelados • Dados armazenados em arquivos ou documentos

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 19

Ilhas de … …

estruturados semi-estruturados

não-estruturados

As fontes de dados podem ser !públicas ou privadas!

dados

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

– Apresentação de uma visão uniforme e consistentes dos dados

–  Identificação de dados complementares e redundantes

– Resolução de inconsistências

20

Integração dos Dados

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

Como integrar? Como oferecer uma visão global de dados distribuídos em fontes de dados autônomas e heterogêneas?

visão global dos dados

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 22

Tipos de Heterogeneidade de Informação

Estrutural

Sintática

Semântica

Modelos  diferentes  

Estruturas  diferentes  

Significados  diferentes  

Terminológica

Nomes  diferentes  

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

esquema de integração!

esquema local!

esquema local!

esquema local!

visão integrada !

mapeamentos!

mesmo modelo de dados!

Visão Geral do Problema de Integração de Dados

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

– Mediadores – Datawarehouse – P2P – Dataspaces

24

Arquiteturas

de Integração

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

tradutor!

aplicação!

tradutor! tradutor!

mediador!

consultas !

sub-consultas !

dados!

arquitetura de

mediadores

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

arquitetura de

Data warehouse

aplicação!

Data warehouse !

consultas !

atualizações !dados!

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

arquitetura

Peer to Peer

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

arquitetura de

Dataspaces

tradutor! tradutor! tradutor!

mediador!

tradutor! tradutor! tradutor!

mediador!

tradutor! tradutor! tradutor!

mediador!

aplicação!

abordagem pay-as-you-go

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 29

A escolha da arquitetura depende de alguns fatores:

–  A quantidade de fontes de dados a serem integradas

–  A frequencia de atualização das fontes –  A infra-estrutura de comunicação –  …

Arquiteturas

de Integração

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 30

A escolha da arquitetura responde algumas perguntas:

–  A integração de dados será virtual ou materializada? –  Será usado um único esquema de integração ou

vários esquemas? –  É possível definir mapeamentos entre as fontes de

dados ou apenas entre as fontes e o esquema de integração?

Arquiteturas de Integração

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica

Prover interoperabilidade entre as fontes de dados

31

Desafio

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 32

Interoperabilidade

Uma solução de integração de dados deve prover: –  interoperabilidade sintática: adoção de um modelo

de dados comum –  interoperabilidade estrutural: definição de

mapeamentos –  interoperoperabilidade semântica: uso de

vocabulários

Interoperabilidade: é a capacidade de um sistema (informatizado ou não) de se comunicar de forma transparente (ou o mais próximo disso) com outro sistema (semelhante ou não).

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 33

Interoperabilidade

–  O modelo de dados comum deve ser flexível e capaz de representar dados semi-estruturados

–  Prover interoperabilidade semântica é o maior desafio da integração de dados!

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 34

Web Semântica e Linked Data

–  Oferecem soluções e tecnologias adequadas para

resolver o problema da integração de dados –  Modelo de dados flexível para representação

dos dados na Web –  Ontologias ajudam a resolver o problema da

heterogeneidade semântica

II Workshop de Introdução a Engenharia de Ontologias e Web Semântica 35

Conclusões