29
Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Embed Size (px)

Citation preview

Page 1: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e

Recuperação de Informação

Olinda Nogueira Paes Cardoso

DCC - UFLA

Maio de 2004

Page 2: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de DadosBD

Page 3: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 3

Introdução – Conceitos Básicos

Bancos de dados (BD) são conjuntos de dados relacionados e acessíveis.

Sistemas Gerenciadores de Bancos de Dados (SGBD) são pacotes de programas que gerenciam BD, são linguagens utilizadas para manter os BD.

Sistemas de BD são sistemas desenvolvidos com funções específicas, que usam BD, desenvolvidos em SGBD.

Page 4: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 4

Introdução – Conceitos Básicos

SGBD é um pacote de softwares que facilita a criação e manutenção de um BD. Sozinho um SGBD não significa nada, com um BD e um programa escrito para sua manipulação forma-se um sistema de BD.

Uma analogia sobre a diferença de um SGBD e um sistema de BD, pode ser por exemplo, um programa escrito em C e seu compilador, juntos formam uma aplicação.

Page 5: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 5

Introdução – Conceitos Básicos

Num BD os dados relacionados têm que possuir interesses comuns e têm que ser ligados à realidade.

Os dados são matéria-prima de forma crua, fatos que podem ser gravados com significado implícito.

Page 6: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 6

Introdução – Conceitos Básicos

Mini-Mundo (Universo de Discurso) é a parte do Mundo real sobre o qual vai ser criado o BD e a aplicação.

Banco de

DadosMini-Mundo

Page 7: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 7

Definição para Banco de Dados

Um banco de dados é um conjunto de dados armazenados, cujo conteúdo informativo representa, a qualquer instante, o estado de uma determinada aplicação.

ou Um banco de dados é um modelo de uma

determinada parte da realidade, geralmente denominada de Universo de Discurso.

Page 8: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 8

Ambiente de um Sistema de Banco de Dados

Programadores / Usuários

Sistema de BD Programas de aplicação / Consultas

SGBD Programa para processar consultas / Programas

Programas para acessar dados armazenados

Definição dos dados

Dados armazenados

Page 9: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 9

Características da tecnologia BD Isolamento entre programas e dados Múltiplas visões dos dados Compartilhamento entre múltiplos usuários Controle de redundância Diferentes tipos de interface para diferentes usuários Representação dos dados complexos Garante a restrição de integridade Mecanismos de backup e recuperação de dados Flexibilidade na mudança das estruturas de dados Redução do tempo de desenvolvimento da aplicação

Page 10: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 10

Pessoas Envolvidas com BD

Administrador de bancos de dados (ADB ou DBA – Database Administrator)

Projetistas do banco de dados

Analistas de sistemas

Usuários finais: casuais, ingênuos e sofisticados

Page 11: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 11

Linguagens do SGBD

DCL (Data Control Language) – usada pelo DBA para controlar o acesso aos dados, os usuários, etc.

DDL (Data Definition Language) – descreve a estrutura do BD. Usada pelo DBA e pelos projetistas.

DML (Data Manipulation Language) – permite especificar recuperação e alterações dos dados do BD. Pode ser embutida em outra linguagem, por exemplo C.

SQL = DCL + DDL + DML

(Structured Query Language)

Page 12: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 12

Evolução das Aplicações de BD Gerência de dados

• Compreende facilidades para armazenar e manipular dados estruturados e de formato fixo, características das aplicações comerciais tradicionais.

Gerência de objetos • Compreende facilidades para armazenar e manipular dados de

estruturas complexas e tipos não tradicionais, tais como: imagens, textos, gráficos, mapas, figuras, etc.

Gerência de conhecimento • Compreende facilidades para armazenar e garantir a aplicação

de regras que possibilitam a manutenção de restrições de integridade entre os dados e a inferência automática de dados.

Page 13: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 13

Cronograma de Evolução dos BD

70 80 90

Sistemas de Arquivos

SGBDs tradicionais

Redes Hierárquico

SGBDs relacionais

SQL

SGBDs OO/OR

SQL3

Page 14: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 14

Sistemas Avançados em BD

Bancos de Dados Distribuídos

Bancos de Dados Temporais (Tempo-Real)

Bancos de Dados Semi-estruturados

Bancos de Dados na Web

Bancos de Dados Móveis

Page 15: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Recuperação de Informação

RI

Page 16: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 16

Introdução - Conceito Recuperação de Informação (RI) é uma área da

Ciência da Computação que lida com armazenamento automático e recuperação de documentos.

Page 17: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 17

Introdução - Motivação

Crescimento no volume das informações

Bibliotecas Digitais

Complexidade dos dados

Page 18: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 18

Componentes de um Sistema de RIDocumentos Necessidade do usuário

PERDA DE INFORMAÇÃOPROCESSO DE

INDEXAÇÃO

PROCESSO DE RECUPERAÇÃO

PROCESSO DE ESPECIFICAÇÃO DE CONSULTA

Índices Uma representação dos documentos Consulta

Lista de documentos recuperados

Page 19: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 19

Modelos Clássicos

Apresentam estratégias de busca de documentos importantes para uma consulta (query).

Cada documento é descrito pelo conjunto de palavras, que o compõe, ou termos de indexação.

Os modelos clássicos: Booleano Vetorial Probabilístico

Page 20: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 20

Arquivo Invertido

Termo1

Termo2

Termo3

TermoN

...

doc5 50

doc1 45

doc4 66

doc3 26

doc1 30

doc5 23

doc3 59

doc5 13

doc3 15

doc2 10

doc5 47

doc2 7

...

...

...

...

Page 21: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 21

Modelos Clássicos

O índice atribuído aos documentos deve indicar qual documento é mais relevante que outro, estabelecendo uma ordem de relevância (Ranking).

Taxas (índices) de similaridade são calculadas com base na comparação entre a consulta e os documentos.

Page 22: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 22

Termos x Documentos

Documentos

Termos

Page 23: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 23

Termos x Documentos

Documentos

Termos

Query

Page 24: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 24

Avaliação de Sistemas de RI

Coleções de documentos• Tipster (Wall Street Journal - TREC)• Fibrose Cística• Lexis / Nexis

Avalia-se um SRI comparando as respostas geradas por este sistema e o conjunto ideal de respostas de uma coleção de documentos.

Índices de avaliação• Precisão ( Precision )• Revocação ( Recall )

Page 25: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 25

Tópicos especiais em RI Passagens

Expansão de Consultas

Filtragem de Informação

Categorização e extração da informação

Visualização

Page 26: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 26

Passagens

Page 27: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 27

Tópicos especiais em RI Passagens

Expansão de Consultas

Filtragem de Informação

Categorização e extração da informação

Visualização

Page 28: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 28

Expansão de ConsultasUsuário

Consulta: Redes de Computadores + www

Sistema

Consulta:Redes de Computadores + www + Internet +

web + http + net + w3 + backbone

Page 29: Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004

Bancos de Dados e Recuperação de informação 29

Tópicos especiais em RI Passagens

Expansão de Consultas

Filtragem de Informação

Categorização e extração da informação

Visualização