24
Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Embed Size (px)

Citation preview

Page 1: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Propriedades de Documentos

Eveline Alonso VelosoPUC-MINAS

Page 2: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Referências

BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 6.

Page 3: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Introdução Documento:

unidade de informação. Pode ser uma unidade lógica

completa; um artigo científico; um livro; um

manual; um e-mail; uma página Web. Pode ser uma das partes de um

texto maior; um capítulo de um livro; um

parágrafo; uma passagem no texto; uma entrada em um dicionário.

Page 4: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Introdução Um documento possui:

sintaxe e estrutura; ditadas pela aplicação ou pela pessoa que o

criou; semântica;

especificada por seu autor; estilo de apresentação;

que especifica como ele deve ser exibido. O estilo de apresentação usualmente é dado

pela sintaxe e estrutura do documento; e está relacionado com uma aplicação específica.

Page 5: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Introdução

Um documento também pode ter metadados; que não são apresentados a

quem está visualizando-o.

sintaxe

documento

texto + estrutura +

outras mídias

estilo de apresentação

semântica

Page 6: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Metadados Muitos documentos e coleções

possuem; associados a eles; o que é conhecido como metadados.

Metadados: “dados sobre os dados”. Tipos:

descritivos; semânticos.

Podem ser utilizados como uma das evidências para a recuperação do documento.

Page 7: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Metadados Descritivos Metadados que são externos ao

significado do documento; estão mais relacionados a seu processo

de criação. Exemplos:

nome do autor do documento; data de publicação do documento; tamanho;

(em número de páginas; palavras ou bytes); tipo do documento;

(livro; página Web; etc).

Page 8: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Metadados Semânticos Metadados que caracterizam o

assunto; que pode ser encontrado no

conteúdo do documento. Exemplos:

palavras-chave associadas a páginas Web;

relacionadas ao assunto por elas tratado;

códigos de assunto associados a livros em uma biblioteca.

Page 9: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Metadados em Páginas Web<html lang="pt-br"><head><title>Portal PUC Minas</title><meta name="description" content="Portal

PUC Minas - Site institucional"><meta name="Author" content="Rodrigo

Dias"><meta name="keywords" content="PUC

Minas, Universidade, Escola Superior de Ensino, Graduacao, Pos-Graduacao">

<meta name="language" content="pt-br">

Page 10: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Metadados Metadados também são úteis

para descrever textualmente objetos não textuais; como imagens; música; vídeo; etc.

Assim, as palavras-chave associadas ao objeto não textual; podem ser utilizadas para que

esses objetos sejam recuperados; utilizando-se técnicas clássicas de

recuperação de informação textual.

Page 11: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Formato dos Documentos Não existe um único formato para

documentos textuais; e um sistema de recuperação de

informação deve ser capaz de recuperar documentos de diversos formatos.

Sistemas de recuperação de informação utilizam filtros (parsers); para extrair o conteúdo, na forma

textual, de documentos de diversos formatos.

Page 12: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Formato dos Documentos É necessário construir um parser;

para cada formato de documento tratado pelo sistema de recuperação de informação.

A sintaxe de muitas linguagens é proprietária e específica; enquanto a de outras é aberta e pública.

É possível construir parsers eficientes para formatos públicos como o HTML.

Page 13: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Exemplo de Documento HTML

<div class="boxnoticia"><font class='chamada'><b>Pós-graduação PUC Minas

Virtual</b></font><br><a href='/noticias/noticia.php?

codigo=2567&lateral=&cabecalho=&menu=&pagina=' class='link_capa' > Ensino a distância com a qualidade PUC Minas. Inscrições abertas. </a> </div>

<div class="boxnoticia"><font class='chamada'><b>Mestrado e Doutorado</b></font><br><a href='/concursos' class='link_capa' > Saiba tudo sobre os processos

seletivos </a> </div><div class="boxnoticia"><font class='chamada'><b>Canto Coral</b></font><br><a href='/noticias/noticia.php?

codigo=2579&lateral=&cabecalho=&menu=&pagina=' class='link_capa' > Diretoria de Arte e Cultura oferece oficina de Canto Coral </a> </div>

Page 14: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Formato dos Documentos

Pode não ser possível construir bons parsers; se o formato for proprietário e

seus detalhes não forem públicos; como documentos Word que são

armazenados em um formato binário.

Page 15: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Exemplo de Documento Word

æ â ðUa{#áÇH z  & ª æ $ [ 0 ‹ ¶ 0 ‡ < ‡ æ R H H 4 4 4 4 Ù EMBED UnknownPONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS

Exercício Curso : Sistemas de Informação

Disciplina : Recuperação de Informação Professora: Eveline Alonso Veloso

Selecione três sistemas de recuperação de informação que você costuma utilizar e indique as seguintes propriedades de suas bases de documentos textuais:

C L N O c y ” ® Á × ó òéÙòÒÉ¿ÒéÒ·Ò·Ò¿«Ò

Page 16: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Freqüência de Ocorrência das Palavras Texto escrito possui certa semântica;

e é uma forma de disseminar informação. Embora seja difícil capturar

formalmente quanta informação existe em um dado texto; a freqüência de ocorrência das palavras

que aparecem no texto está relacionada a isso.

Por exemplo, um texto onde a mesma palavra aparece repetidas vezes;

não apresenta muita informação.

Page 17: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Palavras muito freqüentes: stopwords;

palavras que não apresentam muito significado; artigos; preposições; etc.

Geralmente são descartadas durante o processo de recuperação de informação;

diminui o espaço de armazenamento necessário; acelera o processamento de consultas.

Palavras muito pouco freqüentes: podem ser palavras escritas incorretamente;

depende das características do meio de onde os documentos da coleção foram selecionados.

Freqüência de Ocorrência das Palavras

Page 18: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Características da Língua A língua em que o documento

foi escrito pode apresentar particularidades; que podem ser exploradas; ou não devem ser

desconsideradas durante o processo de recuperação de informação.

Exemplo: acentuação de palavras da língua

portuguesa.

Page 19: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Tamanho da Coleção de Documentos Vocabulário:

conjunto de palavras distintas de uma coleção.

É possível estimar, com bastante precisão, o tamanho do vocabulário de uma coleção; a partir do tamanho da própria coleção; o que pode ser utilizado para estimar o

tamanho do índice.

Page 20: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Estrutura dos Documentos Documentos podem apresentar

alguma estrutura; ainda que básica; que pode ser explorada durante o

processo de recuperação de informação.

Page 21: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Título

Corpo da página

Page 22: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

TítuloLista de autores

Resumo

Corpo do documento

Page 23: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Estrutura dos Documentos

Page 24: Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Qualidade dos Documentos

As características do meio de onde os documentos da coleção foram selecionados;

podem influenciar algumas outras características desses documentos, como:

qualidade; documentos podem apresentar, com maior

freqüência, erros de digitação e/ou ortografia; autenticidade; veracidade.

O processo de recuperação de informação deve utilizar mecanismos para priorizar documentos de maior qualidade.