19
Internet e RI - aula 1 1 Introdução a Teoria da Classificação Suzana Dantas

Introdução a Teoria da Classificação

Embed Size (px)

DESCRIPTION

Introdução a Teoria da Classificação. Suzana Dantas. Sistema de Recuperação da informação (SRI). - PowerPoint PPT Presentation

Citation preview

Page 1: Introdução a Teoria da Classificação

Internet e RI - aula 1 1

Introdução a Teoria da Classificação

Suzana Dantas

Page 2: Introdução a Teoria da Classificação

Internet e RI - aula 1 2

Sistema de Recuperação da informação (SRI)

Um Sistema de Recuperação da Informação é uma organização para armazenar e tornar disponível informação, explorando-a de modo positivo, com um índice de assunto dos documentos existentes na coleção, permitindo recuperar as referências

Page 3: Introdução a Teoria da Classificação

Internet e RI - aula 1 3

Origem• Existência de computadores

– potencial para implementação de “bases de dados”• conjuntos de ficheiros• Software para manter e pesquisar a informação

• Sistemas desenvolvidos– SGBD

• armazenamento e processamento• informação em linguagens muito restritas

– Armazenamento e RI - pesquisa de documentos• necessidade sentida nas bibliotecas nos anos 50• reforço: proliferação de documentos eletrônicos• mais reforço: WWW

Page 4: Introdução a Teoria da Classificação

Internet e RI - aula 1 4

Conceitos• Recuperação de Informação

– no sentido da recuperação de documentos ou de textos

• Atividades principais– indexação ( modo de representar documentos e perguntas)– consulta (modo de analisar itens com vista à resposta a perguntas)

• Atividades relacionadas- diversificação na forma de pesquisa - ex. browsing- apresentação visual de resultados

• Entidades primitivas– documentos, termos de indexação

Page 5: Introdução a Teoria da Classificação

Internet e RI - aula 1 5

Nomes

• Índice: nome genérico para catálogos, bibliografias, índices de artigos, etc…

• Registro de documento• cabeçalho: nome do autor, cabeçalho do assunto• descrição: autor, título, edição, editor, paginação• localização

Page 6: Introdução a Teoria da Classificação

Internet e RI - aula 1 6

Indexar

• Indexar significa incluir um documento num repositório de informações

• Inclui identificar, determinar assuntos e selecionar termos para representar os índices

• Utiliza uma linguagem de indexação

Page 7: Introdução a Teoria da Classificação

Internet e RI - aula 1 7

Métodos de Indexação

• Por palavra• utiliza as palavras encontradas no título ou no

documento• KWIC : Keyword in Context

• Por assunto• supõe a análise do conteúdo temático do

documento, a decisão sobre os conceitos presentes e a tradução em uma linguagem apropriada (artificial ou controlada)

Page 8: Introdução a Teoria da Classificação

Internet e RI - aula 1 8

Revocação e Precisão

• As medidas mais comuns para avaliar a qualidade de um sistema de busca e recuperação de informação são conhecidas com revocação e precisão

• Revocação mede a proporção de documentos relevantes recuperados

• Precisão mede quantos documentos relevantes foram recuperados

Page 9: Introdução a Teoria da Classificação

Internet e RI - aula 1 9

Revocação e Precisão

0

0,2

0,4

0,6

0,8

1

0 0,5 1

• Normalmente sistemas de BRI possuem uma curva de Recall x Precision

Page 10: Introdução a Teoria da Classificação

Internet e RI - aula 1 10

Revocação e Precisão

Itens não relevantes

Itens relevantes

Itens recuperados

Itens nãorecuperados

AC

B

D

Page 11: Introdução a Teoria da Classificação

Internet e RI - aula 1 11

Revocação e Precisão

• Revocação• Relevantes Recuperados/Total de itens relevantes• A/(A+D)

• Precisão• Relevantes Recuperados/Total Recuperados• A/(A+B)

Page 12: Introdução a Teoria da Classificação

Internet e RI - aula 1 12

Fatores que governam

• Exaustividade• Extensão com que determinado documento é

indexado (número de conceitos utilizados)• grau de profundidade da indexação

• Especificidade• Exatidão dos descritores• depende da linguagem de indexação

Page 13: Introdução a Teoria da Classificação

Internet e RI - aula 1 13

Relação

• Maior exaustividade aumenta a revocação e diminui a precisão

• Maior especifidade diminui a revocação e aumenta a precisão

Page 14: Introdução a Teoria da Classificação

Internet e RI - aula 1 14

Linguagens de Indexação

• Vocabulário• coleção de termos de indexação

• descritores: palavras• cabeçalhos de assuntos• símbolos de classificação

• Sintaxe• artifícios empregados para revelar as relações

entre os conceitos e as regras para estabelecer os descritores e a ordem de citação

Page 15: Introdução a Teoria da Classificação

Internet e RI - aula 1 15

Elementos Promotores

• Revocação: aumentam o número de documentos de uma classe, alargando a definição do descritor e reduzindo o tamanho do vocabulário

• Precisão: reduzem o tamanho das classes, restringem a definição dos descritores e aumentam o tamanho do vocabulário

Page 16: Introdução a Teoria da Classificação

Internet e RI - aula 1 16

Provendo Revocação

• Controle de sinônimos• Controle de quase-sinônimos• Agrupamento de várias formas de uma palavra

(radical comum, singular e plural)• Agrupamento de conceitos semelhantes ou

relacionados• Elos hierárquicos

Page 17: Introdução a Teoria da Classificação

Internet e RI - aula 1 17

Promovendo Precisão

• Coordenação• Distinção de homônimos• Ponderação• Elos (links)• Papéis ou funções (roles)

Page 18: Introdução a Teoria da Classificação

Internet e RI - aula 1 18

Extensão da Recuperação da Informação

Novos meios em documentos– técnicas usadas em texto são extensíveis– documentos são cada vez mais heterogéneos• Documentos em linguagens diversas– noção de documento esbate-se– pesquisas tendem a requerer técnicas

híbridas• Para tarefa específica– necessário identificar os seus requisitos de

indexação e pesquisa

Page 19: Introdução a Teoria da Classificação

Internet e RI - aula 1 19

Processo de recuperação

indexação

Texto operações

índice

Interfaceusuário

Operaçõesde queryranking

Busca(searching)

Modelotexto

texto

usuário

Pergunta (query)