Upload
mason-valencia
View
31
Download
0
Embed Size (px)
DESCRIPTION
Introdução a Teoria da Classificação. Suzana Dantas. Sistema de Recuperação da informação (SRI). - PowerPoint PPT Presentation
Citation preview
Internet e RI - aula 1 1
Introdução a Teoria da Classificação
Suzana Dantas
Internet e RI - aula 1 2
Sistema de Recuperação da informação (SRI)
Um Sistema de Recuperação da Informação é uma organização para armazenar e tornar disponível informação, explorando-a de modo positivo, com um índice de assunto dos documentos existentes na coleção, permitindo recuperar as referências
Internet e RI - aula 1 3
Origem• Existência de computadores
– potencial para implementação de “bases de dados”• conjuntos de ficheiros• Software para manter e pesquisar a informação
• Sistemas desenvolvidos– SGBD
• armazenamento e processamento• informação em linguagens muito restritas
– Armazenamento e RI - pesquisa de documentos• necessidade sentida nas bibliotecas nos anos 50• reforço: proliferação de documentos eletrônicos• mais reforço: WWW
Internet e RI - aula 1 4
Conceitos• Recuperação de Informação
– no sentido da recuperação de documentos ou de textos
• Atividades principais– indexação ( modo de representar documentos e perguntas)– consulta (modo de analisar itens com vista à resposta a perguntas)
• Atividades relacionadas- diversificação na forma de pesquisa - ex. browsing- apresentação visual de resultados
• Entidades primitivas– documentos, termos de indexação
Internet e RI - aula 1 5
Nomes
• Índice: nome genérico para catálogos, bibliografias, índices de artigos, etc…
• Registro de documento• cabeçalho: nome do autor, cabeçalho do assunto• descrição: autor, título, edição, editor, paginação• localização
Internet e RI - aula 1 6
Indexar
• Indexar significa incluir um documento num repositório de informações
• Inclui identificar, determinar assuntos e selecionar termos para representar os índices
• Utiliza uma linguagem de indexação
Internet e RI - aula 1 7
Métodos de Indexação
• Por palavra• utiliza as palavras encontradas no título ou no
documento• KWIC : Keyword in Context
• Por assunto• supõe a análise do conteúdo temático do
documento, a decisão sobre os conceitos presentes e a tradução em uma linguagem apropriada (artificial ou controlada)
Internet e RI - aula 1 8
Revocação e Precisão
• As medidas mais comuns para avaliar a qualidade de um sistema de busca e recuperação de informação são conhecidas com revocação e precisão
• Revocação mede a proporção de documentos relevantes recuperados
• Precisão mede quantos documentos relevantes foram recuperados
Internet e RI - aula 1 9
Revocação e Precisão
0
0,2
0,4
0,6
0,8
1
0 0,5 1
• Normalmente sistemas de BRI possuem uma curva de Recall x Precision
Internet e RI - aula 1 10
Revocação e Precisão
Itens não relevantes
Itens relevantes
Itens recuperados
Itens nãorecuperados
AC
B
D
Internet e RI - aula 1 11
Revocação e Precisão
• Revocação• Relevantes Recuperados/Total de itens relevantes• A/(A+D)
• Precisão• Relevantes Recuperados/Total Recuperados• A/(A+B)
Internet e RI - aula 1 12
Fatores que governam
• Exaustividade• Extensão com que determinado documento é
indexado (número de conceitos utilizados)• grau de profundidade da indexação
• Especificidade• Exatidão dos descritores• depende da linguagem de indexação
Internet e RI - aula 1 13
Relação
• Maior exaustividade aumenta a revocação e diminui a precisão
• Maior especifidade diminui a revocação e aumenta a precisão
Internet e RI - aula 1 14
Linguagens de Indexação
• Vocabulário• coleção de termos de indexação
• descritores: palavras• cabeçalhos de assuntos• símbolos de classificação
• Sintaxe• artifícios empregados para revelar as relações
entre os conceitos e as regras para estabelecer os descritores e a ordem de citação
Internet e RI - aula 1 15
Elementos Promotores
• Revocação: aumentam o número de documentos de uma classe, alargando a definição do descritor e reduzindo o tamanho do vocabulário
• Precisão: reduzem o tamanho das classes, restringem a definição dos descritores e aumentam o tamanho do vocabulário
Internet e RI - aula 1 16
Provendo Revocação
• Controle de sinônimos• Controle de quase-sinônimos• Agrupamento de várias formas de uma palavra
(radical comum, singular e plural)• Agrupamento de conceitos semelhantes ou
relacionados• Elos hierárquicos
Internet e RI - aula 1 17
Promovendo Precisão
• Coordenação• Distinção de homônimos• Ponderação• Elos (links)• Papéis ou funções (roles)
Internet e RI - aula 1 18
Extensão da Recuperação da Informação
Novos meios em documentos– técnicas usadas em texto são extensíveis– documentos são cada vez mais heterogéneos• Documentos em linguagens diversas– noção de documento esbate-se– pesquisas tendem a requerer técnicas
híbridas• Para tarefa específica– necessário identificar os seus requisitos de
indexação e pesquisa
Internet e RI - aula 1 19
Processo de recuperação
indexação
Texto operações
índice
Interfaceusuário
Operaçõesde queryranking
Busca(searching)
Modelotexto
texto
usuário
Pergunta (query)