Aula5 Sistema Pre e Pos Coordenado

Embed Size (px)

Citation preview

Tipos de Sistema de Indexao

Sistemas pr e ps coordenados Os assuntos dos documentos so complexos e muitas vezes no possvel descrev-los por palavras simples. Para a representao dos assuntos compostos utiliza-se a coordenao, ou seja, a combinao de termos.

Pr-coordenao: Combinao feita na etapa de entrada, na indexao. Dessa forma, os assuntos so tratados como uma unidade, isto , so representados por um conjunto de termos j combinados. Exemplo: lbum de fotografia

Ps-coordenao Combinao feita no momento da sada, da recuperao da informao. Utilizao de operadores booleanos: E, OU, NO Exemplo: lbum Termos isolados, faz-se a Fotografiacombinao no momento da busca

Linguagens pr-coordenadas Utilizadas em sistemas de indexao prcoordenados, nos quais os termos so combinados no momento da indexao. Os assuntos complexos j entram no vocabulrio sob forma combinada. Devem contemplar todas as possibilidades de combinao entre os termos para formar assuntos complexos. Palavras, termos ou frases escolhidas para expressar um conceito ou uma combinao de conceitos de indexao

ExemplosAvaliao de sistema de informao Automao de biblioteca Administrao de biblioteca Avaliao de coleo

Linguagens pr-coordenadas Usadas para catlogos e ndices impressos Podem ser de dois tipos: Classificatrias (Classificaes) Alfabticas (Cabealhos de assunto)

Classificatrias A unidade documentria o assunto. So enumerativas e arborescentes. Princpio de base: Subordinao lgica no interior de um sistema de pensamento. Vai do genrico para o especfico.

Classificaes Sistema predeterminado de conceitos logicamente estruturados, recebendo cada um deles um cdigo identificador. Este cdigo atribudo a conceitos ou a documentos em funo da correspondncia de assuntos. As classificaes so, em geral, enciclopdicas.

Aplicao na anlise Funo maior permitir a organizao do acervo por assunto. Mas, a rigidez destes sistemas limita sua utilizao para representao de assunto.

Aplicao na recuperao teis no incio de uma busca, para uma explorao ampla de uma determinada rea, levam o usurio a descobrir ramificaes e diferentes aspectos de uma determinada rea, descendo e subindo na estrutura hierrquica.

Aplicao na recuperao Para uma busca mais precisa, as dificuldades aparecem. A estrutura arborescente leva a seguir uma linha e somente uma, as relaes entre as subclasses so restritas. Hierarquia restrita se acomoda mal s necessidades de transversalidade e navegao entre as cincias.

Alfabticas Os assuntos so expressos pela combinao de termos, formando cabealhos de assunto Os cabealhos so ordenados ordenados alfabeticamente

Cabealhos de assunto Palavra ou grupo de palavras que expressam o contedo de um documento. (Cesarino & Pinto) No h estrutura nem classes Algumas relaes: Termo proibido para termo preferido (ver) Termos relacionados (ver tambm)

Exemplo Fabricao de tampos de mesa de vidro Mesa tampo vidro - fabricao Extrao de carvo em Santa Catarina Carvo extrao Santa Catarina

Soluo para assuntos compostos nas linguagens pr-coordenadas Permutao: Entrada para todo e qualquer arranjo possvel dos termos O nmero de permutaes que podem ser feitas N!

Soluo para assuntos compostos nas linguagens pr-coordenadas Permutao: Exemplo: 4 elementos 4! = 24 entradas Desvantagem: faz com que o nmero de entradas cresa muito. Teramos que selecionar as entradas e remissivas que iramos adotar dentre elas.

Soluo para assuntos compostos nas linguagens pr-coordenadas Processo em cadeia: Parte do ltimo termo da cadeia seguido dos termos que precedam o contrrio O nmero de combinaes para remissivas ser = (n-1)

Soluo para assuntos compostos nas linguagens pr-coordenadas Processo em cadeia: Exemplo: 4 elementos = (4-1)=3 CABEALHO: A B C D1DCBA Ver ABCD 2CBA Ver ABC 3BA Ver AB

Soluo para assuntos compostos nas linguagens pr-coordenadas Processo em cadeia: Desvantagem: s a primeira entrada especfica, as outras no nos encaminham para o cabealho completo que usamos. Existe a perda da especificidade

Soluo para assuntos compostos nas linguagens pr-coordenadas Rotao: Entrada por cada elemento do cabealho posicionando-os num lugar e mantendo a ordem original como aparecem

Exemplo:

ABCD ABCD

ABCDABCD

Outros conceitos relacionados com os cabealhos de assunto Entrada direta: feita diretamente sob um termo ou termos que corresponda mais de perto ao assunto do documento Normalmente os cabealhos usam a entrada direta e a remissiva VER TAMBM utilizada em catlogos e dicionrios

Outros conceitos relacionados com os cabealhos de assunto Entrada indireta: feita sob um cabealho genrico que abrange o assunto do documento. Permite que se rena no catlogo todos os documentos sobre o assunto mais genrico. usada em catlogos sistemticos

Outros conceitos relacionados com os cabealhos de assunto Remissivas: VER: remete ao termo adotado como entrada (sinnimos, termos especficos para termos genricos)

VER TAMBM: remete a assuntos relacionados. Complementa a informao para o usurio

Outros conceitos relacionados com os cabealhos de assunto Remissivas: Exemplo:EDUCAO DE CRIANAS VER EDUCAO INFANTIL

Outros conceitos relacionados com os cabealhos de assunto Remissivas: Exemplo:PRECISO VER TAMBM COEFICIENTE DE PRECISO

Outros conceitos relacionados com os cabealhos de assunto Arranjo: tipos sistemtico: ordena os assuntos sistematicamente indicando as relaes entre eles. Agrupa assuntos de acordo com as caractersticas em comum. O agrupamento feito em:

Outros conceitos relacionados com os cabealhos de assunto categorias: aplicveis a vrios campos de assunto. So classes de alta generalidade Exemplo:

Cincias SociaisCincias Biolgicas

Outros conceitos relacionados com os cabealhos de assunto classes: renem elementos que possuem no mnimo uma caracterstica em comum Exemplo:

Cincias SociaisCincia da Informao

Outros conceitos relacionados com os cabealhos de assunto facetas: aspectos (caractersticas) sob um grupo de conceitos que tem algo em comum. Exemplo: Peridicos (quanto a periodicidade) mensal semestral

Algumas linguagens pr-coordenadas conhecidas KWIC (keyword in context) cada uma das palavras significativas do ttulo torna-se um ponto de entrada Exemplo: Crimes contra a INVIOLABILIDADE de correspondncia

Crimes contra a INVIOLABILIDADE de domiclio

Algumas linguagens pr-coordenadas conhecidas KWOC (keyword out context) variao do KWIC palavra chave no incio seguida do ttulo completo

Algumas linguagens pr-coordenadas conhecidas KWOC Exemplo: INVIOLABILIDADE. Crimes contra inviolabilidade de correspondncia INVIOLABILIDADE. Crimes contra a inviolabilidade de domiclio

Algumas linguagens pr-coordenadas conhecidas KWAC (keyword and context) variao do KWOC a palavra chave do ttulo substituida por um smbolo (asterisco, barra, etc)

Algumas linguagens pr-coordenadas conhecidas KWAC Exemplo: INVIOLABILIDADE. Crimes contra * de correspondncia INVIOLABILIDADE. Crimes contra a * de domiclio

Desvantagens KWIC, KWOC e KWAC

Dispersa informaes usando terminologia diferente sobre o mesmo assunto composto Baixa revocao falta controle de sinnimos, no h relacionamento entre conceitos

Especificidade e exaustividade vo depender de como o autor definiu o ttulo. Soluo: inserir termos adicionais no ttulo

Vantagens KWIC, KWOC e KWAC

No existe esforo intelectual Rapidez na gerao

Alta relevncia (encontra palavra especfica)

Aplicao dos sistemas prcoordenados para indexao Aparentemente apoiadas num sistema simples, trazem problemas indexao, devido, principalmente, pr-coordenao e ausncia de remissivas que levem a todas as alternativas de relacionamento entre conceitos.

Aplicao dos sistemas prcoordenados para a recuperao A princpio, o nmero e a preciso dos termos de uma lista podem levar a crer numa busca facilitada. A justaposio de termos leva escolha do primeiro termo encontrado, as inverses no so prprias linguagem corrente. No so flexveis para permitir uma busca por qualquer termo que compe o cabealho.

Sistemas pr-coordenados Vantagens: Evitam a falsa recuperao, gerando maior preciso. Determinam o ponto de acesso (ordem de citao ou pelas remissivas) Evita falsa recuperao

Sistemas pr-coordenados Desvantagens Necessitam de remissivas e entradas mltiplas para explicitar todos os conceitos significativos Difceis de atualizar, pouco dinamismo Menor flexibilidade na indexao Relaes estticas, no multidimensionais Menor revocao, pois no possui uma rede de remissivas entre gnero e espcie

Linguagens ps-coordenadas Utilizadas em sistemas de indexao pscoordenados, nos quais os termos so combinados no momento da recuperao da informao. O contedo temtico, que o objeto de um documento e representado pelos termos de indexao que lhe so atribudos, reveste-se de um carter multidimensional

Linguagens ps-coordenadas O vocabulrio torna-se menos extenso neste tipo de linguagem, uma vez que no necessrio criar um termo para cada assunto complexo. Todo termo atribudo a um documento tem peso igual: nenhum mais importante que o outro

Exemplo Descritores: administrao, avaliao, automao, sistema de informao, bibliotecas, colees Os termos podem ser combinados entre si de qualquer forma no momento em que se faz a busca Diferentes assuntos: administrao de bibliotecas Automao de bibliotecas Avaliao de colees Administrao de sistema de informao; Avaliao de sistema de informao;

Linguagens ps-coordenadas Podem ser de dois tipos: Listas alfabticas de termos autorizados Tesauros

Lista alfabtica de termos autorizados - aplicao para a indexao Ponto de partida de qualquer linguagem de indexao ps-coordenada. Uma simples lista de descritores autorizados atualizada pode ajudar na indexao. prefervel comear assim do que esperar o tesauro perfeito que talvez nunca seja terminado.

Lista alfabtica de termos autorizados - aplicao para a recuperao Auxiliares de busca prximos do vocabulrio do especialista (usurio) e dos documentos, uma vez que sua elaborao deve levar em conta a linguagem utilizada na rea. Deve-se assegurar que haja um controle rigoroso de sinnimos por meio de remissivas.

Tesauro O tesauro , essencialmente , um sistema ps-coordenado, apesar de possibilitar maior ou menor nvel de pr-coordenao de descritores. Incluem diferentes tipos de relacionamento entre os termos e possibilitam diferentes tipos de organizao (sada alfabtica; sada estruturada por campos semnticos e ndice permutado, por exemplo).

Tesauro Quanto a funo: so instrumentos de controle terminolgico utilizados em sistemas de informao para traduzir a linguagem dos documentos, dos indexadores e dos pesquisadores numa linguagem controlada, usada na indexao e recuperao de informaes

Tesauro Quanto a estrutura: vocabulrio controlado e dinmico de termos semanticamente relacionados que cobrem uma ou vrias reas do conhecimento

Tesauro Finalidades: Assegurar o entendimento da terminologia utilizada pelo usurio, documentos e indexadores, procurando reduzir o rudo no processo de comunicao; Assegurar uma prtica consistente entre diferentes indexadores de um mesmo servio de indexao ou de uma rede cooperativa;

Tesauro Finalidades: Controlar a terminologia atravs do estabelecimento de relaes semnticas, procurando assim alcanar a melhor representao dos conceitos; Possibilitar a recuperao exaustiva da navegao da estrutura do tesauro, identificando-se termos mais precisos dentro da cadeia hierrquica

Tipos de Tesauros Tesauro Multidisciplinar Tesauro Especializado Macrotesauro Microtesauro

Exemplo da relao entre os termos no tesauroSAMBA TG Dana TE Samba de roda TR Carnaval

Aplicao dos Tesauros na indexao LD que melhor se adapta indexao. O indexador auxiliado pela localizao do conceito no campo semntico. No deve procurar apenas encontrar a palavra no tesauro, mas encontrar e formular o sentido dado ao assunto no texto por meio dos conceitos expressos no tesauro por descritores.

Aplicao dos Tesauros na indexao O tesauro, por meio das relaes conceituais, permite a identificao do conceito e no somente a identificao da palavra. Navegando na estrutura do tesauro, o indexador poder avaliar sua primeira escolha, poder encontrar um termo mais especfico. O tesauro ajuda a precisar ou a ampliar o campo de indexao.

Aplicao dos Tesauros na recuperao raro que os tesauros sejam colocados disposio dos usurios para a formulao da busca. Os usurios tm uma certa resistncia a utiliz-los devido a seu aspecto meio esotrico e desconhecem seu valor para a recuperao da informao.

Aplicao dos Tesauros na recuperao Orienta o usurio para que ele possa navegar na estrutura do tesauro, ampliando ou restringindo sua busca. Alguns softwares permitem a busca automtica pela estrutura ascendente ou descendente de um descritor, segundo a escolha do usurio.

Sistemas ps-coordenados Vantagens Dinmicas, novos termos podem ser includos com maior rapidez Relaes multidimensionais entre termos Todos os termos so pontos de acesso Maior flexibilidade na indexao

Sistemas ps-coordenados Desvantagens Geram falsa recuperao, necessitam de artifcios para evit-la (Elos, Indicadores de funo, de proximidade) Exigem maior esforo na busca