28
21/08/2018 1 Período 4: Indexação automática processamento da linguagem natural Indexação

MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

  • Upload
    vuxuyen

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

1

Período 4:

Indexação automática

processamento da linguagem natural

Indexação

Page 2: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

2

Indexação

� A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos com o objetivo de sintetizar o seu conteúdo, ressaltando o que lhe é essencial.

� Os termos de indexação servem também como pontos de acesso mediante os quais o documento é localizado e recuperado em um sistema de informação.

� Lancaster (2004, p.18) distingue dois tipos de indexação:◦ indexação por extração

� A seleção dos termos fica restrita ao contexto do próprio documento.

� O indexador, utilizando critérios institucionais e pessoais, seleciona no texto palavras que serão utilizados para representar o documento.

◦ indexação por atribuição.� Utiliza-se de um elemento externo ao documento, um conjunto de termos previamente

definidos e normalizados (léxico) cuja complexidade pode variar deste uma lista de cabeçalhos de assunto até um tesauro ou uma ontologia.

� Após a leitura do texto, o indexador escolhe os termos mais adequados para representar o conteúdo informacional do documento.

Indexaçãoautomática

Page 3: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

3

Indexação Automática

� Embora a prática da indexação possa ser regulada por políticas e princípios institucionais, o processo de indexação manual é dependente de critérios subjetivos e pessoais relacionados à formação e experiência do indexador.

� Assim, o tempo despendido e a qualidade da indexação ficam fortemente atrelados a fatores não controláveis, o que pode afetar o custo desse processo.

� As dificuldades inerentes à indexação manual e a grande quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade.

� As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950.

� A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje.

Indexação Automática

� Vantagens:

◦ baixo custo da indexação automática;

◦ facilidade de aplicação a grandes conjuntos de documentos

◦ homogeneidade desse processo quando realizados por algoritmos computacionais.

� O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes.

� Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo

(ANDERSON; PEREZ-CARBALLO, 2001):

Page 4: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

4

Indexação Automática: tipos

� De forma semelhante à sua classificação da indexação manual, Lancaster (2004, p.285) identifica dois tipos de indexação automática:

◦ indexação por extração automática

� realizada geralmente por meio de cálculos matemáticos de frequência das palavras encontradas no texto de um documento.

◦ indexação por atribuição automática

� é utilizado um elemento externo aos textos com o objetivo de normalizar os termos de indexação atribuídos aos documentos.

Indexação por extraçãoautomática

Page 5: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

5

Indexação por extração automática

� A maioria dos métodos de indexação automática busca selecionar termos dos próprios textos dos documentos;

� Tais métodos pressupõem que os significantes, as palavras, são os únicos elementos passíveis de serem operados computacionalmente em um texto.;

� Assim, os termos de indexação são resultantes de cálculos estatísticos e sucessivas operações algorítmicas aplicadas às palavras de um ou de um conjunto de textos.

Indexação por extração automática

� Na literatura, é recorrente a referência a George Kingsley Zipf (1902-1950) como pioneiro nos estudos estatísticos do texto.

� Linguista da Universidade de Harvard, Zipf apresentou a sua lei empírica na obra Human Behaviour and thePrinciple of Least Effort (ZIPF, 1949).

� Analisando a obra Ulisses, de James Joyce, Zipfobservou que em um texto suficientemente longo, se listarmos as palavras em ordem decrescente de frequência, a posição de cada palavra multiplicada por sua frequência resulta um valor praticamente constante

Page 6: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

6

Indexação por extração automática

Posição Palavra Frequência Posição x Frequência

1 A 10 10

2 B 5 10

3 C 3 9

4 D 3 12

5 E 2 10

Lei de Zipf

George Kingsley Zipf1902-1950

Indexação por extração automática

� Utilizando a lei de Zipf como ponto de partida, Hans Peter Luhnsugeriu que certas palavras poderiam ser automaticamente extraídas de um texto a fim de representar o próprio texto.

� Porém, nem todas as palavras seriam bons termos de indexação e nem todos os termos de indexação contribuem igualitariamente na representação do conteúdo informacional do texto.

� Luhn propôs técnicas para identificar e atribuir pesos aos termos de indexação.

◦ Palavras mais significativas são as palavras de frequência média.

◦ As palavras com frequência muito baixa seriam pouco significativas na representação do documento;

◦ As palavras muito frequentes teriam baixo poder para representar o conteúdo informacional do documento.

Page 7: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

7

Indexação por extração automática

f = frequência

r = posição relativa da palavra (ranking)

Hans Peter Luhn(1896-1964)

Indexação por extração automática

� Processo◦ Identificação das palavras (tokens) do texto;

◦ Remoção de palavras muito frequentes que são insuficientemente específicas para representar o conteúdo do documento (stop words);

◦ Redução das palavras a uma forma normalizada ou ao seu radical (stemming);

◦ Formação de termos compostos como termos de indexação;

◦ Cálculo dos pesos de cada termo;

Page 8: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

8

TokenizerUma viagem pelas trilhas da Mata Atlântica, um dos biomas mais conhecidos do Brasil e que possui uma das maiores biodiversidades do mundo. Essa é a proposta do estande do Projeto Biomas, desenvolvido pela Confederação da Agricultura e Pecuária do Brasil (CNA) e a Empresa Brasileira de Pesquisa Agropecuária (Embrapa), em parceria com o Instituto Capixaba de Pesquisa, Assistência Técnica e Extensão Rural (Incaper), durante a 10ª Semana Estadual de Ciência e Tecnologia, que acontece entre 22 a 25 de outubro, em Vitória - Espírito Santo.No estande do Projeto Biomas, os visitantes conhecerão mudas de plantas nativas da Mata Atlântica, como a aroeira, e produtos da floresta, como a juçara, a qual poderá ser degustada. Para as crianças, haverá telas interativas com jogos didáticos sobre a Mata Atlântica. Para os adultos, serão disponibilizadas mudas que estão sendo cultivadas na área experimental do projeto. No espaço, também haverá um pequeno laboratório, com caixas de insetos com espécies da Mata Atlântica e extração de nutrientes de amostras de solo retiradas do local onde é desenvolvido o projeto.“O Projeto Biomas tem o objetivo de avaliar e viabilizar soluções com árvores para a proteção, recuperação e o uso sustentável de propriedades rurais nos seis biomas brasileiros. O Espírito Santo, por meio do Incaper, coordena as ações do bioma Mata Atlântica, contribuindo com pesquisas científicas, respostas e modelos possíveis de serem replicados, que promovam a inserção da árvore na propriedade rural”, explicou a coordenadora do bioma Mata Atlântica, Fabiana Gomes Ruas. Os projetos de pesquisa desse bioma estão distribuídos na área experimental localizada na Fazenda São Marcos, e na Área de Referência da Reserva Natural Vale, em Sooretama.

UmaviagempelastrilhasdaMataAtlânticaumdosbiomasmaisconhecidosdoBrasilequepossuiumadasmaioresbiodiversidadesdomundoEssaé

apropostadoestandedoProjetoBiomasdesenvolvidopelaConfederaçãodaAgriculturae PecuáriadoBrasil...

Tokenizer

� Objetivo

◦ Identificar e isolar os tokens de um texto;

� Algumas dificuldades

◦ Abreviações, Siglas e Acrônimos� Célula Tronco - CT

� Ciência da Informação CI

� UNESP Universidade Estadual Paulista

◦ Utilização de hifens;� MS-DOS; couve-flor; célula-tronco;

◦ Números e Datas;

� Transformações

◦ Letras maiúsculas e minúsculas (?) Nomes próprios

◦ Abreviações, siglas e acrônimos transformar em seu formato completo utilizando um dicionário;

Page 9: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

9

Stop Word

adadasdodoseéessamaispelapelasqueumuma...

Uma

viagem

pelas

trilhas

da

Mata

Atlântica

um

dos

biomas

mais

conhecidos

do

Brasil

e

que

possui

uma

das

maiores

biodiversidades

do

mundo

Essa

é

a

proposta

do

estande

do

Projeto

Biomas

desenvolvido

pela

Confederação

da

Agricultura

E

Pecuária

do

Brasil

...

Lista de Stopwords(Stoplist)

Uma

viagem

pelas

trilhas

da

Mata

Atlântica

um

dos

biomas

mais

conhecidos

do

Brasil

e

que

possui

uma

das

maiores

biodiversidades

do

mundo

Essa

é

a

proposta

do

estande

do

Projeto

Biomas

desenvolvido

pela

Confederação

da

Agricultura

e

Pecuária

do

Brasil

...

Stop Word

� As palavras de um texto não possuem o mesmo valor semântico.

� Stop List (dicionário negativo) é uma lista de palavras (Stop Words) que não podem ser escolhidas como termos de indexação;

� A eliminação das stopwords traz a vantagem de melhorar do desempenho no processamento das demais palavras do texto e uma redução do espaço de armazenamento;

Page 10: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

10

Stemming

LivroLivros

AndarAndeiAndamosAndarei

NadarNadandoNadareiNadouNadei

Livro

Andar ou And

Nadar ou Nad

Stemming

� É o processo de redução das variantes morfológicas das palavras para seus radicais.

� Eliminação de afixos (prefixos e sufixos) das palavras;

� Assume-se que palavras com o mesmo radical são semanticamente relacionadas e possuem o mesmo significado;

� Na recuperação de informação tem por objetivo melhorar os resultados de busca, padronizando tanto os termos de indexação como os termos de busca;

� Stemming também reduz o número de termos de indexação mapeando as variações morfológicas dos termos para uma forma padronizada;

Page 11: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

11

Termos Compostos

� Termos compostos carregam maior semântica do que as palavras que os compõem.

� Principalmente os sintagmas nominais são bons indicadores do conteúdo informacional do texto;◦ Banco de dados

◦ Base de conhecimento

◦ Ciência da Informação

� A utilização de termos compostos na indexação melhora a precisão da recuperação de informação, pois são menos ambíguos.

Nomes Próprios

� Reconhecimento de Nomes Próprios◦ Nome de pessoas ou empresas, marcas de produtos,

locais, moedas

◦ É importante para muitas aplicação de recuperação

◦ Métodos� Dicionário de nomes

� Letras maiúsculas

� Algumas palavras indicativas como Ltda, SA, Sr., Sra.

Page 12: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

12

Complexidade da língua

Abrindo um parêntesis

Indexação por extração automática

Anáfora

◦ É um elemento linguístico que estabelece uma referência de

dependencia com um termo antecedente;

� João está doente. Eu o visitei na semana passada.

� Ana comprou um cão. O animal já conhece todos os cantos da casa.

� Os experimentos foram realizados em um ambiente controlado. Eles

comprovaram a eficácia do método.

Catáfora

◦ Termo ou expressão que faz referência a um termo subsequente,

estabelecendo com ele uma dependência.

� A irmã olhou-o e disse: – João, estás com um ar cansado;

� Os materiais utilizados nos experimentos foram estes: Azimute, Falácia

Hidropônica e Manjericão.

Page 13: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

13

Indexação por extração automática

Elipse

◦ É a supressão de uma palavra facilmente subentendida.

◦ Consiste da omissão de um termo facilmente identificável pelo

contexto ou por elementos gramaticais presentes na frase com a

intenção de tornar o texto mais conciso e elegante.

� “Na estante, livros e mais livros”. (omissão do verbo haver)

� “Tão bom se ela estivesse viva me ver assim.”(Tão bom seria se ela estivesse viva para me ver assim.)

Zeugma

◦ Caso especial de Elipse. É a omissão de um termo que já fora expresso

anteriormente.

� “Ele prefere um passeio pela praia; eu, cinema”.

(não repetição do verbo preferir)

� “Vamos jogar só nós dois? Você chuta para mim e eu para você”

(não repetição do verbo chutar)

Fechando parêntesis

Page 14: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

14

Atribuição de pesos

� O processo de indexação gera um conjunto de termos de indexação (palavras, radicais ou termo composto) para representar um texto.

� Porém, tais termos não possuem a mesma importância na tarefa de representar o conteúdo informacional de um documento;

� Um indicador de importância (peso) pode ser associado a cada termo;

TF-IDF

� term frequency - inverse document frequency

� Medida frequentemente utilizada na Recuperação de Informação e Text Mining

� Avaliar a importância de um determinado termo na representação de um documento de um corpus;

� A importância de um termo na representação de um documento aumenta proporcionalmente ao número de vezes em que ele aparece nesse documento, considerando também a quantidade de vezes em que esse termo aparece em outros documentos do corpus;

� Variações desse medida são frequentemente utilizadas por mecanismos de busca para dar pesos e realizar o ranqueamento dos documentos resultantes de uma busca do usuário

Page 15: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

15

TF-IDF

� tf –Term Frequency

◦ Frequência de um termo em um documento

� tft = número de vezes que o termo t aparece no documento

� ��t ��ú�� �� �� �� ��� ��� � ������ � �������

���� �� ���� � �������

� ��t ��ú�� �� �� �� ��� ��� � ������ � �������

������� � ��� ���� ���� � �������

TF-IDF

� idf – inverse document frequency

� Frequência de um termo nos documentos do corpus◦ Em quanto mais documentos um termo ocorrer

nos documentos do corpus, menor a importância desse termo;

◦ O peso de um termo é inversamente relacionado ao número de documentos em que ele ocorre.� idft = log (N / nt)

� N = número de documentos no corpus

� nt = número de documentos que possui o termo t

Page 16: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

16

TF-IDF

◦ A medida idf é dependente do corpus. Conforme o número de documentos for variando com o tempo, os pesos dos documentos precisam ser recalculados.;

◦ Essa característica desencoraja a sua utilização. Porém, a ideia é utilizada em diversas outras medidas desenvolvidas;

◦ Essa medida ficou conhecida pela multiplicação de tf com idf:

tf x idf◦ O peso de um termo i em um documento d pode ser expressa como:

wi,d = tfi,d x idfi◦ Os melhores termos de indexação (maios pesos) são aqueles que

aparecem com grande frequência em um determinado documento, mas aparece poucas vezes em outros documentos;

Indexação por extração automática

A vida imita a arte

e a natureza

A vida representa a

vida

A natureza imita a

natureza

d1 d2 d3

vida imita arte representa natureza

d1 1/4 = 0,25 1/4 = 0,25 1/4 = 0,25 1/4 = 0,25

d2 2/3 = 0,66 1/3 = 0,33

d3 1/3 = 0,33 2/3 = 0,66

Term frequency ( tf )

��t ��ú���� �� �!�" #$� � ����� � %&%��'� �� ��'$�����

���%( �� �����" �� ��'$�����

Page 17: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

17

Indexação por extração automática

Term frequency ( tf )

vida imita arte representa natureza

idf 0,176 0,176 0.477 0.477 0,176

Inverse document frequency ( idf )

doc vida imita arte representa natureza

d1 0,25 0,25 0,25 0,25

d2 0,66 0,33

d3 0,33 0,66

idf = log ( N / df )N = 3

Indexação por extração automática

Term frequency ( tf )

vida imita arte representa natureza

idf 0,176 0.176 0.477 0.477 0,176

Inverse document frequency ( idf )

tf x idf

doc vida imita arte representa natureza

d1 0,044 0,044 0,119 0,044

d2 0,116 0,154

d3 0,058 0,116

vida imita arte representa natureza

d1 0,25 0,25 0,25 0,25

d2 0,66 0,33

d3 0,33 0,66

Page 18: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

18

Indexação por extração automática

A vida imita a arte

e a natureza

A vida representa a

vida

A natureza imita a

natureza

d1 d2 d3

vida 0.044imita 0.044arte 0.119natureza 0.044

vida 0.116representa 0.154

imita 0.058natureza 0.116

Indexação por atribuiçãoautomática

Page 19: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

19

Indexação por atribuição automática

� A extração de termos de um texto é uma tarefa realizada de forma relativamente

satisfatória por computadores, e apresenta como vantagem a padronização e a

coerência (homogeneidade), característicos dos processos algorítmicos.

� Porém, segundo Lancaster (2004, p.289), a maior parte da indexação realizada por

seres humanos é a indexação por atribuição, utilizando um vocabulário controlado

como ferramenta normalizadora.

� Um vocabulário controlado é essencialmente uma lista de termos autorizados.

Porém, a estrutura terminológica de um vocabulário controlado pode ir muito além

de uma mera lista, podendo incluir uma “forma de estrutura semântica” destinada

especialmente a:

◦ controlar sinônimos optando-se por uma única forma padronizada, com remissivas de todas

as outras formas;

◦ diferenciar homógrafos;

◦ reunir ou ligar termos cujos significados apresentem uma relação estreita;

Indexação por atribuição automática

� Uma maneira obvia de automatizar a indexação por atribuição é criar para cada termo do vocabulário controlado um “perfil” de palavras ou expressões que costumam ocorrer nos documentos aos quais um indexador humano atribuiria esse termo.

� Assim, a indexação se dá em duas fazes: em uma primeira etapa extraem-se palavras ou expressões do texto por meio de técnicas estatísticas. Em uma segunda fase, partindo desse conjunto de palavras/expressões, seleciona-se no vocabulário controlado o termo cujo perfil possui certo nível de coincidente.

Page 20: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

20

Indexação por atribuição automática

xyz

Perfil Termo

a, b, x T1

y, z T2

d, e, f T3

T1, T2

Indexação por atribuição automática

� Os vocabulários controlados podem ser disponibilizados para os usuários de um sistema de informação, permitindo que tenham acesso à terminologia empregada na indexação dos documentos.

� Isto possibilita compatibilizar a linguagem dos usuários à linguagem utilizada na representação documentos, resultando em uma recuperação mais eficiente.

Page 21: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

21

Críticas à Indexação Automática

Críticas à indexação automática

� Algumas técnicas comuns na recuperação de informação, como a utilização de listas de stopwords e a normalização das variações linguísticas dos termos (stemming), podem dificultar o julgamento de relevância de um documento ou descontextualizar um determinado termo (Riloff, 1995).

◦ A presença do termo “morto” em um documento não garante que o documento descreva um assassinato. Porém, a frase “morto a tiros” possui uma conotação de crime.

◦ A presença do termo “assassinato” (singular) em um documento é um indicador de que o documento descreve um assassinato específico. Já a presença do termo “assassinatos” (plural) pressupõe que o texto descreva diferentes assassinatos ou fale sobre assassinatos de uma forma geral.

◦ Preposições, formas verbais, afirmações positivas ou negativas, podem ser significantes para determinar o sentido de uma frase.

Page 22: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

22

Processamento da linguagem natural

Processamento da linguagem natural

� O Processamento da Linguagem Natural (PLN) surge como uma possível abordagem dos problemas relacionados à recuperação de informação pela simples observação de que os documentos e as expressões de busca formuladas pelos usuários são objetos linguísticos.

� O PLN é um conjunto de técnicas computacionais para a análise de textos em um ou mais níveis linguísticos, com o propósito de simular o processamento humano da língua.

� O desenvolvimento de sistemas de recuperação de informação que podem “entender” os documentos exige técnicas computacionais de grande complexidade. Por esta razão, na maioria das vezes as técnicas de PLN são utilizadas apenas na melhoria do desempenho de algumas tarefas da recuperação de informação tradicional, como a indexação automática (FALOUTSOS; OARD, 1995).

Page 23: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

23

Processamento da linguagem natural

� Normalização de variações linguísticas

◦ normalização morfológica� stemming, reduz uma palavra ao seu radical (stem) por meio da eliminação de afixos

oriundos de derivação ou de flexão;

� redução à forma canônica, processo também conhecido como lematização, que geralmente reduz os verbos ao infinitivo e os adjetivos e substantivos à forma masculina singular.

◦ normalização sintática� ocorre quando há a transformação de frases semanticamente equivalentes mas

sintaticamente diferentes, em uma forma única e representativa das mesmas� ‘eficiente processo rápido’ e ‘processo rápido e eficiente’, que poderiam ter uma

representação comum;

◦ normalização léxico-semântica� ocorre quando são utilizados relacionamentos semânticos (como a sinonímia)

entre os itens lexicais para criar um agrupamento de similaridades semânticas, identificado por um item lexical que representa um conceito único.

Processamento da linguagem natural

� Identificação de termos compostos

◦ Termos compostos são identificados para que possam também ser usados como

termos de indexação;

◦ Os termos compostos geralmente apresentam menor ambiguidade e maior

especificidade do que os itens lexicais simples;

◦ Nos sistemas de recuperação de informação os termos compostos são

geralmente identificados por meio de cálculos de co-ocorrência de pares de

palavras.

◦ A utilização da análise sintática permite identificar termos compostos mesmo

quando as palavras que compõem o termo não são adjacentes ou não co-

ocorrem com grande frequência.

◦ Segundo Croft, Turtle e Lewis (1991), a extração de termos compostos por

meios puramente sintáticos frequentemente não apresenta bons resultados. Uma

combinação de técnicas de PLN com métodos estatísticos é mais eficaz (LEWIS,

1992).

Page 24: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

24

Processamento da linguagem natural

� Lewis e Jones (1996) notam que o grau de sofisticação do PLN poderia ser consideravelmente maior para as expressões de busca dos usuários do que para os documentos;◦ A importância em entender quais são as necessidades do

usuário, visto que geralmente as suas expressões de busca são muito mais curtas (com poucos termos).

◦ Eventuais erros no processamento dos documentos podem ser corrigidos (ou pelo menos compensados) levando em conta outros termos extraídos do mesmo documento, o que não é possível para uma expressão de busca.

Processamento da linguagem natural

� Resolução de ambiguidade

◦ A ambiguidade é a propriedade que faz com que um objeto linguístico, seja uma palavra, um termo composto ou todo um texto, possa ser interpretado de modos diferentes.

◦ Existem dois tipos de ambiguidade: � sintática ocorre quando um item lexical pode pertencer a mais de uma

classe gramatical,� “casa” pode ser substantivo ou verbo;

� “comprei um cofre com dinheiro”;

� “tenho amigos e parentes muito queridos”

� “lareira da casa de pedras”

� semântica

� verbo “passar”

� “passar a ferro”, “passar no exame”, “passar em casa”.

Page 25: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

25

Processamento da linguagem natural

� Através do PLN a Ciência da Informação se aproxima do arsenal metodológico da Inteligência Artificial e viabiliza soluções para alguns de seus problemas;

� O PLN aplicado às expressões de busca de um sistema de recuperação de informação assume uma importância considerável na medida em que tenta interpretar a necessidade de informação dos usuários. Porém, essa tarefa é dificultada pelo tamanho (número de palavras) reduzido das expressões de busca que geralmente são utilizadas pelos usuários, não permitindo uma interpretação adequada das expressões.

Processamento da linguagem natural

� A utilização mais importante do PLN está na interpretação do conteúdo dos documentos a fim de gerar uma representação adequada destes. No entanto, o PLN não elimina a necessidade da utilização de métodos estatísticos e deve ser visto como uma ferramenta complementar aos mesmos.

� Os procedimentos envolvidos no PLN estão geralmente restritos a uma determinada língua como o inglês, o alemão ou, em menor proporção, o português. Essa limitação, aliada ao custo relativamente alto do PLN, é um fator que diminui sua atratividade, considerando que os métodos estatísticos envolvem menor custo e geralmente são adaptáveis a diversas línguas.

Page 26: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

26

Processamento de Linguagem Natural e Recuperação de Informação

PLN e RI

� Cross-language information retrieval (CLIR)◦ O idioma de um recurso informacional e o idioma no

qual a informação está sendo buscada pelo usuário podem ser diferentes.

◦ CLIR permite que usuários pesquisem e utilizem a informação que está em um idioma diferente do idioma do recurso informacional;

◦ Por exemplo: Um usuário submete uma consulta em Chinês e o sistema recupera documentos em Inglês

Page 27: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

27

PLN e RI

� Question answering systems

◦ How Many calories are there in a Big Mac?

◦ Where is the Taj Mahal?

◦ Which film released in 2005 had Brad Pitt act in?

◦ Sistema START

� Pode responder milhões de questões (em Inglês) sobre lugares, filmes, pessoas, definições de dicionário, etc.

� http://start.csail.mit.edu/

� Exemplo:

� What is the largest city in Florida?

� Convert 100 dollars into Euros

PLN e RI

� Text mining (mineração de texto)

◦ Estudo do desenvolvimento de ferramentas capazes de obter/descobrir informações por meio de extração automática a partir de uma grande coleção de documentos textuais

� Information extraction (extração de informação)◦ Subárea das pesquisas em Text Mining que tem por objetivo

extrair “pedaços” úteis de informações de textos em linguagem natural

Page 28: MRIp04-Indexacao - marilia.unesp.br · Nome de pessoas ou empresas, marcas de produtos, locais, moedas É importante para muitas aplicação de recuperação Métodos Dicionário

21/08/2018

28

Referências

Referências

ANDERSON, J.D.; PEREZ-CARBALLO, J. The nature of indexing: how humans and machines analyze messages and texts for retrieval - Part I: Research, and the nature of human indexing. Information

Processing and Management, v.37, n.2, 2001.

CROFT, W.B.; TURTLE, H.R.; LEWIS, D.D. The use of phrases and structured queries in information retrieval. Proceedings of the 14th annual international ACM SIGIR conference on research and

development in information retrieval, 1991. p.32-45.

FALOUTSOS, C.; OARD, D. A survey of information retrieval and filtering methods. TechinicalReport CS-TR-3514. Department of Computer Science, University of Maryland, 1995.

LANCASTER, F.W. Indexação e Resumos: teoria e prática. 2ªed. Brasilia, DF: Briquet de Lemos, 2004.

LEWIS, D.D. An evaluation of phrasal and clustered representation on a text categorization task. Proceedings of the 15th annual international ACM SIGIR conference on research and

development in information retrieval, 1992. p.37-50.

LEWIS, D.D.; JONES, K.S. Natural Language Processing for Information Retrieval. Communications of

the ACM, v. 39, n. 1,1996. p.92-101.

RILOFF, E. (1995) Little words can make a big difference for text classification. Proceedings of the 18th

annual international ACM SIGIR conference on research and development in information

retrieval, p.130-136.

ZIPF, G.K. Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley, 1949.