CIn/UFPE Extrao baseada em PLN (Processamento de Linguagem
Natural) Flvia Barros Jacques Robin Fred Freitas Centro de
Informtica - UFPE
Slide 2
CIn/UFPE Roteiro PLN Morfologia Sintaxe Semntica Anlise do
Discurso Extrao com PLN Exemplos AutoSlog LIEP Extratores com SBC x
Extratores com Aprendizado
Slide 3
CIn/UFPE Processamento de Linguagem Natural H 20 anos atrs...
os dados estavam ordenadamente armazenados em Bancos de Dados Hoje:
os dados esto armazenados em forma de texto e.g., Internet Como ter
acesso a esses dados? Processamento de Linguagem Natural (PLN) !!!
tem por objetivo interpretar e gerar frases isoladas ou textos em
alguma lngua natural congrega estudos da Lingstica e da Cincia da
Computao.
Slide 4
CIn/UFPE Arquitetura de Sistemas para PLN
Slide 5
CIn/UFPE Processamento Morfolgico Morfologia: estuda, atravs
dos morfemas a estrutura (ou forma) das palavras e suas leis de
formao e inflexo. Processamento morfolgico no PLN: Decompe as
palavras da frase de entrada em radical + morfema gramatical
morfologia inflexional: menina = menin + a --- cadeiras = cadeira +
s morfologia derivativa: fazia = faz + ia --- desfaz = des +
faz
Slide 6
CIn/UFPE Processamento Morfolgico Anlise morfolgica:
armazenam-se apenas os radicais, morfemas gramaticais e regras
morfolgicas de formao das palavras central na construo de
verificadores ortogrficos automticos mecanismos de busca na Web
(search engines) para fazer busca pelo radical da palavra traduo
automtica auxilia na derivao da classe gramatical da palavra
qualquer aplicao com lxico e gramtica de grande tamanho
Slide 7
CIn/UFPE Processamento Sinttico Sintaxe: estuda as regras que
governam a formao de frases de uma determinada lngua. Processamento
sinttico no PLN derivao da estrutura sinttica da frase -- Parsing
Parser: algoritmo que mapeia uma frase na sua estrutura sinttica
com base no lxico (dicionrio) e na gramtica do sistema.
Slide 8
CIn/UFPE Processamento Sinttico Frases so formadas por
constituintes palavras ou sintagmas que constituem a frase.
Sintagma: grupo de palavras classificado de acordo com a categoria
sinttica de seu elemento ncleo Exemplo: SN (s. nominal) - Joo; o
menino; a ma verde; o gato de rabo longo. SV (s. verbal) - chove;
chegou cedo; tem estado doente; falaram de Maria a Pedro. SP (s.
preposicional) - para voc; de Maria a Pedro. SAdv (s. adverbial) -
cedo; muito rapidamente.
Slide 9
CIn/UFPE Parsing Etapas de processamento: rotular cada palavra
com sua categoria sinttica (POS- tagging) mesa: substantivo; casa:
subst. ou verbo delimitar constituintes sintticos - sintagmas
(bracketing) rotular os constituintes com categorias sintticas SN
(sintagma nominal), SV (sintagma verbal), etc rotular os
constituintes com sua funo sinttica sujeito, objeto, predicado,...
identificar dependncias estruturais entre os constituintes orao
coordenada, subordinada,...
Slide 10
CIn/UFPE O Lxico Dicionrio com os termos utilizados pelo
sistema. Existem variados formalismos para representao dos lxicos.
A representao do lxico deve estar de acordo com a da gramtica do
sistema. Exemplos de entradas de um lxico em PATR-II (Shieber
1984): mesa = substantivo = feminio = singular = yes comprou =
verbo = pretrito-perfeito = singular = 3 = yes = SN
Slide 11
CIn/UFPE A Gramtica Define, atravs de regras, quais so as
cadeias de palavras vlidas para o sistema. Sistemas de PLN tratam
um sub-conjunto de uma lngua natural. Existem diversos formalismos
para a representao de gramticas. Exemplos de regras de uma gramtica
em PATR-II: este formalismo oferece mecanismos para verificao de
concordncia gnero e nmero, por exemplo. SN Subst Adj = SN Det Subst
=
Slide 12
CIn/UFPE A Gramtica Essa verificao feita em termos de
categorias sintticas, e no de uma lista exaustiva de frases. lnguas
naturais possuem um nmero infinito de frases gramaticalmente
corretas. a BC mais portvel dos sistemas de PLN essencialmente
independente do domnio.
Slide 13
CIn/UFPE Resultado da Anlise Sinttica F -> SN, SV. SN ->
Det, Subst. SV -> Verbo, SN. Det -> o Subst ->menino,
chapu Verbo -> usa SN Det NSV VSN Det N O menino usa o
chapu.
Slide 14
CIn/UFPE Ambigidade no nvel Sinttico Frases onde as palavras
podem assumir categorias sintticas diferentes, a depender da
interpretao: I saw her duck Time flies like an arrow Ambigidade
estrutural: Eu vi o banco da praa Eu vi o rapaz no parque com o
binculo. (1) O rapaz estava com o binculo (2) Eu estava com o
binculo
Slide 15
CIn/UFPE Interpretao Semntica Estrutura sinttica apenas no
basta! frases com palavras e estruturas sintticas diferentes, porm
com mesmo significado: (1) Eu dei um livro a Maria. (2) Maria
recebeu um livro de mim. receber e dar conceito semntico de
transferncia Controle de inferncia Eu vi uma baleia grande eu vi
uma baleia eu vi algo grande Eu vi uma baleia pequena eu vi algo
pequeno???
Slide 16
CIn/UFPE Interpretao Semntica Semntica estuda o significado das
palavras e como elas se combinam para formar o significado das
frases. Objetivo: Mapear a estrutura lingstica da frase nos
conceitos do domnio que a frase pode expressar. problema:
ambigidade Ela estava em minha companhia (1) companhia = empresa (2
) companhia = pessoa ( i.e., ela estava comigo)
Slide 17
CIn/UFPE Restries de Seleo Restries de seleo so atribudas s
palavras no lxico: menino [+humano], [+masculino], [-adulto]
pensamento [+abstrato] cabo [+vivente], [+humano], [+adulto] cabo
[+concreto], [+inanimado] jovem = Substantivo modificado pelo
adjetivo [+vivente] morrer = Substantivo sujeito do verbo
[+vivente] Exemplo: o cabo jovem o cabo longo
Slide 18
CIn/UFPE Restries de Seleo Ontologias Restries de seleo definem
classes semnticas de palavras, que podem ser organizadas em
hierarquias de tipos (representadas por ontologias). [Sowa 99]
Slide 19
CIn/UFPE Gramticas de Casos Formalismo muito utilizado no
processamento semntico de frases. Papis temticos, ou casos, so
atribudos aos constituintes da frase. Papis temticos so
determinados pelo verbo, o constituinte central da frase. Exemplo
de entrada lexical para o verbo entregar: entregar, Verbo
argumentos: agente, tema, beneficirio Eu entreguei a carta a
Pedro.
Slide 20
CIn/UFPE O Modelo do Domnio Fornece o contexto enciclopdico do
sistema. Armazena conhecimento a respeito das entidades, relaes,
eventos, lugares e datas do domnio da aplicao. O conhecimento
representado em uma Ontologia do domnio, em um (ou mais de um)
formalismo de IA e.g., Lgica de Predicados, Redes Semnticas,
Frames, Scripts. Interpretao do contedo implcito das palavras.
Slide 21
CIn/UFPE Processamento Automtico do Discurso Problema: Antnio
quer fazer uma festa de formatura na sua casa. Ele a limpou e
arrumou ontem. Qual o referente do pronome a ? festa e casa
apresentam os mesmos traos morfolgicos (fem, sing) e sintticos
(subs). o que nos ajuda a optar por casa o nosso conhecimento do
mundo (ou senso comum).
Slide 22
CIn/UFPE Processamento Automtico do Discurso Como possvel
resolver automaticamente problemas desta natureza? Foram
desenvolvidos teorias lingsticas e algoritmos computacionais para
representar, interpretar e gerar discurso, a fim de construir
sistemas de PLN capazes de manter um dilogo com o usurio. Discurso:
qualquer produo lingstica composta por mais de uma frase.
Slide 23
CIn/UFPE Discurso tem Estrutura (a) Joo e Maria saram para
comprar um cortador de grama novo (b) porque o deles foi roubado.
(c) Maria viu os homens que o roubaram. (d) Ela os seguiu at o
final da rua, (e) mas eles fugiram num caminho. (f) Depois de
procurar no shopping center, (g) eles concluram que no tm dinheiro
para um novo. (h) A propsito, Joo perdeu o emprego, (i) por isso
ele est sem dinheiro. (j) Finalmente, eles decidiram comprar um
cortador usado.
Slide 24
CIn/UFPE Anlise do Discurso Estuda os princpios que governam a
produo de seqncias estruturadas de frases = discurso escrito ou
falado. O discurso formado por segmentos unidades lingsticas que
contm uma ou mais frases consecutivas que tratam do mesmo assunto
(o foco daquele trecho do discurso). Qual a importncia de se
identificar a estrutura do discurso? entre outras, a identificao
dos referentes de pronomes e diticos (e.g., hoje, aqui,
agora).
Slide 25
CIn/UFPE Anlise do Discurso Como determinar automaticamente a
fronteira entre segmentos? analisando a superfcie do texto em busca
de marcadores discursivos e.g., "A propsito", "Bem", "Como eu ia
dizendo", "Em resumo", etc. analisando o "contedo semntico" do, em
busca de identificar mudanas de foco.
Slide 26
CIn/UFPE O Modelo do Discurso Fornece o contexto discursivo.
construdo dinamicamente durante o processamento do discurso.
Armazena informaes sobre as frases previamente processadas. Central
na interpretao e gerao de pronomes e diticos. Geralmente, consiste
em uma pilha contendo as caratersticas sintticas e semnticas das
entidades j introduzidas no discurso. Essa pilha deve espelhar a
estrutura do discurso, indicando onde comea e termina cada
segmento.
Slide 27
CIn/UFPE Extrao baseada em PLN
Slide 28
CIn/UFPE Estrutura geral Anlise Lxica /Morfolgica Anlise
Sinttica /Semntica Construo de Regras de Extrao Preenchimento de
Templates Anlise de Discurso Tokenizao
Slide 29
CIn/UFPE Tokenizao Anlise Lxica /Morfolgica Anlise Sinttica
/Semntica Construo de Regras de Extrao Anlise de Discurso
Preenchimento de Templates Segmentao das Palavras Diviso em
segmentos (estruturas) Pre-processamento ignorar partes do
texto
Slide 30
CIn/UFPE Anlise Lxica Tokenizao Anlise Lxica /Morfolgica Anlise
Sinttica /Semntica Construo de Regras de Extrao Anlise de Discurso
Preenchimento de Templates Classificao Morfolgica (artigo, verbo,
substantivo). Reconhecimento de nomes prprios, empresas, datas,...
Etiquetagem automtica
Slide 31
CIn/UFPE Anlise Sinttica Tokenizao Anlise Lxica /Morfolgica
Anlise Sinttica /Semntica Construo de Regras de Extrao Anlise de
Discurso Preenchimento de Templates Construo arvore sinttica Grupos
Nominais Grupos Verbais Anlise sinttica parcial
Slide 32
CIn/UFPE Construo de Padres Tokenizao Anlise Lxica /Morfolgica
Anlise Sinttica /Semntica Construo de Regras de Extrao Anlise de
Discurso Preenchimento de Templates Dicionrio de padres de Extrao
Especfico ao Domnio Automtica X Manual eficincia, portabilidade,
treinamento, alteraes ad hoc
Slide 33
CIn/UFPE Anlise de Discurso Tokenizao Anlise Lxica /Morfolgica
Anlise Sinttica /Semntica Construo de Regras de Extrao Anlise de
Discurso Preenchimento de Templates Relaes entre sentenas do texto.
Correferncia Ligaes entre palavras.
Slide 34
CIn/UFPE Preenchimento dos Templates Tokenizao Anlise Lxica
/Morfolgica Anlise Sinttica /Semntica Construo de Regras de Extrao
Anlise de Discurso Preenchimento de Templates Preenches os dados em
templates especificados pela aplicao. Objetos ou tabelas
Slide 35
CIn/UFPE Extrao com PLN Modelo do domnio (portvel) Ontologias
com papis lingistcos e semnticos conceitos e relacionamentos do
domnio sendo tratado Extraem dados declarativos Podem usar
aprendizado Na aquisio de conhecimento No refinamento de
conhecimento -> melhor performance Shallow Parsing Gramticas
representados como autmatos finitos
Slide 36
CIn/UFPE Ontologia do Domnio (Hierarquia) - Terrorismo -
Slide 37
CIn/UFPE SAN SALVADOR, 10 JAN 90 (AFP) -- [TEXT] OFFICIAL
SOURCES HAVE REPORTED THAT SEVERAL GUERRILLA ATTACKS AND HEAVY
FIGHTING TOOK PLACE THE EVENING OF 9 JANUARY AND THIS MORNING
THROUGHOUT THE COUNTRY, AND AS A RESULT, THREE SOLDIERS WERE KILLED
AND THREE OTHERS INJURED. ALLEGED GUERRILLA URBAN COMMANDOS
LAUNCHED TWO HIGHPOWER BOMBS AGAINST A CAR DEALERSHIP IN DOWNTOWN
SAN SALVADOR THIS MORNING. A POLICE REPORT SAID THAT THE ATTACK SET
THE BUILDING ON FIRE, BUT DID NOT RESULT IN ANY CASUALTIES ALTHOUGH
ECONOMIC LOSSES ARE HEAVY. DURING THE EVENING OF 9 JANUARY,
GUERRILLA URBAN COMMANDOS BOMBED TWO ELECTRICITY FACILITIES IN
DIFFERENT PLACES IN SAN SALVADOR, WHICH CAUSED POWER OUTAGES IN
SOME AREAS OF THE CAPITAL. MEANWHILE, THE ARMED FORCES PRESS
COMMITTEE (COPREFA) REPORTED TODAY THAT THREE ARMY SOLDIERS WERE
KILLED RECENTLY IN CLASHES AGAINST MEMBERS OF THE FARABUNDO MARTI
NATIONAL LIBERATION FRONT (FMLN) IN DIFFERENT PARTS OF THE CENTRAL
AND EASTERN REGIONS OF THE COUNTRY. THE WAR BULLETIN BY COPREFA
STATED THAT THE CLASHES, IN WHICH THREE MEMBERS OF THE GENERAL JUAN
RAMON BELLOSO BATTALION WERE INJURED, TOOK PLACE IN SAN JOSE
GUAYABAL, IN THE CENTRAL CUSCATLAN DEPARTMENT, AND IN SANTA ELENA
IN THE EASTERN USULUTAN DEPARTMENT.
Slide 38
CIn/UFPE 0. message: id dev-muc3-0018 (nccosc) 1. message:
template 1 2. incident: date 10 jan 90 3. incident: location el
salvador: san salvador (city) 4. incident: type bombing 5.
incident: stage of execution accomplished 6. incident: instrument
id "highpower bombs" 7. incident: instrument type bomb: "highpower
bombs" 8. perp: incident category terrorist act 9. perp: individual
id "guerrilla urban commandos" 10. perp: organization id -11. perp:
organization confidence -12. phys tgt: id "car dealership" 13. phys
tgt: type commercial: "car dealership" 14. phys tgt: number 1: "car
dealership" 15. phys tgt: foreign nation -16. phys tgt: effect of
incident some damage: "car dealership" 17. phys tgt: total number
-18. hum tgt: name -19. hum tgt: description -20. hum tgt: type
-21. hum tgt: number -22. hum tgt: foreign nation -23. hum tgt:
effect of incident no injury or death: "-" 24. hum tgt: total
number -
Slide 39
CIn/UFPE [Riloff 94] Exemplo de extrao pelo AutoSlog [Riloff
94] The priest was murdered by the guerrillas.
Name:target-subject-passive-verb-bombed
Name:target-subject-passive-verb-bombed Trigger:murdered
Trigger:murdered Variable Slots:(target (*SUBJECT* 1)) Variable
Slots:(target (*SUBJECT* 1)) Constraints:(class phys-target
*SUBJECT*) Constraints:(class phys-target *SUBJECT*) Constant
Slots:(type murder) Constant Slots:(type murder) Enabling
Conditions:((passive)) Enabling Conditions:((passive))
Slide 40
CIn/UFPE Caso que o reconheceu
Slide 41
CIn/UFPE AutoSlog Textos so anotados previamente Anotao
semi-automtica garante rapidez ao processo Padres so aprendidos
Padres so selecionados estatisticamente Por frequncia de ocorrncia
Por corretude score = relevance rate * log2 (frequency)
Slide 42
CIn/UFPE Resultados Dicionrio da MUC-4\ construo manual 389
definies ~1500 pessoas-hora requer anotadores experientes performed
well Dicionrio gerado pelo AutoSlog dictionary construo automtica
450 definies 5 pessoas-hora (!!) requer pouco treinamento 98% da
performance do MUC-4
CIn/UFPE Aquisio de conhecimento X Sistemas com aprendizado
Aquisio de conhecimento No so conceitualmente dificeis de
desenvolver Tm melhor performance So trabalhosos de construir
Difcil manuteno Requer Expertise Sistemas com aprendizado Solues
mais portveis No precisam de expertise Cobertura sobre os exemplos
Exemplos de treinamento podem no existir Anotao trabalhoso e requer
alguma expertise
Slide 45
CIn/UFPE Quando usar? Aquisio de conhecimento Recursos (lxicos,
etc) disponveis Poucos dados Padres podem mudar de desenvolver
Precisa-se de tima performance Co-referncia Sistemas com
aprendizado Recursos (lxicos, etc) disponveis Padres difceis
Dificuldades de programar regras Padres estveis Boa performance
aceitvel