Upload
internet
View
111
Download
0
Embed Size (px)
Citation preview
Processamento da Linguagem Natural
PONTIFÍCIA UNIVERSIDADE CATÓLICA
DO RIO GRANDE DO SUL - PUCRS
Faculdade de Informática
Ricardo Annes
2
Apresentação
• Processamento da Linguagem Natural– Processamento Baseado em Corpus– Etiquetação – Conclusões
• Sistemas Multi Agentes
• Arquitetura de Etiquetadores Multi-Agentes
• Referências
3
Processamento da Linguagem Natural
• Ramo da I.A.
• Objetivos– interpretar e processar o conhecimento disponível
• compreensão
• geração
– melhorar a comunicação Homem X Máquina
• interdisciplinar– computação– lingüística– ciências cognitivas
4
Processamento da Linguagem Natural
• Aplicações– tradução automática– correção de textos– geração de resumos– sistemas inteligentes– interface– consultas bibliográficas– consultas tipo SQL em BD– síntese / análise de voz
5
Processamento da Linguagem Natural
• língua X linguagem
• processamento– interpretação
• texto representação
– geração• representação texto
6
Processamento da Linguagem NaturalLinguagem
• natural artificial– geral - restrita– complexa - limitada– contextual - específica– ambígua - não ambígua
– português - fortran– inglês - pascal– francês - C– espanhol - java
7
Fenômenos lingüísticos
• Elipse Não ganhei na loto.• Zeugma Comprei uma caixa de maças e outra de
ameixas.
• Metáfora Um mar de problemas.
• Metonímia Gosto de ler Érico Veríssimo.
• Anáfora João gosta de Maria. Ela gosta de José.
• Ambigüidade casa - substantivo ou verbo
manga - fruta ou peça do vestuário
Se você quer comprar um carro rápido.
8
Domínios do PLN
• Léxico-morfológico
• Sintático
• Semântico-pragmático
9
Domínio Léxico-morfológico
• Analisador léxico-morfológico
• léxico (dicionário)
• categorias gramaticais– substantivo adjetivo– verbo adverbio– numeral artigo– pronome preposição
• ambigüidade léxica-morfológica– casa, mato, morro
10
• Relações entre palavras da sentença
• gramaticalidade
• Unidades sintáticas (sintágmas)– sujeito– predicado– complemento verbal / nominal
• concordância
• regência
• posicionamento
Domínio Sintático
11
Domínio Sintático
texto
estrutura da sentença
gramática
léxico
todas sentença
léxico-morf.
parser
Eu vi a moça com o binóculos.
Árvore de derivações
12
• Representação do significado e sentido.
• Semântica – léxica– gramatical
Um assador de churrasco gaúcho
• fenômenos de referência– anáfora pronominal Ela gosta do
Zé.– elipse
• sarcasmo
Domínio Semântico-pragmático
13
• texto formalismos representação
• representação texto
• templates
• Eliza[MIT60]
Geração de textos
14
• Fonética
• Fonologia
• Prosódia– volume– entonação– tempo (velocidade e ritmo)
• sarcasmo
• agressividade
• excitação
Fala
• amor
• simpatia
palavras
proc. sinal
reconhecimento
fala
class. acústica
Sistema PLN
fonética
intonação
palavras
caracteres f. i.
sintet. voz
fala
ALLEN
Processamento baseado em Corpus• Corpus - coleção de textos
– escritos ou orais – representativos da linguagem– computacionalmente disponíveis– o plural - corpora
• estudo do conhecimento lingüístico através de exemplos
• vantagens– acessibilidade– velocidade– exatidão / fidelidade
Processamento baseado em Corpus
• treino e teste de sistemas de PLN
• corpus– simples – marcados / anotados / rotulados / etiquetados
18
PLN - conclusões
• Ainda é um problema sem solução– relacionamento entre os domínios– interdisciplinar
• IA
• lingüística
• ciências cognitivas
– pesquisa
• soluções domínios restritos
• aplicações – reconhecimento de voz, geração de texto– formalismos para representação
19
Domínios do PLN
• Léxico-morfológico
• Sintático
• Semântico-pragmático
20
PLN - conclusões
• Arquiteturas
• módulos hierárquicos independentes – seqüenciais– explosão combinatória
• Distribuição (IAD) SMA
interdependentes
21
PLN - conclusões
• Trabalhos na área– Ambigüidade léxica categorial [Silva97]– Anáfora do pronome possessivo [Paraboni97]– Léxico semântico [Abrahão97]– Tradução automática [Agustini]– Elipse [Unicamp]– www.portugues.mct.pt/recursos.html– SBIA - www.inf.pucrs.br/~sbia98/– PROPOR - www.inf.pucrs.br/~sbia98/propor98.html
Etiquetação
ETIQUETADORsentençaSentença marcada
Quem casa, quer casa.
Quem/pronome indef.
casa/verbo intransitivo
,/vírgula
quer/verbo trans. direto
casa/substantivo comum
./ponto final
Etiquetador
• estatístico - padrões corpora
• baseado em regras - lingüísticas
• misto - regras obtidas processo estatístico
[BRILL93]
Etiquetador Estatístico (fases)
- treinamento - aprende (corpus marcado)
- teste - marcação (corpus conhecido)
avalidação (medida de precisão)
- marcação - marca sentenças
- HMM - forma de modelar
Corpus de treinamento
classificadorClasses de
ambiguidadee rótulos
Construtor do HMM
Corpus de teste
classificador Classes de ambiguidade
Viterbi Rótulos
dicionário HMMtreinamento
teste
Rotulador Estatístico de Categorias Morfo-Sintáticas para a Língua Portuguesa
Sistemas Multi-Agentes
Sociedade - coleção de entidades
- coordenação
Agentes - entidades atuam na sociedade
- autonomia
- cooperação
- aprendizagem
- objetivos- conhecimentos
Sistemas Multi-Agentes
agentes + ambiente + interações + organização
[DEMA95]
interações - protocolos
apresentação
troca de conhecimentos
negociação
Agente Genérico
Conhecimento EscolhaComunicação
Capacidadesde Decisão
PossibilidadesCapacidadesde raciocínio
Percepção
Objetivos
Modelo de agente [DEMA90]
ARQUITETURA DO SISTEMA
Problema
- conhecimento lingüístico
- conhecimento distribuído - processos distribuídos
- genérico
- específico
precisão corpus de treinamento muito grande
fase de treinamento (tempo)
corpus único perde dependência ao domínio
motiva múltiplos corpora
MAS
Fase de treinamento
corpus T1
HMM T1
Agente T1
corpus T3
HMM Genérico
Agente Genérico
. . .corpus T2 corpus Tn
HMM T2
Agente T2
HMM T3
Agente T3
HMM Tn
Agente Tn
Fase de Marcação
sentença
s
AgenteGenérico
sentençassemi-marcadas
AgenteT1
ou ou
sentençasmarcadas
. . .
AgenteT2
AgenteTn
sentençasmarcadas
sentençasmarcadas
Modelo do Agente
• Conhecimento - HMM (treinamento)
• Objetivos - aquisição de conhecimento
- marcação
• Comunicação - corpus treinamento / sentenças
- interação social (prot. KQML)
• Raciocínio social - negociação
• Ações - marcação- atualização conhecimentos
- comunicação entre agentes
Cooperação entre os Agentes
• INTERAÇÕES– Apresentação– Despedida– Requisição ao agente genérico– Requisição a outro agente específico– Negociação
Protótipo em desenvolvimento
• Conhecimento modelo bigramas (HMM)
• DPSK+P ambiente (MASENV)
• KQML
• NALAMAS
• Etiquetador - UNL
Hidden Markov Model
HMM tuplas <S, s1, W, T>
onde:
S conjunto de estados
s1 estado inicial
W conjunto símbolos
T as transições
Hidden Markov Model
HMM tuplas <S, s1, W, T>
onde:
S conjunto de estados rótulos
s1 estado inicial
W conjunto símbolos palavras
T as transições palavras
Hidden Markov Models
1 2
P(a) = 0,3
P(b) = 0,1
P(b) = 0,1
P(a) = 0,2
P(b) = 0,2 P(b) = 0,5
P(a) = 0,4 P(a) = 0,2
Referências de PLN
• [ALLE94] ALLEN, J. Natural language understanding. The Benjamin/Cumming Company. 1994.
• [BEAR91] BEARDON, C; LUMSDEN, D.; HOLMES, G. Natural Language and Computational Linguistics. Ellis Horwood Ltd. Melsham-Wiltshire, England, 1991.
• [CHARN93] CHARNIAK. E. Statistical language learning. London: Abradford Book.The MIT Press. 1993. 170p.
• [DE LIMA96] DE LIMA, V.L.S. - Processamento da Linguagem Natural - premissas e desafios -IV Escola Regional de Informática - SBC. 1996
• [DE LIMA97] DE LIMA, V.L.S. - Projeto NALAMAS - Atividades setembro 1996/ agosto 1997 - PUCRS - Relatório Técnico -1997
PONTIFÍCIA UNIVERSIDADE CATÓLICA
DO RIO GRANDE DO SUL - PUCRS
Faculdade de Informática
Ricardo Annes