40
Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Embed Size (px)

Citation preview

Page 1: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Processamento da Linguagem Natural

PONTIFÍCIA UNIVERSIDADE CATÓLICA

DO RIO GRANDE DO SUL - PUCRS

Faculdade de Informática

Ricardo Annes

Page 2: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

2

Apresentação

• Processamento da Linguagem Natural– Processamento Baseado em Corpus– Etiquetação – Conclusões

• Sistemas Multi Agentes

• Arquitetura de Etiquetadores Multi-Agentes

• Referências

Page 3: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

3

Processamento da Linguagem Natural

• Ramo da I.A.

• Objetivos– interpretar e processar o conhecimento disponível

• compreensão

• geração

– melhorar a comunicação Homem X Máquina

• interdisciplinar– computação– lingüística– ciências cognitivas

Page 4: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

4

Processamento da Linguagem Natural

• Aplicações– tradução automática– correção de textos– geração de resumos– sistemas inteligentes– interface– consultas bibliográficas– consultas tipo SQL em BD– síntese / análise de voz

Page 5: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

5

Processamento da Linguagem Natural

• língua X linguagem

• processamento– interpretação

• texto representação

– geração• representação texto

Page 6: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

6

Processamento da Linguagem NaturalLinguagem

• natural artificial– geral - restrita– complexa - limitada– contextual - específica– ambígua - não ambígua

– português - fortran– inglês - pascal– francês - C– espanhol - java

Page 7: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

7

Fenômenos lingüísticos

• Elipse Não ganhei na loto.• Zeugma Comprei uma caixa de maças e outra de

ameixas.

• Metáfora Um mar de problemas.

• Metonímia Gosto de ler Érico Veríssimo.

• Anáfora João gosta de Maria. Ela gosta de José.

• Ambigüidade casa - substantivo ou verbo

manga - fruta ou peça do vestuário

Se você quer comprar um carro rápido.

Page 8: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

8

Domínios do PLN

• Léxico-morfológico

• Sintático

• Semântico-pragmático

Page 9: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

9

Domínio Léxico-morfológico

• Analisador léxico-morfológico

• léxico (dicionário)

• categorias gramaticais– substantivo adjetivo– verbo adverbio– numeral artigo– pronome preposição

• ambigüidade léxica-morfológica– casa, mato, morro

Page 10: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

10

• Relações entre palavras da sentença

• gramaticalidade

• Unidades sintáticas (sintágmas)– sujeito– predicado– complemento verbal / nominal

• concordância

• regência

• posicionamento

Domínio Sintático

Page 11: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

11

Domínio Sintático

texto

estrutura da sentença

gramática

léxico

todas sentença

léxico-morf.

parser

Eu vi a moça com o binóculos.

Árvore de derivações

Page 12: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

12

• Representação do significado e sentido.

• Semântica – léxica– gramatical

Um assador de churrasco gaúcho

• fenômenos de referência– anáfora pronominal Ela gosta do

Zé.– elipse

• sarcasmo

Domínio Semântico-pragmático

Page 13: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

13

• texto formalismos representação

• representação texto

• templates

• Eliza[MIT60]

Geração de textos

Page 14: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

14

• Fonética

• Fonologia

• Prosódia– volume– entonação– tempo (velocidade e ritmo)

• sarcasmo

• agressividade

• excitação

Fala

• amor

• simpatia

Page 15: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

palavras

proc. sinal

reconhecimento

fala

class. acústica

Sistema PLN

fonética

intonação

palavras

caracteres f. i.

sintet. voz

fala

ALLEN

Page 16: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Processamento baseado em Corpus• Corpus - coleção de textos

– escritos ou orais – representativos da linguagem– computacionalmente disponíveis– o plural - corpora

• estudo do conhecimento lingüístico através de exemplos

• vantagens– acessibilidade– velocidade– exatidão / fidelidade

Page 17: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Processamento baseado em Corpus

• treino e teste de sistemas de PLN

• corpus– simples – marcados / anotados / rotulados / etiquetados

Page 18: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

18

PLN - conclusões

• Ainda é um problema sem solução– relacionamento entre os domínios– interdisciplinar

• IA

• lingüística

• ciências cognitivas

– pesquisa

• soluções domínios restritos

• aplicações – reconhecimento de voz, geração de texto– formalismos para representação

Page 19: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

19

Domínios do PLN

• Léxico-morfológico

• Sintático

• Semântico-pragmático

Page 20: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

20

PLN - conclusões

• Arquiteturas

• módulos hierárquicos independentes – seqüenciais– explosão combinatória

• Distribuição (IAD) SMA

interdependentes

Page 21: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

21

PLN - conclusões

• Trabalhos na área– Ambigüidade léxica categorial [Silva97]– Anáfora do pronome possessivo [Paraboni97]– Léxico semântico [Abrahão97]– Tradução automática [Agustini]– Elipse [Unicamp]– www.portugues.mct.pt/recursos.html– SBIA - www.inf.pucrs.br/~sbia98/– PROPOR - www.inf.pucrs.br/~sbia98/propor98.html

Page 22: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Etiquetação

ETIQUETADORsentençaSentença marcada

Quem casa, quer casa.

Quem/pronome indef.

casa/verbo intransitivo

,/vírgula

quer/verbo trans. direto

casa/substantivo comum

./ponto final

Page 23: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Etiquetador

• estatístico - padrões corpora

• baseado em regras - lingüísticas

• misto - regras obtidas processo estatístico

[BRILL93]

Page 24: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Etiquetador Estatístico (fases)

- treinamento - aprende (corpus marcado)

- teste - marcação (corpus conhecido)

avalidação (medida de precisão)

- marcação - marca sentenças

- HMM - forma de modelar

Page 25: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Corpus de treinamento

classificadorClasses de

ambiguidadee rótulos

Construtor do HMM

Corpus de teste

classificador Classes de ambiguidade

Viterbi Rótulos

dicionário HMMtreinamento

teste

Rotulador Estatístico de Categorias Morfo-Sintáticas para a Língua Portuguesa

Page 26: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Sistemas Multi-Agentes

Sociedade - coleção de entidades

- coordenação

Agentes - entidades atuam na sociedade

- autonomia

- cooperação

- aprendizagem

- objetivos- conhecimentos

Page 27: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Sistemas Multi-Agentes

agentes + ambiente + interações + organização

[DEMA95]

interações - protocolos

apresentação

troca de conhecimentos

negociação

Page 28: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Agente Genérico

Conhecimento EscolhaComunicação

Capacidadesde Decisão

PossibilidadesCapacidadesde raciocínio

Percepção

Objetivos

Modelo de agente [DEMA90]

Page 29: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

ARQUITETURA DO SISTEMA

Problema

- conhecimento lingüístico

- conhecimento distribuído - processos distribuídos

- genérico

- específico

Page 30: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

precisão corpus de treinamento muito grande

fase de treinamento (tempo)

corpus único perde dependência ao domínio

motiva múltiplos corpora

MAS

Page 31: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Fase de treinamento

corpus T1

HMM T1

Agente T1

corpus T3

HMM Genérico

Agente Genérico

. . .corpus T2 corpus Tn

HMM T2

Agente T2

HMM T3

Agente T3

HMM Tn

Agente Tn

Page 32: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Fase de Marcação

sentença

s

AgenteGenérico

sentençassemi-marcadas

AgenteT1

ou ou

sentençasmarcadas

. . .

AgenteT2

AgenteTn

sentençasmarcadas

sentençasmarcadas

Page 33: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Modelo do Agente

• Conhecimento - HMM (treinamento)

• Objetivos - aquisição de conhecimento

- marcação

• Comunicação - corpus treinamento / sentenças

- interação social (prot. KQML)

• Raciocínio social - negociação

• Ações - marcação- atualização conhecimentos

- comunicação entre agentes

Page 34: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Cooperação entre os Agentes

• INTERAÇÕES– Apresentação– Despedida– Requisição ao agente genérico– Requisição a outro agente específico– Negociação

Page 35: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Protótipo em desenvolvimento

• Conhecimento modelo bigramas (HMM)

• DPSK+P ambiente (MASENV)

• KQML

• NALAMAS

• Etiquetador - UNL

Page 36: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Hidden Markov Model

HMM tuplas <S, s1, W, T>

onde:

S conjunto de estados

s1 estado inicial

W conjunto símbolos

T as transições

Page 37: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Hidden Markov Model

HMM tuplas <S, s1, W, T>

onde:

S conjunto de estados rótulos

s1 estado inicial

W conjunto símbolos palavras

T as transições palavras

Page 38: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Hidden Markov Models

1 2

P(a) = 0,3

P(b) = 0,1

P(b) = 0,1

P(a) = 0,2

P(b) = 0,2 P(b) = 0,5

P(a) = 0,4 P(a) = 0,2

Page 39: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

Referências de PLN

• [ALLE94] ALLEN, J. Natural language understanding. The Benjamin/Cumming Company. 1994.

• [BEAR91] BEARDON, C; LUMSDEN, D.; HOLMES, G. Natural Language and Computational Linguistics. Ellis Horwood Ltd. Melsham-Wiltshire, England, 1991.

• [CHARN93] CHARNIAK. E. Statistical language learning. London: Abradford Book.The MIT Press. 1993. 170p.

• [DE LIMA96] DE LIMA, V.L.S. - Processamento da Linguagem Natural - premissas e desafios -IV Escola Regional de Informática - SBC. 1996

• [DE LIMA97] DE LIMA, V.L.S. - Projeto NALAMAS - Atividades setembro 1996/ agosto 1997 - PUCRS - Relatório Técnico -1997

Page 40: Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS Faculdade de Informática Ricardo Annes

[email protected]

PONTIFÍCIA UNIVERSIDADE CATÓLICA

DO RIO GRANDE DO SUL - PUCRS

Faculdade de Informática

Ricardo Annes