32
1 Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa technology from seed L 2 F - Spoken Language Systems Laboratory Já Te Digo – Uma interface em língua natural para uma base de dados de cinema Ana Raquel Guimarães

Já Te Digo – Uma interface em língua natural para uma base ... · IMDB – Internet Movie DataBase Website da Academia dos Óscares Website Cinema PTGate Dados inseridos ... Construção

Embed Size (px)

Citation preview

1

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

L2 F - Spoken Language Systems Laboratory

Já Te Digo – Uma interface em língua naturalpara uma base de dados de cinema

Ana Raquel Guimarães

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

2L2 F - Spoken Language Systems Laboratory

EstruturaEstrutura

MotivaçãoO que é uma ILNBD?ObjectivoAnálise do problema

Fases de DesenvolvimentoRecolha do CorpusConstrução da base de dadosInterpretação da questão

AvaliaçãoTrabalho FuturoConclusões

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

3L2 F - Spoken Language Systems Laboratory

MotivaçãoMotivação (1/3)

Uma ILNBD (Interface em Língua Natural para uma Base de Dados):

É uma forma de obter informação a partir de uma base de dadosrecorrendo a língua natural.

Exemplos

Qual é a maior cidade de Portugal?Quantos óscares venceu Woody Allen?

Quem escreveu “A tia Júlia e o Escrevedor“?

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

4L2 F - Spoken Language Systems Laboratory

MotivaçãoMotivação (2/3)

ObjectivoDesenvolvimento de uma ILNBD que:

Dê respostas concisas e correctas ao utilizador;

Seja facilmente expansível, rápida e acessível;

Responda a questões cuja resposta não seja facilmente obtida em outrasinterfaces (Google, IMDB):

Quem entra em <filme1> e <filme2>?

Em que filmes entra <pessoa1> e <pessoa2>?

Resolva ambiguidade entre entidades (pessoas com o mesmo nome,filmes com o mesmo título);

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

5L2 F - Spoken Language Systems Laboratory

MotivaçãoMotivação (3/3)

Análise do problema

Que questões se podem fazer acerca de cinema?

Quem é o realizador / actor principal de <filme>?

Quem venceu o óscar de <categoria> em <ano>?

Em que filmes entra <pessoa>?

Que tipo de questões são mais frequentemente realizadas?

Como interpretar as questões?

Como reconhecer as entidades mencionadas nas questões formuladas?

Como “traduzir” questões em língua natural para SQL?

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

6L2 F - Spoken Language Systems Laboratory

FasesFases de de DesenvolvimentoDesenvolvimento

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica/semântica

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

7L2 F - Spoken Language Systems Laboratory

RecolhaRecolha do do CorpusCorpus

Dimensão

150 questões realizadas por 10 pessoas;

Verificou-se que:

“Objectivo” das questões é, muito frequentemente, um nome de filme ou umnome de pessoa;

Exemplos de questões:

Quem é o herói do filme The Matrix?

Que filme realizaram os irmãos Wachowsky?

Que filme de animação teve como personagem principal um leão?

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

8L2 F - Spoken Language Systems Laboratory

FasesFases de de DesenvolvimentoDesenvolvimento

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica/semântica

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

9L2 F - Spoken Language Systems Laboratory

ConstruçãoConstrução dada Base de Dados Base de Dados

Proveniência

IMDB – Internet Movie DataBase

Website da Academia dos Óscares

Website Cinema PTGate

Dados inseridos

Elenco dos filmes

Informação biográfica

Óscares da Academia (Melhor Filme e Filme Estrangeiro, representação,Melhor Realizador)

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

10L2 F - Spoken Language Systems Laboratory

ConstruçãoConstrução dada Base de Dados Base de Dados

Processamento dos dados

Ficheiros de texto de elevadas dimensões processados através descripts em Perl;

Dificuldades

Formato dos dados nem sempre respeitado;

Diferentes “fornecedores” causa incoerência entre dados (personagenscom nomes diferentes, ex: Lt. Col. Frank Slade e Lieutenant ColonelFrank Slade);

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

11L2 F - Spoken Language Systems Laboratory

ConstruçãoConstrução dada Base de Dados Base de Dados

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

12L2 F - Spoken Language Systems Laboratory

EstruturaEstrutura

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

13L2 F - Spoken Language Systems Laboratory

InterpretaçãoInterpretação dada QuestãoQuestão

Plano

Utilização de um analisador morfo/sintáctico

Criar regras de dependência para detecção de padrões

Utilizar uma linguagem de representação intermédia baseada empredicados

Realizador(x) – Realizador(“A Casa dos Espíritos”)

Contracena(x,y) – Contracena(“Meg Ryan”, “A cidade dos anjos”)

Realização de queries SQL para obtenção da resposta

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

14L2 F - Spoken Language Systems Laboratory

InterpretaçãoInterpretação dada QuestãoQuestão

Exemplo de análise morfo/sintáctica

Quem contracena com jodie foster em panic room?

Reconhecimento de entidades mencionadas previamente

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

15L2 F - Spoken Language Systems Laboratory

ReconhecimentoReconhecimento de de EntidadesEntidadesMencionadasMencionadas

Estratégias consideradas

Criação de gramática local com “todos os títulos e nomes do Mundo”.

Não era viável carregar uma gramática com centenas de milhares de regras

Criação de gramática local com os títulos e nomes principais

Critérios para títulos e nomes principais?

Filmes mais recentes… E os grandes clássicos do cinema?

Pessoas com mais filmes… Ignoram-se nomes como James Dean?

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

16L2 F - Spoken Language Systems Laboratory

ReconhecimentoReconhecimento de de EntidadesEntidadesMencionadasMencionadas

Estratégia seguidaRealização de queries full-text com a questão formulada sobre atabela persons e films.

Quem é o realizador de forrest gump?

SELECT DISTINCT films.title FROM films WHERE match(title) AGAINST(“Quem é o realizador de forrest gump”)

forrestgump & co.

vida, pasión y muerte de un realizadoriracundo

through the eyes of forrest gumpdie welt des forrest gump

black forrest gumpforrest gump

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

17L2 F - Spoken Language Systems Laboratory

ReconhecimentoReconhecimento de de EntidadesEntidadesMencionadasMencionadas

Nem sempre os resultados são os esperadosSELECT DISTINCT films.title FROM films WHERE match(title)

AGAINST (“apocalypse now”)

Método: Consultar as primeiras 150 entradas e escolher o nome“mais longo”

apocalypseapocalypse bopapocalypse oz

apocalypse nowapocalypse joethe apocalypse

10.5: apocalypse

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

18L2 F - Spoken Language Systems Laboratory

EstruturaEstrutura

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica/semântica

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

19L2 F - Spoken Language Systems Laboratory

DesambiguaçãoDesambiguação

Realizada a diversos níveis2 ou mais pessoas com o mesmo nome2 ou mais filmes com o mesmo títuloNome de pessoa que também é título de filme (ex: Michael Collins)

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

20L2 F - Spoken Language Systems Laboratory

DesambiguaçãoDesambiguação

Com base no contexto

Quem contracena com emma watson em harry potter?

Só uma “Emma Watson” entra em Harry Potter.

Nem sempre é possível desambiguar pelo contexto.

Quantos óscares recebeu Amadeus?

FILME ACTOROU

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

21L2 F - Spoken Language Systems Laboratory

EstruturaEstrutura

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica/semântica

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

22L2 F - Spoken Language Systems Laboratory

AnáliseAnálise Morfo/Sintáctica/SemânticaMorfo/Sintáctica/Semântica

Cruzamento com regras de dependência que detectam padrões dequestões.

Questão é sintetizada em predicados com um ou mais argumentos.

Quem é o realizador de Forrest Gump?

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

23L2 F - Spoken Language Systems Laboratory

FasesFases de de DesenvolvimentoDesenvolvimento

Recolha do corpus

Construção da base de dados

Interpretação da questão

Reconhecimento de Entidades Mencionadas

Desambiguação

Análise morfo/sintáctica

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

24L2 F - Spoken Language Systems Laboratory

ExemploExemplo

Reconhecimento de entidades mencionadasMeg Ryan (pessoa)

Tom Cruise (pessoa)

Verificação de ambiguidadesNão existe

Escrita da gramática local1> noun[actor=+] = ?[surface:tom], ?[surface:cruise].1> noun[actriz=+] = ?[surface:meg], ?[surface:ryan].

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

25L2 F - Spoken Language Systems Laboratory

ExemploExemplo

Emparelhamento com regras de dependênciatarget_which_films_main_act_two(“meg ryan”, “tom cruise”)

<DEPENDENCY name="TARGET_WHICH_FILMS_MAIN_ACT_TWO">

<PARAMETER ind="0" num="23" word=“meg ryan"/>

<PARAMETER ind="1" num="24" word=“tom cruise"/>

</DEPENDENCY>

Processamento de XML por XSLT

get_from_bd/script-which-films-main-act-two.pl

ACTOR ‘meg ryan’ ACTOR ‘tom cruise’

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

26L2 F - Spoken Language Systems Laboratory

AvaliaçãoAvaliação

Realizada através de uma página Web

Questões efectuadas e respostas dadas guardadas em base de dados

Efectuada em 2 fases

Durante o desenvolvimento

198 questões que permitiram a detecção de erros

Final

Interface com questões-exemplo (5 utilizadores, 10 questões cada)

Interface sem questões-exemplo (5 utilizadores, 10 questões cada)

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

27L2 F - Spoken Language Systems Laboratory

AvaliaçãoAvaliação

Interface com questões-exemplo

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

28L2 F - Spoken Language Systems Laboratory

AvaliaçãoAvaliação

Interface sem questões-exemplo

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

29L2 F - Spoken Language Systems Laboratory

AvaliaçãoAvaliação

ResultadosCom questões-exemplo

Sem questões-exemplo

12 (70,6%)Outros Motivos0 (0,0%)Incorrecto NER 17 (34%)5 (19,4%)Sem Tratamento

Nãorespondidas

4 (12,1%)Incorrectamente

50

33 (66%)29 (87,9%)Correctamente

Respondidas

6 (20,0%)Outros Motivos9 (30,0%)Incorrecto NER 30 (60%)

15 (50,0%)Sem TratamentoNão

respondidas

2 (10,0%)Incorrectamente

50

20 (40%)18 (90,0%)Correctamente

Respondidas

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

30L2 F - Spoken Language Systems Laboratory

ConclusõesConclusões

Contribuições

Desenvolvimento de uma arquitectura genérica para ILNBD’s

Concretização para o domínio de cinema

Melhoria do analisador morfo/sintáctico/semântico utilizado

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

31L2 F - Spoken Language Systems Laboratory

TrabalhoTrabalho FuturoFuturo

Tratar mais padrões de questões

Disponibilizar de mais dados

Providenciar correcção ortográfica

Tratar de elipse e anáfora

Integrar com um sistema de QA (question-answering)

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technologyfrom seed

L2 F - Spoken Language Systems Laboratory

technologyfrom seed

L2 F - Spoken Language Systems Laboratory