12
R3M R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Embed Size (px)

Citation preview

Page 1: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

R3M R3M

Uma participação minimalista no Segundo HAREM

Cristina Mota Linguateca

Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Page 2: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Porquê minimalista?

Objectivo inicial Classificação de PESSOA, ORGANIZACAO e LOCAL

Resultado final Identificação de tudo excepto TEMPO e VALOR

1

Melhorar um sistema de REM baseado em aprendizagem

semi-supervisionada

2

Dados etiquetados mínimos

Treinar com poucos dados3 Melhor é melhor que mais

Page 3: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Sistema de Base Ideia inicial a melhorar baseada em Mota & Grishman (2008)

Collins & Singer (1999)

Page 4: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Collins & Singer (1999)

Sistema R3MO que precisava de ser melhorado ou adaptado?

Collins & Singer (1999)

NooJ (Silberztein, 2004) → JET (Grishman,1999-2006)

Sementes EM → Sementes EM + contexto

Classificar P O L→ Classificar P O L e outro

→ Módulo de selecção

Page 5: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Sistema R3MFerramentas do JET – Java Extraction Toolkit

AtomizadorSegmentador de frasesConsultador de dicionárioEtiquetador morfo-sintáctico (HMM)Etiquetador de EMAnalisador de grupos nominaisAnalisador sintácticoAnalisador sintáctico estatísticoReconhecedor de padrõesResolvedor de referências

Page 6: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Sistema R3MRecursos portugueses

Dicionários:

Cargos (106) e formas de tratamento (59) disponibilizados pela organização do HAREM

Palavras de ligação extraídas de

um fragmento do CETEMPúblico (8112)

dicionário de português integrado no NooJ (Barreiro, 2007)

Palavras em maiúsculas da Colecção do Segundo HAREM (10050)

Page 7: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Sistema R3MRecursos portugueses

Padrões:

Conjunto de padrões para delimitação de candidatos a EM

Conjunto de padrões para identificação do contexto envolvente da EM

Material de treino:

Floresta sintáctica (Afonso et al., 2001), para treino de analisador morfo-sintáctico

Colecções dourada e HAREM do Primeiro HAREM, para treino do classificador de EM

Colecção dourada do Mini-HAREM, para teste do classificador de EM

Page 8: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Resultados

Page 9: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Resultados

Page 10: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Resultados

Page 11: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

Comentários finais

Contrariamente à nossa posição no Primeiro HAREM, optámos por seguir as regras do jogo

Tirámos partido de ferramentas “genéricas” testadas em inglês , criando ou usando recursos portugueses

Usámos recursos mínimos

Obtivémos uma pontuação competitiva sem classificação

O que teria acontecido se o classificador e o Murphy não se tivessem encontrado?

Anotação da CD do Primeiro HAREM não era 100% compatível com o Segundo HAREM

Teste e validação com programas de avaliação do Primeiro HAREM poderia ser enganador

Page 12: R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

AgradecimentosAgradecimentos

A Linguateca e o HAREM são financiados através do contrato nº 339/1.3/C/NAC, financiado pelo governo português e pela União Europeia, e executado pela FCCN.

12