Avalia ções Conjuntas : Visão Geral

Avaliações Conjuntas:Visão Geral

Alexsandro Santos Soares

Projecto Processamento Computacional do PortuguêsSINTEF Telecom and Informatics

Junho de 2002 SINTEF 2

O que é avaliação conjunta?

• Compara os resultados de vários sistemas participantes usando:– Tarefas de controle iguais ou similares;– Mesma coleção de dados;– Mesmas métricas.

• Todos os itens acima são baseados em concordância prévia entre os participantes.


Objetivos

• Encorajar a pesquisa baseada em dados reais;• Aumentar a comunicação entre a indústria, a academia e o

governo através da criação de um fórum aberto de discussões;• Acelerar a transferência de tecnologia entre os laboratórios de

pesquisa e os produtos comerciais pela comprovação de melhorias substanciais em metodologias aplicadas a problemas reais;

• Disponibilização de técnicas e recursos de avaliação comuns para uso industrial ou acadêmico, incluindo o desenvolvimento de novas técnicas mais adequadas aos sistemas atuais.


Elementos da avaliação conjunta

• Tarefa de controle é a função que os sistemas participantes realizam durante a avaliação juntamente com as condições sob as quais ela deve ser realizada.

• Requisitos genéricos para a tarefa de controle:– Pode ser facilmente realizada por um operador humano;– Não precisa ser identificada com a funcionalidade específica de

um componente numa arquitetura de PLN;• Requisitos genéricos para as métricas:

– Deve existir concordância em um formalismo de referência comum a todos os participantes;

– As métricas devem ser diretas e de fácil entendimento.


Fases da Avaliação Conjunta

Participantes: pesquisa, indústria e governo

Organização: governo, pesquisa e indústria

Tarefas de controleMétricasColeção de teste

Treinamento

Ensaio

Avaliação

Resultados

Artigos

Conferência


Evolução

AvaliaçãoConjunta

Tarefas

Métricas

Coleção

Discussãosobre

metodologia

Tarefas

MétricasNovaAvaliaçãoConjunta

Coleção- Treinamento- Teste- Respostas certas


Tipos de avaliação em geral

• Avaliação de pesquisa básica– Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a

outros métodos.

• Avaliação de tecnologia– Medir a performance e a adequação de uma tecnologia na resolução de um

problema bem definido, simplificado e abstraido.

• Avaliação de uso– Medir a usabilidade de uma tecnologia na resolução de um problema real.

• Avaliação de impacto– Avaliação de consequências sócio-econômicas de uma tecnologia.

• Avaliação de programa– Determinar quanto de benefício um programa de financiamento trouxe para uma

dada tecnologia.


Avaliações conjuntas realizadas

• ATIS• MUC• TREC• SUMMAC• DUC• CLEF

• ARC• GRACE• Morpholympics• Senseval/Romanseval• Parseval• NTCIR

http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.html


ATIS - Air Travel Information System

• Duração: de 1989 a 1995.• Tarefa: Responder a perguntas faladas pelo usuário sobre

determinado domínio (Informação sobre linhas aéreas). • Com a intenção de criar uma medida repetível em um sistema de

trocas de mensagens faladas e, assim, interativo, foi criado um paradigma de avaliação baseado em dados pré-gravados.

• A portabilidade dos sistemas de compreensão de línguas não avaliada.– Não estava claro como desenvolver ferramentas robustas que

permitiriam a rápida construção destes tipos de sistemas em novos domínios


MUC - Message Understanding Conference

• Duração: 1987 a 1998.• Tarefa: Simulação de um analista do serviço de inteligência

procurando informações a respeito de um tópico particular.– Ex: Atividades terroristas nas Américas.

• Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas.

• Avaliação baseada em preenchimento de gabaritos (templates)– Identificação de entidades citadas: pessoa, organização, localização, tempo, data,

percentuais e expressões monetárias.– Template elements: uma lista de entidades com seus atributos associados, tais

como formas alternativas de um nome.– Identificação de coreferência: ligar as várias menções da mesma entidade.


TREC - Text REtrieval Conference

• Início: 1992 • Tarefas principais:

– Routing: Mesmas questões perguntadas a uma base de dados dinâmica.– Ad hoc: Novas questões são perguntadas a uma base de dados estática.

• Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos:– Contendo entre 500.000 e 1.000.000 de documentos completos– Formado principalmente de textos jornalísticos e de agências de

notícias. – Também possui documentos oficiais e resumos de artigos sobre

computação.


Julgamentos de Relevância nas TRECs

• Método de pooling:– Os participantes enviam para cada tópico uma lista contendo os

100 primeiros documentos encontrados, ordenados por relevância.– Reúne-se por tópico todas as respostas enviadas e remove-se as

duplicações.– Cada lista resultante por tópico é levada para um analista humano

para que este decida sobre a relevância de tais documentos para o tópico em questão.

• A lista final do método de pooling será considerada a resposta correta.


SUMMAC - TIPSTER Text Summarization Evaluation

• Início: 1997• Tarefas principais:

– Ad hoc• Criação de sumários indicativos e focados no usuário para um tópico

particular. • Determinar se estes sumários são efetivos na determinação da relevância de

texto fonte completo para um dado tópico.– Categorização

• Criação de sumários genéricos• Determinar se estes sumários são efetivos na captura de qualquer

informação no documento fonte que permita corretamente categorizar este documento.

• Os dados usados são das TRECs.


DUC - Document Understanding Conference

• Início: 2001• Tarefas principais:

– Sumário individual: Produzir um resumo de 100 palavras para cada documento;

– Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”.

• Os dados utilizados vieram da TREC-9 (question-answering track).


Criação de Sumários por Humanos

400

200

10050

Documentos

Sumários individuais

Sumários coletivos

A B

C

D

E

F

A: Ler os documentos em papel.

B: Criar um sumário de 100 palavras para cada documento usando a perspectiva do autor do documento.

C: Criar um sumário de 400 palavras a partir de um conjuntode 10 documentos escritos na forma de um relatório paraum leitor adulto de jornais.

D,E,F: Recortar, colar e reformular para reduzir o tamanhodo sumário pela metade.

Traduzido de http://www-nlpir.nist.gov/projects/duc/duc2001/pauls_slides/sld008.htm


CLEF - Cross-Language Evaluation Forum

• Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em 2000.

• Objetivos:– Auxiliar a avaliação de sistemas em recuperação translinguística de

informação (cross-language retrieval)– Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação

monolíngue de informação (não baseada no Inglês).– Atrair mais participantes europeus para este tipo de tarefa de avaliação

• A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis)

• Possui uma organização distribuída com os vários grupos participantes fornecendo o conhecimento para cada língua individualmente.


ARC - Actions de Recherche Concertées

• Início: 1994• Possui 7 tarefas de controle organizadas como segue:

– Linguística, Informática e Corpora escritos (ILEC)• Recuperação de Informação• Alinhamento de corpus bi e multilíngues• Construção automática de terminologia e de relações semânticas a partir de corpora• Compreensão de textos

– Linguística, Informática e Corpora orais (ILOR)• Ditado vocal• Diálogo oral• Síntese de fala

• Cada tarefa de controle possui a mesma estrutura organizacional– Um avaliador encarregado do gerenciamento, um comitê científico cujos membros

são os participantes, um ou mais fornecedores de corpus e os participantes.


GRACE - Grammaires & Ressources pour les Analyseurs de Corpus & leur Évaluation

• Início: 1995• Objetivos iniciais:

– Etiquetadores morfossintáticos para o francês;– Analisadores sintáticos para francês (abandonado)

• Corpus de treinamento– Tamanho em torno de 10 milhões de palavras;– Distribuido entre trabalhos literários e artigos jornalísticos.


Senseval/Romanseval

• Início: 1998• A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito

a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas.• A meta do Romanseval é similar a do Senseval mas voltada para línguas

românicas (francês e italiano).• Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco,

basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês.– Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra

de textos.– Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no

contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias.– Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma

outra língua.


Parseval

• A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação.

• A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica.

• A avaliação separada em uma avaliação de "bracketings" para cada sentença e também na etiquetagem consistente de constituintes.

• A disponibilidade de dados cria um padrão de facto e assim os pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas.


NTCIR - NII-NACSIS Test Collection for IR Systems

• Início: 1998• Projetado para fomentar a pesquisa em recuperação de

informação e outras tecnologias de processamento de texto (sumarização e extração) para o japonês e outras línguas asiáticas.

• Fortemente baseada no modelo das TRECs• Tarefas:

– Recuperação de informação em textos em chinês.– Recuperação de informação em textos em japonês e inglês.– Sumarização de textos: sumarização de artigos japoneses de vários

tipos

Documents

Avalia ções Conjuntas : Visão Geral