30
1 Summarizing Text Documents: Summarizing Text Documents: Sentence Selection and Sentence Selection and Evaluation Metrics Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro João Casteleiro Alves Alves Instituto Superior Técnico Instituto Superior Técnico Recuperação de Informação Recuperação de Informação Prof. Dr. Pável Pereira Calado Prof. Dr. Pável Pereira Calado

1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

Embed Size (px)

Citation preview

Page 1: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

1

Summarizing Text Documents:Summarizing Text Documents:Sentence Selection and Sentence Selection and

Evaluation MetricsEvaluation Metrics

Trabalho Trabalho realizado por: realizado por:

João Casteleiro João Casteleiro AlvesAlves

Instituto Superior TécnicoInstituto Superior TécnicoRecuperação de InformaçãoRecuperação de Informação

Prof. Dr. Pável Pereira CaladoProf. Dr. Pável Pereira Calado

Page 2: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

2

Introdução

Pré - Processamento da imagem

Abordagem 1: Detecção de Contornos

Abordagem 2: Extracção de Características

Estrutura da apresentação

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de dados

Propriedades empíricas dos sumários

Avaliação dos sumários

Conclusões e trabalho futuro

Rácio de Compressão Experiências

Page 3: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

3

Porquê o uso de sistemas de sumarização de texto ???

Pré - Processamento da imagem

Introdução:

Crescimento da WEB e das colecções de texto on-line

O que é um sistema de sumarização de texto ???

Page 4: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

4

Abordagem 1: Detecção de Contornos

Introdução

Sistemas de sumarização começaram a ser desenvolvidos nos anos 50 pela IBM.

Os recursos disponibilizados para resolver problemas de síntese de documentos aumentou com a WEB.

Sumarização é uma transformação redutiva de um texto de partida num texto sumário através de extracção ou generalização.

A automatização da sumarização deverá basear-se num procedimento que simule o processo cognitivo humano.

É um problema de Processamento da Linguagem Natural (NLP) Aparentemente difícil de resolver.

Page 5: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

5

Introdução

Qualidade da sumarização humana é difícil de encontrar em sistemas de sumarização.

Uma sumarização ideal é assim aquela que inclui informação relevante para o utilizador e exclui a informação que não interessa. Esta tem também de ser coerente e compreensível.

Qualidades difíceis de encontrar sem usar linguagem natural. No entanto é possível explorar padrões.

Gera sumários razoáveis para a maioria dos documentos sem que haja compreensão da linguagem natural.

Page 6: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

6

Introdução

Pré - Processamento da imagem

Abordagem 1: Detecção de Contornos

Abordagem 2: Extracção de Características

Estrutura da apresentação

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de dados

Propriedades empíricas dos sumários

Avaliação dos sumários

Conclusões e trabalho futuro

Rácio de Compressão Experiências

Page 7: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

7

Abordagem 1: Detecção de Contornos

Criar sumários a partir da concatenação de excertos de extensões de texto do documento inicial.

Transforma-se o problema de sumarização de texto num outro potencialmente mais simples a classificação das frases de um documento original de acordo com a sua relevância.

Geração de sumários a partir de extracção de texto

Sumarização

genérica

Sumarização tendo em conta uma

“query”

Page 8: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

8

Abordagem 1: Detecção de Contornos

Ambos os tipos de sumarização tem por base a classificação das frases através de propriedades linguísticas e estatísticas.

No entanto, diferentes documentos, têm diferentes características Os pesos das características linguísticas e estatísticas são ajustados de modo a evidenciar estas mesmas

Geração de sumários a partir de extracção de texto

- As características estatísticas incluem vários dos métodos de RI TF-IDF, “pseudo-relevance feedback”, etc

- As características linguísticas dizem respeito à própria lingua.

Page 9: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

9

Abordagem 1: Detecção de Contornos

Geração de sumários a partir de extracção de texto

Avaliação de frases

S é o conjunto de propriedades estatísticas (RI) L é o conjunto de propriedades linguísticas Q é a query W é o peso das características no conjunto de dados

Os pesos podem ser ajustados de acordo com o tipo do conjunto de dados e com o sumário desejado.

Cada frase é então classificada de acordo com a seguinte fórmula e depois ordenada no sumário conforme o “ranking”.

Page 10: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

10

Introdução

Pré - Processamento da imagem

Abordagem 1: Detecção de Contornos

Abordagem 2: Extracção de Características

Estrutura da apresentação

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de dados

Propriedades empíricas dos sumários

Avaliação dos sumários

Conclusões e trabalho futuro

Rácio de Compressão Experiências

Page 11: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

11

Abordagem 1: Detecção de Contornos

Um sumário ideal que tem em conta a informação da “query”, é então aquele que contém informação sobre o que o utilizador está interessado

O primeiro passo de construção deste tipo de sumários diz respeito à qualidade de extracção de pedaços de texto do documento inicial relevantes para o utilizador.

Propriedades e características dos conjuntos de dados

Para analisar a capacidade do sistema a extrair pedaços de texto que são considerados relevantes, foram então usados vários conjuntos de dados.

- Relevance Sentence Database- Model Summaries (TIPSTER)- Reuters e LA Times

Page 12: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

12

Propriedades e características dos conjuntos de dados

Page 13: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

13

Introdução

Pré - Processamento da imagem

Abordagem 1: Detecção de Contornos

Abordagem 2: Extracção de Características

Estrutura da apresentação

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de dados

Propriedades empíricas dos sumários

Avaliação dos sumários

Conclusões e trabalho futuro

Rácio de Compressão Experiências

Page 14: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

14

Abordagem 1: Detecção de Contornos

Tendo em conta os conjuntos de dados mostrados antes, foram analisadas diferentes propriedades destes sumários.

Propriedades empíricas dos sumários

O tamanho do sumário é independente do tamanho do documento.

O rácio de compressão torna-se mais pequeno para documentos maiores.

Page 15: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

15

Propriedades empíricas dos sumários

Os sumários incluem frequentemente artigos indefinidos e as frases tendem também a começar com um artigo.

Constatou-se também que a palavra “Reuters”, nos artigos da Reuters aparece frequentemente nos sumários, uma vez que esta está normalmente presente na primeira frase. É assim um bom indicador de uma evidência positiva.

Por outro lado a palavra “REUTERS” que aparece normalmente no fim dos documentos (a seguir à ultima frase) é um bom indicador de uma evidência negativa.

Page 16: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

16

Propriedades empíricas dos sumários

As palavras e frases em discurso directo ou indirecto têm tendência a não aparecerem nos sumários.

Dependendo das palavras que precedem umas às outras podemos concluir se uma determinada frase é ou não uma citação, e não inclui-la no sumário

Os nomes próprios têm por sua vez alguma tendência a aparecer nos sumários.

Page 17: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

17

Introdução

Pré - Processamento da imagem

Abordagem 1: Detecção de Contornos

Abordagem 2: Extracção de Características

Estrutura da apresentação

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de dados

Propriedades empíricas dos sumários

Avaliação dos sumários

Conclusões e trabalho futuro

Rácio de Compressão Experiências

Page 18: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

18

Avaliação dos sumários

Existem dois tipos de avaliação de sumários

A TIPSTER focou-se recentemente em ambos os tipos de avaliação. A avaliação é assim composta por 3 partes principais:

- Determinar a relevância de um documento para um tópico (No caso dos sumários que têm em conta a “query”).

- Determinar a categoria dos sumários genéricos

- Estabelecer se um sumário é capaz de responder a um conjunto específico de questões (em comparação com um sumário ideal).

Intrínseco Extrínseco

Page 19: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

19

Avaliação dos sumários

Para cada tarefa, os sumários foram classificados em termos de confiança da decisão, inteligibilidade e tamanho.

Assim, usou-se como unidade subjacente as frases, e avaliaram-se os sistemas de sumarização para a primeira fase de criação de um sumário.

Um outro ponto de avaliação dos sumários é o de como penalizar a informação não interessante e redundante.

Observou-se que para diferentes sistemas, o melhor resultado encontrado tinha diferentes tamanhos.

Page 20: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

20

Avaliação dos sumários

De modo a avaliar a performance dos sistemas com características diferentes é usado uma versão modificada do standard “11-point precision recall curves” sobre 2 conjuntos de dados

Tendo em conta o facto de que um sumário comprimido não tem a oportunidade de devolver o conjunto completo de frases relevantes, usou-se uma versão normalizada de “Recall” e uma versão normalizada de F1.

M Numero de frases relevantes num documento

J Numero de frases relevantes do sumário

P PrecisionR Recal

Page 21: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

21

Do ponto de vista da análise teórica das propriedades dos sumários, define-se a “precision”, o “recall” e “F1” como:

L Número de frases do documento

M Número de frases relevantes num documento

K Número de frases seleccionadas para incluir no sumário

Avaliação dos sumários

Page 22: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

22

Introdução

Pré - Processamento da imagem

Abordagem 1: Detecção de Contornos

Abordagem 2: Extracção de Características

Estrutura da apresentação

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de dados

Propriedades empíricas dos sumários

Avaliação dos sumários

Conclusões e trabalho futuro

Rácio de Compressão Experiências

Page 23: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

23

Como já visto antes, o número de frases relevantes a fazer parte de um sumário não varia com o tamanho do documento.

Rácio de compressão

- É normalmente constante

Considerando o impacto na medida F1 do rácio de compressão, temos que:

F1 = (2.M.K)/L(M+K)

Conclui-se que para documentos muito grandes, obtêm-se piores resultados de F1.

Page 24: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

24

Introdução

Pré - Processamento da imagem

Abordagem 1: Detecção de Contornos

Abordagem 2: Extracção de Características

Estrutura da apresentação

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de dados

Propriedades empíricas dos sumários

Avaliação dos sumários

Conclusões e trabalho futuro

Rácio de Compressão Experiências

Page 25: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

25

Foram realizadas experiências para avaliar as relativas vantagens de expansão da “query” para os sistemas de sumarização.

Experiências

Consiste em comparar uma “query” com uma determinada dimênsão com uma outra de dimensão diferente.

Page 26: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

26

Experiências

Foram também realizados testes para a medida normalizada F1, com diferentes níveis de compressão para algumas características linguísticas e investigada a qualidade dos sumários para diferentes níveis de rácio de compressão.

Constata-se que quanto maior for o tamanho do documento/sumário, pior será o valor de F1.

Page 27: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

27

Introdução

Pré - Processamento da imagem

Abordagem 1: Detecção de Contornos

Abordagem 2: Extracção de Características

Estrutura da apresentação

Geração de sumários a partir de extracção de texto

Propriedades e características dos conjuntos de dados

Propriedades empíricas dos sumários

Avaliação dos sumários

Conclusões e trabalho futuro

Rácio de Compressão Experiências

Page 28: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

28

Conclusões

As frases são escolhidas para uma potencial inclusão no sumário, usando propriedades estatísticas e linguísticas.

Apresenta uma análise sobre a sumarização de novos artigos através de selecção de frases.

As características estatísticas surgem dos métodos standard de RI.

As características linguísticas surgem da análise de documentos.

Concluí-se ainda que uma avaliação dos sistemas de sumarização deve ter em conta o rácio de compressão e as características do documento.

Page 29: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

29

Trabalho futuro

Planejam investigar técnicas de linguagem artificial que permita descobrir características adicionais para uma variedade de documentos e aprender medidas óptimas para combinações futuras.

Page 30: 1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro

30

FIM