Upload
joao-farias-da-cunha
View
216
Download
1
Embed Size (px)
Citation preview
1
Summarizing Text Documents:Summarizing Text Documents:Sentence Selection and Sentence Selection and
Evaluation MetricsEvaluation Metrics
Trabalho Trabalho realizado por: realizado por:
João Casteleiro João Casteleiro AlvesAlves
Instituto Superior TécnicoInstituto Superior TécnicoRecuperação de InformaçãoRecuperação de Informação
Prof. Dr. Pável Pereira CaladoProf. Dr. Pável Pereira Calado
2
Introdução
Pré - Processamento da imagem
Abordagem 1: Detecção de Contornos
Abordagem 2: Extracção de Características
Estrutura da apresentação
Geração de sumários a partir de extracção de texto
Propriedades e características dos conjuntos de dados
Propriedades empíricas dos sumários
Avaliação dos sumários
Conclusões e trabalho futuro
Rácio de Compressão Experiências
3
Porquê o uso de sistemas de sumarização de texto ???
Pré - Processamento da imagem
Introdução:
Crescimento da WEB e das colecções de texto on-line
O que é um sistema de sumarização de texto ???
4
Abordagem 1: Detecção de Contornos
Introdução
Sistemas de sumarização começaram a ser desenvolvidos nos anos 50 pela IBM.
Os recursos disponibilizados para resolver problemas de síntese de documentos aumentou com a WEB.
Sumarização é uma transformação redutiva de um texto de partida num texto sumário através de extracção ou generalização.
A automatização da sumarização deverá basear-se num procedimento que simule o processo cognitivo humano.
É um problema de Processamento da Linguagem Natural (NLP) Aparentemente difícil de resolver.
5
Introdução
Qualidade da sumarização humana é difícil de encontrar em sistemas de sumarização.
Uma sumarização ideal é assim aquela que inclui informação relevante para o utilizador e exclui a informação que não interessa. Esta tem também de ser coerente e compreensível.
Qualidades difíceis de encontrar sem usar linguagem natural. No entanto é possível explorar padrões.
Gera sumários razoáveis para a maioria dos documentos sem que haja compreensão da linguagem natural.
6
Introdução
Pré - Processamento da imagem
Abordagem 1: Detecção de Contornos
Abordagem 2: Extracção de Características
Estrutura da apresentação
Geração de sumários a partir de extracção de texto
Propriedades e características dos conjuntos de dados
Propriedades empíricas dos sumários
Avaliação dos sumários
Conclusões e trabalho futuro
Rácio de Compressão Experiências
7
Abordagem 1: Detecção de Contornos
Criar sumários a partir da concatenação de excertos de extensões de texto do documento inicial.
Transforma-se o problema de sumarização de texto num outro potencialmente mais simples a classificação das frases de um documento original de acordo com a sua relevância.
Geração de sumários a partir de extracção de texto
Sumarização
genérica
Sumarização tendo em conta uma
“query”
8
Abordagem 1: Detecção de Contornos
Ambos os tipos de sumarização tem por base a classificação das frases através de propriedades linguísticas e estatísticas.
No entanto, diferentes documentos, têm diferentes características Os pesos das características linguísticas e estatísticas são ajustados de modo a evidenciar estas mesmas
Geração de sumários a partir de extracção de texto
- As características estatísticas incluem vários dos métodos de RI TF-IDF, “pseudo-relevance feedback”, etc
- As características linguísticas dizem respeito à própria lingua.
9
Abordagem 1: Detecção de Contornos
Geração de sumários a partir de extracção de texto
Avaliação de frases
S é o conjunto de propriedades estatísticas (RI) L é o conjunto de propriedades linguísticas Q é a query W é o peso das características no conjunto de dados
Os pesos podem ser ajustados de acordo com o tipo do conjunto de dados e com o sumário desejado.
Cada frase é então classificada de acordo com a seguinte fórmula e depois ordenada no sumário conforme o “ranking”.
10
Introdução
Pré - Processamento da imagem
Abordagem 1: Detecção de Contornos
Abordagem 2: Extracção de Características
Estrutura da apresentação
Geração de sumários a partir de extracção de texto
Propriedades e características dos conjuntos de dados
Propriedades empíricas dos sumários
Avaliação dos sumários
Conclusões e trabalho futuro
Rácio de Compressão Experiências
11
Abordagem 1: Detecção de Contornos
Um sumário ideal que tem em conta a informação da “query”, é então aquele que contém informação sobre o que o utilizador está interessado
O primeiro passo de construção deste tipo de sumários diz respeito à qualidade de extracção de pedaços de texto do documento inicial relevantes para o utilizador.
Propriedades e características dos conjuntos de dados
Para analisar a capacidade do sistema a extrair pedaços de texto que são considerados relevantes, foram então usados vários conjuntos de dados.
- Relevance Sentence Database- Model Summaries (TIPSTER)- Reuters e LA Times
12
Propriedades e características dos conjuntos de dados
13
Introdução
Pré - Processamento da imagem
Abordagem 1: Detecção de Contornos
Abordagem 2: Extracção de Características
Estrutura da apresentação
Geração de sumários a partir de extracção de texto
Propriedades e características dos conjuntos de dados
Propriedades empíricas dos sumários
Avaliação dos sumários
Conclusões e trabalho futuro
Rácio de Compressão Experiências
14
Abordagem 1: Detecção de Contornos
Tendo em conta os conjuntos de dados mostrados antes, foram analisadas diferentes propriedades destes sumários.
Propriedades empíricas dos sumários
O tamanho do sumário é independente do tamanho do documento.
O rácio de compressão torna-se mais pequeno para documentos maiores.
15
Propriedades empíricas dos sumários
Os sumários incluem frequentemente artigos indefinidos e as frases tendem também a começar com um artigo.
Constatou-se também que a palavra “Reuters”, nos artigos da Reuters aparece frequentemente nos sumários, uma vez que esta está normalmente presente na primeira frase. É assim um bom indicador de uma evidência positiva.
Por outro lado a palavra “REUTERS” que aparece normalmente no fim dos documentos (a seguir à ultima frase) é um bom indicador de uma evidência negativa.
16
Propriedades empíricas dos sumários
As palavras e frases em discurso directo ou indirecto têm tendência a não aparecerem nos sumários.
Dependendo das palavras que precedem umas às outras podemos concluir se uma determinada frase é ou não uma citação, e não inclui-la no sumário
Os nomes próprios têm por sua vez alguma tendência a aparecer nos sumários.
17
Introdução
Pré - Processamento da imagem
Abordagem 1: Detecção de Contornos
Abordagem 2: Extracção de Características
Estrutura da apresentação
Geração de sumários a partir de extracção de texto
Propriedades e características dos conjuntos de dados
Propriedades empíricas dos sumários
Avaliação dos sumários
Conclusões e trabalho futuro
Rácio de Compressão Experiências
18
Avaliação dos sumários
Existem dois tipos de avaliação de sumários
A TIPSTER focou-se recentemente em ambos os tipos de avaliação. A avaliação é assim composta por 3 partes principais:
- Determinar a relevância de um documento para um tópico (No caso dos sumários que têm em conta a “query”).
- Determinar a categoria dos sumários genéricos
- Estabelecer se um sumário é capaz de responder a um conjunto específico de questões (em comparação com um sumário ideal).
Intrínseco Extrínseco
19
Avaliação dos sumários
Para cada tarefa, os sumários foram classificados em termos de confiança da decisão, inteligibilidade e tamanho.
Assim, usou-se como unidade subjacente as frases, e avaliaram-se os sistemas de sumarização para a primeira fase de criação de um sumário.
Um outro ponto de avaliação dos sumários é o de como penalizar a informação não interessante e redundante.
Observou-se que para diferentes sistemas, o melhor resultado encontrado tinha diferentes tamanhos.
20
Avaliação dos sumários
De modo a avaliar a performance dos sistemas com características diferentes é usado uma versão modificada do standard “11-point precision recall curves” sobre 2 conjuntos de dados
Tendo em conta o facto de que um sumário comprimido não tem a oportunidade de devolver o conjunto completo de frases relevantes, usou-se uma versão normalizada de “Recall” e uma versão normalizada de F1.
M Numero de frases relevantes num documento
J Numero de frases relevantes do sumário
P PrecisionR Recal
21
Do ponto de vista da análise teórica das propriedades dos sumários, define-se a “precision”, o “recall” e “F1” como:
L Número de frases do documento
M Número de frases relevantes num documento
K Número de frases seleccionadas para incluir no sumário
Avaliação dos sumários
22
Introdução
Pré - Processamento da imagem
Abordagem 1: Detecção de Contornos
Abordagem 2: Extracção de Características
Estrutura da apresentação
Geração de sumários a partir de extracção de texto
Propriedades e características dos conjuntos de dados
Propriedades empíricas dos sumários
Avaliação dos sumários
Conclusões e trabalho futuro
Rácio de Compressão Experiências
23
Como já visto antes, o número de frases relevantes a fazer parte de um sumário não varia com o tamanho do documento.
Rácio de compressão
- É normalmente constante
Considerando o impacto na medida F1 do rácio de compressão, temos que:
F1 = (2.M.K)/L(M+K)
Conclui-se que para documentos muito grandes, obtêm-se piores resultados de F1.
24
Introdução
Pré - Processamento da imagem
Abordagem 1: Detecção de Contornos
Abordagem 2: Extracção de Características
Estrutura da apresentação
Geração de sumários a partir de extracção de texto
Propriedades e características dos conjuntos de dados
Propriedades empíricas dos sumários
Avaliação dos sumários
Conclusões e trabalho futuro
Rácio de Compressão Experiências
25
Foram realizadas experiências para avaliar as relativas vantagens de expansão da “query” para os sistemas de sumarização.
Experiências
Consiste em comparar uma “query” com uma determinada dimênsão com uma outra de dimensão diferente.
26
Experiências
Foram também realizados testes para a medida normalizada F1, com diferentes níveis de compressão para algumas características linguísticas e investigada a qualidade dos sumários para diferentes níveis de rácio de compressão.
Constata-se que quanto maior for o tamanho do documento/sumário, pior será o valor de F1.
27
Introdução
Pré - Processamento da imagem
Abordagem 1: Detecção de Contornos
Abordagem 2: Extracção de Características
Estrutura da apresentação
Geração de sumários a partir de extracção de texto
Propriedades e características dos conjuntos de dados
Propriedades empíricas dos sumários
Avaliação dos sumários
Conclusões e trabalho futuro
Rácio de Compressão Experiências
28
Conclusões
As frases são escolhidas para uma potencial inclusão no sumário, usando propriedades estatísticas e linguísticas.
Apresenta uma análise sobre a sumarização de novos artigos através de selecção de frases.
As características estatísticas surgem dos métodos standard de RI.
As características linguísticas surgem da análise de documentos.
Concluí-se ainda que uma avaliação dos sistemas de sumarização deve ter em conta o rácio de compressão e as características do documento.
29
Trabalho futuro
Planejam investigar técnicas de linguagem artificial que permita descobrir características adicionais para uma variedade de documentos e aprender medidas óptimas para combinações futuras.
30
FIM