9
50 Anais do IV Workshop “A RST e os Estudos do Texto”, p´aginas 50–58, Fortaleza, CE, Brasil, Outubro 21–23, 2013. c 2013 Sociedade Brasileira de Computa¸c˜ ao Segmentac ¸˜ ao discursiva autom´ atica: uma avaliac ¸˜ ao preliminar em francˆ es emy Saksik 1 , Alejandro Molina 1 , Andr´ ea Carneiro Linhares 1,5 , Juan-Manuel Torres-Moreno 1,2,3,4 1 Laboratoire Informatique d’Avignon - Universit´ e d’Avignon et des Pays de Vaucluse 339 chemin des Meinajaries, BP 91228 84911 Avignon Cedex 9, France 2 ´ Ecole Polytechnique de Montr´ eal, 2900 Bd Edouard-Montpetit, Montr´ eal 3 Brain & Language Research Institute, 5 avenue Pasteur, 13604, France 4 SFR Agorantic - UAPV, 84000 Avignon Cedex, France 5 Universidade Federal do Cear´ a, R. Estanislau Frota, S/N, CEP 62.010-560, Brasil {nom.prenom}@univ-avignon.fr, [email protected] Abstract. In this article, we describe some discursive segmentation methods as well as a first evaluation of the segmentation quality. Although our experiment were carried for documents in French, we have developed three discursive seg- mentation models solely based on resources simultaneously available in several languages: marker lists and a statistic POS labeling. We have also carried out automatic evaluations of these systems ont the ANNODIS corpus, which is a manually annotated reference. The results obtained are very encouraging. Resumo. Este artigo descreve um conjunto de m´ etodos de segmentac ¸˜ ao dis- cursiva, bem como uma avaliac ¸˜ ao preliminar da qualidade das segmentac ¸˜ oes realizadas. Embora nossos experimentos tenham sido realizados em documen- tos em francˆ es, desenvolvemos trˆ es modelos de segmentadores discursivos, con- siderando unicamente recursos que se encontram simultaneamente dispon´ ıveis em diferentes l´ ınguas: listas de marcadores e uma etiquetagem POS estat´ ıstica. Foram efetuadas avaliac ¸˜ oes autom´ aticas desses sistemas sobre o corpus ANN- ODIS, que ´ e uma referˆ encia anotada manualmente. Os resultados obtidos s˜ ao extremamente encorajadores. 1. Introduc ¸˜ ao A an´ alise ret´ orica da estrutura do discurso (Rhetorical Structure Theory ou RST) [Mann and Thompson 1988], ´ e uma t´ ecnica do Processamento Autom´ atico da Linguagem Natural, na qual um documento pode ser estruturado hierarquicamente ou pode ser as- sociado ` a uma ´ arvore hier´ arquica de segmentos proposicionais. Essa ´ arvore fornece informac ¸˜ oes associadas aos limites desses segmentos e relacionadas ` a importˆ ancia e de- pendˆ encia dos mesmos. A figura 1 mostra um exemplo desse tipo de ´ arvore. O texto foi dividido em cinco unidades. Na figura 1, a flecha que sai da unidade (2) em direc ¸˜ ao ` a unidade (1) simbolisa que a unidade (2) ´ e o sat´ elite da unidade (1), a qual ´ e o n´ ucleo

Segmentac¸ao discursiva autom˜ atica:´ uma avaliac¸ao ...¸oes associadas aos limites desses segmentos e relacionadas˜ a import` ancia e de- ... mas sabemos que esses m˜ etodos

Embed Size (px)

Citation preview

Page 1: Segmentac¸ao discursiva autom˜ atica:´ uma avaliac¸ao ...¸oes associadas aos limites desses segmentos e relacionadas˜ a import` ancia e de- ... mas sabemos que esses m˜ etodos

50

Anais do IV Workshop “A RST e os Estudos do Texto”, paginas 50–58, Fortaleza, CE, Brasil, Outubro 21–23,

2013. c©2013 Sociedade Brasileira de Computacao

Segmentacao discursiva automatica:uma avaliacao preliminar em frances

Remy Saksik1, Alejandro Molina1,Andrea Carneiro Linhares1,5, Juan-Manuel Torres-Moreno1,2,3,4

1Laboratoire Informatique d’Avignon - Universite d’Avignon et des Pays de Vaucluse339 chemin des Meinajaries, BP 91228 84911 Avignon Cedex 9, France

2Ecole Polytechnique de Montreal, 2900 Bd Edouard-Montpetit, Montreal

3Brain & Language Research Institute, 5 avenue Pasteur, 13604, France

4SFR Agorantic - UAPV, 84000 Avignon Cedex, France

5Universidade Federal do Ceara, R. Estanislau Frota, S/N, CEP 62.010-560, Brasil

{nom.prenom}@univ-avignon.fr, [email protected]

Abstract. In this article, we describe some discursive segmentation methods aswell as a first evaluation of the segmentation quality. Although our experimentwere carried for documents in French, we have developed three discursive seg-mentation models solely based on resources simultaneously available in severallanguages: marker lists and a statistic POS labeling. We have also carried outautomatic evaluations of these systems ont the ANNODIS corpus, which is amanually annotated reference. The results obtained are very encouraging.

Resumo. Este artigo descreve um conjunto de metodos de segmentacao dis-cursiva, bem como uma avaliacao preliminar da qualidade das segmentacoesrealizadas. Embora nossos experimentos tenham sido realizados em documen-tos em frances, desenvolvemos tres modelos de segmentadores discursivos, con-siderando unicamente recursos que se encontram simultaneamente disponıveisem diferentes lınguas: listas de marcadores e uma etiquetagem POS estatıstica.Foram efetuadas avaliacoes automaticas desses sistemas sobre o corpus ANN-ODIS, que e uma referencia anotada manualmente. Os resultados obtidos saoextremamente encorajadores.

1. Introducao

A analise retorica da estrutura do discurso (Rhetorical Structure Theory ou RST)[Mann and Thompson 1988], e uma tecnica do Processamento Automatico da LinguagemNatural, na qual um documento pode ser estruturado hierarquicamente ou pode ser as-sociado a uma arvore hierarquica de segmentos proposicionais. Essa arvore forneceinformacoes associadas aos limites desses segmentos e relacionadas a importancia e de-pendencia dos mesmos. A figura 1 mostra um exemplo desse tipo de arvore. O textofoi dividido em cinco unidades. Na figura 1, a flecha que sai da unidade (2) em direcaoa unidade (1) simbolisa que a unidade (2) e o satelite da unidade (1), a qual e o nucleo

Page 2: Segmentac¸ao discursiva autom˜ atica:´ uma avaliac¸ao ...¸oes associadas aos limites desses segmentos e relacionadas˜ a import` ancia e de- ... mas sabemos que esses m˜ etodos

51

Figura 1. Uma arvore retorica de Rhetorical Structure Theory

numa relacao do tipo “Concessao”. Por sua vez, as unidades (1) e (2) compreendem onucleo de tres relacoes do tipo “Demonstracao”.

A analise discursiva, nesse esquema, inclui tres etapas consecutivas: 1/segmentacao discursiva; 2/ deteccao das relacoes discursivas; 3/ construcao das arvoresretoricas hierarquicas. No tocante a segmentacao discursiva, existem segmentadores emdiversas lınguas. Contudo, cada segmentador depende de diferentes recursos linguısticos,o que complica a repeticao e a reproducao das experiencias associadas aos mesmos. Emconsequencia, no cenario atual, o desenvolvimento de sistemas multilingues que utilizama analise discursiva mostra-se impossıvel. Aplicacoes diversas baseadas nas mais recentestecnologias necessitam de, ao menos, uma das tres etapas mencionadas anteriormente[Molina et al. 2013, Molina et al. 2010]. Nesse ambito, a ideia de explorar a arquite-tura de um sistema generico que seja capaz nao apenas de segmentar corretamente umtexto como tambem adapta-lo a qualquer lıngua que seja escolhida, foi um grande moti-vador deste trabalho pesquisa. Desse modo, sera possıvel realizar experimentos em variaslınguas sob as mesmas condicoes. Desejamos, ainda, que este segmentador generico uti-lize a menor quantidade de recursos linguısticos possıvel.

Neste artigo mostramos os resultados preliminares de um segmentador genericocomposto por varios sistemas (diferentes estrategias de segmentacao). Alem disso, de-screvemos um protocolo de avaliacao automatica de segmentadores discursivos. O artigoe composto pelas seguintes secoes: estado da arte (2), que apresenta uma sucinta revisaobibliografica; Descricao do corpus ANNODIS (3) utilizado em nossos testes e da arquite-tura geral dos sistemas propostos (4); Estrategias de segmentacao (5), que caracteriza osdiferentes metodos implementados para segmentar o texto; resultados dos nossos experi-mentos numericos (6); e finalizamos com nossas conclusoes e perspectivas (7).

2. Estado da arteNa RST, as unidades discursivas podem ser nucleos ou satelites. Os nucleos ofere-cem informacoes pertinentes aos propositos do autor do texto e os satelites agregaminformacoes adicionais aos nucleos, dos quais sao dependentes. No contexto de uma RST,as relacoes discursivas possıveis podem ser nucleo-satelite e multinucleares. Nas relacoesnucleo-satelite, um satelite depende do nucleo, enquanto que nas relacoes multinucleares,varios nucleos (ao menos dois) sao regrupados num mesmo nıvel de importancia (hier-arquia na arvore). A segmentacao discursiva se propoe a reduzir o texto em unidadesdiscursivas minimais denominadas Unidades Discursivas Elementares (EDU), atraves

Page 3: Segmentac¸ao discursiva autom˜ atica:´ uma avaliac¸ao ...¸oes associadas aos limites desses segmentos e relacionadas˜ a import` ancia e de- ... mas sabemos que esses m˜ etodos

52

do uso de marcadores discursivos explıcitos. Como exemplo, podemos citar alguns mar-cadores em frances: afin de, pour que, donc, quand bien meme que, ensuite, de fois que,globalement, par contre, sinon, a ce moment-la, cependant, subsequemment, puisque, aufur et a mesure que, si, finalement, etc.. Os marcadores sao frequentemente utilizadospara conectar ideias. Consideremos a frase abaixo:

La ville d’Avignon est la capitale du Vaucluse, qui est un departement du sud dela France.1

que e um marcador discursivo pois ele conecta duas ideias. A primeira (nucleo), Avignone a capital do Vaucluse (Avignon est la capitale du Vaucluse), e a segunda (satelite),Vaucluse e um departamento do sul da Franca (Vaucluse est un departement du sud dela France).

Recentes trabalhos de pesquisa abordaram a segmentacao automatica em diver-sas lınguas, tais como: frances [Afantenos et al. 2010], ingles [Tofiloski et al. 2009], por-tugues [Maziero et al. 2007], espanhol [da Cunha et al. 2012, Maziero et al. 2011] e tai-landes [Ketui et al. 2012]. Todos convergem a ideia de utilizar uma lista explıcita demarcadores para segmentar o texto.

3. Corpus Annodis

Neste primeiro trabalho exploratorio, nossos testes consideraram apenas documentos emfrances. O corpus utilizado ANNODIS2 (ANNOtation DIScursive) e um conjunto diver-sificado de documentos em frances que foram enriquecidos manualmente com anotacoesde estruturas discursivas. Suas principais caracterısticas sao:

• Duas anotacoes: Relacoes retoricas 3 e estruturas multinıveis.• Documentos (687 000 palavras) extraıdos de quatro fontes: jornal Est Republicain

(39 artigos, 10 000 palavras); Wikipedia (30 artigos + 30 extratos, 242 000palavras); Anais do Congresso mundial de linguıstica francesa 2008 (25 artigos,169 000 palavras); Relatorios do Institut Francais de Relations Internationales(32 relatorios, 266 000 palavras).• Os corpora foram anotados com Glozz.

ANNODIS objetiva a construcao de um corpus anotado.As anotacoes propostas sesituam em dois nıveis da analise, isto e, duas perspectivas:

• Ascendente: parte das EDU sao utilizadas na construcao de estruturas mais com-plexas, atraves das relacoes de discurso;• Descendente: aborda o texto por completo e se baseia nos diversos ındices

surfacicos para identificar estruturas discursivas de alto nıvel (macroestruturas).

Dois tipos de pessoas anotaram ANNODIS: especialistas em linguıstica e estu-dantes. O primeiro grupo constituiu um subcorpus E denominado “especialista” e o se-gundo grupo resultou num subcorpus I dito “ingenuo”. Esses subcorpus anotados retori-camente foram utilizados como referencias em nossos experimentos. (c.f. §6).

1Traducao da frase: A cidade de Avignon e a capital do Vaucluse que e um departamento do sul daFranca.

2http://w3.erss.univ-tlse2.fr:8080/index.jsp?perso=annodis&subURL=3http://redac.univ-tlse2.fr/corpus/annodis/annodis_rr.html

Page 4: Segmentac¸ao discursiva autom˜ atica:´ uma avaliac¸ao ...¸oes associadas aos limites desses segmentos e relacionadas˜ a import` ancia e de- ... mas sabemos que esses m˜ etodos

53

Nos quase optamos por usar metodos de aprendizagem a fim de estudar osparametros de segmentacao, mas sabemos que esses metodos requerem grandes quan-tidades de dados de aprendizagem. No entanto, o ANNODIS e pequeno. Alem disso, atarefa de segmentacao retorica nao e simples, o que compromete a utilizacao de metodosde aprendizagem eficientes. Assim, nos restringimos a seguir uma estrategia de deteccaode segmentos mais simples, contudo bastante reprodutıvel.

4. Descricao dos sistemas

A figura 2 mostra a arquitetura geral que serve como base aos sistemas desenvolvidos,onde cada estrategia de segmentacao configura um novo sistema. Uma das listas dobanco de marcadores explıcitos e lida pelo segmentador, de acordo com o valor de umparametro do sistema, no momento em que o script associado a segmentacao e executado.Atualmente, dispomos de listas de marcadores em frances, espanhol, ingles e portugues.Utilizamos a lista do projeto Lexiconn [Roze et al. 2012], que regrupa 328 marcadores dalıngua francesa. Um outro parametro especifica qual estrategia de segmentacao deve seraplicada, segundo a etiquetagem morfo-sintatica POS (Part Of Speech) do documento.

Texto utf8

Lista de marcadores discursivos

TreeTagger

Texto POS

Segmentadordiscursivo

Texto segmentado

Etiquetas POS

Versão Segmentadorµ

(Baseline)

Versões gramaticais(V),(V-N)

Segmentadorfrases

Figura 2. Visao geral da arquitetura do sistema

5. Descricao das estrategias de segmentacao

5.1. Segmentacao com uso explıcito de um marcador

O sistema elementar SEGMENTADORµ (baseline) se apoia unicamente numa lista de mar-cadores discursivos para efetuar a segmentacao. Ele substitui a aparicao de um marcadorda lista por um sımbolo especial, por exemplo µ, que indica uma fronteira entre o seg-mento direito e o esquerdo. Seja a frase do exemplo precedente: La ville d’Avignon est lacapitale du Vaucluse, qui est un departement du sud de la France., O SEGMENTADORµsegmenta a frase em duas partes: o segmento esquerdo (SE), La ville d’Avignon est lacapitale du Vaucluse, e o direito (SD), est un departement du sud de la France..

Page 5: Segmentac¸ao discursiva autom˜ atica:´ uma avaliac¸ao ...¸oes associadas aos limites desses segmentos e relacionadas˜ a import` ancia e de- ... mas sabemos que esses m˜ etodos

54

5.2. Segmentacao com uso explıcito de um marcador e de categorias gramaticais

O sistema SEGMENTADORµ+ apresenta uma melhoria ao SEGMENTADORµ: inclusao dascategorias gramaticais com a ferramenta TreeTagger. A vantagem desse sistema consistena deteccao de certas formas gramaticais a fim de condicionar a segmentacao. Como elee baseado no SEGMENTADORµ, tentamos reconhecer as condicoes oportunas para reunirdois segmentos quando ambos fazem parte do mesmo segmento discursivo. Buscamosidentificar mais sutilmente quando e pertinente deixar os dois segmentos separados. OSEGMENTADORµ+ e proposto a partir de duas estrategias diferentes:

• SEGMENTADORµ+V (versao verbal, V): se apoia unicamente na presenca de for-mas verbais a direita e a esquerda do marcador discursivo. As duas regras grama-ticais dessa estrategia sao:

1. Se nao existem verbos nos segmentos esquerdo e direito, reagrupa-los.2. Se existe ao menos um verbo no segmento esquerdo ou direito, os segmen-

tos permanecerao separados.• SEGMENTADORµ+(V−N) (versao verbo-nominal, V-N): se apoia na presenca de

verbos e de substantivos. Para essa versao, quatro regras sao consideradas:1. Se nao existe substantivo no segmento esquerdo nem no direito, reagru-

pamos os segmentos.2. Reagrupamos os segmentos se ao menos um deles nao possui substantivo.3. Se ao menos um substantivo esta presente nos dois segmentos, eles per-

manecem independentes.4. Se nao existe forma verbo-nominal, os segmentos restam independentes.

6. Avaliacao

Neste primeiro trabalho exploratorio, foram considerados apenas documentos em frances,mas o sistema pode ser adaptado a outras lınguas. A avaliacao e fundamentada na corre-spondencia de pares de palavras representando uma fronteira. Comparamos, desse modo,as segmentacoes do ANNODIS com as segmentacoes produzidas automaticamente. Paracada par de segmentos de referencia, uma lista Lr de pares de palavras e provida: a ultimapalavra do primeiro segmento e a primeira do segundo. Por exemplo, considerando-se otexto de referencia wik1 01 02-04-2006.seg, oriundo do ANNODIS:

[Le Ban Amendment]1 [Apres avoir adopte la Convention,] 2 [un certain nombre de PEDet d’associations de defense de l’environnement soutinrent] 3 [que le document n’allaitpas assez loin.] 4 [De nombreux pays et ONG militerent] 5 [en faveur d’une interdictiontotale de l’expedition de dechets dangereux a destinations des PED.] 6 [Plus exacte-ment,] 7 [la Convention originale n’interdisait pas l’exportation de dechets,] 8 [exceptevers l’Antarctique.] 9 [Elle n’exigeait] 10 [qu’une procedure de consentement prealableen connaissance de cause] 11 [(PIC, Prior Informed Consent).] 12

Seguem os pares de palavras da lista de referencias criada (os sinais de pontuacao saodesprezados): Lr={[Convention – un], [soutinrent – que], [loin – de], [militerent – en],[exactement – la], [PED – plus], [exactement – la], [dechets – excepte], [Antartique –Elle], [exigeait – qu’une], [cause – PIC] }

Decidimos contabilizar os pares de palavras em vez dos segmentos, pois se tratade uma primeira versao do protocolo de avaliacao. De fato, os segmentos podem estar

Page 6: Segmentac¸ao discursiva autom˜ atica:´ uma avaliac¸ao ...¸oes associadas aos limites desses segmentos e relacionadas˜ a import` ancia e de- ... mas sabemos que esses m˜ etodos

55

aninhados, o que complica o processo de avaliacao. Apesar de apresentar alguns erros, asfronteiras das palavras permitem realizar a deteccao de segmentos com mais facilidade.

Constituimos uma segunda lista Lc para os segmentos identificados automatica-mente, seguindo os mesmos criterios de Lr. As listas Lr e Lc regroupam, par a par, afronteira de segmentos. Em seguida, contabilizamos a intersecao de pares comuns asduas listas. Cada par na lista Lc tambem presente na lista de referencias Lr e um parcorretamente atribuıdo a classe. Um par de palavras pertencente a lista Lc mas quenao pertence a lista de referencia Lr, sera um par atribuıdo a classe. Para esse mesmotexto, a lista Lc dos pares candidatos obtida com o SEGMENTADORµ e: Lr={[loin–De],[pays–et], [militerent–en], [dangereux–a], [PED–Plus], [Antarctique–Elle], [prealable–en], [cause–PIC] }

Nos calculamos a precisao P , o recall R e o F -escore sobre o conjunto de textosutilizados em nossos testes, como segue:

P = (Qtd de pares ∈ Lc ∩ pares ∈ Lr)/Qtd de pares ∈ Lc (1)R = (Qtd de pares ∈ Lc ∩ pares ∈ Lr)/Qtd de pares ∈ Lr (2)

F -escore = 2× P ·RP +R

(3)

A precisao, o recall e o F -escore para este exemplo sao: P = 5 / 11 = 0.45; R =5 / 8 = 0.625; F-escore = 2 ×0.45×0.625

0.45+0.625= 0.5232. Utilizamos os documentos do

corpus ANNODIS sem segmentacao, pois os mesmos haviam sido segmentados com oSEGMENTADORµ e com os segmentadores gramaticais.

Foram realizadas duas series de testes. A primeira sobre o conjunto D de do-cumentos comuns aos dois subcorpus “especialista” E e “ingenuo” I do ANNODIS.D contem 38 documentos com 13 364 palavras. Este primeiro teste permitiu medir adistancia entre os anotadores humanos. De fato, a fim de ter uma ideia da qualidadedas segmentacoes humanas, foram medidas os cortes nos textos realizados pelos espe-cialistas versus os anotadores denominados “ingenuos” e vice-versa. A segunda seriede testes consistiu em utilizar todos os documentos do subcorpus “especialista” E, poisos documentos do subcorpus do ANNODIS nao sao identicos. Em seguida, avaliamos odesempenho dos tres sistemas de forma automatica.

6.1. Resultados

Nesta secao iremos comparar os resultados dos diferentes sistemas de segmentacaoatraves de avaliacoes automaticas. Primeiramente, as segmentacoes humanas, oriundasdo subcorpus D composto de documentos comuns. Os resultados obtidos sao apresenta-dos na tabela 1. A primeira linha mostra o desempenho das segmentacoes I , tendo comoreferencia os especialistas, enquanto a segunda apresenta o processo no sentido inverso.

Referencia F-escore P REspecialista (E) 0.9605 0.9835 0.9408

Ingenuo (I) 0.9606 0.9717 0.9517

Tabela 1. Desempenho das segmentacoes humanas

Page 7: Segmentac¸ao discursiva autom˜ atica:´ uma avaliac¸ao ...¸oes associadas aos limites desses segmentos e relacionadas˜ a import` ancia e de- ... mas sabemos que esses m˜ etodos

56

Nos constatamos que a segmentacao realizada pelos especialistas e ingenuos pro-duz dois subcorpus E e I com caracterısticas muito similares. Isso nos surpreendeu, poisesperavamos uma diferenca mais importante entre eles. De toda forma, deduzimos que,ao menos nesse corpus, nao e necessario ser um especialista em linguıstica para segmentardiscursivamente os documentos. No que concerne as avaliacoes dos sistemas, utilizamosos 78 documentos de E como referencia. A tabela 2 exibe os resultados obtidos.

Sistema F-escore P RSEGMENTADORµ 0.4156 0.3881 0.4631

Gramatical (V) 0.4934 0.6138 0.4202Gramatical (V-N) 0.4941 0.5939 0.4307

Tabela 2. Desempenho dos segmentadores automaticos versus Especialista

No caso dos Especialistas, a versao gramatical verbo-nominal (V-N) mostrou ummelhor desempenho F-escore. A versao verbal (V) obteve uma melhor precisao P quea verbo-nominal (V-N). No caso dos Ingenuos, le desempenho F-escore, P e R e muitosimilar dos Especialistas.

7. Conclusao e perspectivas

O objetivo deste trabalho era duplo: conceber um segmentador discursivo baseline uti-lizando um mınimo de recursos e estabelecer um protocolo de avaliacao objetivo paramedir o desempenho dos segmentadores. Os resultados mostram que podemos construiruma versao baseline simples, que emprega unicamente uma lista de marcadores, apre-sentando um desempenho muito encorajador. Evidentemente, a qualidade da lista e umfator prepoderante para uma segmentacao correta. Nos estudamos o impacto do mar-cador vırgula o qual, mesmo parecendo fragil, contribui a melhoria do desempenho dosnossos segmentadores. Assim, trata-se de um marcador interessante que podemos con-siderar como um marcador discursivo. A versao SEGMENTADORµ fornece os melhoresresultados em termos do F-escore e recall, seguido da versao SEGMENTADORµ+V , quea depassa em precisao. No tocante a avaliacao, desenvolvemos um protocolo simplesque permite comparar o desempenho dos sistemas. Trata-se, a nosso conhecimento, daprimeira avaliacao automatica em frances. E necessario intensificar nossas pesquisas afim de propor melhorias aos nossos segmentadores, bem como estudar mais aprofundada-mente o impacto das regras das etiquetas gramaticais na segmentacao. Visto que dispomosde um protocolo de avaliacao padrao, pretendemos realizar testes com o portugues, o es-panhol (ver [da Cunha et al. 2011]), o ingles, etc. Para isso, necessitaremos unicamentede uma lista de marcadores de cada lıngua.

O desempenho dos sistemas resta modesto, e claro, mas nao podemos esquecerque se trata de uma baseline e seu objetivo primario e fornecer sistemas-padrao quepossam ser utilizados em protocolos de testes, como o que propusemos. Apesardessa evolucao, essas baselines (ou suas versoes melhoradas) podem ser utilizadasem aplicacoes tais como a sumarizacao automatica de documentos (por exemplo,[Favre et al. 2006]), ou compressao de phrases [Molina et al. 2011].

O sistema baseline proposto tem como principal caracterıstica sua flexibilidadecome relacao ao idioma considerado. Na verdade, ele so usa uma lista de marcadores

Page 8: Segmentac¸ao discursiva autom˜ atica:´ uma avaliac¸ao ...¸oes associadas aos limites desses segmentos e relacionadas˜ a import` ancia e de- ... mas sabemos que esses m˜ etodos

57

linguısticos e a categoria gramatical das palavras. O primeiro recurso, embora dependentede cada lıngua, e relativamente facil de obter. Descobrimos que, mesmo com listas detamanho moderado, os resultados sao bastante significativos. As categorias gramaticaisforam obtidas com a ajuda da ferramenta estatıstica TreeTagger. Contudo, TreeTaggerpoderia ser substituıdo por qualquer outra ferramenta produzindo resultados similares.

AnnexeNeste anexo, apresentamos a lista de conectores retoricos em frances que constitue nossalista de marcadores. Ressaltamos que os marcadores terminando em apostrofo (tais comopres qu’, a condition d’, etc.) sao suprimidos de uma expressao regular que implique em’e’: pres qu’ + pres que, a condition d’ + a condition de, etc.

, / a / a ca pres qu’ / a ceci pres qu’ / a cela pres qu’ / ace moment-la / a ce point qu’ / a ce propos / a cet egard/ a condition d’ / a condition qu’ / a defaut d’ / a defautde / a dire vrai / a elaborer / a en / afin d’ / afin qu’ /afin que / a force / a force d’ / ainsi / a la place / a lareflexion / a l’epoque ou / a l’heure ou / a l’instant ou /a l’inverse / alors / alors meme qu’ / alors qu’ / a mesurequ’ / a moins d’ / a moins qu’ / a part ca / a partir dumoment ou / a part qu’ / apres / a present qu’ / apres qu’/ apres quoi / apres tout / a preuve / a propos / a seulefin d’ / a seule fin qu’ / a supposer qu’ / a telle enseignequ’ / a tel point qu’ / attendu qu’ / au bout du compte /au cas ou / au contraire / au fait / au fur et a mesure qu’/ au lieu / au lieu d’ / au meme titre qu’ / au moins / aumoment d’ / au moment ou auparavant / au point d’ / aupoint qu’ / aussi / aussi longtemps qu’ / aussitot / aus-sitot qu’ / autant / autant dire qu’ / au total / autrement /autrement dit / avant / avant d’ / avant meme d’ / avantmeme qu’ / avant qu’ / a vrai dire / bien qu’ / bientot /bref / car / ceci dit / ceci etant dit / cela dit / cependant/ cependant qu’ / c’est a dire qu’ / c’est pourquoi / cettefois qu’ / comme / comme ca / comme quoi / commesi / comparativement / consequemment / considerant qu’/ considere qu’ / correlativement / d’abord / d’ailleurs /dans ce cas / dans ce cas-la / dans la mesure ou / dansle but d’ / dans le but qu’ / dans le cas ou dans le coup /dans le sens ou / dans le sens qu’ / dans l’espoir d’ / dans

l’espoir qu’ / dans l’hypothese ou / dans l’intention d’ /dans l’intention qu’ / dans tous les cas / d’autant plus qu’/ d’autant qu’ / d’autre part / de ce fait / decidement / defacon a / de facon a ce qu’ / de facon qu’ / de fait / deja /deja qu’ / de la meme facon / de la meme facon qu’ / dela meme maniere / de la meme maniere qu’ / de manierea / de maniere a ce qu’ / de maniere qu’ / de meme / dememe qu’ / de plus / depuis / depuis qu’ / des fois qu’ /des lors / des lors qu’ / de sorte qu’ / des qu’ / de tellefacon qu’ / de telle maniere qu’ / de toute facon / de toutemaniere / de toutes facons / de toutes manieres / d’ici qu’/ dire qu’ / donc / d’ou / d’ou qu’ / du coup / du fait qu’/ du moins / du moment qu’ / d’un autre cote d’un cote/ d’un coup / d’une part / d’un seul coup / du reste / dutemps ou / effectivement / egalement / en / en admettantqu’ / en attendant / en bref / en ce cas / en ce sens qu’ /en comparaison / en consequence / encore / encore qu’ /en d’autres termes / en definitive / en depit du fait qu’ /en depit qu’ / en effet / en fait / enfin / en gros / en memetemps / en meme temps qu’ / en outre / en particulier /en plus / en plus d’ / en plus de / en realite / en resume/ en revanche / en somme / ensuite / en supposant qu’ /en tous cas en tous les cas / en tout cas / en tout etat decause / en verite / en vue d’ / et / etant donne qu’ / et direqu’ / et puis / excepte qu’ / faute d’ / finalement / glob-alement / histoire d’ / hormis le fait qu’ / hormis qu’ / in-stantanement / inversement / jusqu’a / jusqu’a ce qu’ / la

preuve / le fait est qu’ / le jour ou / le temps qu’ / lorsqu’/ maintenant / maintenant qu’ / mais / malgre le fait qu’/ malgre qu’ / malgre tout / malheureusement / meme /meme qu’ / meme si / mieux / mis a part le fait qu’ / misa part qu’ / neanmoins / nonobstant / nonobstant qu’ / or/ ou / ou bien / outre qu’ / par ailleurs / parallelement /parce qu’ / par comparaison / par consequent / par contre/ par-dessus tout / par exemple / par le fait qu’ / par suite/ pendant qu’ / peu importe plus qu’ / plus tard plutot /plutot qu’ / plutot que d’ / pour / pour autant pour autantqu’ / pour commencer / pour conclure / pour finir / pourle coup / pour peu qu’ / pour preuve / pour qu’ / pourresumer / pourtant / pour terminer / pour une fois qu’ /pourvu qu’ / premierement / preuve qu’ / puis / puisqu’ /quand / quand bien meme / quand bien meme qu’ / quandmeme / quant a / quitte a / quitte a ce qu’ / quoiqu’ / quoiqu’il en soit / reciproquement / reflexion faite / remarque/ resultat / s’ / sachant qu’ / sans / sans compter qu’ / sansoublier qu’ / sans qu’ / sauf a / sauf qu’ / selon qu’ / si / sibien qu’ / si ce n’est qu’ / simultanement / sinon / sinonqu’ / si tant est qu’ / sitot qu’ / soit / soit dit en passant/ somme toute / soudain / subsequemment / suivant qu’/ surtout / surtout qu’ / tandis qu’ / tant et si bien qu’ /tant qu’ / total / tout a coup / tout au moins / tout bienconsidere / tout compte fait / tout d’abord / tout de meme/ tout en / une fois qu’ / un jour / un jour qu’ / un peu plustard / vu qu’ /

Referencias[Afantenos et al. 2010] Afantenos, S., Denis, P., and Danlos, L. (2010). Learning recursive

segments for discourse parsing. CoRR abs/1003.5372.

[da Cunha et al. 2012] da Cunha, I., SanJuan, E., Torres-Moreno, J.-M., Lloberes, M., andCastellon, I. (2012). Diseg 1.0: The first system for spanish discourse segmentation.Expert Systems with Applications, 39(2):1671–1678.

[da Cunha et al. 2011] da Cunha, I., Torres-Moreno, J.-M., and Sierra, G. (2011). On thedevelopment of the RST Spanish Treebank. In Proc. of the 5th Linguistic AnnotationWorkshop ACL HLT 2011, pages 129–133. Association for Computational Linguistics.

[Favre et al. 2006] Favre, B., Bechet, F., Bellot, P., Boudin, F., El-Beze, M., Gillard, L., La-palme, G., and Torres-Moreno, J.-M. (2006). The LIA-Thales summarization systemat DUC-2006. In Document Understanding Conference (DUC) 2006, pages 131–138.NIST.

[Ketui et al. 2012] Ketui, N., Theeramunkong, T., and Onsuwan, C. (2012). A rule-basedmethod for thai elementary discourse unit segmentation (ted-seg). In Knowledge, In-formation and Creativity Support Systems (KICSS), 2012, pages 195–202. IEEE.

[Mann and Thompson 1988] Mann, W. C. and Thompson, S. A. (1988). Rhetorical Struc-ture Theory : Toward a functional theory of text organization. Text, 8(3):243–281.

Page 9: Segmentac¸ao discursiva autom˜ atica:´ uma avaliac¸ao ...¸oes associadas aos limites desses segmentos e relacionadas˜ a import` ancia e de- ... mas sabemos que esses m˜ etodos

58

[Maziero et al. 2007] Maziero, E., Pardo, T., and Nunes, M. (2007). Identificacao au-tomatica de segmentos discursivos: o uso do parser palavras. Serie de relatorios donucleo interinstitucional de linguıstica computacional, USP, Sao Carlos, Bresil.

[Maziero et al. 2011] Maziero, E. G., Pardo, T. A. S., da Cunha, I., Torres-Moreno, J.-M.,and SanJuan, E. (2011). Dizer 2.0 - an adaptable on-line discourse parser. In Anais doIII Workshop “A RST e os Estudos do Texto”, Cuiaba, MT, Brasil, pages 1–17. STIL.

[Molina et al. 2010] Molina, A., da Cunha, I., Torres-Moreno, J.-M., and Velazquez-Morales, P. (2010). La compresion de frases: un recurso para la optimizacion deresumen automatico de documentos. Linguamatica, 2(3):13–27.

[Molina et al. 2013] Molina, A., Torres-Moreno, J.-M., SanJuan, E., da Cunha, I., andSierra, G. (2013). Discursive sentence compression. In CICLing, pages 394–407.Springer.

[Molina et al. 2011] Molina, A., Torres-Moreno, J.-M., SanJuan, E., da Cunha, I., Sierra, G.,and Velazquez-Morales, P. (2011). Discourse segmentation for sentence compression.In Advances in Artificial Intelligence, pages 316–327. Springer Berlin/Heidelberg.

[Roze et al. 2012] Roze, C., Danlos, L., and Muller, P. (2012). Lexconn: a french lexicon ofdiscourse connectives. Rev.de linguistique, psycholinguistique et informatique, (10).

[Tofiloski et al. 2009] Tofiloski, M., Brooke, J., and Taboada, M. (2009). A syntactic andlexical-based discourse segmenter. In ACL-IJCNLP.