34
Comparaison de mesures de similarit´ e translingues pour le clustering de textes multilingues Manuela Yapomo LiLPa - Linguistique, Langues, Parole ICube - Laboratoire des sciences de l’Ing´ enieur, de l’Informatique et de l’Imagerie Universit´ e de Strasbourg [email protected] Atelier FDC – 27 janvier 2015 lilpa linguistique, langues, parole

Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Comparaison de mesures de similarite

translingues pour le clustering de textes

multilingues

Manuela Yapomo

LiLPa - Linguistique, Langues, ParoleICube - Laboratoire des sciences de l’Ingenieur, de l’Informatique et de l’Imagerie

Universite de Strasbourg

[email protected]

Atelier FDC – 27 janvier 2015linguistique, langues, parole

OLOSDlinguistique, langues, parole

lilpa

linguistique, langues, parole

lilpalinguistiquelanguesparole

linguistiquelanguesparole

linguistiquelanguesparole

lilpalinguistiquelanguesparole

linguistique, langues, parole

linguistiquelanguesparolelilpa

ƐLJŵďŽůĞĐŽŵŵƵŶŝĐĂƟŽŶͺͺͺ;нƌĂƉƉĞůůŝŐŶĞĚĞŵĠƚƌŽͿ

i = 1

linguistique, langues, parole

linguistiquelanguesparole

linguistiquelanguesparole

linguistiquelanguesparole

linguistiquelanguesparole

linguistique, langues, parole

linguistiquelanguesparole

linguistiquelanguesparole

linguistiquelanguesparole

linguistiquelanguesparole

lilpalilpalinguistique, langues, parole

Page 2: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 Introduction

2 Problematique

3 Ressources et Methode

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 2 / 33

Page 3: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 IntroductionContexteObjectifObjectif

2 Problematique

3 Ressources et Methode

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 3 / 33

Page 4: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Corpus multilingues

Corpus paralleles

corpus constitues de textes sources et leurs traductions[McEnery et Xiao, 2007]

Corpus comparables

Ces corpus regroupent des documents de differentes languesayant des caracteristiques communes [Skadina et al., 2010].

Applications

Extraction de lexiques

Recherche d’information interlingue

Traduction automatique

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 4 / 33

Page 5: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Exemples (biogaz – Wikipedia)

FRLe biogaz est le gaz produit par la fermentation de matieres organiques

animales ou vegetales en l’absence d’oxygene. Cette fermentation appelee

aussi methanisation se produit naturellement (dans les marais) ou

spontanement dans les decharges contenant des dechets organiques, [...].

ENBiogas typically refers to a mixture of gases produced by the breakdown

of organic matter in the absence of oxygen. Biogas can be produced from

regionally available raw materials such as recycled waste.

DEBiogas ist ein brennbares Gas, das durch Vergarung von Biomasse jeder

Art entsteht. Es wird in Biogasanlagen hergestellt, wozu sowohl Abfalle

als auch nachwachsende Rohstoffe vergoren werden.

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 5 / 33

Page 6: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Objectifs

Comparer les performances d’une mesure de similaritebasee sur des concepts a celles de trois autres mesurebasees sur les formes/le lexique.

Evaluer la capacite de ces mesures a distinguer differentsdegres de comparabilite de textes multilingues sur lememe theme.

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 6 / 33

Page 7: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Objectifs II

Comparer les performances d’une mesure de similaritebasee sur des concepts a celles de trois autres mesurebasees sur les formes/le lexique.

Evaluer la capacite de ces mesures a distinguer differentsdegres de comparabilite de textes multilingues sur lememe theme.

Les mesures de similarite doivent avoir une fortecorrelation avec le jugement humain

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 7 / 33

Page 8: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 Introduction

2 Problematique

3 Ressources et Methode

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 8 / 33

Page 9: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 Introduction

2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides

3 Ressources et Methode

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 9 / 33

Page 10: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Problematique

Comment regrouper des textes de langues differentes enfonction de leur similarite thematique ?

Comment definir la similarite dans un contextetranslingue ?

Comment detecter des differences fines de comparabilite(textes d’un domaine specifique) ?

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 10 / 33

Page 11: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Problematique

Approches basees sur les formes (lexiques)

Approche de TA (Traduction Automatique)Approche dictionnairique

Approches basees sur les concepts

Approches hybrides

Les documents sont compares sur la base de leurs equivalentsde traduction (lexique, mots-cles) et/ou concepts communs

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 11 / 33

Page 12: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 IntroductionContexteObjectifObjectif

2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides

3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 12 / 33

Page 13: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Similarite basee sur la traductionTraduction automatique

Langue A Langue B Langue A|B|C

traducteur

Google/Bing

D1____

______

______

______

______

D2____

______

______

______

______

Similarité

monolingue

D1 D2

Avantages

traduction en contexte

synonymie

Inconvenients

outillage complexe

qualite de traduction

genericite

mots OOV(out-of-vocabulary)

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 13 / 33

Page 14: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Similarite basee sur la traduction (I)Lexique bilingue

Langue A Langue B Langue A|B|C (listes de mots)

Lexique bilingue

D1____

______

______

______

______

D2____

______

______

______

______

Similarité

monolingue D1 D2

Avantages

ressource simple

Inconvenients

ambiguıte

genericite

mots OOV(out-of-vocabulary)

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 14 / 33

Page 15: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Similarite basee sur la traduction (II)Lexique bilingue

- Lexiques construits a partir du corpus Europarl[koehn, P., 2005] avec Anymalign [Lardilleux et al., 2012].- Exclusion des mots/groupes de mots avec moins de 10occurrences- Exclusion de traductions candidates avec une probabilite demoins de 0.3 [Su and Babych, 2012].

EN-FR : 25 945 alignements

DE-FR : 19 694 alignements

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 15 / 33

Page 16: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Similarite basee sur la traduction (III)Lexique bilingue

[Su and Babych, 2012]

[Li et Gaussier, 2010]

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 16 / 33

Page 17: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 IntroductionContexteObjectifObjectif

2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides

3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 17 / 33

Page 18: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Similarite a partir de concepts

Langue A Langue B Thesaurus/ontologie Représentation conceptuelle

D1___

_____

_____

_____

_____

_____

___

D2___

_____

_____

_____

_____

_____

___

Similarité

textuelle D1 D2

Avantages

reseau semantique

specificite

Inconvenients

outillage complexe

ambiguıte

mots OOV(out-of-vocabulary)

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 18 / 33

Page 19: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Similarite a partir de concepts I

Le nombre moyen de descripteurs/concepts assignes au textesdu corpus biogaz est de :

112 pour DE

247 pour EN

129 pour FR

La similarite de documents d1 et d2 avec l’index de Jaccard :

J(A,B) =|A ∩ B ||A ∪ B |

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 19 / 33

Page 20: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 IntroductionContexteObjectifObjectif

2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides

3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 20 / 33

Page 21: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Approches hybrides

Combinaison des approches basees sur :

la traduction

traducteur automatique

lexique bilingue

des concepts interlingues

thesaurus

ontologie

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 21 / 33

Page 22: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 Introduction

2 Problematique

3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 22 / 33

Page 23: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 IntroductionContexteObjectifObjectif

2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides

3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 23 / 33

Page 24: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Source des concepts – Thesaurus Agrovoc

http://aims.fao.org/fr/standards/agrovoc

28 000 concepts dont les termes sont disponibles dans 22langues dans des domaines tels que l’environnement, lanutrition, l’agriculture, arboriculture, etc.

Les concepts sont interconnectes par differents types derelations dont les principales sont :

related term (RT) – terme lie

broader term (BT) – hyperonyme du terme

narrower term (NT) – hyponyme du terme

used for (UF) – synonyme

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 24 / 33

Page 25: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Thesaurus Agrovoc (I)

Figure : Directives d’annotation

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 25 / 33

Page 26: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Comment identifier les concepts ? – Maui

http://maui-indexer.appspot.com/

L’indexeur Maui [Medelyan, Eibe et Witten, 2009] identifieautomatiquement les concepts dans des textes.Ces concepts sont principalement des :

noms

groupes nominaux

Donnees d’entree :

Vocabulaire d’une ressource ontologique (ici Agrovoc)

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 26 / 33

Page 27: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Comment identifier les concepts ? (I)

Exemple 1 – indexation automatique

Il convient d’observer le poids—poids—poids des investissements commis

dans cette technologie en Europe en 2012 ainsi que les previsions etablies

[...] l’energie solaire—energie solaire photovoltaıque represente 37% des

nouvelles capacites installees en Europe.

Exemple 1a – indexation automatique corrigee

Il convient d’observer le poids—poids—poids des investissements commis

dans cette technologie en Europe en 2012 ainsi que les previsions etablies

[...] l’energie solaire—energie solaire photovoltaıque represente 37% des

nouvelles capacites installees en Europe.

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 27 / 33

Page 28: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 IntroductionContexteObjectifObjectif

2 ProblematiqueSimilarite basee sur la traductionSimilarite a partir de conceptsApproches hybrides

3 Ressources et MethodeAgrovoc – MauiCorpus et evaluation

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 28 / 33

Page 29: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Corpus biogaz

Cadre :

Sources des documents : presse en ligne

Langues : francais, anglais, allemand

Theme : biogaz Biogaz (79)

DE (26) EN (23)

FR (30)

Evaluation de la capacite des mesures de similarite a identifierles differents degres de similarite de documents multilingues etmonothematiques :

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 29 / 33

Page 30: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Etude preliminaire (II)

Methods Dictionary-based metric MT-based metric Thesaurus indexing[Li et Gaussier, 2010] [Su and Babych, 2012]

Language pair DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR

Parallel 0.473 0.573 0.533 0.616 0.540 0.614 0.176 0.268

Very comparable 0.166 0.196 0.376 0.327 0.266 0.333 0.072 0.099

Less comparable 0.141 0.169 0.328 0.289 0.208 0.245 0.049 0.090

Unrelated 0.073 0.110 0.198 0.118 0.114 0.095 0.034 0.054

Correlation 0.467 0.625 0.276 0.582 0.445 0.678 0.437 0.535

Table : scores de similarite moyens avec valeurs de correlation

Methodes Mesures basee sur un dictionnaire Mesure basee sur la TA Indexation par thesaurus([Li et Gaussier, 2010] [Su and Babych, 2012]

paire de langues DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR DE-FR EN-FR

TC/Par 0.350 0.342 0.705 0.530 0.492 0.542 0.409 0.369

MC/TC 0.849 0.862 0.872 0.883 0.781 0.735 0.680 0.909

Table : Ratios entre moyennes de categories proches

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 30 / 33

Page 31: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Plan

1 Introduction

2 Problematique

3 Ressources et Methode

4 Conclusion

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 31 / 33

Page 32: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

Suite des travaux

Exploitation des relations semantiques entre conceptsdans l’ontologie

Clustering multilingue et monothematiquesur un corpusde textes plus grand du domaine des energiesrenouvelables (deja construit)

Evaluation extrinseque : extraction de terminologiesmultilingues

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 32 / 33

Page 33: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

References – Bibliographie

koehn, P. (2005).

Europarl : A parallel corpus for statistical machine translation,Proceedings of the Tenth Machine Translation Summit, vol 5

Kurtz, C. (2012).

Une distance hierarchique basee sur la semantique pour la comparaison d’histogrammes nominaux.Actes de Conference Internationale Francophone sur l’Extraction et la Gestion de Connaissance, pages77–88, Bordeaux, France.

Lardilleux, A., Francois, Y., et Lepage, Y. (2012)

Hierarchical Sub-sentential Alignment with Anymalign,Proceedings of the 16th annual conference of the European Association for Machine Translation (EAMT2012), pages 279–286

Li, B. et Gaussier, E. (2010).

Improving Corpus Comparability for Bilingual Lexicon Extraction from Comparable Corpora.In Proceedings of the 23rd International Conference on Computational Linguistics, pages 644–652, Beijing,China.McEnery, A. M. et Xiao, R. Z. (2007).

Parallel and Comparable Corpora : what are they up to ?In Incorporating Corpora : Translation and the Linguist. Anderman, G. & Rogers, M., Clevedon, UK,Multilingual Matters edition.

Medelyan, O., Eibe, F. et Witten, I. H. (2009).

Human-competitive tagging using automatic keyphrase extractionIn Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, vol. 3, pages1318—1327.Medelyan, O. et Witten, I. H. (2008).

Domain-independent automatic keyphrase indexing with small training setsIn Journal of the American Society for Information Science and Technology, vol. 59, no7, pages 183–197.

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 33 / 33

Page 34: Comparaison de mesures de similarité translingues pour le ...eric.univ-lyon2.fr/~gt-fdc/afdc15/pres/6-manuela-presentation.pdfEtude pr eliminaire (II) Methods Dictionary-based metric

Introduction Problematique Ressources et Methode Conclusion

References – Bibliographie II

Skadina, I., Aker, A., Giouli, V., Tufis, D., Gaizauskas, R., Mierina, M. et Mastropavlos, N. (2010).

A Collection of Comparable Corpora for Under-resourced Languages.In Proceedings of the Fourth International Conference Baltic HLT, pages 161–168, Riga, Latvia.

Su, F. and Babych, B. (2012).

Measuring comparability of documents in non-parallel corpora for efficient extraction of (semi-) paralleltranslation equivalents.In Proceedings of the 13th Conference of the European Chapter of the Association for ComputationalLinguistics, pages 10–19, Avignon, France.

Manuela Yapomo Comparaison de mesures de similarite translingues pour le clustering de textes multilingues 34 / 33