MEDITE

MEDITE est un logiciel d’alignement de textes issu d’une collaboration entre des spécialistes de génétique textuelle de l’ITEM (Institut des Textes et Manuscrits Modernes) et des spécialistes d’intelligence artificielle de l’équipe ACASA du LIP6 (Laboratoire d’informatique de Paris 6 – Université Pierre et Marie Curie).

L’objectif initial de MEDITE était d’aligner des transcriptions linéarisées d’avant-textes afin de mettre en évidence les différences et les invariances. Il s’est révélé utile dans de nombreuses autres applications, par exemple, pour établir l’appareil critique d’éditions savantes en comparant les différentes versions publiées d’une œuvre, pour l’étude des variations de textes collectifs, pour la comparaison des bi-textes afin d’améliorer les outils de traduction statistique, etc.

MEDITE est construit sur un algorithme original d’alignement par fragments qui recourt à une détection des homologies par la méthode des arbres de suffixes. Il met en évidence les suppressions, les insertions, les remplacements et les déplacements. La première étape de l’algorithme identifie les blocs homologues maximaux. Il s’agit ensuite de distinguer, parmi ces blocs, des pivots et des blocs dits déplacés. Le processus est itéré de façon récursive afin d’éviter les phénomènes de masquage. Enfin, les insertions, les suppressions et les remplacements se déduisent de l’alignement des blocs non répétés.

Pour visualiser les résultats des alignements, les deux textes sont présentés côte à côte sur une interface graphique qui met en évidence, au moyen de différentes couleurs, les blocs insérés, supprimés, remplacés et déplacés. Enfin, les blocs alignés sont reliés entre eux par un simple clic de souris

MEDITE a été comparé avec d’autres outils de comparaison de versions, le plus célèbre étant de Microsoft Word. Aucun d’eux n’était en mesure d’aligner correctement des textes très variant et de surmonter les phénomènes de masquage comme le fait MEDITE. De plus l’interface de visualisation est souvent très inapproprié ce qui rend la lecture des résultats très difficile.

Notre algorithme étant fondé sur des principes d’algorithmique des séquences, il est indépendant de la langue et peut donc traiter n’importe quel texte, sans ressources spécifiques. En outre, il peut repérer des réutilisations de parties de mots, ce qui s’avère très utile, en particulier pour les langues flexionnelles.

MEDITE est maintenant utilisé par des spécialistes de génétique textuelle et par des éditeurs. Il a été abondamment utilisé pour l’édition des romans de Ramuz par Slatkine.

Nous prévoyons maintenant d’intégrer MEDITE au logiciel PHŒBUS et de le rendre disponible sur des bibliothèques numériques.

Bibliographie

  1. Ganascia J.-G., « MEDITE – A Unilingual Text Aligner for Humanities. Application to Textual Genetics and to the Edition of Text Variants », 15-17 Novembre 2011, Supporting Digital Humanities (SDH 2011), Copenhagen.
  2. Fenoglio I., Ganascia J.-G.: « Le logiciel MEDITE: approche comparative de documents de genèse », in L’édition du manuscrit – De l’archive de création au scriptorium électronique, Aurèle Crasson, Academia A|B Bruylant, col. Au coeur des textes, n°10, pp. 209-228, (2008).
  3. Fenoglio I., Ganascia J-G. : « MEDITE: un logiciel pour l’approche comparative de documents de genèse », Revue Genesis, pp. 166-168, 2007
  4. Ganascia, J.-G., Bourdaillet, J. « Alignements unilingues avec MEDITE. ». Actes des Huitièmes Journées Internationales d’Analyse Statistique des Données Textuelles, 2006.
  5. Ganascia J.G., Fenoglio I., Lebrave J-L, « Manuscrits, genèse et documents numérisés. EDITE : une étude informatisée du travail de l’écrivain », revue Document numérique, special issue on « temps et document » 2005.
  6. Ganascia J-G, « EDITE-MEDITE, un passage des versions aux variantes », dans les actes du XIVième congrès International de Linguistique et de Philologie Romanes, août 2004, Aberystwyth, Wales, United Kingdown, Max Niemeyer Verlag, septembre 2007
  7. Bourdaillet J., Ganascia J.-G.: « Alignements monolingues avec déplacements », 14e Conférence sur le Traitement Automatique des Langues Naturelles
  8. Bourdaillet J., Ganascia J.-G., Fénoglio I. : “Machine Assisted Study of Writers’ Rewriting Processes”, 4th International Workshop on Natural Language Processing and Cognitive Science (NLPCS), Madeire, Portugal
  9. Bourdaillet J., Ganascia J-G, “Practical block sequence alignment with moves”, LATA 2007, International Conference on Language and Automata Theory and Applications, 30 mars – avril 2007.
  10. Bourdaillet J., Ganascia J.-G., “Alignment of Noisy Unstructured Text Data”, IJCAI-2007 Workshop on Analytics for Noisy Unstructured Text Data, Hyderabad, India – January 8, 2007
Partager cet article