DeSeRT

DeSeRT (Détection Sémantique de Reformulations et de Topiques) est un moteur sémantique qui repère, rapproche et met en relation, des réécritures, des paraphrases ou des reformulations. Il fait ressortir les passages qui emploient les mêmes mots et les mêmes idées. Pour cela, il repère les constellations de lemmes les plus proches en ayant recours aux distances classiquement utilisées en recherche d’information (distance d’Okapi, entropie, etc.). Cela vise à repérer la circulation de concepts communs à une époque, dans les œuvres.

Partant d’un corpus qui est indexé automatiquement, et soit d’un texte, soit d’un fichier textuel, soit d’un ensemble de mots, le logiciel DeSeRT trouve automatiquement les segments du corpus les plus semblables, au plan sémantique. Un dictionnaire des synonymes est intégré, ce qui permet, partant d’une notion, d’interroger sur tous les sèmes associés. Enfin, on peut restreindre la recherche avec un thésaurus, ce qui aide à centrer l’interrogation sur un champ sémantique précis.

Aujourd’hui, sont accessibles plusieurs corpus textuels de l’OBVIL, par exemple le corpus critique (258 ouvrages), le corpus Molière, les textes du projet sur l’école, etc. Il est possible de soumettre à distance un petit corpus (taille inférieure à 2 Mo), pour faire des essais. Si des utilisateurs veulent indexer de plus gros corpus, il faut nous contacter.

Une version en ligne de DeSeRT est disponible.

Partager cet article