Détection de Topic Models en français

De quoi s'agit-il ?

Greimas suppose qu'il existe une forme de cohérence interne de la sémantique qui cristallise proprement autour de noyaux lexicaux, de mots "lourds" comme il y a des molécules lourdes, dans le texte, capables de souder des "nuages" de mots dont le répertoire "fait sens", "fait le sens" en quelque sorte. Ces isotopies sont les constituants moléculaires du sens de tout texte.

Le logiciel lexichamp déteste automatiquement les isotopes lexicaux. L'interface est simple, mais ce qui est intéressant dans cet objet, c'est la ressource française qui est derrière: nous avons calculé les proximités statistiques à partir de tous les textes français depuis la Renaissance et isolé, grâce à des modèles statistiques et probabilistes, les "couples" lexicaux qui avaient l'air d'être sémantiquement liés. Cette ressource permet de créer des liens par exemple entre "homme" et "femme" ou entre "chat" et "chien" alors qu'aucun dictionnaire humain n'établit de relation de synonymie entre ces mots.En appliquant cet outil sur des textes plus ou moins longs, on fait surgir de vraies relations sémantiques fondées non pas sur le pifomètre mais sur la légitime détection de modèles répétés et attestés.

L'école Américaine depuis DiMaggio and Bryson (2007) développe à travers le topic modeling la reprise de cette vision du texte, pourtant bien documentée.

Qui sommes-nous ?

Toute la structure, et la ressource LexiCloud qui la supporte, ont été calculés, réalisés et présentés par l'équipe d'Isilex (Fabrice Issac et Xavier-Laurent Salvador) pendant leurs pauses.