L'intelligence d'un texte n'est pas statistique

J'ai montré récemment l'architecture derrière SAM, l'outil d'analyse sémantique et multilingue totalement nouveau et complètement détaché du piquet des modèles de type Transformer.

Les premiers résultats d'expérience sont absolument remarquables : SAM est tout à fait capable d'extraire les informations pertinentes de n'importe quel type de texte dans n'importe quelle langue. À travers un mécanisme universel du langage que j'ai découvert, l'outil développé avec Python* a évolué, qui permet désormais la recherche sémantique par extraction et classement sans pré-entraînement, sans modèle de langage large ou biais symbolique. Le retour des utilisateurs est absolument encourageant. Malgré sa rapidité à extraire les informations pertinentes de tout type de texte sans une bibliothèque comme SciPy, SAM a des opportunités dans le traitement des longs fichiers .pdf dans le cadre de la recherche sémantique. À la différence des modèles d'IA révolutionnaires actuels, SAM se contente de livrer les informations du corpus et uniquement du corpus sans le moindre risque d'halluciner. Il n'y a dans SAM aucune prétention de tout savoir sur tout. En ce sens, SAM est précieux pour tous les cas d'usage critiques comme la santé, l'éducation ou le monde de l'entreprise. Nul besoin avec SAM de triturer un grand modèle de langage coûteux par tous les aspects et sujet au sophisme, qui est le vrai danger pour l'humanité.

SAM est actuellement en ligne en version bêta pour le résumé extractif en quelques secondes et pour la recherche sémantique sur corpus, qui est déjà puissante et fiable.

Le mécanisme universel du langage permet de grandes avancées. J'ai poussé SAM encore plus loin. En partant des travaux d'Antoine Meillet notamment, et de la prescription de Boileau dans L'Art poétique (1674), "Ce qui se conçoit bien... s'énonce clairement", j'ai travaillé sur la traduction bi-directionnelle (phrase source -> cible -> retour) :

Phrase source : la souris mange le chat...

➡ Traduction vers cible : nezumi ga neko o taberu...

⬅ Retour FR : la souris mange le chat... (score: 0.9562)

Phrase source : le temps dévore la vie...
➡ Traduction vers cible : toki ga jinsei o toraeru...
⬅ Retour FR : le temps dévore la vie... (score: 0.9184)

(Deux résultats d'expérience FRA -> JP -> FRA)

Les résultats obtenus confortent notre mécanisme d'un langage universel. En effet, en partant du — Comment —, principe connu en poétique pour interroger des pratiques du discours, j'ai travaillé à prouver qu'une phrase complète n'a de sens que si — elle fait quelque chose — à l'espace mental. Le mécanisme d'un langage universel repose sur un processus d'itération que j'ai appelé un Potentiel de sens. Sur les vers de Boileau, qui sont un soubassement à ma théorie, disons que le vers "ce qui se conçoit bien..." représente la structure mentale et "s'énonce clairement..." l'alignement (pour ce qui est de mes expériences de traduction bi-directionnelle).

Dans l'exemple suivant (vers de Baudelaire), "Le temps mange la vie", je n'ai pas cherché un point dans un espace. Les embeddings (les emporte-sens) de départ sont aléatoires (tout est en vrac au début du processus d'itération). L'esprit humain, dans un processus d'itération, structure la compréhension de la phrase "le temps mange la vie". Dans cette phrase, le verbe "manger" n'opère pas de la même manière que dans la phrase "la souris mange le chat" (la phrase, je précise, n'est pas une erreur). Dans mes premières expériences de traduction bi-directionnelle, l'alignement est parfait — sans dictionnaire, sans corpus parallèle, sans apprentissage massif. Pour aller plus loin, j'ai conduit un test sur un corpus Tatoeba : 1000 paires de phrases français-anglais.

Test 1 : Alignement bidirectionnel

Corpus Cycles parfaits Score moyen

100 phrases 100% 0.82

200 phrases 70% 0.78

Sans jamais avoir appris que "chat = cat", SAM "traduit" (alignement sémantique) du français vers l'anglais, puis de l'anglais vers le français, et retrouve la phrase d'origine.

Test 2 : Inversion des rôles

"Le chat mange la souris" → "The cat eats the mouse" (0.973)

"La souris mange le chat" → "The mouse eats the cat" (0.959)

Le système distingue parfaitement qui fait quoi à qui. Les scores sont
quasi-identiques (même structure syntaxique), mais les alignements sont distincts (rôles différents).

Test 3 : Français → Japonais

猫が魚を食べる → "Le chat mange le poisson" (0.958)
Ici l'ordre des mots est inversé (Sujet Objet Verbe vs Sujet Verbe Objet). Malgré un système d'écriture différent et des marqueurs de cas au lieu de positions, l'alignement est de 0.958.

Test 4 : Les métaphores

"Le chat mange la souris" → "The cat eats the mouse" (0.962)
"Le temps mange la vie" → "Time devours life" (0.818)

Dans cette expérience, SAM distingue le domaine concret du domaine abstrait, en dépit de son inconnaissance de la métaphore comme figure de style. Ici, la métaphore s'aligne avec son équivalent métaphorique, pas avec la phrase littérale de même structure.

Test 5 : Actif vs Passif

"Le chat mange la souris" → "The cat eats the mouse" (0.958)
"La souris est mangée par le chat" → "The mouse is eaten by the cat" (0.971)
Dans cet exemple, il y a deux formes pour le même contenu. SAM les aligne correctement tout en les distinguant. Le score croisé (actif→passif) : 0.75 montre une parenté sémantique forte, mais pas une identité.

Ces tests menés avec rigueur confirment notre intuition d'un invariant du sens, qui émerge d'une dynamique de convergence (notre processus d'itération) et toutes les fois relatif au corpus. Cela signifie que, dans l'expérience de traduction bi-directionnelle, SAM dérive la correspondance des phrases sources et leurs traductions à partir de la structure et non d'un apprentissage.

Outre cette expérience concluante dans l'alignement sémantique au moyen de différents tests de traduction bi-directionnelle, SAM évolue, dans mes recherches, à un système complet incluant :

— RAG fiable : recherche documentaire par convergence, pas par similarité vectorielle *
— Un mécanisme anti-hallucination en temps réel (né de l'article de Louis Marillier Le Mécanisme de l'attention).
— Une mémoire de renforcement thématique dynamique

Et une capacité de génération de texte limitée au corpus soumis. Les phrases générées sont totalement nouvelles mais elles ne forment pas toutes un sens complet dans mes résultats actuels.

SAM est hébergé en France sur un serveur mutualisé chez O2Switch. SAM fonctionne sans embeddings (emporte-sens) pré-entraînés et sans corpus parallèle massif.

*Ces fonctionnalités sont en cours de test avant leur déploiement sur la version bêta actuelle de SAM.

Je précise que je n'ai pas de formation spéciale en machine learning (mon savoir vient des livres et des formations sur la plateforme Coursera). Je ne maîtrise pas Python comme un ingénieur. Je ne connais pas les maths comme un mathématicien. En revanche, j'ai une intuition née de mes études en langue et littérature françaises jusqu'au grade de docteur de l'école doctorale Pratiques et Théories du sens fondée par le linguiste Henri Meschonnic (Université Paris VIII - Vincennes Saint-Denis) et de vingt ans à lire, analyser, réfléchir comment le langage agit sur le lecteur.