SAM : le mécanisme universel du langage ?

Ce qui a présidé à l'architecture de SAM est cette phrase d'Antoine Meillet : "Or l’enfant, en apprenant à parler, s’assimile non une articulation isolée, mais l’ensemble du système. La reproduction exacte de chacune des articulations de la langue est une conséquence naturelle de cette acquisition" (Meillet, Les lois du langage, p. 319). Ce qui a attiré mon attention dans cette phrase est le groupe nominal "ensemble du système". C'est clairement une approche holistique ( de hole en anglais) du langage. Il y a plus : la notion de système ici suppose une organisation spécifique, une structure formant un tout indissociable. De sorte que chaque élément du système n'a de sens que par sa relation aux autres. C'est aussi le point de vue de Ferdinand de Saussure. Pour lui, une unité linguistique ( un mot par exemple) prise isolément, arrachée d'un tout cohérent est vidée de sa substance comme une proposition subordonnée ne tient pas sans une principale. Reprenons une seconde fois la phrase suivante : "chaque élément du système n'a de sens que par sa relation aux autres". Beaucoup, y compris moi-même au début, ont vu un parallèle saisissant avec le "mécanisme d'attention" ( Architecture Transformers à l'origine de la révolution actuelle dans l'intelligence artificielle ). Toutefois, il me semble qu'un élément majeur ici nous a échappé. Au delà du mécanisme de l'attention, il y a un dénominateur commun à toute langue humaine, ici par l'exemple de l'enfant qui apprend à parler, quel que soit le pays de ses origines. Ce dénominateur commun excède toute dépendance linguistique. Il renvoie à une idée vieille d'Aristote d'après laquelle les composants essentiels du langage sont le sujet + le prédicat.

En effet, quelle que soit la langue parlée ou écrite, il y a toujours un sujet qui se meut, au sens de Benveniste. Je définis ce dénominateur commun en tant que petit sous-système, qui permet de comprendre toute langue sans dictionnaire, sans apprentissage linguistique spécifique à la manière de l'enfant qui apprend à dire par exemple "Maman, je t'aime" sans savoir que Maman est un nom et sans l'avoir appris à coups de millards d'exemples. Ici, la mécanique quantique*** m'a servi de "soubassement" à cette théorie, qui a donné naissance à SAM.

Le fonctionnement SAM touche à un mécanisme universel du langage, qui n'a cure des syntaxes, des idiomes ou autres règles linguistiques propres à une langue.

L'architecture que j'ai proposée pour SAM repose sur l'idée que pour produire du sens, les mots sont dans le cerveau humain initialement dans un état aléatoire. Pour former un potentiel du sens ( pour arriver à dire quelque chose — on dit familièrement "je cherche mes mots"—), j'ai imaginé le processus en trois étapes, que je montre ici : https://ai.culturedesidees.com/

Plus précisément, voici comment j'ai défini l'architecture de SAM en toutes lettres :

D'abord la configuration initiale :

— un vecteur final ( D comme Dimension de l'espace sémantique global) qui représente une phrase.

— des vecteurs initiaux pour les mots et les rôles (vous vous souvenez des composants essentiels du langage — Sujet + Prédicat ) représentés par une dimension des embeddings mots/rôles (d)

— un vocabulaire, qui est un nombre de mots reconnus. Les mots hors de cette liste sont traités comme des mots inconnus ou ( unknown ).

— un nombre de rôles "grammaticaux" totalement abstraits. Il s'agit de rôles génériques pour une variation géométrique.

— un nombre d'itérations de convergence interne par phrase. Plus exactement, un nombre d'étapes pour stabiliser la représentation d'une phrase P.

Ensuite, les embeddings aléatoires :

Souvenez-vous, j'ai dit qu'au commencement du potentiel de sens, les mots sont dans un état aléatoire. Les tables d'embeddings sont générées aléatoirement et ne contiennent aucune information linguistique préexistante. Cela garantit que SAM est capable de comprendre toute langue. Les mots et rôles que nous avons vus plus haut sont simplement greffés à des vecteurs dans un espace d (dimensionnel).

Puis, le coeur de SAM :

Contrairement aux LLMs et ses variantes, qui nécessitent une quantité astronomique de données pour comprendre une langue, quantité de données qui constituent en même temps leurs limites, SAM procède ainsi :

Pour chaque paire ( embedding de mot, embedding de rôle — fondé sur le modèle canonique sujet + prédicat ), un petit réseau de neurones génère un "opérateur" dans l'espace D ( dimension de l'espace sémantique global ). Les expériences menées, y compris par les utilisateurs de SAM, qui est en ligne ( https://sam.culturedesidees.com/ ), montrent que ces opérateurs sont efficients en tous points pour saisir des "aspects" de la sémantique sans entraînement. Ici précisément, je prends les indices mots/rôles, les embeddings aléatoires, je génère ensuite une liste des fameux opérateurs pour la phrase. J'initialise un vecteur d'état P de la phrase aléatoirement. Par un travail de convergence itérative ( comme dans l'expression — goutte à goutte use la pierre —), l'état de P ( comme vecteur d'état) est mis à jour en fonction d'une somme (pondérée) des opérateurs. Comprenons bien ici, car c'est très important, le poids d'un opérateur est sa projection sur l'état P actuel. P converge alors vers une "direction" ( cette direction est une force abstraite) dans l'espace D, qui est la représentation sémantique de la phrase.

Au fond, l'idée est simple à se représenter : imaginez-vous en train d'écrire ou de parler pour vous faire comprendre d'un autre humain. Au départ, les mots sont présents dans un état aléatoire, puis ils viennent par un petit travail de convergence itérative très rapide ( peut-être en millisecondes), très rapide et dans certains cas, c'est lent, très lent — d'où l'expression "je cherche mes mots".

Des auteurs comme Boileau avaient pressenti ce mécanisme sans le savoir : "Ce que l’on conçoit bien s’énonce clairement, Et les mots pour le dire arrivent aisément." (Art poétique, Chant I, v. 147-207). Bien sûr, il est assez aisé de trouver des sources à toute théorie, mais il me sera permis d'inférer que d'après ces vers de Boileau, qui sont au présent de l'indicatif, le sens résulte d'un processus, qui n'est pas appris mais émergeant ou dynamique. Ce que j'ai appelé ici le potentiel du sens.

SAM montre qu'il y a une dimension jusqu'ici insoupçonnée du langage. Une dimension quantique ( au sens indiqué plus haut), dont je n'ai senti que le frisson. Mes travaux actuels pour faire évoluer SAM vers un RAG** (Retrieval-Augmented generation — recherche par le contexte et la pertinence dans un document) ou un super outil en Back Translation ( ou rétro-traduction — vérifier la qualité d'une traduction ) sont très encourageants en ce sens que les résultats sont extrêmement bons pour un outil capable de :

— fonctionner sans LLM

— sans apprentissage linguistique

— sans dictionnaire

— sans règles symboliques

— tout en étant multilingue !

SAM est déjà une architecture légère, agnostique du langage. Il n'est entraîné sur aucun corpus. SAM ne sait pas ce que l'homme ignore. SAM ne peut halluciner. SAM fait toujours un travail extractif. En ce sens, il est aussi fiable qu'humain qui peut se tromper.

*** Toute référence à la mécanique quantique n’a ici aucune visée physique. Il s’agit avant tout d’un cadre conceptuel, né d'une intuition, qui m'a permis de décrire le processus suivant : un état de sens non encore actualisé, puis son évolution sous l’effet de contraintes, jusqu’à son “effondrement” ( et dans notre cas émergence) en une expression linguistique. Ce cadre nous offre une métaphore formelle particulièrement adéquate pour modéliser ce que j’appelle ici le potentiel de sens.

**Le prototype du RAG montre des résultats inattendus et tout à fait fascinants. Par exemple, sur ce résumé du rapport Zucman:

"This report presents a proposal for an internationally coordinated standard ensuring

an effective taxation of ultra-high-net-worth individuals. In the baseline proposal, individuals

with more than $1 billion in wealth would be required to pay a minimum amount of tax

annually, equal to 2% of their wealth. This standard could be flexibly implemented by

participating countries through a variety of domestic instruments, including a presumptive

income tax, an income tax on a broad notion of income, or a wealth tax. The report presents

evidence that contemporary tax systems fail to tax ultra-high-net-worth individuals effectively,

clarifies the case for international coordination to address this issue, analyzes implementation

challenges, and provides revenue estimations. The main conclusions are that (i) building on

recent progress in international tax cooperation, such a common standard has become

technically feasible; (ii) it could be enforced successfully even if all countries did not adopt it

by strengthening current exit taxes and implementing “tax collector of last resort” mechanisms

as in the coordinated minimum tax on multinational companies; (iii) a minimum tax on

billionaires equal to 2% of their wealth would raise $200-$250 billion per year globally from

about 3,000 taxpayers; extending the tax to centimillionaires would add $100-$140 billion; (iv)

this international standard would effectively address regressive features of contemporary tax

systems at the top of the wealth distribution; (v) it would not substitute for, but support domestic

progressive tax policies, by improving transparency about top-end wealth, reducing incentives

to engage in tax avoidance, and preventing a race to the bottom; (vi) its economic impact must

be assessed in light of the observed pre-tax rate of return to wealth for ultra-high-net-worth

individuals which has been 7.5% on average per year (net of inflation) over the last four

decades, and of the current effective tax rate of billionaires, equivalent to 0.3% of their wealth."

J'ai posé la question suivante en anglais à SAM:

"What parallels does the report draw between this billionaire minimum tax and the coordinated minimum tax on multinational companies?".

SAM ( version RAG) donne ce résultat, qui comprend la réponse la plus pertinente en position 1:

"✓ [1] █████████████████████████████ 0.7465

Sémantique: 0.9122 | Lexical: 0.4979

as in the coordinated minimum tax on multinational companies; (iii) a minimum tax on...

✓ [2] ██████████████████████████ 0.6598

Sémantique: 0.8950 | Lexical: 0.3071

this report presents a proposal for an internationally coordinated standard ensuring...

✓ [3] █████████████████████████ 0.6378

Sémantique: 0.9028 | Lexical: 0.2403

to engage in tax avoidance, and preventing a race to the bottom; (vi) its economic impact must...

→ [4] ███████████████████ 0.4820

Sémantique: 0.5807 | Lexical: 0.3339

the report presents...

✓ [5] ████████████████████████ 0.6059

Sémantique: 0.9038 | Lexical: 0.1592

about 3,000 taxpayers; extending the tax to centimillionaires would add $100-$140 billion; (iv)...

────────────────────────────

Réponse extraite (point de convergence) :

as in the coordinated minimum tax on multinational companies; (iii) a minimum tax on.

SAM ( version RAG) sera disponible d'ici quelques semaines. En attendant, vous pouvez tester la version multilingue de résumé extractif ici : SAM