Un outil qui comprend sans avoir appris

Dans le cadre de mes recherches en intelligence artificielle et en littérature française, j’ai réussi à transformer Sam ( lire mon précédent article sur HLM : un modèle de langage hyperbolique) en un outil qui comprend le français, l’anglais, l’arabe…sans avoir appris ni l’une ni l’autre langue.

Le problème

Je l’ai exposé pour la première fois dans cet article que j’ai appelé une approche collective et humaniste du sens. La question est faussement simple : puis-je extraire le sens d’un texte sans avoir appris tout Internet. Suis-je à même de créer un outil capable de comprendre toute langue sans lui dire que c’est de l’anglais, de l’arabe, ou du français ?

L’intuition

Le point de départ, c’est cette phrase de Meillet : « Or l’enfant, en apprenant à parler, s’assimile non une articulation isolée, mais l’ensemble du système. La reproduction exacte de chacune des articulations de la langue est une conséquence naturelle de cette acquisition ». Ce passage nous donne à voir une vision holistique du processus d’acquisition du langage. Au lieu de considérer les mots comme unités linguistiques fixes et isolées, ils deviennent des opérateurs ( transformations mathématiques ) que je laisse interagir entre eux pour faire émerger le sens à partir de leur géométrie.

Comment cela fonctionne

Chaque mot devient un opérateur ( un vecteur mathématique ) comme on a appris ( un sens, une direction et une longueur ou norme)
On applique tous ces opérateurs à un état initial aléatoire ( embeddings aléatoires — c’est tout à fait contre-intuitif, mais les résultats sont remarquables —). Ici la structure émerge des « relations » et non des valeurs initiales comme chez Meillet et avant lui Saussure.
Le système converge vers une représentation stable de la phrase (ensemble d’opérateurs {vi, v2, …, vn}. Plus précisément ici, un petit réseau neuronal apprend à mixer l’identité du mot ( vecteur aléatoire) et son rôle grammatical.

Pour faire simple, les mots « votent » pour décider collectivement du sens global. De quelle façon ?

Les opérateurs ( les mots) se « combinent » au moyen de produits scalaires*. Après quelques itérations, P (initialement P = random_unit_vector(valeur)) représente le « sens global » de la phrase.

L’ outil a démontré une capacité de généralisation étonnante sans pré-entraînement ni statistique. Pas besoin de connaître les règles grammaticales de l’arabe, de l’anglais, du chinois simplifié ou du français pour comprendre la structure du texte. L’outil, qui produit des résumés volontairement très courts (3 phrases), parvient à extraire les phrases représentatives d’un corpus donné en entrée ( poésie, texte juridique, paroles de chansons — All Too Well de Taylor Swift par exemple, article de mathématiques, sciences, article technique, etc…).

Exemple d’un texte multilingue :

« Le cerveau humain contient environ 86 milliards de neurones. The hippocampus plays a crucial role in memory formation. La mémoire épisodique permet de se souvenir d'événements spécifiques. Synaptic plasticity enables learning through experience. Les rêves surviennent principalement pendant le sommeil paradoxal. REM sleep is characterized by rapid eye movements and vivid dreams. »

Résultat obtenu :

=== GÉNÉRATION DU RÉSUMÉ (sur 6 premières phrases) ===

Résumé automatique (3 phrases):

1. the hippocampus plays a crucial role in memory formation

2. la mémoire épisodique permet de se souvenir d événements spécifiques

3. les rêves surviennent principalement pendant le sommeil paradoxal

Indices des phrases sélectionnées: [1, 2, 4]

Autre exemple ( un texte de la BBC ) :

OpenAI plans to allow a wider range of content, including erotica, on its popular chatbot ChatGPT as part of its push to "treat adult users like adults", says its boss Sam Altman.

In a post on X on Tuesday, Mr Altman said upcoming versions of the popular chatbot would enable it to behave in a more human-like way - "but only if you want it, not because we are usage maxxing".

The move, reminiscent of Elon Musk's xAI recent introduction of two sexually explicit chatbots to Grok, could help OpenAI attract more paying subscribers.

It is also likely to intensify pressure on lawmakers to introduce tighter restrictions on chatbot companions.

OpenAI did not respond to the BBC's requests for comment following Mr Altman's post.

Changes announced by the company come after it was sued earlier this year by parents of a US teen who took his own life.

The lawsuit filed by Matt and Maria Raine, who are the parents of 16-year-old Adam Raine, was the first legal action accusing OpenAI of wrongful death.

The Californian couple criticised the company's parental controls - which it said were designed to promote healthier use of its chatbot - saying they did not go far enough.

The family included chat logs between Adam, who died in April, and ChatGPT that show him explaining he has suicidal thoughts.

Altman said that OpenAI previously made ChatGPT "pretty restrictive to make sure we were being careful with mental health issues".

"We realise this made it less useful/enjoyable to many users who had no mental health problems, but given the seriousness of the issue we wanted to get this right," Mr Altman said.

He said the company has now been able to mitigate the serious mental health risks and have new tools allowing it to "safely relax the restrictions in most cases".

"In December, as we roll out age-gating more fully and as part of our 'treat adult users like adults' principle, we will allow even more, like erotica for verified adults," he said.

Critics say OpenAI's decision to allow erotica on the platform shows the need for more regulation at the federal and state levels.

"How are they going to make sure that children are not able to access the portions of ChatGPT that are adult-only and provide erotica?" said Jenny Kim, a partner at the law firm Boies Schiller Flexner. "Open AI, like most of big tech in this space, is just using people like guinea pigs."

Ms Kim is involved in a lawsuit against Meta that claims the company's Instagram's algorithm harms the mental health of teen users.

"We don't even know if their age gating is going to work," she said.

In April, TechCrunch reported that OpenAI was allowing accounts in which a user had registered as a minor to generate graphic erotica.

OpenAI said at the time that the company was rolling out a fix to limit such content.

A survey published this month by the nonprofit Centre for Democracy and Technology (CDT) found that one in five students report that they or someone they know has had a romantic relationship with AI.

On Monday, California Governor Gavin Newsom vetoed a bill passed by the state legislature that would have blocked developers from offering AI chatbots companions to children unless the companies could guarantee the software wouldn't breed harmful behaviour.

Newsom said it was "imperative that adolescents learn how to safely interact with AI systems" in a message that accompanied his veto.

At the nationwide level, the US Federal Trade Commission (FTC) has launched an inquiry into how AI chatbots interact with children.

In the US Senate last month, bipartisan legislation was introduced that would classify AI chatbots as products. The law would allow users to file liability claims against chatbot developers.

Mr Altman's announcement on Tuesday comes as sceptics have been questioning the rapid rise in the value of AI tech companies.

OpenAI's revenue is growing, but it has never been profitable.

Tulane University business professor Rob Lalka, who authored the recent book The Venture Alchemists, said the major AI companies find themselves in a battle for market share.

"No company has ever had the kind of adoption that OpenAI saw with ChatGPT," Lalka told the BBC.

"They needed to continue to push along that exponential growth curve, achieving market domination as much as they can."

Résultat :

=== GÉNÉRATION DU RÉSUMÉ (sur 20 premières phrases) ===

Résumé automatique (3 phrases):

1. openai plans to allow a wider range of content including erotica on its popular chatbot chatgpt as part of its push to treat adult users like adults says its boss sam altman

2. it is also likely to intensify pressure on lawmakers to introduce tighter restrictions on chatbot companions

3. we don t even know if their age gating is going to work she said

Indices des phrases sélectionnées: [0, 3, 18]

Un autre exemple avec un texte en arabe ( j’ai utilisé le traducteur fourni par Apple dans mon Mac pour vérifier le texte de départ et le résultat obtenu ) :

كما يحرص على التباهي بذكائه وصحته وإنجازاته، لا يتردد الرئيس الأميركي دونالد ترامب في التباهي بشعره الأشقر. وقد وقع سابقا أمرا تنفيذيا حول قوة تدفق المياه في الحمامات الأميركية كي يستمتع بغسل شعره.

وبخلاف وسائل الإعلام الأخرى، يحب ترامب مجلة "تايم"، لكنه هاجمها هذه المرة بسبب صورة الغلاف التي أرفقتها مع مقال "يمجد إنجازاته كصانع سلام"، حيث وصف الصورة بأنها الأسوأ على الإطلاق، لأنها لم تظهر شعره الأشقر.

وقال ترامب معلقا على الصورة: لقد أخفوا شعري، وكان هناك شيء يطفو فوق رأسي يشبه تاجا عائما، لكنه صغير جدا. وقال إنه لا يحب التقاط صور له من زوايا من الأسفل.

وكان ترامب قد ظهر على غلاف المجلة الأميركية أكثر من 43 مرة، وفي عام 2024، اختارته شخصية العام، وقال ترامب حينها إن "هذا شرف كبير يدل على تقدير المجلة لإنجازاته".

وبعد أشهر، ظهر الملياردير الأميركي إيلون ماسك على غلاف مجلة جالسا في المكتب البيضاوي، وعلق ترامب: "لم أكن أعلم أن هذه المجلة لا تزال تعمل".

Résultat :

=== GÉNÉRATION DU RÉSUMÉ (sur 7 premières phrases) ===

Résumé automatique (3 phrases):

1. وقد وقع سابقا أمرا تنفيذيا حول قوة تدفق المياه في الحمامات الأميركية كي يستمتع بغسل شعره

2. وبخلاف وسائل الإعلام الأخرى يحب ترامب مجلة تايم لكنه هاجمها هذه المرة بسبب صورة الغلاف التي أرفقتها مع مقال يمجد إنجازاته كصانع سلام حيث وصف الصورة بأنها الأسوأ على الإطلاق لأنها لم تظهر شعره الأشقر

3. وقال إنه لا يحب التقاط صور له من زوايا من الأسفل

Indices des phrases sélectionnées: [1, 2, 4]

Enfin, un exemple avec du chinois ( Beijing review — traduction en français avec Traduire depuis mon Mac ) :

Entrée : 　　189个国家批准了《消除对妇女一切形式歧视公约》，190多个国家通过了近1600项保障妇女权益的法律，越来越多国家制定提升妇女福祉的国家行动计划……习近平主席在主旨讲话中指出，30年来，在北京世妇会精神指引下，全球妇女事业蓬勃发展，为人类文明进步增添了亮丽色彩。.

　北京世妇会秘书长格特鲁德·蒙盖拉在现场聆听习近平主席主旨讲话后深有感触。“1995年的北京世妇会是一个里程碑时刻、一个重要转折点。”蒙盖拉说，“中国是全球妇女事业发展的坚定支持者，习近平主席的讲话为加速全球妇女事业发展指明方向。”.

　　“习近平主席的讲话是全球妇女事业发展的重要里程碑。”肯尼亚性别平等、文化和儿童服务部参会代表蕾切尔·卡姆韦鲁在会议现场告诉记者，“国家领导人把妇女议题放在心上，这非常重要。”

　　习近平主席在主旨讲话中提出4点建议：共同营造有利于妇女成长发展的良好环境；共同培育推动妇女事业高质量发展的强劲动能；共同构建保障妇女权益的治理格局；共同书写促进全球妇女合作的崭新篇章。.

　　荷兰驻华大使昊使博在会议现场对记者说：“回顾北京世妇会召开以来的30年，我们在提升妇女地位方面取得很多成就，但仍有大量工作要做。荷兰希望未来能和中国一起，在这些方面携手合作。” .

　　联合国妇女署阿拉伯国家区域主任穆兹·杜赖德高度赞同要“共同营造有利于妇女成长发展的良好环境”。“在消除针对妇女的暴力、保障孕产妇健康、提升女性经济参与度等关键领域，全球仍未达标。习近平主席提出的建议为推动目标实现注入强大动力——这不仅关乎女性，更关乎全人类。”.

　卢旺达一家食用菌生产推广公司的创始人苏珊娜·尼库泽说，她曾在中国援卢旺达农业技术示范中心接受食用菌生产培训，对习近平主席讲话中强调的“共同培育推动妇女事业高质量发展的强劲动能”有切身感受。“这一建议提出以科技创新赋能妇女、支持妇女参与绿色发展，很有前瞻性，有助解决全球妇女发展不平衡不充分问题。”.

　在泰国华文教师公会主席罗铁英看来，妇女事业不仅关乎一个群体的福祉，更是衡量一个国家文明程度的重要标志。她说，习近平主席主张“共同构建保障妇女权益的治理格局”，其中包括完善制度和法律、营造包容和谐的社会环境、拓宽妇女参政议政渠道等举措，将为进一步推动性别平等提供制度保障，真正让尊重妇女成为普遍共识。.

　“正如习近平主席所说，妇女是改革完善全球治理体系的重要力量。”阿根廷布宜诺斯艾利斯大学社会学院教授韦罗妮卡·希奥尔达诺说，“将性别平等以及女性在全球治理中的角色纳入国际议程是重大进步。在世界正经历百年未有之大变局的当下，为各国妇女搭建宽广的合作平台、持续深化交流互鉴意义重大。”.

Résultat :

=== GÉNÉRATION DU RÉSUMÉ (sur 8 premières phrases) ===

Résumé automatique (3 phrases):

1. 习近平主席的讲话是全球妇女事业发展的重要里程碑肯尼亚性别平等文化和儿童服务部参会代表蕾切尔卡姆韦鲁在会议现场告诉记者国家领导人把妇女议题放在心上这非常重要习近平主席在主旨讲话中提出4点建议共同营造有利于妇女成长发展的良好环境共同培育推动妇女事业高质量发展的强劲动能共同构建保障妇女权益的治理格局共同书写促进全球妇女合作的崭新篇章

2. 卢旺达一家食用菌生产推广公司的创始人苏珊娜尼库泽说她曾在中国援卢旺达农业技术示范中心接受食用菌生产培训对习近平主席讲话中强调的共同培育推动妇女事业高质量发展的强劲动能有切身感受这一建议提出以科技创新赋能妇女支持妇女参与绿色发展很有前瞻性有助解决全球妇女发展不平衡不充分问题

3. 正如习近平主席所说妇女是改革完善全球治理体系的重要力量阿根廷布宜诺斯艾利斯大学社会学院教授韦罗妮卡希奥尔达诺说将性别平等以及女性在全球治理中的角色纳入国际议程是重大进步在世界正经历百年未有之大变局的当下为各国妇女搭建宽广的合作平台持续深化交流互鉴意义重大

Indices des phrases sélectionnées: [2, 5, 7]

Conclusion

« Par l’étude des nombres, l’âme s’élève de la sphère des choses périssables à celle de la vérité et de l’être », PLATON, La République, VII. Mon outil démontre en effet que la sémantique tient avant tout des nombres. Les concepts évoluent dans un espace vectoriel. Les relations entre les mots sont des produits scalaires, leur importance une valeur propre. Il n’y a pas besoin de règles grammaticales ou de métriques lexicales complexes pour comprendre le sens d’une phrase. Transformer chaque mot en vecteur opérateur selon son rôle grammatical puis calculer une représentation de phrase P par itérations successives m’a permis de toucher peut-être à quelque chose d’universel dans le langage.

Tester ici ←←←

*Un produit scalaire évalue dans quelle mesure deux vecteurs pointent dans la même direction. Par exemple, on dit que « le produit scalaire de deux vecteurs est le produit de leurs longueurs absolues par le cosinus de l’angle compris entre leurs directions » ( J.-B Pomey, Principes de calcul vectoriel et tensoriel, Chiron, Paris, 1923, p. 11). Si les vecteurs pointent dans la même direction, le produit scalaire est positif et maximal. Si les vecteurs sont perpendiculaires, le produit scalaire est nul. Enfin, si les vecteurs pointent dans des directions opposées, le produit scalaire est négatif.