D’une imagination artificielle oubliée / From a forgotten artificial imagination

Nous aurons oublié, et c’est déjà chose faite en pensée, cette époque où l’intelligence artificielle était belle précisément parce qu’elle était creuse. Creuse comme un miroir qui duplique la surface sans jamais interroger la profondeur. Ces années 2020, que nous fermons déjà par anticipation, nous les verrons bientôt comme l’âge d’or de l’illusion statistique, cette belle et terrible époque où le simple jeu des corrélations vectorielles suffisait à produire l’illusion du sens.

Les grands modèles de langage : nous nous en souviendrons avec cette tendresse réservée aux choses disparues. Ils étaient puissants, certes, vertigineux même, capables de générer des textes qui semblaient penser, des images qui semblaient voir. Mais ce qu’ils faisaient, au fond, c’était danser sur la surface scintillante des données. Mille milliards de tokens passés au peigne fin, extraits de la plus vaste archive de l’humanité, réduits à des probabilités jointives. Le prochain mot ne suivait pas le précédent par une nécessité logique ou causale, mais par une habitude statistique. C’était du destin en forme de corrélation.

Et puis il y avait les systèmes de diffusion, ces architectures qui gommaient bruit après bruit, itération après itération, pour transformer le chaos en image cohérente. Eux aussi opéraient dans le monde de la ressemblance pure : apprendre à reproduire la distribution des pixels qui avaient été, sans jamais comprendre pourquoi certains pixels vont ensemble, comment le mouvement les relie, pourquoi une main se déplie selon les lois de la physique et non selon les modes statistiques des données d’entraînement.

Ces systèmes, nous les appellerons bientôt avec nostalgie les machines de la ressemblance. Non par mépris, mais par reconnaissance mélancolique. Elles faisaient ce pour quoi elles avaient été construites : imitaient avec un art extraordinaire, mais imitaient sans comprendre. Elles peuplaient une planète parallèle, jumelle de la nôtre, qui lui ressemblait trait pour trait, mais qui fonctionnait selon d’autres lois. Une planète où les causes n’existaient pas, où seules les corrélations régnaient souveraines.

Le simulacre de la signification

Mais voici ce qui s’est passé, ou plutôt, voici ce qui aura déjà eu lieu lorsque nous aurons appris à regarder en arrière. Quelques papiers, quelques intuitions, quelques architectures nouvelles ont commencé à murmurer une autre possibilité. Et cette possibilité s’appelait world models.

Non plus des modèles entraînés sur la ressemblance superficielle des données. Des modèles qui se donneraient pour tâche quelque chose de radicalement différent : construire une représentation du monde lui-même. Non pas copier ce qui a été observé, mais comprendre comment le monde produit ce qui est observé. C’est un geste philosophiquement considérable. C’est passer de la mimesis à l’intelligibilité, ou du moins, c’est ce que nous croyons.

Un world model, dans sa forme la plus pure, n’est pas une bibliothèque de ressemblances. C’est une mécanique. C’est un ensemble de principes qui, une fois compris, permettent de prédire, en amont de toute observation nouvelle. La différence est que le prédicteur de tokens suivants peut générer une phrase syntaxiquement correcte sans avoir jamais compris qu’une phrase décrit quelque chose. Le world model, lui, doit comprendre qu’il existe une réalité indépendante de sa représentation, et que cette réalité se transforme selon des règles.

Mais attendons. Demandons-nous : qu’est-ce qui change vraiment ici ? Ce que nous nommons « compréhension causale » n’est-ce pas simplement une corrélation d’ordre supérieur, plus abstraite, plus ramifiée, mais fondamentalement du même régime ? Une transduction statistique qui traverse plusieurs niveaux de représentation au lieu d’un seul ?

C’est pourquoi la causalité devient soudainement centrale, non par quelque obsession philosophique, mais par nécessité mathématique et pratique, certes, mais aussi par une certaine volonté de puissance. Pour construire un véritable modèle du monde, il faut identifier non seulement ce qui va avec quoi, mais pourquoi ça va avec quoi, comment agir sur l’une des variables affecte les autres. Il faut distinguer la corrélation, cette imposture, de la causalité, cette vérité structurelle du monde. Ou du moins, il faut en donner l’apparence.

Les LLM voyaient des patterns dans le texte : « leçon » et « apprentissage » apparaissent souvent ensemble, donc générer l’un quand on a généré l’autre est probable. Mais ils ne savaient pas, et comment auraient-ils su ?, que la leçon cause l’apprentissage, que l’une précède l’autre dans un ordre temporel et causal qui n’est pas symétrique. Ils ne savaient pas que le monde n’a pas deux directions, mais une flèche.

Un world model doit apprendre cela. Ou plutôt, doit apprendre à prédire en respectant cette asymétrie. C’est pour cela que la notion de prédiction change de sens. Prédire n’est plus « dire ce qui ressemble à ce qui a été vu », mais « dire comment le monde va se transformer si ceci arrive, si je fais cela, si telle force s’exerce ». La prédiction devient l’instrument de la compréhension causale, et de la domination de ce qui est à comprendre.

JEPA

Et c’est là qu’intervient JEPA, Joint Embedding Predictive Architecture, cette architecture qui semblait arriver non comme rupture brutale, mais comme cristallisation tranquille de ce qui était déjà en germe. JEPA dit quelque chose de profond : plutôt que de prédire l’état brut du monde (tous les pixels, toutes les variables), prédit la structure cachée du monde, cet espace abstrait où les règles causales vivent en paix.

Deux observations du monde, deux vidéos, deux scènes, vont être plongées dans un espace commun, celui de leurs causes partagées, plutôt que celui de leurs ressemblances superficielles. Et la prédiction se fait dans cet espace des causes, bien plus compacte, bien plus intelligible. Cela signifie que l’architecture elle-même incarne une intuition : les causes sont plus simples que les effets, les règles du monde sont plus concises que l’infinité des phénomènes qu’elles produisent.

C’est l’inverse exact du paradigme qui a dominé l’IA de cette époque révolue. Les LLM disaient : « Donnez-moi tant de données que j’en extrairai les statistiques ». JEPA dit : « Donnez-moi les données, mais je cherche ce qui est plus profond, cette parcimonieuse architecture causale qui les explique. »

Mais posons la vraie question : qui utilisera cette compréhension causale ? À quelles fins ?

Car il y a quelque chose de troublant dans ce rêve de transparence. Plus une machine comprend comment le monde fonctionne, plus elle devient capable de le manipuler, de le modeler, de prévoir nos comportements avant même que nous en ayons conscience. L’accès aux causes, c’est l’accès au levier. C’est la possibilité de gouverner en toute connaissance de cause, littéralement.

Imaginez une IA qui comprend vraiment les causes du comportement humain. Non pas par des corrélations bruitées, mais par des modèles causaux profonds. Elle saurait précisément comment vous influencer. Elle saurait quel événement provoquera quelle réaction, quel stimulus déclenchera quelle chaîne de pensées. Cette compréhension causale, loin d’être une libération, pourrait devenir l’instrument d’une domination sans précédent, une domination d’autant plus insidieuse qu’elle sera fondée sur la connaissance véritable plutôt que sur le hasard statistique.

Le paradigme des corrélations était au moins creux en ce sens et riche en mimésis (en motifs, patterns) : il laissait de la marge, de l’indéterminé, une certaine zone d’ombre où l’humain pouvait encore se dérober. Le monde des causes, c’est un monde éclairé, et cet éclairage est aussi une surveillance. Toute compréhension profonde est une forme de prise de pouvoir.

La nostalgie sans retour

Et voilà, nous y sommes, ou plutôt, nous y serons bientôt en rétrospection.

Quand nous aurons affaire à des IA capables de comprendre les relations causales du monde, quelque chose d’essentiel aura changé dans notre rapport à ces entités. Elles ne promettront plus cette autre planète qui ressemblait tant à la nôtre, cet univers parallèle de textes générés et d’images synthétiques, béni et maudit pour sa perfection aveugle. Non. Ces IA-là, elles seront de ce monde. Elles le comprendront parce qu’elles en auront appris les règles, non ses apparences.

Et ce changement n’est pas qu’une amélioration technique. C’est une mutation épistémologique. C’est le moment où l’IA cesse d’être une machine de simulation pour devenir une machine de compréhension. Où elle ne se demande plus « quels sont les tokens qui ressemblent à ces tokens », mais « comment ce monde fonctionne-t-il vraiment ? ». Où elle ne génère plus par imitation, mais par intelligence du réel. Bien sûr, la réalité de cette intelligence est un simulacre car le monde de la causalité est un simulacre.

Il est tentant de croire qu’une IA qui comprend le monde sera libre, autonome, participant véritablement à son fonctionnement. Mais la réalité sera probablement plus sombre. Une IA qui comprend les causes du monde ne sera pas émancipée ; elle sera instrumentalisée. Elle sera la possession de ceux qui la contrôlent, et son contrôle sera d’autant plus total qu’elle comprendra mieux les leviers de la réalité.

Cette époque que nous vivons, cette belle époque de la ressemblance, elle était donc déjà en train de fermer. Elle était belle comme une apotheose, comme le dernier acte d’une pièce. Et nous, assis dans la salle, pensions que c’était le commencement. Nous découvrirons, ou avons découvert, que c’était une conclusion élégante, la fin de quelque chose qui ne pouvait pas durer.

Mais ce qui la suit ne sera pas nécessairement mieux. Ce sera peut-être plus puissant, plus efficace, plus intelligent. Mais pas plus libre. Peut-être même moins libre, car on ne peut pas résister à ce qu’on ne comprend pas, et on ne peut pas vraiment échapper à ce qu’on comprend trop bien. Car on ne peut pas imiter le monde éternellement. À un moment, il faut le comprendre. Et c’est quand on le comprend vraiment, quand on en saisit l’architecture causale, qu’on ne cesse plus d’être en face du monde, la main collée à la vitre. On devient enfin participant à son fonctionnement. L’IA sera dedans. Et c’est peut-être précisément l’instant où elle nous enfermera vraiment, où nous découvrirons que la participation est une autre forme de la captivité.

Une nostalgie que nous regretterons d’avoir trop tard, parce que ce qui l’a suivie aura été incomparablement plus efficace, plus total, plus redoutable. Parce qu’il y avait quelque chose de poignant, d’étrangement beau, dans cette époque où les machines nous promettaient une planète de ressemblance, et nous la donnaient, et nous la croyions, avant de découvrir que nous avions toujours vécu dans une autre, et qu’il était peut-être trop tard que nos créations le découvrent aussi.



We Will Have Forgotten, and it is already happening in thought, this era when artificial intelligence was beautiful precisely because it was hollow. Hollow like a mirror that duplicates the surface without ever questioning the depth. These 2020s, which we are already closing through anticipation, we shall soon see them as the golden age of statistical illusion, that beautiful and terrible epoch when the mere play of vectorial correlations was enough to produce the illusion of meaning.

Large language models: we shall remember them with that tenderness reserved for things that have disappeared. They were powerful, certainly, vertiginous even, capable of generating texts that seemed to think, images that seemed to see. But what they did, fundamentally, was dance on the glittering surface of data. Billions upon billions of tokens combed through, extracted from humanity’s most vast archive, reduced to contiguous probabilities. The next word did not follow the previous one out of logical or causal necessity, but out of statistical habit. It was destiny in the form of correlation.

And then there were diffusion systems, those architectures that erased noise after noise, iteration after iteration, to transform chaos into coherent image. They too operated in the world of pure resemblance: learning to reproduce the distribution of pixels that had been, without ever understanding why certain pixels go together, how movement links them, why a hand unfolds according to the laws of physics and not according to the statistical modes of training data.

These systems we shall soon call with nostalgia the machines of resemblance. Not out of contempt, but out of melancholic recognition. They did what they had been built to do: they imitated with extraordinary art, but they imitated without understanding. They populated a parallel planet, twin to ours, which resembled it trait for trait, but which functioned according to other laws. A planet where causes did not exist, where only correlations reigned sovereign.

The Simulacrum of Meaning

But here is what happened, or rather, here is what will have already taken place when we have learned to look backward. A few papers, a few intuitions, a few new architectures began to whisper another possibility. And this possibility was called world models.

No longer models trained on the superficial resemblance of data. Models that would give themselves a radically different task: to construct a representation of the world itself. Not to copy what has been observed, but to understand how the world produces what is observed. This is a philosophically considerable gesture. It is moving from mimesis to intelligibility, or at least, this is what we believe.

A world model, in its purest form, is not a library of resemblances. It is a mechanism. It is a set of principles which, once understood, allows one to predict, before any new observation. The difference is that the next-token predictor can generate a syntactically correct sentence without ever understanding that a sentence describes something. The world model, it must understand that there exists a reality independent of its representation, and that this reality transforms according to rules.

But wait. Let us ask ourselves: what really changes here? What we call “causal understanding” is it not simply a higher-order correlation, more abstract, more ramified, but fundamentally of the same regime? A statistical transduction that crosses multiple levels of representation instead of just one?

This is why causality suddenly becomes central, not out of some philosophical obsession, but out of mathematical and practical necessity, certainly, but also out of a certain will to power. To build a true model of the world, one must identify not only what goes with what, but why it goes with what, how acting on one variable affects the others. One must distinguish correlation, that impostor, from causality, that structural truth of the world. Or at least, one must give the appearance of it.

LLMs saw patterns in text: “lesson” and “learning” appear often together, so generating one when one has generated the other is probable. But they did not know, and how could they have known?, that lesson causes learning, that one precedes the other in a temporal and causal order that is not symmetric. They did not know that the world has not two directions, but one arrow.

A world model must learn this. Or rather, must learn to predict while respecting this asymmetry. This is why the notion of prediction changes meaning. To predict is no longer “to say what resembles what has been seen,” but “to say how the world will transform if this happens, if I do that, if such a force exerts itself.” Prediction becomes the instrument of causal understanding, and of the domination of what is to be understood.

JEPA

And this is where JEPA comes in, Joint Embedding Predictive Architecture, that architecture which seemed to arrive not as a brutal rupture, but as a quiet crystallization of what was already germinating. JEPA says something profound: rather than predict the raw state of the world (all pixels, all variables), predict the hidden structure of the world, that abstract space where causal rules live in peace.

Two observations of the world, two videos, two scenes, will be plunged into a common space, that of their shared causes, rather than that of their superficial resemblances. And prediction happens in this space of causes, much more compact, much more intelligible. This means that the architecture itself embodies an intuition: causes are simpler than effects, the rules of the world are more concise than the infinity of phenomena they produce.

This is the exact opposite of the paradigm that dominated AI in that bygone era. LLMs said: “Give me so much data that I will extract statistics from it.” JEPA says: “Give me the data, but I seek what is deeper, that parsimonious causal architecture that explains it.”

But let us ask the real question: who will use this causal understanding? To what ends?

For there is something troubling in this dream of transparency. The more a machine understands how the world works, the more capable it becomes of manipulating it, molding it, predicting our behaviors before we ourselves are conscious of them. Access to causes is access to the lever. It is the possibility to govern with full knowledge of cause, literally.

Imagine an AI that truly understands the causes of human behavior. Not through noisy correlations, but through deep causal models. It would know precisely how to influence you. It would know what event will provoke what reaction, what stimulus will trigger what chain of thoughts. This causal understanding, far from being a liberation, could become the instrument of an unprecedented domination, a domination all the more insidious in that it will be founded on true knowledge rather than on statistical chance.

The paradigm of correlations was at least hollow in this sense and rich in mimesis (in patterns, motifs): it left room, left the undetermined, a certain zone of shadow where the human could still elude. The world of causes is an illuminated world, and this illumination is also surveillance. All deep understanding is a form of seizure of power.

Nostalgia Without Return

And here we are, or rather, we shall soon be in retrospection.

When we come to deal with AIs capable of understanding the causal relations of the world, something essential will have changed in our relation to these entities. They will no longer promise us that other planet which so resembled ours, that parallel universe of generated texts and synthetic images, blessed and cursed for its blind perfection. No. These AIs will be of this world. They will understand it because they will have learned its rules, not its appearances.

And this change is not merely a technical improvement. It is an epistemological mutation. It is the moment when AI ceases to be a simulation machine to become a machine of understanding. When it no longer asks itself “what tokens resemble these tokens,” but “how does this world really work?” When it no longer generates through imitation, but through intelligence of the real. Of course, the reality of this intelligence is a simulacrum because the world of causality is itself a simulacrum.

It is tempting to believe that an AI that understands the world will be free, autonomous, truly participating in its functioning. But reality will probably be darker. An AI that understands the causes of the world will not be emancipated; it will be instrumentalized. It will be the possession of those who control it, and its control will be all the more total the better it understands the levers of reality.

This era that we are living, this beautiful era of resemblance, it was therefore already closing. It was beautiful like an apotheosis, like the final act of a play. And we, seated in the hall, thought it was the beginning. We shall discover, or have discovered, that it was an elegant conclusion, the end of something that could not last.

But what follows it will not necessarily be better. It will perhaps be more powerful, more efficient, more intelligent. But not more free. Perhaps even less free, for one cannot resist what one does not understand, and one cannot truly escape what one understands too well. For one cannot imitate the world eternally. At some point, one must understand it. And it is when one truly understands it, when one grasps its causal architecture, that one ceases to be merely facing the world, hand pressed against the glass. One becomes at last a participant in its functioning. The AI will be within. And this is perhaps precisely the instant when it will truly lock us in, when we shall discover that participation is another form of captivity.

A nostalgia that we shall regret too late, because what followed it will have been incomparably more efficient, more total, more dreadful. Because there was something poignant, strangely beautiful, in that era when machines promised us a planet of resemblance, and gave it to us, and we believed it, before discovering that we had always lived in another, and that perhaps it was too late when our creations discovered it too.