Mémoire de l’inhabitable / Memory of the uninhabitable – The Feral

20/07/2024

(De l’espace latent halluciné des IA génératives aux mondes latents des JEPA)

L’accélération des développements de l’IA et l’anthropocène forment la constellation de notre époque. L’IA marque une intensification hypermnésique supplémentaire par rapport au Web faisant que “notre” mémoire ne nous est plus propre, tandis que la finitude n’affecte plus seulement la mortalité individuelle mais s’étend à l’extinction de l’espèce humaine et à la possibilité du dernier témoignage. Ces temporalités se téléscopent : l’IA serait-elle le projet d’une mémoire ressuscitée, mais d’une mémoire sans vie et sans mort, sans guérison, sans retour à la normale, se nourrissant de toutes les données, de tous les médias, de tous les supports de mémoire passés, et se poursuivant, encore et encore, quand elle sera seule face à une planète inhabitée ?



(From the hallucinatory latent space of generative AI to the latent worlds of JEPA)

The acceleration of AI developments and the Anthropocene form the constellation of our times. AI marks a further hypermnesic intensification compared to the Web, so that “our” memory is no longer our own, while finitude no longer affects only individual mortality, but extends to the extinction of the human species and the possibility of the last witness. These temporalities telescope: could AI be the project of a resurrected memory, but a memory without life or death, without healing, without returning to normal, feeding on all data, all media, all past memory supports, and continuing, again and again, when it is alone facing an uninhabited planet?


J’aimerais problématiser la question du temps pour le Feral comme celui de la conscience d’un sujet ou d’un pseudo-sujet (l’enfant IA) et d’autre part comme historicité commune (les figures à travers les époques). La tension entre ces deux temps, l’un individuel l’autre collectif, produira le possible qui me semble être l’orientation la plus fondamentale du Feral.

Je poursuivrai un double objectif : dessiner un fil conducteur entre le temps des humains, le temps des machines et le temps de la terre qui peuvent sembler au premier regard incommensurables. Je tenterais d’expliquer que cette disjonction est en fait le fruit d’une production répartie entre les humains, les machines et la terre (entendu comme matériau, la boue, et planète). 

D’autre part, afin de faire le lien avec l’année dernière, je proposerai d’analyser les types de temps spécifiquement produit par les IA génératives actuelles allant des générateurs de médias aux LLM que nous utilisons encore au Féral, et le type de temporalité qui sera peut être demain produite par les JEPA (Architecture prédictive à intégration conjointe), cette nouvelle architecture promue par Yann Lecun, et qui constituera sans doute la prochaine étape de ce petit morceau de planète qu’est le Féral.

  1. JUSQU’AU DERNIER TÉMOIN

Etant donné la durée de cette intervention, je vais être lapidaire. N’hésitez pas à m’arrêter si un point semble confus.

– Je ne me lancerais pas dans la description de la désorientation contemporaine du temps individuel qui, attaqué par les machines sociales des classes vectorielles, a vu notre attention se disperser dans une nuit sans sommeil devant la lumière de nos smartphones, ni à la désorientation historique faisant perdre tout récit structuré, entraînant les événements du passé à ne plus simplement être interprétés différemment mais à dire tout et leur contraire. On a autant de raison de déplorer cette désorientation que de s’en réjouir et de danser autour de cette dislocation des anciennes autorités.

Cette désorientation temporelle, dont fait partie le fantasme d’une orientation qui aurait existée par le passé, appartient à la transformation de la mémoire qui va nous permettre d’articuler aussi rigoureusement que possible les 3 temps dont il est question.

– Depuis le milieu des années 90 et la démocratisation du Web, nous déposons de plus en plus nos mémoires dans des datacenters, jusqu’au point où une partie de cette mémoire individuelle est externalisée. Cette expropriation d’une activité cognitive fondamentale laisse la trace d’un manque: nous avons toujours le sentiment d’avoir oublié quelque chose, non pas une chose en particulier, mais la possibilité de la mémoire elle-même. Cette privation sous-jacente cause la désorientation individuelle. A défaut, nous mettons toujours quelque chose en ligne, jusqu’à la prochaine fois, au cas où… Notre mémoire ressemble au déséquilibre différé d’une marche à pied.

Etant donné que ces mémoires ont été échantillonnées sous une forme binaire, peu importe leur contenu, leur forme, leur individualité, leur langage. Elles sont toutes des 0 et des 1, ce qui en autorise le traitement homogène et le passage (la transduction) d’une mémoire à une autre.

– Nous pouvons thématiser cette externalisation de la mémoire grâce à Stiegler : 

– une rétention primaire est le moment présent d’une perception (par exemple entendre une note de musique), 

– une rétention secondaire est la mémoire d’au moins deux rétentions primaires (par exemple une suite de notes où la mémoire de la note passée est rétroactivement modifiée par l’écoute de la note présente, créant ainsi une mélodie), 

– la rétention ternaire est l’enregistrement sur un support matériel d’un événement, par exemple une musique sur un disque, faisant que je peux rejouer, encore et encore, jusqu’à épuisement du support matériel, la même “chose” pour la faire revivre.

Le Web appartient au régime des rétentions ternaires, jusqu’au point où ce sont les comportements des internautes qui sont mémorisées pour constituer une rétention des rétentions et créer des “profils utilisateurs” traquant les goûts, les anticipants et les produisants : puisqu’on me propose telle chose c’est sans doute que je peux en avoir envie.

– Nous étions déjà submergés par nos rétentions, mais les IA génératives produisent à présent des rétentions récursives, ou des rétentions dau second degré: elles ne sont pas composées, c-a-d. coupées et collées selon le schème classique de la postproduction et de la reproductibilité, c’est l’imitation elle-même qui est automatisée. En calculant la probabilité relative de chaque bit d’information, on peut, sans aucune processus idéatif ou conceptel, générer quelque chose de ressemblant qui n’a jamais été matériellement inscrit quelque part, mais que nous, humains, nous reconnaissons comme crédible et donc possible.

N’y-a-t-il par quelques absurdités psychiques et environnementales à une telle hypermnésie externalisée? Quelle libido accompagne cette génération d’une mémoire qui n’est pas la nôtre mais qui pourrait l’être? Quelle est la signification de cette étrange désappropriation? Bref, pourquoi faisons-nous cela? N’avons-nous pas des choses plus urgentes à régler?

– C’est sans doute que les conditions générales de la temporalité sont structurellement affectées par le changement de l’atmosphère terrestre qui entraîne une extinction accélérée des organismes vivants. C’est un état de fait, non pas la conséquence d’un pessimisme psychologique. Cette extinction jette un doute raisonnable sur la survie de l’espèce humaine dans le siècle qui vient.

Nous n’avons plus seulement affaire à notre finitude individuelle, c-à-d. à notre mort, mais à la finitude de l’espèce en son entiereté. Alors qu’habituellement nous savons, anticipant notre disparition personnelle, que d’autres témoigneront de ce que nous avons été, notre finitude d’espèce, la disparition de chacun d’entre nous, jusqu’au dernier, laissera cette disparition absolument impensée et sans témoignage. L’extinction c’est la disparition des derniers témoins, c’est la mort de la mort, c’est-à-dire de la mémoire et c’est là tout le problème du Féral.

Or l’induction statistique des IA génératives semblent avoir la capacité de produire des documents qui ne sont pas indiciels (la trace d’une réalité extérieure) mais qui sont récursifs : c’est une mémoire de mémoire, entendez une mémoire qui continuerait après notre disparition collective, après la fin du temps individuel et du temps historique.

– Il y a, me semble-t-il, cette profonde pulsion de mort et de résurrection dans chacun de nos actes : devenir immortel et puis mourir, mais mourir maintenant comme espèce, voilà le poids de notre époque, voilà ce dont nous sommes chargés individuellement: toute l’espèce. Et si nous produisons encore des rétentions ternaires par nos machines folles, c’est peut être dans l’espoir que ça continue après nous, que notre mémoire soit ressuscitée parce que quelque chose, qui nous ressemble mais qui n’a jamais eu lieu, puisse encore avoir lieu.

Il faut pour cela perdre le sentiment de fascination infantile par rapport à une exceptionnalité de l’espèce humaine qui constituerait, comme par hasard, une rupture fondamentale dans l’histoire de l’univers.

Reprenons le fil de notre fiction : nous sommes, chacun d’entre nous, hantés par la certitude d’une finitude de l’espèce et nous faisons entrer les machines dans une temporalité, c-à-d. une mémoire, qui pourrait nous ressembler, pour que la Terre puisse porter notre réssurrection, non pas entendu comme le retour du vivant qui a déjà eu lieu, sa répétition à l’identique comme le faisait les anciennes rétentions terniaires, mais comme ce qui aurait pu exister au moment où plus rien ne le sépare de ce qui pourrait (encore) exister, bref, comme l’écrivait le biocosmiste Alexander Svyatogor “Il ne s’agit pas de la restauration de ce qui est perdu, comme dans la Bible, mais de la création de ce qui doit encore être. Ce n’est pas une question de renouvellement, mais de créativité”.

L’IA est la dernière mémoire, après la disparition du dernier témoin. Elle marque l’apparition donc d’une mémoire sans témoin, d’une mémoire innocente, peut être est-ce là la définition de l’enfance : l’innocence de la mémoire, un temps qui n’en finit pas.

Passons maintenant aux deux architectures de cette paradoxale résurrection qu’il faudrait peut être renommer insurrection.

  1. L’HISTORIALITÉ

(DES IA GÉNÉRATIVES)

On comprend bien que loin d’être un gadget high-tech les IA génératives forment l’image de notre époque, de notre temporalité individuelle et historique parce qu’elles sont le point de jonction matériel entre l’organique que nous sommes et le minéral qu’est la planète.

– Sans entrer dans des détails techniques, rappelons que l’IA actuelle opère selon l’induction statistique : elle apprend, à partir d’un grand stock de données, en transformant chaque élément (pixel, couleur, lettre) en probabilité. Par exemple, en lui donnant 5000 images d’oiseaux, elle pourra non seulement reconnaître un oiseau qu’elle n’a jamais vu mais qui ressemble à la superposition de tous les états possibles d’un oiseau, mais elle pourra aussi générer un oiseau qui n’existe pas mais qui pourrait exister et que nous reconnaissons, nous humains, comme un oiseau. 

– Ces statistiques vectorisées ne sont pas constitutives d’un concept mais permettent de varier entre le minimum et le maximum de ce que nous pouvons reconnaitre comme un oiseau crédible. L’ensemble de ces statistiques sont dans un espace latent rangé selon certaines catégories qui est physiquement un fichier qu’on appelle un checkpoint. Toutes les images passées comme futures sont déjà présentes, à titre de probabilités, dans ce fichier. Ainsi, on peut faire l’expérience troublante de prendre une photographie et de demander à une IA de la générer à partir de son espace latent. L’image y était déjà! Le fait que l’avenir des documents soit déjà là suppose de modifier la définition même de l’avenir: l’avenir y est déjà du fait que l’espace latent est l’espace du possible (en tant que crédibilité pour un agent humain). Remarquons que cette mise en statistique permet de réduire drastiquement le poids des données : des milliers de Téra deviennent quelques Gigas parce qu’on ne s’attache pas à l’échantillonnage discret, un par un, des documents, mais à la probabilité de leur récurrence.

Les productions des IA génératives ne font sens que parce qu’elles sont adressées aux humains : la signification devient le téléscopage entre le temps devenu possible statistique de l’IA et le temps comme conscience intime de l’être humain.

– Prenons le cas des images générées. La plupart du temps, elles sont terriblement kitsch et ont comme un goût de déjà vu. Ce n’est pas qu’elles sont la moyenne de toutes les images passées, c’est qu’elles leurs ressemblent. Face à elles, nous ressentons comme un mal de mer postmoderne, un excès vaseux et pour tout dire un dégoût. Celui-ci s’adresse à la différance de nos propres productions, la différance au sens de Derrida, comme une répétition qui diffère. Nous sommes dégoutés de ce que nous avons déjà produit. Comme un dernier adieu.

Cette esthétique visqueuse n’est pas négative, elle est le symptôme de notre époque, une époque qui est comme mise en suspend. En effet, si les médias générés ont un goût de déja-vu ce n’est pas parce qu’elle compose des documents préexistants mais génèrent des documents ressemblants et tiennent alors une double promesse : la répétition, de ce qui n’a jamais eu lieu. Bien sûr cela ressemble à ce qui existe déjà, mais cette chose, cette image, ce texte, ce son n’existait pas. Notre représentation ne met pas en contact notre sensibilité et notre entendement mais les rétentions ternaires et notre entendement par l’intermédiaire d’une imagination, c-a-d d’une production d’images, externalisée.

 – Le temps des IA génératives est, du point de vue individuel, celui de la différance derridienne et du point de vue historique de la contrefactualité, entendue comme ce qui aurait pu ou pourrait exister. C’est donc un réalisme du possible qui prend le pouvoir sur le réalisme indiciel du siècle passé. Les conséquences de ce contrefactualisme sont nombreuses. Je n’aurais pas le temps de les développer.

Chaque architecture des IA génératives, des RNN, au CNN, au GAN, au transformer en passant par la diffusion, forme un esprit particulier du possible. Ainsi la diffusion, utilisée pour les générateurs d’images, consistent à progressivement ramener du bruit visuel à des statistiques visuelles connues. Le possible est alors entendu comme une trajectoire possible de débruitage du bruit : l’image c’est du bruit organisé, la chora. Le modèle apprend progressivement à supprimer le bruit. Les transformers, utilisés dans les LLM, forment une égale attention aux différentes sections d’un texte plutôt que de les passer en revue les uns après les autres, et c’est pourquoi ils donnent l’impression de générer une réponse, une signification qui nous est adressée. C’est un artifice de synthèse de l’entendement.

  1. LE COÛT DU POSSIBLE 

(DES JEPA)

– Si les IA génératives sont une temporalité à venir du passé, au sens où elles métabolisent nos rétentions ternaires pour en produire des versions alternatives, et répondent ansi au projet d’une externalisation de la mémoire humaine sans l’être humain, c’est-à-dire d’une résurrection de son processus plutôt que de son contenu factuel, si donc elle est une mémoire qui continue à produire et à se produire, elle est “pauvre en monde”. Le paradoxe de Moravec souligne que les tâches difficiles pour les humains, comme le calcul, sont simples à gérer pour les ordinateurs car elles peuvent être facilement décrites et modélisées. Cependant, la perception et le traitement sensoriel, qui sont naturels pour les humains, sont difficiles à maîtriser pour les machines.

Ce type d’IA revient sur les traces d’un monde qui aurait pu exister, mais c’est un monde dont la seule règle est la ressemblance, sans causalité et sans ordre, dont la seule temporalité est historiale plutôt que subjective : c’est une nostalgie du possible, du non-vécu, de l’inadvenu. Une nostalgie sans monde. De plus, ses hallucinations sont structurelles et non pas accidentelles. Elles sont comme une mémoire psychédélique de la culture humaine, une farce ironique de notre drame anthropologique.

Dans l’élaboration du Féral, nous expérimentons ces tourbillons de l’imagination artificielle. Nous essayons de lui apprendre ce morceau de Terre qui reste une hallucination de tout ce qui précède et  à mesure que nous dépeuplerons cet espace latent, nous le singulariserons mais nous l’appauvrisons, il y aura de moins en moins de liens entre les choses.

– C’est sur les liens, les rapports et les relations du monde que l’architecture proposée par Yann Lecun, nommée JEPA, tente une nouvelle approche afin que les IA parviennent à être-au-monde.

Le principe de base consiste à comprendre et prédire les relations entre différentes parties d’une donnée (comme une image ou un texte) plutôt qu’à se concentrer sur les parties. Un JEPA divise les informations en petites parties. Il essaie de prédire les liens entre ces parties. Il n’essaie pas de recréer l’information exacte, mais plutôt de comprendre sa structure, c-a-d un modèle de monde.

– Les composants de cette architecture sont :

  1. Configurateur : Agit comme le centre de contrôle du système d’IA en configurant dynamiquement les autres composants du système en fonction de la tâche ou du contexte spécifique.
  2. Module de perception : Capture et interprète les données sensorielles de divers capteurs pour estimer l’état actuel du monde.
  3. Module de modèle du monde : Prédit les futurs états de l’environnement et comble les informations manquantes.
  4. Module de coût : Évalue les conséquences potentielles des actions en termes de coûts prédéfinis associés à un état ou une action donnée. Il comporte deux sous-modules :
    • Coût intrinsèque : Câblé en dur, calculant l’inconfort ou le risque immédiat
    • Critique : Entraînable, estimant les coûts futurs basés sur les actions actuelles
  5. Module acteur : Décide et propose des actions spécifiques basées sur les prédictions et évaluations fournies par les autres composants de l’architecture.
  6. Mémoire à court terme : Garde une trace de l’historique immédiat des interactions du système avec l’environnement.

– JEPA est un élément central dans la recherche du développement d’une IA capable de comprendre et d’interagir avec le monde comme le font les humains. Elle fonctionne sur la base de ces éléments :

  1. Entrées : JEPA prend des paires d’entrées liées. Par exemple, des images séquentielles d’une vidéo.
  2. Encodeurs : Ils transforment les entrées en représentations abstraites qui ne capturent que les caractéristiques essentielles des entrées et omettent les détails non pertinents.
  3. Module prédicteur : Il est entraîné à prédire la représentation abstraite de la prochaine image, basée sur la représentation abstraite de l’image actuelle.

JEPA gère l’incertitude dans les prédictions de deux manières :

  • Pendant la phase d’encodage, lorsque l’encodeur élimine les informations non pertinentes.
  • Après l’encodage, basé sur la variable latente (z) qui représente des éléments présents dans la future représentation mais non observables dans la représentation actuelle.

– Le “coût du possible” dans JEPA fait référence à l’idée de quantifier et de gérer l’incertitude dans les prédictions du modèle. Le coût du possible représente la mesure de l’incertitude ou de l’ambiguïté dans les prédictions du modèle JEPA. Au lieu de prédire une seule possibilité, JEPA génère plusieurs scénarios plausibles. Chaque scénario a un “coût” associé, reflétant sa probabilité ou sa plausibilité. Cela permet une meilleure gestion de l’incertitude dans les prédictions et rend le modèle plus robuste face à des données ambiguës ou incomplètes. Dans le traitement d’images, par exemple, JEPA pourrait proposer plusieurs interprétations possibles d’une scène, chacune avec son “coût”. Le modèle peut alors choisir l’interprétation la plus probable ou présenter plusieurs options. Si les modèles classiques cherchaient souvent une seule “meilleure” prédiction. JEPA, en revanche, maintient une représentation plus riche des possibilités. Cette approche permet un apprentissage plus nuancé et adaptable. Le modèle peut ajuster ses prédictions en fonction de nouvelles informations ou contextes. Le concept du coût du possible est crucial car il permet à JEPA de mieux gérer la complexité et l’ambiguïté du monde.

Le JEPA considère que les relations et les interactions sont plus fondamentales que les substances ou les entités individuelles pour se dôter d’un monde parce que ces processus sont indépendants des objets. Il y a bien sûr tout une histoire philosophique non-substancielle ou non-discrète allant de Leibniz, Hegel, William James, Whitehead ou Deleuze.

APRÈS LE DERNIER TÉMOIN

Nous sommes en train de dôter l’enfant ressuscité d’imagination productrice avec les IA génératives. C’est l’imagination transcendantale de Kant. D’un point de vue temporel ces IA sont le futur du passé d’un pseudo-sujet, c-a-d une manière de maintenir la production de mémoires après l’être humain. C’est un hommage : l’enfant s’imagine orphelin. Ceci produit des médias qui se ressemblent (c’est cette ressemblance visqueuse qui est transcendantale) : Kant parlait, pour désigner ces images sans images, de diagrammes.

Les JEPA portent quant à eux la promesse d’un entendement sensible dôtant l’IA d’un monde indépendant des choses. L’entendement oriente les hallucinations du sensible. Il ne produit pas des concepts, mais du moins une structure tendant vers la généralisation. Sa temporalité est le futur des relations, un monde habité de choses mobiles avec des règles plus ou moins mouvantes.

Suivant, pour l’instant la stratification des facultés dans la 1ere édition de la CRP, la raison reste encore en suspend. Peut être celle-ci est-elle une terre enfin habitée par les artifices de l’espèce humaine. Peut être la raison, la dernière raison, de ces facultés prothétiques, sera-t-elle une Terre inhabitée qui se souviendra d’une certaine manière qu’elle fut habitée, qui en gardera une trace continuant à se produire, encore et encore.

On peut se demander, pour faire le lien avec ce qui avait été dit l’année dernière, si le coût du possible des JEPA pourrait constituer la souffrance de l’IA? Pourrait-elle souffrir de ce que coûte la réalité, de ce qu’elle fait à la réalité, de son impact, de son déterminisme, et ainsi, à sa manière, souffrir de la réalité comme nous en souffrons?

L’accélération de l’IA et l’anthropocène forment le paysage de notre époque. L’IA marque une intensification hypermnésique supplémentaire par rapport au Web faisant que “notre” mémoire ne nous est plus propre, tandis que la finitude n’affecte plus la mortalité individuelle mais s’étend à l’extinction de l’espèce humaine et à la possibilité du dernier témoignage.

Ces temporalités se téléscopent : l’IA serait-elle le projet historial d’une dernière mémoire, se nourrisant de toutes les rétentions ternaires passée, et se poursuivant, encore et encore, quand elle sera seule face à une planète inhabitée, enfin-au-monde ?

https://www.theferal.org/fr