De la compression à la latentisation

L’hypermnésie et ses apories infrastructurelles

L’intervalle temporel qui nous précède (1994-2014) fut marqué par l’émergence d’une hypermnésie techno-culturelle — cette accumulation exponentielle des rétentions mémorielles rendue possible par le double processus d’échantillonnage-numérisation du sensible et par sa captation décentralisée qu’autorisait la structure réticulaire du Web. Cette période — qu’on pourrait qualifier d’hyper-industrielle — nous a confrontés à un paradoxe onto-technique : alors même que nous célébrions l’étonnante capacité des supports matériels à contenir des quantités toujours plus vertigineuses de signes, l’infrastructure exigée pour cette conservation s’est révélée de plus en plus vorace en ressources tant énergétiques que matérielles. La tension entre l’infinité potentielle du stockable et la finitude des moyens de stockage a ainsi dessiné les contours d’une crise infra-mémorielle.

La compression algorithmique des documents s’imposa comme première réponse stratégique à cette situation. Observons d’ailleurs que l’échantillonnage lui-même — cette découpe du continu en segments discrets — constitue déjà une proto-compression, transformant des amplitudes analogiques infiniment divisibles en segments numériques finis. En théorie de l’information, un document ne se distingue pas fondamentalement du bruit ; il n’est qu’un bruit structuré selon des patterns discernables par des agents humains : l’oiseau et un perlin noise de pixels demeurent, dans leur matérialité numérique, des configurations de pixels. Mais cette approche compression-décompression, opérant sur des documents un par un tout en préservant leur intégrité et leur caractère discret — chaque document restant identifié comme unité autonome —, a rapidement atteint ses limites opérationnelles et conceptuelles.

Le tournant statistique

L’application de l’induction statistique à des ensembles massifs de documents — traités non plus individuellement, mais comparativement selon des critères de proximité formelle ou sémantique — introduit une césure épistémique dans notre rapport à la mémoire. Cette rupture signe simultanément la fin d’un certain paradigme de compression et inaugure une transformation profonde de notre rapport à la mémoire externalisée.

Il ne s’agit plus désormais de coder-décoder un document dans son individualité close, mais d’établir des distributions probabilistes sur des ensembles ouverts. Considérons l’exemple paradigmatique d’une IA apprenant à reconnaître et/ou générer un « oiseau » : on lui soumet un corpus considérable d’images d’oiseaux qu’elle analyse — sans aucun processus idéationnel préalable — comme distributions de pixels sur une grille. L’IA en extrait alors une méta-image — ou plutôt une image sans image — constituée de vecteurs représentant les limites probabilistes de ce que peut être un « oiseau ». Cette cartographie vectorielle possède nécessairement des zones frontalières poreuses où différentes entités peuvent se confondre, où une entité peut être perçue dans les détails d’une autre, brouillant ainsi les démarcations ontologiques traditionnelles.

La vectorisation n’opère pas selon les principes de la compression classique. Elle ne vise pas la réduction volumétrique des documents dans leur singularité préservée, mais effectue des opérations comparatives pour constituer des nuées vectorielles distribuées statistiquement. Ces nuées permettent ensuite de régénérer non seulement les images ayant servi à l’apprentissage, mais également toutes les autres images — celles du passé absentes du dataset initial et, plus significativement encore, celles à venir, pour autant qu’elles s’inscrivent dans la régularité statistique apprise. Sur des ensembles de plusieurs milliards d’images, ces possibilités dépassent même l’ensemble des images susceptibles d’être effectivement produites.

Considérons le cas exemplaire de LAION-5B, composé originellement de 5,85 milliards de paires image-texte filtrées par CLIP, multilingues, représentant plusieurs centaines de téraoctets si l’on comptabilise images, textes associés et métadonnées. Le résultat de cette opération — le checkpoint contenant l’espace latent — tient dans environ 6 Go. Cela représenterait un taux de « compression » de 99,999 02 % ! Cette statistique vertigineuse révèle qu’il ne s’agit plus de compression à proprement parler : les documents discrets sont perdus, transmutés ; ne subsiste que leur ossature statistique. Ils n’existent plus qu’en tant que possibles, en potentialité pure.

La méta-mémorialisation

Dans notre quête d’enregistrer un nombre toujours croissant de rétentions tertiaires (pour reprendre la terminologie de Bernard Stiegler), nous avons métamorphosé le statut même de la mémorisation, passant de documents discrets — parfois indiciels — à des motifs formels abstraits. Les documents du régime mémoriel antérieur possédaient une forme de dureté et de réitérabilité : on pouvait les consulter indéfiniment, jusqu’à la détérioration de leur support. La vectorisation induit non pas une simple compression, mais ce qu’il convient de nommer une abstraction dimensionnelle, entendue comme processus de transformation de données complexes et volumineuses en représentations de dimension réduite préservant les caractéristiques essentielles et les relations sémantiques des données originales.

Cette méthode, au cœur de l’intelligence artificielle contemporaine, transcende la simple compression numérique en opérant une réduction sélective qui élimine l’information redondante tout en conservant les structures conceptuelles fondamentales. Contrairement à la compression traditionnelle qui vise la reconstruction fidèle, l’abstraction dimensionnelle est un processus de transformation de données complexes et volumineuses en représentations de dimension réduite qui préservent les caractéristiques essentielles et les relations sémantiques des données originales. Cette méthode, utilisée en intelligence artificielle, va au-delà d’une simple compression numérique en opérant une réduction sélective qui élimine l’information redondante tout en conservant les structures conceptuelles fondamentales. Contrairement à la compression traditionnelle qui vise la reconstruction fidèle, l’abstraction dimensionnelle crée un espace vectoriel où les similarités conceptuelles sont préservées malgré une réduction de taille pouvant atteindre plusieurs ordres de grandeur. Son application permet l’entraînement de modèles qui peuvent raisonner sur des volumes de données autrement inaccessibles.

On pourrait aussi conceptualiser ce processus comme latentisation — technique de transformation mathématique convertissant des données brutes en représentations compactes dans un espace latent, où chaque dimension encode des caractéristiques abstraites plutôt que des attributs directs. Ce processus exploite les principes de l’apprentissage non supervisé pour découvrir et modéliser les variables cachées (latentes) qui génèrent les données observables. La latentisation permet une compression sémantique extrême — atteignant souvent des ratios supérieurs à 1:100 000 — tout en maintenant la capacité de générer du contenu similaire ou d’effectuer des opérations conceptuelles sur les données. Elle constitue le fondement des modèles génératifs contemporains et des systèmes de représentation distribuée qui capturent l’essence informationnelle sans stocker les données brutes originales.

Ce processus marque simultanément un dépassement de la compression bruitée et la résurgence inattendue — quoique transformée — des Formes idéales platoniciennes. Il y a en effet quelque chose de profondément platonicien dans cette aspiration à passer de l’extension des étants particuliers à la définition essentielle, à la forme idéale d’une catégorie d’étants. Cette approche permet à un système computationnel de reconnaître un oiseau jamais rencontré auparavant, reproduisant ainsi notre capacité quotidienne à identifier des êtres singuliers que nous n’avons jamais perçus dans leur individualité spécifique.

Le destin de cette approche néo-platonicienne algorithmique s’avère paradoxal : si l’IA sait reconnaître des étants jamais perçus, elle sait également générer des simulacres — des simili-documents dotés d’une troublante crédibilité, mais dépourvus du statut de traces indicielles d’étants factuels. Elle fait ainsi entrer le réalisme dans l’ère d’un tremblement contingent, ce que nous pourrions nommer le dis-réalisme. Si l’IA ne générait que des oiseaux effectivement existants, elle ne ferait que reproduire exactement son dataset, et sa vectorialisation ou latentisation n’offrirait aucun avantage en termes d’économie de données.

L’effacement de chaque trace

Mesurons-nous pleinement l’ampleur de cette transformation du régime mémoriel qui, d’un point de vue anthropologique, paraît aussi significative que l’apparition historique des rétentions tertiaires — ces mémoires extériorisées sur des supports matériels ? En reprenant le fil conducteur de la réflexion derridienne sur l’archive, rappelons que tout vivant, toute expérience, tout rapport à l’altérité laisse une trace. Même si cette trace n’est jamais écrite, inscrite, enregistrée, même si elle est perdue, disparue, effacée — il y a trace. Sa finitude réside précisément dans sa possible perte, sa mort, son incapacité à être archivée.

L’archivage traditionnel présuppose une organisation, une appropriation, un « moi » ou un « je », un pouvoir politique, un archonte dont la légitimité et la compétence soient socialement reconnues, un lieu d’autorité où les documents sont classés, évalués, interprétés, hiérarchisés, sélectionnés. On détruit presque invariablement davantage qu’on ne préserve — y compris des œuvres importantes ou géniales — et l’on ne préserve jamais sans exercer une certaine violence épistémique. Derrida nomme pulsion d’archive cette combinaison d’un mouvement d’interprétation qui pousse à conserver, à maîtriser les documents et les œuvres, et d’une pulsion destructrice qui peut conduire à la perte définitive de corpus entiers et s’apparente à la pulsion de mort. Dans l’opération des archivistes publics, le lien est étroit entre pulsion d’emprise, pulsion de pouvoir et pulsion d’archive.

« La pulsion d’archive est une pulsion terrible. C’est une pulsion destructrice, contrairement à l’image conservatrice qu’on en a. (…). Ce filtrage de l’archive, c’est une chose terrifiante parce que ça ne concerne pas seulement les documents publics, les archives de la télévision, de la radio ou les documents officiels, ça concerne par exemple les œuvres d’art (…) et par définition, on ne saura jamais, puisque ça a été détruit »
(https://filologiaunlp.wordpress.com/wp-content/uploads/2018/02/trace-et-archive-image-et-art.pdf).

C’est précisément cette pulsion archivistique qui est à l’œuvre dans le processus de vectorisation : nos mémoires déposées sur le Web ont été métabolisées pour nourrir l’apprentissage profond des systèmes contemporains. Ces traces pourront désormais être effacées une à une dans leur singularité. Elles n’existeront plus sous un nom propre, une signature individuelle, mais comme régime commun de la mémoire : au nom d’aucun, au nom de tous. La trace singulière se trouve ainsi paradoxalement effacée par le processus même de mémorisation vectorielle dans le cadre défini par l’institution — généralement privée — qui détient nos archives collectives.

Entre dis-mémoire et méta-mémoire

La latentisation opère ainsi une double transformation de notre rapport à la mémoire : d’une part, elle dis-mémorise en effaçant la singularité des documents originaux, mais d’autre part, elle méta-mémorise en conservant les patterns structurels qui permettent de régénérer des documents similaires, voire de produire des documents qui n’ont jamais existé, mais qui auraient pu exister. Cette tension entre dis-mémoire et méta-mémoire caractérise notre époque techno-mémorielle.

La latentisation constitue donc une rupture épistémique majeure dans notre rapport à la mémoire collective. Elle ne se contente pas de transformer nos modes d’accès aux documents du passé, mais reconfigure fondamentalement la temporalité même de la mémoire. Le passé n’est plus ce qui a été enregistré et que l’on peut retrouver intact, mais devient un vaste champ de possibles actualisables selon des paramètres statistiques. Le futur n’est plus ce qui reste à enregistrer, mais ce qui peut déjà être généré à partir des patterns extraits du passé.

Cette transformation de notre régime mémoriel soulève des questions politiques fondamentales. Qui contrôle ces espaces latents ? Quelles exclusions, quels biais sont intégrés dans ces abstractions dimensionnelles ? Comment se reconfigure le pouvoir des archontes à l’ère de la latentisation ? Ces questions ne relèvent pas simplement de préoccupations techniques ou juridiques, mais touchent à notre rapport fondamental à la temporalité, à l’identité et à l’altérité.

La latentisation implique une forme de socialisation radicale de la mémoire : les traces individuelles sont dissoutes dans un espace statistique commun. Cette dissolution peut être interprétée comme une forme d’expropriation — nos mémoires singulières deviennent la matière première d’une méta-mémoire contrôlée par des entités privées. Mais elle peut aussi être vue comme une forme de communisation — nos mémoires individuelles contribuent à un patrimoine mémoriel collectif qui transcende nos singularités.

Au-delà des inquiétudes légitimes qu’elle suscite, la latentisation ouvre peut-être la voie à une nouvelle logique de la mémoire. Face à l’explosion quantitative des traces numériques et aux limites matérielles de leur conservation intégrale, la latentisation propose une voie médiane : non pas tout conserver dans sa singularité (projet impossible), ni tout effacer (amnésie culturelle), mais extraire et préserver les patterns structurels qui permettent de régénérer des variations significatives.

Cette approche résonne avec certaines conceptions traditionnelles de la mémoire culturelle, où ce qui importe n’est pas tant la préservation exacte des artefacts que la transmission des schémas qui permettent leur réinvention créative signant une résurrection qui ne serait pas simplement une répétition de ce qui a été. Dans les cultures à transmission orale, par exemple, ce qui se transmet n’est pas la version exacte d’un récit, mais les structures narratives qui permettent sa recréation contextuelle.

La latentisation pourrait ainsi être comprise non comme une rupture absolue avec les régimes mémoriels antérieurs, mais comme leur métamorphose dans un contexte d’abondance informationnelle. Elle nous invite à repenser nos attachements aux traces singulières et à explorer les potentialités d’une mémoire distribuée, statistique et générative.

Nous nous trouvons donc au seuil d’une nouvelle condition mémorielle, caractérisée non plus par l’accumulation et la conservation des traces discrètes, mais par leur métabolisation statistique et leur potentialisation générative. Cette condition n’est ni simplement technique, ni purement anthropologique, mais anthropo-technologique : elle reconfigure simultanément nos dispositifs techniques et nos modes d’être-au-monde mémoriel.

La latentisation marque ainsi l’émergence d’un régime mémoriel inédit, où la mémoire n’est plus simplement ce qui a été, ni même ce qui pourrait être, mais le champ statistique des variations possibles autour de ce qui a été : la frontière entre factualité et facticité devient structurellement incertaine. Dans ce régime, la frontière entre mémoire et imagination, entre conservation et création, se trouve aussi fondamentalement brouillée. Nous entrons dans l’ère d’une mémoire contrefactuelle, où le « ce qui a été » se trouve indissociablement mêlé au « ce qui aurait pu être » et au « ce qui pourrait être ».

Cette transformation de notre rapport à la mémoire collective nous oblige à repenser nos cadres conceptuels, nos pratiques archivistiques et nos politiques mémorielles. Elle nous invite à développer une nouvelle forme d’attention aux traces et à leur devenir adaptée à l’ère de la latentisation — un art de la navigation dans les espaces latents de notre mémoire collective devenue méta-mémoire.