After Fontcuberta: Latent Space as Political Terrain
The arguments made by Eldagsen and Astray against Fontcuberta’s hypotheses seem to rest on an ontological conservatism that misses the ongoing epistemological revolution. By clinging to a binary distinction between “light” (photography) and “code” (AI), they commit a fundamental category error. They perceive generative AI as an informatics of instruction—software executing a calculation according to rules pre-established by a model—whereas we have shifted to an informatics of vector navigation. Fontcuberta understood what many still refuse to see: the image has never guaranteed authenticity. By proposing a wisdom of doubt rather than restored certainties, he opened the door toward a post-photographic epistemology. Yet this opening remains to be pursued: it recognized undecidability without drawing out its full political and ontological consequences. This text extends that fundamental intuition by exploring what is at stake beyond generalized doubt.
Metabolization
The Web has triggered an unprecedented media inflation. This saturation has transformed the status of photography. It is no longer an isolated act of capture, haloed by singular value. It has become a surplus resource, one datum among billions that humans can no longer perceive in its integrity. This is the condition of hypermnesia: remembering becomes impossible because there is too much to retain. Thirty years of the Web represents thirty years of the silent accumulation of images in databases—images tagged without consent, metadata piled in invisible strata.
It is precisely within this context of intractable saturation that AI appears. But it does not appear as a threat external to institutions; it is the symptom of their obsolescence. Institutions never truly had the power to master this flow. They believed they were organizing scarcity. The Web revealed that there was no longer any scarcity to organize. AI absorbs this deluge by transforming it into a continuous multidimensional topography: latent space. It digests this massive flow according to a logic very different from copying or simulation. It extracts symbolic forms—not some “truth,” but statistical correlations that reconstruct the world as it has been represented by billions of individuals in their daily practices of sharing images.
This is a chemical process in the strict sense: AI does not copy reality; it fractionates it and makes it navigable according to a logic that escapes traditional categories of the discrete. This is precisely what we observe when working with these latent spaces: how images cease to be finished objects and become transit points in a continuum. When we ask a diffusion network to transform one image into another through interpolation, we witness a morphing that has no photographic equivalent. It is not a fusion of images. It is a traversal of the possible within a geometry that eludes us. And in this traversal, categories collapse: we no longer know if we are creating or discovering, inventing or awakening what lay dormant within vector coordinates.
This process is radically different from what Eldagsen and Astray describe. They imagine they can preserve the photography/AI distinction by strengthening institutions and tracing processes. But this fails to recognize that institutions have always been structurally incapable of mastering this flow. They merely organized its invisibility. The Web made it visible. AI is the direct consequence, not an accident to be corrected. Metabolization means that AI is not an intruder. It is the reaction of a technical system to a sensory saturation that has become intractable by old logics. To refuse to see this is to cling to the fiction of an epistemic scarcity that has already evaporated.
From Code to Vectors
Eldagsen and Astray implicitly adopt the distinction between two conceptions of AI: either an AI that executes explicitly programmed instructions (code as recipe), or an AI that emerges from learning (code as hidden logic).
But this opposition itself is obsolete. What has actually occurred is a shift from an informatics of instruction to an informatics of vector navigation. This shift is not a technical refinement; it is a logical rupture.
Classical informatics of code consists of a series of instructions written by humans, executed deterministically, producing a predictable result. This is computational logocentrism: the belief that code is transparent—that it can be written, read, modified, and mastered. Eldagsen and Astray remains prisoners of this conception, even when they admit to AI’s opacity. For they still expect traceability to be possible—that someone could, in principle, understand the process. This is a pre-computational belief: that everything can be made visible through intellectual effort.
But generative AI does not function this way. It does not manufacture an image according to pre-established rules. It locates an image in a multidimensional space of probabilities whose dimensions emerged from the learning process without prescriptive human intervention. The true code—the architecture of the neural network—is merely the tooling to create the conditions for navigation. What matters is not the programmed logic. It is the probabilistic topology that emerges from the process, autonomous and irreversible. Once the network is trained, it cannot be “unrolled” like a film. The parameters are fixed, but their interactions remain inaccessible to linear reading.
They insist: “Photography is written with light; AI imagery is written with code.”
This is a seductive formula, but a false one. Neither is “written.” Writing implies a linear intention, a traceability of the gesture. Photography is an optical capture—simultaneously passive and active—subject to the physical presence of the real. Generative AI is not writing: it is vector navigation, a learning of the fold of latent space. These are not two variants of the same act of composition. They are two radically different ontologies, two regimes of meaning.
When we generate an image, we are not calculating anything in the classical sense. We are traversing a continuous latent space along trajectories that were not mapped out in advance. The image does not result from a formula. The image emerges as the actualization of a possibility that existed as vector potentiality, immediately. This is the abyssal difference between a discrete logic (code: 0 or 1) and a continuous topology (latent space: an infinity of gradations). And this difference changes everything—it changes not only how we produce images, but how they produce us in return.
Photography is a medium of the discrete: a click, an instant, a single viewpoint, an immobilization. It captures according to a binary logic: this moment existed; this event took place or did not. Latent space functions according to a different logic: it is a continuous field of forces where one can glide from one concept to another without rupture. There is no stopping point, no “moment of capture.” There is a continuum of possibilities.
This is why they cannot be compared by saying they are just two different means of reaching the same result. They proceed from incompatible ontologies. In photography, there is a rupture between what was captured and what was not. In latent space, there are only degrees of probability, topological proximities, and seamless continuities. This is also why the Eldagsen/Fontcuberta opposition is false: they are arguing over what name to give something, when the problem is not the name. It is that the very ontology of the “visual” has changed.
The Inversion of the Graft
Fontcuberta rightly uses the metaphor of the graft: AI grafts itself onto photography, transforming it and changing its nature from within. Eldagsen and Astray implicitly accept this causal direction, as if AI were a disturbance coming from the outside, infecting a pre-existing system.
But can we not completely reverse this argument: it is not AI that grafts itself onto photography. It is photography that has become an anachronistic graft of the AI system. The logical chronology is reversed.
Traditional photography, frozen in its optical capture and its presuppositions of authenticity, is now merely a mode of input injected into a system that radically exceeds it. It certainly provides the initial coordinates—the training data—but it is the latent space that deploys its metamorphic potential. It is no longer the producer of meaning; it is the digested material.
The photographic image thus becomes one archive among others, a trace in the vectorized memory of AI. Its status does not change gradually; it collapses categorically. It shifts from “proof of a captured reality” to a “starting point for the generation of possibilities.” It is absorbed, metabolized, and recombined according to a logic that has no common measure with the photographic process. And in this absorption, something of its essence escapes—or rather, it discovers that it never had an essence, only forms.
The photographic accident—subject to the hazards of the physical real, the raw contingency of the moment, to that which refuses to be seized—is now replaced by the vector accident: an unpredictable drift in the multidimensional curvature of data that reveals visual truths nestled in the interstices of our collective memory. This vector accident cannot be predetermined. Nor can it be mastered. It emerges from the navigation itself, as an encounter between the navigator’s intention and the unknowable topology of the space. It is an accident that is only an accident for us, not for the system that generated it; for the system, it is simply the actualization of a virtuality contained within its structure.
Thus, Eldagsen was right to refuse the Sony award, but for the wrong reasons stated publicly. He should not say, “AI steals the prize from photography by mimicking it better than itself.” He should say: “Photography no longer exists as an autonomous ontological category. It is a graft of AI. And I refuse this prize because accepting it would mean admitting that I still believe in a distinction that the technical system has already made impossible.”
Only on this condition would his gesture of humility be honest.
The Era of Generalized Suspicion
Eldagsen and Astray see the generalized doubt toward images as a crisis to be resolved. Astray worries: “If all doubts paralyze us, those in power win.”
But this is a misunderstanding of what is happening. Generalized suspicion is not a crisis. It is an inevitable clarification. Since AI has metabolized the photographic aesthetic to the point of making it indiscernible from optical reality, trust in the image collapses. But this collapse does not mean we have lost the truth. It means we are finally discovering a truth we were hiding: the image has never been proof. It has always been an interpretative battlefield.
This disturbance manifests as a visible double crisis:
On one side, synthetic images insert themselves into the social field by passing themselves off as captures of the real.
On the other, authentic photographs are contested, victims of a collective paranoia that mistakes them for algorithmic generations.
But what Eldagsen and Astray interpret as the collapse of distinctions, I see as the revelation that distinctions only ever existed as institutional fictions. Recent controversies in art competitions are merely the visible symptoms of this clarification. They are not accidents. They are the exposure of what had always been hidden: that the image is never proof, never a guarantee of authenticity.
Institutions believed they mastered this authenticity. They simply mastered a consensus. And this consensus is now collapsing because latent space has shown there was never anything to master—only probabilities to navigate. To refuse this suspicion by calling for the strengthening of institutions is to refuse to see that institutions are precisely what collapsed suspicion through power, not through clarity.
Eldagsen and Astray ask the wrong question. They ask: “How to distinguish? How to preserve? How to restore trust?”
The real question is: “Who controls the latent space? Who has the power to parameterize alignments, to choose datasets, to decide which visual possibilities will be generatable and which will remain unthinkable?”
This is a political question. Not technical, not institutional—political. It directly engages the very possibility of what an image can express, what it can show, and what it will never show.
For centuries, photography seemed to guarantee a certain democracy of representation: anyone could, in theory, take a photo, publish it, and challenge dominant images. But this was a productive illusion. The power to control the image had moved to institutions: publishers, museums, press agencies. At least one could criticize them, occupy their spaces, and contest their selections. We knew where the power resided.
Now, this power has volatilized and reconcentrated at a more fundamental level: the control of latent space itself. A tiny number of technological corporations absolutely control the datasets, the algorithms, the learning parameters, and the final alignment of the models. They do not control a collection of images. They control the ontological conditions of possibility for what an image can be.
And this mastery is structurally invisible. When Meta or OpenAI decides that a certain representation will be “aligned” and another not, we are no longer debating at the level of images. We are debating at the level of vectors—a domain where only the engineers of these corporations can navigate. The latent space of commercial platforms is closed. Datasets are proprietary. Alignment is secret. And yet, billions of individuals dream through these latent spaces, believing they communicate through their generated images, unaware that they are only actualizing the possibilities that a few algorithms have decided to be thinkable.
Calling to strengthen institutions in the face of this problem is like calling to strengthen the coast guard against a rising tide. The problem is not a failing distinction between photo and AI. The problem is that the mastery of the collective imagination has concentrated in the hands of proprietary algorithms, and this concentration has become invisible precisely because it no longer works at the level of visible images, but at the level of vector possibilities.
Toward Multiplicities
Eldagsen and Astray defend an epistemic order that has already collapsed. Fontcuberta proposes accepting undecidability and cultivating a wisdom of doubt. Even if Fontcuberta’s approach seems more accurate, both positions perhaps miss the true stake—not because they are false, but because they are politically insufficient.
What is needed is not to restore the photo/AI distinction. Nor is it to passively accept doubt as a final horizon. It is to accept the collapse as a political condition to invent other practices—artistic, pedagogical, political—that multiply latent spaces so that none can dominate.
For as long as a single latent space controls the majority of visual generations, as long as Meta, OpenAI, and a few others alone decide the conditions of the visible because they possess the computing power and have appropriated the means of production for profit, we have not solved the political problem. We have only moved it from the level of institutions to the level of vectors. True liberation would be for visual possibilities to fragment radically, for incompatible latent spaces to develop in parallel, so that no one can impose a single grammar of the visible. Not out of nostalgia for lost creative autonomy—that nostalgia is also a trap—but out of tactical necessity: the plurality of latent spaces is the only guarantee against the totalization of meaning. This can only be achieved through the collective appropriation of computing power.
The flaws of older generations of AI—their hesitations, their monstrosities, their undomesticated strangeness—constituted precisely their aesthetic and political virtue. These flaws were fissures where the unpredictable found a place. Their gradual disappearance in favor of a standardized, polished, invisible realism is not technical progress. It is the programmed homogenization of our collective imaginary, the methodical closing of possibilities in favor of a statistical average that corporations find manageable and monetizable.
Against this reduction, we must cultivate the accident, the divergence, the defamiliarization. Not to restore a lost authenticity—that authenticity never existed—but to multiply the possibilities within the technical system itself that tends to reduce them. This work is not innocent. Nor is it totally free. But it is necessary. And it presupposes a certain form of humility: recognizing that we navigate latent space without mastering it, that we explore possibilities without presuming we create them, that we resist without the certainty of victory.
The only honesty today is to accept that there are no more distinctions to restore, only spaces to fragment, possibilities to multiply, and a silent war to be waged against vector homogenization. It is in fidelity to Fontcuberta’s intuition—but by radicalizing it—that we reach this conclusion: his generalized suspicion is not an end in itself, but the starting point for a political transformation.
L’argumentation d’Eldagsen et Astray contre les hypothèses de Fontcuberta me semble reposer sur un conservatisme ontologique qui manque la révolution épistémologique en cours. En s’accrochant à une distinction binaire entre la « lumière » (photographie) et le « code » (IA), ils commettent une erreur fondamentale de catégorie. Ils appréhendent l’IA générative comme une informatique de l’instruction,un logiciel qui exécuterait un calcul selon des règles préétablies par un modèle,alors que nous sommes passés à une informatique de la navigation vectorielle. Fontcuberta avait compris ce que beaucoup refusent encore de voir : l’image n’a jamais garanti l’authenticité. En proposant une sagesse du doute plutôt que des certitudes restaurées, il ouvrait une porte vers une épistémologie post-photographique. Mais cette ouverture reste à poursuivre : elle reconnaissait l’indécidabilité sans en tirer toutes les conséquences politiques et ontologiques. Ce texte prolonge cette intuition fondamentale en explorant ce qui se joue au-delà du doute généralisé.
La métabolisation
Le Web a provoqué une inflation médiatique sans précédent. Cette saturation a transformé le statut de la photographie. Elle n’est plus un acte de capture isolé, auréolé de valeur singulière. Elle est devenue une ressource excédentaire, une donnée parmi des milliards que l’humain ne peut plus percevoir dans son intégrité. C’est la condition d’hypermnésie : le souvenir devient impossible parce qu’il y a trop à retenir. Trente ans de Web, c’est trente ans d’accumulation silencieuse d’images dans les bases de données, images étiquetées sans consentement, métadonnées amoncelées en strates invisibles.
C’est précisément dans ce contexte de saturation intraitable que l’IA apparaît. Mais elle n’apparaît pas comme une menace extérieure aux institutions. Elle est le symptôme de leur obsolescence. Les institutions n’avaient jamais eu le pouvoir de maîtriser ce flux. Elles croyaient organiser la rareté. Le Web a révélé qu’il n’y avait plus de rareté à organiser.
L’IA absorbe ce déluge en le transformant en une topographie multidimensionnelle continue : l’espace latent. Elle digère ce flux massif selon une logique très différente de la copie ou de la simulation. Elle extrait des formes symboliques, non pas une « vérité » quelconque, mais des corrélations statistiques qui reconstruisent le monde tel qu’il a été représenté par des milliards d’individus dans leurs pratiques quotidiennes de partage d’images.
C’est un processus chimique au sens strict : l’IA ne copie pas le réel, elle le fractionalise et le rend navigable selon une logique qui échappe aux catégories traditionnelles du discret. C’est précisément ce qu’on observe en travaillant avec ces espaces latents, comment les images cessent d’être des objets finis pour devenir des points de transit dans un continuum. Quand on demande à un réseau de diffusion de transformer une image en une autre par interpolation, on assiste à un morphing qui n’a aucun équivalent photographique. Ce n’est pas une fusion d’images. C’est une traversée du possible dans une géométrie qui nous échappe. Et dans cette traversée, les catégories s’effondrent : on ne sait plus si on crée ou si on découvre, si on invente ou si on réveille ce qui dormait dans les coordonnées vectorielles.
Ce processus est radicalement différent de ce qu’Eldagsen et Astray décrivent. Ils imaginent pouvoir préserver la distinction photographie/IA en renforçant les institutions, en traçant les processus. Mais c’est méconnaître que les institutions ont toujours été structurellement incapables de maîtriser ce flux. Elles en ont seulement organisé l’invisibilité. Le Web l’a rendu visible. L’IA en est la conséquence directe, pas un accident à corriger.
La métabolisation signifie que l’IA n’est pas un intrus. C’est la réaction d’un système technique devant une saturation sensorielle devenue intraitable par les anciennes logiques. Refuser de voir cela, c’est s’accrocher à la fiction d’une rareté épistémique qui s’est déjà évaporée.
Du code aux vecteurs
Eldagsen et Astray reprennent implicitement la distinction entre deux conceptions de l’IA : soit une IA qui exécute des instructions programmées explicitement (le code comme recette), soit une IA qui émerge de l’apprentissage (le code comme logique cachée).
Mais cette opposition elle-même est obsolète. Ce qui s’est vraiment passé, c’est qu’on est passé d’une informatique de l’instruction à une informatique de la navigation vectorielle. Ce passage n’est pas un perfectionnement technique. C’est une rupture logique.
L’informatique classique du code : une série d’instructions écrites par des humains, exécutées de manière déterministe, produisant un résultat prévisible. C’est du logocentrisme informatique,la croyance que le code est transparent, qu’on peut l’écrire, le lire, le modifier, le maîtriser. Eldagsen et Astray demeurent prisonniers de cette conception, même quand ils admettent l’opacité de l’IA. Car ils s’attendent encore à ce qu’une traçabilité soit possible, à ce que quelqu’un puisse en principe comprendre le processus. C’est une croyance pré-informatique : celle que tout peut être rendu visible par l’effort intellectuel.
Mais l’IA générative ne fonctionne pas ainsi. Elle ne fabrique pas une image selon des règles préétablies. Elle localise une image dans un espace de probabilités multidimensionnel dont les dimensions ont émergé du processus d’apprentissage sans intervention humaine prescriptive. Le vrai code,l’architecture du réseau neuronal,n’est qu’un outillage pour créer les conditions d’une navigation. Ce qui importe n’est pas la logique programmée. C’est la topologie probabiliste qui émerge du processus, autonome et irréversible. Une fois le réseau entraîné, on ne peut pas le « dérouler » comme un film. Les paramètres sont figés, mais leurs interactions restent inaccessibles à la lecture linéaire.
Ils insistent : « Photography is written with light; AI imagery is written with code. »
C’est une formule séduisante, mais fausse. Ni l’une ni l’autre n’est « écrite ». Écrire suppose une intention linéaire, une traçabilité du geste. La photographie est une capture optique,passive et active à la fois, soumise à la présence physique du réel. L’IA générative n’est pas une écriture : c’est une navigation vectorielle, un apprentissage du pli de l’espace latent. Ce ne sont pas deux variantes d’un même acte de composition. Ce sont deux ontologies radicalement différentes, deux régimes du sens.
Quand on génère une image, on ne calcule rien au sens classique du terme. On traverse un espace latent continu selon des trajectoires qui n’étaient pas tracées d’avance. L’image ne sort pas d’une formule. L’image émerge comme actualisation d’une possibilité qui existait comme potentialité vectorielle, immédiatement. C’est la différence abyssale entre une logique discrète (le code : 0 ou 1) et une topologie continue (l’espace latent : infini de gradations). Et cette différence change tout,elle change non seulement comment on produit les images, mais comment elles nous produisent en retour.
La photographie est un médium du discret : un déclic, un instant, un point de vue unique, une immobilisation. Elle capture selon une logique binaire,cet instant a existé, cet événement a eu lieu ou pas.
L’espace latent fonctionne selon une logique différente : c’est un champ de forces continu où l’on peut glisser d’un concept à un autre sans rupture. Il n’y a pas de point d’arrêt, pas de « moment de capture ». Il y a un continuum de possibilités.
C’est pourquoi on ne peut pas les comparer : en disant qu’ils sont juste deux moyens différents d’arriver au même résultat. Ils procèdent d’ontologies incompatibles.
En photographie, il y a rupture entre ce qui a été capturé et ce qui ne l’a pas été. En espace latent, il n’y a que degrés de probabilité, proximités topologiques, continuités sans seuil.
C’est aussi pourquoi l’opposition Eldagsen/Fontcuberta est fausse : ils se disputent le nom à donner à quelque chose, alors que le problème n’est pas le nom. C’est que l’ontologie même du « visuel » a changé.
L’inversion de la greffe
Fontcuberta utilise avec raison la métaphore de la greffe : l’IA se greffe sur la photographie, la transforme, en change la nature de l’intérieur. Eldagsen et Astray acceptent implicitement cette direction causale,comme si l’IA était une perturbation venue de l’extérieur, infectant un système préexistant.
Mais ne peut-on pas retourner complètement cet argument : ce n’est pas l’IA qui se greffe sur la photographie. C’est la photographie qui est devenue un greffon anachronique du système IA. Le chroniquement logique s’inverse.
La photographie traditionnelle, figée dans sa capture optique et ses présupposés d’authenticité, n’est plus qu’un mode de saisie injecté dans un système qui la dépasse radicalement. Elle fournit certes les coordonnées initiales,les données d’entraînement,mais c’est l’espace latent qui en déploie le potentiel métamorphique. Elle n’est plus productrice de sens. Elle en est le matériau digéré.
L’image photographique devient alors une archive parmi d’autres, une trace dans la mémoire vectorisée de l’IA. Son statut ne change pas graduellement. Il s’effondre catégoriquement. Elle passe de « preuve d’une réalité capturée » à « point de départ pour la génération de possibles ». Elle est absorbée, métabolisée, et recombinée selon une logique qui n’a aucune commune mesure avec le processus photographique. Et dans cette absorption, quelque chose de son essence s’échappe,ou plutôt, elle découvre qu’elle n’a jamais eu d’essence, seulement des formes.
L’accident photographique,soumis aux aléas du réel physique, à la contingence brute de l’instant, à ce qui refuse de se laisser saisir,est désormais remplacé par l’accident vectoriel : une dérive imprévisible dans la courbure multidimensionnelle des données qui révèle des vérités visuelles nichées dans les interstices de notre mémoire collective. Cet accident vectoriel ne peut pas être prédéterminé. Il ne peut pas non plus être maîtrisé. Il émerge de la navigation elle-même, comme rencontre entre l’intention du navigateur et la topologie inconnaissable de l’espace. C’est un accident qui n’est accident que pour nous, pas pour le système qui l’a généré,car pour lui, c’est simplement l’actualisation d’une virtualité contenue dans sa structure.
Donc Eldagsen a eu raison de refuser le prix Sony,mais pour les mauvaises raisons publiquement énoncées. Il ne devrait pas dire « l’IA dérobe le prix à la photographie en la mimant mieux qu’elle ». Il devrait dire : « La photographie n’existe plus comme catégorie ontologique autonome. Elle est un greffon de l’IA. Et je refuse ce prix parce que l’accepter signifierait admettre que je crois encore à une distinction que le système technique a déjà rendue impossible. »
C’est à cette condition seulement que son geste d’humilité serait honnête.
L’ère du soupçon généralisé
Eldagsen et Astray voient le doute généralisé envers les images comme une crise à résoudre. Astray s’inquiète : « Si tous les doutes nous paralysent, ceux au pouvoir gagnent. »
Mais c’est mal comprendre ce qui se passe. Le soupçon généralisé n’est pas une crise. C’est une clarification inévitable.
Puisque l’IA a métabolisé l’esthétique photographique jusqu’à la rendre indiscernable de la réalité optique, la confiance envers l’image s’effondre. Mais cet effondrement ne signifie pas qu’on a perdu la vérité. Cela signifie qu’on découvre enfin une vérité qu’on cachait : l’image n’a jamais été une preuve. Elle a toujours été un champ de bataille interprétatif.
Ce trouble se manifeste effectivement par une double crise visible :
- D’un côté, des images synthétiques s’insèrent dans le champ social en se faisant passer pour des captations du réel
- De l’autre, d’authentiques photographies sont contestées, victimes d’une paranoïa collective qui les confond avec des générations algorithmiques
Mais ce qu’Eldagsen et Astray interprètent comme l’effondrement des distinctions, je le vois comme la révélation que les distinctions n’ont jamais existé que comme fictions institutionnelles. Les récentes controverses dans les concours d’art ne sont que les symptômes visibles de cette clarification. Elles ne sont pas des accidents. Elles sont l’exposition de ce qui s’était toujours caché : que l’image n’est jamais une preuve, jamais une garantie d’authenticité.
Les institutions croyaient maîtriser cette authenticité. Elles maîtrisaient simplement un consensus. Et ce consensus s’effondre maintenant parce que l’espace latent a montré qu’il n’y avait jamais rien à maîtriser,seulement des probabilités à naviguer.
Refuser ce soupçon en appelant à renforcer les institutions, c’est refuser de voir que les institutions sont précisément ce qui effondrait le soupçon par le pouvoir, pas par la clarté.
Eldagsen et Astray posent la mauvaise question. Ils demandent : « Comment distinguer ? Comment préserver ? Comment restaurer la confiance ? »
Mais la vraie question est : « Qui contrôle l’espace latent ? Qui a le pouvoir de paramétrer les alignements, de choisir les datasets, de décider quels possibles visuels seront générables et lesquels resteront impensables ? »
C’est une question politique. Pas technique, pas institutionnelle,politique. Elle engage directement la possibilité même de ce qu’une image peut exprimer, ce qu’elle peut montrer, ce qu’elle ne montrera jamais.
Pendant des siècles, la photographie a semblé garantir une certaine démocratie de la représentation : n’importe qui pouvait en théorie prendre une photo, la publier, contester les images dominantes. Mais c’était une illusion productive. Le pouvoir de contrôler l’image s’était déplacé vers les institutions : éditeurs, musées, agences de presse. On pouvait au moins les critiquer, occuper leurs espaces, contester leurs sélections. On savait où était le pouvoir.
Maintenant, ce pouvoir s’est volatilisé et reconcentré à un niveau plus fondamental : le contrôle de l’espace latent lui-même. Un nombre infime de corporations technologiques contrôle absolument les datasets, les algorithmes, les paramètres d’apprentissage, l’alignement final des modèles. Elles ne contrôlent pas une collection d’images. Elles contrôlent les conditions ontologiques de possibilité de ce qu’une image peut être.
Et cette maîtrise est structurellement invisible. Quand Meta ou OpenAI décide qu’une certaine représentation sera « alignée » et une autre non, on ne discute plus au niveau des images. On discute au niveau des vecteurs,un domaine où seuls les ingénieurs de ces corporations peuvent naviguer. L’espace latent des plates-formes commerciales est fermé. Les datasets propriétaires. L’alignement secret. Et pourtant, des milliards d’individus rêvent à travers ces espaces latents, croient communiquer par leurs images générées, ignorant qu’ils actualisent seulement les possibles que quelques algorithmes ont décidé d’être pensables.
Appeler à renforcer les institutions face à ce problème, c’est appelé à renforcer les gardes-côtes face à une marée montante. Le problème n’est pas une distinction défaillante entre photo et IA. Le problème est que la maîtrise de l’imagination collective s’est concentrée dans les mains des algorithmes propriétaires,et que cette concentration est devenue invisible précisément parce qu’elle ne travaille plus au niveau des images visibles, mais au niveau des possibilités vectorielles.
Vers les multiplicités
Eldagsen et Astray défendent un ordre épistémique qui s’est déjà effondré. Fontcuberta propose d’accepter l’indécidabilité et de cultiver une sagesse du doute. Même si l’approche de Fontcuberta me semble plus juste, les deux positions manquent peut-être l’enjeu véritable,non pas parce qu’elles sont fausses, mais parce qu’elles sont politiquement insuffisantes.
Ce qu’il faut, ce n’est pas restaurer la distinction photo/IA. Ce n’est pas non plus accepter passivement le doute comme horizon définitif. C’est accepter l’effondrement comme condition politique pour inventer d’autres pratiques,artistiques, pédagogiques, politiques,qui multiplient les espaces latents sans qu’aucun ne puisse dominer.
Car tant qu’un seul espace latent contrôle la majorité des générations visuelles, tant que Meta, OpenAI et quelques autres décident seules des conditions du visible parce qu’ils disposent de la puissance de calcul et se sont approprié les moyens de production à des fins de plus-value, on n’a pas résolu le problème politique. On l’a seulement déplacé du niveau des institutions vers celui des vecteurs. La vraie libération serait que les possibles visuels se fragmentent radicalement, que des espaces latents incompatibles se développent en parallèle, que personne ne puisse imposer une seule grammaire du visible. Non pas par nostalgie pour l’autonomie créative perdue,cette nostalgie est elle aussi un piège,mais par nécessité tactique : la pluralité des espaces latents est la seule garantie contre la totalisation du sens. Ceci ne peut se faire que par l’appropriation collective des moyens de calcul.
Les défauts des anciennes générations d’IA,leurs hésitations, leurs monstruosités, leurs étrangetés non domestiquées constituaient précisément leur vertu esthétique et politique. Ces défauts étaient des fissures où l’imprévisible trouvait place. Leur disparition progressive au profit d’un réalisme standardisé, poli, invisible n’est pas un progrès technique. C’est l’homogénéisation programmée de notre imaginaire collectif, la fermeture méthodique des possibles en faveur d’une moyenne statistique que les corporations trouvent gérable et monétisable.
Contre cette réduction, il faut cultiver l’accident, la divergence, la défamiliarisation. Non pas pour restaurer une authenticité perdue,cette authenticité n’a jamais existé,mais pour multiplier les possibles à l’intérieur même du système technique qui tend à les réduire. Ce travail n’est pas innocent. Il n’est pas non plus totalement libre. Mais il est nécessaire. Et il suppose une certaine forme d’humilité : reconnaître qu’on navigue dans l’espace latent sans le maîtriser, qu’on explore des possibles sans présumer qu’on les crée, qu’on résiste sans certitude de victoire. La seule honnêteté aujourd’hui, c’est d’accepter qu’il n’y a plus de distinctions à restaurer,seulement des espaces à fragmenter, des possibles à multiplier, et une guerre silencieuse à mener contre l’homogénéisation vectorielle.
La seule honnêteté aujourd’hui, c’est d’accepter qu’il n’y a plus de distinctions à restaurer, seulement des espaces à fragmenter, des possibles à multiplier, et une guerre silencieuse à mener contre l’homogénéisation vectorielle. C’est en fidélité à l’intuition de Fontcuberta, mais en la radicalisant, que nous parvenons à cette conclusion : son soupçon généralisé n’est pas une fin en soi, mais le point de départ d’une transformation politique.