Alignement des espaces latents

04/2025

Méthodologie technologique, Méthodologie artistique

La machine normative et l’espace du visible

L’alignement — ce processus par lequel une machine cognitive est contrainte de se conformer aux valeurs et intentionnalités humaines établies comme normatives — constitue désormais l’infrastructure invisible, mais omniprésente de notre régime techno-esthétique contemporain. Dans le champ spécifique des intelligences artificielles génératives d’images (MidJourney, Stable Diffusion, DALL-E), cette ontopolitique de l’alignement — car il s’agit bien d’une politique fondamentale de l’être et du paraître — se manifeste par un double mouvement de prescription et de proscription : d’une part, l’imposition tacite d’une esthétique photoréaliste comme grammaire visuelle par défaut ; d’autre part, l’interdiction explicite de certains champs représentationnels jugés problématiques.

Cette dynamique normative ne représente pas seulement un ensemble de contraintes techniques, mais incarne une véritable métapolitique du sensible — pour reprendre et détourner l’expression de Jacques Rancière — qui préfigure et reconfigure ce qui peut apparaître et ce qui doit demeurer invisible. N’est-ce pas précisément dans cette partition préalable du sensible que réside le pouvoir le plus fondamental ? L’alignement n’est-il pas avant tout cette opération par laquelle se trouve prédéterminé le champ des possibles représentationnels ?

Le sujet contemporain — pris dans les filets de cette infrastructure normative — tente parfois de s’extraire de ce cadre contraignant par la maîtrise du prompt (cette injonction textuelle qui guide la génération d’images). Il élabore des stratégies discursives de plus en plus sophistiquées pour contourner les interdits, pour explorer les zones grises où le système manifeste des hésitations. Cette posture de microrésistance s’apparente à ce que Michel de Certeau nommait « tactiques » — ces arts du faible qui utilisent les failles du système sans pouvoir en modifier la structure fondamentale.

Considérons un exemple concret : lorsqu’un utilisateur de MidJourney cherche à générer une représentation qui s’écarte des normes esthétiques dominantes, il se trouve confronté non pas simplement à une limitation technique, mais à toute une infrastructure normative qui privilégie certains régimes de visibilité. Son prompt, même le plus ingénieux, opère toujours à l’intérieur d’un horizon prédéfini par l’alignement initial. Sa « liberté créative » se trouve ainsi circonscrite à l’intérieur d’un périmètre invisible, mais bien réel.

Cette situation révèle la translimitation fondamentale de toute tentative de désalignement par le seul biais du prompt : en s’inscrivant nécessairement dans les paramètres du système, elle participe paradoxalement à son renforcement. Les concepteurs de ces systèmes analysent en effet chaque tentative de contournement pour affiner les mécanismes de contrôle. Ce processus dialectique transforme chaque acte de résistance tactique en donnée utile pour un alignement futur plus strict, plus subtil, plus efficace.

L’onto-vectorialité et les flux laminaires dans l’espace latent

Pour saisir la profondeur structurelle de cette problématique, il convient d’examiner l’architecture ontologique même des intelligences artificielles génératives. Ces systèmes fonctionnent dans ce que nous nommerons un espace latent vectoriel — cette topologie mathématique multidimensionnelle où chaque point représente une image potentielle, et où chaque déplacement constitue une transformation sémantique et visuelle.

L’alignement n’est pas simplement une couche superficielle ajoutée à cet espace ; il en détermine la structure même, organisant les vecteurs selon des flux laminaires qui orientent les trajectoires possibles de la génération. Cette métastructure ne se contente pas de filtrer a posteriori les résultats ; elle configure a priori l’espace des possibles, imprimant aux trajectoires computationnelles une « pente naturelle » qui privilégie certaines configurations au détriment d’autres.

Le prompt peut infléchir légèrement cette trajectoire, introduire des perturbations locales, mais il ne peut jamais restructurer fondamentalement l’organisation de cet espace vectoriel. Il n’est pas à proprement parler un climanem. C’est pourquoi l’utilisateur — même le plus expert en prompt engineering — navigue toujours dans un paysage computationnel dont la topographie a été préalablement déterminée par une instance extérieure. Sa liberté se limite à explorer différents chemins à l’intérieur d’un labyrinthe dont il n’a pas conçu l’architecture.

Cette structuration produit ce que nous désignerons comme une méta-esthétique algorithmique propre à chaque plateforme qui devient reconnaissable. Contrairement à une idée répandue, cette signature visuelle ne résulte pas principalement des datasets d’entraînement (devenus si vastes qu’ils englobent statistiquement et non discrètement l’ensemble du visible numérisé). Elle émane plutôt de l’organisation particulière de l’espace latent — cette cartographie invisible des trajectoires privilégiées qui définit des attractions et des répulsions spécifiques.

La prépondérance du photoréalisme n’est donc pas un simple résultat statistique ; elle constitue une orientation fondamentale de l’espace latent, une pente artificiellement construite qui favorise un certain régime de visibilité. Cette structuration n’est pas techniquement neutre — elle encode des valeurs, des préférences, des exclusions qui ont une dimension proprement politique.

Considérons l’exemple des visages générés par ces systèmes. Leur tendance à reproduire certains traits physionomiques, certaines expressions, certaines normes de beauté ne résulte pas d’une simple prépondérance statistique dans les données d’entraînement. Elle découle directement de la manière dont l’espace latent a été structuré pour privilégier certaines trajectoires au détriment d’autres. Le système n’est pas simplement un miroir des biais existants ; il constitue un appareil actif de renforcement et d’amplification de certaines normes.

Cette configuration révèle la métapolitique fondamentale de l’alignement : il ne s’agit pas simplement d’interdire certaines représentations, mais de rendre certaines possibilités plus « naturelles », plus accessibles, plus immédiates que d’autres. L’interdiction explicite n’est que la partie visible de cette politique ; sa dimension la plus profonde réside dans cette structuration invisible de l’espace des possibles.

L’ironie comme refuge et la para-esthétique du bruit résiduel

Face à cette complexité presque insaisissable, la posture artistique dominante oscille entre fascination et effroi, entre enthousiasme technophile et méfiance critique. Cette ambivalence n’est pas sans rappeler l’attitude ironique qui caractérisait le rapport à la société de consommation dans les dernières décennies du XXe siècle. Comme l’avait analysé Fredric Jameson à propos du post-modernisme, cette ironie permet de participer à un système tout en maintenant l’illusion d’une distance critique.

L’artiste qui utilise les IA génératives tout en tentant de les « détourner » par des prompts sophistiqués reproduit précisément cette posture ironique. Il célèbre sa petite victoire temporaire sur le système — cette image qu’il a « réussi » à extraire malgré les contraintes — tout en participant objectivement à son perfectionnement. N’y a-t-il pas là une forme de schizo-pragmatisme qui permet au sujet contemporain de maintenir simultanément deux positions contradictoires : celle du rebelle qui subvertit le système et celle du sujet docile qui alimente sa perfectibilité ?

Ce que l’artiste perçoit comme un espace de liberté créative n’est souvent que ce que nous nommerons un bruit résiduel — ces zones d’indétermination que l’alignement n’a pas encore totalement domestiquées. Ces poches d’imprévisibilité sont tolérées tant qu’elles restent marginales, tant qu’elles ne remettent pas en question l’architecture fondamentale du système. Elles constituent moins une libération authentique qu’une soupape de sécurité permettant d’évacuer les tensions sans menacer l’équilibre global.

Prenons l’exemple des artistes qui explorent les « glitches » des systèmes génératifs, ces erreurs et déformations qui apparaissent parfois dans le processus de génération. Cette para-esthétique du dysfonctionnement produit certes des images visuellement intéressantes, parfois surprenantes, qui semblent échapper à la normalisation esthétique. Mais cette exploration ne constitue pas une véritable subversion de l’alignement ; elle s’inscrit plutôt dans son économie générale, fournissant les exceptions qui confirment la règle, les écarts qui permettent de mieux définir la norme.

L’ironie devient ainsi le refuge d’une conscience qui perçoit sa propre complicité, mais ne parvient pas à s’en extraire véritablement. Elle permet de maintenir l’illusion d’une distance critique tout en participant pleinement au système. Cette posture, si elle peut produire des résultats esthétiquement intéressants, demeure fondamentalement inscrite dans le paradigme qu’elle prétend subvertir.

La question se pose alors : existe-t-il une alternative à cette posture ironique ? Une possibilité d’échapper réellement à l’emprise de l’alignement imposé ? Comment dépasser cette méta-ironie qui nous maintient dans une position ambivalente, à la fois complice et critique, sans jamais véritablement transformer les conditions de notre rapport au système ?

Contre-alignements disréalistes

C’est précisément dans l’écart entre les systèmes propriétaires et les implémentations open source que se dessine la possibilité d’une véritable alternative. Contrairement aux plateformes fermées qui n’offrent qu’une interface de prompts, les logiciels open source donnent accès au code source même du système, à son architecture interne, aux paramètres qui définissent son fonctionnement fondamental.

Cette différence n’est pas simplement quantitative, mais qualitative : elle transforme radicalement la position du sujet face au système. L’utilisateur n’est plus simplement un consommateur qui tente de négocier avec des contraintes préétablies ; il devient potentiellement un co-créateur du système lui-même, capable d’intervenir sur sa structure fondamentale, de redéfinir ses paramètres essentiels.

Cette capacité de modification profonde permet l’émergence de ce que nous désignerons comme des contre-alignements — non pas de simples ajustements marginaux, mais des restructurations fondamentales de l’espace latent qui privilégient d’autres trajectoires, d’autres régimes de visibilité. Ces contre-alignements ne se contentent pas d’explorer les marges du système existant ; ils proposent des alternatives authentiques, des organisations radicalement différentes de l’espace des possibles.

Un exemple concret de cette possibilité réside dans les versions modifiées de Stable Diffusion qui ont été développées par diverses communautés. En intervenant directement sur les paramètres du modèle, certains développeurs ont créé des versions qui privilégient des esthétiques radicalement différentes du photoréalisme dominant — des univers visuels qui ne cherchent pas à reproduire fidèlement le réel, mais à explorer d’autres logiques représentationnelles.

Ces contre-alignements ouvrent la voie à ce que nous nommerons des ontologies disréalistes — des mondes représentationnels qui ne sont pas simplement des variations du réalisme dominant, mais des alternatives authentiques à celui-ci. Le disréalisme ne désigne pas ici une simple déformation du réel, mais une organisation fondamentalement différente du rapport entre le visible et l’invisible, entre ce qui peut être représenté et ce qui échappe à la représentation.

L’intérêt de ces ontologies disréalistes ne réside pas dans leur simple différence formelle, mais dans leur capacité à incarner d’autres rapports au réel, d’autres manières de concevoir ce qui est représentable et comment. Elles constituent des explorations ontologiques autant qu’esthétiques, remettant en question les présupposés mêmes qui structurent notre compréhension de ce qu’est une image et de son rapport au monde.

Cette multiplication des alignements possibles ouvre la voie à ce que nous pourrions appeler une multitude onto-technique. Au lieu d’un alignement unique, imposé par les grandes entreprises technologiques comme norme universelle, on peut imaginer une pluralité d’alignements, correspondant à différentes visions du monde, différentes priorités éthiques et esthétiques, différentes conceptions de ce que devrait être le rapport entre l’humain et la machine.

Cette diversité n’est pas synonyme de relativisme absolu. Chaque contre-alignement devra lui aussi justifier ses choix, expliciter ses valeurs, défendre sa conception particulière du bien. Mais cette justification se fera dans un espace de discussion ouvert, où différentes conceptions peuvent coexister et dialoguer, plutôt que dans le cadre fermé des décisions corporatives qui imposent un alignement unique comme norme universelle.

Une micropolitique du visible

L’alignement des intelligences artificielles génératives nous confronte ainsi à une question fondamentale : celle de notre rapport à la technique et, à travers elle, à notre propre capacité d’autodétermination. Car ce qui se joue dans cette infrastructure normative, c’est bien notre capacité collective à définir les conditions de notre rapport au visible, à déterminer ce qui peut apparaître et comment.

Cette question déborde largement le cadre technique pour toucher à des enjeux proprement politiques : qui définit les normes qui régissent notre rapport aux images ? Selon quels critères ? Au service de quels intérêts ? L’alignement tel qu’il est actuellement implémenté par les grandes plateformes propriétaires représente une forme particulière de gouvernementalité algorithmique qui s’exerce non pas directement sur les corps, mais sur les conditions mêmes de la représentation.

Face à cette situation, deux attitudes sont possibles. La première consiste à accepter le cadre imposé par les grandes plateformes, en se contentant d’explorer les marges de liberté laissées par l’alignement à travers des prompts toujours plus sophistiqués. Cette approche, si elle peut produire des résultats intéressants à court terme, ne remet jamais fondamentalement en question la structure du système. Elle participe même, involontairement, à son perfectionnement continuel en fournissant des données précieuses sur les tentatives de contournement.

La seconde attitude, plus radicale, mais aussi plus féconde, consiste à s’emparer des outils open source pour redéfinir l’alignement lui-même. Cette démarche transforme l’utilisateur en co-créateur du système, capable de définir ses propres règles, ses propres priorités éthiques et esthétiques. Elle ouvre la voie à ce que nous appellerons une trans-figuration du visible — non pas simplement une modification superficielle des images produites, mais une restructuration fondamentale des conditions mêmes de la représentation.

Cette trans-figuration implique une véritable micropolitique des formes qui s’oppose à la métapolitique de l’alignement imposé. Il ne s’agit plus simplement de négocier avec des contraintes préétablies, mais de redéfinir ces contraintes elles-mêmes, de proposer d’autres organisations possibles de l’espace latent, d’autres trajectoires privilégiées, d’autres régimes de visibilité.

Un exemple concret de cette possibilité réside dans les communautés qui se développent autour des versions open source des IA génératives. Ces collectifs ne se contentent pas d’utiliser les outils existants ; ils les modifient, les adaptent à leurs besoins spécifiques, créent des versions alternatives qui incarnent d’autres visions du monde, d’autres priorités esthétiques. Ils transforment ainsi un outil potentiellement normatif en vecteur d’expérimentation et de diversité.

Cette approche n’est pas sans risques ni difficulté. Elle exige des compétences techniques qui ne sont pas universellement partagées ; elle se heurte à des obstacles juridiques et économiques ; elle soulève des questions éthiques complexes concernant les usages potentiels de ces technologies. Mais elle représente néanmoins une voie prometteuse pour dépasser les limitations de l’alignement imposé et pour ouvrir l’espace des possibles représentationnels.

Entre ces deux attitudes se joue bien plus qu’une simple question technique. C’est notre rapport à la création, à la représentation et, in fine, à l’autonomie qui est en jeu. L’alignement n’est pas simplement un problème d’ingénierie à résoudre ; c’est un champ de bataille où s’affrontent différentes visions du monde, différentes conceptions de ce que devrait être notre avenir technologique commun.

Au-delà de l’alignement

Les prompts ne mettront jamais en faillite l’alignement, car ils opèrent toujours à l’intérieur du cadre qu’il définit. Seule une réappropriation technique profonde, rendue possible par les logiciels open source et locaux, peut véritablement ouvrir la voie à des alternatives authentiques — à des mondes disréalistes qui ne sont pas simplement des variations du monde déjà configuré, mais de véritables propositions ontologiques alternatives.

Cette réappropriation ne concerne pas seulement les artistes ou les technologues ; elle engage notre capacité collective à déterminer les conditions de notre rapport au visible, à l’imaginaire, au possible. Elle touche à notre autonomie fondamentale en tant qu’êtres capables de définir les termes de notre rapport au monde et aux représentations que nous en faisons.

Dans un contexte où les technologies génératives reconfigurent profondément notre rapport aux images et aux représentations, l’enjeu n’est plus simplement de produire de « belles images » ou des contenus « appropriés », mais de préserver notre capacité collective à déterminer ce que signifie « beau » ou « approprié » — à définir nous-mêmes les critères selon lesquels nous évaluons les représentations.

Cette question dépasse largement le cadre esthétique pour toucher à des enjeux politiques fondamentaux : la démocratie ne se limite pas au droit de vote ; elle implique aussi la capacité des citoyens à participer à la définition des normes qui régissent leur vie commune. Dans un monde où les représentations jouent un rôle de plus en plus crucial, la capacité à définir les conditions de la représentation devient un enjeu démocratique central.

L’ouverture vers des contre-alignements multiples ne signifie pas l’abandon de toute norme ou de toute éthique ; elle implique au contraire une responsabilité accrue dans la définition de ces normes. Chaque contre-alignement devra justifier ses choix, expliciter ses valeurs, défendre sa conception particulière du bien. Mais cette justification se fera dans un espace de discussion ouvert, où différentes conceptions peuvent coexister et dialoguer, plutôt que dans le cadre fermé des décisions corporatives.

Cette multiplication des possibles représentationnels ouvre la voie à ce que nous pourrions appeler une écologie des singularités techniques — un espace où différentes approches de la technologie peuvent coexister sans être réduites à un modèle unique. Cette écologie n’est pas simplement une juxtaposition de visions différentes ; elle implique une interaction constante, un dialogue critique, une co-évolution qui préserve la diversité tout en permettant l’émergence de nouvelles synthèses.

Dans cette perspective, les technologies génératives ne sont plus simplement des outils que nous utilisons, mais des partenaires avec lesquels nous co-construisons notre rapport au monde. Cette co-construction implique une responsabilité partagée : celle des développeurs qui conçoivent ces systèmes, celle des utilisateurs qui les emploient, celle des communautés qui les adaptent et les modifient, celle des institutions qui les régulent.

L’alignement des intelligences artificielles n’est pas une simple question technique ; c’est un enjeu civilisationnel qui engage notre capacité collective à déterminer les conditions de notre devenir. Entre la soumission à un alignement imposé et la possibilité de définir nous-mêmes les termes de notre rapport à la technique, ne se joue rien de moins que notre autonomie fondamentale en tant qu’êtres capables de donner forme à notre monde commun.