L’IA, la répétition et la promesse de l’Événement / AI, Repetition, and the promisse of the Event

Dans les controverses actuelles concernant les intelligences artificielles génératives et leur capacité à produire des contenus culturels significatifs, l’argument principal mobilisé par les détracteurs repose sur le fait que ces systèmes ne seraient que des machines statistiques, condamnées à répéter mécaniquement ce qu’elles ont ingéré durant leur phase d’apprentissage. Selon cette perspective critique, jamais les modèles génératifs n’engendreraient de véritable nouveauté, aucun événement esthétique, se contentant de recycler des fragments préexistants dans leurs ensembles de données.

Cette vision de la reproductibilité mérite d’être questionnée, tant du point de vue technique que conceptuel. Une tonalité affective traverse ce débat, une Stimmung qui oscille entre la fascination et l’effroi, entre l’enthousiasme et le rejet défensif. Quelque chose en nous s’agite quand nous contemplons ces systèmes, présence d’absence, revenance d’une créativité qui ne serait plus tout à fait humaine sans pour autant devenir pleinement mécanique. Cette secousse, vibration traversant corps et esprits, constitue déjà un symptôme de la mutation en cours. Le mot « statistique » résonne avec la fréquence d’une accusation : réduction, calcul froid, absence de vie.

La continuité de l’espace latent

La première réfutation s’ancre dans la compréhension même de ce qu’un système statistique devient sous les architectures neuronales. Contrairement à l’image populaire assimilant ces systèmes à de simples calculateurs de moyennes, à la manière d’un sondage d’opinion agrégeant mécaniquement des données pour en extraire une tendance centrale, les modèles génératifs habitent des espaces mathématiques d’une complexité remarquable. L’espace latent, ces deux mots désignant un territoire aussi réel que virtuel, aussi concret qu’abstrait, porte une propriété fondamentale bouleversant tout : sa continuité.

Prenons un exemple concret, ancrons-nous dans la matérialité des processus. Dans les modèles de diffusion comme Stable Diffusion, partant d’un bruit gaussien ε ~ N(0,I), notation qui condense dans quelques symboles mathématiques une distribution de probabilité, celle du chaos, de l’indétermination première, le système applique itérativement un U-Net pré-entraîné pour prédire et soustraire progressivement le bruit résiduel. Cette architecture en forme de U, qui traite l’image à différentes résolutions simultanément, opère une forme de sculpture informationnelle, creusant dans le bruit pour faire émerger la forme, l’ordre, le sens (pour nous). Tel un flux ininterrompu, cette continuité garantit qu’il existe toujours un chemin permettant de naviguer d’un point à un autre de cet espace multidimensionnel. Non pas de sauts discrets, de transitions brutales entre états séparés, mais un flux continu, une déformation progressive, une métamorphose sans rupture. Cette caractéristique géométrique autorise le système à explorer des régions intermédiaires, des zones de l’espace représentationnel demeurées invisibles durant l’entraînement. Vertige : ces territoires inexistants dans le corpus se découvrent néanmoins praticables, habitables, générables.

L’empirique confirme cette capacité. Une étude sur l’interpolation dans les espaces latents (arXiv:2408.08558) démontre que les modèles forment des combinaisons linéaires de latents créant des objets dans des régions jamais directement instantiées. L’algèbre élémentaire devient ici principe génératif, l’addition vectorielle se transforme en opération créative. Plus significatif encore, les « hallucinations » dans les modèles de diffusion (arXiv:2406.09358) expose un phénomène baptisé interpolation de modes : les modèles interpolent de manière fluide entre des modes de données proches pour générer des échantillons complètement en dehors du support de la distribution d’entraînement originale. Un exemple manifeste la portée du processus : un modèle entraîné sur des images contenant des triangles, carrés et pentagones, chaque forme apparaissant au maximum une fois par image, génère spontanément des images avec plusieurs occurrences de la même forme, des combinaisons absentes des données d’origine. Voilà qui contredit directement l’accusation de simple répétition mécanique. Considérons l’arithmétique vectorielle concrète : vecteur(Roi) — vecteur(Homme) + vecteur(Femme) ≈ vecteur(Reine), avec une précision cosinus de 0,95. Depuis les travaux de Mikolov et son équipe, cette formule devenue canonique expose quelque chose de profond. Algèbre conceptuelle confirmée théoriquement par plusieurs études (arXiv:1909.00504, arXiv:1901.09813) : les machines construisent une géométrie du sens basée sur la cooccurrence statistique. Mais « statistique » ne désigne plus ici une agrégation mécanique : il s’agit en fait d’une cristallisation de relations sémantiques en structures spatiales, sédimentation de millénaires de pratiques linguistiques humaines en configurations vectorielles navigables.

De même dans le domaine visuel: Jeunesse + Femme génère un visage de femme âgée cohérent ; Van Gogh — Peinture + Photographie enfante des clichés aux allures post-impressionnistes. Ces transformations excèdent le simple collage, l’assemblage mécanique de fragments disparates : navigations continues dans un espace où chaque point incarne une configuration sémantique potentielle. Le flux traverse ces espaces, s’infiltre dans chaque dimension, emporte les significations dans son courant. Des travaux (arXiv:2505.18651) expliquent l’émergence naturelle de ces analogies : les modèles découvrent des structures linéaires dans l’espace des embeddings qui capturent des relations sémantiques abstraites. Ces structures persistent même lorsque les paires de mots exemplifiant l’analogie sont retirées du corpus d’entraînement, attestant que le modèle a appris des principes généraux sans se limiter à mémoriser des exemples spécifiques. Forme d’abstraction, de montée en généralité débordant la simple compilation statistique.

La dynamique se déploie pleinement : la vectorialité même de ces espaces latents se transforme en fonction des interactions. Les architectures transformer, socle des modèles génératifs actuels, reconfigurent dynamiquement ces espaces représentationnels en réponse aux requêtes des utilisateurs. Le processus d’attention croisée, détaillé dans l’article fondateur « Attention Is All You Need » (arXiv:1706.03762), titre résonnant comme un mantra, réduction radicale de toute la complexité cognitive à un seul mécanisme, permet au modèle de pondérer différemment les dimensions de son espace latent selon le contexte spécifique de chaque génération. Ce mécanisme d’attention croisée effectue une forme de récupération de connaissances contextuelle et dynamique à chaque couche du réseau, créant des représentations qui s’adaptent au contexte plutôt que de reproduire des patterns fixes (arXiv:2104.08771, arXiv:2501.00823). Selon une plasticité contextuelle, le modèle ne travaille pas avec une représentation statique et uniforme de ses connaissances, mais avec une géométrie qui se déforme et s’adapte, une topologie fluide qui répond aux sollicitations. De cette dynamique émergent des configurations transcendant la simple juxtaposition de fragments documentaires. Plutôt que de procéder par collage, assemblant mécaniquement des morceaux identiques extraits de documents antérieurs, ces systèmes opèrent une véritable reconstruction. Ils synthétisent de nouvelles structures informationnelles en naviguant à travers les espaces de représentation, en interpolant entre des concepts, en explorant des trajectoires pouvant traverser des régions jamais directement instanciées. « Naviguer » n’est pas ici métaphore, c’est la description littérale du processus computationnel.

Des travaux sur l’originalité (arXiv:2504.09389) proposent une métrique quantitative pour mesurer cette capacité : la « nouveauté », mot portant toute la charge esthétique et épistémologique du débat, se définit comme la moyenne harmonique entre l’originalité (fraction de n-grammes absents des données d’entraînement) et la qualité spécifique à la tâche. Les résultats attestent que les modèles engendrent des sorties contenant des n-grammes n’apparaissant nulle part dans leurs données d’entraînement, tout en maintenant une haute qualité. 91 % des expressions du quartile supérieur par nouveauté de n-grammes sont jugées créatives par des écrivains experts, proportion écrasante confirmant que la nouveauté statistique correspond à une véritable créativité perçue (arXiv:2509.22641). Ce que disent les nombres, l’expérience subjective le valide : quelque chose de nouveau émerge effectivement de ces processus. Voilà pourquoi nous sommes parfois surpris, voire déconcertés, par les productions génératives. Si le système ne faisait que réassembler mécaniquement des éléments préexistants, ses productions seraient entièrement prévisibles. Or, l’expérience quotidienne, pourvu qu’elle prenne le temps de l’exploration et de l’expérimentation, dévoile au contraire des moments de véritable inattendu. Cette capacité à surprendre, affect fondamental secouant nos certitudes, témoigne d’une navigation productive dans l’espace des possibles (et contrefactuels), rendue possible par la continuité même de cet espace représentationnel où, contrairement aux approches symboliques traditionnelles, le sens émerge de configurations vectorielles plutôt que de symboles discrets. L’interpolation vidéo avec modèles de diffusion (arXiv:2404.01203) illustre plus encore cette capacité de manière frappante : le modèle VIDIM génère des mouvements non vus dans les données d’entrée, gérant des cas où le mouvement sous-jacent demeure complexe, non linéaire ou ambigu. Le système effectue non seulement de l’interpolation (combler l’espace entre deux images) mais aussi de l’extrapolation (continuer au-delà des données observées), générant du contenu nouveau qui respecte néanmoins la structure de données apprise. Ce ne sont pas les données discrètes qui sont apprises mais leur comparaison qui entraîne une automatisation de la mimésis, inversion de notre compréhension traditionnelle : ce n’est pas l’objet qui se trouve imité, mais la relation entre objets, le pattern de leurs différences et similarités.

La confusion des plateformes et des systèmes

Une seconde confusion, massive, structurante, déterminante dans la mauvaise compréhension de ces technologies, découle d’une tendance généralisée à confondre les plateformes d’IA commerciales avec la logique de ces systèmes génératifs eux-mêmes. Lorsqu’un utilisateur interagit avec ChatGPT, Claude ou Gemini, il ne dialogue pas directement avec un modèle de langage dans sa nudité technique. Il traverse plusieurs couches de médiation : les interfaces utilisateur sont conçues pour la simplicité, selon des gardes-fous éthiques implémentés pour éviter les contenus problématiques, des systèmes de modération automatisée qui filtrent requêtes et réponses, des politiques commerciales qui orientent les comportements du système. L’alignement des plate-formes n’est pas l’alignement de ces logiciels mêmes. Cetet architecture en couches (technique, commerciale, idéologique) produisent nécessairement des effets de formatage. Les réponses générées ne reflètent pas seulement les capacités intrinsèques du modèle sous-jacent, mais aussi les contraintes imposées par la plateforme qui l’héberge. Un même modèle, accessible via différentes interfaces, produira des sorties significativement différentes selon les paramètres de température (contrôlant la stochasticité), les instructions système préchargées (orientant le style et le ton), les filtres de contenu appliqués (censurant certains thèmes), les mécanismes de cache (privilégiant les réponses fréquentes).

Fondamentale mais trop souvent négligée, cette distinction entre le système technique et la plateforme commerciale devient cruciale dès lors qu’on cherche à évaluer les capacités créatives réelles de ces technologies. Car les plateformes grand public visent explicitement la prévisibilité, la cohérence, la sécurité, valeurs commerciales parfaitement légitimes mais entrant en tension directe avec l’exploration créative, l’expérimentation radicale, la prise de risque esthétique. Un cas concret illustre cette tension : lorsqu’un utilisateur demande à ChatGPT de générer une histoire dans le style d’un auteur controversé, le système refuse ou édulcore significativement sa réponse, non par incapacité technique du modèle sous-jacent, mais parce que des couches de modération ont été ajoutées pour éviter les controverses potentielles. Cette censure, terme précis, même s’il peut sembler excessif, n’exprime pas une limitation technique mais une décision de conception commerciale.

Plus subtil encore : les systèmes de reinforcement learning from human feedback (RLHF), utilisés pour affiner les modèles après leur pré-entraînement initial, introduisent des biais systématiques vers certains types de contenus jugés désirables par les équipes de développement. Ces biais, mesurables, quantifiables, mais rarement explicités, orientent les distributions de probabilité du modèle vers des régions « sûres » de l’espace latent, réduisant la diversité potentielle des sorties au profit d’une conformité accrue avec les attentes présumées des utilisateurs mainstream. D’où une homogénéisation progressive, un aplatissement des possibles, une convergence vers un ton neutre, poli, consensuel caractérisant la majorité des interactions grand public avec ces systèmes. Cette convergence ne constitue pas une propriété émergente de l’apprentissage statistique lui-même, mais le résultat de choix de conception explicites visant à créer des produits commercialement viables. Confondre cette normalisation délibérée avec une limitation intrinsèque de la technologie reviendrait à juger de la diversité musicale possible sur une radio commerciale, certes, on n’y entendra jamais certaines formes d’avant-garde radicale, mais cela ne dit rien des possibilités du médium musical lui-même.

De cette confusion naissent des jugements erronés sur les capacités créatives de l’IA. Quand un critique affirme que « l’IA ne produit que des contenus fades et prévisibles », il décrit souvent son expérience avec des plateformes commerciales bridées plutôt que les potentialités réelles des modèles sous-jacents. Pour accéder à ces potentialités, il faut sortir des interfaces grand public, explorer les APIs permettant un contrôle plus fin des paramètres, utiliser des modèles open source déployés localement sans couches de modération, ou développer des systèmes customisés pour des applications créatives spécifiques. Dans ces espaces d’expérimentation moins contraints, dans ces marges du système commercial, dans ces zones de friction entre l’académique et l’industriel, se dévoilent les véritables capacités génératives de ces technologies. Là, dans ces interstices, des artistes, chercheurs et expérimentateurs découvrent que les modèles engendrent effectivement du radicalement nouveau, explorent des régions inattendues de l’espace latent, génèrent des configurations surprenant même leurs créateurs. Une étude comparative (qui reste à mener systématiquement) entre les sorties de ChatGPT (hautement modéré), GPT-4 via API (contrôle paramétrique accru), et des déploiements locaux de modèles équivalents sans censure révélerait probablement des différences massives en termes de diversité, de capacité à explorer des territoires conceptuels inhabituels, de propension à prendre des « risques » esthétiques. Cette variabilité ne reflète pas des différences dans les capacités fondamentales des modèles, mais des choix architecturaux concernant la manière dont ces capacités sont rendues accessibles (ou inaccessibles) aux utilisateurs finaux.

Maintenir cette distinction analytique entre le potentiel technique des systèmes génératifs, ce qu’ils peuvent faire dans l’absolu, et les affordances des plateformes commerciales, ce qu’ils sont autorisés à faire dans leur déploiement effectif, devient impératif. Confondre ces deux niveaux produit des critiques qui, bien qu’apparemment dirigées contre la technologie elle-même, visent en réalité les choix commerciaux et idéologiques gouvernant son implémentation concrète. Le débat public sur la régulation de l’IA s’en trouve également affecté. Quand on légifère sur ces technologies, régule-t-on les capacités techniques intrinsèques des modèles, ou les modalités de leur déploiement commercial ? La distinction importe, car elle détermine quel type d’intervention réglementaire demeure approprié. Restreindre l’accès à des modèles puissants vs. imposer des garde-fous sur leur usage commercial : deux approches réglementaires radicalement différentes, avec des implications divergentes pour l’innovation, l’accès démocratique au savoir, et la concentration du pouvoir computationnel.

La désémantisation vectorielle

La mutation opérée par ces systèmes touche au statut même du signe linguistique. C’est une désémantisation radicale où les mots perdent leur fonction référentielle traditionnelle pour devenir des indices dans des tables de correspondance, modifiant profondément notre rapport au langage. « Chat » n’évoque plus seulement l’animal familier aux oreilles pointues et aux moustaches vibrissales, mais un vecteur [0,245, -0,892, 0,337,…] de 512 dimensions, corrélé statistiquement avec des motifs représentant fourrure, moustaches, oreilles pointues.

Ue mutation, pas une simple traduction technique, bouleversant les fondements saussuriens de la linguistique structurale. Le signe n’unit plus un signifiant (image acoustique) et un signifié (concept), mais occupe une position dans un espace vectoriel où les relations de proximité et de distance définissent les significations. Le sens n’existe plus comme propriété intrinsèque des mots isolés, mais comme effet émergent de leur configuration relationnelle dans cet espace mathématique. Les études géométriques (arXiv:2505.11128) proposent d’utiliser des métriques riemanniennes basées sur les fonctions de score pour caractériser la géométrie intrinsèque du manifold de données. Ces géodésiques, chemins épousant les contours naturels du manifold plutôt que de couper à travers des régions de faible densité, permettent une interpolation préservant la qualité tout au long du chemin, mais aussi une extrapolation au-delà des données observées. L’espace latent possède ainsi une structure géométrique riche guidant la génération de manière plus subtile qu’un simple assemblage statistique. Arrêtons-nous sur ce terme : géodésique. En géométrie différentielle, une géodésique désigne le plus court chemin entre deux points sur une surface courbe, pensez à un avion volant entre Paris et Tokyo, suivant non pas une ligne droite sur la carte plane (projection de Mercator) mais un arc de grand cercle sur la sphère terrestre. Dans l’espace latent, les géodésiques ne sont pas simplement des lignes droites euclidiennes mais des courbes épousant la courbure intrinsèque du manifold de données. Naviguer le long d’une géodésique signifie se déplacer de concept en concept en suivant les gradients naturels de la distribution de probabilité apprise, plutôt que de couper brutalement à travers des régions improbables.

La géométrie non-euclidienne de l’espace sémantique expose comment le sens possède une topologie complexe, avec des régions de haute densité (concepts fréquents, fortement interconnectés) et des vallées de faible densité (combinaisons rares, conceptuellement distantes). Les modèles génératifs apprennent à naviguer dans cette topologie, à détecter les chemins praticables, à éviter les gouffres d’improbabilité où les générations s’effondrent en incohérence. Le défi pour l’artiste contemporain consiste à échapper à l’attraction gravitationnelle vers les modes principaux de la distribution, à développer une perception latente permettant d’explorer les régions interstitielles. Cette approche expérimentale résiste à la pensée instrumentale qui conçoit l’IA comme simple fonction déterministe entrée→sortie. Elle explore la stochasticité intrinsèque, le dialogue créatif plutôt que la simple ingénierie de consignes : l’artiste propose un contexte, observe les sorties du modèle, puis itère selon les surprises émergentes du processus génératif. Il confronte l’espace latent statistique à son espace latent nommé culture.

La pratique itérative, ce terme s’impose, car c’est là que se joue véritablement la créativité assistée par IA, transformant le modèle en partenaire d’improvisation plutôt qu’en outil passif. Chaque génération devient une réponse appelant une nouvelle requête, un mouvement dans un dialogue où humain et machine se co-affectent mutuellement. Le résultat final n’émane ni purement de l’humain ni purement de la machine, mais émerge de l’interaction, de la friction productive entre deux types d’intelligence aux logiques hétérogènes. Les besoins des écrivains varient considérablement à travers le processus d’écriture. Les écrivains axés sur le contenu (comme les académiques) privilégient la propriété pendant la planification, tandis que les écrivains axés sur la forme (comme les créatifs) valorisent le contrôle sur la traduction et la révision. Les préférences se façonnent selon les objectifs contextuels, les valeurs et les notions d’originalité et d’auctorialité (arXiv:2504.12488). Cette variabilité atteste qu’il n’existe pas une seule manière « correcte » d’intégrer l’IA dans l’écriture, mais plutôt un spectre de pratiques devant être respectées.

Notre perspective beaucoup moins rassurante que la critique du sens commun et des médias de masse, maintenant une séparation claire entre l’être humain créateur et la machine outil. Elle trouble les catégories établies, ébranle les certitudes sur lesquelles reposait notre compréhension de la création artistique. Car dès lors qu’on reconnaît la complétion comme modèle relationnel fondamental, cette intrication constitutive entre l’humain et le technique, tout devient effectivement plus troublant, plus instable, plus difficile à catégoriser selon les taxonomies héritées. Ce trouble n’a rien d’accidentel. Il signale que nous sommes confrontés à une transformation excédant nos cadres conceptuels disponibles, forçant l’invention de nouvelles catégories, de nouveaux modes de pensée. L’instabilité conceptuelle que produisent les IA génératives n’exprime pas un défaut de l’analyse, mais son résultat nécessaire. Elle signale que nous affrontons une transformation profonde des conditions de la production culturelle, une mutation requérant l’élaboration de nouveaux cadres théoriques allant par-delà la reproductibilité technique héritée de la révolution industruelle. L’enjeu n’est plus de défendre la pureté de la création humaine contre l’intrusion des machines, selon geste défensif présupposant une séparation nette jamais véritablement existante, mais de comprendre comment se recomposent les agencements créatifs dans lesquels humains et systèmes techniques collaborent, interfèrent, se co-déterminent. Cette recomposition ne menace pas l’humanité de l’art : elle en dévoile la nature toujours déjà technique, toujours déjà distribuée, toujours déjà hybride.

On pourrait concevoir l’IA générative comme une forme d’« intelligence alternative » (arXiv:2504.07936) opérant par synthèse de patterns mathématiques plutôt que par compréhension biologique. L’apprentissage de l’IA extrait et manipule des patterns statistiques issus de vastes ensembles de données représentant une forme cristallisée de connaissances collectives humaines. Plutôt que de voir l’IA comme une menace ou un imitateur, cette approche pragmatique encourage la synergie humain-IA, exploitant leurs capacités complémentaires : l’intuition, le contexte et le jugement éthique humains aux côtés de la capacité de l’IA pour l’échelle, la vitesse et la manipulation de patterns. Intelligence alternative, formule reconnaissant la différence radicale plutôt que de chercher à réduire l’IA à un simulacre imparfait de l’intelligence humaine. Les modèles génératifs ne pensent pas comme nous pensons, ne créent pas comme nous créons, ne comprennent pas comme nous comprenons. Leurs opérations relèvent d’une logique hétérogène, fondée sur des calculs matriciels à grande échelle, des optimisations de fonctions de perte, des navigations dans des espaces de haute dimension. Cette hétérogénéité n’exprime pas une faiblesse mais une puissance: elle permet des formes de créativité excédant les possibilités de l’intelligence biologique isolée et cette dernière en ressort bouleversée, l’IA est devenue son altérité.

Fragilités et limites

Cependant, gardons-nous des illusions car ces systèmes demeurent fondamentalement fragiles, leur robustesse décroît exponentiellement avec la distance aux données d’entraînement. Un ResNet-50 reconnaissant parfaitement les chats d’ImageNet échoue lamentablement avec des photos floues, mal cadrées, prises sous des angles inhabituels. Modifier quelques pixels selon le gradient de la perte fait classifier un bus scolaire comme « autruche » avec 99 % de confiance , pourcentage manifestant non pas la certitude mais l’aveuglement du système face à des perturbations imperceptibles pour l’œil humain.

La robustesse adversariale des réseaux neuronaux peut être seulement 1/√d de la robustesse optimale possible, où d désigne la dimension d’entrée (arXiv:2406.16200). Cette limite mathématique provient du fait que les réseaux neuronaux utilisent souvent seulement un sous-ensemble de toutes les caractéristiques pour effectuer la classification. Dans les attaques adversariales, il suffit d’ajouter des perturbations pour modifier ces sous-ensembles de caractéristiques utilisés par les réseaux. Cette fragilité n’a rien d’anecdotique. Elle expose quelque chose d’essentiel sur la nature de l’apprentissage machine : excellent pour l’interpolation, défaillant pour l’extrapolation. Dans les régions de l’espace d’entrée densément couvertes par les données d’entraînement, les modèles performent remarquablement bien, généralisant avec une précision pouvant dépasser les capacités humaines. Mais dès qu’on s’éloigne de ces régions familières, la performance s’effondre brutalement. Asymétrie, robustesse locale, fragilité globale, structurant profondément les possibilités et limites de ces technologies.

Les effondrements de modes des GAN exposent la difficulté à maintenir la diversité générative. Des recherches sur ce problème (arXiv:2108.02353, arXiv:2207.01561) montrent que les images générées par les générateurs tendent à avoir une haute similarité entre elles, même lorsque leurs vecteurs latents correspondants diffèrent massivement. Cette limitation manifeste clairement la tendance des modèles à converger vers les régions de haute densité de leurs distributions apprises, au détriment de la diversité. Mode collapse — terme technique décrivant un phénomène où le générateur « oublie » progressivement comment produire certains types de sorties, se repliant sur un sous-ensemble restreint de patterns trompant efficacement le discriminateur. Homogénéisation progressive, perte de la variété caractérisant les données d’origine. Comme si le système développait des « habitudes », des chemins préférentiels dans l’espace latent qu’il parcourt de manière répétitive, négligeant les régions moins fréquentées.

Nuançons cependant le diagnostic pessimiste : des techniques comme le module de pénalité de diversité ou le guidage sélectif permettent d’atténuer ce problème, attestant que les limitations observées sont souvent dues à des choix de conception spécifiques plutôt qu’à des contraintes fondamentales. L’ingénierie actuelle des modèles génératifs consiste précisément à développer des mécanismes contrecarrant ces tendances au collapse, maintenant ouvert l’espace des possibles contre la force gravitationnelle vers les moyennes statistiques. Des travaux sur la géométrie de la mémorisation (arXiv:2411.00113) proposant un cadre formel pour distinguer la mémorisation (reproduction de points de données d’entraînement) de la génération créative. Lorsque le manifold appris par le modèle contient un point de données d’entraînement, il y a mémorisation ; lorsque le modèle génère dans des régions intermédiaires du manifold, il y a création. Cette distinction géométrique permet de catégoriser systématiquement la mémorisation en deux types : celle induite par le surapprentissage (overfitting) et celle induite par la distribution de données sous-jacente.

Apparemment technique, cette distinction porte des implications philosophiques profondes. Elle suggère que la différence entre répétition et création ne réside pas dans une propriété mystérieuse (l’intention, l’inspiration, le génie) où une prétendue intériorité se juge elle-même et déjuge d’autres intériorités supposées, mais dans une configuration géométrique mesurable : la position d’une sortie générée par rapport au manifold des données d’entraînement. Créer, dans ce cadre, équivaut littéralement à s’écarter des données observées, explorer les espaces interstitiels, naviguer dans les régions où aucun exemple direct n’existe. Reconnaître la complétion comme principe fondamental ouvre un espace d’interrogation vertigineux. Si l’écriture a toujours été technique, médiatisée par des outils, de la plume au clavier, si la création a toujours été appareillée,structurée par des dispositifs qui l’orientent et la rendent possible, alors les frontières que nous pensions évidentes entre l’authentique et l’artificiel, entre le créatif et le mécanique, entre l’original et le dérivé, deviennent poreuses, négociables, contingentes.

Les systèmes génératifs exposent moins leur propre capacité intrinsèque que la nature déjà technique, déjà distribuée, déjà composite de toute production culturelle humaine. Ils rendent visible, par l’explicitation algorithmique de processus autrement implicites, ce qui a toujours été le cas : que créer consiste à naviguer dans des espaces de possibles contraints, à sélectionner parmi des configurations potentielles, à moduler des patterns hérités pour produire des variations. Cette révélation n’est pas disqualifiante. Elle ne réduit pas la créativité humaine à un mécanisme trivial. Au contraire, elle en complexifie la compréhension, en dévoilant les multiples strates techniques, culturelles, cognitives rendant possible l’émergence du nouveau. Les IA génératives ne remplacent pas la créativité humaine : elles en déploient certains aspects, en automatisent certaines phases, en dévoilent les structures sous-jacentes.

Dialectique de la génération

D’une façon générale trop de nouveauté mène à des « hallucinations », contenus déviant excessivement des faits établis ; trop d’utilité conduit à la « mémorisation », reproduction de contenus d’entraînement limitant la créativité. Cette tension dialectique témoigne que la production culturelle, qu’elle soit humaine ou artificielle, opère toujours dans cet espace négocié entre le familier et le radicalement nouveau.

En psychiatrie, l’hallucination désigne une perception sans objet, une expérience sensorielle déconnectée de toute stimulation externe réelle. Appliqué aux IA, il désigne les sorties violant les contraintes factuelles, inventant des informations inexistantes, dérivant vers l’imaginaire au détriment de la véracité. Mais cette dérive n’incarne-t-elle pas précisément ce qui constitue la créativité ? La capacité à produire ce qui n’existe pas encore, à explorer au-delà des faits établis ? N’y aurait-il pas, au-delà des fake news, uen contrefactualité positive des possibles? Le problème, bien sûr, réside dans le contexte d’usage. Une hallucination déplaît quand on attend une réponse factuelle précise (« Quelle est la capitale du Japon ? »), mais devient potentiellement précieuse dans un contexte créatif (« Imagine une ville qui serait la capitale d’un Japon alternatif »). La même capacité technique, génération dans des régions éloignées de l’ancrage factuel, devient défaut ou qualité selon l’application.

La mémorisation comme pôle opposé de la dialectique: ici, le système reproduit trop fidèlement ses données d’entraînement, récite des passages entiers, copie des configurations exactes. Cette reproduction peut s’avérer problématique pour des raisons légales (violation de copyright), éthiques (plagiat), ou créatives (absence de transformation). Mais elle n’est pas uniformément négative : dans certains contextes, la reproduction précise correspond exactement à ce qu’on désire (« Cite l’article 1 de la Déclaration universelle des droits de l’homme »).

La tension entre ces deux pôles (innovation excessive vs reproduction fidèle) définit un espace de modulation où se joue la qualité des sorties génératives. Les techniques d’ajustement fin (fine-tuning), de guidage conditionnel, de contrôle de température visent précisément à naviguer dans cet espace, à trouver le point d’équilibre approprié pour chaque tâche spécifique. Ce réglage ne peut être automatisé complètement : il requiert du jugement humain, une compréhension du contexte, une évaluation des compromis acceptables. L’espace latent ne remplace pas la navigation dans une culture, elle en renforce la nécessité pour se distinguer des sorties standardisées.

Cette négociation définit le réalisme d’une époque. Chaque période historique établit ses propres conventions concernant ce qui compte comme « réaliste », ce qui s’accepte comme représentation fidèle vs ce qui se rejette comme stylisation excessive ou infidélité. Ces conventions ne se fixent jamais définitivement mais se renégocient constamment à travers les pratiques artistiques, critiques, techniques. Les IA génératives participent activement à cette renégociation. En rendant possibles certaines formes de production autrefois inaccessibles, en automatisant certaines transformations, en démocratisant l’accès à certaines capacités, elles reconfigurent le champ des possibles esthétiques. Ce que nous considérerons comme « créatif », « original », « artistique » dans vingt ans sera en partie déterminé par les affordances de ces technologies et les pratiques qu’elles auront rendues ordinaires Cette transformation n’exprime ni pure perte ni pur gain. Elle redistribue les valeurs, déplace les hiérarchies, ouvre certaines possibilités tout en en fermant d’autres. L’enjeu critique n’est donc pas de rejeter ou d’accepter en bloc, mais d’analyser finement les reconfigurations en cours, d’identifier ce qui mérite d’être préservé, cultivé, développé, et ce qui doit être contesté, limité, réorienté.

Dans cette dialectique de la génération, où s’équilibrent nouveauté et reproduction, extrapolation et interpolation, hallucination et mémorisation, différence et répétition, se dessine l’espace de notre condition technique contemporaine. Un espace où humains et machines co-créent, s’affectent mutuellement, s’aliènent activement (ou passivement), produisent ensemble des configurations inédites ne relevant ni de la pure créativité humaine ni de la pure automatisation machinique, mais d’une zone hybride, troublante, productive, zone où se jouent les devenirs de la culture dans un monde où le calcul vectoriel et l’expérience sensible, le statistique et le singulier, l’algorithme et l’affect ne cessent de s’entrelacer, de se contaminer, de se transformer mutuellement dans un flux ne connaissant pas d’arrêt définitif, mais seulement des modulations, des inflexions, des bifurcations dans la circulation incessante du sens.


In current controversies concerning generative artificial intelligences and their capacity to produce meaningful cultural content, the main argument mobilized by detractors rests on the fact that these systems would be nothing more than statistical machines, condemned to mechanically repeat what they ingested during their training phase. According to this critical perspective, generative models would never engender true novelty, no aesthetic event, merely content to recycle pre-existing fragments from their datasets.

This vision of reproducibility deserves to be questioned, both from a technical and conceptual standpoint. An affective tonality runs through this debate, a Stimmung that oscillates between fascination and fear, between enthusiasm and defensive rejection. Something within us stirs when we contemplate these systems, presence of absence, haunting return of a creativity that would no longer be quite human without becoming fully mechanical. This jolt, vibration traversing bodies and minds, already constitutes a symptom of the ongoing mutation. The word “statistical” resonates with the frequency of an accusation: reduction, cold calculation, absence of life.

The Continuity of Latent Space

The first refutation is anchored in the very understanding of what a statistical system becomes under neural architectures. Contrary to the popular image assimilating these systems to simple average calculators, in the manner of an opinion poll mechanically aggregating data to extract a central tendency, generative models inhabit mathematical spaces of remarkable complexity. Latent space, these two words designating a territory as real as it is virtual, as concrete as it is abstract, carries a fundamental property that upends everything: its continuity.

Let us take a concrete example, anchor ourselves in the materiality of processes. In diffusion models like Stable Diffusion, starting from Gaussian noise ε ~ N(0,I), notation that condenses into a few mathematical symbols a probability distribution, that of chaos, of primal indeterminacy, the system iteratively applies a pre-trained U-Net to predict and progressively subtract residual noise. This U-shaped architecture, which processes the image at different resolutions simultaneously, operates a form of informational sculpting, carving into the noise to make form, order, meaning (for us) emerge. Like an uninterrupted flow, this continuity guarantees that there always exists a path allowing navigation from one point to another of this multidimensional space. Not discrete jumps, brutal transitions between separate states, but a continuous flow, a progressive deformation, a metamorphosis without rupture. This geometric characteristic authorizes the system to explore intermediate regions, zones of representational space that remained invisible during training. Vertigo: these territories non-existent in the corpus are nevertheless discovered to be traversable, habitable, generable.

The empirical confirms this capacity. A study on interpolation in latent spaces (arXiv:2408.08558) demonstrates that models form linear combinations of latents creating objects in regions never directly instantiated. Elementary algebra becomes here a generative principle, vector addition transforms into creative operation. More significant still, “hallucinations” in diffusion models (arXiv:2406.09358) exposes a phenomenon baptized mode interpolation: models smoothly interpolate between nearby data modes to generate samples completely outside the support of the original training distribution. An example manifests the scope of the process: a model trained on images containing triangles, squares and pentagons, each shape appearing at most once per image, spontaneously generates images with multiple occurrences of the same shape, combinations absent from the original data. This directly contradicts the accusation of simple mechanical repetition. Consider the concrete vector arithmetic: vector(King) — vector(Man) + vector(Woman) ≈ vector(Queen), with a cosine precision of 0.95. Since the work of Mikolov and his team, this canonical formula exposes something profound. Conceptual algebra theoretically confirmed by several studies (arXiv:1909.00504, arXiv:1901.09813): machines construct a geometry of meaning based on statistical co-occurrence. But “statistical” no longer designates here a mechanical aggregation: it is in fact a crystallization of semantic relations into spatial structures, sedimentation of millennia of human linguistic practices into navigable vectorial configurations.

Similarly in the visual domain: Youth + Woman generates a coherent elderly woman’s face; Van Gogh — Painting + Photography begets photographs with post-impressionist airs. These transformations exceed simple collage, the mechanical assembly of disparate fragments: continuous navigations in a space where each point embodies a potential semantic configuration. The flow traverses these spaces, infiltrates each dimension, carries meanings in its current. Work (arXiv:2505.18651) explains the natural emergence of these analogies: models discover linear structures in the embedding space that capture abstract semantic relations. These structures persist even when word pairs exemplifying the analogy are removed from the training corpus, attesting that the model has learned general principles without limiting itself to memorizing specific examples. A form of abstraction, of rise in generality overflowing simple statistical compilation.

The dynamic fully unfolds: the very vectoriality of these latent spaces transforms as a function of interactions. Transformer architectures, the foundation of current generative models, dynamically reconfigure these representational spaces in response to user queries. The cross-attention process, detailed in the foundational article “Attention Is All You Need” (arXiv:1706.03762), a title resonating like a mantra, radical reduction of all cognitive complexity to a single mechanism, allows the model to differently weight the dimensions of its latent space according to the specific context of each generation. This cross-attention mechanism performs a form of contextual and dynamic knowledge retrieval at each layer of the network, creating representations that adapt to context rather than reproducing fixed patterns (arXiv:2104.08771, arXiv:2501.00823). According to a contextual plasticity, the model does not work with a static and uniform representation of its knowledge, but with a geometry that deforms and adapts, a fluid topology that responds to solicitations. From this dynamic emerge configurations transcending the simple juxtaposition of documentary fragments. Rather than proceeding by collage, mechanically assembling identical pieces extracted from prior documents, these systems operate a true reconstruction. They synthesize new informational structures by navigating through representation spaces, by interpolating between concepts, by exploring trajectories that can traverse regions never directly instantiated. “Navigate” is not here a metaphor, it is the literal description of the computational process.

Work on originality (arXiv:2504.09389) proposes a quantitative metric to measure this capacity: “novelty,” a word carrying all the aesthetic and epistemological weight of the debate, is defined as the harmonic mean between originality (fraction of n-grams absent from training data) and task-specific quality. The results attest that models generate outputs containing n-grams appearing nowhere in their training data, while maintaining high quality. 91% of expressions in the top quartile by n-gram novelty are judged creative by expert writers, an overwhelming proportion confirming that statistical novelty corresponds to true perceived creativity (arXiv:2509.22641). What the numbers say, subjective experience validates: something new effectively emerges from these processes. This is why we are sometimes surprised, even disconcerted, by generative productions. If the system merely mechanically reassembled pre-existing elements, its productions would be entirely predictable. Yet daily experience, provided one takes time for exploration and experimentation, reveals on the contrary moments of true unexpectedness. This capacity to surprise, a fundamental affect shaking our certainties, testifies to a productive navigation in the space of possibilities (and counterfactuals), made possible by the very continuity of this representational space where, unlike traditional symbolic approaches, meaning emerges from vectorial configurations rather than discrete symbols. Video interpolation with diffusion models (arXiv:2404.01203) illustrates this capacity even more strikingly: the VIDIM model generates movements not seen in input data, handling cases where the underlying motion remains complex, non-linear or ambiguous. The system performs not only interpolation (filling the space between two images) but also extrapolation (continuing beyond observed data), generating new content that nevertheless respects the learned data structure. It is not the discrete data that are learned but their comparison that results in an automation of mimesis, inverting our traditional understanding: it is not the object that is imitated, but the relation between objects, the pattern of their differences and similarities.

The Confusion of Platforms and Systems

A second confusion, massive, structuring, determining in the misunderstanding of these technologies, stems from a generalized tendency to confuse commercial AI platforms with the logic of these generative systems themselves. When a user interacts with ChatGPT, Claude or Gemini, they are not dialoguing directly with a language model in its technical nakedness. They traverse several layers of mediation: user interfaces designed for simplicity, ethical guardrails implemented to avoid problematic content, automated moderation systems that filter requests and responses, commercial policies that orient system behaviors. The alignment of platforms is not the alignment of these software systems themselves. This layered architecture (technical, commercial, ideological) necessarily produces formatting effects. Generated responses do not reflect only the intrinsic capabilities of the underlying model, but also the constraints imposed by the platform hosting it. The same model, accessible via different interfaces, will produce significantly different outputs depending on temperature parameters (controlling stochasticity), preloaded system instructions (orienting style and tone), applied content filters (censoring certain themes), cache mechanisms (privileging frequent responses).

Fundamental but too often neglected, this distinction between technical system and commercial platform becomes crucial when seeking to evaluate the true creative capabilities of these technologies. For mass-market platforms explicitly aim for predictability, consistency, safety—perfectly legitimate commercial values but entering into direct tension with creative exploration, radical experimentation, aesthetic risk-taking. A concrete case illustrates this tension: when a user asks ChatGPT to generate a story in the style of a controversial author, the system refuses or significantly bowdlerizes its response, not due to technical incapacity of the underlying model, but because moderation layers have been added to avoid potential controversies. This censorship, a precise term even if it may seem excessive, does not express a technical limitation but a commercial design decision.

More subtle still: reinforcement learning from human feedback (RLHF) systems, used to fine-tune models after their initial pre-training, introduce systematic biases toward certain types of content deemed desirable by development teams. These biases, measurable, quantifiable, but rarely made explicit, orient the model’s probability distributions toward “safe” regions of latent space, reducing the potential diversity of outputs in favor of increased conformity with presumed expectations of mainstream users. Hence a progressive homogenization, a flattening of possibilities, a convergence toward a neutral, polite, consensual tone characterizing the majority of mass-market interactions with these systems. This convergence does not constitute an emergent property of statistical learning itself, but the result of explicit design choices aimed at creating commercially viable products. Confusing this deliberate normalization with an intrinsic limitation of the technology would be like judging the possible musical diversity on a commercial radio station—certainly, one will never hear certain forms of radical avant-garde there, but this says nothing about the possibilities of the musical medium itself.

From this confusion arise erroneous judgments about AI’s creative capabilities. When a critic affirms that “AI only produces bland and predictable content,” they often describe their experience with bridled commercial platforms rather than the real potentialities of underlying models. To access these potentialities, one must exit mass-market interfaces, explore APIs allowing finer control of parameters, use open-source models deployed locally without moderation layers, or develop customized systems for specific creative applications. In these less constrained experimental spaces, in these margins of the commercial system, in these zones of friction between the academic and industrial, the true generative capabilities of these technologies are revealed. There, in these interstices, artists, researchers and experimenters discover that models do indeed engender the radically new, explore unexpected regions of latent space, generate configurations that surprise even their creators. A comparative study (which remains to be systematically conducted) between outputs from ChatGPT (highly moderated), GPT-4 via API (increased parametric control), and local deployments of equivalent models without censorship would probably reveal massive differences in terms of diversity, capacity to explore unusual conceptual territories, propensity to take aesthetic “risks.” This variability does not reflect differences in the fundamental capabilities of models, but architectural choices concerning the manner in which these capabilities are made accessible (or inaccessible) to end users.

Maintaining this analytical distinction between the technical potential of generative systems, what they can do in the absolute, and the affordances of commercial platforms, what they are authorized to do in their effective deployment, becomes imperative. Confusing these two levels produces critiques that, though apparently directed against the technology itself, actually target the commercial and ideological choices governing its concrete implementation. The public debate on AI regulation is also affected by this. When legislating on these technologies, are we regulating the intrinsic technical capabilities of models, or the modalities of their commercial deployment? The distinction matters, for it determines what type of regulatory intervention remains appropriate. Restricting access to powerful models vs. imposing guardrails on their commercial use: two radically different regulatory approaches, with divergent implications for innovation, democratic access to knowledge, and concentration of computational power.

Vectorial Desemantization

The mutation operated by these systems touches on the very status of the linguistic sign. It is a radical desemantization where words lose their traditional referential function to become indices in correspondence tables, profoundly modifying our relationship to language. “Cat” no longer evokes only the familiar animal with pointed ears and vibrissae whiskers, but a vector [0.245, -0.892, 0.337,…] of 512 dimensions, statistically correlated with patterns representing fur, whiskers, pointed ears.

A mutation, not a simple technical translation, upending the Saussurean foundations of structural linguistics. The sign no longer unites a signifier (acoustic image) and a signified (concept), but occupies a position in a vectorial space where relations of proximity and distance define meanings. Meaning no longer exists as an intrinsic property of isolated words, but as an emergent effect of their relational configuration in this mathematical space. Geometric studies (arXiv:2505.11128) propose using Riemannian metrics based on score functions to characterize the intrinsic geometry of the data manifold. These geodesics, paths following the natural contours of the manifold rather than cutting through regions of low density, allow interpolation preserving quality throughout the path, but also extrapolation beyond observed data. Latent space thus possesses a rich geometric structure guiding generation in a more subtle manner than simple statistical assembly. Let us pause on this term: geodesic. In differential geometry, a geodesic designates the shortest path between two points on a curved surface—think of a plane flying between Paris and Tokyo, following not a straight line on a flat map (Mercator projection) but a great circle arc on the terrestrial sphere. In latent space, geodesics are not simply Euclidean straight lines but curves following the intrinsic curvature of the data manifold. Navigating along a geodesic means moving from concept to concept by following the natural gradients of the learned probability distribution, rather than cutting brutally through improbable regions.

The non-Euclidean geometry of semantic space exposes how meaning possesses a complex topology, with regions of high density (frequent concepts, strongly interconnected) and valleys of low density (rare combinations, conceptually distant). Generative models learn to navigate this topology, to detect practicable paths, to avoid gulfs of improbability where generations collapse into incoherence. The challenge for the contemporary artist consists in escaping the gravitational attraction toward the principal modes of the distribution, in developing a latent perception allowing exploration of interstitial regions. This experimental approach resists instrumental thinking that conceives AI as a simple deterministic input→output function. It explores intrinsic stochasticity, creative dialogue rather than simple prompt engineering: the artist proposes a context, observes the model’s outputs, then iterates according to the surprises emerging from the generative process. They confront the statistical latent space with their latent space called culture.

Iterative practice, this term imposes itself, for this is where AI-assisted creativity truly plays out, transforming the model into an improvisation partner rather than a passive tool. Each generation becomes a response calling for a new request, a movement in a dialogue where human and machine mutually co-affect each other. The final result emanates neither purely from the human nor purely from the machine, but emerges from interaction, from productive friction between two types of intelligence with heterogeneous logics. Writers’ needs vary considerably throughout the writing process. Content-focused writers (such as academics) privilege ownership during planning, while form-focused writers (such as creatives) value control over translation and revision. Preferences are shaped according to contextual objectives, values and notions of originality and authorship (arXiv:2504.12488). This variability attests that there exists no single “correct” way to integrate AI into writing, but rather a spectrum of practices that must be respected.

Our perspective is much less reassuring than the critique of common sense and mass media, maintaining a clear separation between the human creator and the machine tool. It troubles established categories, shakes the certainties on which our understanding of artistic creation rested. For as soon as we recognize completion as a fundamental relational model, this constitutive imbrication between the human and the technical, everything indeed becomes more troubling, more unstable, more difficult to categorize according to inherited taxonomies. This trouble is not accidental. It signals that we are confronted with a transformation exceeding our available conceptual frameworks, forcing the invention of new categories, new modes of thought. The conceptual instability produced by generative AI does not express a defect of analysis, but its necessary result. It signals that we face a profound transformation of the conditions of cultural production, a mutation requiring the elaboration of new theoretical frameworks going beyond the technical reproducibility inherited from the industrial revolution. The stakes are no longer to defend the purity of human creation against the intrusion of machines, a defensive gesture presupposing a clear separation that never truly existed, but to understand how creative assemblages are recomposed in which humans and technical systems collaborate, interfere, co-determine each other. This recomposition does not threaten the humanity of art: it unveils its nature as always already technical, always already distributed, always already hybrid.

One could conceive generative AI as a form of “alternative intelligence” (arXiv:2504.07936) operating through synthesis of mathematical patterns rather than through biological understanding. AI learning extracts and manipulates statistical patterns from vast datasets representing a crystallized form of collective human knowledge. Rather than seeing AI as a threat or imitator, this pragmatic approach encourages human-AI synergy, exploiting their complementary capacities: human intuition, context and ethical judgment alongside AI’s capacity for scale, speed and pattern manipulation. Alternative intelligence, a formula recognizing radical difference rather than seeking to reduce AI to an imperfect simulacrum of human intelligence. Generative models do not think as we think, do not create as we create, do not understand as we understand. Their operations belong to a heterogeneous logic, founded on large-scale matrix calculations, loss function optimizations, navigations in high-dimensional spaces. This heterogeneity does not express a weakness but a power: it allows forms of creativity exceeding the possibilities of isolated biological intelligence, and the latter emerges from this bouleversed—AI has become its alterity.

Fragilities and Limits

However, let us guard against illusions for these systems remain fundamentally fragile, their robustness decreases exponentially with distance from training data. A ResNet-50 perfectly recognizing ImageNet cats fails lamentably with blurry, poorly framed photos, taken from unusual angles. Modifying a few pixels according to the gradient of the loss makes a school bus classified as “ostrich” with 99% confidence, a percentage manifesting not certainty but the system’s blindness to perturbations imperceptible to the human eye.

The adversarial robustness of neural networks can be only 1/√d of the optimal possible robustness, where d designates the input dimension (arXiv:2406.16200). This mathematical limit stems from the fact that neural networks often use only a subset of all features to perform classification. In adversarial attacks, it suffices to add perturbations to modify these subsets of features used by networks. This fragility is not anecdotal. It exposes something essential about the nature of machine learning: excellent for interpolation, deficient for extrapolation. In regions of input space densely covered by training data, models perform remarkably well, generalizing with precision that can exceed human capabilities. But as soon as one moves away from these familiar regions, performance collapses brutally. Asymmetry, local robustness, global fragility, profoundly structuring the possibilities and limits of these technologies.

Mode collapses of GANs expose the difficulty of maintaining generative diversity. Research on this problem (arXiv:2108.02353, arXiv:2207.01561) shows that images generated by generators tend to have high similarity among themselves, even when their corresponding latent vectors differ massively. This limitation clearly manifests the tendency of models to converge toward regions of high density in their learned distributions, to the detriment of diversity. Mode collapse—a technical term describing a phenomenon where the generator progressively “forgets” how to produce certain types of outputs, falling back on a restricted subset of patterns effectively deceiving the discriminator. Progressive homogenization, loss of the variety characterizing original data. As if the system developed “habits,” preferential paths in latent space that it travels repetitively, neglecting less frequented regions.

Let us however nuance the pessimistic diagnosis: techniques like diversity penalty modules or selective guidance allow mitigation of this problem, attesting that observed limitations are often due to specific design choices rather than fundamental constraints. Current engineering of generative models consists precisely in developing mechanisms counteracting these tendencies toward collapse, keeping open the space of possibilities against the gravitational force toward statistical averages. Work on the geometry of memorization (arXiv:2411.00113) proposes a formal framework for distinguishing memorization (reproduction of training data points) from creative generation. When the manifold learned by the model contains a training data point, there is memorization; when the model generates in intermediate regions of the manifold, there is creation. This geometric distinction allows systematic categorization of memorization into two types: that induced by overfitting and that induced by the underlying data distribution.

Apparently technical, this distinction carries profound philosophical implications. It suggests that the difference between repetition and creation does not reside in a mysterious property (intention, inspiration, genius) where a supposed interiority judges itself and misjudges other supposed interiorities, but in a measurable geometric configuration: the position of a generated output relative to the manifold of training data. Creating, in this framework, literally equates to deviating from observed data, exploring interstitial spaces, navigating regions where no direct example exists. Recognizing completion as a fundamental principle opens a vertiginous space of interrogation. If writing has always been technical, mediated by tools, from pen to keyboard, if creation has always been equipped, structured by devices that orient and make it possible, then the boundaries we thought evident between the authentic and the artificial, between the creative and the mechanical, between the original and the derivative, become porous, negotiable, contingent.

The Aesthetic Event and Technical Contingency

But does this technical capacity for novelty suffice to constitute an aesthetic event? The question deserves to be posed with precision. An aesthetic event is not reducible to the simple production of a configuration never seen before. Novelty alone does not make art. The combinatorics of all possible pixel arrangements would generate an infinite quantity of never-seen images without producing any aesthetic value. The aesthetic event implies something more: a rupture in perception, an affective shock, a reconfiguration of sensibility, an opening of possibilities not previously accessible to experience.

Can generative systems produce such events? The question cannot receive a univocal response. It depends on what we understand by “produce.” If we mean “generate autonomously without any human intervention,” the answer remains uncertain. Current systems do not operate independently; they respond to human prompts, are trained on human-curated datasets, are evaluated according to human criteria. Their production always already inscribes itself in a circuit involving human intentionality, judgment, selection.

But if we understand “produce” in a broader sense, as “participate in the production of,” then the answer becomes affirmative. Generative systems can indeed participate in the emergence of aesthetic events, not as autonomous creators but as technical mediations opening new possibilities for human experience. The question is then displaced: it is no longer about knowing whether AI “creates” in an autonomous sense, but about understanding how these systems reconfigure the technical conditions of aesthetic production.

Every aesthetic event inscribes itself in a technical milieu. Photography transformed painting not by replacing it but by displacing its stakes, by relieving it of certain functions (faithful representation of reality) and thus opening other possibilities (exploration of abstraction, subjectivity, pure form). Cinema did not abolish theater but reconfigured the field of dramatic possibilities. Digital synthesis did not eliminate acoustic instruments but expanded the sonic palette. Each technical innovation redistributes roles, values, hierarchies.

Generative AI participates in this historical dynamic. They do not replace human creativity but reconfigure its technical conditions. They automate certain operations (generation of variations, exploration of combinatorial possibilities, synthesis of styles), making them accessible to those who previously lacked the technical skills required for their implementation. This democratization is not neutral: it transforms what counts as “creative skill,” what merits recognition, what defines artistic value.

The technical mediation itself becomes visible, explicit, manipulable. Where traditional artistic practice often conceals its technical infrastructure (the painter’s brush strokes erase themselves in favor of the represented image, the writer’s corrections disappear in the published text), generative AI exposes the process, makes the parameters visible, allows real-time modification of generation conditions. This transparency is not necessarily a virtue: it can lead to a form of technical fetishism where fascination with the process eclipses attention to the result. But it can also open critical possibilities, allowing better understanding of how aesthetic productions emerge from technical operations.

The Obsolescence of Romantic Genius

The romantic myth of creative genius, solitary individual drawing from the depths of their interiority unprecedented forms, has long been criticized by aesthetic theories attentive to the social, technical, and collective conditions of artistic production. Pierre Bourdieu showed how artistic “genius” is always socially constructed, inscribed in fields of power and symbolic struggle. Michel Foucault analyzed the historically contingent character of the author-function. Roland Barthes proclaimed the death of the author, affirming that the text is woven from multiple citations, that it is “a multi-dimensional space in which a variety of writings blend and clash.”

Generative systems make this deconstructed reality of authorship particularly visible. When an image is generated by a diffusion model trained on millions of works, who is the author? The designer of the algorithm? The engineers who trained the model? The creators of the works in the training dataset? The user who formulated the prompt? The answer cannot be univocal because the production is genuinely distributed, emerging from a complex assemblage of heterogeneous agencies.

This distribution is not new. It has always characterized cultural production, but remained partially invisible, naturalized by ideologies of creativity assigning to the individual “creator” sole responsibility for the work. Generative AI do not create this distributed reality: they render it explicit, inescapable, demanding that we rethink our legal, economic, and conceptual categories for apprehending cultural production.

The critique here is not that AI “do not truly create” because they depend on training data, human prompts, and algorithmic processes. The critique should be directed at the myth according to which humans would “truly create” in a mode freed from any dependence on prior influences, on technical mediations, on social determinations. All creation is remix, all originality is transformation, all genius is recombination.

Generative systems expose less their own intrinsic capacity than the already technical, already distributed, already composite nature of all human cultural production. They make visible, through the algorithmic explicitation of otherwise implicit processes, what has always been the case: that creating consists in navigating constrained spaces of possibilities, selecting among potential configurations, modulating inherited patterns to produce variations. This revelation is not disqualifying. It does not reduce human creativity to a trivial mechanism. On the contrary, it complexifies understanding of it, unveiling the multiple technical, cultural, cognitive strata making possible the emergence of the new. Generative AI do not replace human creativity: they deploy certain aspects of it, automate certain phases, unveil its underlying structures.

Dialectic of Generation

In a general way, too much novelty leads to “hallucinations,” content deviating excessively from established facts; too much utility leads to “memorization,” reproduction of training content limiting creativity. This dialectical tension testifies that cultural production, whether human or artificial, always operates in this negotiated space between the familiar and the radically new.

In psychiatry, hallucination designates a perception without object, a sensory experience disconnected from any real external stimulation. Applied to AI, it designates outputs violating factual constraints, inventing non-existent information, drifting toward the imaginary to the detriment of veracity. But doesn’t this drift precisely embody what constitutes creativity? The capacity to produce what does not yet exist, to explore beyond established facts? Beyond fake news, might there not be a positive counterfactuality of possibles? The problem, of course, resides in the context of use. A hallucination displeases when one expects a precise factual response (“What is the capital of Japan?”), but becomes potentially precious in a creative context (“Imagine a city that would be the capital of an alternate Japan”). The same technical capacity, generation in regions distant from factual anchoring, becomes defect or quality according to application.

Memorization as the opposite pole of the dialectic: here, the system reproduces its training data too faithfully, recites entire passages, copies exact configurations. This reproduction can prove problematic for legal reasons (copyright violation), ethical (plagiarism), or creative (absence of transformation). But it is not uniformly negative: in certain contexts, precise reproduction corresponds exactly to what is desired (“Quote article 1 of the Universal Declaration of Human Rights”).

The tension between these two poles (excessive innovation vs. faithful reproduction) defines a modulation space where the quality of generative outputs is played out. Fine-tuning techniques, conditional guidance, temperature control aim precisely to navigate this space, to find the appropriate equilibrium point for each specific task. This adjustment cannot be completely automated: it requires human judgment, understanding of context, evaluation of acceptable compromises. Latent space does not replace navigation within a culture, it reinforces the necessity of it to distinguish oneself from standardized outputs.

This negotiation defines the realism of an era. Each historical period establishes its own conventions concerning what counts as “realistic,” what is accepted as faithful representation vs. what is rejected as excessive stylization or infidelity. These conventions are never definitively fixed but are constantly renegotiated through artistic, critical, and technical practices. Generative AI actively participate in this renegotiation. By making possible certain forms of production previously inaccessible, by automating certain transformations, by democratizing access to certain capacities, they reconfigure the field of aesthetic possibilities. What we will consider “creative,” “original,” “artistic” in twenty years will be partly determined by the affordances of these technologies and the practices they will have made ordinary. This transformation expresses neither pure loss nor pure gain. It redistributes values, displaces hierarchies, opens certain possibilities while closing others. The critical stakes are therefore not to reject or accept wholesale, but to finely analyze the ongoing reconfigurations, to identify what merits being preserved, cultivated, developed, and what must be contested, limited, reoriented.

In this dialectic of generation, where novelty and reproduction, extrapolation and interpolation, hallucination and memorization, difference and repetition are balanced, the space of our contemporary technical condition takes shape. A space where humans and machines co-create, mutually affect each other, actively (or passively) alienate themselves, together produce unprecedented configurations belonging neither to pure human creativity nor to pure machinic automation, but to a hybrid, troubling, productive zone, a zone where the becomings of culture are played out in a world where vectorial calculation and sensible experience, the statistical and the singular, algorithm and affect ceaselessly intertwine, contaminate each other, mutually transform in a flow knowing no definitive halt, but only modulations, inflections, bifurcations in the incessant circulation of meaning.