Génération d’images abstraites et concrètes
La génération visuelle concrète : une méditation sur l’image et le monde. Lorsqu’on aborde la génération visuelle, on présente le plus souvent des images abstraites, des fractales, des lignes et des pixels, des particules et des organismes, etc. Parfois, on y intègre du texte généré, les mots devenant alors à leur tour des images selon une modalité qui reste fort différente de la génération visuelle proprement dite parce que le passage du texte à l’image reste extérieur au processus de génération elle-même. Ce qui se joue ici, dans cet interstice entre la lettre et le visible, n’est pas simplement une question de traduction ou de transposition : c’est l’émergence d’un espace intermédiaire où le sens flotte, se dilate, se contracte, oscillant perpétuellement entre la rigueur du code et la liberté de l’interprétation visuelle. Les algorithmes qui président à cette métamorphose ne font pas que transformer un langage en un autre : ils ouvrent une brèche dans le continuum des représentations, invitant à repenser les frontières traditionnelles entre l’écrit et le figuré.
La génération visuelle numérique nous place devant un paradoxe saisissant : comment l’abstraction mathématique la plus rigoureuse peut-elle engendrer des formes qui éveillent en nous des résonances émotives, des impressions sensibles, des réminiscences organiques ? Les fractales, par exemple, ne sont-elles pas le produit d’équations déterministes et pourtant, leur déploiement visuel évoque irrésistiblement les ramifications infinies du vivant, les arborescences nerveuses, les délicates géométries des cristaux de neige. Ces images abstraites nous fascinent précisément par leur capacité à faire vibrer en nous la corde du reconnaissable dans l’inconnu, à suggérer une familiarité dans l’étrangeté même des formes générées.
Par commodité de langage je désigne par image concrète les images représentant explicitement une réalité mondaine. Même si la division entre abstraction et concrétude est parfois trouble, je trace une polarité afin de rendre compréhensible ma proposition. Cette polarité n’est pas une opposition binaire rigide mais plutôt un spectre continu, un dégradé subtil où les images se placent selon leur degré de référentialité. Car qu’est-ce que la concrétude d’une image, sinon sa capacité à nous renvoyer au monde que nous habitons, à faire signe vers un référent que nous reconnaissons comme appartenant à notre expérience sensible ? L’image concrète porte en elle cette tension fondamentale : elle n’est pas le monde, elle n’en est qu’une coupe, une tranche arbitraire, et pourtant, elle prétend nous y donner accès, établir un pont entre notre perception et une réalité qui la dépasse.
J’aimerais questionner la possibilité d’une génération visuelle concrète, c’est-à-dire d’un programme pouvant produire des images dont la référence est mondaine. Cette question n’est pas anodine à l’heure où les algorithmes de génération d’images se multiplient, promettant de créer ex nihilo des visages qui n’ont jamais existé, des paysages qui amalgament des fragments de mémoire visuelle collective, des scènes qui semblent arrachées à une réalité alternative. Que signifie générer une image concrète ? Est-ce simplement assembler des éléments visuels reconnaissables selon des règles de composition préétablies ? Ou est-ce quelque chose de plus profond, qui toucherait à l’essence même de notre rapport au monde visuel ?
La question s’impose avec d’autant plus d’acuité que les progrès techniques en matière d’intelligence artificielle permettront sans doute demain, grâce à la mise en statistique des documents, de produire des images d’un réalisme saisissant, brouillant toujours davantage la frontière entre l’enregistré et le généré, entre le capturé et le synthétisé. Ces images nous confrontent à une interrogation vertigineuse : comment distinguer ce qui relève de la reproduction du réel et ce qui émerge d’une logique purement computationnelle ? La différence entre l’image photographique et l’image générée par algorithme réside-t-elle uniquement dans leur processus de création ou implique-t-elle une différence ontologique plus fondamentale ?
Si on tente de prendre cette question au premier degré et qu’on tente de voir si on peut réellement écrire un programme qui produit, par exemple un film qui ne serait pas abstrait, on doit d’une manière ou d’une autre avoir une bibliothèque d’objets par exemple 3d dont l’agencement varie et entre lesquels on circule par une caméra au parcours variable. Cette approche, qui relève davantage de la modélisation que de la génération pure, soulève immédiatement une série de questions épistémologiques : d’où proviennent ces objets 3D ? Comment ont-ils été modélisés sinon à partir d’une observation préalable du monde ? Ne sommes-nous pas face à un processus de remédiation plutôt que de création véritable ? La caméra virtuelle qui se déplace dans cet espace synthétique reproduit les modalités de perception cinématographique conventionnelles : plans, séquences, mouvements. Elle n’invente pas tant un nouveau régime de visibilité qu’elle ne simule les conditions déjà établies de notre rapport médiatisé au visible.
Il s’agit alors moins de génération que de variabilité parce qu’il est difficile (impossible?) de générer entièrement des images concrètes dans la mesure où il n’existe pas de morphologie mondaine intégrale, il n’existe que des séries et des singularités contingentes. Le monde ne se donne jamais comme totalité appréhendable, comme système clos dont on pourrait épuiser les possibilités formelles. Il se déploie plutôt comme un champ infini de variations, comme une prolifération incessante de formes qui s’engendrent les unes les autres selon des logiques qui échappent partiellement à nos tentatives de systématisation. Comment, dès lors, un programme pourrait-il générer ce qui, par essence, résiste à toute formalisation exhaustive ? Comment pourrait-il produire des images concrètes sans disposer d’un modèle complet du monde, d’une cartographie intégrale de tous les possibles visuels ?
Cette impossibilité apparente nous invite à reconsidérer ce que nous entendons par “génération” dans le contexte des images numériques. Générer, est-ce nécessairement créer ex nihilo, ou est-ce plutôt mettre en œuvre des principes de transformation, de recombinaison, de mutation à partir d’éléments déjà donnés ? Les algorithmes génératifs les plus sophistiqués ne partent jamais de rien : ils s’appuient sur des ensembles massifs de données visuelles préexistantes, qu’ils analysent, décomposent et recomposent selon des patterns statistiques complexes. Ils n’inventent pas tant des formes nouvelles qu’ils ne découvrent des potentialités latentes dans les formes déjà connues.
Ce qui pourrait alors se rapprocher le plus d’une génération concrète est une biologie dotant des pixels de comportements. Mais là encore ce qu’on génère ce sont des comportements, les formes restant encore abstraites ou étant des bibliothèques préalables dont les parties peuvent être réagencées aléatoirement. Cette piste bio-inspirée ouvre néanmoins des perspectives fascinantes : et si la concrétude des images générées résidait moins dans leur ressemblance avec des objets mondains que dans leur capacité à adopter des comportements similaires à ceux des êtres vivants ? Une image générée selon des principes biologiques – croissance, adaptation, évolution – ne serait-elle pas, en un sens profond, plus “concrète” qu’une image statique, figée, même si cette dernière représente fidèlement un objet du monde ?
Imaginons un instant un système où chaque pixel serait doté d’une forme d’agentivité, où les éléments constitutifs de l’image interagiraient les uns avec les autres selon des règles émergentes plutôt que prédéterminées. L’image qui en résulterait ne serait plus une représentation fixe mais un processus en constant devenir, une entité quasi-vivante évoluant selon des dynamiques internes qui échapperaient partiellement à son créateur. Ne serait-ce pas là une forme de concrétude d’un ordre différent, non plus mimétique mais comportementale ?
La question reste entière et pour y répondre il faut en déplacer le niveau sur lequel l’image se constitue en tant qu’image. Il faut donc revoir notre conception de la genèse des images. Ce déplacement conceptuel est crucial : il ne s’agit plus de considérer l’image comme un objet achevé, comme le résultat d’un processus de génération, mais comme un événement, comme l’actualisation temporaire d’un champ de possibles visuels. L’image ne serait plus alors ce qui est généré mais ce qui émerge à l’intersection de multiples forces, de multiples tensions : techniques, esthétiques, culturelles, perceptives.
Dans cette perspective, la génération d’images concrètes ne consisterait pas tant à produire des représentations fidèles d’objets mondains qu’à mettre en place les conditions d’émergence de visualités nouvelles qui entretiendraient avec le monde des relations complexes, non-linéaires, rhizomatiques. Il s’agirait moins de reproduire le visible que d’explorer l’invisible, moins de copier des formes existantes que d’inventer des modes inédits de formation, de déformation et de transformation des images.
Vouloir générer mathématiquement des images concrètes semble une entreprise vaine parce qu’elle présuppose une mathesis universalis explicite, c’est-à-dire une corrélation entre les opérations mathématiques et la référence au monde. Cette présupposition repose sur une conception de la mathématique comme langage universel capable de décrire exhaustivement la réalité sensible, conception héritée de la tradition philosophique cartésienne et leibnizienne. Mais cette ambition d’une formalisation intégrale du monde ne se heurte-t-elle pas à une résistance fondamentale du réel, à son excès irréductible par rapport à toute tentative de modélisation ?
Les mathématiques, dans leur abstraction même, semblent toujours manquer quelque chose de la concrétude du monde, de sa texture sensible, de sa chair phénoménale. Elles peuvent bien sûr décrire avec une précision remarquable certains aspects de la réalité physique – trajectoires, forces, interactions – mais peuvent-elles saisir la qualité singulière d’une lumière d’automne, la sensation tactile d’un grain de sable entre les doigts, l’expression fugitive d’un visage saisi par l’émotion ? Ces dimensions sensibles du réel, ces tonalités affectives qui colorent notre expérience du monde, semblent résister à toute formalisation mathématique exhaustive.
Ce qu’on peut par contre générer ce sont des relations entre des images concrètes. Un exemple extrêmement simple est l’installation If Then, logical imaginary (2009) qui pioche au hasard sur Internet deux images et qui tire aléatoirement un connecteur logique. Voilà qui ouvre une voie féconde : et si la génération visuelle concrète résidait moins dans la production d’images isolées que dans l’établissement de connexions inédites entre des images existantes ? Si l’essence de la concrétude n’était pas à chercher dans l’image elle-même mais dans le réseau de relations qu’elle tisse avec d’autres images, avec le spectateur, avec le contexte culturel et historique dans lequel elle s’inscrit ?
Cette approche relationnelle de la génération visuelle nous invite à concevoir l’image non plus comme une entité autonome, close sur elle-même, mais comme un nœud dans un réseau complexe de significations, de références, d’associations. L’image concrète serait alors moins définie par ce qu’elle représente que par la manière dont elle s’insère dans ce tissu relationnel, par sa capacité à mobiliser des connexions, à activer des résonances, à catalyser des interprétations.
La génération porte donc sur la relation qui produit de la sémantique plutôt que sur l’image en tant que forme, et sans doute ce déplacement est-il inhérent à la différence entre image abstraite et image concrète. Dans le premier cas, l’abstraction est une forme solitaire. Dans le second cas, l’image concrète est une mise en relation parce qu’elle est toujours, dans son isolement même, au monde, et c’est pour cela qu’il est difficile de générer des formes d’images concrètes. Cette distinction fondamentale mérite d’être approfondie : l’image abstraite peut se suffire à elle-même, elle n’a pas besoin de renvoyer à autre chose qu’elle-même pour exister pleinement. Elle est, en un sens, autotélique, trouvant sa finalité dans sa propre existence formelle. L’image concrète, en revanche, est par définition excentrée, déportée vers ce qu’elle n’est pas mais qu’elle désigne, vers ce référent mondain dont elle se veut la représentation.
Cette nature fondamentalement relationnelle de l’image concrète explique pourquoi sa génération algorithmique pose des défis spécifiques : il ne s’agit pas simplement de produire des formes visuellement cohérentes mais de garantir que ces formes établissent des liens significatifs avec notre expérience du monde. Il faut que l’image générée s’inscrive dans un réseau de significations préexistant, qu’elle active des schèmes perceptifs et cognitifs déjà constitués, qu’elle dialogue avec un horizon d’attentes culturellement déterminé.
En effet, celles-ci n’ont pas de forme dans leur solitude, la seule forme est le monde et c’est pourquoi on peut après coup y distinguer une forme solitaire (entendez séparée). Cette remarque profonde nous invite à renverser notre conception habituelle de la relation entre la forme et le monde : ce n’est pas tant que les formes existent d’abord isolément pour ensuite s’agencer dans le monde, mais plutôt que le monde lui-même est la forme primordiale, la matrice à partir de laquelle nous découpons, par un acte de perception et de cognition, des formes singulières. Ce renversement a des implications considérables pour notre compréhension de la génération visuelle concrète : il suggère que toute tentative de générer des images concrètes devrait partir non pas de la forme isolée mais du réseau relationnel dans lequel cette forme prend sens.
Il n’y a pas d’abord un objet qui entre ensuite dans le monde, la genèse de l’objet est au monde et du monde à l’objet. Cette formulation condense une intuition phénoménologique essentielle : l’objet ne préexiste pas à sa relation au monde, il émerge de cette relation même. L’objet n’est pas une entité isolée qui viendrait secondairement s’insérer dans un environnement prédonné, mais le produit d’une co-constitution où l’objet et le monde se définissent mutuellement. Cette perspective écologique de la perception, qui rappelle les travaux de James J. Gibson, nous invite à concevoir la génération visuelle concrète non comme la production d’objets visuels autonomes mais comme la mise en place de systèmes relationnels où ces objets peuvent émerger.
De sorte que pour les générer il faudrait constituer un monde en sa totalité, la perception s’occupant ensuite d’y opérer des coupes nommées images concrètes. Voilà qui éclaire l’ampleur du défi : générer des images concrètes, ce serait en quelque sorte simuler un monde complet, avec toute sa complexité, toutes ses interdépendances, toutes ses potentialités, pour ensuite y prélever des fragments, des instantanés, des coupes qui constitueraient les images proprement dites. Cette approche holistique de la génération visuelle souligne la nature fondamentalement dérivée, seconde, de l’image concrète par rapport au monde dont elle émerge.
Mais cette vision radicale soulève immédiatement une question vertigineuse : est-il possible, même en théorie, de simuler un monde dans sa totalité ? Tout monde simulé ne reste-t-il pas nécessairement partiel, incomplet, schématique par rapport à la richesse infinie du monde réel ? Les univers virtuels les plus sophistiqués, les environnements 3D les plus détaillés ne sont-ils pas toujours des approximations, des simplifications du réel, des mondes appauvris en comparaison de la complexité inépuisable de notre expérience sensible ?
La génération concrète s’occupe des relations et des solitudes non des formes parce qu’elles sont un accès au monde rendu discret. Cette formulation dense mérite d’être déployée : la génération visuelle concrète ne vise pas tant à produire des formes isolées qu’à explorer les modalités de notre rapport au monde, la manière dont nous découpons le continuum de l’expérience sensible en unités discrètes, en objets identifiables. Elle s’intéresse moins au contenu représentationnel des images qu’à leur fonction médiatrice, à leur capacité à structurer notre perception, à orienter notre attention, à configurer notre expérience.
Dans cette perspective, l’enjeu de la génération visuelle concrète n’est pas tant la fidélité mimétique – la ressemblance de l’image avec son référent mondain – que la pertinence phénoménologique – la capacité de l’image à catalyser des modes significatifs d’engagement perceptif et cognitif avec le monde. Il s’agit moins de reproduire l’apparence des choses que de simuler les conditions de leur apparaître, moins de copier des objets que d’explorer les modalités de leur constitution en tant qu’objets pour une conscience percevante.
On peut parler en ce sens de génération d’images concrètes dans La révolution a eu lieu à New York (2002), non pas parce que chaque image trouve sa genèse dans un programme informatique, mais parce que le stock préalable des images, que celles-ci soient enregistrées sur mon serveur ou chargées à partir d’Internet, est agencé selon une logique générative. Cet exemple illustre parfaitement le déplacement conceptuel opéré : la génération ne se situe pas au niveau de l’image individuelle mais au niveau du système qui organise les relations entre les images. Ce qui est généré, ce n’est pas tant le contenu visuel lui-même que les principes de son agencement, les règles de sa composition, les modalités de sa présentation.
Cette approche systémique de la génération visuelle nous invite à concevoir l’image non plus comme une entité statique mais comme un événement dynamique, comme l’actualisation temporaire d’un potentiel relationnel. L’image concrète n’est plus alors un objet fixe mais un processus, une configuration momentanée dans un flux continu de transformations, de recombinaisons, de réinterprétations.
L’agencement des images concrètes n’est pas quelque chose qui s’ajoute aux images, l’agencement fait partie intégrante des images, de la même manière que chose et monde sont coémergents, et c’est pourquoi on doit considérer les images comme des modes non comme des choses compactes. Cette conclusion synthétise admirablement les implications ontologiques de notre réflexion : l’image n’est pas une chose, une substance, une entité délimitée, mais un mode, une manière d’être, une modalité d’existence. Elle n’est pas séparable de son contexte d’apparition, de son environnement relationnel, de son insertion dans un réseau de significations et de références.
La mise en relation, le montage et la rupture, au-delà même des formes prises, définissent de part en part la concrétude des images concrètes. Cette ultime affirmation souligne la nature fondamentalement processuelle de l’image concrète : ce qui la définit, ce n’est pas tant son contenu représentationnel que les opérations qui la constituent – mise en relation, montage, rupture. L’image concrète n’est pas un donné mais un construit, pas un objet mais un événement, pas une entité stable mais une configuration dynamique en perpétuelle reconfiguration.
Cette conception relationnelle et processuelle de l’image ouvre des perspectives fécondes pour la génération visuelle algorithmique : elle suggère que les systèmes les plus prometteurs ne seront pas ceux qui tentent de produire des images mimétiquement fidèles à des référents mondains, mais ceux qui explorent les potentialités de reconfiguration, de transformation, de mise en relation des images. La génération visuelle concrète la plus intéressante sera peut-être celle qui ne cherche pas à simuler l’apparence du monde mais à explorer les modalités de notre rapport au monde visuel, les manières dont nous construisons du sens à partir de configurations visuelles, les processus par lesquels nous transformons des patterns lumineux en expériences significatives.
Ainsi, la question de la génération visuelle concrète nous conduit finalement à interroger non pas tant la nature des images que notre relation aux images, non pas tant la production de représentations que la construction de significations, non pas tant la mimesis que la poiesis – la création active de mondes visuels qui, sans nécessairement reproduire le monde existant, nous offrent de nouvelles manières de le voir, de le penser, de l’habiter.