Le pipeline comme imagination : ComfyUI et la réciprocité des flux

Je me souviens du premier workflow que j’ai construit dans ComfyUI, le mot est déjà étrange, workflow, comme si quelque chose travaillait à ma place, ou avec moi, ou malgré moi, cette indécision syntaxique étant peut-être l’essentiel de ce qu’il y a à comprendre. C’était début janvier 2023, quelques semaines après que l’interface eut circulé discrètement sur GitHub, d’abord repérée par une poignée de développeurs, puis progressivement par des artistes et des curieux qui cherchaient à voir ce qui se passait à l’intérieur de Stable Diffusion, non pas pour en extraire de meilleures images, mais parce que l’intérieur lui-même était devenu fascinant, comme une architecture qu’on voudrait habiter avant d’en connaître la fonction. Je ne savais pas encore ce que je cherchais. Je savais que je cherchais quelque chose que les interfaces habituelles ne me donnaient pas.

Ce premier workflow ne fonctionnait pas. Le nœud de décodage refusait de recevoir l’output du sampler. Une erreur de type, le tenseur avait les mauvaises dimensions, la précision numérique ne correspondait pas. L’erreur s’affichait en rouge dans la console pendant que le canvas restait immobile, ce réseau de boîtes colorées et de câbles tendus comme des fils électriques qui n’auraient trouvé ni source ni prise. Il y avait quelque chose d’instructif dans cette panne. Elle rendait visible la chaîne de dépendances que l’interface ordinaire, Automatic1111, dissimule soigneusement sous une façade unifiée. Le pipeline était exposé dans sa nudité. Et son dysfonctionnement était plus informatif que son fonctionnement aurait pu l’être. J’ai passé une heure à regarder cette erreur avant de la corriger. Je ne suis pas sûr d’avoir bien fait de la corriger.

Ce n’est pas la première fois que je me retrouve dans cette position, à apprendre davantage d’un arrêt que d’une continuité. Dans l’esthétique du flux que j’ai tenté de formuler depuis le milieu des années 1990, l’incident, la panne, l’accroc, le bogue, occupe une place théorique précise. Il n’est pas le dysfonctionnement accidentel d’un système qui fonctionnerait normalement sans lui : il est le symptôme de la condition métastable de toute technique, l’oscillation constante entre fonction et incident qui constitue le régime réel des technologies, par opposition au régime idéologique de la fluidité parfaite que les industries technologiques n’ont cessé de promettre. Heidegger l’avait remarqué à propos de l’ustensile : c’est quand l’outil résiste, quand la machine se dérègle, que se révèle le réseau instrumental dans lequel nous sommes pris sans le savoir. Ce premier workflow cassé m’a donné à voir ComfyUI pour ce qu’il est : non pas un outil parmi d’autres, mais un milieu, au sens simondonien, dans lequel quelque chose de notre rapport contemporain à l’image et à l’imagination se structure, et dont je fais maintenant partie sans avoir décidé de le rejoindre.

La généalogie du nœud, ou le flux comme programme

Il y a une pensée qui précède ComfyUI de plusieurs décennies et dont il constitue, à certains égards, l’aboutissement inattendu dans le domaine de la génération d’images. Cette pensée est celle du patch, du câblage, du flux orienté rendu visible. Max/MSP, développé à l’IRCAM dans les années 1980 puis commercialisé, incarne cette tradition dans le domaine du son temps réel. Pure Data, créé par Miller Puckette dans les années 1990 comme alternative libre et ouverte, l’a étendue bien au-delà des studios de composition électroacoustique. Dans ces environnements, on ne programme pas dans le sens séquentiel et textuel habituel : on câble. Des objets, oscillateurs, filtres, buffers, contrôleurs, générateurs de bruit, sont reliés par des connexions qui représentent le passage d’un signal d’un objet à l’autre. L’ensemble forme un patch, terme emprunté aux synthétiseurs modulaires analogiques où les modules étaient reliés physiquement par des câbles de couleur. Le programme devient une cartographie de circulations. On ne lit plus le code, on le traverse du regard.

Ces environnements illustrent une ambiguïté constitutive : ils permettent de concevoir des programmes non pas à travers un code textuel séquentiel, mais par la représentation graphique d’un flux de données. La programmation elle-même adopte une forme fluide, mimant les processus qu’elle cherche à modéliser. L’ordinateur occupe une position singulière à l’intersection de trois domaines : la modélisation référentielle, la simulation imaginaire, et le fonctionnement intrinsèque du logiciel avec sa logique propre. Dans Max ou Pure Data, ces trois domaines restaient encore séparables, on pouvait distinguer le signal sonore traité, la représentation graphique du traitement, et le flux de données qui circule entre les nœuds. Dans ComfyUI, cette séparation s’effondre. Le flux qui circule entre les nœuds n’est pas un signal audible, ni une valeur lisible, ni une image manipulable : c’est un tenseur, une structure mathématique multidimensionnelle dont aucune représentation immédiate n’est possible. On voit les connexions. On ne voit pas ce qui circule.

La transparence est paradoxale. C’est une transparence structurelle qui cache une opacité de contenu. On voit le chemin, on ne voit pas ce qui y marche. Ce paradoxe n’est pas un défaut de conception : c’est l’aveu d’une condition. L’espace latent que le pipeline traverse est, par définition, inaccessible à la perception directe. Il faut le traverser sans le voir, comme on traverse de nuit une ville qu’on ne connaît pas.

Le pipeline comme infrastructure matérielle

Mais il y a une autre généalogie du pipeline, plus ancienne et plus physique, que la métaphore informatique tend à faire oublier. Un pipeline, avant d’être un concept logiciel, est un conduit. Un tuyau qui transporte une substance, eau, pétrole, gaz, données, d’un point à un autre selon un gradient de pression. La pensée contemporaine des réseaux a métaphorisé ce terme jusqu’à lui faire perdre sa matérialité originale : on parle de pipeline de données, de pipeline de traitement, de pipeline de rendu, comme si le mot n’avait jamais désigné autre chose qu’une abstraction organisationnelle.

Ce glissement mérite d’être analysé, parce que les pipelines logiciels ne fonctionnent pas sans pipelines matériels, et cette dépendance n’est pas contingente, elle est constitutive. Le serveur qui fait tourner Stable Diffusion est refroidi par de l’eau. Les datacenters qui hébergent les modèles consomment des flux d’électricité mesurés en mégawatts. Les câbles sous-marins qui transportent les données traversent les océans comme des artères dans un corps dont personne ne veut voir l’anatomie. Le flux numérique, que nous percevons comme une immatérialité pure, ces images qui surgissent en quelques secondes sur l’écran, légères, instantanées, sans trace physique apparente, est en réalité l’aboutissement d’une chaîne de flux physiques : flux d’électrons dans des circuits, flux de chaleur dans des systèmes de refroidissement, flux de données dans des réseaux de fibre optique, flux financiers dans des infrastructures de cloud computing. L’image générée est à l’extrémité d’une chaîne infrastructurelle immense et entièrement invisible. Elle est le bout propre d’un tuyau dont on ne montre jamais l’autre extrémité.

Cette invisibilité n’est pas accidentelle. Elle est la condition idéologique du numérique, ce que j’ai cherché à nommer à travers la notion de fluidité instrumentale : le discours dominant des industries technologiques promeut une expérience du flux sans friction, sans ralentissement, sans incident, un débit continu, une connexion permanente, une génération instantanée. Les industries du cloud promettent en 2023 ce que les fournisseurs d’accès promettaient en 2000 : un flux sans rupture, de la source à l’écran. La promesse est identique. Ce qui a changé, c’est l’échelle de la dissimulation et la profondeur de la chaîne matérielle qu’elle recouvre.

Or le pipeline logiciel et le pipeline physique ne sont pas simplement liés par une relation de dépendance, l’un faisant fonctionner l’autre. Ils sont eux-mêmes en tension, en disparation au sens que je développerai plus loin : deux séries hétérogènes qui ne parlent pas le même langage, dont l’une, le pipeline de traitement computationnel, prétend à une légèreté, à une immatérialité, à une pureté de l’abstraction que l’autre, les pipelines physiques de chaleur, d’eau, d’énergie, contredit à chaque instant, massivement, silencieusement. ComfyUI, en rendant visible la structure du pipeline logiciel, fait par inadvertance quelque chose que l’esthétique incidentelle cherche à produire délibérément : il expose une couture dans le tissu de la fluidité instrumentale. Il ne montre pas les câbles sous-marins ni les systèmes de refroidissement. Mais il montre que l’image est le résultat d’un enchaînement, d’une série d’étapes qui peuvent se casser, se court-circuiter, échouer à se transmettre. Il introduit dans l’expérience de la génération la possibilité de l’incident, et avec elle, la possibilité de voir.

La variable comme condition initiale

Dans les patches Max/MSP ou Pure Data, les variables sont des entités compréhensibles. On sait ce que signifie une fréquence de 440 Hz, un niveau de 0.7, un retard de 8 secondes, ce retard que Dan Graham utilise dans Present Continuous Past(s) pour court-circuiter le flux temporel par la réflexion spatiale, produisant un autre flux grâce aux miroirs. Ces valeurs ont une signification directement lisible, une relation claire à l’effet qu’elles produisent. On modifie le paramètre, on entend le résultat. La causalité est lisible, même quand elle est complexe.

Dans ComfyUI, les variables prennent une autre nature. Le seed, cette valeur numérique qui initialise le générateur de bruit gaussien, détermine de façon opaque la trajectoire que prendra le processus de débruitage dans l’espace latent. On peut le modifier, observer que l’image change radicalement, sans pouvoir prédire en quoi elle changera. Pas de lien prévisible entre la cause et l’effet. La variable n’est plus un paramètre de contrôle au sens cybernétique : elle est une condition initiale au sens météorologique, une légère modification peut induire des changements considérables, non pas parce que le système est mal conçu, mais parce que l’espace dans lequel il opère est d’une complexité qui excède toute intuition directe. C’est ce que j’éprouve à chaque session : je modifie le seed d’une unité, je regarde apparaître quelque chose que je n’avais pas anticipé, je ne sais plus très bien si j’ai produit cette image ou si je l’ai trouvée.

Ce renversement est décisif. La cybernétique classique, celle de Wiener, de Shannon, fondait son rapport au flux sur la possibilité du contrôle. Réduire l’entropie, maximiser le signal, corriger les écarts. Or les modèles de diffusion font quelque chose de plus radical : ils renversent la hiérarchie fondatrice de la cybernétique. Shannon définissait l’information par opposition au bruit, le signal utile émerge en minimisant l’entropie. Dans Stable Diffusion, c’est le bruit lui-même qui est la matière première. Le processus commence par un tenseur de valeurs aléatoires distribuées selon une loi gaussienne, du bruit pur, et procède par débruitage itératif guidé par le prompt pour faire émerger une structure cohérente. Le bruit n’est pas l’ennemi à supprimer : il est la condition de possibilité de toute image. Sans lui, rien. Ce qui m’a frappé lors de mes premières expérimentations, c’est précisément cela : l’image ne préexiste nulle part. Elle n’est pas dans le prompt, elle n’est pas dans le modèle, elle n’est pas dans le bruit. Elle est dans la rencontre de ces trois choses, dans l’espace de leur tension non résolue.

Le cfg scale, cette autre variable fondamentale des pipelines ComfyUI, détermine dans quelle mesure le processus de génération doit obéir au prompt textuel. Une valeur basse et l’image dérive loin de la description, explorant les régions de l’espace latent que le texte ne contraint pas. Une valeur haute et l’image colle au prompt, parfois de façon mécanique et répétitive. Entre les deux, une zone d’équilibre instable où le texte et le bruit se négocient l’image, où la description humaine et la statistique machinique trouvent un accord provisoire, toujours susceptible de se défaire. C’est dans cette zone que je travaille maintenant, presque exclusivement. Non pour trouver le bon équilibre. Pour observer comment l’équilibre est toujours sur le point de se défaire.

La disparation, non l’hybridation

Il serait trop simple, et faux, de décrire ce qui se passe entre l’utilisateur et ComfyUI comme une hybridation. L’hybridation suppose deux termes préexistants, distincts, dont la rencontre produirait un troisième terme qui les absorberait tous deux dans une synthèse stable. L’humain d’un côté, le logiciel de l’autre, et entre eux une zone de mélange progressif où les frontières se brouillent jusqu’à disparaître dans une nouvelle identité composite. Ce récit est séduisant. Il est aussi le récit dominant de la relation entre intelligence humaine et intelligence artificielle : la convergence, la fusion, l’augmentation, l’humain augmenté par la machine, la machine humanisée par le contact. Je l’ai entendu répété depuis novembre 2022 avec une insistance qui m’a rendu méfiant. Non parce qu’il serait entièrement faux. Mais parce qu’il nomme la résolution et oublie la tension, et c’est la tension qui est productive, pas la résolution.

Ce qu’on observe dans un pipeline ComfyUI est plus proche de ce que Simondon nomme la disparation. Mais il faut prendre le temps de distinguer la disparation de ses voisins conceptuels, la disproportion, l’opposition, la contradiction, pour éviter de la réduire à une simple métaphore de la différence. La disparation, chez Simondon, désigne un état préindividuel particulier : celui où deux séries hétérogènes d’une même réalité se trouvent en présence sans pouvoir se résoudre dans leurs propres termes, sans que l’une puisse absorber l’autre, sans qu’elles puissent non plus coexister indifféremment. Ce n’est pas une opposition dialectique qui appellerait une synthèse. C’est une tension structurale qui ne peut trouver de résolution qu’en produisant un individu, un être d’un ordre supérieur qui intègre les deux séries en en dépassant les termes, sans les supprimer. L’individuation n’abolit pas la disparation : elle la déplace à un niveau supérieur, elle la relance depuis une nouvelle charge préindividuelle. L’individu est toujours provisoire. La tension, elle, est constitutive.

Or c’est exactement la structure de ce qui se passe dans ComfyUI. D’un côté, l’utilisateur avec ses intentions, ses images mentales, ses descriptions verbales, son histoire culturelle, sa perception entraînée, tout ce que j’appelle l’espace latent organique, cet espace préindividuel de précompréhensions culturelles qui précède et structure toute formulation explicite. De l’autre, le modèle avec son espace latent statistique, cette représentation multidimensionnelle des proximités entre milliards d’images, qui n’est ni une mémoire ni une volonté mais une topologie, un espace de potentialités orientées selon des gradients appris, strié, courbé, parcouru de trajectoires préférentielles qui ne correspondent à aucune intention. Ces deux espaces sont hétérogènes. Ils ne parlent pas le même langage. Le prompt est la tentative, toujours imparfaite, toujours partiellement ratée, de traduire l’un dans les termes de l’autre. Et c’est cette imperfection même, ce ratage constitutif de la traduction, qui est le site de la disparation.

L’image générée n’est pas la synthèse de l’intention humaine et de la statistique machinique. Elle est l’individu transitoire qui résout momentanément leur disparation, sans l’annuler. Preuve en est que la même résolution ne se reproduit jamais à l’identique : modifier le seed d’une unité, c’est relancer la disparation depuis un autre point de départ et obtenir un individu différent, une autre résolution de la même tension fondamentale, une autre image née de la même incompatibilité productive. Ce qui se répète, ce n’est pas l’image. C’est la structure de la tension. Et chaque image est une façon différente de la résoudre provisoirement, de l’individuer sans l’épuiser.

Ce point est théoriquement décisif parce qu’il interdit de penser l’imagination artificielle sur le modèle de l’expressivité. Le modèle expressiviste suppose que l’artiste a des images à l’intérieur et que le logiciel lui fournit les moyens de les extérioriser. L’IA serait alors un amplificateur de subjectivité, un moyen de réaliser plus fidèlement ce qu’on avait en tête. Mais la disparation simondonienne implique que l’image qui émerge n’était dans aucun des deux espaces avant leur rencontre. Elle n’était pas dans ma tête, sinon pourquoi serais-je surpris par le résultat, et cette surprise ne serait-elle pas constitutive de l’expérience, son moment le plus précieux ? Elle n’était pas non plus dans le modèle, le modèle seul, sans prompt, sans seed spécifique, ne produit rien de déterminé. L’image était dans la tension entre les deux, dans l’espace préindividuel de leur rencontre non résolue. Elle était dans l’écart.

Voilà pourquoi les usages de ComfyUI qui me semblent les plus féconds ne sont pas ceux qui cherchent à produire l’image qu’on avait déjà imaginée. Ce sont ceux qui explorent la disparation elle-même, qui construisent des pipelines non pas pour réaliser une intention mais pour observer comment deux hétérogénéités se négocient, se résistent, finissent par produire quelque chose qui excède chacune d’elles. Dériver plutôt que conquérir, non parce que la dérive serait une valeur en soi, mais parce que c’est dans la dérive que la disparation se manifeste dans toute sa productivité, dans cet écart entre ce qu’on a décrit et ce qui est apparu, entre l’intention formulée et l’individu émergé.

Le branchement aberrant comme méthode

Dans l’esthétique du flux, j’avais insisté sur deux pratiques qui déterminent l’esthétique incidentelle : le délai et le branchement aberrant. Bill Viola dans Information (1973) branche la sortie audio sur une entrée vidéo, ce détournement purement physique du flux audiovisuel produit une image abstraite, traduction aberrante d’un média en un autre. Le branchement réalisé en dépit du bon sens force la disparation : il place deux séries hétérogènes dans un rapport d’incompatibilité productive d’où émerge quelque chose qui n’était contenu dans aucune des deux séries séparément. Ce n’est pas un accident à corriger. C’est une méthode pour maintenir la tension ouverte, pour empêcher que la résolution instrumentale ne survienne trop vite.

Les pipelines ComfyUI offrent une version contemporaine et démultipliée de cette logique. On peut brancher un nœud de style sur un nœud d’interpolation là où le modèle attendait un bruit gaussien pur. Connecter deux encodeurs contradictoires sur le même flux latent, leur faire se neutraliser partiellement, produire un tenseur qui ne correspond à aucune image cohérente mais qui, au terme du débruitage, génère quelque chose que ni l’un ni l’autre n’auraient produit seuls. Injecter une image de référence à une étape du débruitage où la structure n’est pas encore suffisamment formée pour l’absorber sans résistance, créer un conflit entre la direction imposée par l’image et la direction préférentielle de l’espace latent, observer comment ce conflit se résout, ou ne se résout pas, ou se résout de façon inattendue. Ces branchements aberrants, aberrants par rapport à l’usage prévu, au workflow standard, à la documentation, forcent la disparation là où le pipeline standard cherche à la résoudre trop vite, trop proprement, trop au service d’une intention préexistante.

Car c’est là le risque propre aux interfaces qui simplifient. Elles résolvent prématurément la disparation. Elles produisent de bonnes images, cohérentes, lisibles, conformes aux attentes statistiques du modèle, en éliminant précisément ce qui dans la tension entre l’humain et le logiciel était le plus productif : l’incompatibilité, la résistance, l’écart qui force l’émergence de quelque chose d’imprévu. ComfyUI, en exposant la structure du pipeline et en permettant des branchements non standard, maintient ouverte cette tension. Il ne garantit pas de bonnes images. Il garantit quelque chose de plus précieux : la possibilité que la disparation produise quelque chose que ni l’utilisateur ni le modèle n’auraient pu prévoir séparément. La possibilité de la surprise, non pas comme accident mais comme structure.

Je fais cela depuis quelques semaines maintenant. Je construis des pipelines que je ne comprends pas entièrement. Je branche des nœuds dans des configurations que la documentation déconseille. Je regarde ce qui sort. Parfois rien de lisible, une bouillie de pixels qui atteste que la disparation n’a pas trouvé de résolution individuelle cette fois-ci, que les deux séries se sont simplement annulées. Parfois quelque chose d’autre, quelque chose que je n’aurais pas su demander parce que je ne savais pas que ça existait dans cet espace. C’est ce quelque chose que je cherche. Pas l’image que j’avais en tête. L’image qui était dans la tension entre ce que j’avais en tête et ce que le modèle contenait sans le savoir, ou sans que je le sache.

Ce que le pipeline ne résout pas

Ce que ComfyUI rend possible, en exposant les variables et les connexions, c’est une forme d’investigation de l’espace latent qui va au-delà de la production d’images. On peut construire des pipelines qui font varier systématiquement un paramètre et observer comment l’image évolue. On peut interpoler entre deux points de l’espace latent et regarder le continuum d’images qui les relie, ce continuum qui n’est pas une gradation linéaire mais une traversée de zones d’attraction et de répulsion statistiques, un voyage dans la topologie de la disparation. Ces pratiques sont des façons d’explorer ce que l’espace latent contient, et donc, indirectement, de cartographier l’imaginaire collectif humain tel qu’il s’est déposé dans les données d’entraînement, avec tous ses biais, ses zones d’absence, ses silences géopolitiques.

Mais cette cartographie ne résout rien. Elle ne résout pas la disparation entre le pipeline logiciel et le pipeline physique, entre la légèreté computationnelle affichée et la lourdeur infrastructurelle dissimulée. Elle ne résout pas la disparation entre l’espace latent organique de l’utilisateur situé et l’espace latent statistique d’un modèle entraîné sur une représentation partielle et biaisée de la production culturelle mondiale. Elle ne résout pas la question de savoir qui, dans ce processus, imagine. Est-ce moi qui imagine avec le modèle comme instrument ? Est-ce le modèle qui imagine à travers moi comme prétexte ? Est-ce la disparation elle-même qui imagine, qui produit des individus, des images, des résolutions provisoires d’une tension qui la précède et la dépasse ?

Je ne sais pas répondre à ces questions. Je ne suis pas sûr qu’elles appellent une réponse. Ce que je sais, c’est que ComfyUI m’a placé dans une position que les interfaces habituelles ne m’offraient pas : celle de voir la structure de la tension sans pouvoir la résoudre par un simple clic, de travailler dans l’écart plutôt que de le combler, d’observer l’individuation en train de se faire plutôt que de n’en recevoir que le produit fini. C’est une position inconfortable. Le pipeline casse, les erreurs s’affichent en rouge, les tenseurs ont les mauvaises dimensions. L’image n’arrive pas toujours. Et quand elle arrive, je ne suis jamais sûr qu’elle m’appartient.

C’est peut-être cela, l’imagination artificielle : non pas un outil pour produire ce qu’on a déjà imaginé, mais une infrastructure pour être surpris par ce qu’on n’aurait pas pu imaginer seul. Non pas une hybridation de l’humain et de la machine, mais une disparation maintenue ouverte, matérielle et logicielle à la fois, physique et statistique, individuelle et collective, depuis laquelle des images émergent que personne n’a choisies, que tout le monde reconnaît, et dont personne ne peut entièrement revendiquer la paternité.

Le pipeline ne résout pas la disparation. Il lui donne une architecture.