A propos de #womboart : de la corrélation à la tra(ns)duction inductives

Devant la multiplication des usages de CLIP par l’intermédiaire de #womboart, il s’agit de distinguer les usages par défaut et les métabolisations esthétiques.

La « traduction » du texte en image inductive révèle, s’il en était encore besoin, que la numérisation binaire de l’ensemble des données rend possible tous les jeux de corrélation entre des tableaux de données différentes. Un texte se traduit en image qui se traduit en son ou en d’autres choses encore.

Ce « langage » commun du binaire n’est pas chose nouvelle, mais trouve dans l’induction statistique des réseaux de neurones une forme d’expression privilégiée qui a ceci de fascinant qu’il rejoue sur une nouvelle scène le différend entre le texte et l’image, par exemple dans le cadre déterminant de la théologie chrétienne. L’induction est kitsch par nécessité, mais certaines formes peuvent être considérées comme passives ou fantasmatiquement autonomes et d’autres actives ou relationnelles.

En utilisant le code par défaut, on actualise simplement les possibilités qui y sont consignées, de sorte que le résultat est toujours un peu différend mais a toujours la même patte esthétique, c’est le kitsch passif qui s’épuise dans la nouveauté. On retrouve dans le résultat quelques traces des mots qu’on y a injectées. Mais ce n’est pas encore suffisant pour métaboliser le processus de production consistant à sortir de la simple fascination pour développer une relationnalité des images humaines, inductives et anthropotechniques. Car si CLIP est fondé sur un stock massif de données d’origine anthropique (bien que dès le départ ses conditions d’enregistrement soient aussi techniques), il passe par cette forme d’automation qu’est l’induction pour ensuite être utilisé et perçu par des humains. Lorsqu’on pense ces images, on a trop vite fait de penser qu’elles sont techniquement autonomes, sans observer la réalité de leur production et de leur réception. Il y a toujours déjà et à perte de vue une relation incessante entre l’être humain et l’automation.

La métabolisation esthétique rend moins hommage aux capacités d’un logiciel fantasmé comme autonome, qu’à la relationnalité inextricable anthropotechnique et à cette fin il faut détourner et contextualiser.

Le détournement consiste à « apprendre » le langage de la traduction par défaut, en expérimentant plusieurs traductions afin d’en comprendre les effets et les subtilités. Le langage n’est pas le code informatique mais la manière dont la relation entre le texte et l’image opère, car celle-ci n’est pas modélisée par le code, elle est dans l’espace latent de l’IA comme le résultat d’opérations statistiques implicites. Ceci permet de passer d’une traduction entendue comme simple corrélation entre des données à une transduction (j’avais proposé ailleurs le concept de tra(ns)duction) exprimant le passage à la limite d’un média à un autre, retrouvant dans la phase suivante des traces expressives de la phase précédente et répondant en ceci à la signification élaborée par Simondon. Par une telle expérimentation, on métabolise le fameux « air de famille » de ces images.

Avec la contextualisation, il s’agit de relier ces images à des corpus d’images ou d’autres médias pour les excéder et les disséminer. Car sans cela, ces images sont un « truc », l’effet d’une application offerte au grand public qui ne fait qu’en actualiser les possibilités. Si par contre ces productions sont reliées à d’autres, sont mise en réseau avec d’autres alors la tra(ns)duction devient intermédiatique et commence à sortir du silicium pour entrer dans le monde. Car il y a quelques paradoxes à enfermer la circulation de la transduction numérique à un résultat isolé (une image), à retrouver une forme finalisée plutôt que de vouloir poursuivre sa circulation en elle et hors d’elle.

Détourner et contextualiser ne supposent par des connaissances informatiques, car on a l’habitude de croire la métabolisation de tels codes passe par un apprentissage de cette forme idéale qu’est la programmation. Le présupposé d’une telle croyance est que l’image est la simple expression d’un code sous-jacent sans apercevoir qu’en informatique il y a un décalage entre les causes (le code) et les effets parce que ceux-ci sont relationnels et ne sont jamais purement informatiques. Ils sont le résultat d’une double causalité entrelacée : humaine et technique. La production artistique a ceci de particulier qu’elle se concentre sur l’entrelace des causes et des effets et manie l’informatique non comme un informaticien mais d’une façon plus expérimentale et heuristique là où les causes et les effets ne se séparent plus nettement.

Faced with the multiplication of CLIP uses through #womboart, it is important to distinguish between default uses and aesthetic metabolisations.

The “translation” of text into inductive image reveals, if it were still necessary, that the binary digitization of all data makes possible all games of correlation between tables of different data. A text is translated into an image which is translated into sound or into other things.

This common “language” of the binary is not new, but finds in the statistical induction of neural networks a privileged form of expression which has the fascination of replaying on a new stage the dispute between text and image, for example in the determining framework of Christian theology. Induction is kitsch by necessity, but some forms can be considered passive or phantasmatically autonomous and others active or relational.

By using the default code, one simply actualizes the possibilities that are consigned to it, so that the result is always a little different but always has the same aesthetic patter, it is the passive kitsch that exhausts itself in novelty. One finds in the result some traces of the words that one has injected into it. But it is not yet enough to metabolize the process of production consisting in leaving the simple fascination to develop a relationality of the human, inductive and anthropotechnical images. For if CLIP is based on a massive stock of data of anthropic origin (although from the start its recording conditions are also technical), it passes through this form of automation that is induction to then be used and perceived by humans. When we think of these images, we are too quick to think that they are technically autonomous, without observing the reality of their production and reception. There is always already and as far as the eye can see an unceasing relation between the human being and the automation.

The aesthetic metabolization pays less homage to the capacities of a software fantasized as autonomous, than to the inextricable anthropotechnical relationality and to this end it is necessary to divert and contextualize.

Detour consists in “learning” the language of translation by default, by experimenting with several translations in order to understand their effects and subtleties. The language is not the computer code but the way in which the relationship between the text and the image operates, because the latter is not modeled by the code, it is in the latent space of the AI as the result of implicit statistical operations. This allows to pass from a translation understood as a simple correlation between data to a transduction (I had proposed elsewhere the concept of tra(ns)duction) expressing the passage at the limit of a media to another, finding in the following phase expressive traces of the previous phase and answering in this to the meaning elaborated by Simondon. By such an experimentation, one metabolizes the famous “family air” of these images.

With the contextualization, it is a question of connecting these images to corpora of images or other media to exceed them. Because without this, these images are a “trick”, the effect of an application offered to the general public which only updates their possibilities. If on the other hand these productions are connected to others, are put in network with others then the tra(ns)duction becomes intermediatic and begins to leave the silicon to enter the world. For there are some paradoxes in locking up the circulation of digital transduction to an isolated result (an image), in finding a finalized form rather than wanting to pursue its circulation within and without it.

To divert and to contextualize do not suppose computer knowledge, because one is used to believe that the metabolization of such codes passes by an apprenticeship of this ideal form that is the programming. The presupposition of such a belief is that the image is the simple expression of an underlying code without realizing that in computer science there is a gap between the causes (the code) and the effects because these are relational and are never purely computerized. They are the result of a double intertwined causality: human and technical. The artistic production has this of particular that it concentrates on the intertwining of the causes and the effects and handles the computer science not like a computer scientist but in a more experimental and heuristic way where the causes and the effects do not separate themselves any more clearly.