Foundations of promptism / Les fondements du promptisme

Promptism is a recent evolution of a long historical process of equivalence. It consists in giving the impression to human beings that by writing texts a software produces an image that corresponds to it and that did not exist before. Inspired by millions of other images, the image produced is not a collage, but a statistical composition.

To get there, we had to go through different stages. Firstly, it was necessary to consider all things, all beings, according to an equivalence based on a common and indifferent value. For example, to consider things as being able to deliver an energy and this energy being able to produce work and value. It is necessary to understand that by considering things from the energetic point of view, we hide their singularity and individuality to define them according to a common standard. To this end, it is necessary to consume the thing, to destroy it literally and figuratively. The amount of energy delivered by one thing may vary from another, but it is always in kilojoules.

Second, it was necessary to consider everything as a message and every message as organized noise. This made it possible to consider things as sequences of 0 and 1, and to carry out a digitization. There again one does not consider the intrinsic qualities of the thing in its individuality (supposing that this one exists), but one considers all thing according to the same standard. By digitizing all things in this way, by considering them as messages and the organization of a noise, one extirpates oneself from a world teeming with unsubsumable individualities, in order, by inversion, to make of these individualities the result of this common language. An immense translation then takes place. A translation that consists not in translating a language into another language, but in considering something that is not a language, things, as a language in order to translate it into something that is not a language, but a binary sequence, the most simplified form of the thinkable.

I name this translation the tra(ns)duction, following Simondon because the orientation of this translation which makes pass from signs to other signs modifies in return what was translated. This generalized tra(ns)duction allows to consider everything according to the binary order of the zero 0 and the 1, of the passage of the current or of the absence of current, that is to say there again of the energy.

This tra(ns)duction makes possible in return a translation of second level which allows to translate something into something else, for example an image into sound. This arbitrary tra(ns)duction is based on a correlation between two series of signs. For example we associate an RGB color to a MIDI note. It becomes then very simple to produce a sound from an image. But this tra(ns)duction is arbitrary. There is no reason to associate such an element with such another. In spite of this arbitrary character, this tra(ns)duction will be able to give the feeling of a certain resemblance because one will find on both sides rhythms, an indefinable tonality, some resemblances. And this is the reason why it is a tra(ns)duction, that is to say here a translation which keeps traces from stage to stage, traces which are not semantic, but formal.

With the prompt we touch upon a new mode of translation and equivalence. For this translation is based on the association between images, or more exactly objects in images, and words. This semantization is not arbitrary, but based on a common knowledge elaborated on the Internet where millions of individuals have marked images with words and have participated, without knowing it, in a linguistic marking of the world allowing the machines to perceive it in some ways, to detach objects and qualities from the world.

In order to arrive at this text that allows one to move in the latent space of statistics and to produce an image that has never been photographed by anyone, but that undoubtedly resembles thousands of other images already archived, it was necessary that a general ontological equivalence be progressively put in place and appear as an obviousness. This equivalence does not only concern the black box of the computer and the screen, but supposes the extractivism and the generalized exploitation of all things (humans included). That this passage from a text to an image makes conscious or unconscious reference to theology where, for example in Genesis, it is indeed language that produces the world and where for a long time images had to express and be in the image of a religious text, is from a historical point of view not a coincidence and constitutes undoubtedly a form of orientation making it possible to describe a posteriori a cultural sequence making it possible to explain this ontological formation. There is thus behind each prompt that we make, a complex operation of putting in equivalence of all things allowing to consider the individualities as the expression of a more general structure: energy, money, organized noise, sets of 0 and 1, statistics in a latent space. The latter becomes the ideal image of that space common to all things whose most sensitive form is the possibility of navigating and passing from one form to another according to a continuous morphing as if the world were a permanent flux.

The most original consequence of this generalized translation is that the latent space contains many past images (a dataset), and potentially all of them, but it also contains all the images to come, and it is precisely this that allows images that do not yet exist to be realistic when we write a descriptive text. The description of an image is no longer a posteriori of it but a priori. The description becomes an injunction. This inversion is undoubtedly one of the remarkable figures of the will to power in that it is a configurator of worlds.

Le promptisme est une évolution récente d’un long processus historial d’équivalence. Il consiste à donner l’impression à des êtres humains qu’en écrivant des textes un logiciel produit une image qui lui correspond et qui n’existait pas auparavant. Inspirée de millions d’autres images, l’image produite n’est pas un collage, mais une composition statistique.

Pour en arriver là, nous sommes (on reconstitue ainsi imaginairement un parcours) historiquement passés par différentes étapes. Premièrement, il a fallu considérer toute chose, tous les étants, selon une équivalence basée sur une valeur commune et indifférente. Par exemple, envisager les choses comme pouvant délivrer une énergie et celle-ci pouvant produire du travail et de la valeur. Il faut bien comprendre qu’en considérant les choses du point de vue énergétique on en occulte la singularité et l’individualité pour la définir selon une norme commune. À cette fin, il faut consumer la chose, la détruire au sens propre comme au sens figuré. La quantité d’énergie délivrée par une chose peut varier par rapport à une autre, mais il s’agit toujours de kilojoules.

Deuxièmement, il a fallu considérer toute chose comme un message et tout message comme du bruit organisé. Ceci a permis de considérer les choses comme des suites de 0 et de 1, et d’effectuer une numérisation. Là encore on ne considère pas les qualités intrinsèques de la chose dans son individualité (à supposer que celle-ci existe), mais on considère toute chose selon la même norme. En numérisant ainsi toute chose, en les considérant comme des messages et l’organisation d’un bruit (cybernétique), on s’extirpe d’un monde fourmillant d’individualités insubsumables et chaotiques, pour, par inversion, faire de ses individualités le résultat de ce langage commun. Une immense traduction se met alors en œuvre. Traduction qui consiste non pas à traduire un langage dans un autre langage, mais à considérer quelque chose qui n’est pas un langage, les choses, comme un langage pour le traduire dans quelque chose qui n’est pas un langage, mais une suite binaire, la forme la plus simplifiée du pensable.

Je nomme cette traduction, la tra(ns)duction, à la suite de Simondon parce que l’orientation de cette traduction qui fait passer des signes à d’autres signes modifie en retour ce qui a été traduit. Cette tra(ns)duction généralisée permet de considérer toute chose selon l’ordre binaire du zéro 0 et du 1, du passage du courant ou de l’absence de courant, c’est-à-dire là encore de l’énergie.

Cette tra(ns)duction rend possible en retour une traduction de second niveau qui permet de traduire quelque chose en autre chose, par exemple une image en son. Cette tra(ns)duction arbitraire est fondée sur une corrélation entre deux séries de signes. Par exemple on associe une couleur RGB à une note MIDI. Il devient alors très simple de produire une sonorité à partir d’une image. Mais cette tra(ns)duction est arbitraire. Il n’y a aucune raison d’associer tel élément à tel autre. Malgré ce caractère arbitraire, cette tra(ns)duction pourra donner le sentiment d’une certaine ressemblance parce qu’on retrouvera de part et d’autre des rythmes, une indéfinissable tonalité, quelques ressemblances. Et c’est bien la raison pour laquelle il s’agit d’une tra(ns)duction, c’est à dire ici une traduction qui garde des traces d’étape en étape, des traces qui ne sont pas sémantiques, mais formelles.

Avec le prompt on touche à un nouveau mode de traduction et d’équivalence. Car cette traduction est fondée sur l’association entre des images, ou plus exactement des objets dans des images, et des mots. Cette sémantisation n’est pas arbitraire, mais fondée sur un savoir commun élaboré sur Internet où des millions d’individus ont marqué des images de mots et ont participé, sans le savoir, à un marquage langagier du monde permettant aux machines de le percevoir de quelques façons, de détacher du monde des objets et des qualités.

Pour arriver à ce texte qui permet de se déplacer dans l’espace latent des statistiques et de produire une image qui n’a jamais été photographiée par personne, mais qui ressemble sans doute à des milliers d’autres images déjà archivées, il a fallu qu’une équivalence ontologique générale soit progressivement mise en place et apparaisse comme une évidence. Cette équivalence ne concerne pas seulement la boîte noire de l’ordinateur et l’écran, mais suppose l’extractivisme et l’exploitation généralisée de toutes choses (humains compris). Que ce passage d’un texte à une image fasse consciemment ou inconsciemment référence à la théologie où, par exemple dans la Genèse, c’est bien le langage qui produit le monde et où pendant un long moment les images se devaient d’exprimer et d’être à l’image d’un texte religieux, n’est d’un point de vue historial pas un hasard et constitue sans doute une forme d’orientation permettant de décrire a posteriori un enchaînement culturel permettant d’expliquer cette formation ontologique. Il y a ainsi derrière chaque prompt que nous faisons, une opération complexe de mise en équivalence de toutes choses permettant de considérer les individualités comme l’expression d’une structure plus générale : l’énergie, la monnaie, le bruit organisé, les ensembles de 0 et de 1, des statistiques dans un espace latent. Ce dernier devient l’image idéale de cet espace commun à toute chose dont la forme la plus sensible et la possibilité de naviguer et de passer d’une forme à une autre selon un morphing continu comme si le monde était un flux permanent.

La conséquence la plus originale de cette traduction généralisée est que l’espace latent contient beaucoup d’images passées (un dataset), et potentiellement toutes, mais contient aussi toutes les images à venir et c’est précisément cela qui permet que des images qui n’existent pas encore puissent être réalistes quand on écrit un texte descriptif. La description d’une image n’est plus a posteriori de celle-ci mais a priori. Le descriptif devient une injonction. Cette inversion est sans doute l’une des figures remarquables de la volonté de puissance en ce que celle-ci est configuratrice de mondes.