Du mauvais goût dans quelques productions récentes de l’imagination artificielle / Bad taste in some recent productions of artificial imagination

Au-delà des performances et nouveautés techniques, je vois rarement des images générées par Dalle, DiscoDiffusion ou Midjourney qui me semblent singulières. En ce domaine, on pourrait bien estimer que c’est affaire de goût personnel et que ce qui est beau pour l’un ne l’est pas pour l’autre. Je vais présupposer, de façon réfutable, qu’une certaine culture visuelle tout autant qu’une longue expérience des images aussi bien artistiques que générées, donne une assise à mon jugement et qu’en explorant réflexivement celui-ci peut être y trouverais-je des raisons objectivables.

C’est la différence de qualité entre certaines images et d’autres qui me frappe. Il est vrai que notre époque n’est pas friande de ce type de position qui s’expose avec une telle fragilité affirmative. Peut-être pourrais-je par là cerner une différence de méthodologie entre la volonté de puissance illustrative et le lâcher-prise heuristique.

Pour beaucoup d’opérateurs humains, les références semblent passives, elles concernent principalement une culture populaire mainstream dont il faudrait dresser la typologie, entre animaux anthropomorphisés, surréalisme à la Dali, ruines esthétisantes, germination vitaliste, Cyberpunk cheap, et j’en passe. Le kitsch semble régner et les styles appliqués deviennent des caricatures de ce qu’ils étaient donnant un visage à l’imaginaire moyen de notre époque.

C’est bien la passivité de ces références qui ne semblent répondre à aucune perspective critique dans le champ des images, la faute sans doute à une culture limitée et à ce que nous soyons passés à un consumérisme visuel généralisé (production comprise). Ces références n’impliquent pas la construction d’un domaine visuel historicisé, c’est-à-dire que leur usage semble purement mécanique et ne pas correspondre à une mise en situation : je produis cette image parce qu’il y a eu avant telle et telle image, telle et telle histoire des images est remplacé par : je produis cette image, car j’ai métabolisé tant d’images que j’en ai envie.

Tout se passe comme si la culture visuelle avait diminué à mesure que la consommation visuelle avait augmenté, donnant l’impression que chacun est en ce domaine compétent et que n’importe quel avis en vaut bien un autre (ce qui donne dans le domaine professionnel des designers et des artistes des situations régulièrement cocasses).

L’espace latent dont émergent ces images lorsqu’il est allié à un consumérisme populaire semble ne pouvoir produire que des images standardisées à plusieurs degrés : une copie de copie de copie, etc. Or cette morne ressemblance n’est pas inhérente à un logiciel comme dalle, mais à la conjonction déficiente entre deux espaces latents : l’informatique portée par l’ordinateur et le culturel portés par le prompteur humain. C’est sur les épaules de ce dernier que repose en effet la responsabilité de cette bonne ou mauvaise conjonction. L’espace latent informatique ne faisant ici que répondre, de façon projective, aux injonctions de l’opérateur.

En plus de cette référentialité consumériste et non située, il y a aussi la démonstrativité. L’intérêt que beaucoup portent à ces logiciels consiste à corréler texte et image afin de vérifier que cette dernière est bien l’illustration du premier et qu’ils se correspondent. En préférant l’illustration sur l’expérimentation, ces opérateurs humains sont dans une relation de maîtrise aux logiciels auxquels ils veulent commander un résultat et ils perpétuent la conception visuelle la plus naïve (l’image est l’expression d’un message), mais aussi la domination de la volonté (cause efficiente) sur tout le reste. Il s’agit là de volonté de puissance telle que Nietzsche puis, à sa suite, Heidegger l’ont conceptualisé. Dès lors, on fixe une cause et l’image n’est qu’un effet. On cherche un effet qu’on pilote mentalement par l’intermédiaire du langage. On a une idée préconçue de l’image qu’on veut produire et ainsi l’espace latent est réduit à la portion congrue, le champ des possibles se limite terriblement par défaut d’heuristique. C’est cette volonté de maîtrise qui est à la source des conseils de prompts, des tableaux comparatifs, etc. Apprendre ne signifie pas ici expérimenter, mais maîtriser, dominer, commander piloter : on oublie que le Κυβερνητικ de la cybernétique est gouvernail et tissons, c’est-à-dire deux outils qui consistent à s’adapter à un flux maritime ou de feu, non à les maîtriser.

Les images sont alors moins intéressantes que les prompts qui nous renvoient, comme dans un miroir déformant, l’image de notre propre imagination d’époque : si j’avais à demander une image, quels mots prononcerais-je ? La liste de plusieurs centaines de prompts donne le vertige et on a beau avoir intégré la culture pop, on ne peut que souligner l’extrême pauvreté de celle-ci dans ce contexte. Un mélange entre la version cinématographique du Seigneur des anneaux, des relents de Manga sans leur profondeur narrative, et cette façon de faire jouer aux animaux des scènes humaines, à la manière d’un poster de mauvais goût. On peut bien sûr se réjouir de ce mauvais goût au second degré, mais on finirait dans une posture simplement ironique si typique des années 90-2000.

Peut être est-il préférable d’y voir la chance de distinguer stratégiquement le consumérisme visuel de la culture visuelle, la simple répétition du kitsch de son intégration dans un champ historique, le dernier avatar du pop tardif de l’ouverture du post-pop ou post-postproductive, non plus répéter encore et encore notre culture déjà constituée, mais ouvrir, à partir de ce qui est déjà passé, de nouvelles possibilités visuelles et narratives.

Les prompteurs humains limitent terriblement l’espace latent et occultent les images possibles qui défient leurs attentes (d’ailleurs ces opérateurs se copient souvent les uns les autres, sic). Ils sont bien en dessous de ce que la latence permet. Ainsi, ils ferment l’avenir des images et préfèrent répéter des images déjà connues, non pas même celles du passé historique, mais celles d’un immédiat présent, des dernières modes et tendances sur les réseaux sociaux, dernier et terrible avatar du contemporain, c’est-à-dire d’un temps adhérant à lui-même jusqu’à être englué et comme à l’arrêt. Nous n’en aurons jamais terminé.

Ce sont deux rapports à l’image et à la technique comme au langage qui deviennent visibles. Un rapport de maîtrise fondé sur le privilège de l’esprit qui doit commander toutes choses (souvent avec un privilège donné au code sur l’expérimentation intuitive) et un rapport d’écoute qui laisse être les possibles.

Beyond the technical performances and novelties, I rarely see images generated by Dalle, DiscoDiffusion or Midjourney that seem singular to me. In this field, one could well consider that it is a matter of personal taste and that what is beautiful for one is not for the other. I will presuppose, in a refutable way, that a certain visual culture as well as a long experience of the images as well artistic as generated, gives a base to my judgement and that by exploring reflexively this one can perhaps find there objective reasons.

It is the difference in quality between certain images and others that strikes me. It is true that our time is not fond of this type of position which exposes itself with such affirmative fragility. Perhaps I can identify a difference in methodology between the will of illustrative power and the heuristic letting go.

For many human operators, the references seem passive, they mainly concern a popular mainstream culture whose typology should be drawn up, between anthropomorphized animals, surrealism à la Dali, aestheticizing ruins, vitalist germination, cheap Cyberpunk, and so on. The kitsch seems to reign and the applied styles become caricatures of what they used to be, giving a face to the average imagination of our time.

It is the passivity of these references that do not seem to respond to any critical perspective in the field of images, the fault undoubtedly of a limited culture and the fact that we have moved to a generalized visual consumerism (production included). These references do not imply the construction of a historicized visual field, that is to say that their use seems purely mechanical and does not correspond to a situational setting: I produce this image because there was before such and such an image, such and such a history of images is replaced by: I produce this image, because I have metabolized so many images that I want to.

It is as if visual culture has diminished as visual consumption has increased, giving the impression that everyone is competent in this field and that any opinion is as good as any other (which in the professional field of designers and artists leads to regularly funny situations).

The latent space from which these images emerge when combined with popular consumerism seems to be able to produce only standardized images in several degrees: a copy of a copy of a copy, etc. But this dreary resemblance is not inherent to a software as a slab, but to the deficient conjunction between two latent spaces: the informatics carried by the computer and the cultural carried by the human prompter. It is on the shoulders of the latter that the responsibility of this good or bad conjunction rests. The computer latent space does here only answer, in a projective way, to the injunctions of the operator.

In addition to this consumerist and non-situated referentiality, there is also demonstrativeness. The interest that many have in these programs consists in correlating text and image in order to verify that the latter is indeed the illustration of the former and that they correspond to each other. By preferring illustration to experimentation, these human operators are in a relationship of mastery with the software to which they want to command a result and they perpetuate the most naive visual conception (the image is the expression of a message), but also the domination of the will (efficient cause) over everything else. This is the will to power as Nietzsche and then, following him, Heidegger conceptualized it. From then on, one fixes a cause and the image is only an effect. We look for an effect that we mentally control through language. We have a preconceived idea of the image we want to produce and thus the latent space is reduced to the smallest portion, the field of possibilities is terribly limited by lack of heuristics. It is this desire for mastery that is at the source of the prompts, the comparative tables, etc. Learning here does not mean experimenting, but mastering, dominating, commanding piloting: we forget that the Κυβερνητικ of cybernetics is rudder and weaves, i.e., two tools that consist of adapting to a flow of sea or fire, not mastering them.

The images are then less interesting than the prompts which reflect back to us, as in a distorting mirror, the image of our own epochal imagination: if I had to ask for an image, what words would I pronounce? The list of several hundred prompts is dizzying, and even though we have integrated pop culture, we can only underline its extreme poverty in this context. A mixture between the cinematographic version of the Lord of the Rings, hints of Manga without their narrative depth, and this way of making animals play human scenes, in the manner of a poster of bad taste. One can of course rejoice in this bad taste in the second degree, but one would end up in a simply ironic posture so typical of the years 90-2000.

Perhaps it is better to see in it the chance to strategically distinguish visual consumerism from visual culture, the simple repetition of kitsch from its integration in a historical field, the last avatar of late pop from the opening of post-pop or post-postproductive, not repeating again and again our already constituted culture, but opening, from what is already past, new visual and narrative possibilities.

Human prompts terribly limit latent space and obscure possible images that defy their expectations (by the way these operators often copy each other, sic). They are far below what latency allows. Thus, they close the future of images and prefer to repeat already known images, not even those of the historical past, but those of an immediate present, of the latest fashions and trends on social networks, the last and terrible avatar of the contemporary, that is to say of a time adhering to itself until it is stuck and as if at a standstill. We will never be done with it.

These are two relations to the image and to the technique as to the language that become visible. A relationship of mastery based on the privilege of the mind that must command all things and a relationship of listening that lets the possibilities be.