L’exploit de l’art / The exploit of art

https://www.niio.com/blog/the-exploit-of-art-ai-and-the-banality-of-images/

Chaque semaine un nouveau code de génération et traduction texto-visuelle devient accessible sur Colab. On enchaîne les expérimentations, avides de produire de nouvelles images et d’explorer ces nouvelles possibilités. On essaye de se les approprier pour éviter certaines naïvetés visuelles diffusées quotidiennement sur Twitter et Discord. Mais progressivement le champ des possibles visuels semble se réduire, avec Dall-E 2 et affiliés, en devenant plus « crédibles », les images deviennent aussi plus ennuyeuses. La progression technologique semble croiser en sens inverse l’intérêt esthétique comme si chacun avait des finalités propres.

C’est sans doute que les codes développés par des informaticiens créatifs, qui ont le plus souvent des connaissances réduites en histoire de l’art, répondent à des exigences qui sont antagonistes à celles l’art. La pratique informatique consiste à relever des défis (exploit), à réaliser des objectifs et à ne pas questionner les présupposés de ceux-ci, de sorte qu’on hérite le plus souvent d’une structure idéologique sous-jacente qui tend à naturaliser ce qui est une construction sociale et culturelle.

Ainsi, la génération d’images en réseau de neurones semble avoir pour objectif majeur la capacité de produire des images « naturelles » à partir de textes, c’est-à-dire des images qui semblent avoir été faites par des opérateurs humains avec une médiation technique (peinture, dessin, photographie, etc.) et non générées par des machines solitaires. S’inspirant du test de Turing, cette finalité occulte que ce test prenait en compte, dans ses deux versions, ses effets performatifs. En effet, Alan Turing n’avait pas pour volonté que la machine soit une intelligence comme un être humain (cette dernière faculté étant d’ailleurs incertaine chez ce dernier), mais que celui-ci accorde, affecte, attribue à la machine une intelligence s’il ignore qu’elle est une machine. La reconnaissance de l’arbitraire de l’attribution est ici fondamentale, car c’est elle qui définit les conditions de possibilités qu’il s’agit de construire et déconstruire.

Ainsi, les images en réseaux de neurones deviennent de plus en plus cohérentes, banales, jusqu’à étrangement avoir un air de famille avec celles de Beeple. Une esthétique moyenne fruit de la juxtaposition irréfléchie de notre culture, un espace latent qui peut être statistique (technique) ou cognitif (humain). Elles semblent perdre l’étrangeté des pixels et du Surréalisme, refoulent leur caractère psychédélique ou hallucinatoire de Deep Dream, puisqu’il s’agit de surmonter ce qui apparaît comme des défauts et des bizarreries, afin qu’on ne remarque pas la différence entre le prétendu original et la prétendue copie. On n’y voit alors que du feu. On n’a d’ailleurs plus rien à voir, si ce n’est un symptôme de notre époque et de son hypermnésie.

Il y a derrière l’exploit informatique une instrumentalité généralisée, une construction déterministe du monde, qui affecte l’esthétique elle-même. Elle suppose ici une conception linéaire de la représentation, de la mimèsis, de la Vorstellung : les images n’auraient pas d’effet sur elles-mêmes. Les images de Dall-E 2 semblent moins troublantes que celles de Disco Diffusion ou VQGAN Clip, tant elles sont maîtrisées et normales. On en vient à devenir nostalgique d’une technologie qui date d’à peine quelques semaines. L’évolution technologique est une ruine instantanée, au moment même de son apparition elle est un désastre. Terminées les germinations et les métamorphoses, les imperfections et les monstruosités. Les silhouettes et les objets se découpent sur un fond, chaque chose se distingue des autres, l’image devient plus nette et plus « crédible », mais on sait bien que cette crédibilité n’est pas naturelle et qu’elle ne va pas de soi, c’est une construction culturelle et historiquement, géographiquement située. Or c’est précisément la contingence de cette construction que l’œuvre d’art véritable souligne, alors que le développement technologique de la génération d’images repose sur la croyance d’une essentialité de celle-ci. Les codeurs poursuivent donc souvent une finalité visuelle décontextualisée et essentialisée. Les images d’origine sont considérées comme des données qu’il faut traduire. Que la perception de ces images «originales » puissent être rétroactivement influencées par les productions automatisées reste impensé. Que le fait de traduire un texte en image appartienne à une longue tradition théologique occidentale consistant à faire que les images expriment un texte sacré est occulté. C’est d’ailleurs la raison pour laquelle les « prompts » sont souvent plus intéressants que les résultats visuels. En faisant le catalogue de tous les « prompts » qui inondent Twitter, on obtiendrait sans doute une bonne représentation de l’imaginaire visuelle de notre époque : à quels mots pensent-on pour faire une image? Ils ne voient pas que les défauts, les métamorphoses, les informes sont autant de potentialités esthétiques, que l’étrange familiarité entre les productions humains et techniques est aussi faite de distances et de différences consistant en une zone grise anthropotechnologique : humain et technique se sont toujours influencés, l’imagination aura été le nom de leur rencontre à travers un support matériel.

Lorsque les réseaux de neurones pourrons générer une image que l’on ne saura pas distinguer d’une production humaine, c’est d’une part que cette dernière sera transformée en sa plus grande banalité et instrumentalité, comme une esthétique par défaut. On croyait produire des nouvelles images, on modifiera en fait la perception de toutes les images passées auxquelles on se réfère, notre présent technique influençant notre passé culturel. C’est aussi qu’on aura oublié qu’il n’y a nulle production humaine qui ne soit technique et nulle production technique qui ne soit humaine. On pourra alors produire des images aussi stéréotypées que celles des influenceu.se. r. s, de Beeple, de ces peintres instagrammables dont on ne sait si ce sont les peintures ou les visages qui en font le fugitif succès. On pourra alors être submergé par le flux des images, créer des images d’images, reprendre le fil de toute notre culture visuelle à travers l’espace latent des statistiques. Nous y trouverons alors de quoi faire et nous inventerons suffisamment d’erreurs et de décalages pour continuer à expérimenter et à recontextualiser ces images hors d’elles-mêmes dans le contexte large de la construction culturelle.

Every week a new text-to-video generation and translation code becomes available on Colab. We keep on experimenting, eager to produce new images and to explore these new possibilities. We try to make them our own to avoid some of the visual naïveties that are spread daily on Twitter and Discord. But gradually the field of visual possibilities seems to be narrowing, with Dall-E 2 and affiliates, by becoming more « credible », the images also become more boring. The technological progression seems to cross in opposite direction the aesthetic interest as if each one had its own finalities.

It is undoubtedly that the codes developed by creative computer scientists, who most often have little knowledge of the history of art, meet requirements that are antagonistic to those of art. Computer practice consists in taking up challenges (exploit), in realizing objectives and in not questioning the presuppositions of these, so that one inherits more often than not an underlying ideological structure that tends to naturalize what is a social and cultural construction.

Thus, the generation of images in neural networks seems to have as a major objective the capacity to produce « natural » images from texts, i.e. images that seem to have been made by human operators with a technical mediation (painting, drawing, photography, etc.) and not generated by solitary machines. Inspired by Turing’s test, this finality conceals that this test took into account, in its two versions, its performative effects. Indeed, Alan Turing did not want the machine to be an intelligence like a human being (this last faculty being moreover uncertain in the latter), but that the latter grants, affects, attributes to the machine an intelligence if he ignores that it is a machine. The recognition of the arbitrariness of the attribution is fundamental here, because it is it that defines the conditions of possibilities that it is a question of constructing and deconstructing.

Thus, the images in neural networks become more and more coherent, banal, until they strangely have a family air with those of Beeple. An average aesthetic fruit of the thoughtless juxtaposition of our culture, a latent space that can be statistical (technical) or cognitive (human). They seem to lose the strangeness of pixels and Surrealism, to repress their psychedelic or hallucinatory character of Deep Dream, since it is a question of overcoming what appears as defects and oddities, so that one does not notice the difference between the alleged original and the alleged copy. One then sees only fire. In fact, there is nothing to see anymore, except a symptom of our time and its hypermnesia.

There is behind the computer exploit a generalized instrumentality, a deterministic construction of the world, which affects the aesthetics itself. It supposes here a linear conception of the representation, of the mimesis, of the Vorstellung: the images would not have effect on themselves. The images of Dall-E 2 seem less disturbing than those of Disco Diffusion or VQGAN Clip, so much they are mastered and normal. One becomes nostalgic for a technology that is only a few weeks old. The technological evolution is an instant ruin, at the very moment of its appearance it is a disaster. Gone are the germinations and the metamorphoses, the imperfections and the monstrosities. The silhouettes and the objects are cut out on a background, each thing is distinguished from the others, the image becomes clearer and more « credible », but we know well that this credibility is not natural and that it does not go without saying, it is a cultural construction and historically, geographically located. But it is precisely the contingency of this construction that the true work of art underlines, whereas the technological development of the generation of images rests on the belief of an essentiality of this one. Coders therefore often pursue a decontextualized and essentialized visual purpose. The original images are considered as data that must be translated. That the perception of these « original » images can be retroactively influenced by the automated productions remains unthought of. That the translation of a text into images belongs to a long Western theological tradition of making images express a sacred text is obscured. This is the reason why « prompts » are often more interesting than visual results. If we were to catalog all the prompts that flood Twitter, we would probably get a good representation of the visual imagination of our time: what words do people think of to make an image? They don’t see that defects, metamorphoses, shapelessness are so many aesthetic potentialities, that the strange familiarity between human and technical productions is also made of distances and differences consisting of an anthropotechnological grey zone: human and technical have always influenced each other, imagination will have been the name of their meeting through a material support.

When the neural networks will be able to generate an image that we will not be able to distinguish from a human production, it is on the one hand that this last one will be transformed in its biggest banality and instrumentality, as an aesthetic by default. We believed to produce new images, we will in fact modify the perception of all the past images to which we refer, our technical present influencing our cultural past. It is also that we will have forgotten that there is no human production that is not technical and no technical production that is not human. We will then be able to produce images as stereotyped as those of the influenceu.se.r. s, of Beeple, of these instagrammable painters of which we do not know if it is the paintings or the faces which make their fleeting success. We will then be able to be submerged by the flow of images, to create images of images, to take up the thread of all our visual culture through the latent space of statistics. We will then find something to do and we will invent enough errors and shifts to continue to experiment and recontextualize these images out of themselves in the broad context of cultural construction.