Imagining the latent space of / Imaginer l’espace latent de / DALL-E 2

My first experiences with this image generation software are mixed. On the one hand, I was excited to experiment with the capacities and limits of this new latent space. On the other hand, the conditions of use are so restrictive that they force me to exclude not only nudity, but also faces, political demonstrations, violence, the unhealthy, etc.

The reasons for these prohibitions are multiple and consist, mainly, in a fear of hyperproduction of false news and manipulations of all kinds. This is ambivalent, because the argument also serves to make people believe in an indistinguishability with a classic visual production, which is the avowed objective of this software. The result of these limitations is, in the context of visual hyperproduction (i.e. recursive production) software, an iconoclasm that is reminiscent of theological regimes: a world of images that obscures finitude in its various forms.

The images produced are realistic in the sense of coherence and no longer have the surreal and metamorphic charm of other statistical generation software, such as Disco Diffusion, which allowed one to plunge into a dreamlike and analogical universe (Descola) where each form could change into another. Thus, Dall-e 2’s images are less original and strange, less noisy, taken separately from each other and it is easy to generate images so coherent and indistinguishable that they lose all singularity and seem to merge into a standard image stock aesthetic.

But the correction and variation functions offer new methods of production and result in a narrativity of the series of images: it is the specificity of this software to be able to generate coherent series where the narrative emerges progressively and which resemble storyboards of future films. It mimics a Hollywood aesthetic with reflections, depths of field and neat imperfections of the image, but the strangeness is in the slight failure and shift of the images placed next to each other. It is therefore not the isolated images that are interesting, but the serialized sets in which the receiver and the recipient can, each in their own way and in their own temporality, project and be supported by a meaningful narrative.

I believe that this transformation is linked to the very functioning of the software, to its compositionality, to its distribution manifold, to its disentangled representations that we find in the results and uses, the appropriations. This means that if the statistical latent space is unrepresentable in its totality and its details because of its variability, its spectrum is in some way synthesizable and imaginable. The recipient using this software can have some representation of this space, of how the vastness of the input data reduces to limited distributions and how the features of the image separate to become parameters. It is this fuzzy representation of the latent space, a spectrum of possibilities, that allows one to choose certain places in the latent space to develop “one’s” style and to move around in it without getting lost in an ocean of possibilities. Dall-e 2 has its own style, even if it contains “all” possible images (the moment is perhaps not so far away, when it will be possible to generate a film in totality), it has its own universe consisting of coherent images which can vary and be put in series. It is in its latent space that it is possible to inscribe oneself singularly by limiting one’s imagination (one’s faculty to produce by anticipation images projected in a material support, here a network of machines).

This appropriation takes surprising detours. If the rules of use exclude violence and words referring to skin, police, blood are excluded, one can describe a violent scene without violent words, for example a person in a transparent plastic bag. The words murder, death, body are absent, but the result will be a crime scene. If we reframe this image (to continue the narration) and reinject it into the software, then the latter will forbid it, because it will recognize a crime scene. From then on, we can see that this automated iconoclasm is a form of statistical morality that we must divert and turn around.

Here again, we understand that, whatever the criticisms we may have of the structure of the software, of its limits of use, it is possible to develop singular uses that are not simply instrumental, subjecting a software to a will and to prior representations, but that start from an imagination of the latent space. It is undoubtedly in this that the role of the artist finds a new way of working and producing.

Mes premières expériences avec ce logiciel de génération d’images sont partagées. D’un côté, une excitation à expérimenter les capacités et les limites de ce nouvel espace latent, de l’autre les conditions d’usage sont si restrictives qu’elles obligent à exclure non seulement la nudité, mais aussi les visages, les manifestations politiques, la violence, le malsain, etc.

Les raisons de ces interdictions sont multiples et consistent, principalement, en une crainte d’hyperproduction de fausses nouvelles et de manipulations en tout genre. Ceci est ambivalent, car l’argument sert aussi à faire croire en une indiscernabilité avec une production visuelle classique qui est l’objectif avoué de ce logiciel. Le résultat de ces limitations est, dans le contexte d’un logiciel d’hyperproduction (c’est à dire d’une production récursive) visuelle, un iconoclasme qui n’est pas sans rappeler des régimes théologiques : un monde d’images qui occulte la finitude sous ses différentes formes.

Les images produites sont réalistes au sens d’une cohérence et n’ont plus le charme surréaliste et métamorphique d’autres logiciels de génération statistique, tel que Disco Diffusion, qui permettaient de plonger dans un univers onirique et analogique (Descola) où chaque forme pouvait se changer en une autre. Ainsi, les images de Dall-e 2 sont moins originales et étranges, moins bruitées, prises séparément les unes des autres et il est facile de générer des images si cohérentes et indiscernables qu’elles perdent toute singularité et semble se fondre dans une esthétique de stock d’images standard.

Mais les fonctions de correction et variation offre de nouvelles méthodes de production et ont comme résultat une narrativité de la mise en série des images : c’est là, la spécificité de ce logiciel que de pouvoir générer des séries cohérentes où la narration émerge progressivement et qui ressemblent à des story-boards de films à venir. On mime alors une esthétique hollywoodienne avec des reflets, des profondeurs de champ et imperfections soignées de l’image, mais l’étrangeté est dans la légère défaillance et décalage des images mises les unes à côté des autres. Ce ne sont donc pas les images isolées qui sont intéressantes, mais les ensembles sérialisés dans lequel le destinateur et le destinataire peuvent, chacun à leur manière et dans leur temporalité, projeter et être soutenu par une narration signifiante.

Je crois que cette transformation est liée au fonctionnement même du logiciel, à sa compositionnalité, à ses anneaux de distribution (distribution manifold), à son désenchevêtrement catégoriel (disentangled representations) qu’on retrouve dans les résultats et les usages, les appropriations. C’est dire là que si l’espace latent statistique est irreprésentable dans la totalité et ses détails du fait de sa variabilité, son spectre est de quelque manière synthétisable et imaginable. Le destinateur qui utilise ce logiciel peut avoir une certaine représentation de cet espace, de la manière dont l’immensité des données d’entrée se réduit en des distributions limitées et dont les caractéristiques de l’image se séparent pour devenir des paramètres. C’est cette représentation floue de l’espace latent, un spectre de possibilités, qui permet de choisir certains endroits de l’espace latent pour développer « son » style et de s’y déplacer sans se perdre dans un océan de possibilités. Dall-e 2 a son propre style, même s’il contient « toutes » les images possibles (le moment n’est peut-être pas si lointain, où il sera possible de générer un film en totalité), il a son propre univers consistant en des images cohérentes qui peuvent varier et être mises en série. C’est dans son espace latent qu’il est possible de s’inscrire singulièrement en limitant son imagination (sa faculté à produire par anticipation des images projetées dans un support matériel, ici un réseau de machines).

Cette appropriation prend des détours étonnants. Si les règles d’utilisation excluent la violence et que les mots faisant référence à la peau, à la police, à du sang sont exclus, on peut décrire une scène violente sans mot violent, par exemple une personne dans un sac plastique transparent. Les mots meurtre, mort, corps sont absents, mais le résultat va être une scène de crime. Si, on recadre cette image (pour poursuivre la narration) et qu’on la réinjecte dans le logiciel, alors ce dernier va l’interdire, car il va reconnaître une scène de crime. Dès lors, on voit bien que cet iconoclasme automatisé est une forme de moralité statistique qu’il s’agit de détourner et de retourner.

Là encore, on comprend que, quels que soient les critiques que l’on peut porter à la structure du logiciel, à ses limites d’utilisation, il est possible de développer des usages singuliers qui ne sont pas simplement instrumentaux, soumettant un logiciel à une volonté et à des représentations préalables, mais qui partent d’une imagination de l’espace latent. C’est sans doute dans la manière de naviguer et de monter celle-ci que le rôle de l’artiste trouve une nouvelle manière de travailler et de produire.

http://chatonsky.net/101-2/
http://chatonsky.net/laocoon-5/
https://www.instagram.com/chatonsky_/