Les deux imaginations artificielles : logique et esthétique

En flânant sur Instagram et Twitter et en observant les résultats des générations effectuées grâce à Dalle2 et affiliés, on est frappé par les différences de qualité sans pouvoir en expliquer immédiatement les critères. D’un côté des illustrations ressemblant à des stocks d’images ou à des productions de Beeple et Banksy, entre SF, heroic fantaisy, manga et kawaii animalier. De l’autre, des photographies étranges et métamorphiques au charme incertain, réalistes sans être réelles, crédibles tout en étant fantastiques et fragiles.

Pour clarifier les critères entre ces images, on distinguera l’imagination artificielle (ImA) logique et l’ImA esthétique en ce que chacune mobilise d’une manière qui lui est propre les relations entre les catégories d’un espace latent. Dans celui-ci, non seulement la grande quantité des données est réduite à une surface limitée en retenant les critères utiles (distribution manifold), mais elles sont également séparées et assemblée dans un espace, chaque catégorie se concentrant ainsi en un point localisé (disentangled representations).

Il est difficile de ne pas rapprocher cette organisation de celle de facultés kantiennes passant du chaos des données sensibles, à l’entendement puis à l’unité des concepts de la raison. Or si l’ImA logique produit du déjà vu kitch, c’est qu’elle utilise les catégories en tant que celles-ci sont séparées et qu’elles peuvent se composer. L’image produite alors est compositionnelle et elle a une certaine fixité déterminée. L’objectif est la vraisemblance dont le critère est la cohérence physique : des formes se détachent sur un fond, la lumière et les ombres sont coordonnées, les objets ont les proportions naturelles, l’ensemble illustre l’entrée textuelle, etc.

L’ImA esthétique quant à elle, re-emmêle les catégories qui étaient distantes dans l’espace latent, elle le parcourt en tous sens et évoque le flux de formation des étants. On voit ainsi, dans une image, le passage d’une catégorie à une autre, la mutation des formes, et l’espace latent devient l’occasion d’une morphogenèse du possible, toujours au bord de l’apparition et de l’évanouissement, de la naissance et de la disparition. Par là on ne vise pas à rendre sensible la cohérence compositionnelle, mais le passage qui défie les divisions et les distances catégorielles.

L’ImA logique et l’ImA esthétique ne mettent pas de la même façon en mouvement les facultés (et ceci aussi dans la mesure où une personne perçoit le résultat de la génération). Avec l’esthétique on involue dans l’unification des concepts pour toucher à l’individuation du sensible tandis que la logique semble suivre imperturbablement le passage du sensible, à l’entendement puis à la raison. Entre les deux, il en va aussi d’un certain rapport à la technique. L’ImA logique reste instrumentale dans son fonctionnement, ses procédures, ses attentes et ses critères d’évaluation tandis que l’esthétique suspend et incidente l’instrumentalité.

Du côté de l’ImA logique, l’image est l’occasion de vérifier une hypothèse textuelle qu’on a anticipée : on écrit un texte pour produire une image et on vérifie l’image au regard du texte et de la cohérence physique de ce qui est représenté. C’est pourquoi on reconnait toujours les images produites dans le cadre de l’ImA logique. On ne jugera pas l’image comme image, mais comme l’illustration d’un texte selon un lien logique.

Du côté de l’ImA esthétique, on définit un possible par le spectre de variabilité du texte qui n’est pas conçu comme devant fixer l’image, mais comme devant en libérer la possibilité. On joue alors à produire de l’inattendu, de la surprise et de l’évènement. La qualité de l’image sera dépendante de ce critère de surprise : est-ce qu’elle défie et déjoue mon attente ? Est-ce que je suis ému par elle en tant qu’elle n’appartient pas à ce que j’avais anticipé ? C’est parce que l’ImA esthétique re-entrelace des catégories que l’espace latent avait séparées que la réalité qui semble être représentée est contrefactuelle, et est réaliste tout en appartenant au domaine du possible.

Strolling on Instagram and Twitter and observing the results of the generations made thanks to Dalle2 and affiliates, one is struck by the differences in quality without being able to immediately explain the criteria. On the one hand, illustrations resembling stock images or productions of Beeple and Banksy, between SF, heroic fantasy, manga and animal kawaii. On the other, strange and metamorphic photographs with an uncertain charm, realistic without being real, credible while being fantastic and fragile.


To clarify the criteria between these images, one will distinguish the logical artificial imagination (ImA) and the aesthetic ImA in that each one mobilizes in a way which is clean to him the relations between the categories of a latent space. In this one, not only the great quantity of data is reduced to a reduced surface by retaining the useful criteria (manifold distribution), but they are also separated and assembled in a space, each category being thus concentrated in a localized point (disentangled representations).


It is difficult not to bring this organization closer to that of the Kantian faculties passing from the chaos of sensible data, to the understanding and then to the unity of the concepts of reason. But if the logical ImA produces déjà vu kitsch, it is because it uses the categories in so far as these are separated and that they can be composed. The image produced then is compositional and it has a certain determined fixity. The objective is verisimilitude, the criterion of which is physical coherence: shapes stand out against a background, light and shadows are coordinated, objects have natural proportions, the whole illustrates the textual entry, etc.


As for the aesthetic ImA, it re-embeds the categories which were distant in the latent space, it traverses it in all directions and evokes the flux of formation of the being. One sees thus, in an image, the passage of a category to another, the mutation of the forms, and the latent space becomes the occasion of a morphogenesis of the possible, always at the edge of the appearance and the fading, of the birth and the disappearance. By there we do not aim at making sensitive the compositional coherence, but the passage which defies the divisions and the categorical distances.


The logical ImA and the aesthetic ImA do not put in the same way in movement the faculties (and this also in the measure where a person perceives the result of the generation). With the aesthetic one involutes in the unification of the concepts to touch the individuation of the sensible while the logic seems to follow imperturbably the passage from the sensible, to the understanding then to the reason. Between the two, there is also a certain relationship to technique. The logical ImA remains instrumental in its functioning, its procedures, its expectations and its criteria of evaluation while the aesthetic suspends and incidences the instrumentality.


On the side of the logical ImA, the image is the occasion to verify a textual hypothesis that one has anticipated: one writes a text to produce an image and one verifies the image with regard to the text and the physical coherence of what is represented. This is why we always recognize the images produced within the framework of the logical ImA. One will not judge the image as an image, but as an illustration of a text according to a logical link.


On the side of the aesthetic ImA, one defines a possible by the spectrum of variability of the text which is not conceived like having to fix the image, but like having to release the possibility of it. One plays then to produce the unexpected, the surprise and the event. The quality of the image will depend on this criterion of surprise: does it defy and thwart my expectations? Am I moved by it because it does not belong to what I had anticipated? It is because the aesthetic ImA re-enters categories that the latent space had separated that the reality that seems to be represented is counterfactual, and is realistic while belonging to the domain of the possible.