Observers


L’espace est blanc. Les murs sont blancs, le sol couvert d’une moquette qui absorbe les pas, et l’air y a quelque chose d’amorti ; on ne sait pas si l’on se trouve dans un lieu d’exposition ou dans un de ces endroits de passage, couloirs, halls, salles d’attente, que l’on traverse sans s’arrêter et qui ne mènent nulle part.
Des caméras noires et des écrans noirs, tenus ensemble par une structure en profilés d’aluminium, sont répartis dans la salle. Les caméras filment en continu les personnes qui entrent. Derrière la structure, les murs portent des formes cubiques peintes en noir. Le noir des appareils et le blanc des surfaces sont les deux seules choses qu’il y ait à voir.
Ce que les caméras enregistrent n’est pas rediffusé. Les images passent par un modèle qui n’en retient pas les visages, mais la manière dont les corps se déplacent, et qui en produit autre chose. Sur chaque écran apparaît la portion d’espace où il se trouve, reconstruite et occupée par des figures. Ces figures ne sont pas les visiteurs. Elles ne reproduisent pas non plus ce que les visiteurs ont fait. Elles font ce que les visiteurs auraient pu faire.
C’est un second espace, exactement superposé au premier, où se déroule non pas ce qui a eu lieu mais ce qui pouvait avoir lieu. Les mouvements y sont réels : ils viennent de personnes réelles, entrées un jour dans la salle. Mais ils se sont détachés de celles qui les ont faits. On reconnaît une démarche sans pouvoir dire à qui elle appartient.
Le visiteur comprend qu’il est filmé avant de comprendre ce qu’on fait des images. Il avance dans une pièce occupée seulement par des appareils, et un moment plus tard il se retrouve sur les écrans, déplacé, recommencé, sous la forme d’une figure qui agit à sa place.
Les figures ne quittent jamais la salle. À mesure que les heures passent, elles s’accumulent. Chaque personne entrée laisse derrière elle un agent qui continue de circuler après son départ, avec sa façon d’avancer et de s’arrêter, et qui ne s’en va pas. Le second espace se remplit pendant que le premier se vide chaque soir. Personne, de ce côté-là, ne trouve la sortie.
Le titre nomme ceux qui regardent et ce qui regarde. Les visiteurs regardent les écrans, les caméras regardent les visiteurs, le modèle regarde pour fabriquer les figures. À aucun moment on ne sait lequel de ces deux espaces est le double de l’autre.
–
Des caméras IP réparties dans la salle alimentent en continu un pipeline de vision par ordinateur. Les flux (FFmpeg/GStreamer) sont calibrés dans un repère 3D commun sous OpenCV. Sur chaque image : détection et suivi multi-personnes (YOLOv11, ByteTrack), ré-identification inter-caméras, puis estimation de pose corporelle paramétrique (4D-Humans/SMPL). Les images sont traitées à la volée et jetées : ne subsistent que des données de mouvement, sans visage ni enregistrement.
Ces séquences alimentent V-JEPA 2 (Meta), modèle de monde qui travaille en espace latent. Un décodeur de mouvement, entraîné spécifiquement, transforme ses prédictions en trajectoires : non pas ce que les visiteurs ont fait, mais ce qu’ils auraient pu faire. Chaque personne entrée engendre un agent persistant, stocké en base, doté de son comportement propre.
Un jumeau numérique de la salle (USD) est simulé dans NVIDIA Omniverse, rendu en local; les agents y sont animés et s’accumulent sans jamais quitter l’espace. Chaque écran correspond à une caméra virtuelle placée aux coordonnées exactes de l’écran physique : il montre le lieu où il se trouve.
The space is white. The walls are white, the floor covered by a carpet that absorbs footsteps, and there is a muffled quality to the air; one cannot tell if this is an exhibition space or one of those transitional places—corridors, lobbies, waiting rooms—that one passes through without stopping and that lead nowhere.
Black cameras and black screens, held together by an aluminum profile structure, are distributed throughout the room. The cameras continuously film those who enter. Behind the structure, the walls bear cubic shapes painted in black. The black of the devices and the white of the surfaces are the only two things to be seen.
What the cameras record is not broadcast. The images pass through a model that does not retain faces, but rather the way bodies move, and from this produces something else. On each screen appears the section of space where it is located, reconstructed and occupied by figures. These figures are not the visitors. Nor do they reproduce what the visitors did. They do what the visitors could have done.
It is a second space, exactly superimposed on the first, where what unfolds is not what took place but what could have taken place. The movements within it are real: they come from real people who walked into the room one day. But they have detached themselves from those who made them. One recognizes a gait without being able to say to whom it belongs.
The visitor understands they are being filmed before understanding what is being done with the images. They advance into a room occupied only by machinery, and a moment later they find themselves on the screens—displaced, restarted, in the form of a figure acting in their place.
The figures never leave the room. As the hours pass, they accumulate. Each person who enters leaves behind an agent that continues to circulate after their departure, with their way of moving forward and stopping, and that does not go away. The second space fills up while the first empties every evening. No one, on that side, ever finds the exit.
The title names those who look and that which looks. The visitors look at the screens, the cameras look at the visitors, the model looks to manufacture the figures. At no point do we know which of these two spaces is the double of the other.
–
IP cameras distributed throughout the room continuously feed a computer vision pipeline. The streams (FFmpeg/GStreamer) are calibrated within a common 3D coordinate system using OpenCV. For each frame: multi-person detection and tracking (YOLOv11, ByteTrack), inter-camera re-identification, followed by parametric body pose estimation (4D-Humans/SMPL). The frames are processed on the fly and discarded: only motion data remains, with no faces or recordings preserved.
These sequences feed into V-JEPA 2 (Meta), a world model operating in latent space. A specifically trained motion decoder transforms its predictions into trajectories: not what the visitors actually did, but what they could have done. Each person who enters generates a persistent agent, stored in a database and endowed with their own distinct behavior.
A digital twin of the room (USD) is simulated within NVIDIA Omniverse and rendered locally; the agents are animated inside it, accumulating without ever leaving the space. Each screen corresponds to a virtual camera positioned at the exact coordinates of the physical screen: it displays the very place in which it is located.