Le montage sans tournage

La révolution que constitue l’intelligence artificielle dans le domaine des images mouvantes ne saurait être réduite à une simple évolution technologique. Elle opère un bouleversement ontologique qui touche aux fondements mêmes de notre rapport à l’image, à sa production et à sa réception. Le montage, pierre angulaire du cinéma traditionnel, se trouve particulièrement affecté par cette mutation profonde.

La fin de la capture indicielle

Le tournage cinématographique traditionnel reposait sur un principe fondamental : celui de la capture indicielle. La caméra, dans sa dimension mécanique et optique, était considérée comme un dispositif d’enregistrement du réel. Cette conception, héritée de la photographie, s’appuyait sur l’idée que la lumière, en impressionnant la pellicule, transportait avec elle une trace physique du monde. Cette relation causale entre le référent et son image constituait l’indice selon la terminologie peircienne.

Cette capture indicielle a longtemps nourri une certaine mythologie du cinéma comme accès privilégié au réel. Des cinéastes comme Rossellini, Bazin et plus tard le mouvement dogme, ont fait de cette prétendue transparence de l’image filmique une véritable éthique de la création. Le tournage était investi d’une mission quasi sacrée : celle de capturer la vérité lumineuse du monde, comme si l’objectif pouvait, par quelque tour de passe-passe, nous donner accès à une réalité immédiate.

Mais cette conception, déjà largement critiquée par les théoriciens du cinéma, s’effondre définitivement avec l’avènement des médias génératifs. Car désormais, l’image n’est plus nécessairement le résultat d’une capture du réel préexistant mais peut être le produit d’une génération algorithmique autonome.

L’IA générative bouleverse radicalement cette relation indicielle. Les images produites par les modèles comme DALL-E, Midjourney ou Stable Diffusion ne proviennent pas d’une captation du monde mais d’une exploration d’espaces latents, de distributions probabilistes apprises sur d’immenses corpus d’images. Ces systèmes ne “voient” pas le monde ; ils en produisent des simulations à partir de représentations statistiques abstraites.

Ce changement paradigmatique marque la fin de ce que nous pourrions appeler l’ère de la captation pour inaugurer celle de la génération. La réalité n’est plus ce qui est saisi par l’objectif pour être ensuite recomposé au montage, mais une potentialité qui peut être actualisée de multiples façons par les algorithmes. Nous passons d’un régime de la trace à un régime du possible.

Le montage comme différance

Dans le cinéma traditionnel, tournage et montage constituaient deux phases distinctes et séquentielles de la production. Le tournage précédait nécessairement le montage, qui venait recomposer les fragments capturés pour construire une temporalité et une spatialité nouvelles. Cette séparation était non seulement technique mais aussi conceptuelle : elle instituait une hiérarchie entre la capture du réel et sa recomposition.

Avec l’IA générative, cette distinction s’estompe jusqu’à disparaître. La génération d’images n’est plus un acte initial de captation suivi d’une recomposition ultérieure, mais un processus continu de transformation et d’actualisation. Il n’y a plus de hiatus temporel entre la production des images et leur organisation, mais un flux ininterrompu de tra(ns)ductions, pour reprendre le concept proposé.

Cette notion de tra(ns)duction est particulièrement féconde pour comprendre ce qui se joue dans les nouveaux processus créatifs impliquant l’IA. Elle suggère à la fois la traduction (passage d’un système de signes à un autre) et la transduction (transformation d’une énergie en une autre). Les images générées par IA sont précisément le résultat de telles opérations : traduction de descriptions textuelles en représentations visuelles, transformation de distributions probabilistes en pixels, conversion d’abstractions mathématiques en formes perceptibles.

Le processus créatif devient alors un parcours à travers différents espaces médiatiques interconnectés. On peut désormais partir d’un texte pour générer une image, puis transformer cette image en d’autres images, les animer, les sonoriser, les accompagner de voix synthétiques clonées à partir d’échantillons réels. Ces passages d’un média à l’autre ne sont plus des opérations distinctes mais des moments d’un même processus continu de métamorphose.

L’autonomie machine comme volonté de puissance

Face à ces bouleversements, certains caressent le rêve d’une machine toute-puissante, capable non seulement de générer des images mais aussi de les organiser de façon autonome et signifiante. C’est la vision d’un dispositif qui prendrait en charge l’intégralité du processus créatif, depuis la conception jusqu’à la réalisation finale, en passant par le “tournage” (ou plutôt la génération) et le montage.

Cette vision s’inscrit dans la continuité des fantasmes de l’automatisation complète de la création artistique. Mais elle reconduit également, sous une forme nouvelle, ce que Nietzsche appelait la volonté de puissance. Car derrière cette aspiration à une machine créatrice autonome se cache le désir de maîtrise totale du processus créatif, la volonté d’instituer un dispositif qui serait la projection de notre propre désir de contrôle.

L’illusion est de croire qu’en confiant la création à la machine, on échapperait à l’anthropomorphisme. Or, les systèmes d’IA actuels sont profondément anthropomorphes dans leur conception même. Ils sont entraînés sur des corpus d’images et de textes produits par des humains, selon des critères esthétiques humains. Le “style” qu’ils produisent n’est jamais qu’une extraction statistique des styles humains sur lesquels ils ont été entraînés.

L’idée d’un “ciné-œil” vertovien désanthropomorphisé par la machine est donc un leurre. Ce que l’on retrouve dans les images générées par IA, ce n’est pas un regard libéré de l’humain, mais une multiplication, une démultiplication vertigineuse des regards humains agrégés par l’algorithme. Ce n’est pas la sortie de l’anthropomorphisme, mais son intensification exponentielle.

L’oubli de la vidéoart

Pour penser véritablement ce que peut être un montage à l’ère de l’IA, il convient de se tourner vers des expérimentations qui ont déjà, à leur manière, brouillé la frontière entre tournage et montage. Le vidéoart des années 70 et 80 constitue à cet égard un précédent crucial, bien que souvent négligé dans les généalogies contemporaines de l’image numérique.

Des artistes comme Nam June Paik, Steina et Woody Vasulka, ou encore Bill Viola, ont exploré les potentialités d’un médium – la vidéo – qui permettait déjà de troubler la différance (au sens derridien) entre enregistrement et diffusion. La vidéo offrait en effet la possibilité d’une quasi-immédiateté entre la captation et la monstration des images. Plus besoin d’attendre le développement chimique du film : les signaux électromagnétiques circulaient en temps réel de la caméra à l’écran.

Cette immédiateté a permis l’émergence de pratiques où le montage n’était plus une opération différée mais pouvait s’effectuer en direct, au moment même de la captation. Le feedback vidéo (où une caméra filme son propre moniteur) créait des boucles autoréférentielles qui transformaient l’image en temps réel. Les synthétiseurs vidéo permettaient de moduler les signaux et d’introduire des effets visuels sans passer par une phase de post-production.

Cette tradition expérimentale préfigure à bien des égards ce qui se joue aujourd’hui avec l’IA générative. Elle a exploré des modalités de création où la distinction entre production et post-production, entre tournage et montage, s’estompait au profit d’un processus continu de transformation du signal. Elle a également inauguré des pratiques où la performance en direct prenait le pas sur la composition différée.

Du montage à l’exploration

La spécificité du montage à l’ère de l’IA ne réside pas tant dans la capacité à générer des images à partir de prompts textuels – ce qui reste finalement une forme de contrôle assez classique – mais dans la possibilité d’explorer des espaces latents multidimensionnels qui contiennent en puissance une infinité d’images.

Les modèles génératifs comme les GAN (Generative Adversarial Networks) ou les diffusion models fonctionnent en apprenant à naviguer dans ces espaces abstraits où chaque point représente une image potentielle. Le montage devient alors une exploration de ces espaces, un parcours à travers ces dimensions latentes qui actualisent certaines possibilités parmi l’infinité de celles qui existent virtuellement.

Cette conception du montage comme exploration s’éloigne radicalement du paradigme cinématographique traditionnel. Il ne s’agit plus d’assembler des fragments préexistants mais de naviguer dans un continuum d’images potentielles. Le monteur n’est plus celui qui coupe et colle, mais celui qui trace des trajectoires dans ces espaces multidimensionnels, qui choisit des points de passage, des zones à explorer.

Ces processus d’exploration peuvent ensuite être traduits en d’autres formes médiatiques. Les images générées peuvent être décrites textuellement, ces descriptions peuvent à leur tour générer d’autres images, ou être converties en voix synthétiques, en musique, en animations. C’est le langage commun du numérique, le code binaire, qui permet cette circulation généralisée d’un média à l’autre.

Cette fluidité médiatique produit une expérience nouvelle pour le créateur lui-même. Il peut être débordé par sa propre production, excédé par l’abondance des variations possibles, incapable de tout voir de ce qu’il a contribué à générer. Cette expérience rejoint celle de l’enfant qui se réjouit de voir émerger quelque chose qui le dépasse, qui n’est pas entièrement le produit de son intention mais semble avoir une forme d’autonomie.

Excéder

Cette nouvelle modalité du montage génératif s’accompagne d’une esthétique particulière, marquée par la surabondance et l’excès. Contrairement au cinéma traditionnel qui, par les contraintes matérielles de la pellicule et du montage physique, imposait une économie des moyens et une parcimonie des images, l’IA générative permet une prolifération potentiellement infinie.

Le rapport quantitatif à l’image s’en trouve profondément modifié. Si le cinéaste traditionnel devait sélectionner parmi un nombre limité de prises, le créateur utilisant l’IA peut générer des milliers de variations d’une même séquence. Cette surabondance modifie le rapport à la sélection : elle n’est plus contrainte par la rareté mais par l’excès.

Cette situation paradoxale où l’on se trouve submergé par sa propre production introduit une dimension nouvelle dans le processus créatif. Le créateur devient en partie spectateur de ce qu’il a contribué à générer, découvrant des aspects inattendus, des configurations qu’il n’avait pas anticipées. L’œuvre déborde l’intention, non pas en raison d’une autonomie créatrice de la machine, mais de la complexité combinatoire qui dépasse les capacités d’anticipation humaines.

Cette joie enfantine évoquée, celle de ne pas pouvoir tout voir de ce qui s’est fait par notre intermédiaire, rappelle l’expérience surréaliste de l’écriture automatique ou du cadavre exquis. Elle témoigne d’un décentrement de l’acte créatif, non plus entièrement maîtrisé par un sujet souverain, mais distribué dans un réseau complexe d’agentivités entremêlées.

Ce nouveau paradigme du montage soulève des questions éthiques spécifiques. Si les images ne sont plus le résultat d’une capture indicielle mais d’une génération algorithmique, quel rapport entretiennent-elles avec la vérité ? Comment distinguer les images qui témoignent d’événements réels de celles qui sont entièrement fabriquées ? Comment maintenir une forme de responsabilité dans la production d’images lorsque celles-ci semblent partiellement échapper à l’intention de leur créateur ?

Ces questions appellent l’élaboration d’une éthique du montage génératif qui prendrait en compte ces nouvelles modalités de production. Cette éthique ne saurait se contenter de reproduire les principes qui valaient pour le cinéma traditionnel, fondés sur l’idée d’une capture fidèle du réel. Elle doit intégrer la dimension générative et exploratoire des nouvelles pratiques.

Une telle éthique pourrait s’articuler autour de la notion de responsabilité distribuée. Le créateur utilisant l’IA n’est pas entièrement maître des images qu’il produit, mais il n’en est pas non plus simplement le spectateur passif. Il est un agent parmi d’autres dans un processus complexe qui implique également les concepteurs des algorithmes, les curateurs des ensembles de données d’entraînement, et les algorithmes eux-mêmes comme actants non-humains.

Le montage à l’ère de l’IA ne constitue pas simplement une évolution technique du montage cinématographique traditionnel mais bien un changement de paradigme. Ce n’est pas tant l’infinité des possibles génératifs qui marque cette rupture que la dissolution de la frontière entre tournage et montage, entre capture et composition.

Cette reconfiguration nous invite à repenser fondamentalement notre rapport aux images en mouvement. Les images ne sont plus les traces indicielles d’un réel préexistant mais les actualisations de potentialités latentes. Le montage n’est plus l’assemblage de fragments capturés mais l’exploration d’espaces multidimensionnels et la traduction constante d’un médium à l’autre.

En nous appuyant sur les expérimentations oubliées du vidéoart, nous pouvons entrevoir un autre destin pour ces images génératives, au-delà de la simple automatisation des procédés cinématographiques traditionnels. Ce destin passe par l’acceptation d’une certaine perte de contrôle, d’un débordement productif qui fait du créateur le témoin étonné de ce qui se fait par son intermédiaire.

Dans cette perspective, le montage devient moins l’expression d’une volonté souveraine que l’exploration collaborative d’un champ de possibles. Il ne s’agit plus de reproduire, sous une forme technologiquement avancée, le modèle du démiurge tout-puissant, mais d’instaurer de nouvelles relations, plus complexes et distribuées, entre l’humain, la machine et les images qu’ils co-produisent.