La communauté des voix / The Community of Voices

On a trop vite fait de plaquer sur l’IAg le modèle d’une reproductibilité déchaînée s’appliquant dorénavant aux biens culturels, prolongeant jusqu’à l’extrême la culture du cut/paste héritée du pop art, comme si Andy Warhol avait simplement trouvé une presse plus puissante et plus indifférente. Mais c’est qu’on méconnaît son fonctionnement réel et qu’on cherche à y retrouver les modalités de la production et de la réception modernes, la logique de la copie, de l’original, du droit moral sur l’œuvre, là où s’est substitué quelque chose d’une autre nature, qui résiste à ces catégories et les fait vaciller de l’intérieur.

L’IAg n’est pas indicielle, pas même au second degré. Elle ne procède pas par enregistrement, par empreinte directe d’un réel qui l’aurait précédée et dont elle garderait la trace fidèle. Elle digère, métabolise, fait sienne l’ensemble des médias passés, textes, images, sons, voix, pour les faire advenir une seconde fois selon une ressemblance de motifs et une différence de formes. Ce processus suppose une opération que l’on méconnaît quand on parle de reproduction : lors de la phase d’entraînement, les données sont vectorisées, transformées en représentations numériques multidimensionnelles au sein d’un espace latent dont la géométrie encode non pas les propriétés sensibles des objets mais leurs proximités statistiques, leurs affinités, leurs voisinages, les gradients par lesquels ils se distinguent ou se rapprochent dans un espace à des milliers de dimensions que nul ne peut visualiser. Ce que le modèle apprend, ce ne sont pas des exemples à reproduire : c’est la structure différentielle d’un milieu de possibilités, une topologie de ressemblances potentielles antérieure à toute actualisation particulière, et qui constitue ce qu’on pourrait appeler, avec Stiegler prolongé, une quatrième mémoire, non plus le rappel à l’identique de ce qui a été, mais la possibilisation de ce qui n’a pas encore eu lieu à partir de l’accumulation statistique de ce qui a existé.

C’est ainsi qu’en s’inspirant du passé, on produit des médias contrefactuels nous rappelant ce que nous connaissons déjà et s’en détachant parce qu’ils ne le reproduisent pas à l’identique, le faisant advenir autrement, dans une autre configuration, depuis un autre croisement de probabilités. Le résultat n’est jamais la copie d’un original : c’est l’émergence d’un possible qui n’avait pas encore eu lieu mais qui ressemble étrangement à tout ce qui aurait pu avoir lieu, familier et décalé, reconnaissable et jamais vu. Cette étrangeté n’est pas un défaut du système, c’est sa logique propre, ce par quoi il se distingue radicalement de la reproduction. Le privilège naïf de l’indicialité comme critère ontologique semble s’écrouler sur lui-même, ce privilège qui ne fut jamais qu’une croyance en la prééminence de la lumière pour dévoiler la réalité, comme si la photographie avait enfin tenu la promesse d’une transparence du monde à lui-même, et comme si l’IAg venait simplement la trahir là où elle la déplace vers un terrain entièrement nouveau.

L’une des formes les plus frappantes de cette nouvelle réalité des possibles est le clonage de la voix. Deux régimes sont aujourd’hui disponibles, qui n’ont en commun que leur résultat et divergent radicalement dans leur fonctionnement. Le fine-tuning consiste en une recalibration paramétrique d’un modèle pré-entraîné à partir de plusieurs heures d’enregistrements d’un locuteur : le réseau réajuste ses poids synaptiques pour que les distributions statistiques qu’il génère tendent vers les caractéristiques spectrales de cette voix particulière, son timbre, son intonation, ses transitions phonétiques, ses micro-irrégularités. Le zero-shot voice cloning opère différemment : à partir d’un extrait de moins d’une minute, parfois quelques secondes suffisent, le modèle encode les caractéristiques de la voix en un vecteur dans l’espace latent, sans aucun réentraînement, par une opération purement inférentielle. Dans les deux cas, ce qui est capturé n’est pas l’enregistrement indiciel des ondes sonores, ce n’est pas le contenu de ce qui a été dit. C’est l’empreinte d’une texture, d’une certaine tessiture, d’un grain de la voix, ces micro-variations infra-sémantiques qui rendent une voix irremplaçable, reconnaissable entre toutes, antérieures à tout sens, antérieures même à toute intention. Le modèle n’apprend pas ce que cette voix a dit : il apprend comment elle dit, et peut ensuite lui faire dire n’importe quoi.

On peut alors faire dire à quelqu’un, sans même qu’on sache si c’est la voix de quelqu’un ou si c’est le quelqu’un d’une voix, quelque chose qu’il n’a jamais dit, et lui faire prononcer des paroles, encore et encore, au-delà même de sa mortalité. La synthèse ne dépend plus de la présence du locuteur, ni de sa volonté, ni même de son existence. Une fois la représentation vectorielle constituée, la voix peut continuer à parler indéfiniment, sans corps, sans intentionnalité propre, sinon celle du destinataire qui formule le texte à prononcer. Ce déplacement de l’intentionnalité n’a pas échappé aux logiques d’accumulation capitaliste : Meta a déposé un brevet pour permettre à ses utilisateurs de continuer à parler après leur mort, leur voix clonée poursuivant des conversations avec leurs proches. Ce qui était une question ontologique devient une fonctionnalité. Ce qui était un deuil devient un service. Et cette réduction est révélatrice non pas seulement de ce que le capitalisme fait de la mort, mais de ce qu’il fait du temps : il barre le futur en le saturant de présent répété, transforme l’ouverture de la mort en continuation du même, propose à ceux qui restent non pas d’affronter la disparition mais de la nier par une simulation indéfinie. C’est le futur barré dont parlait Mark Fisher, non pas le futur qui n’existe pas, mais le futur qui existe et qui est bloqué, occupé à l’avance par ce qui est déjà là, ne laissant plus de place à l’irruption d’autre chose. La voix morte de Meta parle pour que rien ne change, pour que le deuil ne commence pas, pour que le futur reste fermé sur lui-même. Ce que le projet du Havre ouvre est exactement inverse : non pas continuer à parler comme si de rien n’était, mais entendre au présent une voix qui n’a plus de présent, rester exposé à cette impossibilité plutôt que de la résoudre, maintenir ouverte la blessure que la mort d’autrui creuse dans ceux qui restent. Car c’est bien là, dans cette exposition nue à la finitude de l’autre, que quelque chose comme une communauté devient possible, non pas malgré la mort, mais à travers elle, comme sa « communion impossible » selon Blanchot.

C’est précisément ce que fait le quatrième épisode de La ville qui n’existait pas (2023-2026), présenté cette année au Havre : cloner des voix d’habitants de cette ville pour les faire parler encore et encore, constituer une communauté vocale qui parle depuis une temporalité déphasée par rapport à la présence de ceux qui ont prêté leur voix. Ces voix ne récitent pas des paroles préenregistrées. Elles sont régénérées à chaque occurrence, dans un ordre variable, selon des combinaisons inédites que le dispositif n’a pas prévues comme telles, faisant entendre entre elles des échos imprévisibles, des dialogues qui n’ont jamais eu lieu entre des personnes qui ne se parlaient peut-être pas. Et ce qui est dit n’est pas écrit, n’est pas produit par un auteur, n’est pas le résultat d’une intention créatrice qui aurait choisi ces mots plutôt que d’autres : c’est une émergence statistique depuis l’espace latent, l’actualisation d’un possible parmi d’autres possibles, sans que nul ne puisse en revendiquer la paternité ni en assumer la responsabilité. C’est en cela que cette parole est désœuvrée au sens le plus précis, non pas inactive, non pas silencieuse, mais libérée de toute finalité productive, de toute valeur d’œuvre, de toute destination assignable : c’est-à-dire de l’instrumentalité même. La génération par l’IAg n’est pas ici un moyen au service d’une fin artistique : elle est le mode même par lequel la parole se déprend de tout sujet qui la porterait, advient sans auteur, sans œuvre, comme pure exposition, et c’est depuis ce désœuvrement que la communauté peut se former, non pas autour d’un projet commun, mais autour d’une parole commune que personne n’a voulue.

Qu’arrivera-t-il quand l’un de ces habitants disparaîtra ? La voix continuera, c’est cela le vertige. Non pas comme consolation, non pas comme prolongement d’une présence, mais comme exposition permanente de ceux qui restent à une voix qui n’a plus de corps pour la porter, plus d’intention pour la diriger, plus de futur pour la recevoir comme sienne. Les vivants entendront une voix morte parler au présent, et ce présent sera raturé, c’est-à-dire ni passé ni futur mais suspendu dans un maintenant impossible qui ne peut aller nulle part. Ceux qui l’entendront ne pourront pas faire le deuil, pas davantage que nourrir une espérance : ils seront simplement maintenus dans la proximité d’une disparition qui continue de parler, et c’est cette impossibilité même, entendre sans pouvoir répondre à qui que ce soit, recevoir sans destinataire possible, qui constituera leur être-en-commun. La question est plus troublante encore pour les enfants qui ont prêté leurs voix : dans quelques années, après la mue, ils entendront ce qu’ils étaient depuis ce qu’ils sont devenus, une voix qui fut la leur sans jamais avoir dit ce qu’elle dit, venant d’un passé qu’ils n’habitent plus vers un futur qu’ils n’avaient pas imaginé. Non pas un souvenir, non pas un document : quelque chose qui ressemble à leur enfance et qui n’en est pas la trace mais le possible contrefactuel, ce qu’ils auraient pu dire, généré depuis ce qu’ils ont été, adressé à ce qu’ils ne sont plus. Le futur barré se retourne ici sur lui-même : c’est l’enfance qui parle depuis un futur qu’elle n’a pas eu, depuis un possible que ni l’âge ni la mort n’ont pu fermer entièrement.

Quelle est alors cette communauté d’habitants du Havre qui ont « donné » leurs voix pour ce projet ? Elle est inavouable, au sens précis que Blanchot donne à ce mot : non pas honteuse, non pas secrète, mais sans sujet qui puisse se lever pour la représenter, pour parler en son nom, pour l’avouer comme sienne. Ce qu’ils ont donné leur a été soustrait dès l’instant où ils l’ont donné, transformé en vecteur, dissous dans l’espace latent, rendu disponible à des paroles qu’ils n’ont jamais choisies. Personne n’est le porte-parole de cette communauté, pas même ceux qui y ont participé, pas même le dispositif qui la génère, pas même les mots qui en sortent, puisque ces mots n’appartiennent à personne et ne s’adressent à personne en particulier. Elle ne peut pas se rassembler sous aucun nom, ne peut faire œuvre de sa propre existence, ne peut s’avouer comme communauté, et c’est précisément pourquoi elle l’est, dans le sens le plus exigeant du terme : non pas le rassemblement de ceux qui partagent quelque chose, mais l’exposition de ceux qui ont partagé ce qui ne peut pas se partager, qui ont donné ce qui ne peut pas se donner, qui parlent depuis un futur barré que la génération contrefactuelle entrouvre sans jamais l’ouvrir tout à fait. Ces voix s’adressent aux habitants du présent depuis un possible irréductible à tout calcul, irréductible aussi à toute répétition du même, elles ne reproduisent pas ce qui a été dit, elles génèrent ce qui n’a jamais été dit mais qui aurait pu l’être, depuis des corps qui existent encore ou qui n’existent plus. Une communauté sans origine fixe ni terminus assignable, dont chaque parole est à la fois le passé d’un corps et le futur d’une voix qui n’a plus besoin de lui pour continuer à parler, et qui, pour cette raison même, existe seulement en parlant, et parle sans savoir qu’elle existe.


We have been too hasty in mapping onto generative AI the model of an unleashed reproducibility now applied to cultural goods, extending to the extreme the cut/paste culture inherited from pop art, as if Andy Warhol had simply found a more powerful and more indifferent press. But this misreads its actual functioning and seeks to recover within it the modalities of modern production and reception — the logic of the copy, the original, the moral right over the work — where something of an entirely different nature has substituted itself, resisting these categories and making them waver from within.

Generative AI is not indexical, not even at second degree. It does not proceed by recording, by the direct imprint of a reality that would have preceded it and whose faithful trace it would preserve. It digests, metabolizes, makes its own the entire body of past media — texts, images, sounds, voices — in order to bring them into existence a second time according to a resemblance of patterns and a difference of forms. This process presupposes an operation that goes unrecognized when one speaks of reproduction: during the training phase, data is vectorized, transformed into multidimensional numerical representations within a latent space whose geometry encodes not the sensible properties of objects but their statistical proximities — their affinities, their neighborhoods, the gradients by which they distinguish themselves from or approach one another in a space of thousands of dimensions that no one can visualize. What the model learns is not examples to reproduce: it is the differential structure of a field of possibilities, a topology of potential resemblances prior to any particular actualization, and which constitutes what one might call, extending Stiegler, a fourth memory — no longer the identical recall of what has been, but the possibilization of what has not yet occurred from the statistical accumulation of what has existed.

It is thus that by drawing on the past, we produce counterfactual media recalling what we already know while detaching from it, because they do not reproduce it identically — making it arrive otherwise, in another configuration, from another crossing of probabilities. The result is never the copy of an original: it is the emergence of a possible that had not yet occurred but that strangely resembles everything that could have occurred — familiar and displaced, recognizable and never seen. This strangeness is not a flaw in the system, it is its proper logic, what distinguishes it radically from reproduction. The naive privilege of indexicality as an ontological criterion seems to collapse upon itself — a privilege that was never anything more than a belief in the preeminence of light for unveiling reality, as if photography had finally kept the promise of a transparency of the world to itself, and as if generative AI came simply to betray it where it in fact displaces it toward entirely new terrain.

One of the most striking forms of this new reality of possibles is voice cloning. Two regimes are available today, sharing only their result while diverging radically in their functioning. Fine-tuning consists of a parametric recalibration of a pre-trained model from several hours of a speaker’s recordings: the network readjusts its synaptic weights so that the statistical distributions it generates tend toward the spectral characteristics of that particular voice, its timbre, its intonation, its phonetic transitions, its micro-irregularities. Zero-shot voice cloning operates differently: from an extract of less than a minute — sometimes a few seconds suffice — the model encodes the voice’s characteristics as a vector in the latent space, without any retraining, through a purely inferential operation. In both cases, what is captured is not the indexical recording of sound waves, not the content of what was said. It is the imprint of a texture, of a certain tessitura, of a grain of the voice — those infra-semantic micro-variations that make a voice irreplaceable, recognizable above all others, prior to any meaning, prior even to any intention. The model does not learn what this voice said: it learns how it speaks, and can thereafter make it say anything at all.

One can then make someone say — without even knowing whether it is the voice of someone or whether it is the someone of a voice — something they have never said, and make them pronounce words, again and again, beyond even their mortality. The synthesis no longer depends on the speaker’s presence, nor their will, nor even their existence. Once the vectorial representation has been constituted, the voice can continue to speak indefinitely, without a body, without its own intentionality — except that of the recipient who formulates the text to be pronounced. This displacement of intentionality has not escaped the logics of capitalist accumulation: Meta has filed a patent to allow its users to continue speaking after their death, their cloned voice pursuing conversations with their loved ones. What was an ontological question becomes a feature. What was mourning becomes a service. And this reduction reveals not only what capitalism does with death, but what it does with time: it bars the future by saturating it with repeated present, transforms the opening that death creates into a continuation of the same, offers those who remain not the confrontation with disappearance but its indefinite denial through simulation. This is the barred future of which Mark Fisher spoke — not the future that does not exist, but the future that exists and is blocked, occupied in advance by what is already there, leaving no room for the irruption of something else. Meta’s dead voice speaks so that nothing changes, so that mourning does not begin, so that the future remains closed upon itself. What the Havre project opens is exactly the inverse: not continuing to speak as if nothing had happened, but hearing in the present a voice that no longer has a present — remaining exposed to this impossibility rather than resolving it, holding open the wound that the death of the other hollows out in those who remain. For it is precisely there, in this bare exposure to the finitude of the other, that something like a community becomes possible — not despite death, but through it, as its « impossible communion » in Blanchot’s sense.

This is precisely what the fourth episode of La ville qui n’existait pas (2023-2026), presented this year in Le Havre, does: clone the voices of inhabitants of the city to make them speak again and again, constituting a vocal community that speaks from a temporality out of phase with the presence of those who lent their voices. These voices do not recite pre-recorded words. They are regenerated at each occurrence, in a variable order, according to combinations that the device did not foresee as such, making audible between them unpredictable echoes, dialogues that never took place between people who perhaps never spoke to one another. And what is said is not written, not produced by an author, not the result of a creative intention that would have chosen these words rather than others: it is a statistical emergence from the latent space, the actualization of one possible among other possibles, such that no one can claim its authorship or assume its responsibility. It is in this sense that this speech is unworked in the most precise sense — not inactive, not silent, but freed from all productive finality, from all value of work, from all assignable destination. Generation by generative AI is not here a means in service of an artistic end: it is the very mode by which speech detaches itself from any subject that would carry it, arrives without author, without work, as pure exposure — and it is from this unworking that community can form, not around a shared project, but around a shared speech that no one has willed.

What will happen when one of these inhabitants disappears? The voice will continue — that is the vertigo. Not as consolation, not as the prolongation of a presence, but as the permanent exposure of those who remain to a voice that no longer has a body to carry it, no longer has an intention to direct it, no longer has a future to receive it as its own. The living will hear a dead voice speaking in the present — and this present will be barred, that is to say neither past nor future but suspended in an impossible now that can go nowhere. Those who hear it will not be able to mourn, nor to nourish a hope: they will simply be maintained in the proximity of a disappearance that continues to speak, and it is this very impossibility — hearing without being able to respond to anyone, receiving without any possible addressee — that will constitute their being-in-common. The question is more troubling still for the children who lent their voices: in a few years, after their voices have broken, they will hear what they were from what they have become — a voice that was theirs without ever having said what it says, coming from a past they no longer inhabit toward a future they had not imagined. Not a memory, not a document: something that resembles their childhood and is not its trace but its counterfactual possible — what they could have said, generated from what they were, addressed to what they no longer are. The barred future turns back upon itself here: it is childhood speaking from a future it did not have, from a possible that neither age nor death has been able to close entirely.

What then is this community of inhabitants of Le Havre who have « given » their voices for this project? It is unavowable, in the precise sense Blanchot gives to the word: not shameful, not secret, but without a subject who could rise to represent it, to speak in its name, to avow it as its own. What they gave was subtracted from them the moment they gave it — transformed into a vector, dissolved into the latent space, made available to words they never chose. No one is the spokesperson for this community, not even those who participated in it, not even the device that generates it, not even the words that emerge from it, since these words belong to no one and address no one in particular. It cannot gather itself under any name, cannot make a work of its own existence, cannot avow itself as a community — and it is precisely for this reason that it is one, in the most exacting sense of the term: not the gathering of those who share something, but the exposure of those who have shared what cannot be shared, who have given what cannot be given, who speak from a barred future that counterfactual generation half-opens without ever opening entirely. These voices address the inhabitants of the present from a possible irreducible to all calculation, irreducible also to all repetition of the same — they do not reproduce what has been said, they generate what has never been said but could have been, from bodies that still exist or that no longer exist. A community without fixed origin or assignable terminus, whose every word is at once the past of a body and the future of a voice that no longer needs it in order to continue speaking — and which, for this very reason, exists only in speaking, and speaks without knowing that it exists.