Écritures vocales
Qu’est-ce que cela veut dire que d’écrire avec la voix? Avec un logiciel de reconnaissance vocale la voix se transforme en signe. Ce passage, cette traduction entre l’oralité et l’écriture vient perturber un des fondements de la culture occidentale. Jacques Derrida dans son livre La voix et le phénomène relit Husserl au regard de cette problématique. Qu’est-ce que la voix, cette voix que j’entends en moi, que les autres entendent hors de moi, qu’est-ce que cette voix a à voir avec mon écriture, avec ses mains qui se déplacent sur ce clavier, avec ses mots qui s’affichent l’écran, avec la transformation du langage sur l’ordinateur, avec la fin de l’écriture manuscrite, avec le début de l’écriture à deux mains, avec ces transformations anthropologiques de l’écriture?
Voix transcrite, voix trahie
J’observe le flux de mots apparaître à mesure que je parle. Ma voix, cette vibration organique, devient séquence de caractères. Étrange dédoublement. Quelque chose se perd dans cette transduction, quelque chose que je ne parviens pas à nommer précisément. Une tonalité? Une intention? La texture même de ma pensée?
La reconnaissance vocale s’inscrit pourtant dans une longue histoire des techniques d’inscription de la parole. De l’invention de l’écriture à l’enregistrement phonographique, du magnétophone aux assistants numériques, l’humanité n’a cessé de chercher à capturer cette présence fugace, à retenir ce souffle qui s’échappe. Mais la particularité des systèmes contemporains réside dans leur capacité à opérer une traduction immédiate, à transformer instantanément la parole en texte, court-circuitant l’acte physique d’écriture.
Cette immédiateté trouble. Elle brouille la frontière que la tradition métaphysique occidentale a soigneusement établie entre la parole comme présence et l’écriture comme représentation différée. Derrida a montré comment cette hiérarchisation constituait la matrice même du logocentrisme: la voix, dans la tradition phénoménologique husserlienne, est conçue comme le médium par excellence de l’auto-affection, de la coïncidence du sujet avec lui-même. Lorsque je parle et que je m’entends parler, je produirais une forme de présence pleine, sans écart, sans différance. L’écriture, en revanche, est pensée comme secondaire, comme trace matérielle qui éloigne de cette présence originaire.
La reconnaissance vocale vient troubler ce partage. Elle introduit dans la voix elle-même un principe de médiation technique, d’écart, de différance. Ma parole n’est plus simplement exprimée puis entendue; elle est captée, analysée, décomposée en unités phonétiques, comparée à des modèles statistiques, puis recomposée sous forme textuelle. Entre mon intention et le texte qui s’affiche s’intercale tout un dispositif computationnel qui opère selon des logiques qui me sont étrangères.
Je prononce des mots qui ne sont pas les miens – ou pas entièrement. Les algorithmes de reconnaissance vocale ont été entraînés sur des millions d’heures de parole, ils portent les traces de toutes ces voix antérieures qui ont façonné leurs modèles. Ma propre voix est ainsi indexée à une mémoire collective, à un corpus techniquement constitué qui me précède et me dépasse.
La métamorphose du sujet écrivant
Qu’est-ce qu’écrire avec la voix, à portée de voix, c’est-à-dire qu’est-ce que penser dans cette traduction incessante entre la voix et les signes, entre ce qui s’échappe de ma bouche et quelque chose qui n’est plus fugace, qui est une inscription, qui peut-être ne sera jamais lu par personne, mais qui existera sur un support, un support tel qu’un disque dur.
Cette traduction, ce passage de la voix au signe ne laisse ni l’un ni l’autre intact. On ne parle pas de la même façon lorsqu’on est reconnu par un logiciel. On n’écrit pas les mêmes choses lorsque logiciel vous écoute.
J’observe déjà comment ma propre énonciation se modifie lorsque je dicte à la machine. Je ralentis mon débit, j’articule avec une netteté artificielle, j’évite certaines tournures que je sais problématiques pour l’algorithme. Ma parole se fait déjà écriture avant même d’être transcrite. Je m’adapte au dispositif, je conforme mon expression à ses capacités de reconnaissance. Une disciplinarisation subtile s’opère, presque imperceptible mais bien réelle.
Cette adaptation n’est pas unidirectionnelle. Le logiciel, à son tour, s’ajuste progressivement à mes particularités linguistiques, à mon accent, à mon vocabulaire. Il “apprend” à me reconnaître mieux, établissant une forme de relation singulière qui n’est plus celle d’un simple outil à ma disposition, mais d’un partenaire avec lequel se développe une forme d’intersubjectivité technique.
Ce dispositif reconfigure l’économie même de ma pensée. L’écriture manuelle impliquait une certaine lenteur, une friction matérielle, un corps à corps avec la page qui imposait son rythme propre à l’élaboration conceptuelle. La frappe au clavier a déjà modifié cette temporalité, accélérant le flux, facilitant les retours en arrière, les corrections, les réagencements. La dictée vocale introduit une autre modalité encore, plus proche du flux de conscience, mais aussi plus linéaire, moins propice à la vision synoptique que permet l’écran ou la page.
Je me surprends à penser différemment lorsque je dicte. Des structures syntaxiques que je n’utiliserais pas à l’écrit émergent spontanément. Des associations d’idées inattendues se forment, suivant la logique propre de l’oralité plutôt que celle de l’écriture. Mon style même – ce que j’avais l’habitude de considérer comme l’expression la plus intime de ma singularité intellectuelle – se transforme subtilement. Je ne suis plus tout à fait le même sujet écrivant.
L’entrelacement originel
Cet entrelac entre l’oralité et l’écriture n’est-il pas au cœur de la pensée, de son secret, de cette voix qui est moi et qui n’est pas moi, qui se détache de moi, qui au moment où je la prononce se déplie comme un simulacre, la surface d’une peau, translucide, blanchâtre, à peine perceptible.
Cette question m’obsède. Elle touche à quelque chose de fondamental dans l’expérience que je fais de ma propre pensée. Cette voix intérieure qui m’accompagne constamment, qui articule mes pensées avant même que je ne les exprime, est-elle vraiment une voix? N’est-elle pas déjà une forme d’écriture, un système de différences structuré comme un langage? Et inversement, l’écriture n’a-t-elle pas toujours conservé quelque chose de la voix, une certaine oralité qui persiste même dans le silence de la page?
La tradition métaphysique a voulu maintenir ces deux termes dans une relation d’opposition hiérarchique: la voix comme origine, comme présence pleine; l’écriture comme dérivé, comme représentation seconde. Mais cette opposition se révèle intenable dès qu’on l’examine attentivement. La voix est toujours déjà traversée par l’altérité du langage, par les structures symboliques qui la précèdent et la constituent. L’écriture, quant à elle, conserve toujours une dimension performative, une puissance d’énonciation qui excède sa simple fonction représentative.
Je pense à cette expérience étrange que je fais parfois en lisant un texte: j’entends une voix qui n’est pas la mienne, qui n’est celle de personne en particulier, et pourtant qui se déploie en moi avec une présence presque physique. Cette voix fantomatique qui habite la lecture silencieuse n’appartient ni tout à fait au texte ni tout à fait à moi. Elle émerge dans cet espace intermédiaire, dans cette zone de contact entre ma conscience et les signes inscrits.
La reconnaissance vocale ne fait que rendre plus manifeste cet entrelacement originel de la voix et de l’écriture. Elle matérialise techniquement cette traduction constante qui s’opère entre ces deux modalités, elle objective ce passage qui est peut-être constitutif de la pensée elle-même. Car penser, n’est-ce pas précisément se mouvoir dans cet espace intermédiaire, dans cette zone de traduction permanente entre l’expérience vécue et sa formalisation symbolique?
Les technologies concernent ces écarts, ce ne sont pas des instruments à disposition de notre volonté, des moyens, mais plutôt des dispositifs complexes qui articulent toujours le corps de la technique au corps anthropologique. Il faudrait donc penser les complexes, non pas les choses séparées comme si elles étaient posées les unes à côté des autres, mais comme des relations qui constituent ces objets pensés.
Cette perspective m’apparaît essentielle. Trop souvent, nous concevons les technologies comme de simples outils, comme des moyens neutres que nous utiliserions en vue de fins préalablement définies. Cette conception instrumentale manque l’essentiel: les technologies ne sont pas simplement des choses que nous utilisons, mais des médiations qui transforment à la fois ce qu’elles relient et les termes qu’elles mettent en relation.
La reconnaissance vocale n’est pas un simple canal de transmission entre ma parole et le texte qui s’affiche. Elle reconfigure l’expérience même que je fais de ma propre voix, de mon propre langage. Elle introduit dans ma parole une dimension réflexive nouvelle: je m’entends différemment lorsque je sais que ma voix est non seulement entendue mais aussi analysée, interprétée, transcrite. Une forme d’auto-surveillance s’installe, une conscience aiguë des particularités de mon élocution, de mon accent, de mes habitudes linguistiques.
Je me souviens de ma surprise la première fois que j’ai utilisé un logiciel de reconnaissance vocale avancé. Ce n’était pas tant l’efficacité technique qui m’avait frappé que cette sensation étrange de dédoublement, comme si une partie de moi-même s’était détachée pour m’observer, m’écouter, me traduire. J’avais l’impression d’être simultanément sujet et objet de ma propre énonciation, de me tenir des deux côtés à la fois de cette interface homme-machine.
Cette expérience me semble révélatrice de ce que Simondon appelait le “mode d’existence des objets techniques”: ni simples outils ni entités autonomes, mais relations constitutives qui font émerger simultanément le sujet humain et l’objet technique dans leur coappartenance. La technique n’est pas quelque chose qui s’ajoute à une humanité déjà constituée; elle est ce par quoi l’humanité se constitue, ce à travers quoi elle se rapporte à elle-même et au monde.
Reconnaissance et différance
Et cette genèse est aussi celle de ce que nous nommons le sujet. C’est-à-dire la voix qui énonce, qui prononce, qui peut s’écrire, donc s’inscrire par un logiciel de reconnaissance vocale. La reconnaissance n’est pas une représentation exacte ou adéquate. La reconnaissance vient troubler le référent par une boucle, un feed-back permanent où la cause devient l’effet et où le fait devient la cause selon un flux et un reflux incessant. C’est en rentrant dans cette incapacité à distinguer ce qui est de pourrait être que la pensée peut débuter, qu’elle peut commencer à devenir sensible à elle.
Cette dernière idée me semble cruciale. La reconnaissance – qu’il s’agisse de reconnaissance vocale technique ou de reconnaissance intersubjective au sens hégélien – n’est jamais simple identification, reproduction à l’identique. Elle est toujours transformation, altération, différance (au sens derridien). Être reconnu, c’est à la fois être confirmé dans son identité et être transformé par cette confirmation même.
L’algorithme de reconnaissance vocale ne se contente pas d’enregistrer passivement ma parole; il l’interprète activement, il la reconstruit selon ses propres catégories, ses propres modèles. Entre ce que je dis et ce qui s’inscrit s’instaure un écart, une différence qui n’est pas simple erreur ou imperfection technique, mais condition même de possibilité de toute reconnaissance.
Cette boucle de rétroaction qu’évoque le texte me fait penser aux travaux de Gregory Bateson sur la cybernétique et les processus d’apprentissage. La pensée émerge précisément de ces boucles récursives, de ces circuits d’information où l’effet revient modifier la cause, où l’output devient input dans un processus sans origine ni fin définitive. La conscience réflexive – cette capacité que nous avons de nous percevoir percevant, de nous penser pensant – n’est peut-être rien d’autre que l’intériorisation de ces boucles de rétroaction.
Je m’observe parfois, lorsque je dicte un texte à mon logiciel de reconnaissance vocale, dans cette étrange posture: je parle, je vois s’inscrire mes paroles, je réagis à cette inscription, je modifie mon élocution en fonction de ce que je vois apparaître, dans un ajustement constant qui n’a ni commencement absolu ni fin définitive. Il y a là quelque chose qui me semble profondément révélateur du fonctionnement même de la conscience et de la pensée.
Car penser, n’est-ce pas précisément habiter cet espace intermédiaire, cette zone d’indétermination où le réel et le possible, le donné et le construit, le moi et le non-moi s’entrelacent indissociablement? N’est-ce pas se mouvoir dans cette incertitude féconde, dans cette indécidabilité qui n’est pas confusion mais ouverture, possibilité même de la création et de la liberté?
Cette “incapacité à distinguer ce qui est de ce qui pourrait être” ne m’apparaît pas comme une limite ou une défaillance, mais comme la condition même d’une pensée vivante, d’une pensée qui ne se contente pas de reproduire le déjà-là mais qui participe activement à l’émergence de nouvelles configurations, de nouvelles possibilités d’existence. La pensée n’est pas représentation passive d’un monde préexistant; elle est intervention active dans le processus même par lequel le monde se constitue et se transforme.
C’est peut-être là le sens profond de cette expérience d’écriture vocale: non pas simplement une nouvelle technique d’inscription parmi d’autres, mais une manière de rendre sensible cette dimension performative et transformative de la pensée, cette participation active au devenir du sens. Une manière de nous rappeler que notre voix n’est jamais simplement la nôtre, qu’elle est toujours déjà traversée par l’altérité, par la technique, par l’histoire, et que c’est précisément dans cet entrelacement complexe que peut émerger quelque chose comme une parole singulière, une écriture qui ne serait ni simple reproduction ni pure création ex nihilo, mais participation active à cette incessante traduction qui constitue peut-être l’essence même du langage et de la pensée.
(Texte réalisé sous reconnaissance vocale)