fil-educavox-color1

Sous prétexte d’amélioration, une nouvelle vague d’outils d’analyse vocale débarque dans nos entreprises et pourrait se voir déployée dans de multiples secteurs. L'école en est un qui peut inquiéter. Derrière la promesse, une autre réalité s’esquisse : celle d’un monde sous surveillance affective.

" Votre appel peut être enregistré à des fins de formation."

On connaît tous cette phrase. Mais ce que l’on ignore souvent, c’est qu’elle cache une petite révolution. 

Ou plutôt une infiltration. 

Derrière l’enregistrement, une analyse. Derrière l’analyse, une interprétation. Et derrière l’interprétation, une intention. Le « speech analytics », cette technologie qui analyse les voix pour détecter stress, doute, fatigue ou enthousiasme, n’est plus réservé aux centres d’appels externalisés. Elle entre aujourd’hui dans nos services internes, nos interactions quotidiennes, nos évaluations de performance. Et avec elle, un management  et autres qui croient avoir trouvé l’outil ultime. Plus de données. Plus de traçabilité. Plus d’objectivité. Mais surtout plus de calculs hors contexte.

Alors, plus d’objectivité, vraiment ?

Ces outils ne se contentent plus d’évaluer la qualité d’un appel. Ils attribuent des scores. Ils génèrent des alertes. Et demain, peut-être, recommanderont desévaluation complémentaires aux seules maitrise des connaissance, sanctions ou des promotions. L’analyse de la parole devient de fait potentiellement analyse de la personne. En faire une base de pilotage, c’est transformer l’humain en variable biométrique.

Une intrusion inédite dans l’intimité

La voix n’est pas un indicateur de performance, c’est une empreinte. Ce que dit une voix ne se limite pas aux mots. Elle vibre, elle tremble, elle hésite. Elle porte nos journées, nos émotions, nos doutes. La traiter comme un signal standardisé, c’est oublier que chaque inflexion est une histoire. Une intonation jugée “inappropriée” ? Alerte. Un rythme trop lent ? Risque de désengagement. Un ton trop vif ? Possible tension.

Les autorités françaises comme européennes (CNIL, Comité européen de la protection des données) l’ont bien compris, qui considèrent la voix comme une donnée hautement sensible. Elle permet non seulement d’identifier un individu, enfants compris, mais aussi d’inférer son état émotionnel ou sa santé mentale. Son traitement est donc strictement encadré par le RGPD (et bientôt par l’AI Act) : il est interdit par défaut, sauf consentement libre et éclairé.

Mais que signifie “libre” quand un outil est imposé par la hiérarchie ? Peut-on vraiment se mobiliser pour dire... non ? Peut-on contester son évaluation ? Comprendre ce que l’algorithme a “entendu” ? Le consentement n’est et ne doit pas devenir une case à cocher. C’est un droit fondamental. Et c’est ce droit que ces dispositifs fragilisent.

Ce débat n’est pas nouveau. Il a surgi lorsque l’on a découvert que des écoutes humaines avaient lieu pour améliorer Alexa ou Siri, sans information préalable claire. Plus grave : nombre d’outils activent, sans intervention consciente de l’utilisateur, des enregistrements de sons ou d’images — parfois quelques secondes avant toute commande volontaire. Ce n’est donc plus seulement l’acte d’appeler qui est écouté. C’est la vie environnante.

Des effets réels, documentés, sur le climat social.

De nombreuses études internationales pointent les risques : stress accru chez les personnes sous écoute permanente, appauvrissement des échanges spontanés par auto-censure, rupture du lien de confiance entre scolaires  et profs, biais algorithmiques pénalisant les accents, les voix féminines ou les expressions culturelles, déshumanisation du travail, remplacé par des indicateurs de performance vocaux. Un mot mal interprété. Un ton jugé “non conforme”. Une blague perçue comme agressive. Et voilà un écolier potentiellement convoqué.

Rappelons-le haut et fort : la machine ne sait pas lire le second degré. Elle ne connaît pas le contexte. Elle ne comprend pas le rapport à l’autre. Elle corrèle des signaux, sans capter ni l’intention ni la réalité. Le vrai danger n’est pas technologique. Il est lié aux porteurs du pouvoir d'évaluation.

Sous couvert d'objectivité, une tentation dangereuse peut se faire jour. “Ce n’est pas moi, c’est l’algorithme.” L’excuse parfaite pour désincarner l’autorité, pour masquer des décisions sous le vernis technique, pour faire taire les voix dissonantes sans assumer.

Un glissement d’autant plus insidieux que d'autres biais techniques s’y ajoutent :

  • Compression numérique,
  • Filtrage des fréquences vocales par les microphones,
  • Altération du timbre par le traitement des appels téléphoniques (RTC ou VoIP).

Au bout du fil, nous n’entendons plus exactement la voix réelle, mais une voix transformée. Le non-verbal disparaît progressivement derrière des filtres techniques. 

La spontanéité aussi.

Face à un service défaillant, l’agacement d’un citoyen est souvent légitime. Mais comment lui ou ses parents peuvent ils y répondre quand toute variation de ton risque d’être mal interprétée par un outil qui ne comprend ni l’exaspération contextuelle, ni l’humour, ni l’effort d’empathie ? 

La voix n’est qu’un début

Le risque ne se limite pas aux outils de speech analytics. Il s'étend à l'ensemble des contenus produits dans nos vies numériques. De nombreux algorithmes captent, interprètent et transforment sans toujours en informer clairement l’utilisateur. Ainsi, Apple, par défaut, ne prend pas uniquement des photos lorsque l’on appuie sur l'obturateur de l'iPhone : il capture un court enregistrement vidéo (Live Photo), comprenant quelques secondes avants et après l'instant choisi (Apple Support, 2023). Cette pratique est présentée comme une fonctionnalité créative, mais elle illustre comment l'extension passive de la captation devient systématique.


Plus largement, dans de nombreuses applications comme les réseaux sociaux et autres sites de « dating » et les réseaux sociaux, les contenus visuels, textuels et sonores sont analysés, notés, compressés ou recadrés par des IA sans que l'utilisateur ne maîtrise pleinement les règles d'interprétation. 

Des e-mails sous contrôle (détection automatique de ton "inapproprié" dans certaines suites collaboratives aux visages (reconnaissance émotionnelle sur caméras connectées  ou encore aux déplacements (analyse prédictive de mobilité par des outils de gestion d’espace de travail), on voit bien les risques de dérives.

La voix, l’image, le geste, l’écrit : toute production humaine devient matière à contrôle et calcul.

C’est tout notre environnement numérique quotidien qui se transforme en espace d’évaluation permanente, où les signaux faibles sont extraits, interprétés et potentiellement retournés contre nous — sans dialogue sur ce qui est réellement mesuré.

Et demain ?

Pour l'instant on pourrait dire "tu délires cela ne peut arriver". Mais la culture numérique doit plus que jamais donner lieu à apprentissage. Pour que nos enfants apprennent à décoder. Le futur n'est pas écrit. 

Sera-t-on écouté partout pour des raisons de suivi global de toute la population ?. La Chine comme la Russie testent déjà ce genre d'outils.   Sera-t-on sujet à surveillance multiformes ? Sera-t-on noté sur nos discussions au comptoir ?

Accepterons-nous que nos échanges de tout type soient évalués a priori par défaut, plutôt qu’à l’occasion d’un besoin identifié a posteriori ?

Le risque n’est pas simplement celui d’une évaluation plus ou moins injuste.

C’est celui d’un contrôle social progressif. Celui d’une société où chaque inflexion, chaque silence, chaque soupir pourrait être interprété, évalué, catalogué.

Les outils d’analyse vocale – comme bien d’autres technologies d’IA embarquées – ne sont ni bons ni mauvais par nature. Mais il ne faudrait pas croire qu’ils sont neutres. Ils sont le fruit de décisions d’investissement, dans un contexte socio-économique donné.

S’ils peuvent aider à repérer risques psychosociaux  naissant, identifier des besoins de complément de formation ou soutenir la qualité de service, ils ne peuvent être déployés sans conditions.

Cela suppose :

  • Une transparence absolue sur les critères d’analyse et leurs usages,
  • Une gesion humaine systématique des alertes avant toute décision,
  • Une interdiction ferme d’utiliser les scores vocaux à des fins de sanction,
  • Et surtout, un droit fondamental à l’erreur, à la parole imparfaite, à l’émotion non standardisée. 

Chaque technologie est un miroir.

Elle nous dit ce que nous croyons être. Elle montre ce que nous sommes prêts à tolérer. Elle révèle ce que nous voulons devenir. Si nous acceptons que nos émotions soient scorées, notre spontanéité contrôlée, et notre voix utilisée contre nous, alors ce n’est pas seulement la vie privée qui s’efface.

C’est notre capacité collective à penser, à douter, à parler, ensemble.

Si nous laissons l’IA parler à notre place, bientôt, même notre voix intérieure finira par baisser le ton.
 
Nos enfants comme leurs parents doivent le comprendre. Et ce n'est pas une option. 

Sources principales 

Thierry TABOY (co fondateur Educavox, membre du CA Impact AI)

Sébastien Crozier, président CFE/CGC Orange  

Sources

Hubert Guillaud 2024, "Bloomberg 2019", "Guardian 2019", "CNIL 2020", "Cisco Whitepaper", "Journal of Voice 2020", "Atlas of AI, 2021", "Rapport IA et travail 2022". Shoshana Zuboff, The Age of Surveillance Capitalism ; Conseil de l’Europe, rapport sur l’IA au travail, 2022), Apple Support : About Live Photos, 2023 (lien officiel), CNIL : La captation passive et les enjeux de transparence, Rapport IA 2021, Microsoft Research : Understanding workplace analytics and digital surveillance, 2021, European Union Agency for Fundamental Rights : Facial recognition and biometric analysis risks, 2022, AI Act (article 54), 2024.

Dernière modification le vendredi, 08 août 2025
An@é

L’association An@é, fondée en 1996, à l’initiative de la création d’Educavox en 2010, en assure de manière bénévole la veille et la ligne éditoriale, publie articles et reportages, crée des événements, valorise les innovations, alimente des débats avec les différents acteurs de l’éducation sur l’évolution des pratiques éducatives, sociales et culturelles à l’ère du numérique. Educavox est un média contributif. Nous contacter.