Qu’est-ce que la diarisation des locuteurs (Speaker Diarization) ?

Diarisation des locuteurs : définition

La diarisation des locuteurs, ou Speaker Diarization, est le processus de découpage automatique d’un enregistrement audio en segments attribués aux différentes personnes qui parlent. En pratique, elle répond à la question : « qui a parlé, et à quel moment ? », sans qu’il soit nécessaire d’établir l’identité de cette personne par son nom et prénom. Il s’agit d’une distinction importante sur le plan technique et juridique. La diarisation n’est pas la même chose que la speaker recognition ni que la speaker identification. La reconnaissance du locuteur sert à relier une voix à une personne précise ou à un modèle biométrique, tandis que la diarisation regroupe les segments de parole selon la similarité vocale à l’intérieur d’un même enregistrement.

Dans le contexte de l’anonymisation des enregistrements audio et vidéo, la diarisation des locuteurs est une technique d’appui. À elle seule, elle n’anonymise ni l’image ni le son, mais elle permet d’indiquer avec précision les passages dans lesquels une personne déterminée s’exprime. Il devient ainsi possible d’appliquer de manière sélective une coupure audio, une modification de la voix, la suppression de la piste sonore ou de combiner le résultat avec une analyse de l’image, par exemple avec le floutage automatique du visage de la personne qui parle sur une plage temporelle donnée. Dans les systèmes de traitement de pièces probantes, d’images de vidéosurveillance, d’entretiens, d’auditions ou de contenus de formation, la diarisation renforce le contrôle sur le périmètre de l’anonymisation et limite le risque de traitement excessif des données.

Dans la littérature spécialisée et les benchmarks du secteur, la diarization est développée et évaluée notamment par le NIST dans le cadre de la série Rich Transcription et des évaluations ultérieures de la parole, ainsi qu’aujourd’hui dans des benchmarks académiques ouverts. La métrique de qualité la plus utilisée est le DER (Diarization Error Rate). Dans sa forme classique, elle comprend les erreurs d’attribution du locuteur, les omissions de parole et les faux positifs. Les définitions et procédures d’évaluation sont décrites notamment par le NIST ainsi que dans des outils de référence tels que pyannote.metrics et dscore, qui s’appuient sur des pratiques d’évaluation établies.

Rôle de la diarisation des locuteurs dans l’anonymisation des enregistrements audio et vidéo

Dans le domaine de la protection des données, la diarisation est pertinente lorsque le contenu comporte les interventions de plusieurs personnes et que l’anonymisation ne doit pas porter sur l’intégralité de l’enregistrement. Cela concerne en particulier les entretiens, les enregistrements issus de caméras-piétons, les réunions enregistrées, les supports de formation et la documentation d’incidents. La simple détection des visages ne suffit pas si l’identification d’une personne peut également résulter de sa voix.

Du point de vue du traitement pratique des contenus multimédias, la diarisation prend notamment en charge les opérations suivantes :

  • découpage de la piste audio en segments attribués à différents locuteurs,
  • mise en relation de l’activité vocale avec la ligne temporelle d’un enregistrement vidéo,
  • coupure sélective ou modification de la voix d’un locuteur donné,
  • facilitation de la vérification manuelle lorsque l’anonymisation automatique doit être limitée à certains passages,
  • réduction du volume de données soumises à un traitement ultérieur.

Dans le contexte de Gallio PRO, il convient d’ajouter une limite fonctionnelle importante. Le logiciel floute automatiquement les visages et les plaques d’immatriculation sur les photos et les vidéos. Il n’effectue pas d’anonymisation automatique de la voix, ne réalise pas d’anonymisation en temps réel et ne traite pas de flux vidéo en mode live. Par conséquent, la diarisation des locuteurs n’y est pas comprise comme une fonction native de masquage audio automatique, mais comme une notion importante dans le cadre plus large d’un traitement conforme des contenus audio-vidéo, dans lequel certaines opérations peuvent nécessiter des outils distincts ou des interventions manuelles.

Comment fonctionne la diarisation des locuteurs : étapes et technologies

La diarisation moderne repose généralement sur plusieurs étapes de traitement du signal. Dans les systèmes plus anciens, les modèles GMM et les i-vecteurs dominaient. Dans les solutions plus récentes, on utilise des embeddings de locuteur générés par des réseaux profonds, par exemple les x-vectors, ECAPA-TDNN ou des modèles end-to-end. Le deep learning constitue aujourd’hui l’approche dominante, notamment lorsque l’objectif est de distinguer de manière stable les locuteurs en environnement bruyant, en présence de chevauchement de parole et de qualité d’enregistrement variable.

Le pipeline technique type comprend :

  1. VAD - Voice Activity Detection, c’est-à-dire la détection des segments contenant de la parole.
  2. Segmentation - découpage de la parole en fragments analytiques plus courts.
  3. Extraction de caractéristiques ou d’embeddings de locuteur.
  4. Clustering - regroupement des segments appartenant au même locuteur.
  5. Re-segmentation et lissage des frontières temporelles.
  6. En option - gestion du chevauchement de parole (overlapping speech), c’est-à-dire des situations où plusieurs personnes parlent en même temps.

Dans les enregistrements vidéo, une approche audiovisuelle est de plus en plus souvent utilisée. Elle consiste à combiner le signal audio avec la détection des visages, le suivi des visages d’une image à l’autre et l’estimation du mouvement des lèvres. Cette combinaison peut améliorer l’attribution de la parole à la personne visible à l’écran, mais elle exige une synchronisation temporelle rigoureuse et une bonne qualité des données d’entrée.

Paramètres clés et métriques de la diarisation des locuteurs

L’évaluation de la qualité de la diarisation doit reposer sur des métriques reproductibles et méthodologiquement documentées. La plus importante est le DER, mais une simple valeur en pourcentage, sans description des conditions de test, peut être trompeuse. Le résultat dépend notamment du fait qu’un collar ait été autorisé aux frontières des segments, que la parole chevauchante ait été prise en compte et de la manière dont les erreurs d’attribution ont été calculées.

Paramètre / métrique

Signification

Remarques pratiques

 

DER - Diarization Error Rate

Erreur globale de diarisation

Inclut les omissions, les faux positifs et les confusions

JER - Jaccard Error Rate

Erreur fondée sur le recouvrement des segments

Utilisée en complément, elle reflète mieux la qualité des attributions entre locuteurs

Latency

Latence de traitement

Importante pour le traitement en flux ou de grands volumes, bien que cela ne concerne pas le temps réel dans Gallio PRO

Overlap handling

Gestion de la parole chevauchante

Critique pour les réunions et les entretiens de groupe

Speaker count error

Erreur sur le nombre de locuteurs détectés

Influe sur la qualité de l’anonymisation ultérieure

De manière simplifiée, on peut écrire :

DER = E_miss + E_fa + E_conf

E_miss désigne la parole omise, E_fa la parole détectée à tort et E_conf la mauvaise attribution d’un segment à un locuteur. Cette formulation correspond à la manière établie de présenter les résultats dans les évaluations du NIST et dans les publications scientifiques.

Défis et limites de la diarisation des locuteurs

La diarisation est une tâche exigeante sur le plan computationnel et sensible à la qualité des données. Dans les usages liés à la protection de la vie privée, il est particulièrement important de noter qu’une diarisation erronée peut conduire soit à une anonymisation incomplète, soit, à l’inverse, à une occultation trop large de contenus qui ne nécessitent pas de protection.

Les limites les plus fréquentes comprennent :

  • le bruit de fond et la réverbération,
  • la parole chevauchante,
  • les interventions courtes et les changements fréquents de locuteur,
  • une forte compression audio,
  • les enregistrements multicanaux et les sources non synchronisées,
  • les différences entre langues, accents et styles de parole.

Du point de vue du DPO et des équipes conformité, cela signifie que la diarisation ne doit pas être considérée comme la preuve d’une anonymisation complète. Il s’agit d’un outil d’assistance. Dans les processus à risque élevé, une validation humaine du résultat est nécessaire, en particulier lorsque le contenu doit être publié ou transmis en dehors de l’organisation.

Références juridiques et normatives

La diarisation des locuteurs n’est pas définie séparément dans le RGPD ni dans les lois sectorielles polonaises. L’importance de cette notion découle de la fonction qu’elle remplit dans le traitement des données personnelles figurant dans des contenus audio-vidéo. Si la voix permet d’identifier une personne, directement ou indirectement, elle peut constituer une donnée à caractère personnel au sens de l’article 4, point 1 du RGPD. Si un système servait à confirmer de manière univoque l’identité sur la base de la voix, il pourrait, dans certaines conditions, relever de la catégorie des données biométriques visée à l’article 4, point 14 du RGPD. La diarisation elle-même ne doit toutefois pas, en principe, conduire à l’identification d’une personne déterminée.

En pratique, il convient de se référer aux principes de l’article 5 du RGPD, en particulier à la minimisation des données, à l’intégrité et à la confidentialité, ainsi qu’à la responsabilité (accountability). Dans une analyse d’impact relative à la protection des données, il est utile de préciser si la diarisation est utilisée uniquement à des fins de segmentation technique ou également pour un profilage ultérieur ou l’identification des locuteurs. Pour les systèmes d’IA, il est aussi important de tenir compte des normes de sécurité de l’information telles que l’ISO/IEC 27001:2022, ainsi que des bonnes pratiques de gestion de la vie privée, comme l’ISO/IEC 27701:2019.

Exemples d’utilisation de la diarisation des locuteurs en pratique

Dans les contenus multimédias, la diarisation est particulièrement pertinente lorsqu’il est nécessaire de distinguer avec précision les personnes présentes dans l’enregistrement. En matière de protection de la vie privée, elle permet de limiter le périmètre du traitement et de mieux documenter le déroulement de l’anonymisation.

  • enregistrements d’auditions ou de conversations - repérage des passages nécessitant le masquage de la voix d’une personne précise,
  • réunions et visioconférences - attribution des interventions aux participants et rédaction sélective du contenu,
  • supports de formation - suppression des interventions de personnes tierces tout en conservant la valeur informative de l’enregistrement,
  • analyse d’incidents - mise en relation de la chronologie de la parole avec celle du floutage des visages ou des plaques d’immatriculation.

Si une organisation utilise Gallio PRO pour l’anonymisation de l’image, la diarisation peut être considérée comme un élément complémentaire du processus pour la couche audio, mis en œuvre en dehors du module lui-même de floutage automatique des visages et des plaques d’immatriculation.