Qu’est-ce que la biométrie vocale (voice biometrics) ?

Table des matières

Biométrie vocale - définition
Rôle de la biométrie vocale dans l’anonymisation vidéo et photo
Technologies et architectures utilisées en biométrie vocale
Paramètres clés et métriques en biométrie vocale
Défis et limites
Exemples d’application dans l’anonymisation
Références normatives et sources

Biométrie vocale - définition

La biométrie vocale (voice biometrics) regroupe un ensemble de méthodes d’identification ou de vérification d’identité fondées sur les caractéristiques de la parole et l’acoustique de la voix. Ces systèmes créent une empreinte vocale du locuteur (par exemple un vecteur de caractéristiques - embedding), puis la comparent à des modèles de référence. Sur le plan juridique, il s’agit de données biométriques lorsqu’elles sont traitées afin d’identifier de manière unique une personne physique. Conformément au RGPD, elles constituent alors une catégorie particulière de données et nécessitent le respect des conditions de l’article 9 ainsi que des mesures de protection renforcées.

Dans le contexte de l’anonymisation de vidéos et de photos, la biométrie vocale concerne la piste audio des fichiers vidéo. Même après le floutage des visages et des plaques d’immatriculation, une personne peut être reconnue à sa voix. C’est pourquoi l’analyse de risque et la conception d’un processus d’anonymisation vidéo doivent prendre en compte le risque potentiel d’identification des locuteurs ainsi que la nécessité de modifier, masquer ou supprimer le son.

Rôle de la biométrie vocale dans l’anonymisation vidéo et photo

Dans la pratique de l’anonymisation multimédia, la biométrie vocale sert de cadre de référence pour estimer le risque de réidentification fondé sur la parole. Il ne s’agit pas de reconnaître des personnes pendant le processus d’anonymisation, mais de comprendre quelles caractéristiques vocales permettent l’identification et quelles transformations réduisent ce risque.

Analyse de risque et AIPD (DPIA) - la voix peut permettre l’identification dans des contenus où les visages sont floutés, en particulier lors de longues interventions ou en présence d’un timbre distinctif. L’AIPD doit intégrer ce risque et les mesures compensatoires.
Détection des segments de parole - identification des portions contenant de la parole afin d’appliquer sélectivement une coupure, une modulation ou un remplacement de la voix.
Diarisation - séparation des locuteurs pour appliquer différents niveaux de modification selon la base légale ou les consentements obtenus.
Validation des effets - après transformation de la voix, il est possible de vérifier si la similarité des embeddings avec des échantillons connus est descendue sous un seuil défini, afin d’étayer la réduction de l’identifiabilité.

Gallio PRO automatise le floutage des visages et des plaques d’immatriculation en mode hors ligne et on-premise. Le logiciel ne réalise ni reconnaissance vocale ni anonymisation audio. Si un masquage de la voix est nécessaire, des outils et processus distincts doivent être utilisés, et leurs résultats documentés dans l’AIPD.

Technologies et architectures utilisées en biométrie vocale

Les systèmes modernes de reconnaissance vocale biométrique reposent principalement sur l’apprentissage profond, qui produit des représentations compactes de la voix, robustes au bruit et aux variations de canal. Voici les principaux composants et leur rôle dans l’évaluation des risques et la sanitisation audio.

Extraction de caractéristiques - MFCC classiques et embeddings profonds tels que les x-vectors et ECAPA-TDNN, entraînés sur de vastes corpus vocaux diversifiés.
Vérification et identification du locuteur - comparaison des embeddings à l’aide de mesures cosinus ou de classificateurs PLDA. En anonymisation, ces méthodes servent à évaluer la « liabilité » avant et après modification de la voix.
Diarisation - segmentation par locuteur utilisant la VAD, des embeddings et des techniques de clustering (par exemple spectral), permettant un traitement audio sélectif.
Détection des attaques par présentation (PAD) - mécanismes identifiant la lecture d’enregistrements ou la synthèse vocale, essentiels pour évaluer les risques d’abus.

Si une vidéo floutée contient encore une piste audio, il est courant de détecter la parole puis de la modifier (par exemple via voice conversion ou pitch shifting) ou de supprimer totalement la piste lorsque le principe de minimisation des données l’exige.

Paramètres clés et métriques en biométrie vocale

L’efficacité et la sécurité des systèmes de biométrie vocale sont évaluées à l’aide de métriques normalisées. En anonymisation, elles servent principalement à mesurer le risque de réidentification du locuteur après transformation audio.

Métrique	Définition	Unité	Importance pour l’anonymisation
EER	Equal Error Rate - point où le taux de fausses acceptations est égal au taux de faux rejets	%	Plus il est élevé après modification audio, plus la différenciation des locuteurs diminue
FMR / FNMR	False Match Rate et False Non-Match Rate selon ISO/IEC 19795-1	%	Contrôle du seuil de similarité des embeddings avant et après transformation
minDCF	Minimal Detection Cost Function selon les protocoles NIST SRE	Sans unité	Coût agrégé des erreurs - utile pour comparer les méthodes de modification
DER	Diarization Error Rate - somme des omissions, fausses alarmes et erreurs d’attribution divisée par le temps total de parole	%	Évaluation de la qualité de séparation des locuteurs pour un traitement sélectif
Latence	Temps de traitement par minute d’audio selon une configuration donnée	ms ou x temps réel	Planification de l’anonymisation par lots de vidéos

En pratique, les canaux téléphoniques utilisent souvent un échantillonnage à 8 kHz, tandis que les enregistrements micro utilisent 16 kHz ou plus. Ce choix influence les caractéristiques et modèles employés et doit être cohérent avec le protocole d’évaluation adopté.

Défis et limites

Les déploiements impliquant la reconnaissance vocale biométrique comportent des risques techniques et juridiques. En matière d’anonymisation, ils doivent être identifiés et documentés afin de justifier les mesures adoptées.

Décalage de domaine - les changements de canal, conditions acoustiques et bruit affectent la comparabilité des embeddings, à intégrer dans l’analyse de risque.
Attaques par présentation - lectures et synthèses vocales nécessitent des mécanismes PAD conformes à la norme ISO/IEC 30107.
Protection des gabarits biométriques - ISO/IEC 24745 traite de la protection des informations biométriques, y compris la limitation de la liabilité et du risque de reconstruction des données.
Base légale - le traitement de la voix à des fins d’identification unique peut relever de l’article 9 du RGPD et requiert une base juridique appropriée ainsi que, selon le risque, une AIPD.
Documentation et journaux - les systèmes de traitement vidéo doivent limiter la portée des logs. Gallio PRO ne conserve pas de journaux relatifs à la détection des visages et des plaques ni de données sensibles.

Exemples d’application dans l’anonymisation

Dans les institutions publiant des vidéos incluant des particuliers, la gestion du risque d’identification par la voix fait partie intégrante de la politique de confidentialité. Voici un schéma d’actions à envisager :

Extraction des pistes contenant de la parole et classification des scènes selon le risque d’identification.
Choix de la mesure - suppression totale, masquage partiel ou transformation du timbre, justifiés par les principes de proportionnalité et de minimisation des données.
Évaluation - comparaison des embeddings avant et après transformation afin de démontrer une baisse de similarité sous un seuil défini.
Intégration au pipeline - Gallio PRO assure le floutage des visages et plaques en mode on-premise et hors ligne, tandis que le traitement audio est réalisé via un outil distinct.

Références normatives et sources

Les documents suivants définissent les termes, métriques et exigences applicables aux données biométriques et à l’évaluation des systèmes de reconnaissance du locuteur :

Règlement (UE) 2016/679 (RGPD) - art. 4 point 14, art. 9 et considérant 51. Texte : EUR-Lex.
Comité européen de la protection des données, Lignes directrices 3/2019 sur le traitement des données personnelles par les dispositifs vidéo (version 2.0, 29.01.2020). EDPB.
ISO/IEC 19795-1:2021 - Biometric performance testing and reporting - Part 1: Principles and framework.
ISO/IEC 24745:2022 - Information security - Biometric information protection.
ISO/IEC 30107-3:2017 - Biometric presentation attack detection - Part 3: Testing and reporting.
NIST - Speaker Recognition Evaluations (SRE) : protocoles, métriques minDCF et EER. nist.gov.
D. Snyder et al., “X-vectors: Robust DNN embeddings for speaker recognition”, ICASSP 2018.
B. Desplanques et al., “ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation”, Interspeech 2020.

Voir aussi

Retour au glossaire