Was ist Voice Biometrics?

Inhaltsverzeichnis

Voice Biometrics - Definition
Rolle von Voice Biometrics bei der Video- und Bildanonymisierung
Technologien und Architekturen in Voice Biometrics
Zentrale Parameter und Metriken in Voice Biometrics
Herausforderungen und Einschränkungen
Praxisbeispiele in der Anonymisierung
Normative Referenzen und Quellen

Voice Biometrics - Definition

Voice Biometrics (auch: Sprachbiometrie oder Stimmerkennung) bezeichnet eine Reihe von Verfahren zur Identifizierung oder Verifizierung einer Person anhand individueller Merkmale ihrer Stimme und Sprachakustik. Solche Systeme erstellen ein charakteristisches Sprecherprofil (z. B. einen Merkmalsvektor - ein sogenanntes Embedding) und vergleichen dieses mit Referenzmustern. Rechtlich handelt es sich um biometrische Daten, sofern sie zur eindeutigen Identifizierung einer natürlichen Person verarbeitet werden. Nach der DSGVO zählen sie dann zu den besonderen Kategorien personenbezogener Daten und erfordern die Voraussetzungen nach Art. 9 DSGVO sowie erhöhte Schutzmaßnahmen.

Im Kontext der Video- und Bildanonymisierung betrifft Voice Biometrics insbesondere die Audiospur von Videodateien. Selbst wenn Gesichter und Kfz-Kennzeichen unkenntlich gemacht wurden, kann eine Person anhand ihrer Stimme identifizierbar bleiben. Daher sollten Risikobewertungen und Anonymisierungskonzepte für Videomaterial stets auch die potenzielle Sprecheridentifikation sowie die Notwendigkeit zur Modifikation, Maskierung oder Stummschaltung des Tons berücksichtigen.

Rolle von Voice Biometrics bei der Video- und Bildanonymisierung

In der Praxis der Medienanonymisierung dient Voice Biometrics als Referenzrahmen zur Bewertung des Risikos einer Re-Identifizierung anhand der Stimme. Ziel ist nicht die Sprechererkennung im Anonymisierungsprozess selbst, sondern das Verständnis darüber, welche Stimmmerkmale eine Identifikation ermöglichen und welche Transformationen dieses Risiko wirksam reduzieren.

Risikobewertung und DPIA (Datenschutz-Folgenabschätzung) - Stimmen können auch bei verpixelten Gesichtern eine Identifizierung ermöglichen, insbesondere bei längeren Wortbeiträgen oder markanter Stimmfärbung. Dieses Risiko und geeignete Gegenmaßnahmen sollten in der DPIA dokumentiert werden.
Spracherkennung von Segmenten - Erkennung von Sprachanteilen in der Audiospur, um gezielt Stummschaltung, Modulation oder Stimmveränderung anzuwenden.
Diarisierung - Die Trennung einzelner Sprecher ermöglicht unterschiedliche Anonymisierungsgrade je nach Rechtsgrundlage oder Einwilligung.
Wirksamkeitsvalidierung - Nach einer Stimmtransformation kann geprüft werden, ob die Ähnlichkeit der Embeddings mit bekannten Referenzen unter einen definierten Schwellenwert gefallen ist. Dies unterstützt den Nachweis reduzierter Identifizierbarkeit.

Gallio PRO automatisiert das Verpixeln von Gesichtern und Kfz-Kennzeichen im Offline- und On-Premise-Betrieb. Die Software führt keine Spracherkennung durch und übernimmt keine Audioanonymisierung. Für die Maskierung von Stimmen sind separate Tools und Prozesse erforderlich, deren Ergebnisse im Rahmen der DPIA zu dokumentieren sind.

Technologien und Architekturen in Voice Biometrics

Moderne Voice-Biometrics-Systeme basieren überwiegend auf Deep-Learning-Verfahren, die kompakte und robuste Stimmrepräsentationen erzeugen, selbst bei Rauschen oder Kanalveränderungen. Nachfolgend ein Überblick über zentrale Komponenten und deren Bedeutung für Risikobewertung und Audio-Sanitization.

Merkmalsextraktion - Klassische MFCCs sowie Deep-Embeddings wie x-vectors oder ECAPA-TDNN, trainiert auf großen und vielfältigen Sprachdatensätzen.
Verifikation und Identifikation - Vergleich von Embeddings mittels Kosinus-Ähnlichkeit oder PLDA-Klassifikatoren. In der Anonymisierung dienen diese Methoden der Bewertung der Linkability vor und nach Stimmtransformationen.
Diarisierung - Sprechersegmentierung mithilfe von VAD, Embeddings und Clustering-Verfahren (z. B. spektrales Clustering). Ermöglicht eine selektive Audiobearbeitung.
Präsentationsangriffserkennung (PAD) - Mechanismen zur Erkennung von Wiedergaben oder synthetischer Sprache, relevant bei der Bewertung potenzieller Missbrauchsrisiken.

Wenn ein Video nach der visuellen Anonymisierung weiterhin eine Audiospur enthält, ist es Best Practice, Sprachanteile zu erkennen und gezielt zu verändern (z. B. durch Voice Conversion oder Pitch Shifting) oder die Tonspur vollständig zu entfernen, sofern dies dem Grundsatz der Datenminimierung entspricht.

Zentrale Parameter und Metriken in Voice Biometrics

Die Leistungsfähigkeit und Sicherheit von Sprachbiometrie-Systemen werden anhand standardisierter Metriken bewertet. In der Anonymisierung dienen sie primär der Einschätzung des Re-Identifizierungsrisikos nach Audio-Transformationen.

Metrik	Definition	Einheit	Bedeutung für die Anonymisierung
EER	Equal Error Rate - Punkt, an dem Falschakzeptanzrate und Falschzurückweisungsrate identisch sind	%	Je höher nach der Audiomodifikation, desto geringer die Unterscheidbarkeit von Sprechern
FMR / FNMR	False Match Rate und False Non-Match Rate gemäß ISO/IEC 19795-1	%	Kontrolle des Ähnlichkeitsschwellenwerts von Embeddings vor und nach Transformation
minDCF	Minimal Detection Cost Function gemäß NIST-SRE-Protokollen	einheitslos	Aggregierte Fehlerkosten - geeignet zum Vergleich von Modifikationsmethoden
DER	Diarization Error Rate - Summe aus Auslassungen, Fehlalarmen und Fehlzuordnungen bezogen auf die Gesamtsprachdauer	%	Bewertung der Sprechertrennung für selektive Bearbeitung
Latenz	Verarbeitungszeit pro Audiominute bei definierter Konfiguration	ms oder Echtzeitfaktor	Planung der Batch-Anonymisierung von Videomaterial

In Telefonkanälen ist eine Abtastrate von 8 kHz üblich, bei Mikrofonaufnahmen 16 kHz oder höher. Diese Wahl beeinflusst die Merkmalsextraktion und Modellarchitektur und sollte mit dem verwendeten Evaluationsprotokoll konsistent sein.

Herausforderungen und Einschränkungen

Voice-Biometrics-Anwendungen sind mit technischen und rechtlichen Risiken verbunden. Im Rahmen der Anonymisierung müssen diese identifiziert und dokumentiert werden, um die gewählten Schutzmaßnahmen zu begründen.

Domain-Mismatch - Änderungen im Übertragungskanal, akustische Bedingungen oder Hintergrundgeräusche beeinträchtigen die Vergleichbarkeit von Embeddings und sind bei der Risikobewertung zu berücksichtigen.
Präsentationsangriffe - Wiedergaben und Sprachsynthese erfordern PAD-Mechanismen gemäß ISO/IEC-30107-Normenreihe.
Schutz biometrischer Templates - ISO/IEC 24745 behandelt den Schutz biometrischer Informationen, einschließlich der Begrenzung von Linkability und des Risikos der Rekonstruktion biometrischer Daten.
Rechtsgrundlagen - Die Verarbeitung von Stimmen zur eindeutigen Identifizierung kann eine Verarbeitung besonderer Kategorien personenbezogener Daten gemäß Art. 9 DSGVO darstellen und erfordert eine geeignete Rechtsgrundlage sowie gegebenenfalls eine DPIA.
Dokumentation und Logging - Videosysteme sollten den Umfang von Protokolldaten minimieren. Gallio PRO speichert keine Logs zu Gesichts- oder Kennzeichenerkennung und verarbeitet keine sensiblen Audiodaten.

Praxisbeispiele in der Anonymisierung

Institutionen, die Videomaterial mit Privatpersonen veröffentlichen, sollten das Risiko der Identifikation durch Stimme in ihre Datenschutzstrategie integrieren. Folgendes Vorgehensmodell ist empfehlenswert:

Extraktion sprachhaltiger Audiospuren und Risikoklassifizierung der Szenen.
Auswahl geeigneter Maßnahmen - vollständige Stummschaltung, partielle Maskierung oder Stimmtransformation unter Berücksichtigung von Verhältnismäßigkeit und Datenminimierung.
Evaluation - Vergleich von Embeddings vor und nach der Transformation zur Dokumentation einer reduzierten Ähnlichkeit unterhalb eines definierten Schwellenwerts.
Integration in die Prozesskette - Gallio PRO übernimmt die Verpixelung von Gesichtern und Kennzeichen im On-Premise- und Offline-Betrieb, während die Audiobearbeitung in einem separaten Tool erfolgt.

Normative Referenzen und Quellen

Die folgenden Dokumente definieren Begriffe, Metriken und Anforderungen im Bereich biometrischer Daten und Sprechererkennung:

Verordnung (EU) 2016/679 (DSGVO) - Art. 4 Nr. 14, Art. 9 sowie Erwägungsgrund 51. Text: EUR-Lex.
European Data Protection Board, Leitlinien 3/2019 zur Verarbeitung personenbezogener Daten durch Videogeräte, Version 2.0, 29.01.2020 - Hinweise zur Audioaufzeichnung im Rahmen von Videoüberwachung. EDPB.
ISO/IEC 19795-1:2021 - Information technology - Biometric performance testing and reporting - Part 1: Principles and framework.
ISO/IEC 24745:2022 - Information security - Biometric information protection.
ISO/IEC 30107-3:2017 - Biometric presentation attack detection - Part 3: Testing and reporting.
NIST - Speaker Recognition Evaluations (SRE): Protokolle und Metriken wie minDCF und EER. nist.gov.
Snyder, D. et al., X-vectors: Robust DNN embeddings for speaker recognition, ICASSP 2018.
Desplanques, B. et al., ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation, Interspeech 2020.

Siehe auch

Zurück zum Glossar