Czym jest voice biometrics?

Spis treści

Voice biometrics - definicja
Rola voice biometrics w anonimizacji wideo i zdjęć
Technologie i architektury stosowane w voice biometrics
Kluczowe parametry i metryki w voice biometrics
Wyzwania i ograniczenia
Przykłady zastosowań w praktyce anonimizacji
Odniesienia normatywne i źródła

Voice biometrics - definicja

Voice biometrics to zestaw metod identyfikacji lub weryfikacji tożsamości na podstawie cech mowy i akustyki głosu. Systemy te tworzą charakterystykę mówcy (np. wektor cech - embedding), a następnie porównują ją z wzorcami referencyjnymi. W ujęciu prawnym są to dane biometryczne, jeśli są przetwarzane w celu jednoznacznej identyfikacji osoby fizycznej. Zgodnie z RODO są wtedy szczególną kategorią danych i wymagają spełnienia przesłanek z art. 9 oraz podwyższonych środków ochrony.

W kontekście anonimizacji wideo i zdjęć voice biometrics dotyczy toru audio w plikach wideo. Nawet po zamazaniu twarzy i tablic rejestracyjnych osoba może być rozpoznana po głosie. Dlatego ocena ryzyka i projekt anonimizacji materiałów wideo powinny uwzględniać potencjalną identyfikację mówców oraz konieczność modyfikacji, maskowania lub wyciszenia dźwięku.

Rola voice biometrics w anonimizacji wideo i zdjęć

W praktyce anonimizacji multimediów voice biometrics pełni funkcję ram odniesienia: pozwala oszacować ryzyko ponownej identyfikacji osób na podstawie mowy. Nie chodzi o rozpoznawanie osób w procesie anonimizacji, lecz o zrozumienie, jakie cechy głosu umożliwiają identyfikację i jakie transformacje redukują to ryzyko.

Ocena ryzyka i DPIA - głos może umożliwiać identyfikację w materiałach z zamazanymi twarzami, zwłaszcza przy długich wypowiedziach lub charakterystycznej barwie. W DPIA należy uwzględnić to ryzyko oraz środki kompensujące.
Detekcja segmentów mowy - wykrywanie, gdzie w ścieżce audio występuje mowa, aby selektywnie stosować wyciszenie, modulację lub zamianę głosu.
Diarization - rozdzielenie mówców pozwala zastosować różne poziomy modyfikacji dla poszczególnych osób, jeśli wynika to z podstawy prawnej lub zgód.
Walidacja skutków - po transformacji głosu można sprawdzić, czy podobieństwo embeddingów do znanych próbek spadło poniżej ustalonego progu, co wspiera argumentację na rzecz ograniczenia identyfikowalności.

Gallio PRO automatyzuje zamazywanie twarzy i tablic rejestracyjnych w trybie offline i on-premise. Oprogramowanie nie prowadzi rozpoznawania mowy ani nie wykonuje anonimizacji audio. W przypadku potrzeby maskowania głosu należy użyć odrębnych narzędzi i procesów, a wyniki dokumentować w DPIA.

Technologie i architektury stosowane w voice biometrics

W nowoczesnych systemach dominują techniki uczenia głębokiego, które tworzą zwarte reprezentacje głosu odporne na szum i zmiany kanału. Poniżej zarys kluczowych komponentów i ich roli w procesie oceny ryzyka oraz sanitizacji audio.

Ekstrakcja cech - klasyczne MFCC oraz głębokie embeddingi, m.in. x-vectors i ECAPA-TDNN, wytrenowane na dużych zróżnicowanych zbiorach mowy.
Weryfikacja i identyfikacja - porównanie embeddingów z wykorzystaniem miar kosinusowych lub klasyfikatorów PLDA. W anonimizacji metody te służą do oceny linkowalności przed i po modyfikacji głosu.
Diarization - segmentacja na mówców z użyciem VAD, embeddingów i klastrowania (np. spektralnego). Umożliwia selektywną obróbkę audio.
Ochrona przed atakami prezentacyjnymi - mechanizmy PAD wykrywają odtworzenia nagrań i syntezę mowy, co jest istotne przy ocenie ryzyka nadużyć.

Jeśli materiał wideo po zamazaniu twarzy nadal zawiera audio, praktyką jest detekcja mowy i jej modyfikacja (np. voice conversion, pitch shifting) lub całkowite wyciszenie ścieżki, gdy wymaga tego minimalizacja danych.

Kluczowe parametry i metryki w voice biometrics

Skuteczność i bezpieczeństwo przetwarzania głosu ocenia się zestawem standaryzowanych metryk. W anonimizacji mają one zastosowanie głównie do ewaluacji ryzyka linkowalności mówcy po zastosowaniu transformacji audio.

Metryka	Definicja	Jednostka	Znaczenie dla anonimizacji
EER	Equal Error Rate - punkt, w którym odsetek fałszywych akceptacji równa się odsetkowi fałszywych odrzuceń	%	Im wyższy po modyfikacji audio, tym mniejsza rozróżnialność mówców
FMR / FNMR	False Match Rate i False Non-Match Rate zgodnie z ISO/IEC 19795-1	%	Kontrola progu podobieństwa embeddingów przed i po transformacji
minDCF	Minimal Detection Cost Function wg protokołów NIST SRE	wymiar bezjednostkowy	Agregatowy koszt błędów - pomocny do porównań metod modyfikacji
DER	Diarization Error Rate - suma czasu pominięć, fałszywych alarmów i błędnych przypisań podzielona przez całkowity czas mowy	%	Ocena jakości rozdzielenia mówców do selektywnej obróbki
Latencja	Czas przetwarzania na minutę audio przy ustalonej konfiguracji	ms lub x real-time	Planowanie wsadowej anonimizacji materiałów wideo

W praktyce dla torów telefonicznych spotyka się próbkowanie 8 kHz, a dla nagrań mikrofonowych 16 kHz lub wyższe; dobór ten wpływa na wybór cech i modeli oraz powinien być spójny z przyjętym protokołem ewaluacji.

Wyzwania i ograniczenia

Wdrożenia związane z głosem obciążone są szeregiem ryzyk technicznych i prawnych. W anonimizacji należy je identyfikować i dokumentować, by uzasadnić przyjęte środki.

Mismatch domenowy - zmiana kanału, warunki akustyczne i szum pogarszają porównywalność embeddingów, co trzeba uwzględnić przy ocenie ryzyka.
Ataki prezentacyjne - odtworzenia i synteza mowy wymagają mechanizmów PAD, opisanych w rodzinie norm ISO/IEC 30107.
Ochrona szablonów - ISO/IEC 24745 dotyczy ochrony informacji biometrycznej, w tym ograniczania linkowalności oraz ryzyka odtworzenia danych biometrycznych z szablonów.
Prawo i podstawy - przetwarzanie głosu w celu jednoznacznej identyfikacji osoby fizycznej może stanowić przetwarzanie szczególnej kategorii danych z art. 9 RODO i wymaga odpowiedniej podstawy prawnej oraz, w zależności od ryzyka, DPIA.
Dokumentacja i logi - systemy przetwarzające wideo powinny ograniczać zakres logów. Gallio PRO nie gromadzi logów z detekcji twarzy i tablic ani danych wrażliwych.

Przykłady zastosowań w praktyce anonimizacji

W instytucjach, które publikują materiały wideo z osobami prywatnymi, zarządzanie ryzykiem identyfikacji przez głos jest elementem polityki prywatności. Poniżej schemat działań do rozważenia.

Wyodrębnienie ścieżek z mową i klasyfikacja scen pod względem ryzyka identyfikacji.
Dobór środka - pełne wyciszenie, częściowe maskowanie lub transformacja barwy. Decyzję uzasadnia się proporcjonalnością i minimalizacją danych.
Ewaluacja - porównanie embeddingów przed i po transformacji w celu wykazania spadku podobieństwa poniżej ustalonego progu.
Integracja z pipeline - Gallio PRO realizuje zamazywanie twarzy i tablic w trybie on-premise i offline, natomiast obróbka audio jest etapem towarzyszącym w innym narzędziu.

Odniesienia normatywne i źródła

Poniższe dokumenty definiują terminy, metryki i wymagania dotyczące danych biometrycznych oraz ewaluacji systemów rozpoznawania mówców.

Rozporządzenie (UE) 2016/679 (RODO) - art. 4 pkt 14, art. 9 oraz motyw 51. Tekst aktu: EUR-Lex.
European Data Protection Board, Wytyczne 3/2019 w sprawie przetwarzania danych osobowych przez urządzenia wideo, wersja 2.0, 29.01.2020 - odniesienia do rejestracji audio przy monitoringu. EDPB.
ISO/IEC 19795-1:2021 - Information technology - Biometric performance testing and reporting - Part 1: Principles and framework. ISO/IEC.
ISO/IEC 24745:2022 - Information security - Biometric information protection. ISO/IEC.
ISO/IEC 30107-3:2017 - Biometric presentation attack detection - Part 3: Testing and reporting. ISO/IEC.
NIST, Speaker Recognition Evaluations (SRE) - zakres, protokoły, miary minDCF i EER. nist.gov.
D. Snyder et al., X-vectors: Robust DNN embeddings for speaker recognition, ICASSP 2018.
B. Desplanques et al., ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation, Interspeech 2020.

Zobacz także

Powrót do słownika