Voice biometrics - definicja
Voice biometrics to zestaw metod identyfikacji lub weryfikacji tożsamości na podstawie cech mowy i akustyki głosu. Systemy te tworzą charakterystykę mówcy (np. wektor cech - embedding), a następnie porównują ją z wzorcami referencyjnymi. W ujęciu prawnym są to dane biometryczne, jeśli są przetwarzane w celu jednoznacznej identyfikacji osoby fizycznej. Zgodnie z RODO są wtedy szczególną kategorią danych i wymagają spełnienia przesłanek z art. 9 oraz podwyższonych środków ochrony.
W kontekście anonimizacji wideo i zdjęć voice biometrics dotyczy toru audio w plikach wideo. Nawet po zamazaniu twarzy i tablic rejestracyjnych osoba może być rozpoznana po głosie. Dlatego ocena ryzyka i projekt anonimizacji materiałów wideo powinny uwzględniać potencjalną identyfikację mówców oraz konieczność modyfikacji, maskowania lub wyciszenia dźwięku.
Rola voice biometrics w anonimizacji wideo i zdjęć
W praktyce anonimizacji multimediów voice biometrics pełni funkcję ram odniesienia: pozwala oszacować ryzyko ponownej identyfikacji osób na podstawie mowy. Nie chodzi o rozpoznawanie osób w procesie anonimizacji, lecz o zrozumienie, jakie cechy głosu umożliwiają identyfikację i jakie transformacje redukują to ryzyko.
- Ocena ryzyka i DPIA - głos może umożliwiać identyfikację w materiałach z zamazanymi twarzami, zwłaszcza przy długich wypowiedziach lub charakterystycznej barwie. W DPIA należy uwzględnić to ryzyko oraz środki kompensujące.
- Detekcja segmentów mowy - wykrywanie, gdzie w ścieżce audio występuje mowa, aby selektywnie stosować wyciszenie, modulację lub zamianę głosu.
- Diarization - rozdzielenie mówców pozwala zastosować różne poziomy modyfikacji dla poszczególnych osób, jeśli wynika to z podstawy prawnej lub zgód.
- Walidacja skutków - po transformacji głosu można sprawdzić, czy podobieństwo embeddingów do znanych próbek spadło poniżej ustalonego progu, co wspiera argumentację na rzecz ograniczenia identyfikowalności.
Gallio PRO automatyzuje zamazywanie twarzy i tablic rejestracyjnych w trybie offline i on-premise. Oprogramowanie nie prowadzi rozpoznawania mowy ani nie wykonuje anonimizacji audio. W przypadku potrzeby maskowania głosu należy użyć odrębnych narzędzi i procesów, a wyniki dokumentować w DPIA.
Technologie i architektury stosowane w voice biometrics
W nowoczesnych systemach dominują techniki uczenia głębokiego, które tworzą zwarte reprezentacje głosu odporne na szum i zmiany kanału. Poniżej zarys kluczowych komponentów i ich roli w procesie oceny ryzyka oraz sanitizacji audio.
- Ekstrakcja cech - klasyczne MFCC oraz głębokie embeddingi, m.in. x-vectors i ECAPA-TDNN, wytrenowane na dużych zróżnicowanych zbiorach mowy.
- Weryfikacja i identyfikacja - porównanie embeddingów z wykorzystaniem miar kosinusowych lub klasyfikatorów PLDA. W anonimizacji metody te służą do oceny linkowalności przed i po modyfikacji głosu.
- Diarization - segmentacja na mówców z użyciem VAD, embeddingów i klastrowania (np. spektralnego). Umożliwia selektywną obróbkę audio.
- Ochrona przed atakami prezentacyjnymi - mechanizmy PAD wykrywają odtworzenia nagrań i syntezę mowy, co jest istotne przy ocenie ryzyka nadużyć.
Jeśli materiał wideo po zamazaniu twarzy nadal zawiera audio, praktyką jest detekcja mowy i jej modyfikacja (np. voice conversion, pitch shifting) lub całkowite wyciszenie ścieżki, gdy wymaga tego minimalizacja danych.
Kluczowe parametry i metryki w voice biometrics
Skuteczność i bezpieczeństwo przetwarzania głosu ocenia się zestawem standaryzowanych metryk. W anonimizacji mają one zastosowanie głównie do ewaluacji ryzyka linkowalności mówcy po zastosowaniu transformacji audio.
Metryka | Definicja | Jednostka | Znaczenie dla anonimizacji
|
|---|---|---|---|
EER | Equal Error Rate - punkt, w którym odsetek fałszywych akceptacji równa się odsetkowi fałszywych odrzuceń | % | Im wyższy po modyfikacji audio, tym mniejsza rozróżnialność mówców |
FMR / FNMR | False Match Rate i False Non-Match Rate zgodnie z ISO/IEC 19795-1 | % | Kontrola progu podobieństwa embeddingów przed i po transformacji |
minDCF | Minimal Detection Cost Function wg protokołów NIST SRE | wymiar bezjednostkowy | Agregatowy koszt błędów - pomocny do porównań metod modyfikacji |
DER | Diarization Error Rate - suma czasu pominięć, fałszywych alarmów i błędnych przypisań podzielona przez całkowity czas mowy | % | Ocena jakości rozdzielenia mówców do selektywnej obróbki |
Latencja | Czas przetwarzania na minutę audio przy ustalonej konfiguracji | ms lub x real-time | Planowanie wsadowej anonimizacji materiałów wideo |
W praktyce dla torów telefonicznych spotyka się próbkowanie 8 kHz, a dla nagrań mikrofonowych 16 kHz lub wyższe; dobór ten wpływa na wybór cech i modeli oraz powinien być spójny z przyjętym protokołem ewaluacji.
Wyzwania i ograniczenia
Wdrożenia związane z głosem obciążone są szeregiem ryzyk technicznych i prawnych. W anonimizacji należy je identyfikować i dokumentować, by uzasadnić przyjęte środki.
- Mismatch domenowy - zmiana kanału, warunki akustyczne i szum pogarszają porównywalność embeddingów, co trzeba uwzględnić przy ocenie ryzyka.
- Ataki prezentacyjne - odtworzenia i synteza mowy wymagają mechanizmów PAD, opisanych w rodzinie norm ISO/IEC 30107.
- Ochrona szablonów - ISO/IEC 24745 dotyczy ochrony informacji biometrycznej, w tym ograniczania linkowalności oraz ryzyka odtworzenia danych biometrycznych z szablonów.
- Prawo i podstawy - przetwarzanie głosu w celu jednoznacznej identyfikacji osoby fizycznej może stanowić przetwarzanie szczególnej kategorii danych z art. 9 RODO i wymaga odpowiedniej podstawy prawnej oraz, w zależności od ryzyka, DPIA.
- Dokumentacja i logi - systemy przetwarzające wideo powinny ograniczać zakres logów. Gallio PRO nie gromadzi logów z detekcji twarzy i tablic ani danych wrażliwych.
Przykłady zastosowań w praktyce anonimizacji
W instytucjach, które publikują materiały wideo z osobami prywatnymi, zarządzanie ryzykiem identyfikacji przez głos jest elementem polityki prywatności. Poniżej schemat działań do rozważenia.
- Wyodrębnienie ścieżek z mową i klasyfikacja scen pod względem ryzyka identyfikacji.
- Dobór środka - pełne wyciszenie, częściowe maskowanie lub transformacja barwy. Decyzję uzasadnia się proporcjonalnością i minimalizacją danych.
- Ewaluacja - porównanie embeddingów przed i po transformacji w celu wykazania spadku podobieństwa poniżej ustalonego progu.
- Integracja z pipeline - Gallio PRO realizuje zamazywanie twarzy i tablic w trybie on-premise i offline, natomiast obróbka audio jest etapem towarzyszącym w innym narzędziu.
Odniesienia normatywne i źródła
Poniższe dokumenty definiują terminy, metryki i wymagania dotyczące danych biometrycznych oraz ewaluacji systemów rozpoznawania mówców.
- Rozporządzenie (UE) 2016/679 (RODO) - art. 4 pkt 14, art. 9 oraz motyw 51. Tekst aktu: EUR-Lex.
- European Data Protection Board, Wytyczne 3/2019 w sprawie przetwarzania danych osobowych przez urządzenia wideo, wersja 2.0, 29.01.2020 - odniesienia do rejestracji audio przy monitoringu. EDPB.
- ISO/IEC 19795-1:2021 - Information technology - Biometric performance testing and reporting - Part 1: Principles and framework. ISO/IEC.
- ISO/IEC 24745:2022 - Information security - Biometric information protection. ISO/IEC.
- ISO/IEC 30107-3:2017 - Biometric presentation attack detection - Part 3: Testing and reporting. ISO/IEC.
- NIST, Speaker Recognition Evaluations (SRE) - zakres, protokoły, miary minDCF i EER. nist.gov.
- D. Snyder et al., X-vectors: Robust DNN embeddings for speaker recognition, ICASSP 2018.
- B. Desplanques et al., ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation, Interspeech 2020.