Re-identification Risk Assessment - definicja
Re-identification Risk Assessment (ocena ryzyka ponownej identyfikacji) to ustrukturyzowany proces szacowania prawdopodobieństwa, że osoby pozostaną rozpoznawalne po zastosowaniu technik anonimizacji w obrazach i nagraniach wideo. W ujęciu prawnym punkt odniesienia stanowi RODO, które w motywie 26 wymaga, aby anonimizacja uniemożliwiała identyfikację osoby w sposób rozsądnie prawdopodobny, biorąc pod uwagę wszelkie środki, które mogą zostać racjonalnie użyte przez administratora lub inną osobę (UE 2016/679). W warstwie technicznej ramy oceny ryzyka określają m.in. ISO/IEC 20889:2018 oraz ISO/IEC 27559:2022, które opisują klasy technik de-identyfikacji i procesy oceny ryzyka w kontekście danych, w tym danych obrazowych.
W kontekście anonimizacji zdjęć i wideo Re-identification Risk Assessment polega na empirycznym i kontekstowym sprawdzeniu, na ile po zastosowaniu rozmywania twarzy oraz tablic rejestracyjnych utrudniona jest ponowna identyfikacja z użyciem współczesnych metod rozpoznawania twarzy i OCR tablic. Obejmuje to testy z użyciem modeli głębokiego uczenia, które są niezbędne do budowy systemów zamazywania (wykrywanie twarzy i tablic), oraz testy ataków z wykorzystaniem podobnych lub silniejszych modeli rozpoznawczych.
Rola w anonimizacji zdjęć i nagrań wideo
Ocena ryzyka wyznacza parametry zamazywania przed wdrożeniem, a następnie weryfikuje skuteczność anonimizacji na próbkach materiału. W praktyce oznacza to ustalenie siły filtra, marginesów masek i sposobu przetwarzania szeregów klatek, tak aby ryzyko rozpoznania twarzy lub odczytu tablic było niskie w realistycznych scenariuszach ataku. W wielu państwach Europy Zachodniej zamazywanie tablic rejestracyjnych bywa wymagane w określonych zastosowaniach (np. w publikacjach Street View). W Polsce nie ma ogólnego, jednoznacznego obowiązku zamazywania tablic w każdej sytuacji, jednak wytyczne organów ochrony danych (m.in. EROD/Grupy Roboczej art. 29) wskazują na konieczność minimalizacji ryzyka identyfikacji osób w zależności od kontekstu.
W środowisku Gallio PRO ocena ryzyka koncentruje się na twarzach i tablicach rejestracyjnych. Gallio PRO działa on-premise, nie wykonuje anonimizacji w czasie rzeczywistym i automatyzuje wyłącznie zamazywanie twarzy oraz tablic. Inne elementy umożliwiające identyfikację, jak logotypy czy tatuaże, mogą być zamaskowane ręcznie we wbudowanym edytorze, co także powinno zostać uwzględnione w ocenie ryzyka.
Technologie i procedura oceny ryzyka reidentyfikacji
Ocena łączy narzędzia detekcji, anonimizacji i ataku. W praktyce wykorzystuje się głębokie sieci neuronowe do wykrywania twarzy i tablic, algorytmy zamazywania oraz niezależne systemy rozpoznawcze do pomiaru ryzyka po anonimizacji.
- Wykrywanie i maskowanie: detektory twarzy (np. oparte o konwolucyjne sieci jak RetinaFace) i tablic, następnie rozmycie Gaussa lub pikselizacja z parametrami zależnymi od rozmiaru obiektu.
- Model atakujący: rozpoznawanie twarzy oparte o embeddingi (np. ArcFace) oraz OCR dla tablic rejestracyjnych. Modele te odzwierciedlają rozsądnie dostępne środki po stronie potencjalnego atakującego.
- Procedura: najpierw estymacja skuteczności identyfikacji na materiale niezanonimizowanym (poziom odniesienia), następnie powtórzenie testów po anonimizacji i wyznaczenie spadku prawdopodobieństwa identyfikacji.
- Ocena kontekstowa: analiza dodatkowych czynników, takich jak ujęcia unikalnych ubrań, charakterystyczne akcesoria, metadane EXIF oraz dźwięk. W razie potrzeby stosuje się manualne maskowanie elementów poza twarzą i tablicą.
Kluczowe parametry i metryki
Metryki powinny być mierzalne, powtarzalne i raportowane z niepewnością. Zalecane jest stosowanie 95-procentowych przedziałów ufności dla miar dwumianowych.
Metryka | Definicja | Uwagi pomiarowe
|
|---|---|---|
p_reid | Empiryczne prawdopodobieństwo ponownej identyfikacji po anonimizacji = liczba poprawnych identyfikacji / liczba prób | Raportować z 95% CI dla rozkładu dwumianowego |
Recall@k | Odsetek przypadków, gdy prawidłowa tożsamość znajduje się w pierwszych k wynikach wyszukiwania | Testy na galerii referencyjnej; porównywać przed i po anonimizacji |
FNR_det | Odsetek niewykrytych twarzy/tablic = liczba braków detekcji / liczba obiektów GT | IoU progowe np. 0,5 względem adnotacji GT |
Pokrycie maski | Udział powierzchni w obrębie twarzy/tablicy przykrytej maską | IoU maski względem GT; kontrola marginesu |
Siła rozmycia s | Sigma Gaussa lub rozmiar bloku pikselizacji znormalizowany przez rozstaw źrenic lub wysokość tablicy | Raportować jako ułamek rozmiaru obiektu |
W literaturze (zwłaszcza w kontekście danych zdrowotnych) spotyka się progi akceptowalnego ryzyka ponownej identyfikacji rzędu 0,09 w ramach opinii eksperckich (El Emam i in., 2013). RODO nie definiuje progu liczbowego. W kontekście obrazów i wideo zaleca się ustalanie kryteriów akceptacji na podstawie testów z realistycznym modelem atakującym i materiałem reprezentatywnym dla zastosowania.
Wyzwania i ograniczenia
Nawet po skutecznym zamazaniu twarzy lub tablic, reidentyfikacja może być możliwa z użyciem informacji kontekstowej. Oceniając ryzyko należy uwzględnić czynniki techniczne i organizacyjne.
- Informacja poboczna: ubiór, sylwetka, lokalizacja, czas, unikalne akcesoria. W takich przypadkach stosuje się ręczne maskowanie w Gallio PRO.
- Błędy detekcji: częściowe zakrycia, ruch i rozmycie ruchu zwiększają FNR_det. Wymagana jest kontrola jakości na poziomie sekwencji klatek.
- Ataki oparte o rekonstrukcję: super-rozdzielczość i deblurring mogą poprawić jakość, dlatego siła zamazywania musi być dobrana konserwatywnie w stosunku do rozmiaru obiektu.
- Metadane: EXIF i osadzone miniatury mogą ujawniać dane. Należy je usuwać w procesie publikacji.
- Rozbieżności prawne: brak jednego progu liczbowego w UE wymaga dokumentowania założeń i modeli zagrożeń w każdym projekcie.
Przykłady zastosowań
Ocena ryzyka jest stosowana w praktycznych scenariuszach przetwarzania materiału wizualnego przez administratorów i podmioty przetwarzające.
- Publikacje materiałów szkoleniowych i promocyjnych instytucji, z uprzednim zamazaniem twarzy i tablic.
- Udostępnianie nagrań z monitoringu na wniosek uprawnionych podmiotów z minimalizacją ryzyka ujawnienia tożsamości osób postronnych.
- Anonimizacja materiałów badawczych i datasetów w projektach AI, z raportem p_reid i FNR_det.
- Realizacja obowiązków prawnych w państwach UE, gdzie zamazywanie tablic może być wymagane w zależności od kontekstu, przy jednoczesnym dokumentowaniu metodyki oceny.
Odniesienia normatywne i źródła
Poniższe dokumenty i publikacje stanowią podstawę dla definicji i metodyki oceny ryzyka ponownej identyfikacji w obrazach i wideo.
- RODO, Rozporządzenie (UE) 2016/679, motyw 26 i art. 4. Tekst dostępny w EUR-Lex.
- ISO/IEC 20889:2018 Privacy enhancing data de-identification terminology and classification of techniques. ISO, 2018.
- ISO/IEC 27559:2022 Privacy enhancing data de-identification framework. ISO, 2022.
- Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques, 2014.
- CNIL, Guide to anonymisation, 2019. https://www.cnil.fr
- NISTIR 8053, De-Identification of Personal Information, NIST, 2015.
- Deng J. i in., ArcFace: Additive Angular Margin Loss for Deep Face Recognition, CVPR 2019. Wynik 99,83% na LFW.
- El Emam K., Arbuckle L., Anonymizing Health Data, Morgan Kaufmann, 2013. Dyskusja o progach ryzyka rzędu 0,09 w ekspertyzach.