Czym jest Re-identification Risk Assessment?

Spis treści

Re-identification Risk Assessment - definicja
Rola w anonimizacji zdjęć i nagrań wideo
Technologie i procedura oceny ryzyka reidentyfikacji
Kluczowe parametry i metryki
Wyzwania i ograniczenia
Przykłady zastosowań
Odniesienia normatywne i źródła

Re-identification Risk Assessment - definicja

Re-identification Risk Assessment (ocena ryzyka ponownej identyfikacji) to ustrukturyzowany proces szacowania prawdopodobieństwa, że osoby pozostaną rozpoznawalne po zastosowaniu technik anonimizacji w obrazach i nagraniach wideo. W ujęciu prawnym punkt odniesienia stanowi RODO, które w motywie 26 wymaga, aby anonimizacja uniemożliwiała identyfikację osoby w sposób rozsądnie prawdopodobny, biorąc pod uwagę wszelkie środki, które mogą zostać racjonalnie użyte przez administratora lub inną osobę (UE 2016/679). W warstwie technicznej ramy oceny ryzyka określają m.in. ISO/IEC 20889:2018 oraz ISO/IEC 27559:2022, które opisują klasy technik de-identyfikacji i procesy oceny ryzyka w kontekście danych, w tym danych obrazowych.

W kontekście anonimizacji zdjęć i wideo Re-identification Risk Assessment polega na empirycznym i kontekstowym sprawdzeniu, na ile po zastosowaniu rozmywania twarzy oraz tablic rejestracyjnych utrudniona jest ponowna identyfikacja z użyciem współczesnych metod rozpoznawania twarzy i OCR tablic. Obejmuje to testy z użyciem modeli głębokiego uczenia, które są niezbędne do budowy systemów zamazywania (wykrywanie twarzy i tablic), oraz testy ataków z wykorzystaniem podobnych lub silniejszych modeli rozpoznawczych.

Rola w anonimizacji zdjęć i nagrań wideo

Ocena ryzyka wyznacza parametry zamazywania przed wdrożeniem, a następnie weryfikuje skuteczność anonimizacji na próbkach materiału. W praktyce oznacza to ustalenie siły filtra, marginesów masek i sposobu przetwarzania szeregów klatek, tak aby ryzyko rozpoznania twarzy lub odczytu tablic było niskie w realistycznych scenariuszach ataku. W wielu państwach Europy Zachodniej zamazywanie tablic rejestracyjnych bywa wymagane w określonych zastosowaniach (np. w publikacjach Street View). W Polsce nie ma ogólnego, jednoznacznego obowiązku zamazywania tablic w każdej sytuacji, jednak wytyczne organów ochrony danych (m.in. EROD/Grupy Roboczej art. 29) wskazują na konieczność minimalizacji ryzyka identyfikacji osób w zależności od kontekstu.

W środowisku Gallio PRO ocena ryzyka koncentruje się na twarzach i tablicach rejestracyjnych. Gallio PRO działa on-premise, nie wykonuje anonimizacji w czasie rzeczywistym i automatyzuje wyłącznie zamazywanie twarzy oraz tablic. Inne elementy umożliwiające identyfikację, jak logotypy czy tatuaże, mogą być zamaskowane ręcznie we wbudowanym edytorze, co także powinno zostać uwzględnione w ocenie ryzyka.

Technologie i procedura oceny ryzyka reidentyfikacji

Ocena łączy narzędzia detekcji, anonimizacji i ataku. W praktyce wykorzystuje się głębokie sieci neuronowe do wykrywania twarzy i tablic, algorytmy zamazywania oraz niezależne systemy rozpoznawcze do pomiaru ryzyka po anonimizacji.

Wykrywanie i maskowanie: detektory twarzy (np. oparte o konwolucyjne sieci jak RetinaFace) i tablic, następnie rozmycie Gaussa lub pikselizacja z parametrami zależnymi od rozmiaru obiektu.
Model atakujący: rozpoznawanie twarzy oparte o embeddingi (np. ArcFace) oraz OCR dla tablic rejestracyjnych. Modele te odzwierciedlają rozsądnie dostępne środki po stronie potencjalnego atakującego.
Procedura: najpierw estymacja skuteczności identyfikacji na materiale niezanonimizowanym (poziom odniesienia), następnie powtórzenie testów po anonimizacji i wyznaczenie spadku prawdopodobieństwa identyfikacji.
Ocena kontekstowa: analiza dodatkowych czynników, takich jak ujęcia unikalnych ubrań, charakterystyczne akcesoria, metadane EXIF oraz dźwięk. W razie potrzeby stosuje się manualne maskowanie elementów poza twarzą i tablicą.

Kluczowe parametry i metryki

Metryki powinny być mierzalne, powtarzalne i raportowane z niepewnością. Zalecane jest stosowanie 95-procentowych przedziałów ufności dla miar dwumianowych.

Metryka	Definicja	Uwagi pomiarowe
p_reid	Empiryczne prawdopodobieństwo ponownej identyfikacji po anonimizacji = liczba poprawnych identyfikacji / liczba prób	Raportować z 95% CI dla rozkładu dwumianowego
Recall@k	Odsetek przypadków, gdy prawidłowa tożsamość znajduje się w pierwszych k wynikach wyszukiwania	Testy na galerii referencyjnej; porównywać przed i po anonimizacji
FNR_det	Odsetek niewykrytych twarzy/tablic = liczba braków detekcji / liczba obiektów GT	IoU progowe np. 0,5 względem adnotacji GT
Pokrycie maski	Udział powierzchni w obrębie twarzy/tablicy przykrytej maską	IoU maski względem GT; kontrola marginesu
Siła rozmycia s	Sigma Gaussa lub rozmiar bloku pikselizacji znormalizowany przez rozstaw źrenic lub wysokość tablicy	Raportować jako ułamek rozmiaru obiektu

W literaturze (zwłaszcza w kontekście danych zdrowotnych) spotyka się progi akceptowalnego ryzyka ponownej identyfikacji rzędu 0,09 w ramach opinii eksperckich (El Emam i in., 2013). RODO nie definiuje progu liczbowego. W kontekście obrazów i wideo zaleca się ustalanie kryteriów akceptacji na podstawie testów z realistycznym modelem atakującym i materiałem reprezentatywnym dla zastosowania.

Wyzwania i ograniczenia

Nawet po skutecznym zamazaniu twarzy lub tablic, reidentyfikacja może być możliwa z użyciem informacji kontekstowej. Oceniając ryzyko należy uwzględnić czynniki techniczne i organizacyjne.

Informacja poboczna: ubiór, sylwetka, lokalizacja, czas, unikalne akcesoria. W takich przypadkach stosuje się ręczne maskowanie w Gallio PRO.
Błędy detekcji: częściowe zakrycia, ruch i rozmycie ruchu zwiększają FNR_det. Wymagana jest kontrola jakości na poziomie sekwencji klatek.
Ataki oparte o rekonstrukcję: super-rozdzielczość i deblurring mogą poprawić jakość, dlatego siła zamazywania musi być dobrana konserwatywnie w stosunku do rozmiaru obiektu.
Metadane: EXIF i osadzone miniatury mogą ujawniać dane. Należy je usuwać w procesie publikacji.
Rozbieżności prawne: brak jednego progu liczbowego w UE wymaga dokumentowania założeń i modeli zagrożeń w każdym projekcie.

Przykłady zastosowań

Ocena ryzyka jest stosowana w praktycznych scenariuszach przetwarzania materiału wizualnego przez administratorów i podmioty przetwarzające.

Publikacje materiałów szkoleniowych i promocyjnych instytucji, z uprzednim zamazaniem twarzy i tablic.
Udostępnianie nagrań z monitoringu na wniosek uprawnionych podmiotów z minimalizacją ryzyka ujawnienia tożsamości osób postronnych.
Anonimizacja materiałów badawczych i datasetów w projektach AI, z raportem p_reid i FNR_det.
Realizacja obowiązków prawnych w państwach UE, gdzie zamazywanie tablic może być wymagane w zależności od kontekstu, przy jednoczesnym dokumentowaniu metodyki oceny.

Odniesienia normatywne i źródła

Poniższe dokumenty i publikacje stanowią podstawę dla definicji i metodyki oceny ryzyka ponownej identyfikacji w obrazach i wideo.

RODO, Rozporządzenie (UE) 2016/679, motyw 26 i art. 4. Tekst dostępny w EUR-Lex.
ISO/IEC 20889:2018 Privacy enhancing data de-identification terminology and classification of techniques. ISO, 2018.
ISO/IEC 27559:2022 Privacy enhancing data de-identification framework. ISO, 2022.
Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques, 2014.
CNIL, Guide to anonymisation, 2019. https://www.cnil.fr
NISTIR 8053, De-Identification of Personal Information, NIST, 2015.
Deng J. i in., ArcFace: Additive Angular Margin Loss for Deep Face Recognition, CVPR 2019. Wynik 99,83% na LFW.
El Emam K., Arbuckle L., Anonymizing Health Data, Morgan Kaufmann, 2013. Dyskusja o progach ryzyka rzędu 0,09 w ekspertyzach.

Zobacz także

Powrót do słownika