Czym jest Artificial Intelligence in anonymization?

Spis treści

Artificial Intelligence in anonymization - definicja
Rola AI w anonimizacji obrazów i wideo
Technologie AI stosowane w anonimizacji
Kluczowe parametry i metryki w anonimizacji opartej na AI
Wyzwania i ograniczenia
Odniesienia normatywne i źródła

Artificial Intelligence in anonymization - definicja

Artificial Intelligence in anonymization to zastosowanie metod sztucznej inteligencji do wykrywania i ukrywania identyfikatorów osobowych na obrazach i w nagraniach wideo, w szczególności ludzkich twarzy i tablic rejestracyjnych. Celem jest zminimalizowanie ryzyka identyfikacji osoby fizycznej zgodnie z definicją anonimizacji wynikającą z RODO. Zgodnie z motywem 26 RODO (cytat): „informacje, które nie dotyczą zidentyfikowanej lub możliwej do zidentyfikowania osoby fizycznej lub dane osobowe zanonimizowane w taki sposób, że osoby, których dane dotyczą, nie są lub przestają być możliwe do zidentyfikowania” nie są danymi osobowymi (Rozporządzenie (UE) 2016/679).

W kontekście zdjęć i wideo AI oznacza w praktyce łańcuch przetwarzania: detekcja obiektów wrażliwych, ich śledzenie w czasie, weryfikacja jakości, zastosowanie maski (np. rozmycie Gaussa, pikselizacja) oraz zapis wynikowego materiału. Metody uczenia głębokiego są powszechnie stosowane do wytrenowania modeli wykrywających twarze i tablice rejestracyjne w zróżnicowanych warunkach, co wspiera poprawną anonimizację wizualną.

Rola AI w anonimizacji obrazów i wideo

AI pozwala na automatyczne, powtarzalne i skalowalne ukrywanie obszarów wrażliwych przy zachowaniu możliwie małych zniekształceń tła. Szczególnie istotne jest to w materiałach wielogodzinnych, gdzie manualna praca byłaby nieproporcjonalnie kosztowna i obarczona błędami.

Detekcja: model klasyfikuje i lokalizuje twarze oraz tablice rejestracyjne w klatkach.
Śledzenie: algorytmy MOT utrzymują spójność obiektów między klatkami, co stabilizuje maski i redukuje migotanie.
Maskowanie: stosuje się operatory utrudniające odtworzenie treści dla typowych przypadków użycia (np. rozmycie Gaussa o odpowiednio dużej sigma lub pikselizacja z dużym rozmiarem bloku).
Eksport: zapis do bezstratnych lub stratnych kodeków z zachowaniem integralności obszarów maskowanych.

Kontekst Gallio PRO: system automatycznie zamazuje tylko twarze i tablice rejestracyjne, nie anonimizuje całych sylwetek, nie prowadzi anonimizacji w czasie rzeczywistym i nie gromadzi logów detekcji zawierających dane osobowe lub dane wrażliwe. Inne elementy (np. logotypy, tatuaże, tabliczki z imionami, dokumenty, ekrany) mogą być maskowane manualnie w edytorze.

Technologie AI stosowane w anonimizacji

Warstwą bazową są konwolucyjne i jednoprzebiegowe detektory obiektów trenowane na dużych zbiorach danych oraz wydajne algorytmy śledzenia. Wybór architektury zależy od kompromisu między czułością, liczbą fałszywych alarmów i przepustowością.

Detekcja twarzy: RetinaFace (Deng i in., 2020) z regresją punktów charakterystycznych ułatwia stabilne maskowanie przy pochyleniach i częściowym zasłonięciu. Skuteczność ocenia się m.in. na zbiorze WIDER FACE (Yang i in., 2016).
Detekcja tablic: modele YOLOv5/YOLOv8 (Ultralytics, 2020-) lub EfficientDet uczone na domenowych zbiorach (np. CCPD, 2018) umożliwiają wykrywanie małych obiektów przy zmiennym oświetleniu.
Śledzenie obiektów: DeepSORT (Wojke i in., 2017) oraz ByteTrack (Zhang i in., 2022) zwiększają ciągłość maskowania w dynamicznych scenach.
Wykonanie: wdrożenia on-premise z użyciem ONNX Runtime lub NVIDIA TensorRT upraszczają spełnienie wymogów minimalizacji i ograniczenia celu z art. 5 RODO poprzez lokalne przetwarzanie.

Dobór parametrów (np. sigma dla rozmycia Gaussa, rozmiar bloku pikselizacji, margines nadramki) powinien uwzględniać ryzyko reidentyfikacji w specyficznym scenariuszu użycia, co wpisuje się w wskazania ISO/IEC 20889:2018 dotyczące klasyfikacji technik de-identyfikacji.

Kluczowe parametry i metryki w anonimizacji opartej na AI

Ocena jakości powinna łączyć metryki detekcyjne z metrykami efektu maskowania. Poniżej zestawiamy najważniejsze miary i ich znaczenie operacyjne.

Metryka	Definicja/uwagi	Jednostka
Precision (P)	P = TP / (TP + FP) - odsetek wykryć prawidłowych; ogranicza maskowanie nieistotnych obszarów	0-1
Recall (R)	R = TP / (TP + FN) - odsetek obiektów wykrytych; wysoki R minimalizuje ryzyko ujawnienia tożsamości	0-1
F1	F1 = 2PR / (P + R) - kompromis między P i R	0-1
IoU	IoU = \|B∩B̂\| / \|B∪B̂\| - nakładanie obszaru prawdy na detekcję; wpływa na mAP	0-1
mAP@[τ]	Średnia precyzja przy progu IoU τ (np. 0.5, 0.5:0.95) - standard w detekcji obiektów	0-1
Latency	Czas przetworzenia klatki (w tym detekcja i maskowanie)	ms/klatkę
Throughput	Liczba klatek na sekundę przy zadanym sprzęcie i rozdzielczości	fps
FPH/FN	Fałszywe pozytywy na godzinę oraz liczba utraconych obiektów - ważne w audycie ryzyka	liczba
Coverage	Procent powierzchni twarzy/tablicy zasłonięty maską po stabilizacji	%

Dla procesów zgodności kluczowe są wysoki recall oraz odpowiedni margines maski względem konturów, aby ograniczyć ryzyko reidentyfikacji w oparciu o detale brzegowe lub artefakty kompresji.

Wyzwania i ograniczenia

Skuteczność AI w anonimizacji zależy od warunków sceny oraz dystrybucji danych względem zbioru treningowego. Poniżej główne ryzyka techniczne i regulacyjne.

Warunki obrazu: silny ruch, rozmycie ruchowe, niski kontrast i okluzje obniżają recall, zwłaszcza dla małych tablic.
Różnorodność domen: tablice o nietypowych fontach i układach, maski na twarzach, okulary, kąty skrajne - wymagają adaptacji lub treningu domenowego.
Stabilność maski: brak śledzenia powoduje migotanie masek; rozwiązaniem są algorytmy MOT i wygładzanie torów.
Aspekty prawne: zgodnie z EDPB (Wytyczne 3/2019) wizerunek osoby może stanowić dane osobowe, a numer rejestracyjny może stanowić dane osobowe w zależności od kontekstu i możliwości identyfikacji, więc przed publikacją lub udostępnieniem materiału należy ocenić ryzyko i podstawę prawną; w praktyce często stosuje się zamazywanie tablic i twarzy. W Polsce stanowiska organów i orzecznictwo wskazują, że status tablic rejestracyjnych jako danych osobowych jest zależny od okoliczności i nie zawsze jednoznaczny.

Dobór technik i progów operacyjnych powinien wynikać z analizy ryzyka oraz przejrzystych polityk przetwarzania, z odniesieniem do ISO/IEC 27001:2022 (zarządzanie bezpieczeństwem informacji) i ISO/IEC 20889:2018 (klasyfikacja de-identyfikacji).

Odniesienia normatywne i źródła

Poniższa bibliografia obejmuje akty prawne, standardy i publikacje techniczne, które umożliwiają weryfikację definicji i praktyk opisanych powyżej.

RODO: Rozporządzenie (UE) 2016/679, motyw 26 i art. 4 - źródło: EUR-Lex, 2016.
EDPB: Wytyczne 3/2019 w sprawie przetwarzania danych osobowych przez urządzenia wizyjne, wersja 2.0, 2020.
WP29/EDPB: Opinion 05/2014 on Anonymisation Techniques (WP216), 2014.
ISO/IEC 20889:2018 - Privacy enhancing data de-identification - Terminology and classification, ISO, 2018.
ISO/IEC 27001:2022 - Information security, cybersecurity and privacy protection - ISMS requirements, ISO, 2022.
ENISA: Recommendations on shaping technology according to GDPR provisions, 2019.
RetinaFace: Jiankang Deng et al., "RetinaFace: Single-shot Multi-Level Face Localisation in the Wild", CVPR Workshops, 2020.
WIDER FACE: Shuo Yang et al., "WIDER FACE: A Face Detection Benchmark", CVPR, 2016.
YOLOv5/YOLOv8: Ultralytics Documentation and Model Cards, 2020-2023.
CCPD: X. Xu et al., "Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline", ECCV Workshops, 2018.
DeepSORT: N. Wojke, A. Bewley, D. Paulus, "Simple Online and Realtime Tracking with a Deep Association Metric", ICIP, 2017.
ByteTrack: Y. Zhang et al., "ByteTrack: Multi-Object Tracking by Associating Every Detection Box", ECCV, 2022.
UODO: Materiały i wytyczne dot. monitoringu wizyjnego i publikacji wizerunku - serwis uodo.gov.pl, przegląd 2018-2023.

Zobacz także

Powrót do słownika