Czym jest Artificial Intelligence in anonymization?

Artificial Intelligence in anonymization - definicja

Artificial Intelligence in anonymization to zastosowanie metod sztucznej inteligencji do wykrywania i ukrywania identyfikatorów osobowych na obrazach i w nagraniach wideo, w szczególności ludzkich twarzy i tablic rejestracyjnych. Celem jest zminimalizowanie ryzyka identyfikacji osoby fizycznej zgodnie z definicją anonimizacji wynikającą z RODO. Zgodnie z motywem 26 RODO (cytat): „informacje, które nie dotyczą zidentyfikowanej lub możliwej do zidentyfikowania osoby fizycznej lub dane osobowe zanonimizowane w taki sposób, że osoby, których dane dotyczą, nie są lub przestają być możliwe do zidentyfikowania” nie są danymi osobowymi (Rozporządzenie (UE) 2016/679).

W kontekście zdjęć i wideo AI oznacza w praktyce łańcuch przetwarzania: detekcja obiektów wrażliwych, ich śledzenie w czasie, weryfikacja jakości, zastosowanie maski (np. rozmycie Gaussa, pikselizacja) oraz zapis wynikowego materiału. Metody uczenia głębokiego są powszechnie stosowane do wytrenowania modeli wykrywających twarze i tablice rejestracyjne w zróżnicowanych warunkach, co wspiera poprawną anonimizację wizualną.

Rola AI w anonimizacji obrazów i wideo

AI pozwala na automatyczne, powtarzalne i skalowalne ukrywanie obszarów wrażliwych przy zachowaniu możliwie małych zniekształceń tła. Szczególnie istotne jest to w materiałach wielogodzinnych, gdzie manualna praca byłaby nieproporcjonalnie kosztowna i obarczona błędami.

  • Detekcja: model klasyfikuje i lokalizuje twarze oraz tablice rejestracyjne w klatkach.
  • Śledzenie: algorytmy MOT utrzymują spójność obiektów między klatkami, co stabilizuje maski i redukuje migotanie.
  • Maskowanie: stosuje się operatory utrudniające odtworzenie treści dla typowych przypadków użycia (np. rozmycie Gaussa o odpowiednio dużej sigma lub pikselizacja z dużym rozmiarem bloku).
  • Eksport: zapis do bezstratnych lub stratnych kodeków z zachowaniem integralności obszarów maskowanych.

Kontekst Gallio PRO: system automatycznie zamazuje tylko twarze i tablice rejestracyjne, nie anonimizuje całych sylwetek, nie prowadzi anonimizacji w czasie rzeczywistym i nie gromadzi logów detekcji zawierających dane osobowe lub dane wrażliwe. Inne elementy (np. logotypy, tatuaże, tabliczki z imionami, dokumenty, ekrany) mogą być maskowane manualnie w edytorze.

Technologie AI stosowane w anonimizacji

Warstwą bazową są konwolucyjne i jednoprzebiegowe detektory obiektów trenowane na dużych zbiorach danych oraz wydajne algorytmy śledzenia. Wybór architektury zależy od kompromisu między czułością, liczbą fałszywych alarmów i przepustowością.

  • Detekcja twarzy: RetinaFace (Deng i in., 2020) z regresją punktów charakterystycznych ułatwia stabilne maskowanie przy pochyleniach i częściowym zasłonięciu. Skuteczność ocenia się m.in. na zbiorze WIDER FACE (Yang i in., 2016).
  • Detekcja tablic: modele YOLOv5/YOLOv8 (Ultralytics, 2020-) lub EfficientDet uczone na domenowych zbiorach (np. CCPD, 2018) umożliwiają wykrywanie małych obiektów przy zmiennym oświetleniu.
  • Śledzenie obiektów: DeepSORT (Wojke i in., 2017) oraz ByteTrack (Zhang i in., 2022) zwiększają ciągłość maskowania w dynamicznych scenach.
  • Wykonanie: wdrożenia on-premise z użyciem ONNX Runtime lub NVIDIA TensorRT upraszczają spełnienie wymogów minimalizacji i ograniczenia celu z art. 5 RODO poprzez lokalne przetwarzanie.

Dobór parametrów (np. sigma dla rozmycia Gaussa, rozmiar bloku pikselizacji, margines nadramki) powinien uwzględniać ryzyko reidentyfikacji w specyficznym scenariuszu użycia, co wpisuje się w wskazania ISO/IEC 20889:2018 dotyczące klasyfikacji technik de-identyfikacji.

Kluczowe parametry i metryki w anonimizacji opartej na AI

Ocena jakości powinna łączyć metryki detekcyjne z metrykami efektu maskowania. Poniżej zestawiamy najważniejsze miary i ich znaczenie operacyjne.

Metryka

Definicja/uwagi

Jednostka

 

Precision (P)

P = TP / (TP + FP) - odsetek wykryć prawidłowych; ogranicza maskowanie nieistotnych obszarów

0-1

Recall (R)

R = TP / (TP + FN) - odsetek obiektów wykrytych; wysoki R minimalizuje ryzyko ujawnienia tożsamości

0-1

F1

F1 = 2PR / (P + R) - kompromis między P i R

0-1

IoU

IoU = |B∩B̂| / |B∪B̂| - nakładanie obszaru prawdy na detekcję; wpływa na mAP

0-1

mAP@[τ]

Średnia precyzja przy progu IoU τ (np. 0.5, 0.5:0.95) - standard w detekcji obiektów

0-1

Latency

Czas przetworzenia klatki (w tym detekcja i maskowanie)

ms/klatkę

Throughput

Liczba klatek na sekundę przy zadanym sprzęcie i rozdzielczości

fps

FPH/FN

Fałszywe pozytywy na godzinę oraz liczba utraconych obiektów - ważne w audycie ryzyka

liczba

Coverage

Procent powierzchni twarzy/tablicy zasłonięty maską po stabilizacji

%

Dla procesów zgodności kluczowe są wysoki recall oraz odpowiedni margines maski względem konturów, aby ograniczyć ryzyko reidentyfikacji w oparciu o detale brzegowe lub artefakty kompresji.

Wyzwania i ograniczenia

Skuteczność AI w anonimizacji zależy od warunków sceny oraz dystrybucji danych względem zbioru treningowego. Poniżej główne ryzyka techniczne i regulacyjne.

  • Warunki obrazu: silny ruch, rozmycie ruchowe, niski kontrast i okluzje obniżają recall, zwłaszcza dla małych tablic.
  • Różnorodność domen: tablice o nietypowych fontach i układach, maski na twarzach, okulary, kąty skrajne - wymagają adaptacji lub treningu domenowego.
  • Stabilność maski: brak śledzenia powoduje migotanie masek; rozwiązaniem są algorytmy MOT i wygładzanie torów.
  • Aspekty prawne: zgodnie z EDPB (Wytyczne 3/2019) wizerunek osoby może stanowić dane osobowe, a numer rejestracyjny może stanowić dane osobowe w zależności od kontekstu i możliwości identyfikacji, więc przed publikacją lub udostępnieniem materiału należy ocenić ryzyko i podstawę prawną; w praktyce często stosuje się zamazywanie tablic i twarzy. W Polsce stanowiska organów i orzecznictwo wskazują, że status tablic rejestracyjnych jako danych osobowych jest zależny od okoliczności i nie zawsze jednoznaczny.

Dobór technik i progów operacyjnych powinien wynikać z analizy ryzyka oraz przejrzystych polityk przetwarzania, z odniesieniem do ISO/IEC 27001:2022 (zarządzanie bezpieczeństwem informacji) i ISO/IEC 20889:2018 (klasyfikacja de-identyfikacji).

Odniesienia normatywne i źródła

Poniższa bibliografia obejmuje akty prawne, standardy i publikacje techniczne, które umożliwiają weryfikację definicji i praktyk opisanych powyżej.

  • RODO: Rozporządzenie (UE) 2016/679, motyw 26 i art. 4 - źródło: EUR-Lex, 2016.
  • EDPB: Wytyczne 3/2019 w sprawie przetwarzania danych osobowych przez urządzenia wizyjne, wersja 2.0, 2020.
  • WP29/EDPB: Opinion 05/2014 on Anonymisation Techniques (WP216), 2014.
  • ISO/IEC 20889:2018 - Privacy enhancing data de-identification - Terminology and classification, ISO, 2018.
  • ISO/IEC 27001:2022 - Information security, cybersecurity and privacy protection - ISMS requirements, ISO, 2022.
  • ENISA: Recommendations on shaping technology according to GDPR provisions, 2019.
  • RetinaFace: Jiankang Deng et al., "RetinaFace: Single-shot Multi-Level Face Localisation in the Wild", CVPR Workshops, 2020.
  • WIDER FACE: Shuo Yang et al., "WIDER FACE: A Face Detection Benchmark", CVPR, 2016.
  • YOLOv5/YOLOv8: Ultralytics Documentation and Model Cards, 2020-2023.
  • CCPD: X. Xu et al., "Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline", ECCV Workshops, 2018.
  • DeepSORT: N. Wojke, A. Bewley, D. Paulus, "Simple Online and Realtime Tracking with a Deep Association Metric", ICIP, 2017.
  • ByteTrack: Y. Zhang et al., "ByteTrack: Multi-Object Tracking by Associating Every Detection Box", ECCV, 2022.
  • UODO: Materiały i wytyczne dot. monitoringu wizyjnego i publikacji wizerunku - serwis uodo.gov.pl, przegląd 2018-2023.