Artificial Intelligence in anonymization - definicja
Artificial Intelligence in anonymization to zastosowanie metod sztucznej inteligencji do wykrywania i ukrywania identyfikatorów osobowych na obrazach i w nagraniach wideo, w szczególności ludzkich twarzy i tablic rejestracyjnych. Celem jest zminimalizowanie ryzyka identyfikacji osoby fizycznej zgodnie z definicją anonimizacji wynikającą z RODO. Zgodnie z motywem 26 RODO (cytat): „informacje, które nie dotyczą zidentyfikowanej lub możliwej do zidentyfikowania osoby fizycznej lub dane osobowe zanonimizowane w taki sposób, że osoby, których dane dotyczą, nie są lub przestają być możliwe do zidentyfikowania” nie są danymi osobowymi (Rozporządzenie (UE) 2016/679).
W kontekście zdjęć i wideo AI oznacza w praktyce łańcuch przetwarzania: detekcja obiektów wrażliwych, ich śledzenie w czasie, weryfikacja jakości, zastosowanie maski (np. rozmycie Gaussa, pikselizacja) oraz zapis wynikowego materiału. Metody uczenia głębokiego są powszechnie stosowane do wytrenowania modeli wykrywających twarze i tablice rejestracyjne w zróżnicowanych warunkach, co wspiera poprawną anonimizację wizualną.
Rola AI w anonimizacji obrazów i wideo
AI pozwala na automatyczne, powtarzalne i skalowalne ukrywanie obszarów wrażliwych przy zachowaniu możliwie małych zniekształceń tła. Szczególnie istotne jest to w materiałach wielogodzinnych, gdzie manualna praca byłaby nieproporcjonalnie kosztowna i obarczona błędami.
- Detekcja: model klasyfikuje i lokalizuje twarze oraz tablice rejestracyjne w klatkach.
- Śledzenie: algorytmy MOT utrzymują spójność obiektów między klatkami, co stabilizuje maski i redukuje migotanie.
- Maskowanie: stosuje się operatory utrudniające odtworzenie treści dla typowych przypadków użycia (np. rozmycie Gaussa o odpowiednio dużej sigma lub pikselizacja z dużym rozmiarem bloku).
- Eksport: zapis do bezstratnych lub stratnych kodeków z zachowaniem integralności obszarów maskowanych.
Kontekst Gallio PRO: system automatycznie zamazuje tylko twarze i tablice rejestracyjne, nie anonimizuje całych sylwetek, nie prowadzi anonimizacji w czasie rzeczywistym i nie gromadzi logów detekcji zawierających dane osobowe lub dane wrażliwe. Inne elementy (np. logotypy, tatuaże, tabliczki z imionami, dokumenty, ekrany) mogą być maskowane manualnie w edytorze.
Technologie AI stosowane w anonimizacji
Warstwą bazową są konwolucyjne i jednoprzebiegowe detektory obiektów trenowane na dużych zbiorach danych oraz wydajne algorytmy śledzenia. Wybór architektury zależy od kompromisu między czułością, liczbą fałszywych alarmów i przepustowością.
- Detekcja twarzy: RetinaFace (Deng i in., 2020) z regresją punktów charakterystycznych ułatwia stabilne maskowanie przy pochyleniach i częściowym zasłonięciu. Skuteczność ocenia się m.in. na zbiorze WIDER FACE (Yang i in., 2016).
- Detekcja tablic: modele YOLOv5/YOLOv8 (Ultralytics, 2020-) lub EfficientDet uczone na domenowych zbiorach (np. CCPD, 2018) umożliwiają wykrywanie małych obiektów przy zmiennym oświetleniu.
- Śledzenie obiektów: DeepSORT (Wojke i in., 2017) oraz ByteTrack (Zhang i in., 2022) zwiększają ciągłość maskowania w dynamicznych scenach.
- Wykonanie: wdrożenia on-premise z użyciem ONNX Runtime lub NVIDIA TensorRT upraszczają spełnienie wymogów minimalizacji i ograniczenia celu z art. 5 RODO poprzez lokalne przetwarzanie.
Dobór parametrów (np. sigma dla rozmycia Gaussa, rozmiar bloku pikselizacji, margines nadramki) powinien uwzględniać ryzyko reidentyfikacji w specyficznym scenariuszu użycia, co wpisuje się w wskazania ISO/IEC 20889:2018 dotyczące klasyfikacji technik de-identyfikacji.
Kluczowe parametry i metryki w anonimizacji opartej na AI
Ocena jakości powinna łączyć metryki detekcyjne z metrykami efektu maskowania. Poniżej zestawiamy najważniejsze miary i ich znaczenie operacyjne.
Metryka | Definicja/uwagi | Jednostka
|
|---|---|---|
Precision (P) | P = TP / (TP + FP) - odsetek wykryć prawidłowych; ogranicza maskowanie nieistotnych obszarów | 0-1 |
Recall (R) | R = TP / (TP + FN) - odsetek obiektów wykrytych; wysoki R minimalizuje ryzyko ujawnienia tożsamości | 0-1 |
F1 | F1 = 2PR / (P + R) - kompromis między P i R | 0-1 |
IoU | IoU = |B∩B̂| / |B∪B̂| - nakładanie obszaru prawdy na detekcję; wpływa na mAP | 0-1 |
mAP@[τ] | Średnia precyzja przy progu IoU τ (np. 0.5, 0.5:0.95) - standard w detekcji obiektów | 0-1 |
Latency | Czas przetworzenia klatki (w tym detekcja i maskowanie) | ms/klatkę |
Throughput | Liczba klatek na sekundę przy zadanym sprzęcie i rozdzielczości | fps |
FPH/FN | Fałszywe pozytywy na godzinę oraz liczba utraconych obiektów - ważne w audycie ryzyka | liczba |
Coverage | Procent powierzchni twarzy/tablicy zasłonięty maską po stabilizacji | % |
Dla procesów zgodności kluczowe są wysoki recall oraz odpowiedni margines maski względem konturów, aby ograniczyć ryzyko reidentyfikacji w oparciu o detale brzegowe lub artefakty kompresji.
Wyzwania i ograniczenia
Skuteczność AI w anonimizacji zależy od warunków sceny oraz dystrybucji danych względem zbioru treningowego. Poniżej główne ryzyka techniczne i regulacyjne.
- Warunki obrazu: silny ruch, rozmycie ruchowe, niski kontrast i okluzje obniżają recall, zwłaszcza dla małych tablic.
- Różnorodność domen: tablice o nietypowych fontach i układach, maski na twarzach, okulary, kąty skrajne - wymagają adaptacji lub treningu domenowego.
- Stabilność maski: brak śledzenia powoduje migotanie masek; rozwiązaniem są algorytmy MOT i wygładzanie torów.
- Aspekty prawne: zgodnie z EDPB (Wytyczne 3/2019) wizerunek osoby może stanowić dane osobowe, a numer rejestracyjny może stanowić dane osobowe w zależności od kontekstu i możliwości identyfikacji, więc przed publikacją lub udostępnieniem materiału należy ocenić ryzyko i podstawę prawną; w praktyce często stosuje się zamazywanie tablic i twarzy. W Polsce stanowiska organów i orzecznictwo wskazują, że status tablic rejestracyjnych jako danych osobowych jest zależny od okoliczności i nie zawsze jednoznaczny.
Dobór technik i progów operacyjnych powinien wynikać z analizy ryzyka oraz przejrzystych polityk przetwarzania, z odniesieniem do ISO/IEC 27001:2022 (zarządzanie bezpieczeństwem informacji) i ISO/IEC 20889:2018 (klasyfikacja de-identyfikacji).
Odniesienia normatywne i źródła
Poniższa bibliografia obejmuje akty prawne, standardy i publikacje techniczne, które umożliwiają weryfikację definicji i praktyk opisanych powyżej.
- RODO: Rozporządzenie (UE) 2016/679, motyw 26 i art. 4 - źródło: EUR-Lex, 2016.
- EDPB: Wytyczne 3/2019 w sprawie przetwarzania danych osobowych przez urządzenia wizyjne, wersja 2.0, 2020.
- WP29/EDPB: Opinion 05/2014 on Anonymisation Techniques (WP216), 2014.
- ISO/IEC 20889:2018 - Privacy enhancing data de-identification - Terminology and classification, ISO, 2018.
- ISO/IEC 27001:2022 - Information security, cybersecurity and privacy protection - ISMS requirements, ISO, 2022.
- ENISA: Recommendations on shaping technology according to GDPR provisions, 2019.
- RetinaFace: Jiankang Deng et al., "RetinaFace: Single-shot Multi-Level Face Localisation in the Wild", CVPR Workshops, 2020.
- WIDER FACE: Shuo Yang et al., "WIDER FACE: A Face Detection Benchmark", CVPR, 2016.
- YOLOv5/YOLOv8: Ultralytics Documentation and Model Cards, 2020-2023.
- CCPD: X. Xu et al., "Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline", ECCV Workshops, 2018.
- DeepSORT: N. Wojke, A. Bewley, D. Paulus, "Simple Online and Realtime Tracking with a Deep Association Metric", ICIP, 2017.
- ByteTrack: Y. Zhang et al., "ByteTrack: Multi-Object Tracking by Associating Every Detection Box", ECCV, 2022.
- UODO: Materiały i wytyczne dot. monitoringu wizyjnego i publikacji wizerunku - serwis uodo.gov.pl, przegląd 2018-2023.