Czym jest Deep Learning?

Deep Learning - definicja

Deep Learning to podzbiór uczenia maszynowego wykorzystujący wielowarstwowe sztuczne sieci neuronowe do uczenia reprezentacji danych i rozwiązywania złożonych zadań percepcyjnych, takich jak detekcja obiektów, segmentacja i klasyfikacja obrazów. Definicję tę przyjmuje m.in. ISO/IEC 22989:2022, które porządkuje pojęcia sztucznej inteligencji (źródło: ISO/IEC 22989:2022). W kontekście anonimizacji zdjęć i wideo deep learning jest podstawą do trenowania modeli detekcji twarzy i tablic rejestracyjnych, które następnie umożliwiają automatyczne zamazywanie tych obszarów z zachowaniem spójności i zgodności z przepisami o ochronie danych.

Rola deep learning w anonimizacji obrazu i wideo

Aby zamazywać twarze i tablice rejestracyjne, potrzebne są niezawodne modele detekcji działające na obrazach i sekwencjach wideo. Deep learning dostarcza takich modeli dzięki konwolucyjnym i hybrydowym architekturom, które potrafią wykrywać obiekty w różnych warunkach oświetlenia, perspektywach i skalach. W Gallio PRO modele deep learning służą do automatycznej identyfikacji obszarów twarzy oraz tablic rejestracyjnych, po czym aplikowany jest filtr rozmycia lub pikselizacji. Oprogramowanie nie wykrywa automatycznie logotypów, tatuaży, tabliczek z imionami ani treści na ekranach - elementy te można zamazywać w edytorze manualnym. Gallio PRO nie obsługuje anonimizacji w czasie rzeczywistym oraz nie realizuje anonimizacji strumienia wideo. Zakres automatyzacji obejmuje wyłącznie twarze i tablice rejestracyjne.

Technologie deep learning stosowane do zamazywania twarzy i tablic

Wykrywanie obszarów do anonimizacji opiera się na sprawdzonych klasach modeli i procedurach oceny. Poniżej wymieniono najczęściej stosowane podejścia wraz ze źródłami naukowymi i standardami ewaluacji.

  • Detekcja twarzy: jednooprzebiegowe detektory konwolucyjne, np. RetinaFace i SCRFD, łączą ekstrakcję cech z detekcją punktów charakterystycznych, co ułatwia stabilne maskowanie nawet przy pochyleniach głowy (źródła: Deng et al., CVPR 2020 - RetinaFace; Guo et al., 2021 - SCRFD; zbiór WIDER FACE - Yang et al., 2016).
  • Detekcja tablic rejestracyjnych: stosuje się detektory obiektów ogólnego przeznaczenia dopasowane do klasy “license plate” oraz specjalizowane rozwiązania w ramach łańcucha ALPR. Do badań i walidacji używa się publicznych zbiorów UFPR-ALPR i AOLP (źródła: Gonçalves et al., 2018 - UFPR-ALPR; Hsieh et al., 2011 - AOLP).
  • Śledzenie wideo: po detekcji w kolejnych klatkach stosuje się algorytmy asocjacji, takie jak DeepSORT lub ByteTrack, aby zapewnić ciągłość maskowania tego samego obiektu przez czas trwania ujęcia i ograniczyć migotanie masek (źródła: Wojke et al., 2017 - DeepSORT; Zhang et al., 2022 - ByteTrack).
  • Pre i postprocessing: normalizacja wejścia, nienadmierne skalowanie obrazów, NMS lub Soft-NMS w celu redukcji duplikatów detekcji, a następnie deterministyczne filtry rozmycia lub mozaiki na wyznaczonych obszarach. Ewaluację prowadzi się zgodnie z metodykami VOC/COCO, tj. przy użyciu IoU i mAP (źródła: Everingham et al., IJCV 2015 - PASCAL VOC; Lin et al., ECCV 2014 - COCO).

Kluczowe parametry i metryki (deep learning dla anonimizacji)

W praktyce Inspektor Ochrony Danych i zespół techniczny potrzebują mierzalnych kryteriów. Poniższe metryki i atrybuty pozwalają ocenić, czy system anonimizacji oparty na deep learning osiąga oczekiwany poziom jakości i bezpieczeństwa przetwarzania.

Metryka/atrybut

Definicja

Jak mierzyć

Znaczenie dla anonimizacji

 

Precision i Recall

Precision - odsetek detekcji będących prawdziwymi pozytywami. Recall - odsetek obiektów poprawnie wykrytych.

Na danych walidacyjnych z adnotacjami. Zgodnie z praktyką VOC/COCO obiekt uznaje się za wykryty, gdy IoU przekracza ustalony próg (VOC historycznie IoU=0,5; COCO stosuje średnią AP dla progów 0,5 do 0,95 w krokach 0,05 - źródła: VOC, COCO).

W anonimizacji priorytetem jest wysoki Recall, aby zminimalizować ryzyko pozostawienia niezamazanej twarzy lub tablicy.

mAP

Średnia precyzja (Average Precision) uśredniona po klasach; w metryce COCO dodatkowo uśredniana po progach IoU.

mAP@0,5 (VOC) lub mAP@[0,5:0,95] (COCO). Standaryzowane protokoły ewaluacji wg publikacji VOC/COCO.

Kompleksowa ocena detektora twarzy i tablic dla różnych poziomów nakładania masek.

IoU

Intersection over Union - miara nakładania się predykcji i adnotacji. IoU = pole_części_wspólnej / pole_sumy.

Obliczane dla każdego obiektu. Wybór progu zależy od zastosowania i polityki akceptacji błędów.

Wyższe IoU oznacza precyzyjniejsze maski i mniejsze ryzyko ujawnienia fragmentów wizerunku.

Latency i FPS

Opóźnienie przetwarzania na klatkę i przepustowość w klatkach na sekundę.

Pomiary end-to-end na docelowej infrastrukturze on-premise z reprezentatywnymi rozdzielczościami.

Wpływa na czas realizacji zleceń i planowanie mocy obliczeniowej, choć w Gallio PRO nie chodzi o tryb czasu rzeczywistego.

Stabilność śledzenia

Jakość utrzymania tożsamości torów obiektów między klatkami (identity preservation) w śledzeniu wieloobiektowym.

Wskaźniki typu IDF1, HOTA dla śledzenia wieloobiektowego (źródła: standardowe metryki MOT).

Redukuje migotanie i przerwy w maskowaniu w dłuższych ujęciach.

Drift danych

Zmiana rozkładu danych wejściowych względem treningu.

Monitoring statystyk i walidacja okresowa; zgodnie z ISO/IEC 23053:2022, cykl życia ML powinien uwzględniać nadzór nad systemem.

Zapobiega spadkom Recall na nowych kamerach, nocnych scenach lub innych domenach.

Wyzwania i ograniczenia

Skuteczność deep learning w anonimizacji zależy od jakości danych, doboru modeli i kontroli ryzyk. Poniżej kluczowe zagadnienia, które należy uwzględnić przy projektowaniu i audycie rozwiązania.

  • Warunki trudne: silny ruch kamery, rozmycie ruchowe, skrajne kąty i częściowe zasłonięcia utrudniają detekcję. Dobór architektury oraz augmentacji treningowych ma krytyczne znaczenie (źródła: WIDER FACE kataloguje te trudności).
  • Drift domeny: nowe typy kamer, kompresja, oświetlenie IR i różne style tablic rejestracyjnych mogą obniżać Recall. Wymagana jest walidacja okresowa i ewentualne dotrenowanie modelu (ISO/IEC 23053:2022).
  • Ryzyko prywatności: fałszywe negatywy stanowią ryzyko naruszenia RODO. W praktyce stosuje się podejścia defensywne, np. niższe progi pewności dla klasy “face” i przegląd próbek granicznych przez operatora (privacy by design - RODO art. 25).
  • Aspekty prawne: EDPB w Wytycznych 3/2019 wskazuje, że wizerunek osoby (a także dane umożliwiające identyfikację pośrednią w określonym kontekście, np. numer rejestracyjny) może stanowić dane osobowe, co uzasadnia ich anonimizowanie przed udostępnieniem nagrań. W części jurysdykcji co do tablic istnieją rozbieżności interpretacyjne, dlatego polityka organizacji powinna przyjmować podejście ostrożnościowe, oparte na zasadzie minimalizacji danych (RODO art. 5 ust. 1 lit. c).
  • Granice funkcjonalne: Gallio PRO automatycznie zamazuje wyłącznie twarze i tablice rejestracyjne. Inne elementy można maskować manualnie w edytorze. Oprogramowanie działa on-premise i nie gromadzi logów zawierających detekcje, dane osobowe ani dane wrażliwe.

Przykłady zastosowań i praktyka operacyjna w Gallio PRO

Typowy proces przetwarzania obejmuje przygotowanie materiału, inferencję modeli i walidację. Wersja on-premise pozwala utrzymać pełną kontrolę nad danymi i spełnić wymagania bezpieczeństwa przetwarzania z art. 32 RODO oraz dobrych praktyk zarządzania ryzykiem AI.

  • Przygotowanie: import materiałów, wybór profilu anonimizacji, konfiguracja typu filtra (rozmycie, mozaika) i ewentualnych wyjątków operacyjnych.
  • Inferencja: detekcja twarzy i tablic, asocjacja międzyklatkowa, wyznaczenie stabilnych masek i aplikacja efektu wizualnego. Brak przetwarzania na żywo. Możliwość pracy wsadowej na zasobach GPU/CPU dostępnych lokalnie.
  • Kontrola jakości: przegląd próbek, w razie potrzeby korekta manualna w edytorze. Dla projektów o podwyższonym ryzyku rekomendowane jest próbkowanie statystyczne wyników i raport metryk Recall/Precision na zestawie kontrolnym.
  • Zarządzanie cyklem życia: monitorowanie driftu danych, aktualizacje modelu zgodnie z ISO/IEC 23053:2022 i zarządzanie ryzykiem wg ISO/IEC 23894:2023 oraz NIST AI RMF 1.0 (2023).

Odniesienia normatywne i źródła

  • ISO/IEC 22989:2022 - Information technology - Artificial intelligence - Artificial intelligence concepts and terminology. Definicje pojęć AI, w tym deep learning.
  • ISO/IEC 23053:2022 - Framework for Artificial Intelligence (AI) systems using machine learning. Cykl życia i nadzór nad modelami.
  • ISO/IEC 23894:2023 - Artificial intelligence - Risk management. Ramy zarządzania ryzykiem AI.
  • ISO/IEC 20889:2018 - Privacy enhancing data de-identification terminology and classification of techniques. Klasy technik deidentyfikacji stosowalne do obrazów.
  • Rozporządzenie (UE) 2016/679 (RODO) - w szczególności art. 4 ust. 1, art. 5 ust. 1 lit. c, art. 25, art. 32. Tekst Dz.U. UE L 119 z 2016 r.
  • EDPB, Guidelines 3/2019 on processing of personal data through video devices, wersja przyjęta 29.01.2020. Przykłady dotyczące wizerunku i tablic rejestracyjnych.
  • NIST AI Risk Management Framework 1.0, 2023. Wytyczne zarządzania ryzykiem w systemach AI.
  • Everingham et al., The PASCAL Visual Object Classes Challenge: A Retrospective, IJCV 2015. Protokół VOC i IoU=0,5.
  • Lin et al., Microsoft COCO: Common Objects in Context, ECCV 2014. mAP obliczane jako średnia AP dla progów IoU 0,5:0,95.
  • Yang et al., WIDER FACE: A Face Detection Benchmark, CVPR 2016. Benchmark trudnych scen dla detekcji twarzy.
  • Deng et al., RetinaFace: Single-stage Dense Face Localisation in the Wild, CVPR 2020. Detekcja twarzy i punktów charakterystycznych.
  • Guo et al., SCRFD: Towards Efficient Face Detection via Structure Rectified Feature Pyramid, 2021. Lekki i wydajny detektor twarzy.
  • Wojke et al., Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT), 2017. Śledzenie obiektów w wideo.
  • Zhang et al., ByteTrack: Multi-Object Tracking by Associating Every Detection Box, ECCV 2022. Stabilne śledzenie bez odrzucania słabszych detekcji.
  • Gonçalves et al., A Benchmark for Automatic License Plate Recognition (UFPR-ALPR), 2018. Publiczny zestaw do badań ALPR.
  • Hsieh et al., Video-Based Vehicle License Plate Recognition, Journal of Visual Communication and Image Representation, 2011 (AOLP). Zbiór i protokół badań tablic.