Deep Learning - definicja
Deep Learning to podzbiór uczenia maszynowego wykorzystujący wielowarstwowe sztuczne sieci neuronowe do uczenia reprezentacji danych i rozwiązywania złożonych zadań percepcyjnych, takich jak detekcja obiektów, segmentacja i klasyfikacja obrazów. Definicję tę przyjmuje m.in. ISO/IEC 22989:2022, które porządkuje pojęcia sztucznej inteligencji (źródło: ISO/IEC 22989:2022). W kontekście anonimizacji zdjęć i wideo deep learning jest podstawą do trenowania modeli detekcji twarzy i tablic rejestracyjnych, które następnie umożliwiają automatyczne zamazywanie tych obszarów z zachowaniem spójności i zgodności z przepisami o ochronie danych.
Rola deep learning w anonimizacji obrazu i wideo
Aby zamazywać twarze i tablice rejestracyjne, potrzebne są niezawodne modele detekcji działające na obrazach i sekwencjach wideo. Deep learning dostarcza takich modeli dzięki konwolucyjnym i hybrydowym architekturom, które potrafią wykrywać obiekty w różnych warunkach oświetlenia, perspektywach i skalach. W Gallio PRO modele deep learning służą do automatycznej identyfikacji obszarów twarzy oraz tablic rejestracyjnych, po czym aplikowany jest filtr rozmycia lub pikselizacji. Oprogramowanie nie wykrywa automatycznie logotypów, tatuaży, tabliczek z imionami ani treści na ekranach - elementy te można zamazywać w edytorze manualnym. Gallio PRO nie obsługuje anonimizacji w czasie rzeczywistym oraz nie realizuje anonimizacji strumienia wideo. Zakres automatyzacji obejmuje wyłącznie twarze i tablice rejestracyjne.
Technologie deep learning stosowane do zamazywania twarzy i tablic
Wykrywanie obszarów do anonimizacji opiera się na sprawdzonych klasach modeli i procedurach oceny. Poniżej wymieniono najczęściej stosowane podejścia wraz ze źródłami naukowymi i standardami ewaluacji.
- Detekcja twarzy: jednooprzebiegowe detektory konwolucyjne, np. RetinaFace i SCRFD, łączą ekstrakcję cech z detekcją punktów charakterystycznych, co ułatwia stabilne maskowanie nawet przy pochyleniach głowy (źródła: Deng et al., CVPR 2020 - RetinaFace; Guo et al., 2021 - SCRFD; zbiór WIDER FACE - Yang et al., 2016).
- Detekcja tablic rejestracyjnych: stosuje się detektory obiektów ogólnego przeznaczenia dopasowane do klasy “license plate” oraz specjalizowane rozwiązania w ramach łańcucha ALPR. Do badań i walidacji używa się publicznych zbiorów UFPR-ALPR i AOLP (źródła: Gonçalves et al., 2018 - UFPR-ALPR; Hsieh et al., 2011 - AOLP).
- Śledzenie wideo: po detekcji w kolejnych klatkach stosuje się algorytmy asocjacji, takie jak DeepSORT lub ByteTrack, aby zapewnić ciągłość maskowania tego samego obiektu przez czas trwania ujęcia i ograniczyć migotanie masek (źródła: Wojke et al., 2017 - DeepSORT; Zhang et al., 2022 - ByteTrack).
- Pre i postprocessing: normalizacja wejścia, nienadmierne skalowanie obrazów, NMS lub Soft-NMS w celu redukcji duplikatów detekcji, a następnie deterministyczne filtry rozmycia lub mozaiki na wyznaczonych obszarach. Ewaluację prowadzi się zgodnie z metodykami VOC/COCO, tj. przy użyciu IoU i mAP (źródła: Everingham et al., IJCV 2015 - PASCAL VOC; Lin et al., ECCV 2014 - COCO).
Kluczowe parametry i metryki (deep learning dla anonimizacji)
W praktyce Inspektor Ochrony Danych i zespół techniczny potrzebują mierzalnych kryteriów. Poniższe metryki i atrybuty pozwalają ocenić, czy system anonimizacji oparty na deep learning osiąga oczekiwany poziom jakości i bezpieczeństwa przetwarzania.
Metryka/atrybut | Definicja | Jak mierzyć | Znaczenie dla anonimizacji
|
|---|---|---|---|
Precision i Recall | Precision - odsetek detekcji będących prawdziwymi pozytywami. Recall - odsetek obiektów poprawnie wykrytych. | Na danych walidacyjnych z adnotacjami. Zgodnie z praktyką VOC/COCO obiekt uznaje się za wykryty, gdy IoU przekracza ustalony próg (VOC historycznie IoU=0,5; COCO stosuje średnią AP dla progów 0,5 do 0,95 w krokach 0,05 - źródła: VOC, COCO). | W anonimizacji priorytetem jest wysoki Recall, aby zminimalizować ryzyko pozostawienia niezamazanej twarzy lub tablicy. |
mAP | Średnia precyzja (Average Precision) uśredniona po klasach; w metryce COCO dodatkowo uśredniana po progach IoU. | mAP@0,5 (VOC) lub mAP@[0,5:0,95] (COCO). Standaryzowane protokoły ewaluacji wg publikacji VOC/COCO. | Kompleksowa ocena detektora twarzy i tablic dla różnych poziomów nakładania masek. |
IoU | Intersection over Union - miara nakładania się predykcji i adnotacji. IoU = pole_części_wspólnej / pole_sumy. | Obliczane dla każdego obiektu. Wybór progu zależy od zastosowania i polityki akceptacji błędów. | Wyższe IoU oznacza precyzyjniejsze maski i mniejsze ryzyko ujawnienia fragmentów wizerunku. |
Latency i FPS | Opóźnienie przetwarzania na klatkę i przepustowość w klatkach na sekundę. | Pomiary end-to-end na docelowej infrastrukturze on-premise z reprezentatywnymi rozdzielczościami. | Wpływa na czas realizacji zleceń i planowanie mocy obliczeniowej, choć w Gallio PRO nie chodzi o tryb czasu rzeczywistego. |
Stabilność śledzenia | Jakość utrzymania tożsamości torów obiektów między klatkami (identity preservation) w śledzeniu wieloobiektowym. | Wskaźniki typu IDF1, HOTA dla śledzenia wieloobiektowego (źródła: standardowe metryki MOT). | Redukuje migotanie i przerwy w maskowaniu w dłuższych ujęciach. |
Drift danych | Zmiana rozkładu danych wejściowych względem treningu. | Monitoring statystyk i walidacja okresowa; zgodnie z ISO/IEC 23053:2022, cykl życia ML powinien uwzględniać nadzór nad systemem. | Zapobiega spadkom Recall na nowych kamerach, nocnych scenach lub innych domenach. |
Wyzwania i ograniczenia
Skuteczność deep learning w anonimizacji zależy od jakości danych, doboru modeli i kontroli ryzyk. Poniżej kluczowe zagadnienia, które należy uwzględnić przy projektowaniu i audycie rozwiązania.
- Warunki trudne: silny ruch kamery, rozmycie ruchowe, skrajne kąty i częściowe zasłonięcia utrudniają detekcję. Dobór architektury oraz augmentacji treningowych ma krytyczne znaczenie (źródła: WIDER FACE kataloguje te trudności).
- Drift domeny: nowe typy kamer, kompresja, oświetlenie IR i różne style tablic rejestracyjnych mogą obniżać Recall. Wymagana jest walidacja okresowa i ewentualne dotrenowanie modelu (ISO/IEC 23053:2022).
- Ryzyko prywatności: fałszywe negatywy stanowią ryzyko naruszenia RODO. W praktyce stosuje się podejścia defensywne, np. niższe progi pewności dla klasy “face” i przegląd próbek granicznych przez operatora (privacy by design - RODO art. 25).
- Aspekty prawne: EDPB w Wytycznych 3/2019 wskazuje, że wizerunek osoby (a także dane umożliwiające identyfikację pośrednią w określonym kontekście, np. numer rejestracyjny) może stanowić dane osobowe, co uzasadnia ich anonimizowanie przed udostępnieniem nagrań. W części jurysdykcji co do tablic istnieją rozbieżności interpretacyjne, dlatego polityka organizacji powinna przyjmować podejście ostrożnościowe, oparte na zasadzie minimalizacji danych (RODO art. 5 ust. 1 lit. c).
- Granice funkcjonalne: Gallio PRO automatycznie zamazuje wyłącznie twarze i tablice rejestracyjne. Inne elementy można maskować manualnie w edytorze. Oprogramowanie działa on-premise i nie gromadzi logów zawierających detekcje, dane osobowe ani dane wrażliwe.
Przykłady zastosowań i praktyka operacyjna w Gallio PRO
Typowy proces przetwarzania obejmuje przygotowanie materiału, inferencję modeli i walidację. Wersja on-premise pozwala utrzymać pełną kontrolę nad danymi i spełnić wymagania bezpieczeństwa przetwarzania z art. 32 RODO oraz dobrych praktyk zarządzania ryzykiem AI.
- Przygotowanie: import materiałów, wybór profilu anonimizacji, konfiguracja typu filtra (rozmycie, mozaika) i ewentualnych wyjątków operacyjnych.
- Inferencja: detekcja twarzy i tablic, asocjacja międzyklatkowa, wyznaczenie stabilnych masek i aplikacja efektu wizualnego. Brak przetwarzania na żywo. Możliwość pracy wsadowej na zasobach GPU/CPU dostępnych lokalnie.
- Kontrola jakości: przegląd próbek, w razie potrzeby korekta manualna w edytorze. Dla projektów o podwyższonym ryzyku rekomendowane jest próbkowanie statystyczne wyników i raport metryk Recall/Precision na zestawie kontrolnym.
- Zarządzanie cyklem życia: monitorowanie driftu danych, aktualizacje modelu zgodnie z ISO/IEC 23053:2022 i zarządzanie ryzykiem wg ISO/IEC 23894:2023 oraz NIST AI RMF 1.0 (2023).
Odniesienia normatywne i źródła
- ISO/IEC 22989:2022 - Information technology - Artificial intelligence - Artificial intelligence concepts and terminology. Definicje pojęć AI, w tym deep learning.
- ISO/IEC 23053:2022 - Framework for Artificial Intelligence (AI) systems using machine learning. Cykl życia i nadzór nad modelami.
- ISO/IEC 23894:2023 - Artificial intelligence - Risk management. Ramy zarządzania ryzykiem AI.
- ISO/IEC 20889:2018 - Privacy enhancing data de-identification terminology and classification of techniques. Klasy technik deidentyfikacji stosowalne do obrazów.
- Rozporządzenie (UE) 2016/679 (RODO) - w szczególności art. 4 ust. 1, art. 5 ust. 1 lit. c, art. 25, art. 32. Tekst Dz.U. UE L 119 z 2016 r.
- EDPB, Guidelines 3/2019 on processing of personal data through video devices, wersja przyjęta 29.01.2020. Przykłady dotyczące wizerunku i tablic rejestracyjnych.
- NIST AI Risk Management Framework 1.0, 2023. Wytyczne zarządzania ryzykiem w systemach AI.
- Everingham et al., The PASCAL Visual Object Classes Challenge: A Retrospective, IJCV 2015. Protokół VOC i IoU=0,5.
- Lin et al., Microsoft COCO: Common Objects in Context, ECCV 2014. mAP obliczane jako średnia AP dla progów IoU 0,5:0,95.
- Yang et al., WIDER FACE: A Face Detection Benchmark, CVPR 2016. Benchmark trudnych scen dla detekcji twarzy.
- Deng et al., RetinaFace: Single-stage Dense Face Localisation in the Wild, CVPR 2020. Detekcja twarzy i punktów charakterystycznych.
- Guo et al., SCRFD: Towards Efficient Face Detection via Structure Rectified Feature Pyramid, 2021. Lekki i wydajny detektor twarzy.
- Wojke et al., Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT), 2017. Śledzenie obiektów w wideo.
- Zhang et al., ByteTrack: Multi-Object Tracking by Associating Every Detection Box, ECCV 2022. Stabilne śledzenie bez odrzucania słabszych detekcji.
- Gonçalves et al., A Benchmark for Automatic License Plate Recognition (UFPR-ALPR), 2018. Publiczny zestaw do badań ALPR.
- Hsieh et al., Video-Based Vehicle License Plate Recognition, Journal of Visual Communication and Image Representation, 2011 (AOLP). Zbiór i protokół badań tablic.