Czym jest Deep Learning?

Spis treści

Deep Learning - definicja
Rola deep learning w anonimizacji obrazu i wideo
Technologie deep learning stosowane do zamazywania twarzy i tablic
Kluczowe parametry i metryki (deep learning dla anonimizacji)
Wyzwania i ograniczenia
Przykłady zastosowań i praktyka operacyjna w Gallio PRO
Odniesienia normatywne i źródła

Deep Learning - definicja

Deep Learning to podzbiór uczenia maszynowego wykorzystujący wielowarstwowe sztuczne sieci neuronowe do uczenia reprezentacji danych i rozwiązywania złożonych zadań percepcyjnych, takich jak detekcja obiektów, segmentacja i klasyfikacja obrazów. Definicję tę przyjmuje m.in. ISO/IEC 22989:2022, które porządkuje pojęcia sztucznej inteligencji (źródło: ISO/IEC 22989:2022). W kontekście anonimizacji zdjęć i wideo deep learning jest podstawą do trenowania modeli detekcji twarzy i tablic rejestracyjnych, które następnie umożliwiają automatyczne zamazywanie tych obszarów z zachowaniem spójności i zgodności z przepisami o ochronie danych.

Rola deep learning w anonimizacji obrazu i wideo

Aby zamazywać twarze i tablice rejestracyjne, potrzebne są niezawodne modele detekcji działające na obrazach i sekwencjach wideo. Deep learning dostarcza takich modeli dzięki konwolucyjnym i hybrydowym architekturom, które potrafią wykrywać obiekty w różnych warunkach oświetlenia, perspektywach i skalach. W Gallio PRO modele deep learning służą do automatycznej identyfikacji obszarów twarzy oraz tablic rejestracyjnych, po czym aplikowany jest filtr rozmycia lub pikselizacji. Oprogramowanie nie wykrywa automatycznie logotypów, tatuaży, tabliczek z imionami ani treści na ekranach - elementy te można zamazywać w edytorze manualnym. Gallio PRO nie obsługuje anonimizacji w czasie rzeczywistym oraz nie realizuje anonimizacji strumienia wideo. Zakres automatyzacji obejmuje wyłącznie twarze i tablice rejestracyjne.

Technologie deep learning stosowane do zamazywania twarzy i tablic

Wykrywanie obszarów do anonimizacji opiera się na sprawdzonych klasach modeli i procedurach oceny. Poniżej wymieniono najczęściej stosowane podejścia wraz ze źródłami naukowymi i standardami ewaluacji.

Detekcja twarzy: jednooprzebiegowe detektory konwolucyjne, np. RetinaFace i SCRFD, łączą ekstrakcję cech z detekcją punktów charakterystycznych, co ułatwia stabilne maskowanie nawet przy pochyleniach głowy (źródła: Deng et al., CVPR 2020 - RetinaFace; Guo et al., 2021 - SCRFD; zbiór WIDER FACE - Yang et al., 2016).
Detekcja tablic rejestracyjnych: stosuje się detektory obiektów ogólnego przeznaczenia dopasowane do klasy “license plate” oraz specjalizowane rozwiązania w ramach łańcucha ALPR. Do badań i walidacji używa się publicznych zbiorów UFPR-ALPR i AOLP (źródła: Gonçalves et al., 2018 - UFPR-ALPR; Hsieh et al., 2011 - AOLP).
Śledzenie wideo: po detekcji w kolejnych klatkach stosuje się algorytmy asocjacji, takie jak DeepSORT lub ByteTrack, aby zapewnić ciągłość maskowania tego samego obiektu przez czas trwania ujęcia i ograniczyć migotanie masek (źródła: Wojke et al., 2017 - DeepSORT; Zhang et al., 2022 - ByteTrack).
Pre i postprocessing: normalizacja wejścia, nienadmierne skalowanie obrazów, NMS lub Soft-NMS w celu redukcji duplikatów detekcji, a następnie deterministyczne filtry rozmycia lub mozaiki na wyznaczonych obszarach. Ewaluację prowadzi się zgodnie z metodykami VOC/COCO, tj. przy użyciu IoU i mAP (źródła: Everingham et al., IJCV 2015 - PASCAL VOC; Lin et al., ECCV 2014 - COCO).

Kluczowe parametry i metryki (deep learning dla anonimizacji)

W praktyce Inspektor Ochrony Danych i zespół techniczny potrzebują mierzalnych kryteriów. Poniższe metryki i atrybuty pozwalają ocenić, czy system anonimizacji oparty na deep learning osiąga oczekiwany poziom jakości i bezpieczeństwa przetwarzania.

Metryka/atrybut	Definicja	Jak mierzyć	Znaczenie dla anonimizacji
Precision i Recall	Precision - odsetek detekcji będących prawdziwymi pozytywami. Recall - odsetek obiektów poprawnie wykrytych.	Na danych walidacyjnych z adnotacjami. Zgodnie z praktyką VOC/COCO obiekt uznaje się za wykryty, gdy IoU przekracza ustalony próg (VOC historycznie IoU=0,5; COCO stosuje średnią AP dla progów 0,5 do 0,95 w krokach 0,05 - źródła: VOC, COCO).	W anonimizacji priorytetem jest wysoki Recall, aby zminimalizować ryzyko pozostawienia niezamazanej twarzy lub tablicy.
mAP	Średnia precyzja (Average Precision) uśredniona po klasach; w metryce COCO dodatkowo uśredniana po progach IoU.	mAP@0,5 (VOC) lub mAP@[0,5:0,95] (COCO). Standaryzowane protokoły ewaluacji wg publikacji VOC/COCO.	Kompleksowa ocena detektora twarzy i tablic dla różnych poziomów nakładania masek.
IoU	Intersection over Union - miara nakładania się predykcji i adnotacji. IoU = pole_części_wspólnej / pole_sumy.	Obliczane dla każdego obiektu. Wybór progu zależy od zastosowania i polityki akceptacji błędów.	Wyższe IoU oznacza precyzyjniejsze maski i mniejsze ryzyko ujawnienia fragmentów wizerunku.
Latency i FPS	Opóźnienie przetwarzania na klatkę i przepustowość w klatkach na sekundę.	Pomiary end-to-end na docelowej infrastrukturze on-premise z reprezentatywnymi rozdzielczościami.	Wpływa na czas realizacji zleceń i planowanie mocy obliczeniowej, choć w Gallio PRO nie chodzi o tryb czasu rzeczywistego.
Stabilność śledzenia	Jakość utrzymania tożsamości torów obiektów między klatkami (identity preservation) w śledzeniu wieloobiektowym.	Wskaźniki typu IDF1, HOTA dla śledzenia wieloobiektowego (źródła: standardowe metryki MOT).	Redukuje migotanie i przerwy w maskowaniu w dłuższych ujęciach.
Drift danych	Zmiana rozkładu danych wejściowych względem treningu.	Monitoring statystyk i walidacja okresowa; zgodnie z ISO/IEC 23053:2022, cykl życia ML powinien uwzględniać nadzór nad systemem.	Zapobiega spadkom Recall na nowych kamerach, nocnych scenach lub innych domenach.

Wyzwania i ograniczenia

Skuteczność deep learning w anonimizacji zależy od jakości danych, doboru modeli i kontroli ryzyk. Poniżej kluczowe zagadnienia, które należy uwzględnić przy projektowaniu i audycie rozwiązania.

Warunki trudne: silny ruch kamery, rozmycie ruchowe, skrajne kąty i częściowe zasłonięcia utrudniają detekcję. Dobór architektury oraz augmentacji treningowych ma krytyczne znaczenie (źródła: WIDER FACE kataloguje te trudności).
Drift domeny: nowe typy kamer, kompresja, oświetlenie IR i różne style tablic rejestracyjnych mogą obniżać Recall. Wymagana jest walidacja okresowa i ewentualne dotrenowanie modelu (ISO/IEC 23053:2022).
Ryzyko prywatności: fałszywe negatywy stanowią ryzyko naruszenia RODO. W praktyce stosuje się podejścia defensywne, np. niższe progi pewności dla klasy “face” i przegląd próbek granicznych przez operatora (privacy by design - RODO art. 25).
Aspekty prawne: EDPB w Wytycznych 3/2019 wskazuje, że wizerunek osoby (a także dane umożliwiające identyfikację pośrednią w określonym kontekście, np. numer rejestracyjny) może stanowić dane osobowe, co uzasadnia ich anonimizowanie przed udostępnieniem nagrań. W części jurysdykcji co do tablic istnieją rozbieżności interpretacyjne, dlatego polityka organizacji powinna przyjmować podejście ostrożnościowe, oparte na zasadzie minimalizacji danych (RODO art. 5 ust. 1 lit. c).
Granice funkcjonalne: Gallio PRO automatycznie zamazuje wyłącznie twarze i tablice rejestracyjne. Inne elementy można maskować manualnie w edytorze. Oprogramowanie działa on-premise i nie gromadzi logów zawierających detekcje, dane osobowe ani dane wrażliwe.

Przykłady zastosowań i praktyka operacyjna w Gallio PRO

Typowy proces przetwarzania obejmuje przygotowanie materiału, inferencję modeli i walidację. Wersja on-premise pozwala utrzymać pełną kontrolę nad danymi i spełnić wymagania bezpieczeństwa przetwarzania z art. 32 RODO oraz dobrych praktyk zarządzania ryzykiem AI.

Przygotowanie: import materiałów, wybór profilu anonimizacji, konfiguracja typu filtra (rozmycie, mozaika) i ewentualnych wyjątków operacyjnych.
Inferencja: detekcja twarzy i tablic, asocjacja międzyklatkowa, wyznaczenie stabilnych masek i aplikacja efektu wizualnego. Brak przetwarzania na żywo. Możliwość pracy wsadowej na zasobach GPU/CPU dostępnych lokalnie.
Kontrola jakości: przegląd próbek, w razie potrzeby korekta manualna w edytorze. Dla projektów o podwyższonym ryzyku rekomendowane jest próbkowanie statystyczne wyników i raport metryk Recall/Precision na zestawie kontrolnym.
Zarządzanie cyklem życia: monitorowanie driftu danych, aktualizacje modelu zgodnie z ISO/IEC 23053:2022 i zarządzanie ryzykiem wg ISO/IEC 23894:2023 oraz NIST AI RMF 1.0 (2023).

Odniesienia normatywne i źródła

ISO/IEC 22989:2022 - Information technology - Artificial intelligence - Artificial intelligence concepts and terminology. Definicje pojęć AI, w tym deep learning.
ISO/IEC 23053:2022 - Framework for Artificial Intelligence (AI) systems using machine learning. Cykl życia i nadzór nad modelami.
ISO/IEC 23894:2023 - Artificial intelligence - Risk management. Ramy zarządzania ryzykiem AI.
ISO/IEC 20889:2018 - Privacy enhancing data de-identification terminology and classification of techniques. Klasy technik deidentyfikacji stosowalne do obrazów.
Rozporządzenie (UE) 2016/679 (RODO) - w szczególności art. 4 ust. 1, art. 5 ust. 1 lit. c, art. 25, art. 32. Tekst Dz.U. UE L 119 z 2016 r.
EDPB, Guidelines 3/2019 on processing of personal data through video devices, wersja przyjęta 29.01.2020. Przykłady dotyczące wizerunku i tablic rejestracyjnych.
NIST AI Risk Management Framework 1.0, 2023. Wytyczne zarządzania ryzykiem w systemach AI.
Everingham et al., The PASCAL Visual Object Classes Challenge: A Retrospective, IJCV 2015. Protokół VOC i IoU=0,5.
Lin et al., Microsoft COCO: Common Objects in Context, ECCV 2014. mAP obliczane jako średnia AP dla progów IoU 0,5:0,95.
Yang et al., WIDER FACE: A Face Detection Benchmark, CVPR 2016. Benchmark trudnych scen dla detekcji twarzy.
Deng et al., RetinaFace: Single-stage Dense Face Localisation in the Wild, CVPR 2020. Detekcja twarzy i punktów charakterystycznych.
Guo et al., SCRFD: Towards Efficient Face Detection via Structure Rectified Feature Pyramid, 2021. Lekki i wydajny detektor twarzy.
Wojke et al., Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT), 2017. Śledzenie obiektów w wideo.
Zhang et al., ByteTrack: Multi-Object Tracking by Associating Every Detection Box, ECCV 2022. Stabilne śledzenie bez odrzucania słabszych detekcji.
Gonçalves et al., A Benchmark for Automatic License Plate Recognition (UFPR-ALPR), 2018. Publiczny zestaw do badań ALPR.
Hsieh et al., Video-Based Vehicle License Plate Recognition, Journal of Visual Communication and Image Representation, 2011 (AOLP). Zbiór i protokół badań tablic.

Zobacz także

Powrót do słownika