Czym są sieci neuronowe (ANN)?

Spis treści

Sieci neuronowe (ANN) - definicja
Rola w anonimizacji obrazów i wideo
Technologie stosowane w ANN dla zamazywania
Kluczowe parametry i metryki dla ANN w anonimizacji
Wyzwania i ograniczenia
Przykłady zastosowań w Gallio PRO
Odniesienia normatywne i źródła

Sieci neuronowe (ANN) - definicja

Sieci neuronowe (Artificial Neural Networks, ANN) to rodzina modeli uczenia maszynowego złożonych z warstw połączonych jednostek obliczeniowych, które przekształcają dane wejściowe w pożądane wyjścia poprzez uczenie wag. W kontekście przetwarzania obrazu i wideo używa się głównie głębokich sieci neuronowych (Deep Neural Networks, DNN), w tym konwolucyjnych sieci neuronowych (Convolutional Neural Networks, CNN), uczonych algorytmem wstecznej propagacji błędu, często na oznaczonych danych. Parafraza zgodna z ISO/IEC 22989:2022, które definiuje podstawowe pojęcia AI i ML, oraz z ujęciem ISO/IEC 23053:2022, które opisuje ramy systemów AI wykorzystujących ML.

W anonimizacji zdjęć i nagrań wideo sieci neuronowe pełnią kluczową funkcję detektora i/lub segmentatora obiektów wrażliwych. Model ANN lokalizuje twarze i tablice rejestracyjne, a następnie system stosuje operacje postprocessingu, takie jak rozmycie, pikselizacja lub zasłanianie maską. Jakość i bezpieczeństwo procesu zależą od skuteczności modelu w wykrywaniu wszystkich wystąpień obiektów przy akceptowalnym odsetku fałszywych alarmów.

Rola w anonimizacji obrazów i wideo

Wykrywanie twarzy - detektor CNN zwraca ramki ograniczające lub maski, które wyznaczają obszar do zamazania. Przykłady podejść: jednofazowe detektory obiektów oraz wyspecjalizowane detektory twarzy.
Wykrywanie tablic rejestracyjnych - modele detekcji obiektów lokalizują tablice w różnych warunkach oświetlenia i pod różnymi kątami. Segmentacja może doprecyzować kształt maski.
Śledzenie wideo - algorytmy asocjacji obiektów pomiędzy klatkami stabilizują maski i ograniczają migotanie. Działa to komplementarnie do ANN stosowanych do detekcji.
Postprocessing - po detekcji system nakłada filtr rozmycia o zadanej sile, pikselizację lub jednolitą maskę. Parametry postprocessingu dobiera się z uwzględnieniem wymogu, aby osoby nie były (lub nie były już) możliwe do zidentyfikowania, zgodnie z motywem 26 RODO.

Technologie stosowane w ANN dla zamazywania

Architektury detekcji: YOLOv3-v4 oraz nowsze odmiany jednofazowe - szybkość inferencji przy dobrej dokładności (Redmon i in. 2018, Bochkovskiy i in. 2020). Dwufazowe modele, np. Faster R-CNN, zapewniają wysoką precyzję kosztem opóźnienia.
Detektory twarzy: RetinaFace łączy detekcję z estymacją punktów charakterystycznych, co poprawia lokalizację maski na niestandardowych pozach (Deng i in. 2020).
Segmentacja: U-Net i pochodne precyzyjnie wyznaczają kontury, gdy potrzebna jest maska o nieregularnym kształcie (Ronneberger i in. 2015).
Formaty i wdrożenia: PyTorch lub TensorFlow do trenowania, konwersja do ONNX lub TensorRT na potrzeby wdrożeń on-premise. Optymalizacje: kwantyzacja INT8, przerzedzanie, fuzja warstw.
Przyspieszenie: GPU z obsługą CUDA i cuDNN, alternatywnie CPU z AVX2 oraz akceleratory NPU. Wydajność zależy od rozdzielczości wejścia, wielkości batchu i złożoności sieci.

Kluczowe parametry i metryki dla ANN w anonimizacji

Parametr	Definicja	Znaczenie w praktyce	Źródło
IoU	Intersection over Union - pole wspólne podzielone przez pole sumy dla ramki detekcji i ramki prawdy (ground truth).	Ustalanie dopasowania detekcji do obiektu. Typowy próg oceny to 0.5.	Pascal VOC
Precision	TP / (TP + FP)	Im wyższa, tym mniej zamazanych obszarów niebędących twarzami lub tablicami.	COCO, VOC
Recall	TP / (TP + FN)	Krytyczny dla ochrony prywatności - minimalizuje pominięte twarze.	COCO, VOC
F1	2 × Precision × Recall / (Precision + Recall)	Zrównoważona miara dla doboru progu ufności.	COCO, VOC
[email protected]	Średnia precyzja (mAP) dla progu IoU = 0.5	Klasyczna miara dla detekcji obiektów według metodyki VOC.	Pascal VOC
[email protected]:0.95	Średnia mAP po IoU 0.5 do 0.95 co 0.05	Wymagająca metryka od COCO - lepiej odzwierciedla ogólną jakość.	COCO
Opóźnienie	Czas inferencji na klatkę [ms]	Istotne dla płynności przetwarzania wideo (w tym przetwarzania wsadowego).	NIST AI RMF 2023
Przepustowość	Klatki na sekundę [fps]	Planowanie mocy obliczeniowej on-premise.	NIST AI RMF 2023
Confidence threshold	Minimalna ufność modelu dla zgłoszenia detekcji	Wyższy próg - mniej fałszywych alarmów, ale ryzyko utraty recall.	COCO
NMS IoU	Próg IoU dla supresji niemaksymalnych	Kontrola łączenia zduplikowanych ramek.	COCO

Źródła metryk: Pascal VOC (Everingham i in., 2010), COCO (Lin i in., 2014). NIST AI RMF 1.0 (2023) zaleca dobór i monitorowanie miar związanych m.in. z wydajnością i ryzykiem w cyklu życia systemów AI.

Wyzwania i ograniczenia

Zmiana domeny - spadek jakości poza rozkładem danych treningowych, np. inne kamery, oświetlenie, warunki pogodowe.
Zasłonięcia i rozmycie ruchu - trudniejsze detekcje, w tym profile i częściowe twarze.
Uprzedzenia danych - brak reprezentacji określonych grup może prowadzić do różnic w recall. Wymagane testy równości działania.
Adwersarialność - nietypowe wzory lub odbicia mogą zakłócać detekcję.
Wymogi prawne - modele operują na danych osobowych na etapie wejściowym. Potrzebne są podstawy prawne i zasada minimalizacji zgodnie z RODO.

Przykłady zastosowań w Gallio PRO

Automatyczne zamazywanie twarzy i tablic rejestracyjnych na zdjęciach i wideo z użyciem detektorów CNN. Oprogramowanie nie zamazuje całych sylwetek.
Brak przetwarzania w czasie rzeczywistym - przetwarzanie wsadowe plików, a nie strumienia.
Tryb manualny w edytorze dla innych elementów, np. logotypów, tatuaży, dokumentów czy ekranów - bez automatycznej detekcji tych klas.
Wdrożenie on-premise - kontrola przepływu danych w organizacji i brak wysyłania danych do chmury. System nie gromadzi logów zawierających dane o detekcjach twarzy i tablic.

Odniesienia normatywne i źródła

ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. ISO, 2022.
ISO/IEC 23053:2022 - Framework for AI systems using machine learning. ISO, 2022.
Rozporządzenie (UE) 2016/679 (RODO) - motyw 26 i art. 4 ust. 1. Dziennik Urzędowy UE, 2016.
EDPB, Guidelines 3/2019 on processing of personal data through video devices, wersja 2.0, 29.01.2020.
Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016.
Everingham et al., The Pascal Visual Object Classes challenge, IJCV, 2010.
Lin et al., Microsoft COCO, ECCV 2014.
Redmon, Farhadi, YOLOv3, arXiv:1804.02767, 2018. Bochkovskiy et al., YOLOv4, arXiv:2004.10934, 2020.
Deng et al., RetinaFace, arXiv:1905.00641, 2020.
Ronneberger et al., U-Net, MICCAI 2015.
NIST, AI Risk Management Framework 1.0, 2023.

Zobacz także

Powrót do słownika