Sieci neuronowe (ANN) - definicja
Sieci neuronowe (Artificial Neural Networks, ANN) to rodzina modeli uczenia maszynowego złożonych z warstw połączonych jednostek obliczeniowych, które przekształcają dane wejściowe w pożądane wyjścia poprzez uczenie wag. W kontekście przetwarzania obrazu i wideo używa się głównie głębokich sieci neuronowych (Deep Neural Networks, DNN), w tym konwolucyjnych sieci neuronowych (Convolutional Neural Networks, CNN), uczonych algorytmem wstecznej propagacji błędu, często na oznaczonych danych. Parafraza zgodna z ISO/IEC 22989:2022, które definiuje podstawowe pojęcia AI i ML, oraz z ujęciem ISO/IEC 23053:2022, które opisuje ramy systemów AI wykorzystujących ML.
W anonimizacji zdjęć i nagrań wideo sieci neuronowe pełnią kluczową funkcję detektora i/lub segmentatora obiektów wrażliwych. Model ANN lokalizuje twarze i tablice rejestracyjne, a następnie system stosuje operacje postprocessingu, takie jak rozmycie, pikselizacja lub zasłanianie maską. Jakość i bezpieczeństwo procesu zależą od skuteczności modelu w wykrywaniu wszystkich wystąpień obiektów przy akceptowalnym odsetku fałszywych alarmów.
Rola w anonimizacji obrazów i wideo
- Wykrywanie twarzy - detektor CNN zwraca ramki ograniczające lub maski, które wyznaczają obszar do zamazania. Przykłady podejść: jednofazowe detektory obiektów oraz wyspecjalizowane detektory twarzy.
- Wykrywanie tablic rejestracyjnych - modele detekcji obiektów lokalizują tablice w różnych warunkach oświetlenia i pod różnymi kątami. Segmentacja może doprecyzować kształt maski.
- Śledzenie wideo - algorytmy asocjacji obiektów pomiędzy klatkami stabilizują maski i ograniczają migotanie. Działa to komplementarnie do ANN stosowanych do detekcji.
- Postprocessing - po detekcji system nakłada filtr rozmycia o zadanej sile, pikselizację lub jednolitą maskę. Parametry postprocessingu dobiera się z uwzględnieniem wymogu, aby osoby nie były (lub nie były już) możliwe do zidentyfikowania, zgodnie z motywem 26 RODO.
Technologie stosowane w ANN dla zamazywania
- Architektury detekcji: YOLOv3-v4 oraz nowsze odmiany jednofazowe - szybkość inferencji przy dobrej dokładności (Redmon i in. 2018, Bochkovskiy i in. 2020). Dwufazowe modele, np. Faster R-CNN, zapewniają wysoką precyzję kosztem opóźnienia.
- Detektory twarzy: RetinaFace łączy detekcję z estymacją punktów charakterystycznych, co poprawia lokalizację maski na niestandardowych pozach (Deng i in. 2020).
- Segmentacja: U-Net i pochodne precyzyjnie wyznaczają kontury, gdy potrzebna jest maska o nieregularnym kształcie (Ronneberger i in. 2015).
- Formaty i wdrożenia: PyTorch lub TensorFlow do trenowania, konwersja do ONNX lub TensorRT na potrzeby wdrożeń on-premise. Optymalizacje: kwantyzacja INT8, przerzedzanie, fuzja warstw.
- Przyspieszenie: GPU z obsługą CUDA i cuDNN, alternatywnie CPU z AVX2 oraz akceleratory NPU. Wydajność zależy od rozdzielczości wejścia, wielkości batchu i złożoności sieci.
Kluczowe parametry i metryki dla ANN w anonimizacji
Parametr | Definicja | Znaczenie w praktyce | Źródło
|
|---|---|---|---|
IoU | Intersection over Union - pole wspólne podzielone przez pole sumy dla ramki detekcji i ramki prawdy (ground truth). | Ustalanie dopasowania detekcji do obiektu. Typowy próg oceny to 0.5. | Pascal VOC |
Precision | TP / (TP + FP) | Im wyższa, tym mniej zamazanych obszarów niebędących twarzami lub tablicami. | COCO, VOC |
Recall | TP / (TP + FN) | Krytyczny dla ochrony prywatności - minimalizuje pominięte twarze. | COCO, VOC |
F1 | 2 × Precision × Recall / (Precision + Recall) | Zrównoważona miara dla doboru progu ufności. | COCO, VOC |
Średnia precyzja (mAP) dla progu IoU = 0.5 | Klasyczna miara dla detekcji obiektów według metodyki VOC. | Pascal VOC | |
[email protected]:0.95 | Średnia mAP po IoU 0.5 do 0.95 co 0.05 | Wymagająca metryka od COCO - lepiej odzwierciedla ogólną jakość. | COCO |
Opóźnienie | Czas inferencji na klatkę [ms] | Istotne dla płynności przetwarzania wideo (w tym przetwarzania wsadowego). | NIST AI RMF 2023 |
Przepustowość | Klatki na sekundę [fps] | Planowanie mocy obliczeniowej on-premise. | NIST AI RMF 2023 |
Confidence threshold | Minimalna ufność modelu dla zgłoszenia detekcji | Wyższy próg - mniej fałszywych alarmów, ale ryzyko utraty recall. | COCO |
NMS IoU | Próg IoU dla supresji niemaksymalnych | Kontrola łączenia zduplikowanych ramek. | COCO |
Źródła metryk: Pascal VOC (Everingham i in., 2010), COCO (Lin i in., 2014). NIST AI RMF 1.0 (2023) zaleca dobór i monitorowanie miar związanych m.in. z wydajnością i ryzykiem w cyklu życia systemów AI.
Wyzwania i ograniczenia
- Zmiana domeny - spadek jakości poza rozkładem danych treningowych, np. inne kamery, oświetlenie, warunki pogodowe.
- Zasłonięcia i rozmycie ruchu - trudniejsze detekcje, w tym profile i częściowe twarze.
- Uprzedzenia danych - brak reprezentacji określonych grup może prowadzić do różnic w recall. Wymagane testy równości działania.
- Adwersarialność - nietypowe wzory lub odbicia mogą zakłócać detekcję.
- Wymogi prawne - modele operują na danych osobowych na etapie wejściowym. Potrzebne są podstawy prawne i zasada minimalizacji zgodnie z RODO.
Przykłady zastosowań w Gallio PRO
- Automatyczne zamazywanie twarzy i tablic rejestracyjnych na zdjęciach i wideo z użyciem detektorów CNN. Oprogramowanie nie zamazuje całych sylwetek.
- Brak przetwarzania w czasie rzeczywistym - przetwarzanie wsadowe plików, a nie strumienia.
- Tryb manualny w edytorze dla innych elementów, np. logotypów, tatuaży, dokumentów czy ekranów - bez automatycznej detekcji tych klas.
- Wdrożenie on-premise - kontrola przepływu danych w organizacji i brak wysyłania danych do chmury. System nie gromadzi logów zawierających dane o detekcjach twarzy i tablic.
Odniesienia normatywne i źródła
- ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. ISO, 2022.
- ISO/IEC 23053:2022 - Framework for AI systems using machine learning. ISO, 2022.
- Rozporządzenie (UE) 2016/679 (RODO) - motyw 26 i art. 4 ust. 1. Dziennik Urzędowy UE, 2016.
- EDPB, Guidelines 3/2019 on processing of personal data through video devices, wersja 2.0, 29.01.2020.
- Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016.
- Everingham et al., The Pascal Visual Object Classes challenge, IJCV, 2010.
- Lin et al., Microsoft COCO, ECCV 2014.
- Redmon, Farhadi, YOLOv3, arXiv:1804.02767, 2018. Bochkovskiy et al., YOLOv4, arXiv:2004.10934, 2020.
- Deng et al., RetinaFace, arXiv:1905.00641, 2020.
- Ronneberger et al., U-Net, MICCAI 2015.
- NIST, AI Risk Management Framework 1.0, 2023.