Czym są sieci neuronowe (ANN)?

Sieci neuronowe (ANN) - definicja

Sieci neuronowe (Artificial Neural Networks, ANN) to rodzina modeli uczenia maszynowego złożonych z warstw połączonych jednostek obliczeniowych, które przekształcają dane wejściowe w pożądane wyjścia poprzez uczenie wag. W kontekście przetwarzania obrazu i wideo używa się głównie głębokich sieci neuronowych (Deep Neural Networks, DNN), w tym konwolucyjnych sieci neuronowych (Convolutional Neural Networks, CNN), uczonych algorytmem wstecznej propagacji błędu, często na oznaczonych danych. Parafraza zgodna z ISO/IEC 22989:2022, które definiuje podstawowe pojęcia AI i ML, oraz z ujęciem ISO/IEC 23053:2022, które opisuje ramy systemów AI wykorzystujących ML.

W anonimizacji zdjęć i nagrań wideo sieci neuronowe pełnią kluczową funkcję detektora i/lub segmentatora obiektów wrażliwych. Model ANN lokalizuje twarze i tablice rejestracyjne, a następnie system stosuje operacje postprocessingu, takie jak rozmycie, pikselizacja lub zasłanianie maską. Jakość i bezpieczeństwo procesu zależą od skuteczności modelu w wykrywaniu wszystkich wystąpień obiektów przy akceptowalnym odsetku fałszywych alarmów.

Rola w anonimizacji obrazów i wideo

  • Wykrywanie twarzy - detektor CNN zwraca ramki ograniczające lub maski, które wyznaczają obszar do zamazania. Przykłady podejść: jednofazowe detektory obiektów oraz wyspecjalizowane detektory twarzy.
  • Wykrywanie tablic rejestracyjnych - modele detekcji obiektów lokalizują tablice w różnych warunkach oświetlenia i pod różnymi kątami. Segmentacja może doprecyzować kształt maski.
  • Śledzenie wideo - algorytmy asocjacji obiektów pomiędzy klatkami stabilizują maski i ograniczają migotanie. Działa to komplementarnie do ANN stosowanych do detekcji.
  • Postprocessing - po detekcji system nakłada filtr rozmycia o zadanej sile, pikselizację lub jednolitą maskę. Parametry postprocessingu dobiera się z uwzględnieniem wymogu, aby osoby nie były (lub nie były już) możliwe do zidentyfikowania, zgodnie z motywem 26 RODO.

Technologie stosowane w ANN dla zamazywania

  • Architektury detekcji: YOLOv3-v4 oraz nowsze odmiany jednofazowe - szybkość inferencji przy dobrej dokładności (Redmon i in. 2018, Bochkovskiy i in. 2020). Dwufazowe modele, np. Faster R-CNN, zapewniają wysoką precyzję kosztem opóźnienia.
  • Detektory twarzy: RetinaFace łączy detekcję z estymacją punktów charakterystycznych, co poprawia lokalizację maski na niestandardowych pozach (Deng i in. 2020).
  • Segmentacja: U-Net i pochodne precyzyjnie wyznaczają kontury, gdy potrzebna jest maska o nieregularnym kształcie (Ronneberger i in. 2015).
  • Formaty i wdrożenia: PyTorch lub TensorFlow do trenowania, konwersja do ONNX lub TensorRT na potrzeby wdrożeń on-premise. Optymalizacje: kwantyzacja INT8, przerzedzanie, fuzja warstw.
  • Przyspieszenie: GPU z obsługą CUDA i cuDNN, alternatywnie CPU z AVX2 oraz akceleratory NPU. Wydajność zależy od rozdzielczości wejścia, wielkości batchu i złożoności sieci.

Kluczowe parametry i metryki dla ANN w anonimizacji

Parametr

Definicja

Znaczenie w praktyce

Źródło

 

IoU

Intersection over Union - pole wspólne podzielone przez pole sumy dla ramki detekcji i ramki prawdy (ground truth).

Ustalanie dopasowania detekcji do obiektu. Typowy próg oceny to 0.5.

Pascal VOC

Precision

TP / (TP + FP)

Im wyższa, tym mniej zamazanych obszarów niebędących twarzami lub tablicami.

COCO, VOC

Recall

TP / (TP + FN)

Krytyczny dla ochrony prywatności - minimalizuje pominięte twarze.

COCO, VOC

F1

2 × Precision × Recall / (Precision + Recall)

Zrównoważona miara dla doboru progu ufności.

COCO, VOC

[email protected]

Średnia precyzja (mAP) dla progu IoU = 0.5

Klasyczna miara dla detekcji obiektów według metodyki VOC.

Pascal VOC

[email protected]:0.95

Średnia mAP po IoU 0.5 do 0.95 co 0.05

Wymagająca metryka od COCO - lepiej odzwierciedla ogólną jakość.

COCO

Opóźnienie

Czas inferencji na klatkę [ms]

Istotne dla płynności przetwarzania wideo (w tym przetwarzania wsadowego).

NIST AI RMF 2023

Przepustowość

Klatki na sekundę [fps]

Planowanie mocy obliczeniowej on-premise.

NIST AI RMF 2023

Confidence threshold

Minimalna ufność modelu dla zgłoszenia detekcji

Wyższy próg - mniej fałszywych alarmów, ale ryzyko utraty recall.

COCO

NMS IoU

Próg IoU dla supresji niemaksymalnych

Kontrola łączenia zduplikowanych ramek.

COCO

Źródła metryk: Pascal VOC (Everingham i in., 2010), COCO (Lin i in., 2014). NIST AI RMF 1.0 (2023) zaleca dobór i monitorowanie miar związanych m.in. z wydajnością i ryzykiem w cyklu życia systemów AI.

Wyzwania i ograniczenia

  • Zmiana domeny - spadek jakości poza rozkładem danych treningowych, np. inne kamery, oświetlenie, warunki pogodowe.
  • Zasłonięcia i rozmycie ruchu - trudniejsze detekcje, w tym profile i częściowe twarze.
  • Uprzedzenia danych - brak reprezentacji określonych grup może prowadzić do różnic w recall. Wymagane testy równości działania.
  • Adwersarialność - nietypowe wzory lub odbicia mogą zakłócać detekcję.
  • Wymogi prawne - modele operują na danych osobowych na etapie wejściowym. Potrzebne są podstawy prawne i zasada minimalizacji zgodnie z RODO.

Przykłady zastosowań w Gallio PRO

  • Automatyczne zamazywanie twarzy i tablic rejestracyjnych na zdjęciach i wideo z użyciem detektorów CNN. Oprogramowanie nie zamazuje całych sylwetek.
  • Brak przetwarzania w czasie rzeczywistym - przetwarzanie wsadowe plików, a nie strumienia.
  • Tryb manualny w edytorze dla innych elementów, np. logotypów, tatuaży, dokumentów czy ekranów - bez automatycznej detekcji tych klas.
  • Wdrożenie on-premise - kontrola przepływu danych w organizacji i brak wysyłania danych do chmury. System nie gromadzi logów zawierających dane o detekcjach twarzy i tablic.

Odniesienia normatywne i źródła

  • ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. ISO, 2022.
  • ISO/IEC 23053:2022 - Framework for AI systems using machine learning. ISO, 2022.
  • Rozporządzenie (UE) 2016/679 (RODO) - motyw 26 i art. 4 ust. 1. Dziennik Urzędowy UE, 2016.
  • EDPB, Guidelines 3/2019 on processing of personal data through video devices, wersja 2.0, 29.01.2020.
  • Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016.
  • Everingham et al., The Pascal Visual Object Classes challenge, IJCV, 2010.
  • Lin et al., Microsoft COCO, ECCV 2014.
  • Redmon, Farhadi, YOLOv3, arXiv:1804.02767, 2018. Bochkovskiy et al., YOLOv4, arXiv:2004.10934, 2020.
  • Deng et al., RetinaFace, arXiv:1905.00641, 2020.
  • Ronneberger et al., U-Net, MICCAI 2015.
  • NIST, AI Risk Management Framework 1.0, 2023.