Czym jest uczenie maszynowe (Machine Learning, ML)?

Spis treści

Uczenie maszynowe - definicja
Rola ML w anonimizacji obrazu i wideo
Technologie i architektury ML w wykrywaniu twarzy i tablic
Kluczowe parametry i metryki dla anonimizacji opartej na ML
Wyzwania i ograniczenia
Przykłady zastosowań
Odniesienia normatywne i źródła

Uczenie maszynowe - definicja

Uczenie maszynowe to zbiór metod, które umożliwiają systemom komputerowym uczenie się wzorców na podstawie danych i podejmowanie decyzji bez jawnego programowania reguł. Międzynarodowa norma ISO/IEC 22989:2022 definiuje ML jako podejście w sztucznej inteligencji, w którym modele poprawiają działanie w danym zadaniu dzięki doświadczeniu zawartemu w danych (źródło: ISO/IEC 22989:2022). Ramy zarządzania ryzykiem NIST AI RMF 1.0 podkreślają cykl życia systemów AI, w tym komponentów ML, obejmujący m.in. przygotowanie danych, trening, walidację, wdrożenie i monitorowanie (źródło: NIST AI RMF 1.0, 2023).

W kontekście anonimizacji zdjęć i nagrań wideo ML służy do automatycznej detekcji obiektów wymagających ukrycia. Najczęściej są to twarze osób i tablice rejestracyjne pojazdów. Model wytrenowany na oznaczonych danych wykrywa obiekty w klatkach obrazu i zwraca ich położenie oraz poziom ufności. Wynik detekcji jest używany do wygenerowania masek rozmycia lub pikselizacji, które redukują ryzyko identyfikacji osób lub pojazdów zgodnie z RODO i wytycznymi organów nadzorczych (źródła: EDPB 3/2019, WP29 05/2014, ISO/IEC 20889:2018).

Rola ML w anonimizacji obrazu i wideo

Skuteczna anonimizacja obrazu wymaga niezawodnej lokalizacji wrażliwych elementów. Reguły oparte na prostych heurystykach są niewystarczające przy zmiennym oświetleniu, ujęciach z kamer mobilnych czy częściowych zasłonięciach. ML, a w szczególności deep learning, zapewnia odporność na te warianty dzięki uczeniu na dużych zbiorach danych referencyjnych. Aby zautomatyzować zamazywanie, konieczne jest najpierw stworzenie modelu detekcji o odpowiedniej czułości i precyzji, a następnie używanie go w procesie przetwarzania materiału.

W typowym łańcuchu przetwarzania kroki obejmują dekodowanie wideo, detekcję obiektów, opcjonalne śledzenie między klatkami, wygenerowanie maski i eksport. Gallio PRO automatyzuje detekcję i zamazywanie wyłącznie dla twarzy oraz tablic rejestracyjnych. Oprogramowanie nie wykrywa automatycznie logotypów, tatuaży, tabliczek z imionami ani treści ekranów - takie elementy można zamazywać ręcznie w edytorze. Narzędzie działa w trybie wsadowym, a nie w czasie rzeczywistym. Wdrożenie on-premise umożliwia przetwarzanie w granicach organizacji i ograniczenie transferu danych. Gallio PRO nie zbiera logów z detekcjami zawierającymi dane osobowe lub wrażliwe.

Technologie i architektury ML w wykrywaniu twarzy i tablic

Detekcja obiektów w obrazie wykorzystuje głównie głębokie sieci neuronowe. W praktyce dobór architektury zależy od kompromisu między jakością a szybkością oraz od zasobów obliczeniowych (CPU, GPU). Modele trenuje się nadzorowanie na zbiorach z adnotacjami obwiedni lub masek.

Konwolucyjne sieci detekcyjne - m.in. Faster R-CNN, RetinaNet, YOLOv3 oraz nowsze rodziny YOLO (np. YOLOv5-YOLOv8) - wydajne przy detekcji twarzy i tablic, powszechnie stosowane w zadaniach wymagających niskiej latencji (źródła: Ren 2015, Lin 2017, Redmon 2018).
Transformery wizji - np. DETR i warianty - upraszczają etap dopasowania predykcji kosztem większych wymagań obliczeniowych, dobre przy złożonych scenach (źródło: Carion 2020).
Segmentacja - gdy wymagane są maski o nieregularnych kształtach, używa się sieci segmentacyjnych; dla zamazywania twarzy i tablic zwykle wystarczą obwiednie prostokątne.
Śledzenie obiektów - stabilizuje maski między klatkami i zmniejsza migotanie; stosowane jako postprocessing.
Przygotowanie danych - zbiory WIDER FACE oraz zbiory tablic rejestracyjnych zapewniają benchmarki metryk detekcji i IoU (źródło: Yang 2016; praktyki benchmarkowe).

Kluczowe parametry i metryki dla anonimizacji opartej na ML

Ocena jakości modeli ma bezpośredni wpływ na ryzyko ujawnienia tożsamości i na koszty operacyjne. Poniżej zestaw podstawowych metryk używanych w detekcji obiektów i wnioskowaniu. Definicje pochodzą ze standardowej literatury i benchmarków.

Metryka	Definicja	Jednostka/zakres	Źródło
Precision	TP/(TP+FP)	0-1	Powers 2011
Recall	TP/(TP+FN)	0-1	Powers 2011
mAP	Średnia AP po klasach (a w zależności od benchmarku także po progach IoU)	0-1	COCO, Lin 2014
IoU	Stosunek pola przecięcia do pola sumy (union) wykrycia i prawdy	0-1	COCO, Lin 2014
FPR	FP/(FP+TN)	0-1	Powers 2011
Latencja inferencji	Czas przetworzenia jednej klatki	ms	MLPerf Inference v3.0
Przepustowość	Liczba klatek na sekundę	fps	MLPerf Inference v3.0

W praktyce dla anonimizacji ważniejszy bywa wysoki recall niż precision - brak detekcji niesie większe ryzyko niż nadmiarowe zamazania. Ten wybór progu ufności powinien być udokumentowany i uzasadniony w analizie ryzyka zgodnie z ISO/IEC 23894:2023 i NIST AI RMF 1.0.

Wyzwania i ograniczenia

Modele mogą zaniżać recall w przypadku zasłonięć, nietypowych kątów i niskiej rozdzielczości. Zbalansowanie recall i precision wymaga doboru progu i ewentualnego śledzenia obiektów. Dane treningowe z biasem geograficznym lub sprzętowym obniżają generalizację - konieczne są przeglądy danych i walidacja krzyżowa. Brak przetwarzania w czasie rzeczywistym oznacza planowanie wsadów oraz kontrolę obciążenia GPU i I/O.

Aspekty prawne są kontekstowe. W praktyce wymóg zamazywania tablic rejestracyjnych zależy od celu i podstawy prawnej przetwarzania oraz od tego, czy w danych okolicznościach tablica pozwala zidentyfikować osobę; nie ma jednolitego, ogólnego obowiązku wynikającego z prawa UE dla wszystkich zastosowań. W Polsce status tablic jako danych osobowych bywa oceniany w zależności od kontekstu, a wytyczne organów ochrony danych i orzecznictwo TSUE wspierają podejście ostrożnościowe, gdy istnieje ryzyko identyfikacji. Obowiązek anonimizacji twarzy nie wynika automatycznie z RODO w każdym przypadku: zależy od podstawy prawnej i zgodności z zasadami przetwarzania; dodatkowo publikacja wizerunku może podlegać przepisom Kodeksu cywilnego i Prawa autorskiego. W prawie autorskim zasadą jest wymóg zgody na rozpowszechnianie wizerunku, z typowymi wyjątkami: osoba powszechnie znana w związku z pełnieniem funkcji publicznych, wizerunek osoby stanowiącej jedynie szczegół całości (np. zgromadzenie, krajobraz, impreza publiczna), oraz sytuacja, gdy osoba otrzymała umówione wynagrodzenie za pozowanie. Z perspektywy prywatności minimalizacja logów detekcji oraz wdrożenia on-premise wspierają zasady privacy by design.

Przykłady zastosowań

ML wspiera anonimizację w materiałach z monitoringu, wideorejestratorów i kamer mobilnych podczas realizacji wniosków o dostęp do danych w RODO, udostępniania dowodów w postępowaniach, publikacji materiałów z wydarzeń publicznych oraz w archiwizacji materiału szkoleniowego. W każdym przypadku krytyczne są audytowalne metryki, kontrola progu detekcji i możliwość edycji ręcznej. W środowiskach o wysokich wymaganiach bezpieczeństwa przetwarzanie on-premise ogranicza powierzchnię ryzyka.

Odniesienia normatywne i źródła

ISO/IEC 22989:2022 - Artificial Intelligence - Concepts and terminology.
ISO/IEC 23894:2023 - Artificial Intelligence - Risk management.
ISO/IEC 20889:2018 - Privacy enhancing data de-identification - Terminology and classification of techniques.
NIST AI Risk Management Framework 1.0, 2023.
Regulation (EU) 2016/679 (RODO/GDPR) - art. 4 i motywy dot. danych osobowych.
European Data Protection Board, Guidelines 3/2019 on processing of personal data through video devices, wersja 2.0, 2020.
Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques, 2014.
Lin et al., Microsoft COCO: Common Objects in Context, ECCV 2014 - definicje AP i IoU w detekcji.
Yang et al., WIDER FACE: A Face Detection Benchmark, CVPR 2016 - protokoły oceny detekcji twarzy.
MLCommons, MLPerf Inference v3.0 Results and Rules - definicje latencji i przepustowości, 2023.
Ren et al., Faster R-CNN, NIPS 2015; Redmon et al., YOLOv3, 2018; Carion et al., DETR, ECCV 2020.

Zobacz także

Powrót do słownika