Co to jest Occlusion handling (obsługa zasłoniętych twarzy)?

Spis treści

Occlusion handling (obsługa zasłoniętych twarzy) - definicja
Rola obsługi zasłoniętych twarzy w anonimizacji zdjęć i wideo
Technologie stosowane w occlusion handling
Kluczowe parametry i metryki occlusion handling
Wyzwania i ograniczenia obsługi zasłoniętych twarzy
Odniesienia normatywne i praktyczny kontekst zgodności

Occlusion handling (obsługa zasłoniętych twarzy) - definicja

Occlusion handling to zbiór metod wykrywania, śledzenia i poprawnego zamazywania twarzy, które są częściowo zasłonięte na zdjęciu lub w materiale wideo. W kontekście anonimizacji oznacza to sytuacje, w których system ma rozpoznać obecność twarzy mimo braku pełnej widoczności cech, na przykład gdy twarz zasłania maska, okulary, dłoń, kask, włosy, słupek, fragment ubrania albo inna osoba.

Z technicznego punktu widzenia nie jest to osobna technologia, lecz właściwość i zestaw procedur modelu detekcji twarzy oraz dalszego etapu anonimizacji. Celem nie jest identyfikacja osoby, ale utrzymanie wysokiego poziomu wykrywalności twarzy w warunkach częściowej utraty informacji wizualnej. W praktyce oznacza to, że model AI musi nauczyć się rozpoznawać twarz na podstawie niepełnych wzorców geometrycznych i teksturalnych, a następnie przekazać lokalizację do modułu rozmywania lub zamazywania.

W systemach do anonimizacji zdjęć i nagrań wideo occlusion handling ma znaczenie bezpośrednie dla zgodności procesu z zasadą privacy by design z art. 25 RODO, ponieważ pominięcie twarzy częściowo zasłoniętej może prowadzić do niezamierzonego ujawnienia danych osobowych. W modelach opartych na deep learning konieczne jest wcześniejsze wytrenowanie sieci neuronowej na zbiorach danych zawierających przypadki częściowej okluzji. Samo użycie AI bez odpowiednio przygotowanego modelu nie rozwiązuje problemu.

Rola obsługi zasłoniętych twarzy w anonimizacji zdjęć i wideo

W standardowych warunkach detekcja twarzy opiera się na kompletnym układzie cech, takich jak oczy, nos, usta i kontur twarzy. Gdy część tych elementów znika, rośnie ryzyko błędu typu false negative, czyli niewykrycia twarzy, która faktycznie występuje w kadrze. Dla procesu anonimizacji jest to błąd krytyczny, ponieważ prowadzi do pozostawienia niezamazanego wizerunku.

Obsługa okluzji jest szczególnie ważna w materiałach z monitoringu, nagraniach drogowych, dokumentacji terenowej, materiałach z wydarzeń publicznych i nagraniach wykonywanych w ruchu. W takich danych często występują:

niepełny profil twarzy,
krótkotrwałe zasłonięcia między klatkami,
mała rozdzielczość obiektu,
silne zmiany oświetlenia,
nakładanie się kilku osób w jednej scenie.

W praktyce wysoka skuteczność anonimizacji wymaga, aby system nie oceniał pojedynczej klatki w oderwaniu od kontekstu. W materiałach wideo stosuje się więc nie tylko detekcję, ale też śledzenie obiektów między klatkami, co pozwala utrzymać maskę anonimizującą nawet wtedy, gdy twarz znika częściowo na kilka klatek.

Technologie stosowane w occlusion handling

Skuteczna obsługa zasłoniętych twarzy opiera się zwykle na połączeniu kilku warstw przetwarzania. W nowoczesnych rozwiązaniach podstawę stanowią modele głębokiego uczenia, najczęściej konwolucyjne sieci neuronowe albo detektory o architekturze jednofazowej i dwufazowej.

Najczęściej stosuje się następujące podejścia techniczne:

detekcję twarzy trenowaną na zbiorach z częściową okluzją,
estymację punktów charakterystycznych twarzy, nawet gdy część landmarków jest niewidoczna,
śledzenie obiektu w sekwencji wideo metodami typu tracking-by-detection,
agregację wyników między klatkami,
progowanie ufności z dodatkową regułą bezpieczeństwa dla obszarów granicznych.

W literaturze badawczej często wykorzystuje się benchmark WIDER FACE, opublikowany w 2016 roku, który obejmuje znaczne zróżnicowanie skali, pozy, ekspresji i okluzji twarzy. Zbiór ten jest powszechnie używany do oceny detektorów twarzy pod kątem trudnych warunków sceny. Wyniki raportowane dla tego benchmarku zwykle podaje się jako Average Precision - AP - osobno dla poziomów Easy, Medium i Hard. Kategoria Hard obejmuje m.in. małe twarze i silne okluzje.

W systemie takim jak Gallio PRO occlusion handling należy rozumieć jako zdolność modułu automatycznego wykrywania twarzy do zachowania skuteczności także przy częściowym zasłonięciu. Jeżeli automatyczna detekcja nie jest wystarczająca dla konkretnego materiału, korekta może być wykonana manualnie w edytorze. Dotyczy to jednak wyłącznie obiektów obsługiwanych lub ręcznie zaznaczanych przez użytkownika. Gallio PRO automatycznie zamazuje twarze i tablice rejestracyjne. Nie wykrywa automatycznie logotypów, tatuaży, identyfikatorów, dokumentów ani treści na ekranach monitorów.

Kluczowe parametry i metryki occlusion handling

Ocena jakości obsługi zasłoniętych twarzy nie powinna ograniczać się do ogólnej skuteczności detekcji. Potrzebne są metryki mierzone na danych zawierających częściowe i silne okluzje. W przeciwnym razie wynik może być mylący z punktu widzenia anonimizacji.

Parametr / metryka	Znaczenie	Znaczenie dla anonimizacji
Recall	Odsetek faktycznych twarzy wykrytych przez model	Najważniejszy wskaźnik dla ograniczenia pominięć
Precision	Odsetek poprawnych detekcji wśród wszystkich detekcji	Wpływa na liczbę zbędnych masek
AP na zbiorze z okluzją	Średnia precyzja wyznaczana na podstawie krzywej precision-recall dla określonego kryterium dopasowania, zwykle przy zdefiniowanym progu IoU	Umożliwia porównanie modeli w trudnych warunkach
IoU - Intersection over Union	Stopień pokrycia ramki detekcji z obszarem referencyjnym	Wpływa na to, czy rozmycie obejmie cały wizerunek
Latency	Czas przetworzenia klatki lub pliku	Istotny dla wydajności wsadowej i systemów czasu zbliżonego do rzeczywistego
False Negative Rate	Odsetek niewykrytych twarzy	Błąd najwyższego ryzyka prawnego i operacyjnego

W uproszczeniu recall można zapisać wzorem:

Recall = TP / (TP + FN)

gdzie TP oznacza poprawnie wykryte twarze, a FN twarze pominięte. W zastosowaniach związanych z ochroną prywatności zwykle preferuje się konfigurację zwiększającą recall, nawet kosztem umiarkowanego wzrostu false positives, ponieważ nadmiarowe zamazanie jest zwykle mniej ryzykowne niż brak anonimizacji.

Wyzwania i ograniczenia obsługi zasłoniętych twarzy

Nawet dobre modele mają ograniczenia. Problem rośnie, gdy okluzja łączy się z małym rozmiarem twarzy, rozmyciem ruchu, niskim kontrastem i nietypowym kątem kamery. W takich warunkach system może błędnie uznać, że obiekt nie zawiera wystarczających przesłanek do oznaczenia jako twarz.

Najczęstsze ograniczenia to:

silna okluzja przekraczająca próg informacyjny modelu,
niestabilność detekcji między sąsiednimi klatkami,
spadek jakości przy twarzach bardzo małych,
zależność od jakości danych treningowych,
różnice między benchmarkiem a rzeczywistym materiałem źródłowym.

Z tego powodu proces anonimizacji powinien uwzględniać walidację jakościową, dobór progu ufności, a w materiałach podwyższonego ryzyka także kontrolę operatora. Jest to istotne zwłaszcza wtedy, gdy nagranie ma zostać opublikowane lub przekazane podmiotowi trzeciemu.

Odniesienia normatywne i praktyczny kontekst zgodności

Obsługa zasłoniętych twarzy nie jest odrębnie zdefiniowana w RODO ani w normach ISO jako samodzielny obowiązek techniczny. Jednak jej znaczenie wynika z ogólnych zasad przetwarzania danych osobowych oraz bezpieczeństwa przetwarzania. W szczególności zastosowanie mają:

Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 - RODO, w szczególności art. 5, art. 25 i art. 32,
ISO/IEC 23894:2023 - Artificial intelligence - Guidance on risk management,
ISO/IEC 27001:2022 - system zarządzania bezpieczeństwem informacji,
NIST AI RMF 1.0, 2023 - wytyczne zarządzania ryzykiem systemów AI.

Z perspektywy IOD praktyczna ocena powinna obejmować nie tylko pytanie, czy system wykrywa twarze, ale też jak zachowuje się przy okluzjach, jaki ma poziom recall na danych trudnych i czy przewidziano procedurę korekty ręcznej. W przypadku Gallio PRO istotne jest również to, że rozwiązanie działa jako oprogramowanie on-premise, nie wykonuje anonimizacji strumienia wideo ani anonimizacji w czasie rzeczywistym oraz nie zbiera logów zawierających detekcje twarzy i tablic rejestracyjnych.

Zobacz także

Powrót do słownika