Video Frame Sampling - definicja
Video Frame Sampling to kontrolowana selekcja podzbioru klatek z sekwencji wideo w celu obniżenia kosztu obliczeń, objętości danych lub dostosowania przetwarzania do wymagań zadaniowych. W praktyce polega na wyborze co n-tej klatki, klatek kluczowych, klatek przy zmianie sceny lub klatek zgodnie z regułą adaptacyjną. Pojęcie różni się od konwersji liczby klatek na sekundę (zmiany fps), ponieważ dotyczy wyboru klatek do analizy i nie musi oznaczać rekodowania całego strumienia.
W kontekście anonimizacji obrazów i nagrań wideo Video Frame Sampling określa, ile i jakie klatki są analizowane przez algorytmy detekcji twarzy i tablic rejestracyjnych, śledzenia oraz operacje maskowania. Dobór strategii i gęstości próbkowania ma bezpośredni wpływ na kompletność zamazania oraz na koszty obliczeniowe i czas przetwarzania. Typowe częstotliwości klatek to m.in. 25 i 29.97 fps. Wybór próbkowania musi więc uwzględniać dynamikę sceny, rzeczywiste fps materiału i wymagania zgodności z RODO.
Rola Video Frame Sampling w anonimizacji
Anonimizacja twarzy i tablic rejestracyjnych wymaga wykrycia wszystkich przypadków pojawienia się obiektu w materiale. Zbyt rzadkie próbkowanie może pominąć krótkotrwałe ekspozycje, szybkie obroty głowy lub obiekty przesłaniane przez część klatek. Zbyt gęste próbkowanie zwiększa koszt i czas obliczeń bez istotnej poprawy skuteczności dla niektórych scen.
W praktyce stosuje się połączenie detekcji w wybranych klatkach oraz śledzenia międzyklatkowego, tak aby interpolować maski w klatkach niepoddanych pełnej detekcji. Śledzenie (np. SORT, DeepSORT) pozwala ograniczyć liczbę wywołań detektora, przy zachowaniu ciągłości zamazania obiektów między próbkami. Wymóg wdrożenia adekwatnych środków technicznych i organizacyjnych wynika z RODO (art. 5 i 32) oraz zaleceń EROD dotyczących przetwarzania danych z urządzeń wizyjnych, w których wskazano potrzebę stosowania środków ograniczających identyfikowalność osób (źródło: EDPB, Wytyczne 3/2019, wersja 2.1, 20.01.2022).
Technologie i strategie próbkowania
Wybór strategii próbkowania zależy od rodzaju materiału, kodeka oraz docelowej skuteczności wykrywania. Poniżej zestawiono najczęściej stosowane podejścia wraz z ich implikacjami dla anonimizacji.
Strategia | Opis | Zastosowanie w anonimizacji | Ryzyko utraty detekcji | Złożoność obliczeniowa
|
|---|---|---|---|---|
Jednostajne co n klatek | Stały krok czasowy, np. co 2 lub co 5 klatek | Proste sterowanie kosztem, przewidywalne zachowanie | Średnie - możliwe pominięcie krótkich ekspozycji | Niska |
Próbkowanie po klatkach kluczowych | Analiza I-frame z GOP zgodnie z H.264/H.265 | Efektywne dla materiałów z regularnym GOP | Średnie do wysokiego przy długich GOP | Niska do średniej |
Detekcja zmian sceny | Klatka wybierana przy skokowej zmianie treści | Skupienie na momentach o największej zmienności | Niższe w scenach dynamicznych, wyższe w jednostajnych | Średnia |
Adaptacyjne z wykorzystaniem ruchu | Gęstsze próbkowanie przy dużym ruchu, rzadsze w statyce | Dobry kompromis między kosztem a pokryciem zdarzeń | Niskie do średniego | Średnia |
Keyframe + śledzenie | Detekcja na klatkach bazowych, interpolacja maską przez śledzenie | Popularne w detekcji wideo, dobre dla anonimizacji | Niskie przy stabilnym śledzeniu | Średnia |
W warstwie kodeków struktury GOP i klatki I/P/B opisano w ITU-T H.264 | ISO/IEC 14496-10 (AVC) oraz ISO/IEC 23008-2 (HEVC). Wykorzystanie klatek I jako próbek jest praktyką inżynierską, która może ograniczać koszt dekodowania i analizy w porównaniu z przetwarzaniem każdej klatki, choć w wielu zastosowaniach i tak dekoduje się sekwencję (lub jej część) zależnie od narzędzi i formatu.
Kluczowe parametry i metryki w anonimizacji
Ocena skuteczności próbkowania powinna łączyć parametry czasowe z metrykami detekcji i zgodności. Poniżej zebrano najważniejsze atrybuty.
Parametr / metryka | Opis i znaczenie
|
|---|---|
Stride k | Stały krok próbkowania w klatkach. Im większy k, tym niższy koszt i wyższe ryzyko pominięć. |
Efektywne fps f_eff | f_eff = f_src / k, gdzie f_src to źródłowe fps. Determinuje gęstość czasową maskowania. |
Maksymalny odstęp czasowy | Δt_max ≈ 1 / f_eff. Przybliżona górna granica okna między dwiema analizowanymi klatkami (w próbkowaniu jednostajnym); w praktyce brak maski nie powinien występować, jeśli maski są propagowane śledzeniem. |
Recall_video | Odsetek wszystkich wystąpień twarzy/tablic w całym wideo, które zostały zamaskowane. Krytyczny dla zgodności. |
Precision_video | Odsetek nałożonych masek, które odpowiadają rzeczywistym obiektom. Wpływa na jakość obrazu po obróbce. |
F1_video | Harmonijna średnia precision i recall. Umożliwia porównanie wariantów próbkowania. |
Opóźnienie przetwarzania | Czas od rozpoczęcia do zakończenia anonimizacji. Istotny w przetwarzaniu wsadowym. Gallio PRO nie wykonuje anonimizacji w czasie rzeczywistym. |
W praktyce łączy się próbkowanie z detektorami opartymi o CNN oraz śledzeniem międzyklatkowym, co zostało pokazane m.in. w pracach nad detekcją obiektów w wideo z agregacją czasową (FGFA) i śledzeniem DeepSORT. Redukcja wywołań detektora przy zachowaniu ciągłości wyników jest kluczowa dla kosztu i pokrycia zdarzeń.
Wyzwania i ograniczenia
Dobór próbkowania podlega ograniczeniom technicznym materiału oraz wymogom prawnym. Pominięcia występują częściej przy rozmyciu ruchu, niskiej ekspozycji, rolling shutter oraz w materiałach o wysokim natężeniu ruchu.
- Ryzyko zgodności - każde pominięcie twarzy lub tablicy osłabia skuteczność anonimizacji. EDPB wskazuje na konieczność wdrożenia adekwatnych środków technicznych i organizacyjnych ograniczających identyfikowalność osób w udostępnianych materiałach (źródło: EDPB 3/2019).
- Struktura GOP - długie GOP w H.264/H.265 utrudniają efektywne próbkowanie wyłącznie po klatkach I.
- Różnorodność fps - standardowe fps definiowane m.in. przez ITU-R i SMPTE wymagają adaptacji parametrów próbkowania do źródła, aby ograniczyć Δt_max.
- Modele AI - skuteczność wymaga poprawnie wytrenowanych detektorów twarzy i tablic. Głębokie sieci uczone na danych reprezentatywnych są niezbędne do automatycznego zamazywania obiektów.
Przykłady zastosowań i praktyka wdrożeniowa
W przetwarzaniu wsadowym on-premise stosuje się strategię keyframe + śledzenie: detekcja na klatkach bazowych, następnie propagacja masek poprzez tracki, a na koniec kontrolne dogęszczenie próbek w segmentach o dużej niepewności. Takie podejście ogranicza koszty, zachowując wysokie pokrycie anonimizacji.
- Gallio PRO automatycznie zamazuje twarze i tablice rejestracyjne. Nie obsługuje automatycznego wykrywania logotypów, tatuaży, dokumentów ani zawartości ekranów - te elementy można zamazać ręcznie w edytorze.
- Gallio PRO nie wykonuje anonimizacji w trybie real-time ani dla strumieni na żywo. Próbkowanie dotyczy przetwarzania plików wideo i zdjęć w trybie offline.
- Gallio PRO działa on-premise oraz nie gromadzi logów zawierających wyniki detekcji twarzy i tablic rejestracyjnych.
- W UE często zaleca się maskowanie tablic przy publikacji materiałów, zależnie od kontekstu i podstawy prawnej. Praktyka i podejście organów nadzorczych różnią się między państwami. W Polsce interpretacje bywają niejednoznaczne, choć wytyczne UODO i EROD wskazują na potrzebę minimalizacji danych.
Odniesienia normatywne i źródła
Poniżej wskazano standardy i publikacje techniczne powiązane z problematyką próbkowania klatek, kodeków oraz zgodności z RODO.
- ITU-R BT.709-6 - Parameter values for the HDTV standards for production and international programme exchange, 2015. https://www.itu.int/rec/R-REC-BT.709
- ITU-T H.264 | ISO/IEC 14496-10 - Advanced Video Coding, wersja 2019. https://www.itu.int/rec/T-REC-H.264 oraz https://www.iso.org/standard/76682.html
- ISO/IEC 23008-2:2020 - High efficiency coding and media delivery in heterogeneous environments - Part 2: HEVC. https://www.iso.org/standard/79388.html
- IEC 62676-4:2014 - Video surveillance systems for use in security applications - Part 4: Application guidelines. https://webstore.iec.ch/publication/6027
- EDPB, Wytyczne 3/2019 w sprawie przetwarzania danych osobowych poprzez urządzenia wideo, wersja 2.1 z 20.01.2022. https://edpb.europa.eu
- X. Zhu et al., Flow-Guided Feature Aggregation for Video Object Detection, ICCV 2017. https://openaccess.thecvf.com/content_iccv_2017/html/Zhu_Flow-Guided_Feature_Aggregation_ICCV_2017_paper.html
- N. Wojke et al., Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT), 2017. https://arxiv.org/abs/1703.07402