Co to jest Video Frame Sampling?

Spis treści

Video Frame Sampling - definicja
Rola Video Frame Sampling w anonimizacji
Technologie i strategie próbkowania
Kluczowe parametry i metryki w anonimizacji
Wyzwania i ograniczenia
Przykłady zastosowań i praktyka wdrożeniowa
Odniesienia normatywne i źródła

Video Frame Sampling - definicja

Video Frame Sampling to kontrolowana selekcja podzbioru klatek z sekwencji wideo w celu obniżenia kosztu obliczeń, objętości danych lub dostosowania przetwarzania do wymagań zadaniowych. W praktyce polega na wyborze co n-tej klatki, klatek kluczowych, klatek przy zmianie sceny lub klatek zgodnie z regułą adaptacyjną. Pojęcie różni się od konwersji liczby klatek na sekundę (zmiany fps), ponieważ dotyczy wyboru klatek do analizy i nie musi oznaczać rekodowania całego strumienia.

W kontekście anonimizacji obrazów i nagrań wideo Video Frame Sampling określa, ile i jakie klatki są analizowane przez algorytmy detekcji twarzy i tablic rejestracyjnych, śledzenia oraz operacje maskowania. Dobór strategii i gęstości próbkowania ma bezpośredni wpływ na kompletność zamazania oraz na koszty obliczeniowe i czas przetwarzania. Typowe częstotliwości klatek to m.in. 25 i 29.97 fps. Wybór próbkowania musi więc uwzględniać dynamikę sceny, rzeczywiste fps materiału i wymagania zgodności z RODO.

Rola Video Frame Sampling w anonimizacji

Anonimizacja twarzy i tablic rejestracyjnych wymaga wykrycia wszystkich przypadków pojawienia się obiektu w materiale. Zbyt rzadkie próbkowanie może pominąć krótkotrwałe ekspozycje, szybkie obroty głowy lub obiekty przesłaniane przez część klatek. Zbyt gęste próbkowanie zwiększa koszt i czas obliczeń bez istotnej poprawy skuteczności dla niektórych scen.

W praktyce stosuje się połączenie detekcji w wybranych klatkach oraz śledzenia międzyklatkowego, tak aby interpolować maski w klatkach niepoddanych pełnej detekcji. Śledzenie (np. SORT, DeepSORT) pozwala ograniczyć liczbę wywołań detektora, przy zachowaniu ciągłości zamazania obiektów między próbkami. Wymóg wdrożenia adekwatnych środków technicznych i organizacyjnych wynika z RODO (art. 5 i 32) oraz zaleceń EROD dotyczących przetwarzania danych z urządzeń wizyjnych, w których wskazano potrzebę stosowania środków ograniczających identyfikowalność osób (źródło: EDPB, Wytyczne 3/2019, wersja 2.1, 20.01.2022).

Technologie i strategie próbkowania

Wybór strategii próbkowania zależy od rodzaju materiału, kodeka oraz docelowej skuteczności wykrywania. Poniżej zestawiono najczęściej stosowane podejścia wraz z ich implikacjami dla anonimizacji.

Strategia	Opis	Zastosowanie w anonimizacji	Ryzyko utraty detekcji	Złożoność obliczeniowa
Jednostajne co n klatek	Stały krok czasowy, np. co 2 lub co 5 klatek	Proste sterowanie kosztem, przewidywalne zachowanie	Średnie - możliwe pominięcie krótkich ekspozycji	Niska
Próbkowanie po klatkach kluczowych	Analiza I-frame z GOP zgodnie z H.264/H.265	Efektywne dla materiałów z regularnym GOP	Średnie do wysokiego przy długich GOP	Niska do średniej
Detekcja zmian sceny	Klatka wybierana przy skokowej zmianie treści	Skupienie na momentach o największej zmienności	Niższe w scenach dynamicznych, wyższe w jednostajnych	Średnia
Adaptacyjne z wykorzystaniem ruchu	Gęstsze próbkowanie przy dużym ruchu, rzadsze w statyce	Dobry kompromis między kosztem a pokryciem zdarzeń	Niskie do średniego	Średnia
Keyframe + śledzenie	Detekcja na klatkach bazowych, interpolacja maską przez śledzenie	Popularne w detekcji wideo, dobre dla anonimizacji	Niskie przy stabilnym śledzeniu	Średnia

W warstwie kodeków struktury GOP i klatki I/P/B opisano w ITU-T H.264 | ISO/IEC 14496-10 (AVC) oraz ISO/IEC 23008-2 (HEVC). Wykorzystanie klatek I jako próbek jest praktyką inżynierską, która może ograniczać koszt dekodowania i analizy w porównaniu z przetwarzaniem każdej klatki, choć w wielu zastosowaniach i tak dekoduje się sekwencję (lub jej część) zależnie od narzędzi i formatu.

Kluczowe parametry i metryki w anonimizacji

Ocena skuteczności próbkowania powinna łączyć parametry czasowe z metrykami detekcji i zgodności. Poniżej zebrano najważniejsze atrybuty.

Parametr / metryka	Opis i znaczenie
Stride k	Stały krok próbkowania w klatkach. Im większy k, tym niższy koszt i wyższe ryzyko pominięć.
Efektywne fps f_eff	f_eff = f_src / k, gdzie f_src to źródłowe fps. Determinuje gęstość czasową maskowania.
Maksymalny odstęp czasowy	Δt_max ≈ 1 / f_eff. Przybliżona górna granica okna między dwiema analizowanymi klatkami (w próbkowaniu jednostajnym); w praktyce brak maski nie powinien występować, jeśli maski są propagowane śledzeniem.
Recall_video	Odsetek wszystkich wystąpień twarzy/tablic w całym wideo, które zostały zamaskowane. Krytyczny dla zgodności.
Precision_video	Odsetek nałożonych masek, które odpowiadają rzeczywistym obiektom. Wpływa na jakość obrazu po obróbce.
F1_video	Harmonijna średnia precision i recall. Umożliwia porównanie wariantów próbkowania.
Opóźnienie przetwarzania	Czas od rozpoczęcia do zakończenia anonimizacji. Istotny w przetwarzaniu wsadowym. Gallio PRO nie wykonuje anonimizacji w czasie rzeczywistym.

W praktyce łączy się próbkowanie z detektorami opartymi o CNN oraz śledzeniem międzyklatkowym, co zostało pokazane m.in. w pracach nad detekcją obiektów w wideo z agregacją czasową (FGFA) i śledzeniem DeepSORT. Redukcja wywołań detektora przy zachowaniu ciągłości wyników jest kluczowa dla kosztu i pokrycia zdarzeń.

Wyzwania i ograniczenia

Dobór próbkowania podlega ograniczeniom technicznym materiału oraz wymogom prawnym. Pominięcia występują częściej przy rozmyciu ruchu, niskiej ekspozycji, rolling shutter oraz w materiałach o wysokim natężeniu ruchu.

Ryzyko zgodności - każde pominięcie twarzy lub tablicy osłabia skuteczność anonimizacji. EDPB wskazuje na konieczność wdrożenia adekwatnych środków technicznych i organizacyjnych ograniczających identyfikowalność osób w udostępnianych materiałach (źródło: EDPB 3/2019).
Struktura GOP - długie GOP w H.264/H.265 utrudniają efektywne próbkowanie wyłącznie po klatkach I.
Różnorodność fps - standardowe fps definiowane m.in. przez ITU-R i SMPTE wymagają adaptacji parametrów próbkowania do źródła, aby ograniczyć Δt_max.
Modele AI - skuteczność wymaga poprawnie wytrenowanych detektorów twarzy i tablic. Głębokie sieci uczone na danych reprezentatywnych są niezbędne do automatycznego zamazywania obiektów.

Przykłady zastosowań i praktyka wdrożeniowa

W przetwarzaniu wsadowym on-premise stosuje się strategię keyframe + śledzenie: detekcja na klatkach bazowych, następnie propagacja masek poprzez tracki, a na koniec kontrolne dogęszczenie próbek w segmentach o dużej niepewności. Takie podejście ogranicza koszty, zachowując wysokie pokrycie anonimizacji.

Gallio PRO automatycznie zamazuje twarze i tablice rejestracyjne. Nie obsługuje automatycznego wykrywania logotypów, tatuaży, dokumentów ani zawartości ekranów - te elementy można zamazać ręcznie w edytorze.
Gallio PRO nie wykonuje anonimizacji w trybie real-time ani dla strumieni na żywo. Próbkowanie dotyczy przetwarzania plików wideo i zdjęć w trybie offline.
Gallio PRO działa on-premise oraz nie gromadzi logów zawierających wyniki detekcji twarzy i tablic rejestracyjnych.
W UE często zaleca się maskowanie tablic przy publikacji materiałów, zależnie od kontekstu i podstawy prawnej. Praktyka i podejście organów nadzorczych różnią się między państwami. W Polsce interpretacje bywają niejednoznaczne, choć wytyczne UODO i EROD wskazują na potrzebę minimalizacji danych.

Odniesienia normatywne i źródła

Poniżej wskazano standardy i publikacje techniczne powiązane z problematyką próbkowania klatek, kodeków oraz zgodności z RODO.

ITU-R BT.709-6 - Parameter values for the HDTV standards for production and international programme exchange, 2015. https://www.itu.int/rec/R-REC-BT.709
ITU-T H.264 | ISO/IEC 14496-10 - Advanced Video Coding, wersja 2019. https://www.itu.int/rec/T-REC-H.264 oraz https://www.iso.org/standard/76682.html
ISO/IEC 23008-2:2020 - High efficiency coding and media delivery in heterogeneous environments - Part 2: HEVC. https://www.iso.org/standard/79388.html
IEC 62676-4:2014 - Video surveillance systems for use in security applications - Part 4: Application guidelines. https://webstore.iec.ch/publication/6027
EDPB, Wytyczne 3/2019 w sprawie przetwarzania danych osobowych poprzez urządzenia wideo, wersja 2.1 z 20.01.2022. https://edpb.europa.eu
X. Zhu et al., Flow-Guided Feature Aggregation for Video Object Detection, ICCV 2017. https://openaccess.thecvf.com/content_iccv_2017/html/Zhu_Flow-Guided_Feature_Aggregation_ICCV_2017_paper.html
N. Wojke et al., Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT), 2017. https://arxiv.org/abs/1703.07402

Zobacz także

Powrót do słownika