Co to jest Video Frame Sampling?

Video Frame Sampling - definicja

Video Frame Sampling to kontrolowana selekcja podzbioru klatek z sekwencji wideo w celu obniżenia kosztu obliczeń, objętości danych lub dostosowania przetwarzania do wymagań zadaniowych. W praktyce polega na wyborze co n-tej klatki, klatek kluczowych, klatek przy zmianie sceny lub klatek zgodnie z regułą adaptacyjną. Pojęcie różni się od konwersji liczby klatek na sekundę (zmiany fps), ponieważ dotyczy wyboru klatek do analizy i nie musi oznaczać rekodowania całego strumienia.

W kontekście anonimizacji obrazów i nagrań wideo Video Frame Sampling określa, ile i jakie klatki są analizowane przez algorytmy detekcji twarzy i tablic rejestracyjnych, śledzenia oraz operacje maskowania. Dobór strategii i gęstości próbkowania ma bezpośredni wpływ na kompletność zamazania oraz na koszty obliczeniowe i czas przetwarzania. Typowe częstotliwości klatek to m.in. 25 i 29.97 fps. Wybór próbkowania musi więc uwzględniać dynamikę sceny, rzeczywiste fps materiału i wymagania zgodności z RODO.

Rola Video Frame Sampling w anonimizacji

Anonimizacja twarzy i tablic rejestracyjnych wymaga wykrycia wszystkich przypadków pojawienia się obiektu w materiale. Zbyt rzadkie próbkowanie może pominąć krótkotrwałe ekspozycje, szybkie obroty głowy lub obiekty przesłaniane przez część klatek. Zbyt gęste próbkowanie zwiększa koszt i czas obliczeń bez istotnej poprawy skuteczności dla niektórych scen.

W praktyce stosuje się połączenie detekcji w wybranych klatkach oraz śledzenia międzyklatkowego, tak aby interpolować maski w klatkach niepoddanych pełnej detekcji. Śledzenie (np. SORT, DeepSORT) pozwala ograniczyć liczbę wywołań detektora, przy zachowaniu ciągłości zamazania obiektów między próbkami. Wymóg wdrożenia adekwatnych środków technicznych i organizacyjnych wynika z RODO (art. 5 i 32) oraz zaleceń EROD dotyczących przetwarzania danych z urządzeń wizyjnych, w których wskazano potrzebę stosowania środków ograniczających identyfikowalność osób (źródło: EDPB, Wytyczne 3/2019, wersja 2.1, 20.01.2022).

Technologie i strategie próbkowania

Wybór strategii próbkowania zależy od rodzaju materiału, kodeka oraz docelowej skuteczności wykrywania. Poniżej zestawiono najczęściej stosowane podejścia wraz z ich implikacjami dla anonimizacji.

Strategia

Opis

Zastosowanie w anonimizacji

Ryzyko utraty detekcji

Złożoność obliczeniowa

 

Jednostajne co n klatek

Stały krok czasowy, np. co 2 lub co 5 klatek

Proste sterowanie kosztem, przewidywalne zachowanie

Średnie - możliwe pominięcie krótkich ekspozycji

Niska

Próbkowanie po klatkach kluczowych

Analiza I-frame z GOP zgodnie z H.264/H.265

Efektywne dla materiałów z regularnym GOP

Średnie do wysokiego przy długich GOP

Niska do średniej

Detekcja zmian sceny

Klatka wybierana przy skokowej zmianie treści

Skupienie na momentach o największej zmienności

Niższe w scenach dynamicznych, wyższe w jednostajnych

Średnia

Adaptacyjne z wykorzystaniem ruchu

Gęstsze próbkowanie przy dużym ruchu, rzadsze w statyce

Dobry kompromis między kosztem a pokryciem zdarzeń

Niskie do średniego

Średnia

Keyframe + śledzenie

Detekcja na klatkach bazowych, interpolacja maską przez śledzenie

Popularne w detekcji wideo, dobre dla anonimizacji

Niskie przy stabilnym śledzeniu

Średnia

W warstwie kodeków struktury GOP i klatki I/P/B opisano w ITU-T H.264 | ISO/IEC 14496-10 (AVC) oraz ISO/IEC 23008-2 (HEVC). Wykorzystanie klatek I jako próbek jest praktyką inżynierską, która może ograniczać koszt dekodowania i analizy w porównaniu z przetwarzaniem każdej klatki, choć w wielu zastosowaniach i tak dekoduje się sekwencję (lub jej część) zależnie od narzędzi i formatu.

Kluczowe parametry i metryki w anonimizacji

Ocena skuteczności próbkowania powinna łączyć parametry czasowe z metrykami detekcji i zgodności. Poniżej zebrano najważniejsze atrybuty.

Parametr / metryka

Opis i znaczenie

 

Stride k

Stały krok próbkowania w klatkach. Im większy k, tym niższy koszt i wyższe ryzyko pominięć.

Efektywne fps f_eff

f_eff = f_src / k, gdzie f_src to źródłowe fps. Determinuje gęstość czasową maskowania.

Maksymalny odstęp czasowy

Δt_max ≈ 1 / f_eff. Przybliżona górna granica okna między dwiema analizowanymi klatkami (w próbkowaniu jednostajnym); w praktyce brak maski nie powinien występować, jeśli maski są propagowane śledzeniem.

Recall_video

Odsetek wszystkich wystąpień twarzy/tablic w całym wideo, które zostały zamaskowane. Krytyczny dla zgodności.

Precision_video

Odsetek nałożonych masek, które odpowiadają rzeczywistym obiektom. Wpływa na jakość obrazu po obróbce.

F1_video

Harmonijna średnia precision i recall. Umożliwia porównanie wariantów próbkowania.

Opóźnienie przetwarzania

Czas od rozpoczęcia do zakończenia anonimizacji. Istotny w przetwarzaniu wsadowym. Gallio PRO nie wykonuje anonimizacji w czasie rzeczywistym.

W praktyce łączy się próbkowanie z detektorami opartymi o CNN oraz śledzeniem międzyklatkowym, co zostało pokazane m.in. w pracach nad detekcją obiektów w wideo z agregacją czasową (FGFA) i śledzeniem DeepSORT. Redukcja wywołań detektora przy zachowaniu ciągłości wyników jest kluczowa dla kosztu i pokrycia zdarzeń.

Wyzwania i ograniczenia

Dobór próbkowania podlega ograniczeniom technicznym materiału oraz wymogom prawnym. Pominięcia występują częściej przy rozmyciu ruchu, niskiej ekspozycji, rolling shutter oraz w materiałach o wysokim natężeniu ruchu.

  • Ryzyko zgodności - każde pominięcie twarzy lub tablicy osłabia skuteczność anonimizacji. EDPB wskazuje na konieczność wdrożenia adekwatnych środków technicznych i organizacyjnych ograniczających identyfikowalność osób w udostępnianych materiałach (źródło: EDPB 3/2019).
  • Struktura GOP - długie GOP w H.264/H.265 utrudniają efektywne próbkowanie wyłącznie po klatkach I.
  • Różnorodność fps - standardowe fps definiowane m.in. przez ITU-R i SMPTE wymagają adaptacji parametrów próbkowania do źródła, aby ograniczyć Δt_max.
  • Modele AI - skuteczność wymaga poprawnie wytrenowanych detektorów twarzy i tablic. Głębokie sieci uczone na danych reprezentatywnych są niezbędne do automatycznego zamazywania obiektów.

Przykłady zastosowań i praktyka wdrożeniowa

W przetwarzaniu wsadowym on-premise stosuje się strategię keyframe + śledzenie: detekcja na klatkach bazowych, następnie propagacja masek poprzez tracki, a na koniec kontrolne dogęszczenie próbek w segmentach o dużej niepewności. Takie podejście ogranicza koszty, zachowując wysokie pokrycie anonimizacji.

  • Gallio PRO automatycznie zamazuje twarze i tablice rejestracyjne. Nie obsługuje automatycznego wykrywania logotypów, tatuaży, dokumentów ani zawartości ekranów - te elementy można zamazać ręcznie w edytorze.
  • Gallio PRO nie wykonuje anonimizacji w trybie real-time ani dla strumieni na żywo. Próbkowanie dotyczy przetwarzania plików wideo i zdjęć w trybie offline.
  • Gallio PRO działa on-premise oraz nie gromadzi logów zawierających wyniki detekcji twarzy i tablic rejestracyjnych.
  • W UE często zaleca się maskowanie tablic przy publikacji materiałów, zależnie od kontekstu i podstawy prawnej. Praktyka i podejście organów nadzorczych różnią się między państwami. W Polsce interpretacje bywają niejednoznaczne, choć wytyczne UODO i EROD wskazują na potrzebę minimalizacji danych.

Odniesienia normatywne i źródła

Poniżej wskazano standardy i publikacje techniczne powiązane z problematyką próbkowania klatek, kodeków oraz zgodności z RODO.

  • ITU-R BT.709-6 - Parameter values for the HDTV standards for production and international programme exchange, 2015. https://www.itu.int/rec/R-REC-BT.709
  • ITU-T H.264 | ISO/IEC 14496-10 - Advanced Video Coding, wersja 2019. https://www.itu.int/rec/T-REC-H.264 oraz https://www.iso.org/standard/76682.html
  • ISO/IEC 23008-2:2020 - High efficiency coding and media delivery in heterogeneous environments - Part 2: HEVC. https://www.iso.org/standard/79388.html
  • IEC 62676-4:2014 - Video surveillance systems for use in security applications - Part 4: Application guidelines. https://webstore.iec.ch/publication/6027
  • EDPB, Wytyczne 3/2019 w sprawie przetwarzania danych osobowych poprzez urządzenia wideo, wersja 2.1 z 20.01.2022. https://edpb.europa.eu
  • X. Zhu et al., Flow-Guided Feature Aggregation for Video Object Detection, ICCV 2017. https://openaccess.thecvf.com/content_iccv_2017/html/Zhu_Flow-Guided_Feature_Aggregation_ICCV_2017_paper.html
  • N. Wojke et al., Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT), 2017. https://arxiv.org/abs/1703.07402