Was ist Video Frame Sampling?

Video Frame Sampling - Definition

Video Frame Sampling bezeichnet die kontrollierte Auswahl einer Teilmenge von Frames aus einer Videosequenz, um den Rechenaufwand, das Datenvolumen zu reduzieren oder die Verarbeitung an konkrete Aufgabenanforderungen anzupassen. In der Praxis bedeutet dies die Auswahl jedes n-ten Frames, von Keyframes, von Frames bei Szenenwechseln oder von Frames gemäß einer adaptiven Regel. Der Begriff unterscheidet sich von der Umwandlung der Bildrate (FPS-Änderung), da es um die Auswahl von Frames zur Analyse geht und nicht zwingend eine vollständige Rekodierung des Videostreams erfordert.

Im Kontext der Bild- und Videoanonymisierung beschreibt Video Frame Sampling, wie viele und welche Frames von Algorithmen zur Gesichts- und Kennzeichenerkennung, zum Tracking sowie für Maskierungsoperationen analysiert werden. Die Wahl der Sampling-Strategie und -Dichte hat direkten Einfluss auf die Vollständigkeit der Verpixelung sowie auf Rechenkosten und Verarbeitungszeit. Übliche Bildraten sind unter anderem 25 und 29,97 fps. Die Sampling-Entscheidung muss daher die Szenendynamik, die tatsächliche FPS des Materials und die Anforderungen der DSGVO berücksichtigen.

Die Rolle von Video Frame Sampling bei der Anonymisierung

Die Anonymisierung von Gesichtern und Kfz-Kennzeichen erfordert die Erkennung aller Vorkommen eines Objekts im Videomaterial. Zu seltenes Sampling kann kurzzeitige Sichtbarkeiten, schnelle Kopfbewegungen oder Objekte, die nur über wenige Frames erscheinen, übersehen. Zu dichtes Sampling erhöht hingegen Rechenaufwand und Kosten, ohne in bestimmten Szenen eine relevante Verbesserung der Erkennungsleistung zu erzielen.

In der Praxis wird häufig eine Kombination aus Detektion auf ausgewählten Frames und Frame-übergreifendem Tracking eingesetzt, um Masken in Frames ohne vollständige Detektion zu interpolieren. Tracking-Verfahren (z. B. SORT, DeepSORT) reduzieren die Anzahl der Detektoraufrufe und gewährleisten gleichzeitig eine kontinuierliche Verpixelung der Objekte zwischen den Samples. Die Verpflichtung zur Umsetzung geeigneter technischer und organisatorischer Maßnahmen ergibt sich aus der DSGVO (Art. 5 und 32) sowie aus den Leitlinien des EDSA (EDPB) zur Verarbeitung von Videodaten, die explizit Maßnahmen zur Reduzierung der Identifizierbarkeit von Personen empfehlen (Quelle: EDPB, Leitlinien 3/2019, Version 2.1, 20.01.2022).

Technologien und Sampling-Strategien

Die Wahl der Sampling-Strategie hängt vom Materialtyp, vom Codec und von der gewünschten Detektionsgenauigkeit ab. Nachfolgend sind die gängigsten Ansätze und ihre Auswirkungen auf die Anonymisierung zusammengefasst.

Strategie

Beschreibung

Einsatz bei der Anonymisierung

Risiko von Erkennungsverlusten

Rechenkomplexität

 

Gleichmäßig alle n Frames

Fester zeitlicher Schritt, z. B. jeder 2. oder 5. Frame

Einfache Kostenkontrolle, vorhersehbares Verhalten

Mittel - kurze Sichtbarkeiten können übersehen werden

Niedrig

Sampling über Keyframes

Analyse von I-Frames gemäß GOP-Struktur (H.264/H.265)

Effizient bei regelmäßigem GOP

Mittel bis hoch bei langen GOPs

Niedrig bis mittel

Szenenwechsel-Erkennung

Frame-Auswahl bei abrupten Inhaltsänderungen

Fokus auf besonders dynamische Momente

Niedriger in dynamischen, höher in statischen Szenen

Mittel

Adaptives, bewegungsbasiertes Sampling

Dichteres Sampling bei hoher Bewegung, seltener bei Statik

Guter Kompromiss zwischen Kosten und Ereignisabdeckung

Niedrig bis mittel

Mittel

Keyframe + Tracking

Detektion auf Basisframes, Maskeninterpolation per Tracking

Weit verbreitet, sehr gut für Videoanonymisierung

Niedrig bei stabilem Tracking

Mittel

Auf Codec-Ebene sind GOP-Strukturen sowie I-/P-/B-Frames in ITU‑T H.264 | ISO/IEC 14496‑10 (AVC) und ISO/IEC 23008‑2 (HEVC) definiert. Die Nutzung von I-Frames als Samples ist eine etablierte Ingenieurpraxis, um Dekodierungs- und Analyseaufwand gegenüber der Verarbeitung jedes einzelnen Frames zu reduzieren - auch wenn in vielen Anwendungen dennoch ganze Sequenzen oder Teilsequenzen dekodiert werden.

Zentrale Parameter und Metriken in der Anonymisierung

Die Bewertung der Sampling-Qualität sollte zeitliche Parameter mit Detektions- und Compliance-Metriken kombinieren. Die wichtigsten Kenngrößen sind:

Parameter / Metrik

Bedeutung

 

Stride k

Fester Sampling-Abstand in Frames. Größeres k senkt Kosten, erhöht aber das Risiko von Auslassungen.

Effektive FPS f_eff

f_eff = f_src / k, wobei f_src die ursprüngliche Bildrate ist. Bestimmt die zeitliche Dichte der Maskierung.

Maximaler Zeitabstand

Δt_max ≈ 1 / f_eff. Näherungsweise obere Grenze zwischen zwei analysierten Frames; bei Tracking sollte keine unmaskierte Lücke auftreten.

Recall_video

Anteil aller Gesichts- und Kennzeichenvorkommen im Video, die maskiert wurden. Kritisch für die DSGVO-Konformität.

Precision_video

Anteil der gesetzten Masken, die echten Objekten entsprechen. Relevant für die Bildqualität.

F1_video

Harmonisches Mittel aus Precision und Recall zur Vergleichbarkeit von Sampling-Varianten.

Verarbeitungsverzögerung

Gesamtzeit der Anonymisierung. Relevant für Batch-Verarbeitung. Gallio PRO arbeitet nicht in Echtzeit.

In der Praxis wird Video Frame Sampling mit CNN-basierten Detektoren und Frame-übergreifendem Tracking kombiniert, wie etwa bei zeitlicher Feature-Aggregation (FGFA) oder DeepSORT. Die Reduktion von Detektoraufrufen bei gleichbleibender Ergebnis-Kontinuität ist entscheidend für Kosten und Abdeckung.

Herausforderungen und Einschränkungen

Die Wahl des Samplings unterliegt technischen Grenzen des Materials sowie rechtlichen Anforderungen. Erkennungsverluste treten häufiger bei Bewegungsunschärfe, geringer Belichtung, Rolling-Shutter-Effekten und sehr dynamischen Szenen auf.

  • Compliance-Risiko: Jede übersehene Person oder jedes Kennzeichen schwächt die Anonymisierung. Der EDSA fordert angemessene technische und organisatorische Maßnahmen zur Reduzierung der Identifizierbarkeit (Quelle: EDPB 3/2019).
  • GOP-Struktur: Lange GOPs in H.264/H.265 erschweren reines I-Frame-Sampling.
  • FPS-Vielfalt: Von ITU‑R und SMPTE definierte Standard-FPS erfordern eine adaptive Sampling-Konfiguration zur Begrenzung von Δt_max.
  • KI-Modelle: Hohe Wirksamkeit setzt gut trainierte Gesichts- und Kennzeichendetektoren voraus. Repräsentative Trainingsdaten sind essenziell.

Anwendungsbeispiele und Implementierungspraxis

Bei der On-Premise-Batchverarbeitung wird häufig die Strategie „Keyframe + Tracking“ eingesetzt: Detektion auf Basisframes, anschließende Maskenpropagation entlang der Tracks und abschließende Verdichtung in unsicheren Segmenten. Dieses Vorgehen senkt Kosten bei gleichzeitig hoher Anonymisierungsabdeckung.

  • Gallio PRO verpixelt automatisch Gesichter und Kfz-Kennzeichen. Logos, Tätowierungen, Dokumente und Bildschirminhalte werden nicht automatisch erkannt, können aber manuell maskiert werden.
  • Gallio PRO unterstützt keine Echtzeit- oder Live-Stream-Anonymisierung. Video Frame Sampling wird ausschließlich für die Offline-Verarbeitung von Videos und Bildern eingesetzt.
  • Gallio PRO arbeitet vollständig on-premise und speichert keine Logs mit Ergebnissen der Gesichts- oder Kennzeichenerkennung.
  • In der EU wird das Maskieren von Kennzeichen bei Veröffentlichungen häufig empfohlen, abhängig von Kontext und Rechtsgrundlage. Die Praxis der Aufsichtsbehörden variiert zwischen den Mitgliedstaaten. In Deutschland ist die Auslegung teils uneinheitlich, jedoch betonen Leitlinien von Datenschutzbehörden und EDSA die Datenminimierung.

Normative Referenzen und Quellen

Nachfolgend relevante Standards und technische Publikationen zu Video Frame Sampling, Codecs und DSGVO-Konformität:

  • ITU-R BT.709-6 - Parameter values for the HDTV standards for production and international programme exchange, 2015. https://www.itu.int/rec/R-REC-BT.709
  • ITU-T H.264 | ISO/IEC 14496-10 - Advanced Video Coding, Version 2019. https://www.itu.int/rec/T-REC-H.264, https://www.iso.org/standard/76682.html
  • ISO/IEC 23008-2:2020 - High Efficiency Video Coding (HEVC). https://www.iso.org/standard/79388.html
  • IEC 62676-4:2014 - Video surveillance systems - Application guidelines. https://webstore.iec.ch/publication/6027
  • EDPB - Leitlinien 3/2019 zur Verarbeitung personenbezogener Daten durch Videogeräte, Version 2.1 vom 20.01.2022. https://edpb.europa.eu
  • X. Zhu et al., Flow-Guided Feature Aggregation for Video Object Detection, ICCV 2017. https://openaccess.thecvf.com/content_iccv_2017/html/Zhu_Flow-Guided_Feature_Aggregation_ICCV_2017_paper.html
  • N. Wojke et al., Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT), 2017. https://arxiv.org/abs/1703.07402