Was sind Frame Rate (FPS) und Gesichtserkennung?

Frame Rate (FPS) und Gesichtserkennung – Definition

Die Frame Rate, also die Bildrate in Bildern pro Sekunde (FPS, Frames per Second), gibt an, wie viele aufeinanderfolgende Bilder innerhalb einer Sekunde Videoaufnahme gespeichert oder verarbeitet wurden. Im Kontext von Gesichtserkennung und Video-Anonymisierung beeinflusst die FPS direkt, wie oft der Algorithmus neue Informationen über die Position eines Gesichts im Zeitverlauf erhält. Je höher die FPS, desto kürzer ist der zeitliche Abstand zwischen den Frames und desto größer ist die Wahrscheinlichkeit, dass ein Gesicht in aufeinanderfolgenden Aufnahmen ohne Lücken erkannt wird.

In der Praxis ist dieser Zusammenhang jedoch nicht linear. Eine höhere FPS garantiert nicht automatisch eine höhere Wirksamkeit der Anonymisierung. Die Genauigkeit der Gesichtserkennung hängt gleichzeitig von der Auflösung, der Komprimierung, Bewegungsunschärfe, Beleuchtung, dem Gesichtswinkel, der Qualität des KI-Modells und der Art der Materialverarbeitung ab. In Systemen zur Anonymisierung von Fotos und Videos ist die FPS einer der Eingangsparameter, der den Recall der Erkennung, die Kontinuität des Objekt-Trackings und das Risiko beeinflusst, einzelne Frames zu übersehen.

Bei DSGVO-konformen Anwendungen geht es nicht um die Ästhetik der Unschärfe, sondern um die Reduzierung des Risikos, eine Person identifizieren zu können. Deshalb sollte die Analyse der FPS mit der Frage verknüpft werden, ob das System bei einem bestimmten Videomaterial ein Gesicht früh genug und stabil genug erkennt, um es in allen relevanten Frames zuverlässig zu verdecken.

Warum ist FPS bei der Anonymisierung von Videoaufnahmen wichtig?

Ein Video ist eine Sequenz von Bildern. Ein Gesichtserkennungsalgorithmus analysiert einzelne Frames oder ausgewählte Frames entsprechend der verwendeten Sampling-Strategie. Ist der Abstand zwischen den Frames zu groß, kann ein sich schnell bewegendes Gesicht nur in einem oder zwei Frames erscheinen oder teilweise verwischt sein. Dadurch steigt das Risiko, dass das Gesicht nicht erkannt und folglich auch nicht verpixelt oder unkenntlich gemacht wird.

Bei Material mit 25 FPS dauert ein Frame etwa 40 ms. Bei 10 FPS sind es bereits 100 ms und bei 5 FPS sogar 200 ms. Bei Kopfbewegungen, Bildausschnittwechseln oder wenn eine Person durch die Szene läuft, sind solche Unterschiede technisch relevant. In Deep-Learning-basierten Systemen arbeitet das Modell zur Gesichtserkennung auf den Frames, während die Kontinuität zwischen den Frames durch Tracking unterstützt werden kann. Wird das Gesicht jedoch im Ausgangsframe nicht korrekt erkannt oder verschwindet es in mehreren aufeinanderfolgenden Frames, ist auch das Tracking nicht mehr verlässlich.

Bei der Anonymisierung von Aufnahmen geht es daher nicht nur um die reine Erkennung, sondern um eine stabile Abdeckung des Gesichts im Zeitverlauf. Genau hier wirkt sich die FPS auf das operative Ergebnis aus.

Zentrale Parameter und Metriken für FPS und Gesichtserkennung

Die Bewertung des Einflusses der Bildrate sollte auf technischen Metriken beruhen und nicht nur auf der angegebenen FPS der Datei. Entscheidend ist, wie viele Frames tatsächlich analysiert wurden, mit welcher Wirksamkeit dies geschah und wie hoch der Anteil ausgelassener Frames ist.

  • FPS des Quellmaterials – Anzahl der im Video gespeicherten Frames, z. B. 25, 30, 50 oder 60 FPS.
  • Processing FPS – Anzahl der Frames, die von der Erkennungs-Engine pro Zeiteinheit analysiert werden.
  • Sampling Rate – ob alle Frames analysiert werden oder z. B. jeder zweite oder fünfte.
  • Recall – Anteil der tatsächlich vorhandenen Gesichter, die vom System erkannt wurden.
  • Precision – Anteil korrekter Erkennungen an allen Erkennungen.
  • False Negative Rate – Anteil der übersehenen Gesichter, kritisch aus Sicht des Datenschutzes.
  • Intersection over Union (IoU) – Maß für die Übereinstimmung zwischen dem Erkennungsrechteck und dem Referenzobjekt.
  • Temporal Continuity – Kontinuität der Erkennung über aufeinanderfolgende Frames.
  • Verarbeitungslatenz – operative Verzögerung, insbesondere relevant bei Streaming oder quasi-echtzeitnaher Verarbeitung; bei Batch-Verarbeitung meist von geringerer Bedeutung.

Der grundlegende zeitliche Zusammenhang lässt sich mit einer einfachen Formel ausdrücken:

Abstand zwischen Frames [ms] = 1000 / FPS

Beispielsweise:

FPS

Abstand zwischen Frames

Bedeutung für die Gesichtserkennung

 

5

200 ms

Hohes Risiko, eine kurz sichtbare Gesichtsexposition zu übersehen

10

100 ms

Nützlich für ruhige, statische Szenen

25

40 ms

Typisches Niveau für Überwachung und dokumentarisches Material

30

33,3 ms

Gute Balance zwischen flüssiger Erfassung und Rechenaufwand

50–60

20–16,7 ms

Bessere Kontinuität bei schnellen Bewegungen, aber höhere Rechenanforderungen

Optimale FPS-Einstellungen für verschiedene Anonymisierungsszenarien

Es gibt keinen einzelnen FPS-Wert, der für alle Fälle optimal ist. Die Auswahl hängt von der Dynamik der Szene, der Entfernung zwischen Kamera und Person, der Qualität der Optik und dem Zweck der Verarbeitung ab. Für Datenschutzbeauftragte ist wichtig, dass die Parameter auf die Reduzierung des Risikos einer Offenlegung des Gesichtsbildes ausgerichtet sind und nicht ausschließlich auf Verarbeitungsgeschwindigkeit.

Szenario

Empfohlene FPS des Materials

Praktische Hinweise

 

Statische Aufnahmen, wenig Bewegung

10–15 FPS

Möglich bei guter Bildqualität und geringer Veränderung der Gesichtsposition

Typische Videoüberwachung, Eingänge, Rezeptionen, Parkplätze

20–30 FPS

Häufigster Kompromiss zwischen Wirksamkeit und Ressourcenverbrauch

Szenen mit schneller Bewegung, Durchgänge, Verkehr, mobile Kameras

30–60 FPS

Höhere FPS reduziert zeitliche Lücken und verbessert das Tracking

Stark komprimiertes Material oder Aufnahmen mit Bewegungsunschärfe

30 FPS und mehr

Ein höherer FPS-Wert allein reicht nicht aus; auch Belichtung und Bitrate müssen passen

Wird das Material im Batch verarbeitet, können entweder alle Frames analysiert oder eine periodische Erkennung mit Maskenfortführung durch einen Tracker eingesetzt werden. Ein solches Modell kann effizient sein, erfordert aber eine Validierung an einem konkreten Testdatensatz. In Compliance-Umgebungen sollte keine Wirksamkeit ohne Messung von Recall und Anteil ausgelassener Frames angenommen werden.

Technologien für Gesichtserkennung im Zusammenhang mit FPS

Die moderne Gesichtsanonymisierung basiert in der Regel auf Deep-Learning-Modellen. Deep Learning wird benötigt, um ein KI-Modell zu trainieren, das Gesichter unter unterschiedlichen Bedingungen erkennen kann – bei teilweiser Verdeckung, wechselnder Beleuchtung, Kopfdrehung oder geringer Bildqualität. Ein solches Modell wird anschließend im Prozess des automatischen Verpixelns oder Unkenntlichmachens von Gesichtern in Fotos und Videos eingesetzt.

Die häufigsten technischen Ansätze sind:

  • Erkennung jedes einzelnen Frames unabhängig voneinander – höchste zeitliche Genauigkeit, aber höherer Rechenaufwand,
  • Erkennung alle N Frames und Tracking dazwischen – geringerer Aufwand, aber höheres Fehlerrisiko bei abrupten Bewegungen,
  • Kombination aus Multi-Scale-Erkennung und Tracking – gut geeignet für Szenen, in denen sich die Gesichtsgröße im Bild verändert.

In der Praxis löst die FPS der Datei allein das Problem nicht, wenn das Modell mit zu niedriger Eingangsauflösung arbeitet oder wenn die Komprimierung zu Detailverlusten führt. Codierungsstandards wie H.264/AVC (ITU-T H.264 | ISO/IEC 14496-10) und H.265/HEVC (ITU-T H.265 | ISO/IEC 23008-2) können Artefakte verursachen, die die Qualität der Gesichtserkennung beeinträchtigen, insbesondere bei niedriger Bitrate.

Herausforderungen und Grenzen von FPS bei der Gesichtserkennung

Eine höhere Bildrate verbessert die Beobachtungsdichte, beseitigt aber nicht die grundlegenden Einschränkungen des Bildmaterials. Ein Gesicht kann selbst bei 60 FPS unerkannt bleiben, wenn es zu klein, verdeckt, überbelichtet oder wegen einer zu langen Belichtungszeit verwischt ist.

Zu den häufigsten Einschränkungen gehören:

  • Bewegungsunschärfe, die primär durch die Belichtungszeit und nicht durch eine niedrige FPS verursacht wird,
  • geringe Gesichtsauflösung in Pixeln,
  • Detailverlust durch interframe-basierte Kompression,
  • starker Neigungswinkel des Gesichts und teilweise Verdeckung,
  • Sampling nur eines Teils der Frames zur Beschleunigung der Berechnungen.

Aus Sicht des Datenschutzes sind False Negatives, also übersehene Gesichter, am kritischsten. Sie erzeugen das Risiko einer Offenlegung personenbezogener Daten. Daher sollten für Materialien mit erhöhtem Risiko konservative Analyseparameter und eine Qualitätskontrolle der Ergebnisse verwendet werden.

Normative und fachliche Referenzen

Im Bereich der Video-Anonymisierung ist die FPS nicht durch einen einzelnen Rechtsakt geregelt, ihre Wahl beeinflusst jedoch die Wirksamkeit technischer Maßnahmen zum Schutz personenbezogener Daten. In diesem Sinn ist sie als Parameter zu verstehen, der die Umsetzung des Grundsatzes der Integrität und Vertraulichkeit sowie von Privacy by Design unterstützt.

  • Verordnung (EU) 2016/679 – DSGVO, Art. 5 Abs. 1 lit. f, Art. 25, Art. 32.
  • ISO/IEC 2382 – informationstechnische Terminologie, einschließlich Begriffen im Zusammenhang mit Bild und Video.
  • ITU-T H.264 und ITU-T H.265 – Videokompressionsstandards, die die Qualität der Eingangsdaten für die Erkennung beeinflussen.
  • NIST Face Recognition Vendor Test (FRVT), laufende Berichte des National Institute of Standards and Technology – Vergleichsquelle für die Leistungsfähigkeit von Gesichtsalgorithmen, mit dem Vorbehalt, dass sich FRVT-Tests hauptsächlich auf Erkennung und Verifikation und nicht auf vollständige Anonymisierung beziehen.

In der Compliance-Praxis sollten nicht nur das eingesetzte Erkennungsmodell dokumentiert werden, sondern auch die Parameter des Eingangsmaterials, einschließlich FPS, Auflösung, Codec und Ergebnisse von Wirksamkeitstests an einer repräsentativen Datenstichprobe.