Frame Rate (FPS) und Gesichtserkennung – Definition
Die Frame Rate, also die Bildrate in Bildern pro Sekunde (FPS, Frames per Second), gibt an, wie viele aufeinanderfolgende Bilder innerhalb einer Sekunde Videoaufnahme gespeichert oder verarbeitet wurden. Im Kontext von Gesichtserkennung und Video-Anonymisierung beeinflusst die FPS direkt, wie oft der Algorithmus neue Informationen über die Position eines Gesichts im Zeitverlauf erhält. Je höher die FPS, desto kürzer ist der zeitliche Abstand zwischen den Frames und desto größer ist die Wahrscheinlichkeit, dass ein Gesicht in aufeinanderfolgenden Aufnahmen ohne Lücken erkannt wird.
In der Praxis ist dieser Zusammenhang jedoch nicht linear. Eine höhere FPS garantiert nicht automatisch eine höhere Wirksamkeit der Anonymisierung. Die Genauigkeit der Gesichtserkennung hängt gleichzeitig von der Auflösung, der Komprimierung, Bewegungsunschärfe, Beleuchtung, dem Gesichtswinkel, der Qualität des KI-Modells und der Art der Materialverarbeitung ab. In Systemen zur Anonymisierung von Fotos und Videos ist die FPS einer der Eingangsparameter, der den Recall der Erkennung, die Kontinuität des Objekt-Trackings und das Risiko beeinflusst, einzelne Frames zu übersehen.
Bei DSGVO-konformen Anwendungen geht es nicht um die Ästhetik der Unschärfe, sondern um die Reduzierung des Risikos, eine Person identifizieren zu können. Deshalb sollte die Analyse der FPS mit der Frage verknüpft werden, ob das System bei einem bestimmten Videomaterial ein Gesicht früh genug und stabil genug erkennt, um es in allen relevanten Frames zuverlässig zu verdecken.
Warum ist FPS bei der Anonymisierung von Videoaufnahmen wichtig?
Ein Video ist eine Sequenz von Bildern. Ein Gesichtserkennungsalgorithmus analysiert einzelne Frames oder ausgewählte Frames entsprechend der verwendeten Sampling-Strategie. Ist der Abstand zwischen den Frames zu groß, kann ein sich schnell bewegendes Gesicht nur in einem oder zwei Frames erscheinen oder teilweise verwischt sein. Dadurch steigt das Risiko, dass das Gesicht nicht erkannt und folglich auch nicht verpixelt oder unkenntlich gemacht wird.
Bei Material mit 25 FPS dauert ein Frame etwa 40 ms. Bei 10 FPS sind es bereits 100 ms und bei 5 FPS sogar 200 ms. Bei Kopfbewegungen, Bildausschnittwechseln oder wenn eine Person durch die Szene läuft, sind solche Unterschiede technisch relevant. In Deep-Learning-basierten Systemen arbeitet das Modell zur Gesichtserkennung auf den Frames, während die Kontinuität zwischen den Frames durch Tracking unterstützt werden kann. Wird das Gesicht jedoch im Ausgangsframe nicht korrekt erkannt oder verschwindet es in mehreren aufeinanderfolgenden Frames, ist auch das Tracking nicht mehr verlässlich.
Bei der Anonymisierung von Aufnahmen geht es daher nicht nur um die reine Erkennung, sondern um eine stabile Abdeckung des Gesichts im Zeitverlauf. Genau hier wirkt sich die FPS auf das operative Ergebnis aus.
Zentrale Parameter und Metriken für FPS und Gesichtserkennung
Die Bewertung des Einflusses der Bildrate sollte auf technischen Metriken beruhen und nicht nur auf der angegebenen FPS der Datei. Entscheidend ist, wie viele Frames tatsächlich analysiert wurden, mit welcher Wirksamkeit dies geschah und wie hoch der Anteil ausgelassener Frames ist.
- FPS des Quellmaterials – Anzahl der im Video gespeicherten Frames, z. B. 25, 30, 50 oder 60 FPS.
- Processing FPS – Anzahl der Frames, die von der Erkennungs-Engine pro Zeiteinheit analysiert werden.
- Sampling Rate – ob alle Frames analysiert werden oder z. B. jeder zweite oder fünfte.
- Recall – Anteil der tatsächlich vorhandenen Gesichter, die vom System erkannt wurden.
- Precision – Anteil korrekter Erkennungen an allen Erkennungen.
- False Negative Rate – Anteil der übersehenen Gesichter, kritisch aus Sicht des Datenschutzes.
- Intersection over Union (IoU) – Maß für die Übereinstimmung zwischen dem Erkennungsrechteck und dem Referenzobjekt.
- Temporal Continuity – Kontinuität der Erkennung über aufeinanderfolgende Frames.
- Verarbeitungslatenz – operative Verzögerung, insbesondere relevant bei Streaming oder quasi-echtzeitnaher Verarbeitung; bei Batch-Verarbeitung meist von geringerer Bedeutung.
Der grundlegende zeitliche Zusammenhang lässt sich mit einer einfachen Formel ausdrücken:
Abstand zwischen Frames [ms] = 1000 / FPS
Beispielsweise:
FPS | Abstand zwischen Frames | Bedeutung für die Gesichtserkennung
|
|---|---|---|
5 | 200 ms | Hohes Risiko, eine kurz sichtbare Gesichtsexposition zu übersehen |
10 | 100 ms | Nützlich für ruhige, statische Szenen |
25 | 40 ms | Typisches Niveau für Überwachung und dokumentarisches Material |
30 | 33,3 ms | Gute Balance zwischen flüssiger Erfassung und Rechenaufwand |
50–60 | 20–16,7 ms | Bessere Kontinuität bei schnellen Bewegungen, aber höhere Rechenanforderungen |
Optimale FPS-Einstellungen für verschiedene Anonymisierungsszenarien
Es gibt keinen einzelnen FPS-Wert, der für alle Fälle optimal ist. Die Auswahl hängt von der Dynamik der Szene, der Entfernung zwischen Kamera und Person, der Qualität der Optik und dem Zweck der Verarbeitung ab. Für Datenschutzbeauftragte ist wichtig, dass die Parameter auf die Reduzierung des Risikos einer Offenlegung des Gesichtsbildes ausgerichtet sind und nicht ausschließlich auf Verarbeitungsgeschwindigkeit.
Szenario | Empfohlene FPS des Materials | Praktische Hinweise
|
|---|---|---|
Statische Aufnahmen, wenig Bewegung | 10–15 FPS | Möglich bei guter Bildqualität und geringer Veränderung der Gesichtsposition |
Typische Videoüberwachung, Eingänge, Rezeptionen, Parkplätze | 20–30 FPS | Häufigster Kompromiss zwischen Wirksamkeit und Ressourcenverbrauch |
Szenen mit schneller Bewegung, Durchgänge, Verkehr, mobile Kameras | 30–60 FPS | Höhere FPS reduziert zeitliche Lücken und verbessert das Tracking |
Stark komprimiertes Material oder Aufnahmen mit Bewegungsunschärfe | 30 FPS und mehr | Ein höherer FPS-Wert allein reicht nicht aus; auch Belichtung und Bitrate müssen passen |
Wird das Material im Batch verarbeitet, können entweder alle Frames analysiert oder eine periodische Erkennung mit Maskenfortführung durch einen Tracker eingesetzt werden. Ein solches Modell kann effizient sein, erfordert aber eine Validierung an einem konkreten Testdatensatz. In Compliance-Umgebungen sollte keine Wirksamkeit ohne Messung von Recall und Anteil ausgelassener Frames angenommen werden.
Technologien für Gesichtserkennung im Zusammenhang mit FPS
Die moderne Gesichtsanonymisierung basiert in der Regel auf Deep-Learning-Modellen. Deep Learning wird benötigt, um ein KI-Modell zu trainieren, das Gesichter unter unterschiedlichen Bedingungen erkennen kann – bei teilweiser Verdeckung, wechselnder Beleuchtung, Kopfdrehung oder geringer Bildqualität. Ein solches Modell wird anschließend im Prozess des automatischen Verpixelns oder Unkenntlichmachens von Gesichtern in Fotos und Videos eingesetzt.
Die häufigsten technischen Ansätze sind:
- Erkennung jedes einzelnen Frames unabhängig voneinander – höchste zeitliche Genauigkeit, aber höherer Rechenaufwand,
- Erkennung alle N Frames und Tracking dazwischen – geringerer Aufwand, aber höheres Fehlerrisiko bei abrupten Bewegungen,
- Kombination aus Multi-Scale-Erkennung und Tracking – gut geeignet für Szenen, in denen sich die Gesichtsgröße im Bild verändert.
In der Praxis löst die FPS der Datei allein das Problem nicht, wenn das Modell mit zu niedriger Eingangsauflösung arbeitet oder wenn die Komprimierung zu Detailverlusten führt. Codierungsstandards wie H.264/AVC (ITU-T H.264 | ISO/IEC 14496-10) und H.265/HEVC (ITU-T H.265 | ISO/IEC 23008-2) können Artefakte verursachen, die die Qualität der Gesichtserkennung beeinträchtigen, insbesondere bei niedriger Bitrate.
Herausforderungen und Grenzen von FPS bei der Gesichtserkennung
Eine höhere Bildrate verbessert die Beobachtungsdichte, beseitigt aber nicht die grundlegenden Einschränkungen des Bildmaterials. Ein Gesicht kann selbst bei 60 FPS unerkannt bleiben, wenn es zu klein, verdeckt, überbelichtet oder wegen einer zu langen Belichtungszeit verwischt ist.
Zu den häufigsten Einschränkungen gehören:
- Bewegungsunschärfe, die primär durch die Belichtungszeit und nicht durch eine niedrige FPS verursacht wird,
- geringe Gesichtsauflösung in Pixeln,
- Detailverlust durch interframe-basierte Kompression,
- starker Neigungswinkel des Gesichts und teilweise Verdeckung,
- Sampling nur eines Teils der Frames zur Beschleunigung der Berechnungen.
Aus Sicht des Datenschutzes sind False Negatives, also übersehene Gesichter, am kritischsten. Sie erzeugen das Risiko einer Offenlegung personenbezogener Daten. Daher sollten für Materialien mit erhöhtem Risiko konservative Analyseparameter und eine Qualitätskontrolle der Ergebnisse verwendet werden.
Normative und fachliche Referenzen
Im Bereich der Video-Anonymisierung ist die FPS nicht durch einen einzelnen Rechtsakt geregelt, ihre Wahl beeinflusst jedoch die Wirksamkeit technischer Maßnahmen zum Schutz personenbezogener Daten. In diesem Sinn ist sie als Parameter zu verstehen, der die Umsetzung des Grundsatzes der Integrität und Vertraulichkeit sowie von Privacy by Design unterstützt.
- Verordnung (EU) 2016/679 – DSGVO, Art. 5 Abs. 1 lit. f, Art. 25, Art. 32.
- ISO/IEC 2382 – informationstechnische Terminologie, einschließlich Begriffen im Zusammenhang mit Bild und Video.
- ITU-T H.264 und ITU-T H.265 – Videokompressionsstandards, die die Qualität der Eingangsdaten für die Erkennung beeinflussen.
- NIST Face Recognition Vendor Test (FRVT), laufende Berichte des National Institute of Standards and Technology – Vergleichsquelle für die Leistungsfähigkeit von Gesichtsalgorithmen, mit dem Vorbehalt, dass sich FRVT-Tests hauptsächlich auf Erkennung und Verifikation und nicht auf vollständige Anonymisierung beziehen.
In der Compliance-Praxis sollten nicht nur das eingesetzte Erkennungsmodell dokumentiert werden, sondern auch die Parameter des Eingangsmaterials, einschließlich FPS, Auflösung, Codec und Ergebnisse von Wirksamkeitstests an einer repräsentativen Datenstichprobe.