Was ist eine Video-Redaction-API?

Inhaltsverzeichnis

Video-Redaction-API - Definition
Die Rolle der Video-Redaction-API bei der Anonymisierung von Fotos und Videoaufnahmen
Wie eine Video-Redaction-API funktioniert - Architektur und Technologien
Eingabe- und Ausgabeformate sowie Integrationsanforderungen einer Video-Redaction-API
Wichtige Parameter und Metriken einer Video-Redaction-API
Datensicherheit und regulatorische Compliance
Einschränkungen und praktische Risiken einer Video-Redaction-API
Normative Bezüge und Quellen zur Video-Redaction-API

Video-Redaction-API - Definition

Eine Video-Redaction-API ist eine Programmierschnittstelle zur Automatisierung der Anonymisierung von Videomaterial und Bildsequenzen durch die Erkennung und Maskierung bestimmter Kategorien visueller Daten. In der Praxis geht es im Zusammenhang mit dem Datenschutz vor allem um Gesichter und Kfz-Kennzeichen. Die API stellt Funktionen bereit, die aus anderen Systemen heraus aufgerufen werden können, um eine Eingabedatei zu übermitteln, die Objekterkennung zu starten, Regeln für die Bildredaktion anzuwenden und das verarbeitete Ergebnis zurückzuerhalten.

Bei Anwendungen zur Anonymisierung von Fotos und Videoaufnahmen ist eine solche Schnittstelle nicht das KI-Modell selbst, sondern die Integrationsschicht über der Verarbeitungs-Engine. Die Engine nutzt in der Regel Computer Vision und Deep Learning, da eine zuverlässige Erkennung von Gesichtern und Nummernschildern in unterschiedlichen Perspektiven, Lichtverhältnissen und Auflösungen Modelle erfordert, die auf annotierten Datensätzen trainiert wurden. Die API selbst ist für die Annahme des Auftrags, die Validierung der Parameter, die Dateiverarbeitung, die Zugriffskontrolle, die Statusrückgabe und die Bereitstellung des Ergebnisses in einem definierten Format zuständig.

Aus technischer Sicht ist eine Video-Redaction-API in der Regel ein Batch-Service und kein Echtzeitsystem, auch wenn einige Lösungen auch Near-Real-Time-Szenarien unterstützen können. Diese Unterscheidung ist wesentlich. Eine solche API verarbeitet meist Videodateien oder Bilder, die auf einem Datenträger gespeichert sind, und startet eine asynchrone Verarbeitung. In On-Premise-Umgebungen kann die API innerhalb der Infrastruktur der Organisation betrieben werden, wodurch der Datentransfer außerhalb der vom Administrator kontrollierten Umgebung begrenzt wird. Dieses Modell entspricht den Anforderungen von Organisationen, die Materialien mit personenbezogenen Daten verarbeiten und die Kontrolle über Zugriff, Aufbewahrung und Datensicherheit nachweisen müssen.

Die Rolle der Video-Redaction-API bei der Anonymisierung von Fotos und Videoaufnahmen

Die wichtigste Funktion der API ist die Standardisierung des Anonymisierungsprozesses in Systemen, die große Materialmengen erzeugen oder archivieren. Dazu zählen unter anderem Videoüberwachung, Schadensdokumentation, Aufnahmen von Bodycams, Beweismaterial, Vor-Ort-Audits und online veröffentlichte Inhalte. Die Schnittstelle ermöglicht es, denselben Prozess wiederholbar, messbar und auditierbar auszuführen.

In der Praxis reduziert die Integration einer API die Anzahl manueller Arbeitsschritte und verringert das Risiko, dass Gesichter oder Kfz-Kennzeichen übersehen werden. Gleichzeitig ist zu beachten, dass der Umfang der automatischen Bildredaktion von der konkreten Lösung abhängt. In der Gallio-PRO-Umgebung umfasst die automatische Erkennung und Unkenntlichmachung Gesichter und Kfz-Kennzeichen. Logos, Tätowierungen, Namensschilder, Dokumente sowie Inhalte auf Monitorbildschirmen werden nicht automatisch erkannt und erfordern eine manuelle Redaktion mit dem Editor.

Vereinheitlichung des Anonymisierungsprozesses in verschiedenen Quellsystemen,
Unterstützung von Batch-Aufträgen für mehrere Dateien,
Reduzierung des Risikos der Offenlegung personenbezogener Daten in veröffentlichten Materialien,
einfachere Dokumentation des Prozesses für Compliance und Audits.

Wie eine Video-Redaction-API funktioniert - Architektur und Technologien

Ein typischer Verarbeitungsablauf besteht aus mehreren Schritten. Zunächst nimmt das System die Eingabedatei entgegen und liest ihre technischen Parameter aus, etwa Containerformat, Codec, Bildrate, Auflösung und Aufnahmelänge. Anschließend extrahiert die Engine Einzelbilder oder arbeitet auf dem dekodierten Stream, führt die Objekterkennung auf aufeinanderfolgenden Frames durch, verfolgt Objekte zwischen den Frames und legt die Redaktionsmaske darüber. Zum Schluss wird das Material erneut in das Ausgabeformat kodiert.

In modernen Systemen basiert die Erkennung auf neuronalen Netzen. Für Gesichter kommen Detektions- und Tracking-Modelle zum Einsatz, für Kfz-Kennzeichen zusätzlich Modelle zur Lokalisierung von Objekten mit kleiner Bildfläche. Deep Learning ist hier weit verbreitet, weil klassische Methoden, die ausschließlich auf manuell definierten Merkmalen beruhen, in der Regel weniger robust gegenüber wechselndem Hintergrund, Kamerawinkel, teilweiser Verdeckung und verlustbehafteter Kompression sind. Das KI-Modell wird vorab trainiert, und in der Produktionsumgebung greift die API auf ein fertiges Inferenzmodell zurück.

Zu den am häufigsten anzutreffenden Architekturelementen gehören:

eine REST-API-Schicht oder eine lokale Anwendungs-API,
eine Warteschlange für asynchrone Aufgaben,
ein Modul zur Video-Dekodierung und -Kodierung, oft auf FFmpeg-Basis,
eine KI-Inferenz-Engine zur Erkennung von Gesichtern und Kfz-Kennzeichen,
ein Modul zur Objektverfolgung zwischen Frames,
ein Repository für Ein- und Ausgabedateien,
ein Mechanismus für Authentifizierung, Autorisierung und Zugriffskontrolle.

Eingabe- und Ausgabeformate sowie Integrationsanforderungen einer Video-Redaction-API

Für die Integration sind die Multimediaformate und die Art des Austauschs von Steuerdaten entscheidend. Die API sollte klar definieren, welche Container und Codecs unterstützt werden, welche Größenlimits gelten und ob die Verarbeitung synchron oder asynchron erfolgt. In Unternehmensanwendungen ist ein asynchrones Modell mit Auftragsstatus häufiger, da die Verarbeitungszeit von der Länge der Aufnahme, der Auflösung und den verfügbaren GPU- oder CPU-Ressourcen abhängt.

Beispielhafte Integrationsparameter zeigt die folgende Tabelle.

Attribut	Typische Werte	Praktische Bedeutung
Eingabeformat	MP4, MOV, AVI, JPEG, PNG	Beeinflusst die Kompatibilität mit dem Quellsystem
Eingabecodec	H.264, H.265/HEVC, MPEG-4 Part 2	Beeinflusst Dekodierung und Leistung
Ausgabeformat	MP4, redigiertes Bild, JSON-Metadaten	Ermöglicht weitere Archivierung oder Veröffentlichung
Betriebsmodus	Batch, asynchron	Wichtig für Queuing und SLA
Authentifizierung	API-Token, OAuth 2.0, lokaler Schlüssel	Zugriffskontrolle für personenbezogene Daten
Umgebung	On-Premise, Private Cloud	Beeinflusst das Datensicherheitsmodell

Wichtige Parameter und Metriken einer Video-Redaction-API

Die Bewertung der Qualität einer API sollte sich nicht allein auf die Aussage stützen, dass das Material unkenntlich gemacht wurde. Für Datenschutzbeauftragte und technische Teams sind messbare Parameter für Wirksamkeit und Leistung entscheidend. Bei Systemen zur Erkennung von Gesichtern und Kfz-Kennzeichen werden üblicherweise Präzision, Sensitivität und die Anzahl übersehener Objekte analysiert. Für operative Umgebungen sind auch Durchsatz und Verarbeitungsstabilität relevant.

Die am häufigsten verwendeten Kennzahlen sind:

Precision - Anteil korrekter Erkennungen an allen Erkennungen,
Recall - Anteil erkannter Objekte an allen im Material vorhandenen Objekten,
F1-Score - harmonisches Mittel aus Precision und Recall,
Auftragslatenz - Zeit vom Eingang der Datei bis zur Generierung des Ergebnisses,
Throughput - Anzahl der pro Zeiteinheit verarbeiteten Materialminuten,
Failure Rate - Anteil der mit Fehler abgeschlossenen Aufträge,
IoU - Intersection over Union zur Bewertung der Qualität der Objektlokalisierung.

Die Formel für den F1-Score lautet:

F1 = 2 × (precision × recall) / (precision + recall)

In der Praxis ist ein hoher Recall für die Anonymisierung besonders wichtig, da ein übersehenes Gesicht oder Kfz-Kennzeichen eine Offenlegung personenbezogener Daten bedeuten kann. Gleichzeitig erhöht eine zu hohe Zahl falsch positiver Treffer die Kosten manueller Nachbearbeitung und kann die Lesbarkeit beziehungsweise Sichtbarkeit des Materials beeinträchtigen.

Datensicherheit und regulatorische Compliance

Eine Video-Redaction-API verarbeitet Daten, die personenbezogene Daten im Sinne von Art. 4 Nr. 1 DSGVO darstellen können, wenn sie die Identifizierung einer natürlichen Person ermöglichen. Das Gesicht einer Person erfüllt dieses Kriterium in den meisten Fällen. Bei Kfz-Kennzeichen hängt die Bewertung von der jeweiligen Rechtsordnung und dem Verarbeitungskontext ab. In Polen sind die Auffassungen dazu uneinheitlich. In der Praxis der Aufsichtsbehörden und in Teilen der europäischen Rechtsprechung überwiegt ein vorsichtiger Ansatz, während in der polnischen Rechtsprechung auch die Auffassung vertreten wird, dass ein Kfz-Kennzeichen allein nicht immer ein personenbezogenes Datum ist. Aus Compliance-Sicht wählen Organisationen in der Regel die konservativere Variante.

Die Sicherheitsanforderungen an eine API sollten mindestens Folgendes umfassen:

Verschlüsselung der Übertragung gemäß der aktuell empfohlenen TLS-Version, zum Beispiel TLS 1.3 gemäß RFC 8446,
Zugriffskontrolle und Trennung von Berechtigungen,
Aufbewahrung von Dateien im Einklang mit der Richtlinie des Verantwortlichen,
Datenminimierung und keine unnötigen Logs mit personenbezogenen Daten,
die Möglichkeit einer On-Premise-Bereitstellung.

In der Gallio-PRO-Umgebung ist wichtig, dass das System keine Anonymisierung in Echtzeit und keine Anonymisierung von Videostreams durchführt. Es sammelt auch keine Logs, die Erkennungen von Gesichtern und Kfz-Kennzeichen enthalten, und keine Logs, die personenbezogene Daten oder besondere Kategorien personenbezogener Daten enthalten.

Einschränkungen und praktische Risiken einer Video-Redaction-API

Selbst eine gut konzipierte API beseitigt das Risiko von Erkennungsfehlern nicht vollständig. Probleme treten bei niedriger Bildqualität, starker Bewegung, verdeckten Objekten, Nachtaufnahmen und Materialien mit sehr hoher Kompression auf. Das Risiko steigt auch dann, wenn der Umfang der automatischen Bildredaktion größer ist als die tatsächlichen Fähigkeiten des Modells.

Daher sollte im operativen Prozess eine Qualitätskontrolle des Ergebnisses vorgesehen werden, insbesondere bei Materialien, die veröffentlicht oder extern weitergegeben werden. In der Praxis bedeutet dies die Kombination aus automatischer Anonymisierung und manueller Korrektur. Das ist besonders wichtig bei Elementen, die das System nicht automatisch erkennt.

Normative Bezüge und Quellen zur Video-Redaction-API

Der Begriff besitzt keine einheitliche, universelle normative Definition in ISO- oder CEN-Standards, seine praktische Anwendung stützt sich jedoch auf eine Reihe von Dokumenten zu Datenschutz, Informationssicherheit und Kommunikationsprotokollen. Für die Umsetzung in der Praxis sind insbesondere Primärquellen relevant.

Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates vom 27. April 2016 - DSGVO, insbesondere Art. 4, Art. 5, Art. 25 und Art. 32.
RFC 8446 - The Transport Layer Security (TLS) Protocol Version 1.3, IETF, 2018.
OAuth 2.0 Authorization Framework - RFC 6749, IETF, 2012, sofern die API dieses Autorisierungsmodell verwendet.
ISO/IEC 27001:2022 - Anforderungen an ein Informationssicherheits-Managementsystem.
ISO/IEC 23894:2023 - Leitlinien für das Management von KI-bezogenen Risiken.

Siehe auch

Zurück zum Glossar