Was ist KI-gestützte Video-Redaktion?

KI-gestützte Video-Redaktion - Definition

KI-gestützte Video-Redaktion bezeichnet die automatische Bearbeitung von Videomaterial mithilfe von Modellen der künstlichen Intelligenz, um ausgewählte Bildelemente zu erkennen und dauerhaft zu verbergen - vor allem Gesichter und Kfz-Kennzeichen. In der Praxis der Anonymisierung von Fotos und Aufnahmen bedeutet dies einen Prozess, bei dem das System zunächst Objekte lokalisiert, die zur Identifizierung einer Person führen können, und anschließend eine Maske, Unschärfe oder einen anderen Effekt darüberlegt, der das Auslesen visueller Daten erschwert oder unmöglich macht.

Im Kontext des Datenschutzes geht es nicht um allgemeine „Bildverbesserung“ oder kreative Videobearbeitung. Ziel ist es, das Risiko der Identifizierung einer natürlichen Person zu verringern, indem im Bild sichtbare Identifikatoren entfernt oder verdeckt werden. In Systemen wie Gallio PRO betrifft die automatische Video-Redaktion Gesichter und Kfz-Kennzeichen. Andere Elemente wie Logos, Tätowierungen, Namensschilder, Dokumente oder Bildschirminhalte können eine manuelle Redaktion im Editor erfordern.

Technisch basiert die KI-gestützte Video-Redaktion in der Regel auf Modellen zur Objekterkennung und zum Objekt-Tracking über mehrere Frames hinweg. Deep Learning wird heute meist beim Aufbau des KI-Modells eingesetzt, da sich damit neuronale Netze auf großen Bilddatensätzen mit Gesichtern und Kfz-Kennzeichen unter unterschiedlichen Bedingungen trainieren lassen. Das fertige Modell wird anschließend genutzt, um definierte Objektklassen im Eingabematerial automatisch unkenntlich zu machen.

Wie funktioniert automatische Video-Redaktion mit KI?

Der Prozess der automatischen Redaktion ist sequenziell und umfasst mehrere Schritte. Ihre korrekte Ausführung wirkt sich direkt auf die Wirksamkeit der Anonymisierung und auf das Risiko aus, dass einzelne Frames unmaskiert bleiben.

Eine typische Verarbeitungspipeline sieht wie folgt aus:

  1. Dekodierung der Videodatei in einen Frame-Stream,
  2. Erkennung von Gesichtern und Kfz-Kennzeichen in einzelnen Frames,
  3. Objekt-Tracking über die Zeit, um die Kontinuität der Maske zwischen den Frames aufrechtzuerhalten,
  4. Interpolation der Objektposition, wenn in einem Teil der Frames die Erkennung schwächer ausfällt,
  5. Anwendung der Redaktionsmaske, meist als Blur, Pixelierung oder vollständige Abdeckung,
  6. finales Rendering und Export der Datei.

In der Praxis reicht der Detektor allein nicht aus. Wenn das Modell ein Gesicht in 98 von 100 Frames erkennt, das Objekt aber in 2 Frames aus der Maske verschwindet, entsteht ein Risiko der Datenoffenlegung. Deshalb kombinieren Systeme zur Video-Anonymisierung die Objekterkennung mit Tracking und Kontinuitätskontrolle. Das ist der grundlegende Unterschied zwischen einem gewöhnlichen Computer-Vision-Tool und einem Werkzeug für datenschutzkonforme Video-Redaktion.

Technologien in der KI-gestützten Video-Redaktion

Die automatische Video-Redaktion nutzt Verfahren aus Computer Vision und maschinellem Lernen. In produktiven Anwendungen dominieren CNN-Architekturen sowie neuere hybride und transformerbasierte Modelle für die Objekterkennung. Die Wahl des Modells hängt vom Kompromiss zwischen Genauigkeit, Verarbeitungszeit und Hardwareanforderungen ab.

Zu den am häufigsten eingesetzten Komponenten gehören:

  • Objekterkennung - zum Beispiel Ein-Schritt- und Zwei-Schritt-Modelle zur Lokalisierung von Gesichtern und Kennzeichen,
  • Segmentierung oder Bounding Box - je nachdem, ob die Maske die exakte Kontur oder einen rechteckigen Bereich abdecken soll,
  • Multi-Object-Tracking - Aufrechterhaltung der Identität desselben Objekts zwischen den Frames,
  • Post-Processing - Glättung von Trajektorien, Erweiterung der Maske, Reduktion von Fehlalarmen,
  • Rendering der Redaktion - Anwendung von Unschärfe, Pixelierung oder vollständiger Verdeckung.

Bei Material mit geringer Qualität sind die Eingabebedingungen besonders wichtig: Auflösung, Kompression, Bewegungsunschärfe, Kamerawinkel und Beleuchtung. Ein KI-Modell garantiert nicht die Erkennung eines Objekts, das zu klein, verdeckt oder unscharf ist. Deshalb sollte das System nach der Verarbeitung eine manuelle Prüfung ermöglichen.

KI-gestützte Video-Redaktion und manuelle Redaktion

Automatische und manuelle Video-Redaktion lösen dasselbe Problem, unterscheiden sich jedoch in Bezug auf Skalierung, Kosten und Risikoprofil. In Organisationen wird meist ein hybrides Modell eingesetzt: Automatisierung für Gesichter und Kfz-Kennzeichen sowie manuelle Korrektur für Ausnahmen.

Kriterium

KI-Redaktion

Manuelle Redaktion

 

Arbeitsgeschwindigkeit

Hoch bei großen Volumina

Niedrig, abhängig vom Operator

Wiederholbarkeit

Hoch bei gleichen Parametern

Variabel

Umgang mit Ausnahmen

Begrenzt auf vom Modell gelernte Klassen

Breit

Risiko von Auslassungen

Abhängig vom Recall des Modells und von der Materialqualität

Abhängig von Ermüdung und Aufmerksamkeit des Operators

Skalierbarkeit

Hoch

Niedrig

Gallio PRO führt keine Anonymisierung in Echtzeit und keine Anonymisierung von Videostreams durch. Das ist eine wichtige technische Unterscheidung. Die dateibasierte Verarbeitung ermöglicht eine genauere Qualitätskontrolle, erneute Prüfung und manuelle Korrektur vor der Veröffentlichung oder Weitergabe des Materials.

Zentrale Parameter und Metriken der KI-gestützten Video-Redaktion

Die Bewertung der Systemleistung sollte sich nicht allein auf die Aussage „hohe Trefferquote“ stützen. Erforderlich sind messbare Kennzahlen. Im Bereich der Video-Redaktion sind vor allem Detektions- und Betriebsmetriken relevant.

  • Precision - Anteil korrekter Erkennungen an allen Erkennungen,
  • Recall - Anteil erkannter Objekte an allen tatsächlich vorhandenen Objekten,
  • F1-Score - harmonisches Mittel von Precision und Recall,
  • False-Negative-Rate - Anteil übersehener Objekte, aus Datenschutzsicht besonders kritisch,
  • IoU - Intersection over Union, Maß für die Überdeckung des erkannten Bereichs mit dem Referenzbereich,
  • Latency oder Throughput - Verarbeitungszeit des Materials bzw. Durchsatz des Systems,
  • Frame-Coverage-Continuity - Kontinuität der Maske in aufeinanderfolgenden Frames.

Vereinfacht lässt sich Recall wie folgt ausdrücken:

recall = TP / (TP + FN)

Für die Video-Anonymisierung ist ein hoher Recall in der Regel wichtiger als eine sehr hohe Precision, da das Übersehen eines Gesichts oder Kfz-Kennzeichens ein unmittelbares Risiko der Datenoffenlegung schafft. Gleichzeitig verschlechtert übermäßiges Maskieren die Nutzbarkeit des Materials, sodass das System ein Gleichgewicht wahren muss.

Wirksamkeitszusagen und Grenzen

Automatische Video-Redaktion mit KI bietet keine absolute Garantie, jedes Objekt unter allen Bedingungen zu erkennen. Eine solche Garantie wäre technisch nicht verifizierbar. Möglich ist jedoch, die Bedingungen der Wirksamkeit, Validierungsverfahren und den funktionalen Umfang des Systems festzulegen.

Folgende Einschränkungen sind zu berücksichtigen:

  • die Erkennungsleistung sinkt bei kleinen Objekten, starker Kompression und schlechter Beleuchtung,
  • teilweise verdeckte Gesichter oder Kennzeichen erschweren die Erkennung,
  • Material mit dynamischer Kamerabewegung erhöht das Risiko von Fehlern zwischen den Frames,
  • das Modell erkennt nicht automatisch Klassen, für die es nicht entwickelt wurde.

Deshalb umfasst bewährte Praxis Tests mit einer Stichprobe eigener Daten, eine Qualitätsprüfung nach der Redaktion sowie die Möglichkeit manueller Korrekturen. Bei On-Premise-Systemen kommt als zusätzlicher Vorteil hinzu, dass die Daten in der eigenen Infrastruktur verbleiben, was die Exposition des Materials bei Übertragungen an externe Dienste reduziert.

KI-gestützte Video-Redaktion im Kontext von DSGVO und Privatsphärenschutz

Das Bildnis einer Person kann ein personenbezogenes Datum darstellen, wenn es eine direkte oder indirekte Identifizierung ermöglicht. Diese Auslegung ergibt sich aus Art. 4 Nr. 1 DSGVO, also der Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates vom 27. April 2016. Die bloße Anwendung von Unschärfe bedeutet nicht immer eine vollständige Anonymisierung im Sinne von Erwägungsgrund 26 DSGVO. Entscheidend ist, ob die Identifizierung der Person faktisch noch möglich bleibt.

In Bezug auf Gesichter kann sich die Schutzpflicht außerdem aus nationalen Vorschriften zu Persönlichkeitsrechten und zur Verbreitung von Bildnissen ergeben. Dabei bestehen Ausnahmen etwa für Personen des öffentlichen Lebens, für Aufnahmen als Teil einer größeren öffentlichen Szene sowie für Fälle, in denen die Person für das Posieren eine vereinbarte Vergütung erhalten hat.

Bei Kfz-Kennzeichen ist die Rechtslage in Polen nicht vollständig einheitlich. Ein Teil der Leitlinien von Datenschutzbehörden sowie die europäische Praxis sprechen für deren Maskierung, während die nationale Rechtsprechung teilweise auch die Auffassung vertritt, dass Kennzeichen allein nicht immer personenbezogene Daten darstellen. In vielen europäischen Ländern ist die Praxis der Kennzeichen-Unkenntlichmachung restriktiver.

Normative Bezüge und Quellen

Die folgenden Rechtsakte und Standards bilden den Interpretationsrahmen für die automatische Bild- und Video-Redaktion. Sie sind nicht die Spezifikation eines einzelnen Produkts, sondern dienen als Grundlage für die Bewertung von Compliance und Risiken.

  • DSGVO - Verordnung (EU) 2016/679, Art. 4 Nr. 1, Art. 5, Art. 25, Erwägungsgrund 26,
  • EDPB, Guidelines 4/2019 on Article 25 Data Protection by Design and by Default, angenommene Fassung vom 20. Oktober 2020,
  • ISO/IEC 23894:2023 - Information technology - Artificial intelligence - Guidance on risk management,
  • ISO/IEC 27001:2022 - Information security management systems - Requirements,
  • NIST AI RMF 1.0, 2023 - Artificial Intelligence Risk Management Framework.