Was ist Multi-Object Tracking (MOT)?

Inhaltsverzeichnis

Multi-Object Tracking (MOT) - Definition
Die Rolle von Multi-Object Tracking bei der Anonymisierung von Fotos und Videoaufnahmen
Technologien im Multi-Object Tracking
Zentrale Parameter und Metriken im Multi-Object Tracking
Herausforderungen und Grenzen von Multi-Object Tracking
Normative Bezüge und praktischer Anwendungskontext

Multi-Object Tracking (MOT) - Definition

Multi-Object Tracking, kurz MOT, ist eine Aufgabe aus der Bild- und Videoanalyse, bei der mehrere Objekte gleichzeitig über aufeinanderfolgende Frames einer Aufnahme hinweg verfolgt werden. Ziel ist nicht nur, ein Objekt in einem einzelnen Frame zu erkennen, sondern seine konsistente Identität über die Zeit aufrechtzuerhalten - trotz Bewegung, teilweiser Verdeckung, Änderungen von Maßstab, Beleuchtung und Blickwinkel. In der Fachliteratur wird MOT in der Regel als Problem der Trajektorienschätzung mehrerer Objekte auf Basis von Bildbeobachtungssequenzen definiert. Dieses Verständnis findet sich unter anderem in den seit 2015 entwickelten MOTChallenge-Benchmarks sowie in IEEE- und Springer-Publikationen zur Computer Vision.

Im Kontext der Anonymisierung von Fotos und Videoaufnahmen hat Multi-Object Tracking eine praktische Bedeutung. Ein reiner Gesichts- oder Kennzeichendetektor identifiziert ein Objekt nur in einem einzelnen Frame. Ein Tracking-Mechanismus ermöglicht es dagegen, demselben Objekt über die Zeit eine Identität zuzuweisen und die Kontinuität der Maskierung zwischen den Frames aufrechtzuerhalten. Dadurch wird das Verpixeln oder Unkenntlichmachen von Gesichtern und Kfz-Kennzeichen stabiler und weniger anfällig für Flackern, Detektionsausfälle und fehlerhafte Verschiebungen des Maskierungsbereichs. In Offline-Anonymisierungssystemen ist MOT daher eine unterstützende Schicht für die konsistente Videoverarbeitung und kein eigenständiges Geschäftsziel.

In der Praxis arbeitet ein MOT-Modell auf Eingangsdaten aus der Objekterkennung. Für die Videoanonymisierung bedeutet das meist die Kombination aus zwei Schritten: Zunächst erkennt ein KI-Modell Gesichter oder Kfz-Kennzeichen, anschließend verknüpft ein Tracking-Algorithmus die Detektionen aus aufeinanderfolgenden Frames zu Trajektorien. Erst auf dieser Grundlage werden Maske, Unschärfe oder Pixelierung angewendet. Deep Learning wird dabei vor allem für die Entwicklung von Detektionsmodellen eingesetzt, zunehmend aber auch für Re-Identifikations- und Assoziationsmodelle, die die Tracking-Qualität verbessern.

Die Rolle von Multi-Object Tracking bei der Anonymisierung von Fotos und Videoaufnahmen

Bei einem einzelnen Foto findet MOT keine Anwendung, da die zeitliche Dimension fehlt. Relevant wird Multi-Object Tracking bei Videoaufnahmen, in denen dasselbe Objekt in vielen aufeinanderfolgenden Frames vorkommt. Für Datenschutzbeauftragte oder Personen, die für die Veröffentlichung von Bildmaterial verantwortlich sind, ist nicht nur entscheidend, ob ein Gesicht erkannt wurde, sondern auch, ob es während der gesamten Sichtbarkeit im Material konsequent unkenntlich gemacht wurde.

In einem Anonymisierungssystem unterstützt MOT vor allem die Stabilität und Vollständigkeit der Maskierung. Das wirkt sich direkt auf das Risiko aus, personenbezogene Daten durch einzelne nicht maskierte Frames offenzulegen.

Es erhält die Kontinuität der Verfolgung desselben Gesichts oder desselben Kfz-Kennzeichens zwischen den Frames aufrecht.
Es reduziert den Flackereffekt der Maske bei kurzzeitig nachlassender Detektionsqualität.
Es ermöglicht die Vorhersage der Objektposition bei kurzen Verdeckungen.
Es verringert die Zahl der Fälle, in denen ein Objekt nur teilweise oder verzögert unkenntlich gemacht wird.
Es erleichtert die Qualitätskontrolle der Anonymisierung auf Ebene der gesamten Sequenz statt nur eines einzelnen Frames.

Wichtig ist eine präzise Abgrenzung des Anwendungsbereichs. In Anonymisierungssoftware wie Gallio PRO betrifft die Automatisierung Gesichter und Kfz-Kennzeichen. Multi-Object Tracking kann daher das stabile Unkenntlichmachen dieser beiden Objektklassen unterstützen. Das bedeutet jedoch nicht die automatische Erkennung von Logos, Tätowierungen, Namensschildern, Dokumenten oder Inhalten auf Monitorbildschirmen. Solche Elemente können manuelle Bearbeitung im Editor erfordern, sofern das System nicht über separate Modelle zu ihrer Erkennung verfügt.

Technologien im Multi-Object Tracking

Moderne MOT-Systeme kombinieren klassische Methoden der Bewegungsschätzung mit Modellen des maschinellen Lernens. In der Praxis kommt meist eine Tracking-by-Detection-Architektur zum Einsatz, also eine Verfolgung auf Basis aufeinanderfolgender Detektionsergebnisse. Dies ist derzeit der dominierende Ansatz in industriellen und wissenschaftlichen Anwendungen.

Eine typische Pipeline umfasst mehrere technische Schritte:

Objekterkennung - etwa von Gesichtern oder Kfz-Kennzeichen in jedem Frame,
Bewegungsvorhersage - häufig unter Verwendung des Kalman-Filters, ursprünglich 1960 von R. E. Kalman beschrieben,
Datenassoziation - Zuordnung neuer Detektionen zu bestehenden Tracks, häufig mithilfe des ungarischen Algorithmus,
Erscheinungsmerkmale - Re-Identifikations-Embeddings zur Unterscheidung ähnlicher Objekte,
Umgang mit Verdeckungen und Track-Enden - Regeln für das Initialisieren, Fortführen und Beenden von Tracks.

Bekannte Verfahren sind unter anderem SORT aus dem Jahr 2016 und Deep SORT aus dem Jahr 2017. SORT basiert vor allem auf Geometrie und Bewegung, ist dadurch schnell, kommt aber mit häufigen Verdeckungen schlechter zurecht. Deep SORT erweitert dieses Modell um Erscheinungsdeskriptoren, was die Robustheit gegenüber ID-Wechseln in der Regel verbessert. In den Jahren 2021 bis 2023 wurden auch Ansätze wie ByteTrack und BoT-SORT breit zitiert, da sie die Ergebnisse auf den MOTChallenge-Benchmarks durch eine bessere Nutzung von Detektionen mit geringerer Konfidenz verbesserten.

Zentrale Parameter und Metriken im Multi-Object Tracking

Die Bewertung von Multi-Object Tracking sollte sich nicht allein auf die Erkennungsleistung stützen. Für die Videoanonymisierung sind auch die Kontinuität des Trackings und das Risiko relevant, ein Objekt zwischen Frames zu verlieren. In der Fachliteratur wird dafür ein Satz standardisierter Benchmark-Metriken verwendet.

Metrik	Bedeutung	Interpretation im Kontext der Anonymisierung
MOTA	Multi-Object Tracking Accuracy - kombiniert False Positives, False Negatives und ID-Wechsel	Ein höherer Wert bedeutet weniger allgemeine Tracking-Fehler
MOTP	Maß für die Lokalisierungspräzision von Zuordnungen in älteren MOT-Bewertungsprotokollen	Beeinflusst die Präzision der Position der Unschärfemaske
IDF1	Maß für die Konsistenz der Identifikation über die Zeit	Wichtig für das konsistente Unkenntlichmachen desselben Objekts
HOTA	Higher Order Tracking Accuracy - Metrik, die Detektion und Assoziation kombiniert	Bildet die tatsächliche Qualität des Trackings ganzer Trajektorien gut ab
FPS / Latenz	Verarbeitungsgeschwindigkeit und Verzögerung	Operativ relevant, auch wenn Gallio PRO keine Echtzeit-Anonymisierung durchführt

Der Vollständigkeit halber kann auf die in der Literatur häufig verwendete einfache Beziehung für MOTA verwiesen werden:

MOTA = 1 - (FN + FP + IDSW) / GT

Dabei steht FN für übersehene Objekte, FP für falsch positive Detektionen, IDSW für Identitätswechsel und GT für die Anzahl der Referenzobjekte. Die Definitionen dieser Metriken werden unter anderem in den MOTChallenge-Benchmarks und in Vergleichspublikationen seit 2015 verwendet.

Herausforderungen und Grenzen von Multi-Object Tracking

Multi-Object Tracking beseitigt keine Probleme mit der Qualität der Eingangsdaten. Wenn die Erkennung von Gesichtern oder Kfz-Kennzeichen schwach ist, wird auch das Tracking unzuverlässig sein. Die Wirksamkeit der Anonymisierung hängt daher von der gesamten Verarbeitungskette ab und nicht allein vom Tracking-Modul.

Zu den häufigsten Einschränkungen gehören:

starke Verdeckungen und das Verschwinden eines Objekts aus dem Bildausschnitt,
geringe Objektgröße und niedrige Auflösung des Materials,
Bewegungsunschärfe und verlustbehaftete Kompression der Aufnahme,
hohe visuelle Ähnlichkeit von Objekten in derselben Szene,
plötzliche Perspektivwechsel oder Schnittwechsel, die die Kontinuität von Tracks unterbrechen.

Aus Sicht der Datenschutz-Compliance bedeutet dies, dass das Endergebnis validiert werden muss. MOT erhöht die Stabilität der Maskierung, ersetzt jedoch nicht die Qualitätskontrolle des Anonymisierungsprozesses. Das ist besonders wichtig bei Materialien, die veröffentlicht oder an Dritte weitergegeben werden.

Normative Bezüge und praktischer Anwendungskontext

MOT ist weder in der DSGVO noch in Datenschutzstandards ausdrücklich als eigenständige rechtliche Pflicht definiert. Es handelt sich um eine Technik der Bildverarbeitung, die die wirksame Anonymisierung oder De-Identifizierung von Videomaterial unterstützt. In der Praxis ist sie als technische Maßnahme zu betrachten, die die Grundsätze Privacy by Design und Privacy by Default nach Art. 25 DSGVO sowie die Sicherheit der Verarbeitung nach Art. 32 der Verordnung (EU) 2016/679 vom 27. April 2016 unterstützt.

Im operativen Einsatz ist zu beachten, dass Gallio PRO im On-Premise-Modell arbeitet und der Offline-Anonymisierung von Fotos und Videoaufnahmen dient. Die Software macht Gesichter und Kfz-Kennzeichen automatisch unkenntlich, führt jedoch keine Anonymisierung von Videostreams und keine Verarbeitung in Echtzeit durch. In diesem Kontext ist Multi-Object Tracking als Mechanismus zur Verbesserung der Konsistenz der Verarbeitung einer Aufnahme nach deren Import in das System zu verstehen und nicht als Werkzeug für Echtzeitüberwachung. Das ist relevant für die Risikobewertung, die Implementierungsarchitektur und den Umfang der operativen Daten. Darüber hinaus sollten die Protokolle gemäß den Systemannahmen keine personenbezogenen Daten und keine Aufzeichnungen von Gesichts- oder Kennzeichendetektionen enthalten.

Siehe auch

Zurück zum Glossar