Czym jest Multi-Object Tracking (MOT)?

Spis treści

Multi-Object Tracking (MOT) - definicja
Rola Multi-Object Tracking w anonimizacji zdjęć i nagrań wideo
Technologie stosowane w Multi-Object Tracking
Kluczowe parametry i metryki Multi-Object Tracking
Wyzwania i ograniczenia Multi-Object Tracking
Odniesienia normatywne i praktyczny kontekst stosowania

Multi-Object Tracking (MOT) - definicja

Multi-Object Tracking, w skrócie MOT, to zadanie z obszaru analizy obrazu i wideo polegające na jednoczesnym śledzeniu wielu obiektów w kolejnych klatkach nagrania. Celem nie jest wyłącznie wykrycie obiektu w pojedynczej klatce, ale utrzymanie jego spójnej tożsamości w czasie, mimo ruchu, częściowych zasłonięć, zmian skali, oświetlenia i kąta widzenia. W literaturze technicznej MOT jest zwykle definiowany jako problem estymacji trajektorii wielu obiektów na podstawie sekwencji obserwacji obrazowych. Takie ujęcie stosują m.in. benchmarki MOTChallenge rozwijane od 2015 r. oraz publikacje IEEE i Springer dotyczące computer vision.

W kontekście anonimizacji zdjęć i nagrań wideo MOT ma znaczenie praktyczne. Sam detektor twarzy lub tablic rejestracyjnych wskazuje obiekt w pojedynczej klatce. Natomiast mechanizm śledzenia pozwala przypisać temu samemu obiektowi identyfikator w czasie i utrzymać ciągłość maskowania między klatkami. Dzięki temu rozmywanie twarzy lub zamazywanie tablic rejestracyjnych jest stabilniejsze i mniej podatne na migotanie, zaniki detekcji oraz błędne przesunięcia obszaru maski. W systemach anonimizacji offline MOT jest więc warstwą wspierającą spójne przetwarzanie wideo, a nie odrębnym celem biznesowym.

W praktyce model MOT działa na danych wejściowych pochodzących z detekcji obiektów. Dla anonimizacji wideo oznacza to najczęściej połączenie dwóch etapów: najpierw model AI wykrywa twarze albo tablice rejestracyjne, a następnie algorytm śledzenia łączy detekcje z kolejnych klatek w trajektorie. Dopiero na tej podstawie nakładana jest maska, rozmycie lub pikselizacja. Deep learning jest tu potrzebny przede wszystkim do stworzenia modeli detekcji, a coraz częściej także modeli re-identyfikacji i asocjacji obiektów, które poprawiają jakość śledzenia.

Rola Multi-Object Tracking w anonimizacji zdjęć i nagrań wideo

W przypadku pojedynczego zdjęcia MOT nie ma zastosowania, ponieważ nie występuje wymiar czasowy. Znaczenie pojawia się przy nagraniach wideo, gdzie ten sam obiekt występuje w wielu kolejnych klatkach. Dla Inspektora Ochrony Danych lub osoby odpowiedzialnej za publikację materiałów istotne jest nie tylko to, czy twarz została wykryta, ale czy została zamazana konsekwentnie przez cały czas ekspozycji w materiale.

W systemie anonimizacji MOT wspiera przede wszystkim stabilność i kompletność maskowania. Ma to wpływ na ryzyko ujawnienia danych osobowych poprzez pojedyncze niezamazane klatki.

utrzymuje ciągłość śledzenia tej samej twarzy lub tej samej tablicy rejestracyjnej między klatkami,
ogranicza efekt migotania maski przy chwilowych spadkach jakości detekcji,
umożliwia przewidywanie położenia obiektu przy krótkich zasłonięciach,
zmniejsza liczbę sytuacji, w których obiekt jest zamazany tylko częściowo albo z opóźnieniem,
ułatwia kontrolę jakości anonimizacji na poziomie całej sekwencji, a nie pojedynczej klatki.

Warto doprecyzować zakres. W oprogramowaniu do anonimizacji takim jak Gallio PRO automatyzacja dotyczy twarzy i tablic rejestracyjnych. MOT może więc wspierać stabilne zamazywanie tych dwóch klas obiektów. Nie oznacza to automatycznego wykrywania logotypów, tatuaży, tabliczek z imionami, dokumentów lub treści na ekranach monitorów. Takie elementy mogą wymagać pracy manualnej w edytorze, chyba że system zawiera osobne modele do ich detekcji.

Technologie stosowane w Multi-Object Tracking

Nowoczesne systemy MOT łączą klasyczne metody estymacji ruchu z modelami uczenia maszynowego. W praktyce stosuje się architekturę tracking-by-detection, czyli śledzenie na podstawie kolejnych wyników detekcji. Jest to obecnie dominujące podejście w zastosowaniach przemysłowych i badawczych.

Typowy pipeline obejmuje kilka etapów technicznych:

detekcję obiektów - np. twarzy lub tablic rejestracyjnych w każdej klatce,
predykcję ruchu - często z użyciem filtru Kalmana, opisanego pierwotnie przez R.E. Kalmana w 1960 r.,
asocjację danych - dopasowanie nowych detekcji do istniejących ścieżek, często z użyciem algorytmu węgierskiego,
cechy wyglądu - embeddingi re-identyfikacyjne wspierające odróżnianie podobnych obiektów,
obsługę zasłonięć i zakończeń ścieżek - reguły inicjowania, podtrzymywania i zamykania tracków.

Znane metody obejmują SORT z 2016 r. oraz Deep SORT z 2017 r. SORT opiera się głównie na geometrii i ruchu, przez co jest szybki, ale gorzej radzi sobie przy częstych zasłonięciach. Deep SORT rozszerza ten model o deskryptory wyglądu, co zwykle poprawia odporność na przełączanie identyfikatorów. W latach 2021-2023 szeroko cytowane były również podejścia ByteTrack i BoT-SORT, które poprawiały wyniki na benchmarkach MOTChallenge przez lepsze wykorzystanie detekcji o niższej pewności.

Kluczowe parametry i metryki Multi-Object Tracking

Ocena MOT nie powinna opierać się wyłącznie na skuteczności detekcji. Dla anonimizacji wideo liczy się również ciągłość śledzenia i ryzyko utraty obiektu między klatkami. W literaturze stosuje się zestaw znormalizowanych metryk benchmarkowych.

Metryka	Znaczenie	Interpretacja w anonimizacji
MOTA	Multi-Object Tracking Accuracy - łączy false positives, false negatives i ID switches	Wyższa wartość oznacza mniej ogólnych błędów śledzenia
MOTP	Miara precyzji lokalizacji dopasowań w starszych protokołach oceny MOT	Wpływa na precyzję położenia maski rozmycia
IDF1	Miara zgodności identyfikacji w czasie	Ważna przy spójności zamazywania tego samego obiektu
HOTA	Higher Order Tracking Accuracy - metryka łącząca detekcję i asocjację	Dobrze oddaje realną jakość śledzenia całych trajektorii
FPS / latency	Szybkość przetwarzania i opóźnienie	Istotne operacyjnie, choć Gallio PRO nie realizuje anonimizacji w czasie rzeczywistym

Dla porządku warto wskazać prostą zależność stosowaną w literaturze dla MOTA:

MOTA = 1 - (FN + FP + IDSW) / GT

gdzie FN oznacza pominięte obiekty, FP fałszywe detekcje, IDSW przełączenia identyfikatorów, a GT liczbę obiektów referencyjnych. Definicje tych metryk są używane m.in. w benchmarkach MOTChallenge oraz w publikacjach porównawczych od 2015 r.

Wyzwania i ograniczenia Multi-Object Tracking

MOT nie eliminuje problemów jakości danych wejściowych. Jeśli detekcja twarzy albo tablicy rejestracyjnej jest słaba, śledzenie również będzie zawodne. Dlatego skuteczność anonimizacji zależy od całego łańcucha przetwarzania, a nie od samego modułu trackingowego.

Najczęstsze ograniczenia są następujące:

silne zasłonięcia i znikanie obiektu z kadru,
mały rozmiar obiektu i niska rozdzielczość materiału,
rozmycie ruchu i kompresja stratna nagrania,
duże podobieństwo wizualne obiektów w tej samej scenie,
nagłe zmiany ujęcia lub cięcia montażowe, które zrywają ciągłość ścieżek.

Z punktu widzenia zgodności z ochroną prywatności oznacza to potrzebę walidacji wyniku końcowego. MOT zwiększa stabilność maskowania, ale nie zastępuje kontroli jakości procesu anonimizacji. Jest to szczególnie istotne przy materiałach publikowanych lub przekazywanych podmiotom trzecim.

Odniesienia normatywne i praktyczny kontekst stosowania

MOT nie jest pojęciem zdefiniowanym wprost w RODO ani w normach ochrony danych jako samodzielny obowiązek prawny. Jest to technika przetwarzania obrazu wspierająca realizację celu, jakim jest skuteczna anonimizacja lub deidentyfikacja materiału wideo. W praktyce należy ją rozpatrywać jako środek techniczny wspierający zasady privacy by design i privacy by default określone w art. 25 RODO oraz bezpieczeństwo przetwarzania z art. 32 RODO rozporządzenia (UE) 2016/679 z dnia 27 kwietnia 2016 r.

W zastosowaniach operacyjnych należy pamiętać, że Gallio PRO działa w modelu on-premise i służy do anonimizacji offline zdjęć oraz nagrań wideo. Oprogramowanie automatycznie zamazuje twarze i tablice rejestracyjne, ale nie realizuje anonimizacji strumienia wideo ani pracy w czasie rzeczywistym. W tym kontekście MOT należy rozumieć jako mechanizm poprawy spójności przetwarzania nagrania po jego wczytaniu do systemu, a nie jako narzędzie nadzoru w czasie rzeczywistym. Ma to znaczenie dla oceny ryzyka, architektury wdrożenia i zakresu danych operacyjnych. Dodatkowo, zgodnie z założeniami systemu, logi nie powinny zawierać danych osobowych ani zapisów detekcji twarzy i tablic rejestracyjnych.

Zobacz także

Powrót do słownika