Czym jest object tracking (śledzenie obiektów w wideo)?

Object tracking - definicja

Object tracking, czyli śledzenie obiektów w kolejnych klatkach wideo, to proces przypisywania temu samemu obiektowi spójnej tożsamości czasowej w całej sekwencji obrazu. W praktyce anonimizacji zdjęć i nagrań oznacza to utrzymanie informacji, że wykryta twarz lub tablica rejestracyjna w klatce t jest tym samym obiektem, który pojawił się w klatce t-1, t-2 i następnych. Dzięki temu maska rozmycia lub zamazania nie „przeskakuje” między obiektami i nie znika chwilowo przy krótkim spadku jakości detekcji.

W literaturze technicznej śledzenie obiektów jest zwykle oddzielane od detekcji. Detekcja odpowiada na pytanie, czy w danej klatce znajduje się twarz lub tablica oraz gdzie się znajduje. Tracking odpowiada na pytanie, czy jest to ten sam obiekt co wcześniej oraz jak przewidywać jego pozycję pomiędzy kolejnymi detekcjami. W systemach anonimizacji wideo tracking jest więc warstwą stabilizującą działanie algorytmu detekcyjnego. Jest szczególnie ważny przy częściowych przesłonięciach, ruchu kamery, zmianie skali obiektu i chwilowym rozmyciu obrazu.

Definicja jest zgodna z ujęciem stosowanym w badaniach nad wieloobiektowym śledzeniem wideo, m.in. w benchmarkach MOTChallenge rozwijanych od 2015 r. oraz w pracach przeglądowych IEEE dotyczących Multiple Object Tracking. W kontekście Gallio PRO pojęcie odnosi się do śledzenia twarzy i tablic rejestracyjnych między klatkami, aby zachować ciągłość anonimizacji materiału wideo. Nie dotyczy to anonimizacji strumienia w czasie rzeczywistym, ponieważ Gallio PRO nie realizuje anonimizacji w czasie rzeczywistym.

Rola object tracking w anonimizacji wideo

W systemie do zamazywania twarzy i tablic sama detekcja w każdej klatce nie wystarcza. Detektor może na krótko utracić obiekt z powodu odbłysku, ruchu, niskiej rozdzielczości albo zasłonięcia przez inny element sceny. Tracking ogranicza skutki takich przerw i pozwala utrzymać maskę anonimizującą w logicznej pozycji.

W praktyce oznacza to kilka krytycznych funkcji dla zgodności i jakości przetwarzania materiału:

  • utrzymanie ciągłości zamazania tej samej twarzy lub tej samej tablicy rejestracyjnej w kolejnych klatkach,
  • ograniczenie zjawiska „migania” maski, gdy detektor działa niestabilnie,
  • przewidywanie położenia obiektu pomiędzy detekcjami na podstawie modelu ruchu,
  • zmniejszenie ryzyka chwilowego ujawnienia danych osobowych w pojedynczych klatkach,
  • umożliwienie spójnej ręcznej korekty w edytorze, gdy automatyka wymaga poprawy.

Dla Inspektora Ochrony Danych ma to znaczenie praktyczne. Incydent anonimizacyjny nie musi dotyczyć całego nagrania. Wystarczy kilka niezamazanych klatek, aby twarz lub numer rejestracyjny stały się czytelne po zatrzymaniu obrazu. Z tego powodu śledzenie obiektów należy traktować jako mechanizm redukcji ryzyka, a nie wyłącznie jako funkcję poprawiającą estetykę eksportu.

Jak działa śledzenie twarzy i tablic między klatkami

Typowy pipeline składa się z detekcji, estymacji ruchu, dopasowania obiektów i aktualizacji trajektorii. W nowoczesnych systemach detekcja jest zwykle realizowana przez modele deep learning, ponieważ twarze i tablice rejestracyjne zmieniają skalę, kąt i jakość w sposób trudny do opisania prostymi regułami. To właśnie model AI wykrywa obiekt, który następnie może być śledzony pomiędzy klatkami.

Najczęściej stosowane elementy techniczne to:

  • detektor obiektów - np. model CNN lub transformer wykrywający twarze albo tablice w pojedynczej klatce,
  • model ruchu - często filtr Kalmana, opisany klasycznie przez R.E. Kalmana w 1960 r., stosowany do przewidywania kolejnej pozycji obiektu,
  • algorytm asocjacji - np. problem przypisania rozwiązywany algorytmem węgierskim,
  • miary podobieństwa - IoU, odległość cech wizualnych, zgodność trajektorii i rozmiaru ramki,
  • mechanizmy zarządzania torem - inicjalizacja, potwierdzanie, utrata i zamknięcie ścieżki obiektu.

Uproszczony schemat można opisać wzorem:

Track(t) = Associate(Detections(t), Predict(Track(t-1)))

Gdzie Predict wyznacza oczekiwane położenie obiektu w nowej klatce, a Associate dopasowuje nowe detekcje do istniejących trajektorii. Jeżeli detekcja chwilowo zniknie, tracker może przez ograniczony czas utrzymać tor na podstawie predykcji. Jeżeli brak detekcji trwa zbyt długo, tor jest zamykany.

Kluczowe parametry i metryki object tracking

Ocena trackingu nie powinna opierać się wyłącznie na ogólnym stwierdzeniu, że system „dobrze śledzi”. W praktyce należy mierzyć jakość utrzymania tożsamości obiektu, stabilność trajektorii i wpływ na skuteczność anonimizacji. Część metryk pochodzi bezpośrednio ze środowiska MOTChallenge oraz publikacji Bernardina i Stiefelhagena z 2008 r. dotyczącej MOTA i MOTP.

Parametr / metryka

Znaczenie

Znaczenie dla anonimizacji

 

ID Switches

Liczba błędnych zmian tożsamości śledzonego obiektu

Wpływa na ryzyko przeniesienia maski na zły obiekt

MOTA

Łączna miara błędów śledzenia

Pokazuje ogólną stabilność śledzenia wielu obiektów

MOTP

Miara dokładności lokalizacji w klasycznej definicji benchmarkowej

Wpływa na to, czy maska dokładnie pokrywa twarz lub tablicę

HOTA

Miara łącząca jakość detekcji i asocjacji, opublikowana w 2020 r.

Lepiej pokazuje jakość powiązania obiektu między klatkami

Latency

Opóźnienie obliczeniowe przetwarzania

Istotne dla wydajności procesu, choć nie musi oznaczać pracy w czasie rzeczywistym

Track fragmentation

Liczba podziałów jednej trajektorii na wiele krótkich torów

Zwiększa ryzyko chwilowych luk w anonimizacji

W zastosowaniach do ochrony prywatności szczególnie istotny jest niski poziom false negatives, czyli pominiętych obiektów. Z perspektywy zgodności lepiej jest czasem objąć maską obszar nieco szerszy niż pozostawić widoczną część twarzy lub tablicy.

Wyzwania i ograniczenia object tracking

Tracking nie eliminuje wszystkich problemów. Jego skuteczność zależy od jakości detekcji wejściowej, liczby klatek na sekundę, kompresji materiału, oświetlenia i stopnia zasłonięcia obiektu. Twarze częściowo odwrócone, małe tablice rejestracyjne w tle lub silne artefakty kompresji obniżają stabilność śledzenia.

Najczęstsze ograniczenia obejmują:

  • częściowe i pełne przesłonięcia obiektu przez inne osoby lub pojazdy,
  • gwałtowny ruch kamery i motion blur,
  • małą liczbę pikseli przypadających na twarz lub tablicę,
  • podobny wygląd kilku obiektów w jednej scenie,
  • błędy odziedziczone po detektorze, którego tracking nie jest w stanie sam naprawić.

Ważne jest też poprawne zdefiniowanie zakresu automatyzacji. Gallio PRO automatycznie wykrywa i zamazuje twarze oraz tablice rejestracyjne. Nie wykrywa automatycznie logotypów, tatuaży, tabliczek z imionami, dokumentów ani obrazu na monitorach. Takie elementy mogą być zamazywane manualnie w edytorze. Z punktu widzenia trackingu oznacza to, że śledzenie dotyczy tych klas obiektów, które system rzeczywiście wykrywa automatycznie.

Odniesienia normatywne i praktyczne znaczenie dla zgodności

Śledzenie obiektów nie jest odrębnym obowiązkiem prawnym zapisanym w RODO, ale jest techniką wspierającą realizację zasady integralności i poufności z art. 5 ust. 1 lit. f oraz bezpieczeństwa przetwarzania z art. 32 rozporządzenia (UE) 2016/679. Jeżeli administrator anonimizuje materiał wideo, to stabilność tej anonimizacji ma znaczenie dla realnej skuteczności środka technicznego. Krótkie luki między klatkami mogą podważać praktyczny efekt ochrony.

W przypadku twarzy znaczenie mogą mieć także przepisy dotyczące wizerunku wynikające z prawa cywilnego i prawa autorskiego. W przypadku tablic rejestracyjnych sytuacja prawna w Polsce pozostaje niejednolita, natomiast w wielu państwach Europy praktyka i interpretacje ochrony danych mogą prowadzić do ich maskowania. Z technicznego punktu widzenia tracking zwiększa spójność tego maskowania w całym materiale.