Co to jest Real-Time Object Detection (detekcja obiektów w czasie rzeczywistym)?

Definicja

Wykrywanie obiektów w czasie rzeczywistym to przetwarzanie strumienia obrazu/wideo, w którym system wykrywa i lokalizuje obiekty (np. twarze, tablice rejestracyjne) w granicach z góry określonego terminu (deadline) - nie dłuższego niż interwał kolejnej próbki/klatki. Innymi słowy: dla strumienia o częstotliwości FvideoF_{video}Fvideo​ [Hz] opóźnienie przetwarzania Le2eL_{e2e}Le2e​ musi spełniać Le2e≤1FvideoL_{e2e} \le \frac{1}{F_{video}}Le2e​≤Fvideo​1​. To ujęcie wynika z klasycznej definicji systemów czasu rzeczywistego, w których poprawność zależy także od czasu dostarczenia wyniku. course.ece.cmu.edu+1

Kontekst prawno-normatywny (anonimizacja obrazu)

  • RODO, motyw 26: informacje anonimowe nie podlegają RODO; celem wykrywania w tym kontekście jest umożliwienie skutecznej anonimizacji (np. rozmycia) części obrazu, tak aby osoba nie była identyfikowalna. „Cytat”: „zasady ochrony danych nie mają zastosowania do informacji anonimowych…”. EUR-Lex+2RODO+2
  • ISO/IEC 20889:2018: standard klasyfikujący techniki de-identyfikacji (np. maskowanie, perturbacja); wykrywanie obiektów jest etapem poprzedzającym zastosowanie techniki (pipeline: detekcja → transformacja). ISO+2Standards ITeh+2

Metryki i atrybuty techniczne

Metryki jakości detekcji

Metryki czasowo-wydajnościowe (dla „real-time”)

  • Opóźnienie end-to-end Le2e=Lgrab+Lpre+Lmodel+Lpost+LioL_{e2e} = L_{grab}+L_{pre}+L_{model}+L_{post}+L_{io}Le2e​=Lgrab​+Lpre​+Lmodel​+Lpost​+Lio​
  • Przepustowość: kl./s (FPS); warunek praktyczny: FPSproc≥FvideoFPS_{proc} \ge F_{video}FPSproc​≥Fvideo​.
  • Zmienność opóźnienia (jitter): odchylenie Le2eL_{e2e}Le2e​; dla systemów twardo-czasowych wymagane ograniczenie jitteru. course.ece.cmu.edu

Formuły (definicje standardowe)

  • Precision =TPTP+FP= \frac{TP}{TP+FP}=TP+FPTP​, Recall =TPTP+FN= \frac{TP}{TP+FN}=TP+FNTP​; IoU =∣Bpred∩Bgt∣∣Bpred∪Bgt∣= \frac{|B_{pred}\cap B_{gt}|}{|B_{pred}\cup B_{gt}|}=∣Bpred​∪Bgt​∣∣Bpred​∩Bgt​∣​. (Podstawy metryk detekcji wg VOC/COCO). homepages.inf.ed.ac.uk+1

Tabela: kluczowe parametry projektowe (dla systemów anonimizacji)

Parametr

Cel / próg projektowy

Uzasadnienie / źródło

Le2eL_{e2e}Le2e​ (ms)

≤1000Fvideo\le \frac{1000}{F_{video}}≤Fvideo​1000​

warunek czasu rzeczywistego (deadline = okres próbki) course.ece.cmu.edu

Recall@IoUp_{p}p​

maksymalizacja (np. przy IoU zgodnym z polityką, zwykle 0.5–0.75)

minimalizacja FN (ryzyko wycieku twarzy/tablic) - metryki COCO/VOC definiują progi IoU arXiv+1

mAP@[.5:.95]

monitorowana, ale drugorzędna względem Recall dla klas wrażliwych

COCO mAP opis metryki; dla prywatności FN ważniejsze niż FP arXiv

Stabilność FPS

FPSproc≥FvideoFPS_{proc} \ge F_{video}FPSproc​≥Fvideo​ przy niskim jitterze

wymóg czasu rzeczywistego (ciągłość anonimizacji) course.ece.cmu.edu

Standardowe zbiory danych i ewaluacja

Praktyka i implementacja (pipeline)

  1. Przechwyt (kamera/RTSP) → 2. Preprocessing (resize, normalizacja) → 3. Detekcja (np. modele klasy YOLO zoptymalizowane do RT) → 4. Post-proc. (NMS, łączenie ramek) → 5. Transformacja anonimizująca (rozmycie/maskowanie w ROI) → 6. Eksport/stream out. Badania pokazują, że nowoczesne detektory „real-time” (np. YOLOv7) łączą wysoką dokładność COCO z wysokim FPS na GPU, co bywa punktem odniesienia dla praktycznych wdrożeń. arXiv+1

Uwagi eksperckie

  • Projektuj próg decyzyjny tak, by minimalizować FN dla klas wrażliwych (twarz, tablica). Dopuszczalny wzrost FP jest zwykle akceptowalny w anonimizacji. (Uzasadnienie: motyw 26 - liczy się brak identyfikowalności). EUR-Lex
  • Ustal politykę IoU dla ROI anonimizowanych (np. dopuszczalny „zapas” poza konturem), spójną z metryką ewaluacyjną (VOC/COCO). homepages.inf.ed.ac.uk+1
  • Zapewnij monitoring Le2e_{e2e}e2e​ i stabilności FPS w warunkach szczytowego obciążenia, zgodnie z zasadami systemów czasu rzeczywistego. course.ece.cmu.edu

Źródła kluczowe

Zobacz też

  • YOLO (You Only Look Once)
  • Sieci neuronowe (Neural Networks)
  • Segmentacja obrazu (Image Segmentation)
  • Anonimizacja wideo