Co to jest YOLO (You Only Look Once)?

Definicja (precyzyjna i weryfikowalna)

YOLO to rodzina algorytmów detekcji obiektów, które formułują detekcję jako pojedyncze przejście sieci (single-shot) - model przewiduje ramki (bounding boxes) i klasy bezpośrednio z całego obrazu w jednej ewaluacji, co umożliwia pracę w czasie rzeczywistym. Pierwszą wersję opisano w 2016 r.; baza YOLO osiągała ~45 FPS, a wariant „Fast YOLO” ~155 FPS na ówczesnym sprzęcie GPU. arXiv

Wersje nowsze rozwijają kompromis szybkość/dokładność (np. YOLOv4, YOLOv7) oraz modyfikują trening i post-processing (np. YOLOv10 - NMS-free, projektowany end-to-end). arXiv+2arXiv+2

Dlaczego istotne w anonimizacji zdjęć i wideo

W strumieniach wideo narzędzia anonimizujące zwykle najpierw wykrywają wrażliwe obiekty (twarze, tablice rejestracyjne), a następnie stosują transformacje (np. rozmycie, pikselizację). YOLO bywa wybierane jako detektor ze względu na:

  • niską latencję (praca „klatka-po-klatce”),
  • skalowalność do edge (małe warianty modeli),
  • dobre wyniki na standardach COCO (mAP @ [.5:.95]) - metryce dominującej w ocenie detektorów. arXiv+1

Uwaga prawna: Skuteczna anonimizacja (np. zamiana w „informację anonimizowaną”) powinna spełniać wymogi GDPR (motyw 26) i może być klasyfikowana w kategoriach technik wg ISO/IEC 20889:2018. Skuteczność detekcji (zwł. false negatives) ma bezpośrednie znaczenie dla ryzyka re-identyfikacji. EUR-Lex+2ISO+2

Główne pojęcia i metryki

IoU (Intersection over Union)

IoU(A,B)=∣A∪B∣/∣A∩B∣​

Używane do liczenia trafień (TP) w ocenie detektorów.

AP i mAP (COCO)AP liczony jest jako pole pod krzywą Precision-Recall; COCO AP@[.5:.95] uśrednia AP dla progów IoU od 0.50 do 0.95 co 0.05; mAP to średnia z AP po klasach. mAP=1C∑c=1CAPc\text{mAP}=\frac{1}{C}\sum_{c=1}^{C}\text{AP}_cmAP=C1​∑c=1C​APc​To metryki porównawcze dla modeli YOLO. arXiv

Latencja i FPS

  • YOLO (2016): ~45 FPS (baza), ~155 FPS (Fast) - PASCAL VOC. arXiv
  • YOLOv4 (2020): 43.5% AP (COCO) przy ~65 FPS (Tesla V100). arXiv
  • YOLOv10 (2024): projekt NMS-free; np. YOLOv10-S 1.8× szybszy niż RT-DETR-R18 przy podobnym AP; YOLOv10-B ma ~46% mniejszą latencję niż YOLOv9-C przy tej samej dokładności (dane względne). arXiv

Wersje/implementacje (przegląd pod kątem praktyki)

Wersja

Rok

Wydawca/papier

Kluczowe cechy

Wybrane liczby*

YOLO (v1)

2016

Redmon et al.

Jednoprzebiegowa detekcja end-to-end

~45 FPS (baza), ~155 FPS (Fast) (VOC)

YOLOv4

2020

Bochkovskiy et al.

CSP, Mosaic, CIoU, SAT; Darknet impl.

43.5% AP (COCO), ~65 FPS (V100)

YOLOv7

2022

Wang et al.

„Trainable bag-of-freebies”, usprawnienia treningu

SOTA „real-time detectors” (COCO, różne skale)

YOLOv8

2023

Ultralytics

Uproszczona arch., warianty n-x (det/seg/pose)

dokumentacja i mAP na COCO w model zoo

YOLOv9

2024

WongKinYiu

Programmable Gradient Information (PGI)

repo/paper (wyniki per konfiguracja)

YOLOv10

2024

Wang et al.

NMS-free training, efektywność end-to-end

rel. przyspieszenia vs RT-DETR, v9

YOLO11 (Ultralytics)

2024

Ultralytics docs

Większa mAP przy mniejszej liczbie parametrów vs v8m

~22% mniej parametrów przy wyższej mAP (COCO)

* Zamieszczone wyłącznie liczby raportowane w źródłach. Szczegóły zależą od wariantów (n/s/m/l/x), rozdzielczości, sprzętu. Ultralytics Docs+6arXiv+6arXiv+6

Architektura i pipeline (skrót techniczny)

  1. Backbone (ekstrakcja cech; różne rodziny CSP/ELAN itp.).
  2. Neck (FPN/PAN warianty) - łączenie cech wieloskalowych.
  3. Head (predykcja boksów, klas, skali) - układ jednoczytowy; w nowszych wersjach warianty bez NMS.
  4. Post-processing - klasycznie NMS lub jego modyfikacje; w YOLOv10 dążenie do end-to-end bez NMS (redukcja latencji). arXiv

Integracja YOLO w systemach anonimizacji (praktyczny kontekst)

Cel: Zminimalizować false negatives (przepuszczenie twarzy/tablicy), akceptując umiarkowany wzrost false positives (nadmiarowe rozmycie).

Rekomendowana konfiguracja startowa (wideo 25-30 FPS, 1080p, GPU klasy T4/A10):

  • Model: wariant „s” lub „m” (balans prędkość/jakość).
  • Rozdzielczość wejścia: 640-960 px najdłuższy bok (trade-off).
  • Próg konf.: 0.2-0.35 (obniżenie progu zmniejsza FN).
  • IoU dla NMS: 0.5-0.7 (dla maks. czułości na przysłonięcia).
  • Śledzenie (MOT): łącz z trackerem (np. byt identyfikowany przez kilka klatek) by ograniczyć migotanie rozmycia.
  • Walidacja domenowa: pomiar Recall@IoU=0.5 dla klas face/plate na własnym zbiorze nagrań; cel operacyjny: Recall ≥ 0.98 dla krytycznych klas. (Uwaga: wartości docelowe biznesowe - do zdefiniowania; standardy prawne nie wyznaczają progu mAP.)

Ryzyka i środki zaradcze

  • Okluzje/małe obiekty/noc: rozdzielczość wejścia ↑, augmentacje oświetlenia w treningu.
  • Kąty/szybki ruch: krótkie ekspozycje, stabilizacja, łączenie z detektorem wyspecjalizowanym (np. face-detection, LPR).
  • Danych brak w COCO: dotrenowanie (transfer learning) na klasach wrażliwych; COCO ma 80 klas i może nie zawierać fine-grained „tablica PL”. arXiv+1

Powiązanie z prawem i standardami

  • GDPR, motyw 26: anonimizacja eliminuje zastosowanie regulacji do danych anonimowych; ocena „możliwości identyfikacji” musi brać pod uwagę koszty/czas/technologię. EUR-Lex
  • ISO/IEC 20889:2018: słownik i klasyfikacja technik de-identyfikacji - użyteczny do opisu docelowego poziomu ochrony i kontroli ryzyka resztkowego. ISO+1
  • WP29/EDPB 05/2014: przewodnik o ograniczeniach anonimizacji i ryzyku rekombinacji danych. European Commission

Minimalny zestaw testów akceptacyjnych (DPO/operacje)

  • Recall (klasy krytyczne): ≥ ustalony próg (np. 0.98 @ IoU=0.5) na zbiorze domenowym.
  • Precision (by uniknąć nad-rozmycia): raportowane wraz z Recall.
  • Latencja 95-percentyl: ≤ budżet (np. 40 ms/klatkę edge; 20 ms/klatkę GPU).
  • Stabilność: brak migotania maski w sekwencjach (≥95% ramek z ciągłością śledzenia).
  • Robustness set: testy w nocy/deszczu/odbłyskach.

Tabela skrótowa - metryki i atrybuty wdrożeniowe

Atrybut

Opis

Uwaga/źródło

mAP@[.5:.95]

Średnia AP dla progów IoU 0.50…0.95

standard COCO od 2014/2015; metryka porównawcza. arXiv+1

FPS/latencja

Czas przetwarzania klatki; kluczowe dla RT

przykłady: YOLO (45/155 FPS), YOLOv4 (~65 FPS V100). arXiv+1

NMS vs E2E

Usuwanie duplikatów (NMS) vs architektury bez NMS

YOLOv10: NMS-free training, mniejsza latencja. arXiv

Wielkość modelu

Parametry/FLOPs; wpływ na edge

YOLO11: wyższa mAP przy ~22% mniej parametrów vs v8m. Ultralytics Docs

Bibliografia (wybór źródeł pierwotnych i dokumentacji)

  1. Redmon J. i in., You Only Look Once: Unified, Real-Time Object Detection, arXiv v5, 2016 (FPS 45/155). arXiv
  2. Bochkovskiy A., Wang C.Y., Liao H.Y.M., YOLOv4: Optimal Speed and Accuracy of Object Detection, 2020 (AP 43.5% COCO, ~65 FPS V100). arXiv
  3. Wang C.Y. i in., YOLOv7: Trainable bag-of-freebies…, 2022. arXiv
  4. Ultralytics, YOLOv8/YOLO11 - dokumentacja i wyniki na COCO. Ultralytics Docs+2Ultralytics Docs+2
  5. WongKinYiu, YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information (paper/repo), 2024. arXiv+1
  6. Wang A. i in., YOLOv10: Real-Time End-to-End Object Detection, 2024 (NMS-free; porównania latencji i mocy obliczeniowej). arXiv+1
  7. Lin T.Y. i in., Microsoft COCO: Common Objects in Context - zbiór i metryki (AP@[.5:.95]). arXiv+1
  8. GDPR (UE 2016/679), Motyw 26 - definicja danych anonimowych (EUR-Lex). EUR-Lex
  9. ISO/IEC 20889:2018 - terminologia i klasyfikacja technik de-identyfikacji. ISO+1
  10. WP29/EDPB, Opinion 05/2014 on Anonymisation Techniques. European Commission