Co to jest YOLO (You Only Look Once)?

Spis treści

Definicja (precyzyjna i weryfikowalna)
Dlaczego istotne w anonimizacji zdjęć i wideo
Główne pojęcia i metryki
Wersje/implementacje (przegląd pod kątem praktyki)
Architektura i pipeline (skrót techniczny)
Integracja YOLO w systemach anonimizacji (praktyczny kontekst)
Minimalny zestaw testów akceptacyjnych (DPO/operacje)
Tabela skrótowa - metryki i atrybuty wdrożeniowe
Bibliografia (wybór źródeł pierwotnych i dokumentacji)

Definicja (precyzyjna i weryfikowalna)

YOLO to rodzina algorytmów detekcji obiektów, które formułują detekcję jako pojedyncze przejście sieci (single-shot) - model przewiduje ramki (bounding boxes) i klasy bezpośrednio z całego obrazu w jednej ewaluacji, co umożliwia pracę w czasie rzeczywistym. Pierwszą wersję opisano w 2016 r.; baza YOLO osiągała ~45 FPS, a wariant „Fast YOLO” ~155 FPS na ówczesnym sprzęcie GPU. arXiv

Wersje nowsze rozwijają kompromis szybkość/dokładność (np. YOLOv4, YOLOv7) oraz modyfikują trening i post-processing (np. YOLOv10 - NMS-free, projektowany end-to-end). arXiv+2arXiv+2

Dlaczego istotne w anonimizacji zdjęć i wideo

W strumieniach wideo narzędzia anonimizujące zwykle najpierw wykrywają wrażliwe obiekty (twarze, tablice rejestracyjne), a następnie stosują transformacje (np. rozmycie, pikselizację). YOLO bywa wybierane jako detektor ze względu na:

niską latencję (praca „klatka-po-klatce”),
skalowalność do edge (małe warianty modeli),
dobre wyniki na standardach COCO (mAP @ [.5:.95]) - metryce dominującej w ocenie detektorów. arXiv+1

Uwaga prawna: Skuteczna anonimizacja (np. zamiana w „informację anonimizowaną”) powinna spełniać wymogi GDPR (motyw 26) i może być klasyfikowana w kategoriach technik wg ISO/IEC 20889:2018. Skuteczność detekcji (zwł. false negatives) ma bezpośrednie znaczenie dla ryzyka re-identyfikacji. EUR-Lex+2ISO+2

Główne pojęcia i metryki

IoU (Intersection over Union)

IoU(A,B)=∣A∪B∣/∣A∩B∣

Używane do liczenia trafień (TP) w ocenie detektorów.

AP i mAP (COCO)AP liczony jest jako pole pod krzywą Precision-Recall; COCO AP@[.5:.95] uśrednia AP dla progów IoU od 0.50 do 0.95 co 0.05; mAP to średnia z AP po klasach. mAP=1C∑c=1CAPc\text{mAP}=\frac{1}{C}\sum_{c=1}^{C}\text{AP}_cmAP=C1∑c=1CAPcTo metryki porównawcze dla modeli YOLO. arXiv

Latencja i FPS

YOLO (2016): ~45 FPS (baza), ~155 FPS (Fast) - PASCAL VOC. arXiv
YOLOv4 (2020): 43.5% AP (COCO) przy ~65 FPS (Tesla V100). arXiv
YOLOv10 (2024): projekt NMS-free; np. YOLOv10-S 1.8× szybszy niż RT-DETR-R18 przy podobnym AP; YOLOv10-B ma ~46% mniejszą latencję niż YOLOv9-C przy tej samej dokładności (dane względne). arXiv

Wersje/implementacje (przegląd pod kątem praktyki)

Wersja	Rok	Wydawca/papier	Kluczowe cechy	Wybrane liczby*
YOLO (v1)	2016	Redmon et al.	Jednoprzebiegowa detekcja end-to-end	~45 FPS (baza), ~155 FPS (Fast) (VOC)
YOLOv4	2020	Bochkovskiy et al.	CSP, Mosaic, CIoU, SAT; Darknet impl.	43.5% AP (COCO), ~65 FPS (V100)
YOLOv7	2022	Wang et al.	„Trainable bag-of-freebies”, usprawnienia treningu	SOTA „real-time detectors” (COCO, różne skale)
YOLOv8	2023	Ultralytics	Uproszczona arch., warianty n-x (det/seg/pose)	dokumentacja i mAP na COCO w model zoo
YOLOv9	2024	WongKinYiu	Programmable Gradient Information (PGI)	repo/paper (wyniki per konfiguracja)
YOLOv10	2024	Wang et al.	NMS-free training, efektywność end-to-end	rel. przyspieszenia vs RT-DETR, v9
YOLO11 (Ultralytics)	2024	Ultralytics docs	Większa mAP przy mniejszej liczbie parametrów vs v8m	~22% mniej parametrów przy wyższej mAP (COCO)

* Zamieszczone wyłącznie liczby raportowane w źródłach. Szczegóły zależą od wariantów (n/s/m/l/x), rozdzielczości, sprzętu. Ultralytics Docs+6arXiv+6arXiv+6

Architektura i pipeline (skrót techniczny)

Backbone (ekstrakcja cech; różne rodziny CSP/ELAN itp.).
Neck (FPN/PAN warianty) - łączenie cech wieloskalowych.
Head (predykcja boksów, klas, skali) - układ jednoczytowy; w nowszych wersjach warianty bez NMS.
Post-processing - klasycznie NMS lub jego modyfikacje; w YOLOv10 dążenie do end-to-end bez NMS (redukcja latencji). arXiv

Integracja YOLO w systemach anonimizacji (praktyczny kontekst)

Cel: Zminimalizować false negatives (przepuszczenie twarzy/tablicy), akceptując umiarkowany wzrost false positives (nadmiarowe rozmycie).

Rekomendowana konfiguracja startowa (wideo 25-30 FPS, 1080p, GPU klasy T4/A10):

Model: wariant „s” lub „m” (balans prędkość/jakość).
Rozdzielczość wejścia: 640-960 px najdłuższy bok (trade-off).
Próg konf.: 0.2-0.35 (obniżenie progu zmniejsza FN).
IoU dla NMS: 0.5-0.7 (dla maks. czułości na przysłonięcia).
Śledzenie (MOT): łącz z trackerem (np. byt identyfikowany przez kilka klatek) by ograniczyć migotanie rozmycia.
Walidacja domenowa: pomiar Recall@IoU=0.5 dla klas face/plate na własnym zbiorze nagrań; cel operacyjny: Recall ≥ 0.98 dla krytycznych klas. (Uwaga: wartości docelowe biznesowe - do zdefiniowania; standardy prawne nie wyznaczają progu mAP.)

Ryzyka i środki zaradcze

Okluzje/małe obiekty/noc: rozdzielczość wejścia ↑, augmentacje oświetlenia w treningu.
Kąty/szybki ruch: krótkie ekspozycje, stabilizacja, łączenie z detektorem wyspecjalizowanym (np. face-detection, LPR).
Danych brak w COCO: dotrenowanie (transfer learning) na klasach wrażliwych; COCO ma 80 klas i może nie zawierać fine-grained „tablica PL”. arXiv+1

Powiązanie z prawem i standardami

GDPR, motyw 26: anonimizacja eliminuje zastosowanie regulacji do danych anonimowych; ocena „możliwości identyfikacji” musi brać pod uwagę koszty/czas/technologię. EUR-Lex
ISO/IEC 20889:2018: słownik i klasyfikacja technik de-identyfikacji - użyteczny do opisu docelowego poziomu ochrony i kontroli ryzyka resztkowego. ISO+1
WP29/EDPB 05/2014: przewodnik o ograniczeniach anonimizacji i ryzyku rekombinacji danych. European Commission

Minimalny zestaw testów akceptacyjnych (DPO/operacje)

Recall (klasy krytyczne): ≥ ustalony próg (np. 0.98 @ IoU=0.5) na zbiorze domenowym.
Precision (by uniknąć nad-rozmycia): raportowane wraz z Recall.
Latencja 95-percentyl: ≤ budżet (np. 40 ms/klatkę edge; 20 ms/klatkę GPU).
Stabilność: brak migotania maski w sekwencjach (≥95% ramek z ciągłością śledzenia).
Robustness set: testy w nocy/deszczu/odbłyskach.

Tabela skrótowa - metryki i atrybuty wdrożeniowe

Atrybut	Opis	Uwaga/źródło
mAP@[.5:.95]	Średnia AP dla progów IoU 0.50…0.95	standard COCO od 2014/2015; metryka porównawcza. arXiv+1
FPS/latencja	Czas przetwarzania klatki; kluczowe dla RT	przykłady: YOLO (45/155 FPS), YOLOv4 (~65 FPS V100). arXiv+1
NMS vs E2E	Usuwanie duplikatów (NMS) vs architektury bez NMS	YOLOv10: NMS-free training, mniejsza latencja. arXiv
Wielkość modelu	Parametry/FLOPs; wpływ na edge	YOLO11: wyższa mAP przy ~22% mniej parametrów vs v8m. Ultralytics Docs

Bibliografia (wybór źródeł pierwotnych i dokumentacji)

Redmon J. i in., You Only Look Once: Unified, Real-Time Object Detection, arXiv v5, 2016 (FPS 45/155). arXiv
Bochkovskiy A., Wang C.Y., Liao H.Y.M., YOLOv4: Optimal Speed and Accuracy of Object Detection, 2020 (AP 43.5% COCO, ~65 FPS V100). arXiv
Wang C.Y. i in., YOLOv7: Trainable bag-of-freebies…, 2022. arXiv
Ultralytics, YOLOv8/YOLO11 - dokumentacja i wyniki na COCO. Ultralytics Docs+2Ultralytics Docs+2
WongKinYiu, YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information (paper/repo), 2024. arXiv+1
Wang A. i in., YOLOv10: Real-Time End-to-End Object Detection, 2024 (NMS-free; porównania latencji i mocy obliczeniowej). arXiv+1
Lin T.Y. i in., Microsoft COCO: Common Objects in Context - zbiór i metryki (AP@[.5:.95]). arXiv+1
GDPR (UE 2016/679), Motyw 26 - definicja danych anonimowych (EUR-Lex). EUR-Lex
ISO/IEC 20889:2018 - terminologia i klasyfikacja technik de-identyfikacji. ISO+1
WP29/EDPB, Opinion 05/2014 on Anonymisation Techniques. European Commission

Zobacz także

Powrót do słownika