Definicja (precyzyjna i weryfikowalna)
YOLO to rodzina algorytmów detekcji obiektów, które formułują detekcję jako pojedyncze przejście sieci (single-shot) - model przewiduje ramki (bounding boxes) i klasy bezpośrednio z całego obrazu w jednej ewaluacji, co umożliwia pracę w czasie rzeczywistym. Pierwszą wersję opisano w 2016 r.; baza YOLO osiągała ~45 FPS, a wariant „Fast YOLO” ~155 FPS na ówczesnym sprzęcie GPU. arXiv
Wersje nowsze rozwijają kompromis szybkość/dokładność (np. YOLOv4, YOLOv7) oraz modyfikują trening i post-processing (np. YOLOv10 - NMS-free, projektowany end-to-end). arXiv+2arXiv+2
Dlaczego istotne w anonimizacji zdjęć i wideo
W strumieniach wideo narzędzia anonimizujące zwykle najpierw wykrywają wrażliwe obiekty (twarze, tablice rejestracyjne), a następnie stosują transformacje (np. rozmycie, pikselizację). YOLO bywa wybierane jako detektor ze względu na:
- niską latencję (praca „klatka-po-klatce”),
- skalowalność do edge (małe warianty modeli),
- dobre wyniki na standardach COCO (mAP @ [.5:.95]) - metryce dominującej w ocenie detektorów. arXiv+1
Uwaga prawna: Skuteczna anonimizacja (np. zamiana w „informację anonimizowaną”) powinna spełniać wymogi GDPR (motyw 26) i może być klasyfikowana w kategoriach technik wg ISO/IEC 20889:2018. Skuteczność detekcji (zwł. false negatives) ma bezpośrednie znaczenie dla ryzyka re-identyfikacji. EUR-Lex+2ISO+2
Główne pojęcia i metryki
IoU (Intersection over Union)
IoU(A,B)=∣A∪B∣/∣A∩B∣
Używane do liczenia trafień (TP) w ocenie detektorów.
AP i mAP (COCO)AP liczony jest jako pole pod krzywą Precision-Recall; COCO AP@[.5:.95] uśrednia AP dla progów IoU od 0.50 do 0.95 co 0.05; mAP to średnia z AP po klasach. mAP=1C∑c=1CAPc\text{mAP}=\frac{1}{C}\sum_{c=1}^{C}\text{AP}_cmAP=C1∑c=1CAPcTo metryki porównawcze dla modeli YOLO. arXiv
Latencja i FPS
- YOLO (2016): ~45 FPS (baza), ~155 FPS (Fast) - PASCAL VOC. arXiv
- YOLOv4 (2020): 43.5% AP (COCO) przy ~65 FPS (Tesla V100). arXiv
- YOLOv10 (2024): projekt NMS-free; np. YOLOv10-S 1.8× szybszy niż RT-DETR-R18 przy podobnym AP; YOLOv10-B ma ~46% mniejszą latencję niż YOLOv9-C przy tej samej dokładności (dane względne). arXiv
Wersje/implementacje (przegląd pod kątem praktyki)
Wersja | Rok | Wydawca/papier | Kluczowe cechy | Wybrane liczby* |
YOLO (v1) | 2016 | Redmon et al. | Jednoprzebiegowa detekcja end-to-end | ~45 FPS (baza), ~155 FPS (Fast) (VOC) |
YOLOv4 | 2020 | Bochkovskiy et al. | CSP, Mosaic, CIoU, SAT; Darknet impl. | 43.5% AP (COCO), ~65 FPS (V100) |
YOLOv7 | 2022 | Wang et al. | „Trainable bag-of-freebies”, usprawnienia treningu | SOTA „real-time detectors” (COCO, różne skale) |
YOLOv8 | 2023 | Ultralytics | Uproszczona arch., warianty n-x (det/seg/pose) | dokumentacja i mAP na COCO w model zoo |
YOLOv9 | 2024 | WongKinYiu | Programmable Gradient Information (PGI) | repo/paper (wyniki per konfiguracja) |
YOLOv10 | 2024 | Wang et al. | NMS-free training, efektywność end-to-end | rel. przyspieszenia vs RT-DETR, v9 |
YOLO11 (Ultralytics) | 2024 | Ultralytics docs | Większa mAP przy mniejszej liczbie parametrów vs v8m | ~22% mniej parametrów przy wyższej mAP (COCO) |
* Zamieszczone wyłącznie liczby raportowane w źródłach. Szczegóły zależą od wariantów (n/s/m/l/x), rozdzielczości, sprzętu. Ultralytics Docs+6arXiv+6arXiv+6
Architektura i pipeline (skrót techniczny)
- Backbone (ekstrakcja cech; różne rodziny CSP/ELAN itp.).
- Neck (FPN/PAN warianty) - łączenie cech wieloskalowych.
- Head (predykcja boksów, klas, skali) - układ jednoczytowy; w nowszych wersjach warianty bez NMS.
- Post-processing - klasycznie NMS lub jego modyfikacje; w YOLOv10 dążenie do end-to-end bez NMS (redukcja latencji). arXiv
Integracja YOLO w systemach anonimizacji (praktyczny kontekst)
Cel: Zminimalizować false negatives (przepuszczenie twarzy/tablicy), akceptując umiarkowany wzrost false positives (nadmiarowe rozmycie).
Rekomendowana konfiguracja startowa (wideo 25-30 FPS, 1080p, GPU klasy T4/A10):
- Model: wariant „s” lub „m” (balans prędkość/jakość).
- Rozdzielczość wejścia: 640-960 px najdłuższy bok (trade-off).
- Próg konf.: 0.2-0.35 (obniżenie progu zmniejsza FN).
- IoU dla NMS: 0.5-0.7 (dla maks. czułości na przysłonięcia).
- Śledzenie (MOT): łącz z trackerem (np. byt identyfikowany przez kilka klatek) by ograniczyć migotanie rozmycia.
- Walidacja domenowa: pomiar Recall@IoU=0.5 dla klas face/plate na własnym zbiorze nagrań; cel operacyjny: Recall ≥ 0.98 dla krytycznych klas. (Uwaga: wartości docelowe biznesowe - do zdefiniowania; standardy prawne nie wyznaczają progu mAP.)
Ryzyka i środki zaradcze
- Okluzje/małe obiekty/noc: rozdzielczość wejścia ↑, augmentacje oświetlenia w treningu.
- Kąty/szybki ruch: krótkie ekspozycje, stabilizacja, łączenie z detektorem wyspecjalizowanym (np. face-detection, LPR).
- Danych brak w COCO: dotrenowanie (transfer learning) na klasach wrażliwych; COCO ma 80 klas i może nie zawierać fine-grained „tablica PL”. arXiv+1
Powiązanie z prawem i standardami
- GDPR, motyw 26: anonimizacja eliminuje zastosowanie regulacji do danych anonimowych; ocena „możliwości identyfikacji” musi brać pod uwagę koszty/czas/technologię. EUR-Lex
- ISO/IEC 20889:2018: słownik i klasyfikacja technik de-identyfikacji - użyteczny do opisu docelowego poziomu ochrony i kontroli ryzyka resztkowego. ISO+1
- WP29/EDPB 05/2014: przewodnik o ograniczeniach anonimizacji i ryzyku rekombinacji danych. European Commission
Minimalny zestaw testów akceptacyjnych (DPO/operacje)
- Recall (klasy krytyczne): ≥ ustalony próg (np. 0.98 @ IoU=0.5) na zbiorze domenowym.
- Precision (by uniknąć nad-rozmycia): raportowane wraz z Recall.
- Latencja 95-percentyl: ≤ budżet (np. 40 ms/klatkę edge; 20 ms/klatkę GPU).
- Stabilność: brak migotania maski w sekwencjach (≥95% ramek z ciągłością śledzenia).
- Robustness set: testy w nocy/deszczu/odbłyskach.
Tabela skrótowa - metryki i atrybuty wdrożeniowe
Atrybut | Opis | Uwaga/źródło |
mAP@[.5:.95] | Średnia AP dla progów IoU 0.50…0.95 | standard COCO od 2014/2015; metryka porównawcza. arXiv+1 |
FPS/latencja | Czas przetwarzania klatki; kluczowe dla RT | przykłady: YOLO (45/155 FPS), YOLOv4 (~65 FPS V100). arXiv+1 |
NMS vs E2E | Usuwanie duplikatów (NMS) vs architektury bez NMS | YOLOv10: NMS-free training, mniejsza latencja. arXiv |
Wielkość modelu | Parametry/FLOPs; wpływ na edge | YOLO11: wyższa mAP przy ~22% mniej parametrów vs v8m. Ultralytics Docs |
Bibliografia (wybór źródeł pierwotnych i dokumentacji)
- Redmon J. i in., You Only Look Once: Unified, Real-Time Object Detection, arXiv v5, 2016 (FPS 45/155). arXiv
- Bochkovskiy A., Wang C.Y., Liao H.Y.M., YOLOv4: Optimal Speed and Accuracy of Object Detection, 2020 (AP 43.5% COCO, ~65 FPS V100). arXiv
- Wang C.Y. i in., YOLOv7: Trainable bag-of-freebies…, 2022. arXiv
- Ultralytics, YOLOv8/YOLO11 - dokumentacja i wyniki na COCO. Ultralytics Docs+2Ultralytics Docs+2
- WongKinYiu, YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information (paper/repo), 2024. arXiv+1
- Wang A. i in., YOLOv10: Real-Time End-to-End Object Detection, 2024 (NMS-free; porównania latencji i mocy obliczeniowej). arXiv+1
- Lin T.Y. i in., Microsoft COCO: Common Objects in Context - zbiór i metryki (AP@[.5:.95]). arXiv+1
- GDPR (UE 2016/679), Motyw 26 - definicja danych anonimowych (EUR-Lex). EUR-Lex
- ISO/IEC 20889:2018 - terminologia i klasyfikacja technik de-identyfikacji. ISO+1
- WP29/EDPB, Opinion 05/2014 on Anonymisation Techniques. European Commission