Qu'est-ce que YOLO (You Only Look Once)?

Définition

YOLO (You Only Look Once) est une famille d'algorithmes de détection d'objets qui formule la détection comme un processus à passe unique (single-shot) - le modèle prédit les boîtes englobantes et les probabilités de classe directement depuis l'image entière en une seule évaluation, permettant un fonctionnement en temps réel.

La première version (YOLOv1) a été introduite en 2016 ; la configuration de base atteignait ~45 FPS, tandis que "Fast YOLO" atteignait ~155 FPS sur les GPU de l'époque [Redmon et al., 2016].

Les versions plus récentes (YOLOv4-YOLOv11) étendent le compromis vitesse-précision et modifient les pipelines d'entraînement et de post-traitement (par exemple, YOLOv10 introduit la détection de bout en bout sans NMS) [Bochkovskiy et al., 2020; Wang et al., 2024].

Pertinence dans l'anonymisation d'images et de vidéos

Dans les pipelines d'anonymisation, les objets sensibles (visages, plaques d'immatriculation) doivent être détectés avant d'être transformés (floutés, pixellisés, etc.). YOLO est souvent utilisé comme composant de détection en raison de :

  • Faible latence - Inférence image par image en temps réel
  • Scalabilité vers les dispositifs edge - Variantes de modèles légers
  • Performance élevée sur le benchmark COCO - mAP@[.5:.95], la métrique standard de l'industrie

Note juridique : Une anonymisation efficace au sens du RGPD Considérant 26 doit garantir que les individus ne sont plus identifiables, compte tenu du temps, du coût et de la technologie. La précision de détection - en particulier les faux négatifs - affecte directement le risque résiduel de ré-identification.

La terminologie technique pertinente est fournie dans la norme ISO/IEC 20889:2018 (Classification des techniques de dé-identification).

Métriques fondamentales et formules

IoU (Intersection over Union)

IoU(A,B) = |A ∩ B| / |A ∪ B|

Utilisé pour évaluer le chevauchement entre les boîtes englobantes prédites et de référence (ground-truth).

AP et mAP (standard COCO)

La Précision Moyenne (Average Precision - AP) est l'aire sous la courbe précision-rappel ; le COCO AP@[.5:.95] moyenne l'AP sur les seuils IoU de 0.50 à 0.95 (pas de 0.05).

mAP = (1/C) Σ AP_c

où C est le nombre de classes.

Benchmarks de latence et FPS

Modèle

Dataset

Matériel

Débit

YOLOv1

VOC 2007

Titan X

~45 FPS (base), 155 FPS (Fast YOLO)

YOLOv4

COCO

Tesla V100

43.5% AP (COCO), ~65 FPS

YOLOv10

COCO

RTX 4090

jusqu'à 46% de latence en moins vs YOLOv9-C à précision similaire

Aperçu des versions

Version

Année

Auteurs / Article

Caractéristiques clés

Métriques rapportées*

YOLOv1

2016

Redmon et al.

Détecteur unifié single-shot

45/155 FPS

YOLOv4

2020

Bochkovskiy et al.

Backbone CSP, CIoU, Mosaic

43.5% AP (COCO), ~65 FPS

YOLOv7

2022

Wang et al.

"Trainable bag-of-freebies"

Détecteur temps réel SOTA

YOLOv8

2023

Ultralytics

Architecture simplifiée (det/seg/pose)

mAP élevé, paramètres faibles

YOLOv9

2024

WongKinYiu

Programmable Gradient Information (PGI)

Précision améliorée

YOLOv10

2024

Wang et al.

Détection de bout en bout, sans NMS

Latence réduite, efficacité accrue

YOLOv11

2024

Ultralytics

Ratio mAP/paramètres optimisé

~22% de paramètres en moins vs v8m

*Les valeurs dépendent de la variante (n/s/m/l/x), de la résolution et de la configuration matérielle.

Architecture et pipeline de traitement

  1. Backbone - Extraction de caractéristiques (par exemple, CSPNet, ELAN)
  2. Neck - Fusion de caractéristiques multi-échelles (FPN/PAN)
  3. Head - Prédit les boîtes englobantes, classes, confiance ; les versions récentes intègrent la détection sans post-NMS
  4. Post-traitement - Suppression Non-Maximale (NMS) traditionnelle ou sans NMS dans l'entraînement de bout en bout (YOLOv10)

Intégration dans les systèmes d'anonymisation

Objectif : Minimiser les faux négatifs (détections manquées de visages/plaques), en acceptant des faux positifs modérés (régions floutées supplémentaires).

Configuration opérationnelle recommandée

(Vidéo 1080p, 25-30 FPS, GPU T4/A10)

Paramètre

Valeur recommandée

Variante du modèle

s ou m (équilibre vitesse-précision)

Résolution d'entrée

640-960 px sur le côté le plus long

Seuil de confiance

0.2-0.35

Seuil IoU (pour NMS)

0.5-0.7

Suivi MOT

Combiner avec un tracker multi-objets pour stabilité du masque

Validation

Mesurer Rappel@IoU=0.5 pour classes critiques (visage, plaque) ; cible opérationnelle Rappel ≥ 0.98

Risques et atténuations

Risque

Atténuation

Occlusion ou faible luminosité

Augmenter la résolution d'entrée, appliquer des augmentations de luminosité

Mouvement rapide / flou

Utiliser la stabilisation ou une vitesse d'obturation plus élevée

Décalage de domaine (objets non-COCO)

Appliquer le transfer learning sur données de domaine personnalisées

Contexte juridique / normatif

  • RGPD Considérant 26 - Définit le périmètre des données anonymes
  • ISO/IEC 20889:2018 - Taxonomie des méthodes de dé-identification
  • WP29/CEPD 05/2014 - Lignes directrices sur les limites de l'anonymisation et le risque résiduel

Liste de contrôle pour tests d'acceptation

(Pour DPO ou équipes QA)

Métrique

Exigence

Commentaire

Rappel (classes critiques)

≥ 0.98 @ IoU=0.5

Prévenir la sous-anonymisation

Précision

Rapporter conjointement avec le Rappel

Éviter le floutage excessif

Latence (p95)

≤ 40 ms/frame (edge) ou 20 ms (GPU)

Seuil temps réel

Stabilité temporelle

≥ 95% des frames maintiennent un masque cohérent

Éviter le scintillement

Robustesse

Tests dans scénarios nuit/pluie/reflets

Couverture de domaine

Résumé des attributs d'implémentation

Attribut

Description

Source

mAP@[.5:.95]

AP moyenné pour seuils IoU 0.5-0.95

Métrique COCO (Lin et al., 2014)

FPS / latence

Vitesse de traitement des frames

YOLOv1: 45/155 FPS; YOLOv4: ~65 FPS

NMS vs E2E

Non-Maximum Suppression vs bout-en-bout

YOLOv10 - sans NMS

Taille du modèle

Paramètres et FLOPs

YOLOv11 - ~22% de paramètres en moins vs v8m

Références

  1. Redmon J. et al., You Only Look Once: Unified, Real-Time Object Detection, arXiv:1506.02640 v5, 2016.
  2. Bochkovskiy A., Wang C.Y., Liao H.Y.M., YOLOv4: Optimal Speed and Accuracy of Object Detection, 2020.
  3. Wang C.Y. et al., YOLOv7: Trainable Bag-of-Freebies, 2022.
  4. Ultralytics Documentation, YOLOv8 and YOLOv11 Model Zoo, 2023-2024.
  5. WongKinYiu, YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information, 2024.
  6. Wang A. et al., YOLOv10: Real-Time End-to-End Object Detection, 2024.
  7. Lin T.Y. et al., Microsoft COCO: Common Objects in Context, 2014.
  8. RGPD (UE 2016/679), Considérant 26 - Définition des données anonymes.
  9. ISO/IEC 20889:2018 - Terminologie et classification des techniques d'amélioration de la confidentialité pour la dé-identification des données.
  10. WP29 / CEPD, Opinion 05/2014 sur les techniques d'anonymisation.