Définition
YOLO (You Only Look Once) est une famille d'algorithmes de détection d'objets qui formule la détection comme un processus à passe unique (single-shot) - le modèle prédit les boîtes englobantes et les probabilités de classe directement depuis l'image entière en une seule évaluation, permettant un fonctionnement en temps réel.
La première version (YOLOv1) a été introduite en 2016 ; la configuration de base atteignait ~45 FPS, tandis que "Fast YOLO" atteignait ~155 FPS sur les GPU de l'époque [Redmon et al., 2016].
Les versions plus récentes (YOLOv4-YOLOv11) étendent le compromis vitesse-précision et modifient les pipelines d'entraînement et de post-traitement (par exemple, YOLOv10 introduit la détection de bout en bout sans NMS) [Bochkovskiy et al., 2020; Wang et al., 2024].
Pertinence dans l'anonymisation d'images et de vidéos
Dans les pipelines d'anonymisation, les objets sensibles (visages, plaques d'immatriculation) doivent être détectés avant d'être transformés (floutés, pixellisés, etc.). YOLO est souvent utilisé comme composant de détection en raison de :
- Faible latence - Inférence image par image en temps réel
- Scalabilité vers les dispositifs edge - Variantes de modèles légers
- Performance élevée sur le benchmark COCO - mAP@[.5:.95], la métrique standard de l'industrie
Note juridique : Une anonymisation efficace au sens du RGPD Considérant 26 doit garantir que les individus ne sont plus identifiables, compte tenu du temps, du coût et de la technologie. La précision de détection - en particulier les faux négatifs - affecte directement le risque résiduel de ré-identification.
La terminologie technique pertinente est fournie dans la norme ISO/IEC 20889:2018 (Classification des techniques de dé-identification).
Métriques fondamentales et formules
IoU (Intersection over Union)
IoU(A,B) = |A ∩ B| / |A ∪ B|
Utilisé pour évaluer le chevauchement entre les boîtes englobantes prédites et de référence (ground-truth).
AP et mAP (standard COCO)
La Précision Moyenne (Average Precision - AP) est l'aire sous la courbe précision-rappel ; le COCO AP@[.5:.95] moyenne l'AP sur les seuils IoU de 0.50 à 0.95 (pas de 0.05).
mAP = (1/C) Σ AP_c
où C est le nombre de classes.
Benchmarks de latence et FPS
Modèle | Dataset | Matériel | Débit |
|---|---|---|---|
YOLOv1 | VOC 2007 | Titan X | ~45 FPS (base), 155 FPS (Fast YOLO) |
YOLOv4 | COCO | Tesla V100 | 43.5% AP (COCO), ~65 FPS |
YOLOv10 | COCO | RTX 4090 | jusqu'à 46% de latence en moins vs YOLOv9-C à précision similaire |
Aperçu des versions
Version | Année | Auteurs / Article | Caractéristiques clés | Métriques rapportées* |
|---|---|---|---|---|
YOLOv1 | 2016 | Redmon et al. | Détecteur unifié single-shot | 45/155 FPS |
YOLOv4 | 2020 | Bochkovskiy et al. | Backbone CSP, CIoU, Mosaic | 43.5% AP (COCO), ~65 FPS |
YOLOv7 | 2022 | Wang et al. | "Trainable bag-of-freebies" | Détecteur temps réel SOTA |
YOLOv8 | 2023 | Ultralytics | Architecture simplifiée (det/seg/pose) | mAP élevé, paramètres faibles |
YOLOv9 | 2024 | WongKinYiu | Programmable Gradient Information (PGI) | Précision améliorée |
YOLOv10 | 2024 | Wang et al. | Détection de bout en bout, sans NMS | Latence réduite, efficacité accrue |
YOLOv11 | 2024 | Ultralytics | Ratio mAP/paramètres optimisé | ~22% de paramètres en moins vs v8m |
*Les valeurs dépendent de la variante (n/s/m/l/x), de la résolution et de la configuration matérielle.
Architecture et pipeline de traitement
- Backbone - Extraction de caractéristiques (par exemple, CSPNet, ELAN)
- Neck - Fusion de caractéristiques multi-échelles (FPN/PAN)
- Head - Prédit les boîtes englobantes, classes, confiance ; les versions récentes intègrent la détection sans post-NMS
- Post-traitement - Suppression Non-Maximale (NMS) traditionnelle ou sans NMS dans l'entraînement de bout en bout (YOLOv10)
Intégration dans les systèmes d'anonymisation
Objectif : Minimiser les faux négatifs (détections manquées de visages/plaques), en acceptant des faux positifs modérés (régions floutées supplémentaires).
Configuration opérationnelle recommandée
(Vidéo 1080p, 25-30 FPS, GPU T4/A10)
Paramètre | Valeur recommandée |
|---|---|
Variante du modèle | s ou m (équilibre vitesse-précision) |
Résolution d'entrée | 640-960 px sur le côté le plus long |
Seuil de confiance | 0.2-0.35 |
Seuil IoU (pour NMS) | 0.5-0.7 |
Suivi MOT | Combiner avec un tracker multi-objets pour stabilité du masque |
Validation | Mesurer Rappel@IoU=0.5 pour classes critiques (visage, plaque) ; cible opérationnelle Rappel ≥ 0.98 |
Risques et atténuations
Risque | Atténuation |
|---|---|
Occlusion ou faible luminosité | Augmenter la résolution d'entrée, appliquer des augmentations de luminosité |
Mouvement rapide / flou | Utiliser la stabilisation ou une vitesse d'obturation plus élevée |
Décalage de domaine (objets non-COCO) | Appliquer le transfer learning sur données de domaine personnalisées |
Contexte juridique / normatif
- RGPD Considérant 26 - Définit le périmètre des données anonymes
- ISO/IEC 20889:2018 - Taxonomie des méthodes de dé-identification
- WP29/CEPD 05/2014 - Lignes directrices sur les limites de l'anonymisation et le risque résiduel
Liste de contrôle pour tests d'acceptation
(Pour DPO ou équipes QA)
Métrique | Exigence | Commentaire |
|---|---|---|
Rappel (classes critiques) | ≥ 0.98 @ IoU=0.5 | Prévenir la sous-anonymisation |
Précision | Rapporter conjointement avec le Rappel | Éviter le floutage excessif |
Latence (p95) | ≤ 40 ms/frame (edge) ou 20 ms (GPU) | Seuil temps réel |
Stabilité temporelle | ≥ 95% des frames maintiennent un masque cohérent | Éviter le scintillement |
Robustesse | Tests dans scénarios nuit/pluie/reflets | Couverture de domaine |
Résumé des attributs d'implémentation
Attribut | Description | Source |
|---|---|---|
mAP@[.5:.95] | AP moyenné pour seuils IoU 0.5-0.95 | Métrique COCO (Lin et al., 2014) |
FPS / latence | Vitesse de traitement des frames | YOLOv1: 45/155 FPS; YOLOv4: ~65 FPS |
NMS vs E2E | Non-Maximum Suppression vs bout-en-bout | YOLOv10 - sans NMS |
Taille du modèle | Paramètres et FLOPs | YOLOv11 - ~22% de paramètres en moins vs v8m |
Références
- Redmon J. et al., You Only Look Once: Unified, Real-Time Object Detection, arXiv:1506.02640 v5, 2016.
- Bochkovskiy A., Wang C.Y., Liao H.Y.M., YOLOv4: Optimal Speed and Accuracy of Object Detection, 2020.
- Wang C.Y. et al., YOLOv7: Trainable Bag-of-Freebies, 2022.
- Ultralytics Documentation, YOLOv8 and YOLOv11 Model Zoo, 2023-2024.
- WongKinYiu, YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information, 2024.
- Wang A. et al., YOLOv10: Real-Time End-to-End Object Detection, 2024.
- Lin T.Y. et al., Microsoft COCO: Common Objects in Context, 2014.
- RGPD (UE 2016/679), Considérant 26 - Définition des données anonymes.
- ISO/IEC 20889:2018 - Terminologie et classification des techniques d'amélioration de la confidentialité pour la dé-identification des données.
- WP29 / CEPD, Opinion 05/2014 sur les techniques d'anonymisation.