Définition
Les réseaux de neurones (Artificial Neural Networks, ANN), appelés en français réseaux neuronaux artificiels, constituent une famille de modèles d’apprentissage automatique composée de couches d’unités de calcul interconnectées. Ces modèles transforment les données d’entrée en sorties souhaitées grâce à l’apprentissage de poids. Dans le domaine du traitement d’images et de vidéos, on utilise principalement des réseaux de neurones profonds (Deep Neural Networks, DNN), notamment les réseaux de neurones convolutifs (Convolutional Neural Networks, CNN), entraînés par l’algorithme de rétropropagation de l’erreur, le plus souvent sur des données annotées. Cette définition est conforme aux normes ISO/IEC 22989:2022, qui établit les concepts fondamentaux de l’IA et du ML, ainsi qu’à l’approche décrite dans ISO/IEC 23053:2022 concernant les cadres des systèmes d’IA utilisant l’apprentissage automatique.
Dans l’anonymisation des photos et des vidéos, les réseaux neuronaux jouent un rôle clé en tant que détecteurs et/ou segmentateurs d’objets sensibles. Un modèle ANN localise les visages et les plaques d’immatriculation, puis le système applique des opérations de post-traitement telles que le floutage, la pixellisation ou le masquage. La qualité et la sécurité du processus dépendent de l’efficacité du modèle à détecter toutes les occurrences pertinentes tout en maintenant un taux acceptable de faux positifs.
Rôle dans l’anonymisation des images et des vidéos
- Détection de visages - un détecteur CNN renvoie des boîtes englobantes ou des masques définissant la zone à flouter. Exemples d’approches : détecteurs d’objets en une seule étape et détecteurs de visages spécialisés.
- Détection des plaques d’immatriculation - les modèles de détection d’objets localisent les plaques dans des conditions d’éclairage variées et sous différents angles. La segmentation permet d’affiner la forme du masque.
- Suivi vidéo - les algorithmes d’association d’objets entre les images stabilisent les masques et réduisent le scintillement. Cette approche complète les ANN utilisées pour la détection.
- Post-traitement - après la détection, le système applique un flou d’intensité définie, une pixellisation ou un masque uniforme. Les paramètres sont choisis afin de garantir que les personnes ne puissent pas être (ou ne soient plus) identifiées, conformément au considérant 26 du RGPD.
Technologies utilisées dans les ANN pour le floutage
- Architectures de détection : YOLOv3-v4 et les variantes monophases plus récentes offrent une inférence rapide avec une bonne précision (Redmon et al., 2018 ; Bochkovskiy et al., 2020). Les modèles en deux étapes, comme Faster R-CNN, fournissent une précision élevée au prix d’une latence accrue.
- Détecteurs de visages : RetinaFace combine la détection avec l’estimation de points clés, améliorant la localisation des masques pour des poses non standard (Deng et al., 2020).
- Segmentation : U-Net et ses dérivés permettent de délimiter précisément les contours lorsque des masques de forme irrégulière sont nécessaires (Ronneberger et al., 2015).
- Formats et déploiements : PyTorch ou TensorFlow pour l’entraînement, conversion vers ONNX ou TensorRT pour des déploiements on‑premise. Optimisations : quantification INT8, élagage (pruning), fusion de couches.
- Accélération : GPU compatibles CUDA et cuDNN, ou alternativement CPU avec AVX2 et accélérateurs NPU. Les performances dépendent de la résolution d’entrée, de la taille du batch et de la complexité du réseau.
Paramètres clés et métriques des ANN en anonymisation
Paramètre | Définition | Importance pratique | Source
|
|---|---|---|---|
IoU | Intersection over Union - aire d’intersection divisée par l’aire de l’union entre la boîte détectée et la vérité terrain (ground truth). | Détermination de la correspondance entre la détection et l’objet. Seuil d’évaluation typique : 0,5. | Pascal VOC |
Précision | TP / (TP + FP) | Plus elle est élevée, moins il y a de zones floutées qui ne correspondent pas à des visages ou à des plaques. | COCO, VOC |
Rappel | TP / (TP + FN) | Critique pour la protection de la vie privée - minimise les visages manqués. | COCO, VOC |
F1 | 2 × Précision × Rappel / (Précision + Rappel) | Mesure équilibrée pour le choix du seuil de confiance. | COCO, VOC |
Précision moyenne (mAP) pour un seuil IoU = 0,5 | Métrique classique de détection d’objets selon la méthodologie VOC. | Pascal VOC | |
[email protected]:0.95 | mAP moyenne pour des IoU de 0,5 à 0,95 par pas de 0,05 | Métrique exigeante de COCO - reflète mieux la qualité globale. | COCO |
Latence | Temps d’inférence par image [ms] | Essentiel pour la fluidité du traitement vidéo (y compris en mode batch). | NIST AI RMF 2023 |
Débit | Images par seconde [fps] | Planification des ressources de calcul on‑premise. | NIST AI RMF 2023 |
Seuil de confiance | Niveau minimal de confiance du modèle pour signaler une détection | Seuil plus élevé : moins de faux positifs, mais risque de baisse du rappel. | COCO |
NMS IoU | Seuil IoU pour la suppression non maximale | Contrôle de la fusion des boîtes dupliquées. | COCO |
Sources des métriques : Pascal VOC (Everingham et al., 2010), COCO (Lin et al., 2014). Le NIST AI RMF 1.0 (2023) recommande la sélection et le suivi de métriques liées notamment aux performances et aux risques tout au long du cycle de vie des systèmes d’IA.
Défis et limites
- Changement de domaine - baisse de performance en dehors de la distribution des données d’entraînement (autres caméras, éclairage ou conditions météorologiques).
- Occlusions et flou de mouvement - détections plus difficiles, y compris les profils et les visages partiellement visibles.
- Biais des données - une représentation insuffisante de certains groupes peut entraîner des écarts de rappel. Des tests d’équité sont nécessaires.
- Adversarialité - motifs ou reflets atypiques susceptibles de perturber la détection.
- Exigences légales - les modèles traitent des données à caractère personnel en entrée. Des bases légales et le principe de minimisation, conformément au RGPD, sont requis.
Exemples d’applications dans Gallio PRO
- Floutage automatique des visages et des plaques d’immatriculation sur les photos et vidéos à l’aide de détecteurs CNN. Le logiciel ne floute pas les silhouettes complètes.
- Absence de traitement en temps réel - traitement par lots de fichiers plutôt que de flux.
- Mode manuel dans l’éditeur pour d’autres éléments (logos, tatouages, documents, écrans) sans détection automatique de ces classes.
- Déploiement on‑premise - contrôle total des flux de données au sein de l’organisation et aucune transmission vers le cloud. Le système ne conserve pas de journaux contenant des données de détection de visages ou de plaques.
Références normatives et sources
- ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. ISO, 2022.
- ISO/IEC 23053:2022 - Framework for AI systems using machine learning. ISO, 2022.
- Règlement (UE) 2016/679 (RGPD) - considérant 26 et article 4, paragraphe 1. Journal officiel de l’UE, 2016.
- EDPB, Guidelines 3/2019 on processing of personal data through video devices, version 2.0, 29/01/2020.
- Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016.
- Everingham et al., The Pascal Visual Object Classes challenge, IJCV, 2010.
- Lin et al., Microsoft COCO, ECCV 2014.
- Redmon, Farhadi, YOLOv3, arXiv:1804.02767, 2018. Bochkovskiy et al., YOLOv4, arXiv:2004.10934, 2020.
- Deng et al., RetinaFace, arXiv:1905.00641, 2020.
- Ronneberger et al., U‑Net, MICCAI 2015.
- NIST, AI Risk Management Framework 1.0, 2023.