Qu’est-ce que l’Artificial Intelligence in anonymization ?

Artificial Intelligence in anonymization - définition

Artificial Intelligence in anonymization (intelligence artificielle pour l’anonymisation) désigne l’application de méthodes d’IA à la détection et à l’occultation des identifiants personnels dans les images et les enregistrements vidéo, en particulier les visages humains et les plaques d’immatriculation. L’objectif est de minimiser le risque d’identification d’une personne physique conformément à la définition de l’anonymisation issue du RGPD. Selon le considérant 26 du RGPD (citation) : « les informations ne concernant pas une personne physique identifiée ou identifiable ou les données à caractère personnel rendues anonymes de telle manière que la personne concernée n’est pas ou n’est plus identifiable » ne constituent pas des données à caractère personnel (Règlement (UE) 2016/679).

Dans le contexte des photos et des vidéos, l’IA correspond en pratique à une chaîne de traitement : détection des objets sensibles, suivi temporel, contrôle qualité, application d’un masque (p. ex. flou gaussien, pixellisation), puis export du média résultant. Les méthodes d’apprentissage profond sont couramment utilisées pour entraîner des modèles capables de détecter visages et plaques d’immatriculation dans des conditions variées, ce qui favorise une anonymisation visuelle fiable.

Rôle de l’IA dans l’anonymisation d’images et de vidéos

L’IA permet un masquage automatique, reproductible et évolutif des zones sensibles tout en préservant au maximum l’intégrité de l’arrière-plan. Cela est particulièrement crucial pour des contenus de plusieurs heures, où un traitement manuel serait disproportionné en coûts et sujet aux erreurs.

  • Détection : le modèle classe et localise les visages et plaques d’immatriculation dans chaque image.
  • Suivi : les algorithmes de suivi multi-objets (MOT) assurent la cohérence entre les images successives, stabilisent les masques et réduisent l’effet de scintillement.
  • Masquage : application d’opérateurs rendant la reconstitution du contenu difficile dans les cas d’usage typiques (p. ex. flou gaussien avec sigma élevé ou pixellisation à grande taille de bloc).
  • Export : enregistrement dans des codecs avec ou sans perte, en préservant l’intégrité des zones masquées.

Contexte Gallio PRO : le système floute automatiquement uniquement les visages et les plaques d’immatriculation. Il n’anonymise pas les silhouettes complètes, ne fonctionne pas en temps réel et ne conserve pas de journaux de détection contenant des données personnelles ou sensibles. D’autres éléments (logos, tatouages, badges nominatifs, documents, écrans) peuvent être masqués manuellement dans l’éditeur.

Technologies d’IA utilisées pour l’anonymisation

La couche de base repose sur des détecteurs d’objets convolutionnels et « single-shot » entraînés sur de vastes jeux de données, ainsi que sur des algorithmes de suivi performants. Le choix de l’architecture dépend du compromis entre sensibilité, taux de faux positifs et débit de traitement.

  • Détection de visages : RetinaFace (Deng et al., 2020), avec régression des points caractéristiques, facilite un masquage stable en cas d’inclinaison ou d’occlusion partielle. Les performances sont notamment évaluées sur le jeu de données WIDER FACE (Yang et al., 2016).
  • Détection de plaques : modèles YOLOv5/YOLOv8 (Ultralytics, 2020-) ou EfficientDet, entraînés sur des ensembles spécialisés (p. ex. CCPD, 2018), permettant la détection de petits objets sous éclairage variable.
  • Suivi d’objets : DeepSORT (Wojke et al., 2017) et ByteTrack (Zhang et al., 2022) améliorent la continuité du masquage dans des scènes dynamiques.
  • Déploiement : implémentations on-premise avec ONNX Runtime ou NVIDIA TensorRT, facilitant le respect des principes de minimisation des données et de limitation des finalités (art. 5 RGPD) grâce au traitement local.

Le choix des paramètres (p. ex. sigma du flou gaussien, taille du bloc de pixellisation, marge autour de la zone détectée) doit tenir compte du risque de réidentification dans le scénario d’usage concerné, conformément aux recommandations de la norme ISO/IEC 20889:2018 relatives à la classification des techniques de désidentification.

Paramètres clés et métriques dans l’anonymisation basée sur l’IA

L’évaluation de la qualité doit combiner des métriques de détection et des métriques liées à l’efficacité du masquage. Les principales mesures et leur portée opérationnelle sont présentées ci-dessous.

Métrique

Définition / remarques

Unité

 

Precision (P)

P = TP / (TP + FP) - proportion de détections correctes ; limite le masquage de zones non pertinentes

0-1

Recall (R)

R = TP / (TP + FN) - proportion d’objets détectés ; un recall élevé réduit le risque de divulgation d’identité

0-1

F1

F1 = 2PR / (P + R) - compromis entre précision et rappel

0-1

IoU

IoU = |B∩B̂| / |B∪B̂| - recouvrement entre la vérité terrain et la détection ; influence le mAP

0-1

mAP@[τ]

Précision moyenne pour un seuil IoU τ (p. ex. 0,5 ou 0,5:0,95) - standard en détection d’objets

0-1

Latence

Temps de traitement d’une image (détection et masquage inclus)

ms/image

Débit (Throughput)

Nombre d’images par seconde pour un matériel et une résolution donnés

fps

FPH / FN

Faux positifs par heure et nombre d’objets manqués - importants pour l’audit des risques

nombre

Couverture

Pourcentage de la surface du visage/de la plaque couvert par le masque après stabilisation

%

Pour la conformité, un recall élevé et une marge de masque suffisante au-delà des contours sont essentiels afin de limiter le risque de réidentification via des détails périphériques ou des artefacts de compression.

Défis et limites

L’efficacité de l’IA dans l’anonymisation dépend des conditions de la scène et de l’écart entre les données réelles et celles du jeu d’entraînement. Les principaux risques techniques et réglementaires sont les suivants :

  • Conditions d’image : mouvements rapides, flou de mouvement, faible contraste ou occlusions réduisent le recall, notamment pour les petites plaques.
  • Variabilité des domaines : plaques aux polices ou formats atypiques, masques faciaux, lunettes, angles extrêmes - nécessitent adaptation ou entraînement spécifique.
  • Stabilité du masque : l’absence de suivi entraîne un scintillement ; les algorithmes MOT et le lissage de trajectoire apportent une solution.
  • Aspects juridiques : selon l’EDPB (Lignes directrices 3/2019), l’image d’une personne peut constituer une donnée personnelle, et une plaque d’immatriculation peut également en constituer selon le contexte et les possibilités d’identification. Avant toute publication ou diffusion, il convient d’évaluer le risque et la base légale ; en pratique, le floutage des visages et des plaques est fréquemment appliqué.

Le choix des techniques et des seuils opérationnels doit découler d’une analyse de risques et de politiques de traitement transparentes, en référence aux normes ISO/IEC 27001:2022 (management de la sécurité de l’information) et ISO/IEC 20889:2018 (classification de la désidentification).

Références normatives et sources

La bibliographie ci-dessous comprend des actes juridiques, normes et publications techniques permettant de vérifier les définitions et pratiques décrites.

  • RGPD : Règlement (UE) 2016/679, considérant 26 et art. 4 - EUR-Lex, 2016.
  • EDPB : Lignes directrices 3/2019 sur le traitement des données personnelles par des dispositifs vidéo, version 2.0, 2020.
  • WP29/EDPB : Opinion 05/2014 on Anonymisation Techniques (WP216), 2014.
  • ISO/IEC 20889:2018 - Privacy enhancing data de-identification - Terminology and classification, ISO, 2018.
  • ISO/IEC 27001:2022 - Information security, cybersecurity and privacy protection - ISMS requirements, ISO, 2022.
  • ENISA : Recommendations on shaping technology according to GDPR provisions, 2019.
  • RetinaFace : Jiankang Deng et al., « RetinaFace: Single-shot Multi-Level Face Localisation in the Wild », CVPR Workshops, 2020.
  • WIDER FACE : Shuo Yang et al., « WIDER FACE: A Face Detection Benchmark », CVPR, 2016.
  • YOLOv5/YOLOv8 : Ultralytics Documentation and Model Cards, 2020-2023.
  • CCPD : X. Xu et al., « Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline », ECCV Workshops, 2018.
  • DeepSORT : N. Wojke, A. Bewley, D. Paulus, « Simple Online and Realtime Tracking with a Deep Association Metric », ICIP, 2017.
  • ByteTrack : Y. Zhang et al., « ByteTrack: Multi-Object Tracking by Associating Every Detection Box », ECCV, 2022.