Évaluation du risque de réidentification (Re-identification Risk Assessment)

Qu’est-ce que l’Évaluation du risque de réidentification ?

L’Évaluation du risque de réidentification (Re-identification Risk Assessment) est un processus structuré visant à estimer la probabilité que des personnes demeurent identifiables après l’application de techniques d’anonymisation sur des images et des enregistrements vidéo. Sur le plan juridique, le point de référence est le RGPD qui, dans son considérant 26, exige que l’anonymisation rende l’identification d’une personne impossible par des moyens raisonnablement susceptibles d’être utilisés, compte tenu de l’ensemble des moyens pouvant être mis en œuvre par le responsable du traitement ou par un tiers (UE 2016/679). Sur le plan technique, les cadres d’analyse du risque sont notamment définis par les normes ISO/IEC 20889:2018 et ISO/IEC 27559:2022, qui décrivent les classes de techniques de désidentification et les processus d’évaluation du risque dans le contexte des données, y compris les données visuelles.

Dans le contexte de l’anonymisation de photos et de vidéos, l’Évaluation du risque de réidentification consiste à vérifier empiriquement et contextuellement dans quelle mesure, après floutage des visages et des plaques d’immatriculation, la réidentification est rendue difficile à l’aide des méthodes contemporaines de reconnaissance faciale et d’OCR des plaques. Cela inclut des tests utilisant des modèles d’apprentissage profond - nécessaires à la conception des systèmes de floutage (détection des visages et des plaques) - ainsi que des tests d’attaque reposant sur des modèles de reconnaissance similaires ou plus performants.

Rôle dans l’anonymisation des photos et des vidéos

L’évaluation du risque définit les paramètres de floutage avant le déploiement, puis vérifie l’efficacité de l’anonymisation sur des échantillons de données. En pratique, cela implique de déterminer l’intensité du filtre, les marges des masques et la méthode de traitement des séquences d’images, afin que le risque de reconnaissance faciale ou de lecture des plaques reste faible dans des scénarios d’attaque réalistes. Dans de nombreux pays d’Europe occidentale, le floutage des plaques d’immatriculation est requis dans certains usages (par exemple pour les publications de type Street View). En Pologne, il n’existe pas d’obligation générale et explicite de flouter les plaques dans toutes les situations ; toutefois, les lignes directrices des autorités de protection des données (notamment le CEPD / ancien Groupe de travail « Article 29 ») soulignent la nécessité de minimiser le risque d’identification des personnes selon le contexte.

Dans l’environnement Gallio PRO, l’Évaluation du risque de réidentification se concentre sur les visages et les plaques d’immatriculation. Gallio PRO fonctionne en local (on-premise), ne réalise pas d’anonymisation en temps réel et automatise uniquement le floutage des visages et des plaques. D’autres éléments permettant l’identification, tels que des logos ou des tatouages, peuvent être masqués manuellement dans l’éditeur intégré, ce qui doit également être pris en compte dans l’analyse du risque.

Technologies et procédure d’évaluation du risque de réidentification

L’évaluation combine des outils de détection, d’anonymisation et de simulation d’attaque. En pratique, on utilise des réseaux neuronaux profonds pour détecter les visages et les plaques, des algorithmes de floutage, ainsi que des systèmes de reconnaissance indépendants pour mesurer le risque après anonymisation.

  • Détection et masquage : détecteurs de visages (par exemple basés sur des réseaux convolutionnels tels que RetinaFace) et de plaques, suivis d’un floutage gaussien ou d’une pixellisation avec des paramètres dépendant de la taille de l’objet.
  • Modèle d’attaque : reconnaissance faciale basée sur des embeddings (par exemple ArcFace) et OCR pour les plaques d’immatriculation. Ces modèles reflètent des moyens raisonnablement accessibles à un attaquant potentiel.
  • Procédure : estimation initiale de l’efficacité d’identification sur des données non anonymisées (niveau de référence), puis répétition des tests après anonymisation et mesure de la diminution de la probabilité d’identification.
  • Analyse contextuelle : prise en compte de facteurs supplémentaires tels que vêtements distinctifs, accessoires caractéristiques, métadonnées EXIF ou audio. Si nécessaire, masquage manuel d’éléments autres que le visage et la plaque.

Paramètres et métriques clés

Les métriques doivent être mesurables, reproductibles et présentées avec leur incertitude. Il est recommandé d’utiliser des intervalles de confiance à 95 % pour les mesures binomiales.

Métrique

Définition

Remarques de mesure

 

p_reid

Probabilité empirique de réidentification après anonymisation = nombre d’identifications correctes / nombre d’essais

À rapporter avec un IC à 95 % pour une loi binomiale

Recall@k

Proportion de cas où l’identité correcte figure parmi les k premiers résultats de recherche

Tests sur une galerie de référence ; comparer avant et après anonymisation

FNR_det

Taux de visages/plaques non détectés = nombre de non-détections / nombre d’objets GT

Seuil IoU par ex. 0,5 par rapport aux annotations GT

Couverture du masque

Part de la surface du visage/de la plaque couverte par le masque

IoU du masque par rapport au GT ; contrôle des marges

Intensité du floutage s

Sigma du flou gaussien ou taille du bloc de pixellisation normalisée par la distance interpupillaire ou la hauteur de la plaque

À rapporter comme fraction de la taille de l’objet

Dans la littérature (notamment pour les données de santé), on trouve des seuils de risque de réidentification acceptable de l’ordre de 0,09 dans le cadre d’expertises (El Emam et al., 2013). Le RGPD ne définit aucun seuil numérique. Pour les images et la vidéo, il est recommandé de fixer des critères d’acceptation sur la base de tests utilisant un modèle d’attaque réaliste et des données représentatives du cas d’usage.

Défis et limites

Même après un floutage efficace des visages ou des plaques, la réidentification peut rester possible via des informations contextuelles. L’analyse du risque doit intégrer des facteurs techniques et organisationnels.

  • Informations indirectes : vêtements, silhouette, lieu, moment, accessoires uniques. Dans ces cas, un masquage manuel dans Gallio PRO peut être nécessaire.
  • Erreurs de détection : occultations partielles, mouvement et flou de mouvement augmentent le FNR_det. Un contrôle qualité au niveau des séquences est requis.
  • Attaques par reconstruction : super-résolution et défloutage peuvent améliorer la qualité ; l’intensité du floutage doit donc être choisie de manière conservatrice par rapport à la taille de l’objet.
  • Métadonnées : les données EXIF et les miniatures intégrées peuvent divulguer des informations. Elles doivent être supprimées lors du processus de publication.
  • Divergences juridiques : l’absence de seuil numérique unique dans l’UE impose de documenter les hypothèses et les modèles de menace pour chaque projet.

Exemples d’applications

L’Évaluation du risque de réidentification est utilisée dans des scénarios pratiques de traitement de contenus visuels par les responsables de traitement et les sous-traitants.

  • Publication de supports pédagogiques et promotionnels d’institutions, avec floutage préalable des visages et des plaques.
  • Transmission d’enregistrements de vidéosurveillance à des entités habilitées, avec minimisation du risque de divulgation de l’identité de tiers.
  • Anonymisation de supports de recherche et de jeux de données dans des projets d’IA, avec rapport des indicateurs p_reid et FNR_det.
  • Mise en conformité avec les obligations légales dans les États membres de l’UE où le floutage des plaques peut être requis selon le contexte, avec documentation méthodologique de l’évaluation.

Références normatives et sources

Les documents et publications suivants constituent la base de la définition et de la méthodologie de l’Évaluation du risque de réidentification pour les images et la vidéo.

  • RGPD, Règlement (UE) 2016/679, considérant 26 et article 4. Texte disponible sur EUR-Lex.
  • ISO/IEC 20889:2018 Privacy enhancing data de-identification terminology and classification of techniques. ISO, 2018.
  • ISO/IEC 27559:2022 Privacy enhancing data de-identification framework. ISO, 2022.
  • Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques, 2014.
  • CNIL, Guide de l’anonymisation, 2019. https://www.cnil.fr
  • NISTIR 8053, De-Identification of Personal Information, NIST, 2015.
  • Deng J. et al., ArcFace: Additive Angular Margin Loss for Deep Face Recognition, CVPR 2019. Résultat 99,83 % sur LFW.
  • El Emam K., Arbuckle L., Anonymizing Health Data, Morgan Kaufmann, 2013. Discussion sur des seuils de risque de l’ordre de 0,09 dans les expertises.