Qu’est-ce que la génération de données synthétiques (SDG) ?

Génération de données synthétiques (SDG) - définition

La génération de données synthétiques (Synthetic Data Generation, SDG) est un processus contrôlé de création de données artificielles qui conservent les propriétés statistiques ou structurelles essentielles des données sources, sans en être des copies directes. D’un point de vue normatif, les données synthétiques sont des données générées artificiellement, et non collectées directement à partir de l’observation de phénomènes ou de personnes (ISO/IEC 22989:2022). La SDG peut concerner des images, des vidéos, des enregistrements audio ainsi que des données tabulaires.

Dans le contexte de l’anonymisation des images et des vidéos, la SDG poursuit principalement deux objectifs. Premièrement, la création de jeux de données d’entraînement et de validation pour les modèles de détection et de floutage des visages et des plaques d’immatriculation. Deuxièmement, le remplacement de fragments d’image par des textures ou des visages synthétiques présentant une faible (idéalement quasi nulle) similarité biométrique, ce qui réduit le risque de réidentification. La simple production de données synthétiques ne signifie pas pour autant qu’elles soient anonymes au sens du RGPD. Pour qu’un jeu de données soit considéré comme anonyme, l’identification d’une personne doit être pratiquement impossible par des moyens raisonnables, conformément au considérant 26 du RGPD et à l’avis WP29 05/2014.

Le rôle de la SDG dans l’anonymisation des images et des vidéos

En pratique, la SDG constitue un maillon de la chaîne de traitement qui comprend la détection, la segmentation et le masquage des éléments nécessitant une protection. En créant des visages et des plaques synthétiques, les équipes peuvent entraîner et tester des détecteurs dans le respect du principe de minimisation des données, sans diffusion à grande échelle de données réelles. Cet aspect est particulièrement important dans les déploiements on‑premise et les environnements soumis à des exigences élevées en matière de sécurité des données.

La SDG contribue également à accroître la diversité des conditions d’imagerie : éclairage, angles de vue, occultations, types de plaques d’immatriculation et artefacts associés. Les modèles de floutage des visages et des plaques gagnent ainsi en sensibilité dans des scènes encombrées, avec flou de mouvement ou faible résolution. Du point de vue du DPO, la SDG est un outil de soutien à la conformité : elle améliore l’efficacité des techniques d’anonymisation, sans se substituer pour autant à l’analyse des risques ni aux tests de résistance à la réidentification.

Technologies de SDG utilisées pour l’anonymisation

La génération d’images et de séquences vidéo synthétiques repose sur des modèles génératifs spécialisés. Dans les flux de travail liés à l’anonymisation, les modèles de détection et de vérification d’identité jouent également un rôle clé pour évaluer le risque de divulgation dans les résultats synthétiques.

  • Modèles génératifs : modèles de diffusion d’images, GAN, VAE - utilisés pour créer des visages, des plaques d’immatriculation et des textures d’arrière‑plan (Heusel et al., 2017 ; travaux sur la diffusion depuis 2020+).
  • Modèles de détection : YOLO, RetinaFace, EfficientDet - pour localiser les visages et les plaques dans les contenus sources et dans les données synthétiques destinées à l’apprentissage.
  • Modèles de vérification biométrique : par exemple ArcFace - pour mesurer la similarité entre un visage synthétique et un visage réel et surveiller le risque d’une ressemblance excessive.
  • Protection de la vie privée dans l’apprentissage : DP‑SGD et techniques de limitation de la mémorisation des exemples afin de réduire le risque de reconstruction des données d’entraînement par le générateur (Abadi et al., 2016 ; Carlini et al., 2023).

Paramètres et métriques clés de la SDG pour l’anonymisation

L’évaluation de l’efficacité de la génération de données synthétiques doit trouver un équilibre entre l’utilité pour les modèles de floutage et le risque pour la vie privée. Le tableau ci‑dessous présente les métriques couramment utilisées en imagerie et en anonymisation, avec leur interprétation et leurs références.

Catégorie

Métrique

Description

Interprétation

 

Utilité pour la détection

mAP@IoU

Précision moyenne pour un seuil IoU donné, mesurée sur un modèle de détection entraîné avec des données synthétiques

Plus la valeur est élevée, mieux c’est : indique si la SDG améliore la détection des visages et des plaques

Qualité générative

FID

Fréchet Inception Distance - proximité des distributions de caractéristiques entre le jeu de données réel et le jeu synthétique

Plus faible est préférable : un FID bas indique une plus grande fidélité (Heusel et al., 2017)

Diversité

Precision‑Recall pour modèles génératifs

Métrique équilibrant la précision et la couverture des modes de données

Précision et rappel élevés : absence de modes artificiels et de collapse (Kynkäänniemi et al., 2019)

Risque de mémorisation

AUC d’inférence d’appartenance

Capacité d’une attaque à déterminer si un échantillon faisait partie de l’entraînement du générateur

AUC faible, proche de 0,5 : risque de fuite réduit (littérature MIA ; outils NIST pour données synthétiques)

Risque biométrique

Taux de correspondance

Pourcentage de correspondances entre visages synthétiques et réels selon un classificateur biométrique

Taux faible : les données synthétiques ne ressemblent pas à des personnes spécifiques

Qualité du masquage

SSIM / PSNR dans la zone masquée

Cohérence structurelle et niveau de bruit par rapport à l’effet de rédaction souhaité

Conforme à la politique : absence d’artefacts facilitant l’identification

Performance

Temps de génération, nombre d’étapes

Latence et complexité de calcul, par exemple le nombre d’étapes dans un modèle de diffusion

Adapté au traitement batch on‑premise : pas d’exigence de temps réel

Défis et limites de la SDG

Les déploiements de la génération de données synthétiques dans la protection de la vie privée nécessitent la prise en compte de risques techniques et juridiques. Voici les principaux enjeux pour les DPO et les équipes techniques.

  • Absence d’anonymat automatique : les données synthétiques peuvent divulguer des informations si le modèle mémorise des échantillons d’entraînement ou reproduit des combinaisons rares de caractéristiques. La littérature documente l’extraction de fragments de données à partir de modèles génératifs sans protections adéquates (Carlini et al., 2023).
  • Écarts de domaine : des données synthétiques trop « propres » peuvent réduire l’efficacité des détecteurs en conditions réelles. Une domain randomization et une validation sur données réelles sont nécessaires, dans le respect de la minimisation des données et du RGPD.
  • Gestion des risques : des pratiques de gestion des risques liés à l’IA sont requises, conformément à la norme ISO/IEC 23894:2023, ainsi que la documentation des décisions et des données de référence.
  • Conformité et transparence : dans les contenus publics, il convient d’éviter des données synthétiques susceptibles d’induire en erreur quant à l’authenticité. Pour les processus internes d’anonymisation, les tests de résistance à la réidentification et au re‑profilage sont essentiels.

Exemples d’usages de la SDG pour le floutage des visages et des plaques

Dans des solutions de type Gallio PRO, déployées on‑premise et réalisant le floutage automatique des visages et des plaques d’immatriculation en mode batch, la génération de données synthétiques soutient plusieurs étapes du cycle de vie des modèles. Les cas d’usage mentionnés concernent les images et les vidéos, et non les documents textuels.

  • Augmentation des jeux de données pour l’entraînement des détecteurs de visages et de plaques : scènes synthétiques encombrées, différents pays et formats de plaques, variations d’éclairage.
  • Validation de l’efficacité de la rédaction : génération de cas de test complexes avec occultation partielle du visage et flou de mouvement.
  • Substitution synthétique d’identité : création de visages à faible (idéalement quasi nulle) correspondance biométrique et remplissage de la zone masquée au lieu d’un simple flou, afin de limiter le risque de réversibilité.
  • Soutien à la conformité : dans certaines juridictions, le floutage des plaques est obligatoire ou recommandé, et la SDG améliore la détectabilité de formats rares. En Pologne, le statut des plaques comme données personnelles dépend du contexte ; une approche prudente et fondée sur le risque est donc recommandée, en s’appuyant sur les positions et lignes directrices de l’EDPB et de l’UODO.
  • Opérations manuelles : pour les logos, tatouages, plaques nominatives ou écrans non détectés automatiquement, la SDG peut fournir des modèles de formation pour les opérateurs et des scénarios de test pour l’éditeur manuel intégré.

Références normatives et sources

Vous trouverez ci‑dessous une liste de normes et de sources techniques utilisées pour les définitions et métriques de la SDG. Les dates et numéros d’édition permettent leur vérification.

  • ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. Définition des données synthétiques.
  • ISO/IEC 23894:2023 - Artificial intelligence - Risk management. Cadre de gestion des risques liés à l’IA.
  • ISO/IEC 27559:2022 - Privacy enhancing data de‑identification framework. Cadre de désidentification et d’évaluation des risques pour la vie privée.
  • RGPD - considérant 26 et article 4. Définitions des données personnelles et critères d’anonymat.
  • EDPB, Guidelines 3/2019 on processing of personal data through video devices, version finale 2020. Lignes directrices pour la vidéo et la vidéosurveillance.
  • Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques. Critères clés d’évaluation de l’anonymat.
  • NIST AI RMF 1.0, janvier 2023. Cadre de gestion des risques de l’IA, incluant les données et les tests.
  • NIST SDNist toolkit, 2023‑2024. Outils d’évaluation de la confidentialité et de l’utilité des données synthétiques.
  • Heusel et al., 2017, GANs Trained by a Two Time‑Scale Update Rule - FID. Métrique de qualité générative.
  • Kynkäänniemi et al., 2019, Improved Precision and Recall Metric for Assessing Generative Models. Métriques precision‑recall pour modèles génératifs.
  • Abadi et al., 2016, Deep Learning with Differential Privacy. DP‑SGD comme mécanisme de protection contre la mémorisation.
  • Carlini et al., 2023, Extracting Training Data from Diffusion Models. Risques de fuite de données depuis les modèles de diffusion.