Entraînement de modèles d’IA avec des jeux de données photo et vidéo : workflow d’anonymisation et de floutage des visages

Mateusz Zimoch
Publié: 02/12/2025
Mis à jour: 10/03/2026

L’anonymisation des données visuelles consiste à transformer des photos et des vidéos afin que les personnes physiques ne soient plus identifiables. En pratique, cela implique souvent le floutage des visages et le floutage des plaques d’immatriculation, combinés à la suppression des métadonnées et à des mesures de prévention contre la ré‑identification. Pour l’entraînement de modèles d’IA avec des jeux de données photo et vidéo, l’anonymisation permet d’exploiter des ensembles de données riches tout en réduisant les risques liés aux données personnelles et en soutenant les principes de protection des données dès la conception et par défaut.

Photo en noir et blanc montrant un téléphone avec une application de chat IA ouverte sur l'écran en arrière-plan

Contexte réglementaire pour l’entraînement de modèles à partir de photos et de vidéos

Au titre du RGPD et du RGPD britannique (UK GDPR), une photo ou une vidéo constitue une donnée personnelle dès lors qu’une personne peut être identifiée directement ou indirectement, y compris par la combinaison d’éléments tels que le lieu, les vêtements ou des objets distinctifs [1][2]. Lorsque des individus sont identifiables, l’entraînement de modèles nécessite une base légale et doit respecter les principes de limitation des finalités, de minimisation des données et de limitation de la conservation [1]. Les données anonymisées ne sortent du champ d’application du RGPD que si l’identification d’une personne n’est plus possible par des moyens raisonnablement susceptibles d’être utilisés, compte tenu des technologies et des coûts disponibles (considérant 26) [1].

L’AI Act européen introduit une gouvernance couvrant l’ensemble du cycle de vie des systèmes d’IA. Il prévoit des exigences en matière de gestion des risques, de gouvernance des données et de documentation technique pour certains systèmes d’IA, et s’articule avec le droit européen existant en matière de protection des données sans le remplacer. L’anonymisation et la censure robuste (redaction) peuvent soutenir la minimisation des données et réduire des risques tels que la mémorisation involontaire ou l’inversion de modèles, mais elles ne rendent pas automatiquement un cas d’usage conforme si des personnes restent identifiables [5].

Les autorités de contrôle soulignent des considérations particulières pour les images issues de la vidéosurveillance ou des espaces publics, notamment lorsqu’elles sont utilisées au‑delà des finalités de sécurité, à des fins d’analytique ou de publication [2][3]. Les organisations réalisent souvent une analyse d’impact relative à la protection des données (AIPD/DPIA) avant toute surveillance à grande échelle ou systématique de zones accessibles au public, ou lorsque de nouvelles technologies sont susceptibles d’accroître les risques [1][3].

Photo en noir et blanc montrant un téléphone avec une application de chat IA ouverte, un doigt touchant l'écran, sur fond de l'écran avec la même application

Quand l’anonymisation et le consentement peuvent être inutiles

Bien que de nombreux scénarios de publication et d’entraînement exigent une base légale ou une anonymisation, trois exceptions bien connues sont souvent citées en pratique en matière de droit à l’image. Elles dépendent fortement du contexte et varient selon les juridictions. Ces trois exceptions sont :

  • La personne est largement connue (personnalité publique) et l’image a été prise dans le cadre de son rôle public.
  • La personne n’apparaît qu’en tant qu’élément accessoire d’une scène plus large, comme une réunion, un paysage ou un événement public.
  • La personne a été rémunérée pour poser, sauf si elle a explicitement indiqué qu’elle ne consentait pas à la diffusion de son image.

Ces exceptions ne suppriment pas les obligations en matière de protection des données lorsque les personnes restent identifiables. Elles sont souvent examinées parallèlement aux tests d’intérêts légitimes, aux exemptions liées à la liberté d’expression et aux droits à l’image locaux. Pour l’entraînement de modèles d’IA, s’appuyer sur ces exceptions est moins prévisible que l’anonymisation, car l’entraînement constitue fréquemment une réutilisation allant au‑delà du contexte initial de la capture.

Ordinateur portable posé sur une table blanche affichant une forme géométrique en fil de fer 3D sur son écran dans un décor minimaliste gris.

Points de risque courants dans l’anonymisation des données visuelles

Risque de ré‑identification. Même lorsque les visages sont floutés, une combinaison de vêtements distinctifs, de tatouages, de repères géographiques ou d’horodatages peut rendre une personne identifiable. Les organisations considèrent souvent le floutage comme une couche parmi d’autres au sein d’une stratégie plus large, pouvant inclure le recadrage, le masquage ou la suppression de l’arrière‑plan pour les scènes à haut risque, conformément au critère des moyens raisonnables du considérant 26 [1].

Identifiants en arrière‑plan. Tableaux blancs, écrans, documents visibles dans le champ ou signalétique de bâtiments peuvent révéler des noms, des adresses e‑mail ou des adresses postales. Les plaques d’immatriculation en arrière‑plan sont faciles à manquer sans détection multi‑échelle.

Métadonnées. Les données EXIF peuvent inclure des coordonnées GPS, des identifiants d’appareil et des dates de capture. La suppression ou la minimisation des métadonnées avant le partage ou la publication peut réduire significativement le risque de recoupement [2].

Erreurs de détection. Les détecteurs de visages et de plaques génèrent des faux négatifs et des faux positifs. Les détections manquées exposent des identités, tandis que le sur‑floutage peut dégrader l’utilité des jeux de données. La précision dépend fortement du contexte et varie selon l’éclairage, l’angle, l’occlusion et le type de caméra. Une revue humaine dans la boucle (human‑in‑the‑loop) reste une pratique courante pour les publications sensibles.

Graphique en noir et blanc représentant un petit robot tenant deux carrés avec le logo des montagnes et une bulle avec l’inscription « prompt...GENERATE »

Un workflow pratique pour le floutage des visages et des plaques d’immatriculation

  1. Définir la finalité. Précisez si les images seront publiées, utilisées pour des analyses internes ou intégrées à l’entraînement de modèles d’IA. L’usage détermine le niveau d’anonymisation et les durées de conservation.
  2. Sélectionner la base légale et les contrôles de risque. Lorsque des personnes sont identifiables, les organisations évaluent une base légale appropriée (par exemple l’intérêt légitime lorsque pertinent, ou le consentement dans certains contextes) et déterminent si une AIPD est requise [1][3]. En cas de doute, privilégiez une anonymisation conforme au critère du considérant 26.
  3. Ingestion et classification des contenus. Séparez photos et vidéos par scénario, type de caméra et sensibilité du lieu. Suivez la provenance et les droits, y compris les autorisations de modèles (model releases) pour les poses rémunérées lorsqu’elles existent.
  4. Choisir un logiciel on‑premise (le cas échéant). Les solutions on‑premise permettent de conserver les jeux de données au sein du réseau de l’organisation et de réduire les risques liés aux transferts externes. Elles peuvent prendre en charge le chiffrement au repos, les accès basés sur l’identité et les journaux d’audit, en ligne avec le principe de responsabilité et la protection des données dès la conception [1].
  5. Configurer les détecteurs et les seuils. Utilisez des modèles pour les visages et les plaques d’immatriculation. Ajustez la taille minimale des visages, les seuils de confiance et la pré‑détection basée sur le mouvement pour la vidéo. Pour les scènes denses, activez la détection multi‑échelle et la résolution des masques chevauchants.
  6. Automatiser la censure. Appliquez le floutage des visages et des plaques d’immatriculation. Pour les contextes à haut risque, ajoutez le masquage du corps entier ou de l’arrière‑plan. Utilisez des noyaux cohérents, des niveaux de pixellisation ou un flou gaussien empêchant toute ré‑identification pratique par des moyens raisonnablement susceptibles d’être utilisés.
  7. Revue humaine dans la boucle. Échantillonnez des images, recherchez les détections manquées et corrigez‑les à l’aide d’outils d’annotation. Créez des guides (playbooks) pour les cas limites récurrents : reflets, affiches avec visages, écrans montrant des personnes en visioconférence, casques réfléchissants.
  8. Supprimer les métadonnées et préparer les livrables. Retirez les données EXIF et les identifiants d’appareil. Exportez les copies destinées à la publication uniquement à la résolution nécessaire. Pour les jeux de données d’entraînement, conservez une correspondance entre originaux et versions anonymisées uniquement si nécessaire, stockée séparément et avec des accès restreints (par exemple via des contrôles d’accès par rôle). Évitez autant que possible toute traçabilité directe.
  9. Tester le risque de ré‑identification. Tentez des recoupements à l’aide d’indices contextuels et de la recherche inversée d’images lorsque pertinent. Documentez le risque résiduel et les actions d’amélioration. Répétez les tests sur des scènes et des appareils variés.
  10. Journaliser, conserver et supprimer. Conservez les journaux de traitement et les manifestes de censure au strict minimum nécessaire à la responsabilité. Définissez les durées de conservation selon la finalité. Supprimez les originaux non essentiels ou transférez‑les dans une archive scellée avec des politiques d’accès strictes.

Considérations sur les logiciels on‑premise

Les logiciels on‑premise peuvent réduire les transferts de données personnelles vers des sous‑traitants externes et aider à gérer l’exposition aux accès depuis des pays tiers selon l’architecture et les fournisseurs de l’organisation. Ils facilitent également l’auditabilité, soutenant la responsabilité au sens du RGPD et s’alignant sur les attentes de gouvernance du cycle de vie prévues par l’AI Act pour les systèmes concernés [1][5]. Découvrez Gallio PRO pour des options de traitement on‑premise adaptées à ce workflow.

Illustration numérique d'une interface IA texte-image, comprenant une invite de saisie, un bouton de génération et des icônes IA et cerveau reliées graphiquement.

RGPD vs UK GDPR pour la publication de photos et de vidéos

Le tableau ci‑dessous met en évidence des points de pratique courants. Il ne remplace pas une analyse juridique et doit être lu comme une orientation de haut niveau, dépendante du contexte, fondée sur des sources publiques.

Thème

RGPD (UE)

UK GDPR + Data Protection Act 2018

 

Images en tant que données personnelles

Les photos et vidéos sont des données personnelles si une personne est identifiable, directement ou indirectement [1].

Même approche. Les orientations de l’ICO fournissent des exemples pratiques pour les photos et la vidéosurveillance [2][3].

Base légale pour la publication

Souvent l’intérêt légitime pour certaines publications opérationnelles, sous réserve d’un test de mise en balance et du contexte. Le consentement est fréquemment utilisé dans des scénarios tels que les portraits marketing en gros plan. Dépend du contexte.

Idem. L’ICO insiste sur la transparence, les attentes raisonnables et le droit d’opposition lorsque pertinent [2].

Signaux déclencheurs d’AIPD

La surveillance systématique à grande échelle de zones accessibles au public ou l’usage de nouvelles technologies augmentant les risques constitue un déclencheur courant d’AIPD [1].

Les orientations de l’ICO indiquent que la surveillance systématique et l’utilisation de nouvelles technologies sont susceptibles d’exiger une AIPD selon l’ampleur et le risque [3].

Standard d’anonymisation

Données anonymisées si l’identification n’est plus raisonnablement probable compte tenu des moyens et des coûts (considérant 26) [1].

Même standard dans le UK GDPR. Les orientations de l’ICO abordent l’anonymisation robuste et la gestion du risque résiduel [2].

Dérogations liées à la liberté d’expression

Les règles des États membres s’appliquent pour les finalités journalistiques et académiques/artistiques/littéraires. Très contextuel.

La DPA 2018 prévoit des exemptions, notamment pour le journalisme et pour la recherche/statistique sous certaines conditions. Très contextuel [4].

Les équipes prévoyant des publications régulières ou le partage de jeux de données peuvent opérationnaliser ces points via des modèles d’AIPD, des profils de censure et des procédures de diffusion. Télécharger une démo pour tester ce fonctionnement dans un environnement on‑premise.

Photo en noir et blanc montrant un écran avec le texte et le logo « OpenAI »

Assurance qualité pour les jeux de données anonymisés

L’assurance qualité doit se concentrer sur des indicateurs mesurables de couverture et de taux d’erreur. Créez des échantillons de référence (ground truth) avec des annotations manuelles. Comparez le floutage automatisé des visages et des plaques d’immatriculation au ground truth afin d’estimer les faux négatifs et les faux positifs. Suivez les performances par scénario, par exemple images de nuit, casques, masques et caméras fisheye. Présentez les résultats sous forme de métriques dépendantes du contexte plutôt que de revendications d’exactitude universelles. Pour la publication, appliquez des seuils plus stricts et des contrôles manuels. Pour l’entraînement de modèles, équilibrez la force de l’anonymisation et l’utilité en supprimant les attributs à haut risque tout en conservant les caractéristiques non identifiantes pertinentes pour la tâche du modèle.

Les organisations souhaitant opérationnaliser ce workflow peuvent l’aligner avec leurs politiques internes et la diligence raisonnable vis‑à‑vis des fournisseurs. Contactez‑nous pour discuter des contrôles de traitement on‑premise, des accès par rôle et de la journalisation d’audit.

Un point d'interrogation blanc peint à la bombe sur la route asphaltée

FAQ : entraînement de modèles d’IA avec des jeux de données photo et vidéo

Le floutage des visages suffit‑il à rendre un jeu de données anonyme au regard du RGPD ?

Pas toujours. Si une personne reste identifiable par des moyens raisonnablement susceptibles d’être utilisés, tels que des vêtements distinctifs ou des indices de localisation, le jeu de données contient toujours des données personnelles. Une combinaison de floutage des visages, de floutage des plaques d’immatriculation, de censure de l’arrière‑plan et de suppression des métadonnées peut être nécessaire selon le contexte et le risque [1][2].

Quand faut‑il appliquer le floutage des plaques d’immatriculation ?

Chaque fois que des véhicules apparaissent d’une manière susceptible d’identifier un conducteur, un propriétaire ou d’être reliée à une personne (par exemple lorsque les plaques sont lisibles et connectables à un individu dans le contexte). C’est courant dans les scènes de rue, les parkings et les entrées de bâtiments. Pour l’entraînement de modèles, activez la détection des plaques à plusieurs échelles afin de gérer les véhicules éloignés.

Le traitement dans le cloud est‑il acceptable pour le floutage ?

Cela dépend du risque, de l’architecture et des contrats. Les logiciels on‑premise peuvent réduire les transferts externes et offrir un contrôle renforcé des accès et de la conservation. Si le cloud est utilisé, mettez en œuvre des mesures de sécurité appropriées et assurez‑vous d’un accord responsable/sous‑traitant conforme, y compris pour les exigences relatives aux transferts internationaux au titre du RGPD/UK GDPR.

Comment les organisations doivent‑elles gérer les métadonnées ?

Supprimez les coordonnées GPS et les identifiants d’appareil des copies destinées à la publication. À des fins de conformité interne, ne conservez que les journaux techniques strictement nécessaires à la responsabilité et au dépannage, et évitez de stocker des métadonnées inutiles permettant la ré‑identification. Les orientations de l’ICO abordent la gestion prudente des images et des informations associées [2].

Quel niveau de flou est suffisant ?

Il n’existe pas de niveau universel. Choisissez une pixellisation ou un flou gaussien empêchant toute identification pratique et résistant aux techniques d’amélioration raisonnablement susceptibles d’être utilisées. Testez selon l’éclairage, les angles et le mouvement. Le niveau requis est généralement plus élevé pour une diffusion publique que pour des analyses internes.

Quel est l’impact de l’AI Act européen sur les jeux de données visuels ?

Il renforce les attentes de gouvernance du cycle de vie (pour les systèmes concernés), notamment en matière de gestion des risques et de gouvernance des données, et s’applique parallèlement au droit existant de la protection des données. L’anonymisation et la minimisation peuvent réduire les risques liés aux données personnelles, mais n’éliminent pas les obligations du RGPD si des personnes restent identifiables [5].

Les trois exceptions sont‑elles sûres pour l’entraînement de l’IA ?

Elles sont dépendantes du contexte et concernent généralement la publication d’images et le droit à l’image, et non une réutilisation large à des fins d’entraînement. Pour les jeux de données d’entraînement, l’anonymisation (ou une autre base légale clairement applicable assortie de garanties appropriées) offre en général des résultats de conformité plus prévisibles.

Liste de références

  1. [1] Règlement (UE) 2016/679 (Règlement général sur la protection des données), notamment le considérant 26 et les articles 4, 5, 25, 35.
  2. [2] ICO, Guide du UK GDPR - Qu’est‑ce qu’une donnée personnelle - Qu’en est‑il des photographies et des vidéos ? https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/personal-information-what-is-it/what-is-personal-data/
  3. [3] ICO, Orientations sur la vidéosurveillance (y compris CCTV). https://ico.org.uk/for-organisations/guide-to-data-protection/ico-codes-of-practice/video-surveillance-cctv/
  4. [4] Data Protection Act 2018 (Royaume‑Uni), exemptions pertinentes, notamment pour le journalisme et la recherche/statistique (conditions dépendantes du contexte).
  5. [5] Commission européenne, page politique et législative sur l’Artificial Intelligence Act (AI Act). https://digital-strategy.ec.europa.eu/en/policies/european-approach-artificial-intelligence