Qu’est-ce que le Privacy Budget ?

Privacy Budget - définition

Le Privacy Budget (en français : budget de confidentialité) est une mesure de la perte totale de confidentialité autorisée par un système qui utilise des mécanismes de confidentialité différentielle. D’un point de vue formel, il concerne les mécanismes satisfaisant la confidentialité différentielle (ε, δ), où ε (epsilon) et δ (delta) paramètrent la borne supérieure du risque de divulgation d’informations relatives à un enregistrement individuel. Le budget de confidentialité s’accumule au fil des opérations effectuées sur les données (composition) et fixe la limite globale de confidentialité « consommée » par de multiples requêtes ou itérations d’apprentissage.

Définition de la confidentialité différentielle : un mécanisme M assure la (ε, δ)-DP si, pour tout couple de jeux de données voisins D et D′ et pour tout ensemble de sorties S, on a : P[M(D) ∈ S] ≤ eε·P[M(D′) ∈ S] + δ (cf. Dwork et al., 2006 ; Dwork, Roth, 2014). En pratique, le budget de confidentialité décrit la quantité totale de « ε » (et du « δ » correspondant) pouvant être dépensée pour l’ensemble des opérations sur les données.

Traductions : EN : Privacy Budget ; DE : Datenschutzbudget / Privatsphärenbudget ; FR : Budget de confidentialité ; ES : Presupuesto de privacidad.

Rôle dans l’anonymisation des images et des vidéos

Dans l’anonymisation des images et des enregistrements vidéo, le budget de confidentialité est essentiel lorsque l’on utilise l’apprentissage automatique avec un contrôle du risque de fuite d’informations concernant les personnes présentes dans les données sources. Cela concerne notamment l’entraînement de modèles de détection de visages et de plaques d’immatriculation, utilisés ensuite pour le floutage automatique. Le recours au DP-SGD ou à des méthodes d’agrégation d’étiquettes respectueuses de la confidentialité implique que chaque étape d’apprentissage « consomme » une partie du budget, et que le Délégué à la protection des données (DPO) puisse superviser le niveau global de risque via les limites ε et δ.

Le processus de floutage lui-même (par exemple le floutage des visages dans la vidéo finale) ne nécessite pas de budget de confidentialité, tant qu’aucune donnée ou journal supplémentaire permettant de reconstituer des données personnelles n’est conservé. Le budget est déterminant lors de la création de modèles d’IA à partir de données contenant des images de personnes, ainsi que lors de la publication de statistiques issues de jeux de données vidéo. Cette distinction est cohérente avec l’approche selon laquelle la confidentialité différentielle est un mécanisme de protection au stade du traitement et de l’apprentissage, et non uniquement de l’édition visuelle (WP29, 2014 ; ISO/IEC 20889:2018 ; ISO/IEC 27559:2022).

Technologies et méthodes associées

En pratique, le budget de confidentialité est lié à des techniques concrètes d’ajout de bruit contrôlé et de comptabilité de la confidentialité. Ci-dessous figure un résumé des principales approches utiles pour l’entraînement de modèles destinés au floutage des visages et des plaques d’immatriculation.

  • DP-SGD : descente de gradient stochastique avec écrêtage des gradients et ajout de bruit, garantissant la (ε, δ)-DP au niveau des itérations d’apprentissage. Elle offre des garanties formelles contre les fuites, au prix d’une possible dégradation des performances du modèle (Abadi et al., CCS 2016).
  • PATE : agrégation d’étiquettes provenant de plusieurs « enseignants » avec ajout de bruit, limitant l’information divulguée sur des exemples individuels des données d’entraînement (Papernot et al., ICLR 2017/2018).
  • RDP et accounting : la comptabilité de la confidentialité basée sur la DP de Rényi et le moments accountant permet d’obtenir des bornes de composition plus serrées et une estimation plus précise du budget total (Mironov, S&P 2017 ; Abadi et al., 2016).
  • Outils : les bibliothèques TensorFlow Privacy et Opacus (PyTorch) implémentent le DP-SGD et la comptabilité du budget, facilitant le contrôle opérationnel de ε et δ lors de l’entraînement de détecteurs (documentation officielle TF Privacy, Opacus).

Paramètres et métriques clés (Privacy Budget)

Les paramètres de la confidentialité différentielle sont strictement définis dans la littérature scientifique et les normes. Dans les processus Gallio PRO, les paramètres les plus importants sont ceux qui déterminent la robustesse de la protection de la vie privée lors de l’entraînement de modèles de reconnaissance de visages et de plaques.

Paramètre / métrique

Signification et remarques

Source

 

ε (epsilon)

Force de la garantie de confidentialité différentielle. Un ε plus faible implique une protection plus forte, généralement au détriment de l’utilité du modèle. ε ≥ 0.

Dwork, Roth (2014)

δ (delta)

Probabilité de violation de la garantie DP. Elle doit être négligeable par rapport à la taille du jeu de données.

Dwork, Roth (2014)

Composition

Le budget total augmente avec le nombre de requêtes ou d’époques. La composition avancée et la RDP permettent une estimation plus précise de (ε, δ) cumulés.

Dwork, Roth (2014) ; Mironov (2017)

Accountant

Les méthodes de moments accountant et de RDP-accountant servent à suivre précisément la consommation du budget pendant l’apprentissage.

Abadi et al. (2016) ; Mironov (2017)

Utilité du modèle

mAP, précision et rappel pour la détection de visages et de plaques. La baisse de qualité dépend de ε, δ et du niveau de bruit.

Abadi et al. (2016)

Exemple issu de la pratique publique

Le US Census Bureau a appliqué un budget ε = 12,2 pour les données de redécoupage électoral du recensement 2020, illustrant l’échelle des budgets pour de grands ensembles de données.

US Census Bureau (2021)

Défis et limites

La planification d’un budget de confidentialité nécessite un compromis entre protection de la vie privée et qualité de détection. L’interprétation de « ce que signifie ε » reste peu intuitive pour les utilisateurs métier et requiert un effort de pédagogie. Il convient également de distinguer deux acceptions différentes du terme « privacy budget » : en confidentialité différentielle, il désigne les paramètres (ε, δ), tandis que dans l’écosystème publicitaire des navigateurs, il a été proposé comme un mécanisme distinct visant à limiter le fingerprinting via un quota d’appels aux API. Cette seconde approche n’est pas équivalente à la DP (voir les discussions WICG/Chromium autour de Privacy Sandbox).

  • Absence de seuil réglementaire : le droit de l’UE ne définit pas de valeurs acceptables pour ε ou δ. Une approche fondée sur le risque et sur l’adéquation de l’effet d’anonymisation est requise (RGPD, considérant 26 ; WP29, 2014).
  • Composition continue : les expérimentations répétées et le réentraînement des modèles consomment le budget. Une comptabilité rigoureuse et une politique de « réinitialisation » sur de nouvelles données sont nécessaires.
  • Compromis avec la qualité : un ε trop restrictif peut faire chuter le mAP des détecteurs de visages ou de plaques à un niveau opérationnellement inacceptable.

Exemples d’applications pratiques dans Gallio PRO

Dans les cas d’usage de Gallio PRO, le budget de confidentialité est déterminant lors de la création ou de l’ajustement de modèles détectant les visages et les plaques d’immatriculation, utilisés ensuite pour le floutage automatique. Le Délégué à la protection des données peut définir des limites (ε, δ) pour le processus d’apprentissage ainsi que des règles de composition.

  • Entraînement d’un détecteur de visages avec DP-SGD : le nombre d’époques, la taille de l’échantillon et le niveau de bruit déterminent les valeurs finales de (ε, δ). Une fois la limite atteinte, l’entraînement doit être arrêté ou repensé.
  • Agrégation d’étiquettes : dans les projets nécessitant l’annotation de vidéos, les mécanismes PATE permettent de contrôler le budget lors de l’agrégation des votes des enseignants.
  • Export de métadonnées : la publication de statistiques sur les ensembles de données (par exemple la distribution du nombre de visages par image) doit être couverte par le même budget.
  • Exploitation opérationnelle : Gallio PRO ne réalise pas d’anonymisation en temps réel et ne collecte pas de journaux de détection des visages ou des plaques, ce qui réduit les risques secondaires de fuite de données personnelles.

Références normatives et standards

Les réglementations et normes définissent le cadre conceptuel et les bonnes pratiques, sans toutefois fixer de seuils stricts pour ε et δ.

  • RGPD (UE) 2016/679, considérant 26 - définition des informations anonymes et exigence de prise en compte de « tous les moyens raisonnablement susceptibles d’être utilisés » pour l’identification.
  • WP29 (aujourd’hui CEPD), Opinion 05/2014 sur les techniques d’anonymisation - classification des techniques et critères d’évaluation des risques.
  • ISO/IEC 20889:2018 - Privacy enhancing data de-identification - terminologie et classification des techniques.
  • ISO/IEC 27559:2022 - cadre de dé-identification des données améliorant la confidentialité.
  • NISTIR 8053:2015 - De-Identification of Personal Information - cadre d’évaluation des techniques et des risques.

Sources et bibliographie

Les documents ci-dessous présentent les définitions, la composition des budgets et des exemples d’applications en apprentissage profond et dans les politiques publiques.

  • C. Dwork, F. McSherry, K. Nissim, A. Smith, Calibrating Noise to Sensitivity in Private Data Analysis, TCC 2006 - définition de la (ε, δ)-DP.
  • C. Dwork, A. Roth, The Algorithmic Foundations of Differential Privacy, FnT TCS, 2014 - bases théoriques et composition.
  • M. Abadi et al., Deep Learning with Differential Privacy, CCS 2016 - DP-SGD et moments accountant.
  • I. Mironov, Renyi Differential Privacy, IEEE S&P 2017 - RDP et comptabilité.
  • N. Papernot et al., Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data (PATE), ICLR 2017/2018.
  • US Census Bureau, Disclosure Avoidance System for the 2020 Census, sélection des paramètres (ε = 12,2 pour les données de redécoupage), 2021.
  • WICG/Chromium, Privacy Sandbox - discussions sur le « privacy budget » dans les navigateurs (concept distinct de la DP).