Was ist ein Privacy Budget?

Privacy Budget - Definition

Das Privacy Budget (deutsch: Datenschutzbudget oder Privatsphärenbudget) ist ein Maß für den insgesamt zulässigen Verlust an Privatsphäre in einem System, das Mechanismen der Differential Privacy einsetzt. Formal bezieht es sich auf Mechanismen, die (ε, δ)-differenzielle Privatsphäre erfüllen, wobei ε (Epsilon) und δ (Delta) die obere Schranke des Risikos der Offenlegung von Informationen über einen einzelnen Datensatz parametrisieren. Das Privacy Budget akkumuliert sich mit jeder weiteren Operation auf den Daten (sogenannte Komposition) und definiert die Grenze der insgesamt „verbrauchten“ Privatsphäre über mehrere Abfragen oder Trainingsiterationen hinweg.

Definition der Differential Privacy: Ein Mechanismus M gewährleistet (ε, δ)-DP, wenn für alle benachbarten Datensätze D und D′ sowie für jede Ergebnismenge S gilt: P[M(D) ∈ S] ≤ eε · P[M(D′) ∈ S] + δ (vgl. Dwork et al., 2006; Dwork, Roth, 2014). In der Praxis beschreibt das Privacy Budget, wie viel „ε“ (und das zugehörige „δ“) insgesamt für alle Datenoperationen eingesetzt werden darf.

Übersetzungen: EN: Privacy Budget; DE: Datenschutzbudget / Privatsphärenbudget; FR: Budget de confidentialité; ES: Presupuesto de privacidad.

Rolle bei der Anonymisierung von Bildern und Videos

Bei der Anonymisierung von Bildern und Videoaufnahmen spielt das Privacy Budget eine zentrale Rolle, wenn maschinelles Lernen unter Kontrolle des Informationsabflusses über in den Quelldaten enthaltene Personen eingesetzt wird. Dies betrifft insbesondere das Training von Modellen zur Gesichts- und Kennzeichenerkennung, die anschließend für das automatische Verpixeln oder Verblenden genutzt werden. Der Einsatz von DP-SGD oder von datenschutzwahrenden Label-Aggregationsmethoden führt dazu, dass jeder Trainingsschritt einen Teil des Privacy Budgets „verbraucht“. Der Datenschutzbeauftragte kann das Gesamtrisiko über Grenzwerte für ε und δ überwachen.

Der eigentliche Verpixelungsprozess (z. B. das Unkenntlichmachen von Gesichtern im Ausgabematerial) erfordert kein Privacy Budget, sofern keine zusätzlichen Daten oder Protokolle gespeichert werden, die eine Rekonstruktion personenbezogener Daten ermöglichen. Relevant ist das Datenschutzbudget vielmehr in der Phase der Entwicklung von KI-Modellen auf Basis bildbasierter personenbezogener Daten sowie bei der Veröffentlichung von Statistiken aus Video-Datensätzen. Diese Abgrenzung entspricht dem Ansatz, Differential Privacy als Schutzmechanismus während der Verarbeitung und des Trainings zu verstehen - nicht lediglich als visuelle Bearbeitung (WP29, 2014; ISO/IEC 20889:2018; ISO/IEC 27559:2022).

Zugehörige Technologien und Methoden

In der Praxis ist das Privacy Budget eng mit konkreten Techniken zur kontrollierten Rauschzufuhr und zur sogenannten Privacy Accounting verbunden. Nachfolgend eine Übersicht der wichtigsten Ansätze, die beim Training von Modellen zur Gesichts- und Kennzeichenverpixelung relevant sind.

  • DP-SGD: Stochastischer Gradientenabstieg mit Gradient-Clipping und Rauschzugabe, der (ε, δ)-DP über Trainingsläufe hinweg garantiert. Er bietet formale Schranken für den Informationsabfluss, geht jedoch meist mit Einbußen bei der Modellqualität einher (Abadi et al., CCS 2016).
  • PATE: Aggregation von Labels mehrerer „Lehrermodelle“ unter Hinzufügung von Rauschen, wodurch der Informationsgehalt einzelner Trainingsbeispiele begrenzt wird (Papernot et al., ICLR 2017/2018).
  • RDP und Accounting: Privacy Accounting auf Basis von Rényi Differential Privacy sowie Moments Accountant ermöglicht engere Kompositionsgrenzen und eine präzisere Schätzung des gesamten Privacy Budgets (Mironov, S&P 2017; Abadi et al., 2016).
  • Werkzeuge: Bibliotheken wie TensorFlow Privacy und Opacus (PyTorch) implementieren DP-SGD und Privacy Accounting und unterstützen die praktische Kontrolle von ε und δ beim Training von Detektionsmodellen (Projekt­dokumentationen TF Privacy, Opacus).

Zentrale Parameter und Metriken (Privacy Budget)

Die Parameter der Differential Privacy sind in Fachliteratur und Normen klar definiert. In den Prozessen von Gallio PRO stehen insbesondere jene Parameter im Fokus, die die Stärke des Datenschutzes während des Trainings von Modellen zur Gesichts- und Kennzeichenerkennung bestimmen.

Parameter / Metrik

Bedeutung und Hinweise

Quelle

 

ε (Epsilon)

Stärke der DP-Garantie. Ein kleineres ε bedeutet stärkeren Datenschutz, meist jedoch geringere Modellnutzbarkeit. ε ≥ 0.

Dwork, Roth (2014)

δ (Delta)

Wahrscheinlichkeit einer Verletzung der DP-Garantie. Sollte mit wachsender Datensatzgröße vernachlässigbar klein sein.

Dwork, Roth (2014)

Komposition

Das Gesamtbudget steigt mit der Anzahl von Abfragen bzw. Epochen. Erweiterte Komposition und RDP erlauben eine engere Abschätzung von (ε, δ).

Dwork, Roth (2014); Mironov (2017)

Accountant

Moments Accountant und RDP-Accountant dienen der präzisen Nachverfolgung des Budgetverbrauchs während des Trainings.

Abadi et al. (2016); Mironov (2017)

Modellnutzbarkeit

mAP/Precision/Recall bei Gesichts- und Kennzeichendetektion. Qualitätsverluste hängen von ε, δ und der Rauschkalibrierung ab.

Abadi et al. (2016)

Praxisbeispiel

Das US Census Bureau nutzte für Redistricting-Daten der Volkszählung 2020 ein Budget von ε = 12,2 und zeigt damit die Skalierung auf große Datensätze.

US Census Bureau (2021)

Herausforderungen und Grenzen

Die Planung eines Privacy Budgets erfordert stets einen Kompromiss zwischen Datenschutz und Detektionsqualität. Die Interpretation dessen, „was ε bedeutet“, ist für Business-Stakeholder oft wenig intuitiv und erfordert Schulung. Zudem existieren zwei unterschiedliche Bedeutungen des Begriffs „Privacy Budget“: In der Differential Privacy beschreibt er die Parameter (ε, δ); im Browser- und Werbeökosystem wurde hingegen ein separates Konzept zur Begrenzung von Fingerprinting über API-Abfragebudgets diskutiert. Letzteres ist nicht mit DP gleichzusetzen (siehe WICG-/Chromium-Diskussionen im Rahmen der Privacy Sandbox).

  • Kein regulatorischer Schwellenwert: Das EU-Recht definiert keine akzeptablen ε/δ-Werte. Erforderlich ist ein risikobasierter Ansatz sowie die Angemessenheit der Anonymisierungswirkung (DSGVO, Erwägungsgrund 26; WP29, 2014).
  • Fortlaufende Komposition: Wiederholte Experimente und Retrainings summieren das Budget. Notwendig sind Privacy Accounting und eine Reset-Politik bei neuen Daten.
  • Qualitäts-Trade-off: Zu restriktive ε-Werte können die mAP von Gesichts- oder Kennzeichendetektoren auf ein operativ nicht akzeptables Niveau senken.

Anwendungsbeispiele in der Praxis von Gallio PRO

In Gallio-PRO-Anwendungen ist das Privacy Budget insbesondere bei der Entwicklung oder Feinjustierung von Modellen zur Gesichts- und Kennzeichenerkennung relevant, die anschließend für die automatische Anonymisierung eingesetzt werden. Der Datenschutzbeauftragte kann Grenzwerte für (ε, δ) sowie Regeln zur Komposition festlegen.

  • Training eines Gesichtsdetektors mit DP-SGD: Anzahl der Epochen, Stichprobengröße und Rauschpegel bestimmen die finalen (ε, δ). Nach Erreichen des Limits muss das Training beendet oder neu konzipiert werden.
  • Label-Aggregation: In Projekten mit Video-Labeling können PATE-Mechanismen eingesetzt und das Budget während der Aggregation der Lehrermodelle kontrolliert werden.
  • Export von Metadaten: Die Veröffentlichung von Datensatzstatistiken (z. B. Verteilung der Gesichtsanzahl pro Frame) sollte in dasselbe Privacy Budget einbezogen werden.
  • Operativer Betrieb: Gallio PRO führt keine Echtzeit-Anonymisierung durch und speichert keine Detektionslogs von Gesichtern oder Kennzeichen, wodurch sekundäre Risiken eines Datenabflusses reduziert werden.

Normative Verweise und Standards

Gesetze und Normen liefern Begriffsrahmen und Best Practices, legen jedoch keine festen Grenzwerte für ε und δ fest.

  • DSGVO (EU) 2016/679, Erwägungsgrund 26 - Definition anonymisierter Informationen und Berücksichtigung aller „vernünftigerweise zu nutzenden Mittel“ zur Identifizierung.
  • WP29 (heute EDSA), Opinion 05/2014 zu Anonymisierungstechniken - Klassifikation von Methoden und Risikokriterien.
  • ISO/IEC 20889:2018 - Privacy-enhancing data de-identification - Terminologie und Klassifikation von Techniken.
  • ISO/IEC 27559:2022 - Framework zur datenschutzfördernden De-Identifizierung.
  • NISTIR 8053:2015 - De-Identification of Personal Information - Bewertungsrahmen für Techniken und Risiken.

Quellen und Literatur

Die folgenden Materialien enthalten Definitionen, Kompositionsrechnung und Praxisbeispiele aus dem Deep Learning sowie aus der öffentlichen Verwaltung.

  • C. Dwork, F. McSherry, K. Nissim, A. Smith, Calibrating Noise to Sensitivity in Private Data Analysis, TCC 2006 - Definition von (ε, δ)-DP.
  • C. Dwork, A. Roth, The Algorithmic Foundations of Differential Privacy, FnT TCS, 2014 - Theoretische Grundlagen und Komposition.
  • M. Abadi et al., Deep Learning with Differential Privacy, CCS 2016 - DP-SGD und Moments Accountant.
  • I. Mironov, Rényi Differential Privacy, IEEE S&P 2017 - RDP und Privacy Accounting.
  • N. Papernot et al., Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data (PATE), ICLR 2017/2018.
  • US Census Bureau, Disclosure Avoidance System for the 2020 Census, Parameterauswahl (ε = 12,2 für Redistricting-Daten), 2021 - technische Dokumente.
  • WICG/Chromium, Privacy Sandbox - Diskussionen zum „Privacy Budget“ in Browsern (separates Konzept zur DP).