Was ist Differential Privacy?

Definition

Differential Privacy (DP) ist ein mathematisches Datenschutzframework, das sicherstellt, dass die Ergebnisse statistischer Abfragen keine Rückschlüsse darauf zulassen, ob eine bestimmte Person in einem Datensatz enthalten ist. DP erreicht dies durch das Hinzufügen kalibrierter, zufälliger Störungen zu den Abfrageergebnissen, sodass das Hinzufügen oder Entfernen eines einzelnen Datensatzes nur einen vernachlässigbaren Einfluss auf das Ergebnis hat.

Formale Definition (normatives Zitat): Ein randomisierter Mechanismus MMM erfüllt ε-Differential Privacy, wenn für alle Datensätze, die sich um genau einen Eintrag unterscheiden, und für alle messbaren Teilmengen SSS der Ausgaben gilt:

Pr⁡[M(D1)∈S]≤eε⋅Pr⁡[M(D2)∈S].\Pr[M(D_1) \in S] \le e^{\varepsilon} \cdot \Pr[M(D_2) \in S].Pr[M(D1​)∈S]≤eε⋅Pr[M(D2​)∈S].

Die erweiterte Form (ε,δ)(\varepsilon, \delta)(ε,δ)-DP erlaubt eine geringe Wahrscheinlichkeit δ\deltaδ, diese Schranke zu überschreiten.


Parameter und Mechanismen

Parameter / Mechanismus

Beschreibung

ε (epsilon)

Quantifiziert den Datenschutzverlust; kleineres ε bedeutet stärkeren Datenschutz, aber größere Verzerrung.

δ (delta)

Toleranzparameter für approximative DP; erlaubt seltene Abweichungen.

Sensitivität (Δf)

Maximaler Einfluss eines einzelnen Datensatzes auf das Abfrageergebnis.

Noising-Mechanismen

Laplace, Gaussian – grundlegende Methoden zur Generierung von Zufallsrauschen.

Composition

Legt fest, wie sich der Datenschutzverlust über mehrere Abfragen aufsummiert.

Rauschskalierung (Laplace-Mechanismus):

Laplace(0,Δfε)\text{Laplace}(0, \frac{\Delta f}{\varepsilon})Laplace(0,εΔf​)

wobei die Sensitivität Δf\Delta fΔf die Skala der Verteilung bestimmt.


Vorteile

  • Bietet überprüfbare, mathematisch definierte Datenschutzgarantien
  • Resistenz gegenüber Angreifern mit zusätzlichem Hintergrundwissen
  • Ermöglicht die sichere Veröffentlichung aggregierter Statistiken
  • Integration in ML, föderiertes Lernen und großangelegte Analysen

Einschränkungen

  • Genauigkeit nimmt bei stärkerem Datenschutz (kleiner ε) ab
  • Wiederholte Abfragen akkumulieren den Datenschutzverlust (Privacy Budget)
  • DP schützt die Abfrageergebnisse, nicht die Infrastruktur (Logs, Metadaten)
  • Weniger geeignet für Anwendungen, die präzise oder deterministische Werte erfordern

Anwendungen in Bild- und Videoanonymisierung

DP wird nicht verwendet, um direkt Gesichter zu verwischen oder Pixel zu verschleiern. Ihr Nutzen liegt im Schutz von Metadaten und aggregierten Ergebnissen aus visueller Analyse:

  • CCTV-Statistiken – Ereigniszählungen oder erkannte Objekte mit garantierter Privatsphäre
  • Videoanalysen – aggregierte Verhaltensmetriken ohne Rückschluss auf Einzelpersonen
  • Forschungsdatensätze – Teilen anonymisierter Labels, Zählungen oder Metadaten aus Bildern
  • Föderiertes ML – Training von Modellen auf visuellen Daten mit DP-Rauschen

Relevanz für Datenschutzbeauftragte

Differential Privacy ergänzt die visuelle Anonymisierung, indem sie aggregierte Erkenntnisse aus Bild- und Videodaten schützt. Sie stellt sicher, dass statistische Auswertungen oder Analysen keine identifizierbaren Informationen zurückführen, selbst wenn die zugrunde liegenden Datensätze sensible Bildinformationen enthalten.


Varianten und Standards

  • ε‑DP – kanonische Definition
  • (ε, δ)-DP – approximative Differential Privacy
  • Local Differential Privacy (LDP)
  • Distributed / Federated DP