Czym jest Differential Privacy?

Definicja

Prywatność różnicowa (Differential Privacy, DP) to matematyczna rama ochrony prywatności, która gwarantuje, że wyniki zapytań statystycznych nie ujawniają informacji o konkretnych osobach obecnych w zbiorze danych. Zapewnienie DP polega na kontrolowanym dodawaniu szumu losowego, tak aby obecność lub brak pojedynczego rekordu nie wpływał znacząco na wynik analizy.

Formalna definicja (cytat - definicja normatywna): dla mechanizmu losowego M zachodzi ε-differential privacy, jeśli dla każdego zdarzenia S i dowolnych dwóch zbiorów danych różniących się jednym rekordem:

\[ \Pr[M(D_1) \in S] \le e^{\varepsilon} \cdot \Pr[M(D_2) \in S]. \]

Definicja (ε, δ)-DP dopuszcza dodatkowy margines błędu δ, istotny w analizach o wysokiej złożoności.

Parametry i mechanizmy DP

Parametr / mechanizm

Znaczenie

ε (epsilon)

Miara „kosztu prywatności”. Im niższy ε, tym silniejsza ochrona, ale większe zniekształcenie danych.

δ (delta)

Prawdopodobieństwo naruszenia granicy DP. Stosowane w aproksymacyjnych wariantach DP.

Sensitivity (Δf)

Maksymalny wpływ jednego rekordu na wynik zapytania; określa skalę szumu.

Mechanizmy szumu

Laplace Mechanism, Gaussian Mechanism - podstawowe metody wprowadzania perturbacji.

Composition

Reguły sumowania utraty prywatności przy wielu zapytaniach (privacy budget).

Wzór na skalę szumu

W klasycznym mechanizmie Laplace’a szum generuje się według rozkładu:

\[ \text{Laplace}(0, \frac{\Delta f}{\varepsilon}) \]

gdzie Δf to sensitivity. W praktyce oznacza to, że im bardziej „wrażliwe” jest zapytanie, tym więcej szumu należy dodać.

Zalety

  • Zapewnia mierzalne, formalne gwarancje prywatności możliwe do audytowania.
  • Odporność na ataki wykorzystujące wiedzę dodatkową (auxiliary information).
  • Bezpieczne udostępnianie statystyk bez ryzyka reidentyfikacji jednostek.
  • Możliwość integrowania DP z ML, uczeniem federacyjnym i analityką dużych zbiorów.

Ograniczenia

  • Wprowadzenie szumu ogranicza precyzję wyników (trade-off: prywatność vs użyteczność).
  • Wielokrotne zapytania zwiększają łączny koszt prywatności (privacy budget).
  • DP chroni wyniki zapytań, ale nie chroni przed wyciekami z warstw infrastruktury (np. logi, metadane).
  • Trudne do zastosowania w zastosowaniach wymagających deterministycznych wyników lub wysokiej dokładności pojedynczych obserwacji.

Zastosowanie w anonimizacji zdjęć i wideo

DP powstała głównie dla danych tabelarycznych i statystycznych, ale ma zastosowanie także w systemach analizy obrazu i anonimizacji wideo w obszarach:

  • Statystyki z systemów monitoringu - np. liczenie zdarzeń, obiektów, osób bez możliwości powiązania wyników z konkretną osobą.
  • Analityka ruchu i telemetria - udostępnianie agregatów na temat natężenia ruchu lub wzorców zachowań bez ujawniania tożsamości.
  • Raportowanie incydentów - publikacja statystyk zarejestrowanych przez systemy CCTV.
  • Badania nad systemami wizji komputerowej - udostępnianie zanonimizowanych zbiorów metadanych.

Znaczenie dla Inspektora Ochrony Danych (IOD)

Prywatność różnicowa pozwala ograniczyć ryzyko identyfikacji w sytuacjach, w których organizacja musi udostępniać zagregowane dane przetwarzane na bazie obrazów i nagrań wideo. DP nie zastępuje anonimizacji wizualnej, lecz ją uzupełnia - chroni statystyki i metadane, a nie sam obraz.

Warianty i standardy

  • ε‑DP - podstawowa forma.
  • (ε, δ)-DP - wersja aproksymacyjna.
  • Local DP (LDP) - szum dodawany po stronie użytkownika.
  • Distributed DP - stosowana w federated learning.