Definicja
Prywatność różnicowa (Differential Privacy, DP) to matematyczna rama ochrony prywatności, która gwarantuje, że wyniki zapytań statystycznych nie ujawniają informacji o konkretnych osobach obecnych w zbiorze danych. Zapewnienie DP polega na kontrolowanym dodawaniu szumu losowego, tak aby obecność lub brak pojedynczego rekordu nie wpływał znacząco na wynik analizy.
Formalna definicja (cytat - definicja normatywna): dla mechanizmu losowego M zachodzi ε-differential privacy, jeśli dla każdego zdarzenia S i dowolnych dwóch zbiorów danych różniących się jednym rekordem:
\[ \Pr[M(D_1) \in S] \le e^{\varepsilon} \cdot \Pr[M(D_2) \in S]. \]
Definicja (ε, δ)-DP dopuszcza dodatkowy margines błędu δ, istotny w analizach o wysokiej złożoności.
Parametry i mechanizmy DP
Parametr / mechanizm | Znaczenie |
ε (epsilon) | Miara „kosztu prywatności”. Im niższy ε, tym silniejsza ochrona, ale większe zniekształcenie danych. |
δ (delta) | Prawdopodobieństwo naruszenia granicy DP. Stosowane w aproksymacyjnych wariantach DP. |
Sensitivity (Δf) | Maksymalny wpływ jednego rekordu na wynik zapytania; określa skalę szumu. |
Mechanizmy szumu | Laplace Mechanism, Gaussian Mechanism - podstawowe metody wprowadzania perturbacji. |
Composition | Reguły sumowania utraty prywatności przy wielu zapytaniach (privacy budget). |
Wzór na skalę szumu
W klasycznym mechanizmie Laplace’a szum generuje się według rozkładu:
\[ \text{Laplace}(0, \frac{\Delta f}{\varepsilon}) \]
gdzie Δf to sensitivity. W praktyce oznacza to, że im bardziej „wrażliwe” jest zapytanie, tym więcej szumu należy dodać.
Zalety
- Zapewnia mierzalne, formalne gwarancje prywatności możliwe do audytowania.
- Odporność na ataki wykorzystujące wiedzę dodatkową (auxiliary information).
- Bezpieczne udostępnianie statystyk bez ryzyka reidentyfikacji jednostek.
- Możliwość integrowania DP z ML, uczeniem federacyjnym i analityką dużych zbiorów.
Ograniczenia
- Wprowadzenie szumu ogranicza precyzję wyników (trade-off: prywatność vs użyteczność).
- Wielokrotne zapytania zwiększają łączny koszt prywatności (privacy budget).
- DP chroni wyniki zapytań, ale nie chroni przed wyciekami z warstw infrastruktury (np. logi, metadane).
- Trudne do zastosowania w zastosowaniach wymagających deterministycznych wyników lub wysokiej dokładności pojedynczych obserwacji.
Zastosowanie w anonimizacji zdjęć i wideo
DP powstała głównie dla danych tabelarycznych i statystycznych, ale ma zastosowanie także w systemach analizy obrazu i anonimizacji wideo w obszarach:
- Statystyki z systemów monitoringu - np. liczenie zdarzeń, obiektów, osób bez możliwości powiązania wyników z konkretną osobą.
- Analityka ruchu i telemetria - udostępnianie agregatów na temat natężenia ruchu lub wzorców zachowań bez ujawniania tożsamości.
- Raportowanie incydentów - publikacja statystyk zarejestrowanych przez systemy CCTV.
- Badania nad systemami wizji komputerowej - udostępnianie zanonimizowanych zbiorów metadanych.
Znaczenie dla Inspektora Ochrony Danych (IOD)
Prywatność różnicowa pozwala ograniczyć ryzyko identyfikacji w sytuacjach, w których organizacja musi udostępniać zagregowane dane przetwarzane na bazie obrazów i nagrań wideo. DP nie zastępuje anonimizacji wizualnej, lecz ją uzupełnia - chroni statystyki i metadane, a nie sam obraz.
Warianty i standardy
- ε‑DP - podstawowa forma.
- (ε, δ)-DP - wersja aproksymacyjna.
- Local DP (LDP) - szum dodawany po stronie użytkownika.
- Distributed DP - stosowana w federated learning.