Co to jest Privacy Budget?

Privacy Budget - definicja

Privacy Budget (pol. budżet prywatności) to miara całkowitej utraty prywatności dopuszczonej przez system korzystający z mechanizmów różnicowej prywatności. W ujęciu formalnym dotyczy mechanizmów spełniających (ε, δ)-różnicową prywatność, gdzie ε (epsilon) i δ (delta) parametryzują górne ograniczenie ryzyka ujawnienia informacji o pojedynczym rekordzie. Budżet prywatności akumuluje się wraz z kolejnymi działaniami na danych (tzw. kompozycja) i wyznacza limit łącznej prywatności „skonsumowanej” przez wiele zapytań lub iteracji uczenia.

Definicja różnicowej prywatności: mechanizm M zapewnia (ε, δ)-DP, jeśli dla każdych zbiorów sąsiadujących D i D′ oraz dowolnego zbioru wyników S zachodzi: P[M(D) ∈ S] ≤ eε P[M(D′) ∈ S] + δ (por. Dwork i in., 2006; Dwork, Roth, 2014). W praktyce budżet prywatności opisuje, ile łącznie „ε” (i odpowiadającego mu „δ”) można wydać na wszystkie operacje na danych.

Rola w anonimizacji obrazów i wideo

W anonimizacji obrazów i nagrań wideo budżet prywatności jest kluczowy wtedy, gdy wykorzystuje się uczenie maszynowe z kontrolą wycieku informacji o osobach obecnych w materiałach źródłowych. Dotyczy to w szczególności trenowania modeli detekcji twarzy i tablic rejestracyjnych, które następnie służą do automatycznego zamazywania. Zastosowanie DP-SGD albo metod agregacji etykiet z prywatnością sprawia, że każdy krok uczenia „zużywa” część budżetu, a Inspektor Ochrony Danych może nadzorować łączny poziom ryzyka poprzez limity ε i δ.

Sam proces zamazywania (np. rozmycie twarzy w wyjściowym materiale) nie wymaga budżetu prywatności, o ile nie gromadzi się dodatkowych danych lub dzienników pozwalających odtworzyć dane osobowe. Budżet ma znaczenie na etapie tworzenia modeli AI z danych zawierających wizerunki oraz przy publikowaniu statystyk z datasetów wideo. Takie rozróżnienie jest spójne z podejściem, w którym DP jest mechanizmem ochrony na etapie przetwarzania i uczenia, a nie tylko edycji wizualnej (WP29, 2014; ISO/IEC 20889:2018; ISO/IEC 27559:2022).

Technologie i metody powiązane

W praktyce budżet prywatności wiąże się z konkretnymi technikami dodawania kontrolowanego szumu i rachunkowości prywatności. Poniżej podsumowanie najważniejszych podejść użytecznych przy trenowaniu modeli do zamazywania twarzy i tablic rejestracyjnych.

  • DP-SGD: stochastyczny spadek gradientu z przycinaniem gradientów i dodawaniem szumu zapewniający (ε, δ)-DP na poziomie przebiegów uczenia. Zapewnia formalne granice wycieku kosztem pogorszenia jakości modelu (Abadi i in., CCS 2016).
  • PATE: agregacja etykiet wielu „nauczycieli” z dodawaniem szumu, co ogranicza informację o pojedynczych przykładach w danych treningowych (Papernot i in., ICLR 2017/2018).
  • RDP i „accounting”: rachunkowość prywatności z użyciem Rényi DP oraz moments accountant daje ciaśniejsze granice kompozycji i dokładniejsze szacowanie łącznego budżetu (Mironov, S&P 2017; Abadi i in., 2016).
  • Narzędzia: biblioteki TensorFlow Privacy i Opacus (PyTorch) implementują DP-SGD i rachunkowość budżetu, wspierając praktyczną kontrolę ε i δ podczas trenowania detektorów (dokumentacja projektowa TF Privacy, Opacus).

Kluczowe parametry i metryki Privacy Budget

Parametry DP są ściśle zdefiniowane w literaturze i normach. W procesach Gallio PRO najistotniejsze są parametry wpływające na to, jak silna jest ochrona prywatności na etapie trenowania modeli do rozpoznawania twarzy i tablic.

Parametr / metryka

Znaczenie i uwagi

Źródło

 

ε (epsilon)

Siła gwarancji DP. Mniejsze ε oznacza silniejszą ochronę i zwykle gorszą użyteczność modelu. ε ≥ 0.

Dwork, Roth (2014)

δ (delta)

Prawdopodobieństwo naruszenia gwarancji DP. Powinno być „zanikające” względem rozmiaru danych.

Dwork, Roth (2014)

Kompozycja

Łączny budżet rośnie wraz z liczbą zapytań/epok. Zaawansowana kompozycja i RDP pozwalają ciaśniej oszacować sumaryczne (ε, δ).

Dwork, Roth (2014); Mironov (2017)

Accountant

Metody „moments accountant” i RDP-accountant służą do dokładnego śledzenia zużycia budżetu podczas uczenia.

Abadi i in. (2016); Mironov (2017)

Użyteczność modelu

mAP/precision/recall dla detekcji twarzy/tablic. Spadek jakości zależy od ε, δ i doboru szumu.

Abadi i in. (2016)

Przykład z praktyki publicznej

US Census Bureau zastosowało dla danych redistricting z 2020 Census budżet ε = 12.2, ilustrując skalowanie budżetu na duże zbiory.

US Census Bureau (2021)

Wyzwania i ograniczenia

Planowanie budżetu prywatności wymaga kompromisu między ochroną a jakością detekcji. Interpretacja „co znaczy ε” jest nieintuicyjna dla użytkowników biznesowych i wymaga edukacji. Należy też rozróżnić dwa różne znaczenia „privacy budget”: w DP dotyczy parametrów (ε, δ), natomiast w przeglądarkowym ekosystemie reklamy proponowano odrębną koncepcję ograniczającą fingerprinting poprzez budżet zapytań do API. Ta druga nie jest tożsama z DP (zob. dyskusje WICG/Chromium w ramach Privacy Sandbox).

  • Brak progu regulacyjnego: Prawo UE nie definiuje akceptowalnych wartości ε/δ. Wymagane jest podejście oparte na ryzyku oraz adekwatność efektu anonimizacji (RODO, motyw 26; WP29, 2014).
  • Ciągła kompozycja: Wielokrotne eksperymenty i retrening modeli sumują budżet. Konieczna jest rachunkowość i polityka „resetu” na nowych danych.
  • Trade-off z jakością: Zbyt restrykcyjne ε może obniżyć mAP detektora twarzy/tablic do poziomu nieakceptowalnego operacyjnie.

Przykłady zastosowań w praktyce Gallio PRO

W zastosowaniach Gallio PRO budżet prywatności ma znaczenie przy tworzeniu lub dostrajaniu modeli wykrywających twarze i tablice rejestracyjne, które następnie służą do automatycznego zamazywania. Inspektor Ochrony Danych może zdefiniować limity (ε, δ) dla procesu uczenia oraz zasady kompozycji.

  • Trening detektora twarzy z DP-SGD: liczba epok, rozmiar próbki i poziom szumu determinują końcowe (ε, δ). Po osiągnięciu limitu trening należy zakończyć lub przeprojektować.
  • Agregacja etykiet: w projektach wymagających labelingu wideo można użyć mechanizmów PATE i kontrolować budżet podczas agregacji głosów nauczycieli.
  • Eksport metadanych: publikowanie statystyk o zbiorze (np. rozkład liczby twarzy w klatkach) powinno być objęte tym samym budżetem.
  • Operacyjna eksploatacja: Gallio PRO nie wykonuje anonimizacji w czasie rzeczywistym i nie zbiera logów detekcji twarzy ani tablic rejestracyjnych, co ogranicza ryzyka wtórne związane z wyciekiem danych osobowych.

Odniesienia normatywne i standardy

Regulacje i normy wyznaczają język pojęciowy oraz dobre praktyki, choć nie ustalają twardych progów dla ε i δ.

  • RODO (UE) 2016/679, motyw 26 - definicja informacji anonimowych i wymóg uwzględnienia „wszelkich sposobów, których można racjonalnie użyć” do identyfikacji.
  • WP29 (obecnie EROD), Opinion 05/2014 on Anonymisation Techniques - klasyfikacja technik i kryteria oceny ryzyka.
  • ISO/IEC 20889:2018 - Privacy enhancing data de-identification - Terminology and classification of techniques.
  • ISO/IEC 27559:2022 - Privacy enhancing data de-identification framework.
  • NISTIR 8053: 2015 - De-Identification of Personal Information - ramy oceny technik i ryzyk.

Źródła i literatura

Poniższe materiały zawierają definicje, rachunek kompozycji i przykłady zastosowań w uczeniu głębokim oraz w politykach sektora publicznego.

  • C. Dwork, F. McSherry, K. Nissim, A. Smith, Calibrating Noise to Sensitivity in Private Data Analysis, TCC 2006. Definicja (ε, δ)-DP.
  • C. Dwork, A. Roth, The Algorithmic Foundations of Differential Privacy, FnT TCS, 2014. Podstawy teoretyczne i kompozycja.
  • M. Abadi i in., Deep Learning with Differential Privacy, CCS 2016. DP-SGD i moments accountant.
  • I. Mironov, Renyi Differential Privacy, IEEE S&P 2017. RDP i rachunkowość.
  • N. Papernot i in., Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data (PATE), ICLR 2017/2018.
  • US Census Bureau, Disclosure Avoidance System for the 2020 Census, parameter selection (ε = 12.2 dla redistricting data), 2021 - dokumenty techniczne.
  • WICG/Chromium, Privacy Sandbox - dyskusje dot. „privacy budget” w przeglądarkach (odrębna koncepcja od DP).