T-closeness (t-bliskość) - definicja
T-closeness to model ochrony prywatności opublikowany przez Ninghui Li, Tiancheng Li i Suresh Venkatasubramanian w 2007 r. jako rozwinięcie wcześniejszych modeli k-anonimity i l-różnorodności. Jego celem jest ograniczenie tzw. ujawnienia atrybutu, czyli sytuacji, w której po przypisaniu rekordu do grupy anonimowości można z dużym prawdopodobieństwem odtworzyć cechę wrażliwą na podstawie rozkładu danych w tej grupie. W modelu t-closeness wymaga się, aby odległość między rozkładem atrybutu wrażliwego w każdej klasie równoważności a rozkładem tego atrybutu w całym zbiorze nie przekraczała progu t.
W literaturze źródłowej odległość tę definiuje się przez Earth Mover's Distance (EMD). Formalnie dla każdej klasy równoważności E warunek ma postać: odległość(D(E), D(T)) <= t, gdzie D(E) oznacza rozkład atrybutu wrażliwego w klasie E, a D(T) rozkład tego atrybutu w całym zbiorze danych. Artykuł źródłowy: Li, Li, Venkatasubramanian, "t-Closeness: Privacy Beyond k-Anonymity and l-Diversity", ICDE 2007, IEEE.
W kontekście anonimizacji zdjęć i nagrań wideo t-closeness nie jest mechanizmem zamazywania twarzy ani tablic rejestracyjnych. To model oceny ryzyka ujawnienia informacji pochodzących z metadanych, etykiet, wyników detekcji lub opisów scen, które pozostają po przetwarzaniu materiału. Ma więc znaczenie wtedy, gdy organizacja buduje zbiory danych, eksporty statystyczne lub raporty z procesów anonimizacji zdjęć i wideo, a nie wtedy, gdy samo oprogramowanie nakłada maskę na twarz.
Rola t-closeness w anonimizacji zdjęć i wideo
W systemach przetwarzających obrazy i nagrania ryzyko prywatności nie kończy się na zamazaniu twarzy. Nawet po usunięciu bezpośrednich identyfikatorów mogą pozostać dane pośrednio ujawniające informacje o osobach lub zdarzeniach. T-closeness jest użyteczne jako warstwa analityczna dla danych wtórnych.
W praktyce dotyczy to przede wszystkim zbiorów pochodnych, takich jak opisy materiałów, statystyki detekcji, adnotacje treningowe czy raporty operacyjne. W takich przypadkach klasą równoważności może być np. grupa nagrań z tej samej lokalizacji, dnia lub typu zdarzenia.
- Atrybuty quasi-identyfikujące - lokalizacja kamery, pora dnia, typ obiektu, warunki pogodowe, długość ujęcia, kategoria miejsca.
- Atrybuty wrażliwe - obecność dziecka, interwencji medycznej, służb, protestu, zdarzenia drogowego lub innego kontekstu podwyższonego ryzyka.
- Ryzyko - połączenie quasi-identyfikatorów z rozkładem atrybutów wrażliwych może ujawniać więcej, niż wynika z samego zamazania twarzy.
Przykład praktyczny: jeśli raport dla określonej kamery i przedziału czasowego pokazuje niemal wyłącznie nagrania oznaczone jako "interwencja medyczna", to nawet bez wizerunku można ujawnić wrażliwy kontekst zdarzeń. T-closeness ma zapobiec takiemu odchyleniu rozkładu.
Jak działa t-closeness w praktyce?
Model opiera się na klasach równoważności, czyli grupach rekordów nierozróżnialnych pod względem quasi-identyfikatorów. Następnie porównuje się rozkład atrybutu wrażliwego wewnątrz każdej grupy z rozkładem globalnym.
Dla danych uporządkowanych lub liczbowych stosuje się zwykle EMD, ponieważ uwzględnia ono "odległość" pomiędzy kategoriami. Dla danych nominalnych w pracy źródłowej stosuje się odległość równą połowie sumy różnic bezwzględnych między rozkładami. Wybór metryki powinien być jawnie udokumentowany.
Element modelu | Znaczenie w danych foto-wideo
|
|---|---|
Quasi-identyfikatory | cechy opisu materiału, które same nie identyfikują osoby, ale w połączeniu mogą zawężać zbiór |
Atrybut wrażliwy | cecha ujawniająca kontekst zdarzenia lub kategorię szczególnej ostrożności |
Klasa równoważności | grupa nagrań lub zdjęć o tych samych uogólnionych quasi-identyfikatorach |
Próg t | maksymalna dopuszczalna różnica między rozkładem lokalnym i globalnym |
Im niższy próg t, tym silniejsza ochrona, ale też większa utrata użyteczności danych. Nie istnieje jeden uniwersalny próg narzucony prawem lub normą ISO. Wartość t dobiera się zależnie od celu przetwarzania, wielkości zbioru i tolerowanego ryzyka.
Kluczowe parametry i metryki t-closeness
Ocena t-closeness wymaga zdefiniowania mierzalnych parametrów. W praktyce projektowej należy dokumentować nie tylko samo t, ale także sposób budowy klas równoważności i koszt informacyjny anonimizacji.
- t - maksymalna dopuszczalna odległość rozkładów.
- EMD - podstawowa metryka odległości rozkładów dla atrybutów uporządkowanych lub liczbowych, wskazana w pracy źródłowej z 2007 r.
- Wielkość klasy równoważności - wpływa na stabilność estymacji rozkładów.
- Information loss - utrata informacji po generalizacji lub supresji danych.
- Disclosure risk - ryzyko ujawnienia atrybutu po anonimizacji.
W środowisku obrazu i wideo warto dodać także metryki operacyjne, które nie należą do definicji t-closeness, ale wpływają na bezpieczeństwo całego procesu:
- Precision i recall detekcji twarzy oraz tablic - błędy detekcji wpływają na jakość danych wejściowych do dalszej anonimizacji.
- False negative rate - pominięta twarz lub tablica oznacza ryzyko bezpośrednie, którego t-closeness nie kompensuje.
- Czas przetwarzania partii danych - ważny operacyjnie, ale nie jest parametrem modelu t-closeness.
T-closeness a zamazywanie twarzy i tablic rejestracyjnych
Trzeba wyraźnie rozdzielić dwa poziomy ochrony. Zamazywanie twarzy i tablic rejestracyjnych działa na poziomie pikseli obrazu. T-closeness działa na poziomie danych opisowych lub analitycznych. To nie są rozwiązania zamienne.
W systemach takich jak Gallio PRO automatyczne przetwarzanie dotyczy twarzy i tablic rejestracyjnych. Nie obejmuje automatycznego wykrywania logotypów, tatuaży, tabliczek z imionami, dokumentów czy obrazu na monitorach. Takie elementy mogą być maskowane manualnie w edytorze. Jeżeli po anonimizacji organizacja przechowuje dodatkowe etykiety lub metadane o materiale, to właśnie tam może pojawić się potrzeba użycia modelu takiego jak t-closeness.
Do automatycznego zamazywania twarzy i tablic niezbędne są modele AI oparte zwykle na deep learning, trenowane na danych obrazowych do zadań detekcji obiektów. T-closeness nie służy do trenowania tych modeli. Może natomiast służyć do bezpieczniejszego udostępniania zbiorów adnotacji, statystyk lub wyników ewaluacji tych modeli.
Wyzwania i ograniczenia t-closeness
Model jest bardziej restrykcyjny niż k-anonimity i l-różnorodność, ale nie rozwiązuje wszystkich problemów. W zastosowaniach foto-wideo szczególnie ważne są ograniczenia związane z wysokowymiarowością danych i semantyką obrazu.
- Nie działa na surowych pikselach - wymaga tabelarycznej reprezentacji atrybutów.
- Wrażliwość na definicję atrybutu wrażliwego - błędna kategoryzacja scen obniża wartość modelu.
- Koszt użyteczności - silna generalizacja może obniżyć wartość analityczną zbioru.
- Brak normatywnego progu t - konieczna jest ocena ryzyka i dokumentacja decyzji.
- Nie zastępuje zgodności prawnej - samo spełnienie t-closeness nie oznacza zgodności z RODO.
Odniesienia normatywne i źródła
T-closeness jest pojęciem naukowym, a nie standardem ISO lub wymogiem literalnie wskazanym w RODO. Mimo to wpisuje się w logikę ochrony danych przez projektowanie i minimalizacji ryzyka.
- Li, N., Li, T., Venkatasubramanian, S., "t-Closeness: Privacy Beyond k-Anonymity and l-Diversity", IEEE 23rd International Conference on Data Engineering, 2007.
- Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 - RODO, w szczególności art. 5, art. 25 i motyw 26.
- Opinia 05/2014 Grupy Roboczej Art. 29 w sprawie technik anonimizacji oraz wytyczne EDPB dotyczące pseudonimizacji i oceny ryzyka można interpretować łącznie z oceną ryzyka ponownej identyfikacji, choć nie ustanawiają one modelu t-closeness jako obowiązkowego standardu.
W praktyce compliance t-closeness można traktować jako technikę wspierającą ocenę ryzyka dla danych pochodnych związanych ze zdjęciami i nagraniami wideo. Nie zastępuje ona kontroli dostępu, retencji, analizy podstawy prawnej ani technicznej skuteczności zamazywania twarzy i tablic rejestracyjnych.