Co to jest T-closeness (t-bliskość)?

T-closeness (t-bliskość) - definicja

T-closeness to model ochrony prywatności opublikowany przez Ninghui Li, Tiancheng Li i Suresh Venkatasubramanian w 2007 r. jako rozwinięcie wcześniejszych modeli k-anonimity i l-różnorodności. Jego celem jest ograniczenie tzw. ujawnienia atrybutu, czyli sytuacji, w której po przypisaniu rekordu do grupy anonimowości można z dużym prawdopodobieństwem odtworzyć cechę wrażliwą na podstawie rozkładu danych w tej grupie. W modelu t-closeness wymaga się, aby odległość między rozkładem atrybutu wrażliwego w każdej klasie równoważności a rozkładem tego atrybutu w całym zbiorze nie przekraczała progu t.

W literaturze źródłowej odległość tę definiuje się przez Earth Mover's Distance (EMD). Formalnie dla każdej klasy równoważności E warunek ma postać: odległość(D(E), D(T)) <= t, gdzie D(E) oznacza rozkład atrybutu wrażliwego w klasie E, a D(T) rozkład tego atrybutu w całym zbiorze danych. Artykuł źródłowy: Li, Li, Venkatasubramanian, "t-Closeness: Privacy Beyond k-Anonymity and l-Diversity", ICDE 2007, IEEE.

W kontekście anonimizacji zdjęć i nagrań wideo t-closeness nie jest mechanizmem zamazywania twarzy ani tablic rejestracyjnych. To model oceny ryzyka ujawnienia informacji pochodzących z metadanych, etykiet, wyników detekcji lub opisów scen, które pozostają po przetwarzaniu materiału. Ma więc znaczenie wtedy, gdy organizacja buduje zbiory danych, eksporty statystyczne lub raporty z procesów anonimizacji zdjęć i wideo, a nie wtedy, gdy samo oprogramowanie nakłada maskę na twarz.

Rola t-closeness w anonimizacji zdjęć i wideo

W systemach przetwarzających obrazy i nagrania ryzyko prywatności nie kończy się na zamazaniu twarzy. Nawet po usunięciu bezpośrednich identyfikatorów mogą pozostać dane pośrednio ujawniające informacje o osobach lub zdarzeniach. T-closeness jest użyteczne jako warstwa analityczna dla danych wtórnych.

W praktyce dotyczy to przede wszystkim zbiorów pochodnych, takich jak opisy materiałów, statystyki detekcji, adnotacje treningowe czy raporty operacyjne. W takich przypadkach klasą równoważności może być np. grupa nagrań z tej samej lokalizacji, dnia lub typu zdarzenia.

  • Atrybuty quasi-identyfikujące - lokalizacja kamery, pora dnia, typ obiektu, warunki pogodowe, długość ujęcia, kategoria miejsca.
  • Atrybuty wrażliwe - obecność dziecka, interwencji medycznej, służb, protestu, zdarzenia drogowego lub innego kontekstu podwyższonego ryzyka.
  • Ryzyko - połączenie quasi-identyfikatorów z rozkładem atrybutów wrażliwych może ujawniać więcej, niż wynika z samego zamazania twarzy.

Przykład praktyczny: jeśli raport dla określonej kamery i przedziału czasowego pokazuje niemal wyłącznie nagrania oznaczone jako "interwencja medyczna", to nawet bez wizerunku można ujawnić wrażliwy kontekst zdarzeń. T-closeness ma zapobiec takiemu odchyleniu rozkładu.

Jak działa t-closeness w praktyce?

Model opiera się na klasach równoważności, czyli grupach rekordów nierozróżnialnych pod względem quasi-identyfikatorów. Następnie porównuje się rozkład atrybutu wrażliwego wewnątrz każdej grupy z rozkładem globalnym.

Dla danych uporządkowanych lub liczbowych stosuje się zwykle EMD, ponieważ uwzględnia ono "odległość" pomiędzy kategoriami. Dla danych nominalnych w pracy źródłowej stosuje się odległość równą połowie sumy różnic bezwzględnych między rozkładami. Wybór metryki powinien być jawnie udokumentowany.

Element modelu

Znaczenie w danych foto-wideo

 

Quasi-identyfikatory

cechy opisu materiału, które same nie identyfikują osoby, ale w połączeniu mogą zawężać zbiór

Atrybut wrażliwy

cecha ujawniająca kontekst zdarzenia lub kategorię szczególnej ostrożności

Klasa równoważności

grupa nagrań lub zdjęć o tych samych uogólnionych quasi-identyfikatorach

Próg t

maksymalna dopuszczalna różnica między rozkładem lokalnym i globalnym

Im niższy próg t, tym silniejsza ochrona, ale też większa utrata użyteczności danych. Nie istnieje jeden uniwersalny próg narzucony prawem lub normą ISO. Wartość t dobiera się zależnie od celu przetwarzania, wielkości zbioru i tolerowanego ryzyka.

Kluczowe parametry i metryki t-closeness

Ocena t-closeness wymaga zdefiniowania mierzalnych parametrów. W praktyce projektowej należy dokumentować nie tylko samo t, ale także sposób budowy klas równoważności i koszt informacyjny anonimizacji.

  • t - maksymalna dopuszczalna odległość rozkładów.
  • EMD - podstawowa metryka odległości rozkładów dla atrybutów uporządkowanych lub liczbowych, wskazana w pracy źródłowej z 2007 r.
  • Wielkość klasy równoważności - wpływa na stabilność estymacji rozkładów.
  • Information loss - utrata informacji po generalizacji lub supresji danych.
  • Disclosure risk - ryzyko ujawnienia atrybutu po anonimizacji.

W środowisku obrazu i wideo warto dodać także metryki operacyjne, które nie należą do definicji t-closeness, ale wpływają na bezpieczeństwo całego procesu:

  • Precision i recall detekcji twarzy oraz tablic - błędy detekcji wpływają na jakość danych wejściowych do dalszej anonimizacji.
  • False negative rate - pominięta twarz lub tablica oznacza ryzyko bezpośrednie, którego t-closeness nie kompensuje.
  • Czas przetwarzania partii danych - ważny operacyjnie, ale nie jest parametrem modelu t-closeness.

T-closeness a zamazywanie twarzy i tablic rejestracyjnych

Trzeba wyraźnie rozdzielić dwa poziomy ochrony. Zamazywanie twarzy i tablic rejestracyjnych działa na poziomie pikseli obrazu. T-closeness działa na poziomie danych opisowych lub analitycznych. To nie są rozwiązania zamienne.

W systemach takich jak Gallio PRO automatyczne przetwarzanie dotyczy twarzy i tablic rejestracyjnych. Nie obejmuje automatycznego wykrywania logotypów, tatuaży, tabliczek z imionami, dokumentów czy obrazu na monitorach. Takie elementy mogą być maskowane manualnie w edytorze. Jeżeli po anonimizacji organizacja przechowuje dodatkowe etykiety lub metadane o materiale, to właśnie tam może pojawić się potrzeba użycia modelu takiego jak t-closeness.

Do automatycznego zamazywania twarzy i tablic niezbędne są modele AI oparte zwykle na deep learning, trenowane na danych obrazowych do zadań detekcji obiektów. T-closeness nie służy do trenowania tych modeli. Może natomiast służyć do bezpieczniejszego udostępniania zbiorów adnotacji, statystyk lub wyników ewaluacji tych modeli.

Wyzwania i ograniczenia t-closeness

Model jest bardziej restrykcyjny niż k-anonimity i l-różnorodność, ale nie rozwiązuje wszystkich problemów. W zastosowaniach foto-wideo szczególnie ważne są ograniczenia związane z wysokowymiarowością danych i semantyką obrazu.

  • Nie działa na surowych pikselach - wymaga tabelarycznej reprezentacji atrybutów.
  • Wrażliwość na definicję atrybutu wrażliwego - błędna kategoryzacja scen obniża wartość modelu.
  • Koszt użyteczności - silna generalizacja może obniżyć wartość analityczną zbioru.
  • Brak normatywnego progu t - konieczna jest ocena ryzyka i dokumentacja decyzji.
  • Nie zastępuje zgodności prawnej - samo spełnienie t-closeness nie oznacza zgodności z RODO.

Odniesienia normatywne i źródła

T-closeness jest pojęciem naukowym, a nie standardem ISO lub wymogiem literalnie wskazanym w RODO. Mimo to wpisuje się w logikę ochrony danych przez projektowanie i minimalizacji ryzyka.

  • Li, N., Li, T., Venkatasubramanian, S., "t-Closeness: Privacy Beyond k-Anonymity and l-Diversity", IEEE 23rd International Conference on Data Engineering, 2007.
  • Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 - RODO, w szczególności art. 5, art. 25 i motyw 26.
  • Opinia 05/2014 Grupy Roboczej Art. 29 w sprawie technik anonimizacji oraz wytyczne EDPB dotyczące pseudonimizacji i oceny ryzyka można interpretować łącznie z oceną ryzyka ponownej identyfikacji, choć nie ustanawiają one modelu t-closeness jako obowiązkowego standardu.

W praktyce compliance t-closeness można traktować jako technikę wspierającą ocenę ryzyka dla danych pochodnych związanych ze zdjęciami i nagraniami wideo. Nie zastępuje ona kontroli dostępu, retencji, analizy podstawy prawnej ani technicznej skuteczności zamazywania twarzy i tablic rejestracyjnych.