Co to jest L-diversity (l-różnorodność)?

L-diversity (l-różnorodność) - definicja

L-diversity to model prywatności zaproponowany jako rozwinięcie k-anonimowości. Został opisany przez A. Machanavajjhala, D. Kifer, J. Gehrke i M. Venkitasubramaniam w 2007 r. w pracy naukowej dotyczącej ochrony przed ujawnieniem atrybutów w zbiorach danych. W najkrótszym ujęciu model wymaga, aby w każdej grupie rekordów nierozróżnialnych względem tzw. quasi-identyfikatorów występowało co najmniej l dobrze reprezentowanych wartości atrybutu wrażliwego. Celem jest ograniczenie sytuacji, w której osoba nie może być wprawdzie łatwo wskazana, ale można z dużym prawdopodobieństwem odgadnąć cechę poufną przypisaną do jej rekordu.

W kontekście anonimizacji zdjęć i nagrań wideo pojęcie to nie odnosi się bezpośrednio do samego efektu rozmycia twarzy lub tablic rejestracyjnych. L-diversity jest raczej modelem oceny ryzyka ujawnienia informacji w zbiorach danych, metadanych lub zestawieniach cech wyprowadzonych z obrazu i wideo. Ma znaczenie wtedy, gdy organizacja tworzy, przechowuje lub udostępnia uporządkowane zbiory informacji pochodzących z materiałów wizualnych, na przykład opisy scen, znaczniki czasu, lokalizacje, klasy obiektów, wyniki detekcji albo statystyki zdarzeń.

Jeżeli materiał foto lub wideo został poddany zamazaniu twarzy, ale pozostawiono szczegółowe metadane, to ryzyko identyfikacji lub wnioskowania nadal może istnieć. Przykładowo, połączenie lokalizacji, godziny, typu zdarzenia i innych cech może prowadzić do zawężenia grupy osób. W takim układzie l-różnorodność może być używana jako kryterium pomocnicze przy projektowaniu bezpiecznych zbiorów wtórnych, ale nie zastępuje technik anonimizacji obrazu. W praktyce Gallio PRO automatycznie zamazuje twarze i tablice rejestracyjne, natomiast l-diversity dotyczy warstwy danych towarzyszących lub danych analitycznych budowanych na bazie materiału po anonimizacji.

Jak rozumieć L-diversity w przetwarzaniu zdjęć i nagrań wideo?

W systemach pracujących z obrazem i wideo dane osobowe mogą występować w kilku warstwach jednocześnie. Pierwsza warstwa to sam obraz, w którym identyfikatorami są twarz, tablica rejestracyjna lub inne cechy umożliwiające identyfikację. Druga warstwa to metadane i cechy pochodne, na przykład data nagrania, geolokalizacja, numer kamery, typ zdarzenia, liczba osób w kadrze czy klasyfikacja aktywności.

L-diversity ma zastosowanie głównie do drugiej warstwy. Jeżeli organizacja eksportuje zanonimizowane nagrania wraz z tabelą opisową, to anonimowość nie zależy wyłącznie od jakości rozmycia twarzy. Zależy też od tego, czy opublikowane grupy rekordów nie ujawniają zbyt jednorodnych informacji o osobach lub zdarzeniach.

Warstwa danych

Przykład

Czy L-diversity ma zastosowanie?

Uwagi praktyczne

 

Obraz pikselowy

Twarz widoczna w kadrze

Nie bezpośrednio

Tu stosuje się detekcję i zamazywanie twarzy

Obraz pikselowy

Tablica rejestracyjna pojazdu

Nie bezpośrednio

Tu stosuje się detekcję i zamazywanie tablic

Metadane

Godzina, miejsce, typ zdarzenia

Tak

Ryzyko wnioskowania mimo anonimizacji obrazu

Cechy analityczne

Liczba osób, klasy obiektów, tagi sceny

Tak

Wymaga oceny quasi-identyfikatorów i atrybutów wrażliwych

Relacja między L-diversity a anonimizacją twarzy i tablic rejestracyjnych

Anonimizacja obrazu polega na usunięciu lub znacznym ograniczeniu możliwości identyfikacji osoby lub pojazdu w samym materiale wizualnym. W praktyce oznacza to wykrycie twarzy i tablic rejestracyjnych, a następnie ich zamazanie. Do automatycznego wykrywania najczęściej wykorzystuje się modele uczenia maszynowego, w tym deep learning, ponieważ klasyczne metody oparte na prostych cechach obrazu są zwykle mniej odporne na zmianę oświetlenia, kąta, zasłonięcia i jakości nagrania.

To ważne rozróżnienie. Deep learning jest często używany do budowy modeli AI wykrywających twarze i tablice rejestracyjne, które następnie mogą być wykorzystywane do anonimizacji materiałów. L-diversity nie opisuje jakości modelu detekcji. Nie mówi też, jak mocno rozmyć twarz ani jak szeroki obszar tablicy zakryć. Model ten służy do oceny prywatności danych tabelarycznych lub ustrukturyzowanych, które mogą być generowane obok procesu anonimizacji zdjęć i wideo.

W praktyce oznacza to dwa odrębne poziomy ochrony:

  • poziom materiału wizualnego - wykrycie i zamazanie twarzy oraz tablic rejestracyjnych,
  • poziom danych wtórnych - ograniczenie ryzyka identyfikacji lub wnioskowania z metadanych i raportów analitycznych, między innymi przez k-anonimowość, l-różnorodność lub bardziej zaawansowane modele.

Kluczowe parametry i warunki L-diversity

Aby zastosować l-różnorodność, trzeba najpierw określić quasi-identyfikatory i atrybut wrażliwy. Quasi-identyfikatory to cechy, które same w sobie nie muszą identyfikować osoby, ale po połączeniu z innymi danymi mogą znacząco zawęzić zbiór kandydatów. W danych pochodzących z wideo będą to na przykład lokalizacja kamery, przedział czasu, kategoria miejsca czy typ zdarzenia.

Najczęściej spotyka się trzy warianty interpretacyjne opisywane w literaturze:

  • distinct l-diversity - w każdej klasie równoważności występuje co najmniej l różnych wartości atrybutu wrażliwego,
  • entropy l-diversity - rozkład wartości atrybutu wrażliwego ma odpowiednio wysoką entropię,
  • recursive (c, l)-diversity - dodatkowo ogranicza dominację najczęstszych wartości, aby uniknąć pozornej różnorodności.

Uproszczony warunek dla entropy l-diversity można zapisać następująco:

H(S) = - Σ p(s) log p(s) >= log(l)

gdzie H(S) to entropia rozkładu atrybutu wrażliwego w danej klasie równoważności, a p(s) to prawdopodobieństwo wystąpienia wartości s.

Parametr

Znaczenie

Znaczenie praktyczne dla danych z wideo

 

k

Liczność klasy równoważności

Minimalna liczba rekordów o tych samych quasi-identyfikatorach

l

Minimalna różnorodność atrybutu wrażliwego

Ogranicza możliwość odgadnięcia poufnej cechy zdarzenia lub osoby

Entropia

Miara zróżnicowania rozkładu

Chroni przed klasami zdominowanymi przez jedną wartość

Ograniczenia L-diversity w ochronie prywatności materiałów wizualnych

L-diversity nie jest modelem wystarczającym dla całego procesu anonimizacji zdjęć i nagrań. W literaturze wskazano, że może on zawodzić przy silnie skośnych rozkładach danych i przy semantycznym podobieństwie wartości atrybutu wrażliwego. Problem ten opisano między innymi w kontekście dalszego rozwoju do modelu t-closeness, przedstawionego przez N. Li, T. Li i S. Venkatasubramanian w 2007 r.

W praktyce dla materiałów wizualnych ograniczenia są następujące:

  • model nie chroni samego obrazu, jeśli twarz lub tablica rejestracyjna pozostały widoczne,
  • model nie rozwiązuje problemu identyfikacji przez kontekst sceny, na przykład charakterystyczne miejsce lub unikalny pojazd,
  • model jest trudny do zastosowania do surowego materiału nieustrukturyzowanego bez wcześniejszego przekształcenia go do postaci tabelarycznej,
  • sam warunek liczby różnych wartości może być zbyt słaby, jeśli wartości są do siebie semantycznie bardzo podobne.

Praktyczny kontekst zastosowania w środowisku on-premise

W środowiskach zgodnych z zasadą minimalizacji danych sensowne podejście polega na łączeniu kilku warstw zabezpieczeń. Najpierw należy zanonimizować materiał wizualny przez zamazanie twarzy i tablic rejestracyjnych. Następnie trzeba ograniczyć zakres metadanych oraz ocenić ryzyko ponownej identyfikacji w zbiorach pochodnych.

W przypadku rozwiązań on-premise dodatkową korzyścią jest pełniejsza kontrola nad przepływem danych, retencją i polityką dostępu. Nie zmienia to jednak faktu, że bezpieczeństwo danych zależy również od tego, jakie zestawy eksportowe są tworzone po zakończeniu obróbki. L-diversity może być użyte jako kryterium audytowe dla raportów, statystyk i rejestrów zdarzeń budowanych na bazie przetworzonych nagrań.

Odniesienia normatywne i źródła

L-diversity nie jest standardem prawnym ani normą ISO. To model naukowy stosowany w inżynierii prywatności. W ocenie zgodności przetwarzania obrazu i wideo należy go traktować jako narzędzie pomocnicze, a nie substytut obowiązków wynikających z prawa ochrony danych. Dla przetwarzania materiałów wizualnych podstawowe znaczenie mają przepisy RODO, w szczególności zasady minimalizacji danych, privacy by design oraz ocena ryzyka dla praw i wolności osób, których dane dotyczą.

  • Machanavajjhala A., Kifer D., Gehrke J., Venkitasubramaniam M., "l-Diversity: Privacy Beyond k-Anonymity", ACM Transactions on Knowledge Discovery from Data, 1(1), 2007.
  • Li N., Li T., Venkatasubramanian S., "t-Closeness: Privacy Beyond k-Anonymity and l-Diversity", ICDE 2007, IEEE.
  • Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 z 27 kwietnia 2016 r. - RODO.