Co to jest De-identyfikacja?

Definicja

De-identyfikacja to proces usuwania lub modyfikowania informacji umożliwiających identyfikację osoby fizycznej w zbiorach danych, tak aby nie można było przypisać danych do konkretnego podmiotu przy użyciu rozsądnie dostępnych metod. W europejskim kontekście regulacyjnym termin de-identyfikacja jest zbliżony do anonimizacji, jednak w praktyce obejmuje również techniki obniżania ryzyka identyfikacji bez całkowitego wykluczenia możliwości ponownego powiązania, co odróżnia ją od anonimizacji w rozumieniu Recitalu 26 RODO.

W przypadku przetwarzania obrazów i nagrań wideo de-identyfikacja polega na usuwaniu lub modyfikowaniu elementów wizualnych, takich jak twarze, tablice rejestracyjne, sylwetki, rozpoznawalne tatuaże lub inne cechy biometryczne, aby zminimalizować ryzyko identyfikacji osób utrwalonych na materiale.

Zakres de-identyfikacji w danych wizualnych

Proces de-identyfikacji materiałów wizualnych obejmuje szereg technik przetwarzania obrazu i wideo. W odróżnieniu od typowych operacji anonimizacji, de-identyfikacja może pozostawiać niektóre cechy nietożsame z rzeczywistą osobą (np. syntetyczne twarze), o ile ryzyko ponownej identyfikacji pozostaje na akceptowalnym poziomie.

  • Maskowanie bezpośrednie - rozmycie, pikselizacja, zastąpienie fragmentu obrazu jednolitym kolorem.
  • Transformacje geometryczne - przesunięcie, deformacja lub rekonstrukcja twarzy w sposób nienaruszający integralności ujęcia.
  • Wymiana danych wizualnych - podmiana twarzy lub obiektu na syntetyczny odpowiednik (np. wygenerowany AI).
  • Usuwanie metadanych - eliminacja danych EXIF, lokalizacji GPS, informacji czasowych oraz identyfikatorów urządzeń.
  • Maskowanie kontekstowe - usuwanie rozpoznawalnych elementów otoczenia, które mogą prowadzić do identyfikacji pośredniej.

Różnice między de-identyfikacją a anonimizacją

De-identyfikacja jest pojęciem szerszym niż anonimizacja w rozumieniu prawnym. Anonimizacja zakłada trwałą i nieodwracalną niemożność identyfikacji osoby, natomiast de-identyfikacja obejmuje techniki redukcji ryzyka, które mogą, ale nie muszą, prowadzić do stanu całkowitej anonimowości.

Cecha

De-identyfikacja

Anonimizacja

Status prawny

Nie gwarantuje pełnej nieodwracalności

Wymaga nieodwracalności (RODO)

Zastosowanie

Redukcja ryzyka, przygotowanie danych

Eliminacja identyfikowalności

Dopuszczalna rekonstrukcja?

Możliwa w pewnych scenariuszach kontrolowanych

Niedozwolona

Techniki i modele ryzyka w de-identyfikacji

W praktyce de-identyfikacja obejmuje ocenę ryzyka ponownej identyfikacji i jego redukcję do akceptowalnego poziomu. Zgodnie z podejściami stosowanymi m.in. przez NIST oraz ISO/IEC 20889:2018 proces obejmuje modelowanie zagrożeń oraz analizę możliwości użycia informacji quasi-identyfikujących.

  • K-anonimowość - każda osoba jest nierozróżnialna w grupie co najmniej k elementów.
  • L-diversity - zanonimizowane grupy muszą zawierać przynajmniej l zróżnicowanych wartości chronionych.
  • T-closeness - rozkład wartości chronionych w grupie musi być zbliżony do rozkładu w całym zbiorze.
  • Modele ataków - linkage attacks, background knowledge attacks, reconstruction attacks.

Metryki i testy jakości de-identyfikacji

W danych wizualnych kluczowe jest mierzenie zarówno skuteczności ukrycia tożsamości, jak i jakości materiału po de-identyfikacji.

Metryka

Znaczenie

Face Re-identification Risk

Prawdopodobieństwo ponownego dopasowania twarzy przez system rozpoznawania.

PSNR / SSIM

Pomiar zniekształceń obrazu po zastosowaniu de-identyfikacji.

Detection Preservation Rate

W jakim stopniu zmiany wpływają na wykrywalność obiektów niebędących danymi osobowymi.

Privacy Gain

Stopień redukcji identyfikowalności.

Residual Information Score

Ilość informacji, które mogą prowadzić do identyfikacji pośredniej.

Zastosowania de-identyfikacji w przetwarzaniu zdjęć i wideo

W systemach operujących na danych wizualnych de-identyfikacja umożliwia wykorzystanie materiałów w sposób zgodny z regulacjami prawnymi oraz minimalizujący ryzyko naruszenia prywatności. Typowe zastosowania obejmują:

  • Przygotowanie materiałów wideo do analizy lub uczenia modeli AI bez ujawniania danych osobowych.
  • Redukcję identyfikowalności w nagraniach z monitoringu udostępnianych instytucjom zewnętrznym.
  • Generowanie materiałów zanonimizowanych do celów testowych i walidacyjnych.
  • De-identyfikację materiału w procesach medycznych lub badawczych.
  • Tworzenie zbiorów danych o niskim poziomie ryzyka (low-risk datasets).

Wyzwania i ograniczenia

De-identyfikacja napotyka wiele trudności związanych z różnorodnością scen wizualnych oraz zaawansowanymi metodami rozpoznawania tożsamości.

  • Zaawansowane systemy rozpoznawania twarzy mogą ponownie identyfikować osoby mimo maskowania.
  • Szeroka gama czynników kontekstowych (ubrania, otoczenie, zachowanie) może prowadzić do identyfikacji pośredniej.
  • Ryzyko degradacji materiału przy agresywnych technikach ukrywania.
  • Trudności w automatycznym wyszukiwaniu wszystkich elementów pozwalających na identyfikację.
  • Złożoność walidacji - konieczność stosowania testów przeciwko realnym systemom biometrycznym.