Co to jest Re-identification (reidentyfikacja danych)?

Spis treści

Re-identification (reidentyfikacja danych) - definicja
Rola reidentyfikacji danych w anonimizacji zdjęć i wideo
Technologie i mechanizmy reidentyfikacji danych
Kluczowe parametry i metryki reidentyfikacji danych
Wyzwania i ograniczenia reidentyfikacji danych
Odniesienia normatywne i źródłowe dla reidentyfikacji danych
Przykłady zastosowań i oceny ryzyka reidentyfikacji danych

Re-identification, po polsku reidentyfikacja danych, oznacza proces ponownego powiązania danych, które miały nie pozwalać na bezpośrednie wskazanie osoby, z konkretną osobą fizyczną. W praktyce chodzi o odwrócenie efektu pseudonimizacji, nieskutecznej anonimizacji albo o połączenie kilku zbiorów informacji w taki sposób, aby ustalić tożsamość osoby widocznej na zdjęciu lub nagraniu wideo. W kontekście materiałów wizualnych ryzyko to dotyczy przede wszystkim twarzy, tablic rejestracyjnych oraz cech pośrednich, takich jak lokalizacja, czas nagrania, ubiór, kontekst zdarzenia czy unikalne cechy pojazdu.

Z perspektywy RODO reidentyfikacja ma znaczenie zasadnicze, ponieważ ocena, czy dany materiał został skutecznie zanonimizowany, zależy od tego, czy identyfikacja osoby jest nadal możliwa przy użyciu środków, które można racjonalnie wziąć pod uwagę. Taki test wynika z motywu 26 RODO, czyli rozporządzenia (UE) 2016/679. Jeżeli po zamazaniu obrazu twarzy lub tablicy rejestracyjnej nadal istnieje realna możliwość ustalenia tożsamości na podstawie innych elementów kadru lub metadanych, materiał nie powinien być traktowany jako anonimowy.

Re-identification (reidentyfikacja danych) - definicja

W ujęciu operacyjnym reidentyfikacja danych w obrazie i wideo to zdolność do przypisania zanonimizowanego lub częściowo zanonimizowanego rekordu wizualnego do tej samej osoby lub tego samego pojazdu co wcześniej znany rekord referencyjny. W literaturze technicznej pojęcie to występuje także jako person re-identification, vehicle re-identification albo identity linkage. Nie zawsze oznacza ono odzyskanie imienia i nazwiska. Wystarczy wiarygodne ustalenie, że osoba z materiału A to ta sama osoba co na materiale B, a następnie połączenie tego wyniku z dodatkowymi informacjami zewnętrznymi.

W praktyce anonimizacji zdjęć i nagrań wideo reidentyfikacja występuje najczęściej w trzech sytuacjach. Po pierwsze, gdy rozmycie twarzy lub tablicy jest zbyt słabe i możliwe do obejścia. Po drugie, gdy widoczne pozostają inne identyfikatory pośrednie. Po trzecie, gdy materiał zawiera metadane lub kontekst umożliwiający korelację z innymi źródłami danych.

Element	Znaczenie dla reidentyfikacji	Przykład w materiale wideo
Twarz	Identyfikator bezpośredni lub biometryczny	Niedokładnie zamazana twarz w kadrze bocznym
Tablica rejestracyjna	Identyfikator pojazdu, czasem pośrednio właściciela lub użytkownika	Częściowo czytelny numer po kompresji eksportu
Cechy ubioru i sylwetki	Identyfikator pośredni	Ten sam płaszcz, plecak i trasa przejścia
Metadane	Źródło korelacji z innymi zbiorami	Data, godzina, GPS, nazwa urządzenia
Kontekst sceny	Ułatwia identyfikację przy małej liczbie osób	Wejście do konkretnej firmy lub posesji

Rola reidentyfikacji danych w anonimizacji zdjęć i wideo

Ocena ryzyka reidentyfikacji jest jednym z podstawowych testów jakości anonimizacji. Sam fakt użycia efektu blur, maski lub pikselozy nie przesądza jeszcze o skuteczności ochrony prywatności. Liczy się rezultat końcowy i odporność materiału na powiązanie z osobą przy użyciu rozsądnie dostępnych środków technicznych oraz organizacyjnych.

W odniesieniu do zdjęć i nagrań wideo szczególnie ważne jest rozróżnienie między anonimizacją a pseudonimizacją. Jeżeli administrator lub odbiorca materiału może nadal odtworzyć tożsamość, bo posiada oryginał, klucz powiązań, inne nagrania referencyjne albo dokładne metadane, zwykle nie mamy do czynienia z anonimizacją w sensie ścisłym. To istotne dla inspektora ochrony danych przy ocenie podstawy prawnej, retencji, udostępniania materiałów i obowiązków informacyjnych.

Anonimizacja ma ograniczyć możliwość identyfikacji do poziomu praktycznie nieodwracalnego.
Pseudonimizacja zmniejsza ryzyko, ale nadal pozostawia możliwość ponownego przypisania danych do osoby.
Reidentyfikacja jest wskaźnikiem, że zastosowana metoda ochrony była niewystarczająca w danym kontekście użycia.

Technologie i mechanizmy reidentyfikacji danych

W systemach wizyjnych reidentyfikacja może opierać się zarówno na analizie manualnej, jak i na modelach uczenia maszynowego. W szczególności deep learning jest stosowany do budowy modeli rozpoznających twarze, osoby albo pojazdy na podstawie wektorów cech. To ten sam ogólny kierunek technologiczny, który po stronie ochrony prywatności umożliwia trenowanie modeli do automatycznego wykrywania twarzy i tablic rejestracyjnych, a następnie ich zamazywania. Sama detekcja i samo rozmycie nie eliminują jednak całego ryzyka, jeżeli inne cechy sceny pozostają niezmienione.

Typowe mechanizmy reidentyfikacji obejmują:

porównanie cech twarzy, jeżeli zamazanie było niepełne lub nieskuteczne,
person re-identification na podstawie ubioru, sylwetki, chodu i trajektorii ruchu,
vehicle re-identification na podstawie marki, modelu, koloru, uszkodzeń i otoczenia,
korelację metadanych EXIF, znacznika czasu, lokalizacji i kolejności zdarzeń,
łączenie materiału z publicznie dostępnymi danymi, np. relacjami z wydarzeń.

W praktyce Gallio PRO służy do automatycznego zamazywania twarzy i tablic rejestracyjnych w materiałach zdjęciowych i wideo przetwarzanych poza trybem czasu rzeczywistego. Oprogramowanie nie wykonuje anonimizacji strumienia wideo i nie wykrywa automatycznie logotypów, tatuaży, tabliczek z imionami, dokumentów ani obrazu na ekranach monitorów. Te elementy mogą wymagać ręcznej ingerencji w edytorze, właśnie dlatego, że pozostawione w materiale mogą zwiększać ryzyko reidentyfikacji.

Kluczowe parametry i metryki reidentyfikacji danych

Ryzyko reidentyfikacji warto oceniać mierzalnie. W środowisku badawczym stosuje się metryki jakości dopasowania rekordów, a w środowisku zgodności - ocenę prawdopodobieństwa identyfikacji przy określonych zasobach przeciwnika. W materiałach wideo i foto istotna jest zarówno jakość detekcji obiektów do zamazania, jak i odporność końcowego obrazu na odtworzenie lub obejście maski.

Metryka / parametr	Znaczenie	Uwagi praktyczne
Recall detekcji	Odsetek twarzy lub tablic wykrytych do anonimizacji	Niski recall zwiększa liczbę niezamazanych identyfikatorów
Precision detekcji	Odsetek poprawnych wykryć	Niska precision obniża jakość operacyjną, ale zwykle mniej wpływa na prywatność niż niski recall
mAP	Średnia precyzja dla detekcji obiektów	Popularna metryka oceny modeli wykrywania
Rank-1 / Recall@k	Skuteczność trafienia właściwej tożsamości w top-k wynikach	Stosowane w badaniach nad person re-identification
mAP dla re-ID	Jakość wyszukiwania tej samej osoby lub pojazdu w zbiorze	Im wyższa, tym większe ryzyko powiązania nagrań
Poziom maskowania	Stopień nieczytelności twarzy lub tablicy po eksporcie	Należy oceniać po kompresji końcowej, nie tylko w podglądzie roboczym

Przy ocenie ryzyka pomocny jest prosty model:

Ryzyko reidentyfikacji = prawdopodobieństwo dopasowania x dostępność danych pomocniczych x wpływ błędu anonimizacji

To nie jest wzór normatywny, lecz użyteczne uproszczenie analityczne dla DPIA i testów wewnętrznych.

Wyzwania i ograniczenia reidentyfikacji danych

Największym problemem nie jest zwykle sama obecność twarzy, ale suma informacji pozostałych w materiale. Nawet poprawne zamazanie twarzy może nie wystarczyć, jeśli nagranie pokazuje rzadkie zdarzenie, precyzyjne miejsce i dokładny czas. W małej społeczności lub w środowisku pracowniczym taka kombinacja może wystarczyć do identyfikacji osoby.

Do najważniejszych ograniczeń i źródeł błędów należą:

fałszywe poczucie bezpieczeństwa po zastosowaniu prostego blur,
pozostawienie niezamazanych tablic rejestracyjnych lub twarzy w pojedynczych klatkach,
nieuwzględnienie odbić w szybach, lustrach lub ekranach,
eksport materiału z metadanymi ułatwiającymi korelację,
nieuwzględnienie wyjątków prawnych dla publikacji wizerunku, które nie znoszą obowiązku analizy ryzyka w danym przypadku.

W Polsce status tablic rejestracyjnych jako danych osobowych zależy od kontekstu. W praktyce organów ochrony danych i w piśmiennictwie podkreśla się potrzebę ostrożności, natomiast w orzecznictwie sądowym pojawia się pogląd, że sama tablica rejestracyjna nie zawsze stanowi dane osobowe. Dla praktyki zgodności bezpieczniejsze jest uwzględnianie ryzyka reidentyfikacji kontekstowej, a nie opieranie się wyłącznie na abstrakcyjnej kwalifikacji pojedynczego identyfikatora.

Odniesienia normatywne i źródłowe dla reidentyfikacji danych

Pojęcie reidentyfikacji należy interpretować przez pryzmat źródeł prawnych i technicznych. Najważniejsze są akty i dokumenty, które definiują identyfikowalność osoby oraz kryteria oceny środków możliwych do użycia.

RODO - rozporządzenie (UE) 2016/679, motyw 26 i art. 4 pkt 1 oraz 5 - identyfikowalność osoby i pseudonimizacja.
Opinia 05/2014 Grupy Roboczej Art. 29 w sprawie technik anonimizacji - omówienie ryzyk singling out, linkability i inference, 2014.
EDPB, Wytyczne 4/2019 dotyczące ochrony danych w fazie projektowania i domyślnej ochrony danych, wersja przyjęta 20 października 2020 r.
ISO/IEC 20889:2018 - Privacy enhancing data de-identification terminology and classification of techniques.
NISTIR 8053 - De-Identification of Personal Information, National Institute of Standards and Technology, 2015.

Dokumenty te nie opisują wyłącznie obrazu i wideo, ale ich kryteria można bezpośrednio zastosować do materiałów wizualnych. Szczególnie użyteczne są pojęcia linkability i singling out, ponieważ dobrze oddają ryzyko powiązania kilku nagrań z tą samą osobą mimo zamazania twarzy.

Przykłady zastosowań i oceny ryzyka reidentyfikacji danych

Praktyczna ocena powinna dotyczyć konkretnego przypadku użycia, a nie samej technologii. Ten sam poziom zamazania może być wystarczający dla wewnętrznego materiału szkoleniowego, ale niewystarczający przy publikacji w internecie, gdzie zestaw danych pomocniczych jest nieporównywalnie większy.

Nagranie z parkingu - zamazano twarze, ale pozostawiono tablice rejestracyjne i godzinę zdarzenia. Ryzyko reidentyfikacji jest wysokie.
Materiał z recepcji - twarze zamazane, ale widoczny identyfikator pracownika na plakietce. Ryzyko nadal pozostaje istotne.
Publikacja z wydarzenia publicznego - możliwy wyjątek dotyczący wizerunku jako elementu całości sceny, ale ocena musi uwzględniać charakter ujęcia i możliwość wyróżnienia konkretnej osoby.
Archiwum dowodowe - nawet po zamazaniu materiał może nadal być danymi osobowymi, jeśli administrator przechowuje oryginał i może odtworzyć powiązanie.

Zobacz także

Powrót do słownika