Co to jest Synthetic Data Generation (SDG)?

Spis treści

Synthetic data generation (SDG) - definicja
Rola SDG w anonimizacji obrazów i wideo
Technologie SDG stosowane w anonimizacji
Kluczowe parametry i metryki dla SDG w anonimizacji
Wyzwania i ograniczenia SDG
Przykłady zastosowań SDG w zamazywaniu twarzy i tablic
Odniesienia normatywne i źródła

Synthetic data generation (SDG) - definicja

Synthetic data generation to kontrolowany proces tworzenia sztucznych danych, które zachowują kluczowe własności statystyczne lub strukturalne danych źródłowych, lecz nie są ich kopiami. W ujęciu normatywnym syntetyczne dane to dane wygenerowane sztucznie, a nie pozyskane bezpośrednio z obserwacji zjawisk czy osób (ISO/IEC 22989:2022). SDG może dotyczyć obrazów, wideo, dźwięku oraz danych tablicowych.

W kontekście anonimizacji obrazów i nagrań wideo SDG służy głównie do dwóch celów. Po pierwsze, do tworzenia zbiorów treningowych i walidacyjnych dla modeli wykrywania i zamazywania twarzy oraz tablic rejestracyjnych. Po drugie, do zastępowania fragmentów obrazu syntetycznymi teksturami lub twarzami o niskiej (docelowo możliwie zerowej) podobności biometrycznej, co ogranicza ryzyko ponownej identyfikacji. Samo wytworzenie danych syntetycznych nie oznacza jeszcze ich anonimizacji w rozumieniu RODO. Aby uznać dane za anonimowe, identyfikacja osoby musi być praktycznie niemożliwa przy użyciu rozsądnych środków, co wynika z motywu 26 RODO oraz opinii WP29 05/2014.

Rola SDG w anonimizacji obrazów i wideo

W praktyce SDG jest ogniwem w łańcuchu przetwarzania, który obejmuje detekcję, segmentację oraz maskowanie elementów wymagających ochrony. Tworząc syntetyczne wizerunki i tablice, zespoły mogą trenować i testować detektory w sposób zgodny z zasadą minimalizacji danych, bez szerokiej dystrybucji danych realnych. Ma to znaczenie zwłaszcza przy pracy on-premise i w środowiskach o podwyższonych wymaganiach bezpieczeństwa danych.

SDG pomaga także zwiększyć różnorodność warunków obrazowania: oświetlenia, kątów, zasłonięć, typów tablic rejestracyjnych i ich artefaktów. Dzięki temu modele zamazujące twarze i tablice uzyskują wyższą czułość w scenach zatłoczonych, z rozmyciem ruchu i niską rozdzielczością. Z punktu widzenia IOD SDG jest narzędziem wspierającym zgodność - zwiększa skuteczność technik anonimizacji, jednak nie zastępuje oceny ryzyka i testów odporności na reidentyfikację.

Technologie SDG stosowane w anonimizacji

Do generowania syntetycznych obrazów i sekwencji wideo używa się wyspecjalizowanych modeli generatywnych. W tokach pracy związanych z anonimizacją mają znaczenie także modele wykrywania i weryfikacji tożsamości, które oceniają ryzyko ujawnienia w syntetycznych wynikach.

Modele generatywne: dyfuzyjne modele obrazu, GAN, VAE - do tworzenia twarzy, tablic rejestracyjnych i tekstur tła (Heusel et al., 2017; prace nt. dyfuzji od 2020+).
Modele detekcji: YOLO, RetinaFace, EfficientDet - do lokalizacji twarzy i tablic w materiałach źródłowych oraz w danych syntetycznych do uczenia.
Modele weryfikacji biometrycznej: np. ArcFace - do pomiaru podobieństwa między twarzą syntetyczną a realną i monitorowania ryzyka podobieństwa zbyt wysokiego.
Prywatność w uczeniu: DP-SGD oraz techniki ograniczania zapamiętywania przykładów, aby redukować ryzyko odtworzenia danych treningowych w generatorze (Abadi et al., 2016; Carlini et al., 2023).

Kluczowe parametry i metryki dla SDG w anonimizacji

Ocena skuteczności SDG powinna równoważyć użyteczność dla modeli zamazujących oraz ryzyko prywatności. W poniższej tabeli zebrano metryki powszechnie stosowane w obrazowaniu i anonimizacji, z interpretacją i źródłami.

Kategoria	Metryka	Opis	Interpretacja
Użyteczność dla detekcji	mAP@IoU	Średnia precyzja przy zadanym progu IoU, mierzona na modelu detekcji trenowanym na danych syntetycznych	Im wyższa, tym lepiej - wskazuje, czy SDG poprawia detekcję twarzy i tablic
Jakość generatywna	FID	Fréchet Inception Distance - zbieżność rozkładów cech między zbiorem realnym a syntetycznym	Mniej znaczy lepiej - niższy FID oznacza większą wierność (Heusel et al., 2017)
Różnorodność	Precision-Recall dla modeli generatywnych	Metryka równoważąca precyzję i pokrycie trybów danych	Wysokie precision i recall - brak trybów pozornych i brak kolapsu (Kynkäänniemi et al., 2019)
Ryzyko memorization	Membership inference AUC	Zdolność ataku do rozróżniania, czy próbka była w treningu generatora	Niskie AUC bliskie 0.5 - mniejsze ryzyko wycieku (literatura MIA; narzędzia NIST dla danych syntetycznych)
Ryzyko biometryczne	Match rate	Odsetek dopasowań między twarzami syntetycznymi a realnymi wg klasyfikatora biometrycznego	Niski odsetek dopasowań - syntetyki nie przypominają konkretnych osób
Jakość maskowania	SSIM/PSNR w obszarze maski	Spójność strukturalna i szum względem pożądanego efektu redakcji	Dopasowane do polityki - brak artefaktów ułatwiających identyfikację
Wydajność	Czas generacji, liczba kroków	Latencja i złożoność obliczeniowa, np. liczba kroków w dyfuzji	Dostosowane do pracy wsadowej on-premise - brak wymogu czasu rzeczywistego

Wyzwania i ograniczenia SDG

Wdrożenia SDG w ochronie prywatności wymagają uwzględnienia ryzyk technicznych i prawnych. Poniżej najważniejsze zagadnienia istotne dla IOD i zespołów technicznych.

Brak automatycznej anonimowości - dane syntetyczne mogą ujawniać informacje, jeśli model zapamięta próbki treningowe lub odtworzy rzadkie kombinacje cech. Literatura dokumentuje ekstrakcję fragmentów danych z modeli generatywnych bez odpowiedniej ochrony (Carlini et al., 2023).
Rozbieżności domenowe - zbyt czyste syntetyki mogą obniżać skuteczność detektorów w warunkach rzeczywistych. Konieczny jest domain randomization i walidacja na danych realnych, z zachowaniem minimalizacji i zasad RODO.
Zarządzanie ryzykiem - wymagane są praktyki zarządzania ryzykiem AI zgodnie z ISO/IEC 23894:2023 oraz dokumentowanie decyzji i danych referencyjnych.
Zgodność i transparentność - w materiałach publicznych należy unikać syntetyk mogących wprowadzać w błąd co do autentyczności. Dla procesów anonimizacji wewnętrznych kluczowe są testy odporności na reidentyfikację i re-profilowanie.

Przykłady zastosowań SDG w zamazywaniu twarzy i tablic

W rozwiązaniach klasy Gallio PRO, działających on-premise i wykonujących automatyczne zamazywanie twarzy oraz tablic rejestracyjnych w trybie wsadowym, SDG wspiera kilka etapów cyklu życia modeli. Wymienione zastosowania odnoszą się do obrazów i wideo, nie dotyczą dokumentów tekstowych.

Augmentacja zbiorów do treningu detektorów twarzy i tablic - syntetyczne sceny zatłoczone, różne kraje i formaty tablic, warianty oświetlenia.
Walidacja skuteczności redakcji - generowanie trudnych przypadków testowych z częściowym zasłonięciem twarzy i ruchomym rozmyciem.
Syntetyczna podmiana tożsamości - tworzenie twarzy o niskiej (docelowo możliwie zerowej) zgodności biometrycznej i wypełnianie maski zamiast prostego blur, aby ograniczyć ryzyko odwracalności.
Wsparcie zgodności - w niektórych jurysdykcjach zamazywanie tablic bywa wymagane lub rekomendowane, a SDG pozwala poprawić wykrywalność rzadkich formatów tablic. W Polsce status tablic jako danych osobowych zależy od kontekstu, dlatego zaleca się politykę ostrożnościową i testy skuteczności detekcji w oparciu o podejście oparte na ryzyku oraz stanowiska/wytyczne EROD i UODO.
Operacje manualne - w przypadku logotypów, tatuaży, tabliczek imiennych czy ekranów, które nie są wykrywane automatycznie, SDG może dostarczać wzorce do szkolenia operatorów i scenariusze testowe dla wbudowanego edytora manualnego.

Odniesienia normatywne i źródła

Poniżej zestawienie standardów i źródeł technicznych wykorzystywanych do definicji i metryk SDG. Daty i numery wydań pozwalają na weryfikację.

ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. Definicja danych syntetycznych.
ISO/IEC 23894:2023 - Artificial intelligence - Risk management. Ramy zarządzania ryzykiem AI.
ISO/IEC 27559:2022 - Privacy enhancing data de-identification framework. Ramy deidentyfikacji i oceny ryzyka prywatności.
RODO - motyw 26 i art. 4. Definicje danych osobowych i kryteria anonimowości.
EDPB, Guidelines 3/2019 on processing of personal data through video devices, wersja finalna 2020. Wytyczne dla wideo i monitoringu.
Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques. Kluczowe kryteria oceny anonimowości.
NIST AI RMF 1.0, styczeń 2023. Ramy zarządzania ryzykiem AI, w tym dane i testy.
NIST SDNist toolkit, 2023-2024. Narzędzia oceny prywatności i użyteczności danych syntetycznych.
Heusel et al., 2017, GANs Trained by a Two Time-Scale Update Rule - FID. Metryka jakości generatywnej.
Kynkäänniemi et al., 2019, Improved Precision and Recall Metric for Assessing Generative Models. Metryki precision-recall dla generatywnych.
Abadi et al., 2016, Deep Learning with Differential Privacy. DP-SGD jako mechanizm ochrony przed zapamiętywaniem.
Carlini et al., 2023, Extracting Training Data from Diffusion Models. Ryzyka wycieku danych z modeli dyfuzyjnych.

Zobacz także

Powrót do słownika