Synthetic data generation (SDG) - definicja
Synthetic data generation to kontrolowany proces tworzenia sztucznych danych, które zachowują kluczowe własności statystyczne lub strukturalne danych źródłowych, lecz nie są ich kopiami. W ujęciu normatywnym syntetyczne dane to dane wygenerowane sztucznie, a nie pozyskane bezpośrednio z obserwacji zjawisk czy osób (ISO/IEC 22989:2022). SDG może dotyczyć obrazów, wideo, dźwięku oraz danych tablicowych.
W kontekście anonimizacji obrazów i nagrań wideo SDG służy głównie do dwóch celów. Po pierwsze, do tworzenia zbiorów treningowych i walidacyjnych dla modeli wykrywania i zamazywania twarzy oraz tablic rejestracyjnych. Po drugie, do zastępowania fragmentów obrazu syntetycznymi teksturami lub twarzami o niskiej (docelowo możliwie zerowej) podobności biometrycznej, co ogranicza ryzyko ponownej identyfikacji. Samo wytworzenie danych syntetycznych nie oznacza jeszcze ich anonimizacji w rozumieniu RODO. Aby uznać dane za anonimowe, identyfikacja osoby musi być praktycznie niemożliwa przy użyciu rozsądnych środków, co wynika z motywu 26 RODO oraz opinii WP29 05/2014.
Rola SDG w anonimizacji obrazów i wideo
W praktyce SDG jest ogniwem w łańcuchu przetwarzania, który obejmuje detekcję, segmentację oraz maskowanie elementów wymagających ochrony. Tworząc syntetyczne wizerunki i tablice, zespoły mogą trenować i testować detektory w sposób zgodny z zasadą minimalizacji danych, bez szerokiej dystrybucji danych realnych. Ma to znaczenie zwłaszcza przy pracy on-premise i w środowiskach o podwyższonych wymaganiach bezpieczeństwa danych.
SDG pomaga także zwiększyć różnorodność warunków obrazowania: oświetlenia, kątów, zasłonięć, typów tablic rejestracyjnych i ich artefaktów. Dzięki temu modele zamazujące twarze i tablice uzyskują wyższą czułość w scenach zatłoczonych, z rozmyciem ruchu i niską rozdzielczością. Z punktu widzenia IOD SDG jest narzędziem wspierającym zgodność - zwiększa skuteczność technik anonimizacji, jednak nie zastępuje oceny ryzyka i testów odporności na reidentyfikację.
Technologie SDG stosowane w anonimizacji
Do generowania syntetycznych obrazów i sekwencji wideo używa się wyspecjalizowanych modeli generatywnych. W tokach pracy związanych z anonimizacją mają znaczenie także modele wykrywania i weryfikacji tożsamości, które oceniają ryzyko ujawnienia w syntetycznych wynikach.
- Modele generatywne: dyfuzyjne modele obrazu, GAN, VAE - do tworzenia twarzy, tablic rejestracyjnych i tekstur tła (Heusel et al., 2017; prace nt. dyfuzji od 2020+).
- Modele detekcji: YOLO, RetinaFace, EfficientDet - do lokalizacji twarzy i tablic w materiałach źródłowych oraz w danych syntetycznych do uczenia.
- Modele weryfikacji biometrycznej: np. ArcFace - do pomiaru podobieństwa między twarzą syntetyczną a realną i monitorowania ryzyka podobieństwa zbyt wysokiego.
- Prywatność w uczeniu: DP-SGD oraz techniki ograniczania zapamiętywania przykładów, aby redukować ryzyko odtworzenia danych treningowych w generatorze (Abadi et al., 2016; Carlini et al., 2023).
Kluczowe parametry i metryki dla SDG w anonimizacji
Ocena skuteczności SDG powinna równoważyć użyteczność dla modeli zamazujących oraz ryzyko prywatności. W poniższej tabeli zebrano metryki powszechnie stosowane w obrazowaniu i anonimizacji, z interpretacją i źródłami.
Kategoria | Metryka | Opis | Interpretacja
|
|---|---|---|---|
Użyteczność dla detekcji | mAP@IoU | Średnia precyzja przy zadanym progu IoU, mierzona na modelu detekcji trenowanym na danych syntetycznych | Im wyższa, tym lepiej - wskazuje, czy SDG poprawia detekcję twarzy i tablic |
Jakość generatywna | FID | Fréchet Inception Distance - zbieżność rozkładów cech między zbiorem realnym a syntetycznym | Mniej znaczy lepiej - niższy FID oznacza większą wierność (Heusel et al., 2017) |
Różnorodność | Precision-Recall dla modeli generatywnych | Metryka równoważąca precyzję i pokrycie trybów danych | Wysokie precision i recall - brak trybów pozornych i brak kolapsu (Kynkäänniemi et al., 2019) |
Ryzyko memorization | Membership inference AUC | Zdolność ataku do rozróżniania, czy próbka była w treningu generatora | Niskie AUC bliskie 0.5 - mniejsze ryzyko wycieku (literatura MIA; narzędzia NIST dla danych syntetycznych) |
Ryzyko biometryczne | Match rate | Odsetek dopasowań między twarzami syntetycznymi a realnymi wg klasyfikatora biometrycznego | Niski odsetek dopasowań - syntetyki nie przypominają konkretnych osób |
Jakość maskowania | SSIM/PSNR w obszarze maski | Spójność strukturalna i szum względem pożądanego efektu redakcji | Dopasowane do polityki - brak artefaktów ułatwiających identyfikację |
Wydajność | Czas generacji, liczba kroków | Latencja i złożoność obliczeniowa, np. liczba kroków w dyfuzji | Dostosowane do pracy wsadowej on-premise - brak wymogu czasu rzeczywistego |
Wyzwania i ograniczenia SDG
Wdrożenia SDG w ochronie prywatności wymagają uwzględnienia ryzyk technicznych i prawnych. Poniżej najważniejsze zagadnienia istotne dla IOD i zespołów technicznych.
- Brak automatycznej anonimowości - dane syntetyczne mogą ujawniać informacje, jeśli model zapamięta próbki treningowe lub odtworzy rzadkie kombinacje cech. Literatura dokumentuje ekstrakcję fragmentów danych z modeli generatywnych bez odpowiedniej ochrony (Carlini et al., 2023).
- Rozbieżności domenowe - zbyt czyste syntetyki mogą obniżać skuteczność detektorów w warunkach rzeczywistych. Konieczny jest domain randomization i walidacja na danych realnych, z zachowaniem minimalizacji i zasad RODO.
- Zarządzanie ryzykiem - wymagane są praktyki zarządzania ryzykiem AI zgodnie z ISO/IEC 23894:2023 oraz dokumentowanie decyzji i danych referencyjnych.
- Zgodność i transparentność - w materiałach publicznych należy unikać syntetyk mogących wprowadzać w błąd co do autentyczności. Dla procesów anonimizacji wewnętrznych kluczowe są testy odporności na reidentyfikację i re-profilowanie.
Przykłady zastosowań SDG w zamazywaniu twarzy i tablic
W rozwiązaniach klasy Gallio PRO, działających on-premise i wykonujących automatyczne zamazywanie twarzy oraz tablic rejestracyjnych w trybie wsadowym, SDG wspiera kilka etapów cyklu życia modeli. Wymienione zastosowania odnoszą się do obrazów i wideo, nie dotyczą dokumentów tekstowych.
- Augmentacja zbiorów do treningu detektorów twarzy i tablic - syntetyczne sceny zatłoczone, różne kraje i formaty tablic, warianty oświetlenia.
- Walidacja skuteczności redakcji - generowanie trudnych przypadków testowych z częściowym zasłonięciem twarzy i ruchomym rozmyciem.
- Syntetyczna podmiana tożsamości - tworzenie twarzy o niskiej (docelowo możliwie zerowej) zgodności biometrycznej i wypełnianie maski zamiast prostego blur, aby ograniczyć ryzyko odwracalności.
- Wsparcie zgodności - w niektórych jurysdykcjach zamazywanie tablic bywa wymagane lub rekomendowane, a SDG pozwala poprawić wykrywalność rzadkich formatów tablic. W Polsce status tablic jako danych osobowych zależy od kontekstu, dlatego zaleca się politykę ostrożnościową i testy skuteczności detekcji w oparciu o podejście oparte na ryzyku oraz stanowiska/wytyczne EROD i UODO.
- Operacje manualne - w przypadku logotypów, tatuaży, tabliczek imiennych czy ekranów, które nie są wykrywane automatycznie, SDG może dostarczać wzorce do szkolenia operatorów i scenariusze testowe dla wbudowanego edytora manualnego.
Odniesienia normatywne i źródła
Poniżej zestawienie standardów i źródeł technicznych wykorzystywanych do definicji i metryk SDG. Daty i numery wydań pozwalają na weryfikację.
- ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. Definicja danych syntetycznych.
- ISO/IEC 23894:2023 - Artificial intelligence - Risk management. Ramy zarządzania ryzykiem AI.
- ISO/IEC 27559:2022 - Privacy enhancing data de-identification framework. Ramy deidentyfikacji i oceny ryzyka prywatności.
- RODO - motyw 26 i art. 4. Definicje danych osobowych i kryteria anonimowości.
- EDPB, Guidelines 3/2019 on processing of personal data through video devices, wersja finalna 2020. Wytyczne dla wideo i monitoringu.
- Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques. Kluczowe kryteria oceny anonimowości.
- NIST AI RMF 1.0, styczeń 2023. Ramy zarządzania ryzykiem AI, w tym dane i testy.
- NIST SDNist toolkit, 2023-2024. Narzędzia oceny prywatności i użyteczności danych syntetycznych.
- Heusel et al., 2017, GANs Trained by a Two Time-Scale Update Rule - FID. Metryka jakości generatywnej.
- Kynkäänniemi et al., 2019, Improved Precision and Recall Metric for Assessing Generative Models. Metryki precision-recall dla generatywnych.
- Abadi et al., 2016, Deep Learning with Differential Privacy. DP-SGD jako mechanizm ochrony przed zapamiętywaniem.
- Carlini et al., 2023, Extracting Training Data from Diffusion Models. Ryzyka wycieku danych z modeli dyfuzyjnych.