Synthetic Data Generation (SDG) - Definition
Synthetic Data Generation (SDG) ist ein kontrollierter Prozess zur Erzeugung synthetischer Daten, die die wesentlichen statistischen oder strukturellen Eigenschaften der Ausgangsdaten bewahren, ohne deren Kopien zu sein. Normativ betrachtet sind synthetische Daten künstlich erzeugte Daten und keine Daten, die direkt aus der Beobachtung von Ereignissen oder Personen stammen (ISO/IEC 22989:2022). SDG kann Bilder, Videos, Audiodaten sowie tabellarische Daten umfassen.
Im Kontext der Bild- und Videoanonymisierung dient SDG vor allem zwei Zielen. Erstens der Erstellung von Trainings- und Validierungsdatensätzen für Modelle zur Erkennung und Verpixelung von Gesichtern und Kfz-Kennzeichen. Zweitens dem Ersetzen von Bildbereichen durch synthetische Texturen oder Gesichter mit geringer (idealerweise nahezu null) biometrischer Ähnlichkeit, um das Risiko einer Re-Identifizierung zu reduzieren. Die bloße Erzeugung synthetischer Daten bedeutet jedoch noch keine Anonymisierung im Sinne der DSGVO. Damit Daten als anonym gelten, muss eine Identifizierung praktisch unmöglich sein, wenn angemessene Mittel eingesetzt werden - gemäß Erwägungsgrund 26 DSGVO sowie der Stellungnahme der Artikel-29-Datenschutzgruppe WP29 05/2014.
Die Rolle von SDG bei der Anonymisierung von Bildern und Videos
In der Praxis ist SDG ein Baustein innerhalb einer Verarbeitungskette, die Detektion, Segmentierung und Maskierung schutzbedürftiger Elemente umfasst. Durch die Erstellung synthetischer Gesichter und Kennzeichen können Teams Detektoren gemäß dem Grundsatz der Datenminimierung trainieren und testen, ohne reale Daten breit zu verteilen. Dies ist besonders relevant für On-Premise-Szenarien und Umgebungen mit erhöhten Anforderungen an die Datensicherheit.
SDG erhöht zudem die Vielfalt der Aufnahmebedingungen - etwa Beleuchtung, Blickwinkel, Verdeckungen, Kennzeichentypen und deren Artefakte. Dadurch erzielen Modelle zur Verpixelung von Gesichtern und Kennzeichen eine höhere Sensitivität in dicht besetzten Szenen, bei Bewegungsunschärfe und niedriger Auflösung. Aus Sicht des Datenschutzbeauftragten (DSB) ist SDG ein unterstützendes Compliance-Werkzeug: Es steigert die Wirksamkeit von Anonymisierungstechniken, ersetzt jedoch keine Risikobewertung und keine Tests zur Re-Identifizierbarkeit.
SDG-Technologien in der Anonymisierung
Zur Erzeugung synthetischer Bilder und Videosequenzen werden spezialisierte generative Modelle eingesetzt. In Anonymisierungs-Workflows spielen zudem Modelle zur Identitätsdetektion und -verifikation eine wichtige Rolle, da sie das Offenlegungsrisiko in synthetischen Ergebnissen bewerten.
- Generative Modelle: Diffusionsmodelle für Bilder, GANs, VAEs - zur Erzeugung von Gesichtern, Kfz-Kennzeichen und Hintergrundtexturen (Heusel et al., 2017; Diffusionsliteratur ab 2020).
- Detektionsmodelle: YOLO, RetinaFace, EfficientDet - zur Lokalisierung von Gesichtern und Kennzeichen in Quelldaten sowie in synthetischen Trainingsdaten.
- Biometrische Verifikationsmodelle: z. B. ArcFace - zur Messung der Ähnlichkeit zwischen synthetischen und realen Gesichtern und zur Überwachung eines zu hohen Ähnlichkeitsrisikos.
- Datenschutz im Training: DP-SGD und Techniken zur Begrenzung des Memorierens von Beispielen, um das Risiko der Rekonstruktion von Trainingsdaten durch Generatoren zu reduzieren (Abadi et al., 2016; Carlini et al., 2023).
Zentrale Parameter und Metriken für SDG in der Anonymisierung
Die Bewertung der Wirksamkeit von SDG sollte die Nutzbarkeit für Verpixelungsmodelle und das Datenschutzrisiko ausgewogen berücksichtigen. Die folgende Tabelle fasst gängige Metriken aus der Bildverarbeitung und Anonymisierung zusammen - inklusive Interpretation und Quellen.
Kategorie | Metrik | Beschreibung | Interpretation
|
|---|---|---|---|
Nutzbarkeit für Detektion | mAP@IoU | Mittlere Average Precision bei gegebenem IoU-Schwellenwert, gemessen mit einem Detektionsmodell, das auf synthetischen Daten trainiert wurde | Je höher, desto besser - zeigt, ob SDG die Erkennung von Gesichtern und Kennzeichen verbessert |
Generative Qualität | FID | Fréchet Inception Distance - Ähnlichkeit der Merkmalsverteilungen zwischen realen und synthetischen Datensätzen | Niedriger ist besser - ein geringerer FID bedeutet höhere Realitätsnähe (Heusel et al., 2017) |
Vielfalt | Precision-Recall für generative Modelle | Metrik zur Balance zwischen Präzision und Abdeckung der Datenmodi | Hohe Precision und Recall - keine Scheinmodi und kein Mode Collapse (Kynkäänniemi et al., 2019) |
Memorization-Risiko | Membership-Inference-AUC | Fähigkeit eines Angriffs, zu unterscheiden, ob eine Probe im Training des Generators enthalten war | AUC nahe 0,5 - geringeres Leckagerisiko (MIA-Literatur; NIST-Tools für synthetische Daten) |
Biometrisches Risiko | Match Rate | Anteil der Übereinstimmungen zwischen synthetischen und realen Gesichtern gemäß biometrischem Klassifikator | Niedrige Match Rate - synthetische Gesichter ähneln keinen konkreten Personen |
Maskierungsqualität | SSIM/PSNR im Maskenbereich | Strukturelle Konsistenz und Rauschen im Verhältnis zum gewünschten Redaktionseffekt | Richtlinienkonform - keine Artefakte, die Identifizierung erleichtern |
Performance | Generierungszeit, Anzahl der Schritte | Latenz und Rechenkomplexität, z. B. Anzahl der Diffusionsschritte | Für Batch-Verarbeitung On-Premise geeignet - keine Echtzeitanforderung |
Herausforderungen und Grenzen von SDG
Der Einsatz von SDG im Datenschutz erfordert die Berücksichtigung technischer und rechtlicher Risiken. Nachfolgend die wichtigsten Aspekte für Datenschutzbeauftragte und technische Teams.
- Keine automatische Anonymität: Synthetische Daten können Informationen preisgeben, wenn Modelle Trainingsbeispiele memorieren oder seltene Merkmalskombinationen rekonstruieren. Die Literatur dokumentiert die Extraktion von Trainingsdaten aus generativen Modellen ohne geeignete Schutzmaßnahmen (Carlini et al., 2023).
- Domänenverschiebungen: Zu „saubere“ synthetische Daten können die Detektionsleistung unter realen Bedingungen verschlechtern. Erforderlich sind Domain Randomization und Validierung mit realen Daten unter Einhaltung der Datenminimierung und DSGVO-Grundsätze.
- Risikomanagement: Notwendig sind AI-Risikomanagementpraktiken gemäß ISO/IEC 23894:2023 sowie eine nachvollziehbare Dokumentation von Entscheidungen und Referenzdaten.
- Compliance und Transparenz: In öffentlichen Materialien sollten synthetische Inhalte vermieden werden, die über ihre Authentizität täuschen könnten. Für interne Anonymisierungsprozesse sind Tests zur Re-Identifizierungs- und Re-Profilierungsresistenz entscheidend.
Anwendungsbeispiele von SDG bei der Verpixelung von Gesichtern und Kennzeichen
In Lösungen der Klasse Gallio PRO, die On-Premise betrieben werden und eine automatische Batch-Verpixelung von Gesichtern und Kfz-Kennzeichen durchführen, unterstützt SDG mehrere Phasen des Modelllebenszyklus. Die genannten Anwendungsfälle beziehen sich auf Bilder und Videos und nicht auf Textdokumente.
- Datensatzaugmentation für das Training von Gesichts- und Kennzeichendetektoren - synthetische, dicht besetzte Szenen, unterschiedliche Länder und Kennzeichenformate sowie variable Lichtverhältnisse.
- Validierung der Redaktionswirksamkeit - Generierung anspruchsvoller Testfälle mit teilweiser Gesichtsverdeckung und bewegungsbedingter Unschärfe.
- Synthetischer Identitätsersatz - Erzeugung von Gesichtern mit geringer (idealerweise nahezu null) biometrischer Übereinstimmung und Maskenfüllung statt einfachem Blur, um das Umkehrbarkeitsrisiko zu reduzieren.
- Compliance-Unterstützung - in einigen Rechtsordnungen ist die Verpixelung von Kennzeichen vorgeschrieben oder empfohlen; SDG verbessert die Erkennungsrate seltener Kennzeichenformate. In Polen hängt der Status von Kennzeichen als personenbezogene Daten vom Kontext ab, weshalb eine vorsorgliche Richtlinie und risikobasierte Wirksamkeitstests unter Berücksichtigung der Leitlinien von EDSA (EDPB) und UODO empfohlen werden.
- Manuelle Operationen - bei Logos, Tätowierungen, Namensschildern oder Bildschirmen, die nicht automatisch erkannt werden, kann SDG Schulungsvorlagen für Operatoren und Testszenarien für den integrierten manuellen Editor liefern.
Normative Verweise und Quellen
Nachfolgend eine Übersicht relevanter Normen und technischer Quellen zur Definition und Bewertung von SDG. Datumsangaben und Versionsnummern ermöglichen die Verifikation.
- ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. Definition synthetischer Daten.
- ISO/IEC 23894:2023 - Artificial intelligence - Risk management. Rahmenwerk für AI-Risikomanagement.
- ISO/IEC 27559:2022 - Privacy enhancing data de-identification framework. Rahmen für De-Identifikation und Datenschutzrisikobewertung.
- DSGVO - Erwägungsgrund 26 und Art. 4. Definitionen personenbezogener Daten und Anonymitätskriterien.
- EDPB, Guidelines 3/2019 zur Verarbeitung personenbezogener Daten durch Videogeräte, finale Version 2020.
- Artikel-29-Datenschutzgruppe, Stellungnahme 05/2014 zu Anonymisierungstechniken.
- NIST AI RMF 1.0, Januar 2023. Rahmenwerk für AI-Risikomanagement.
- NIST SDNist Toolkit, 2023-2024. Werkzeuge zur Bewertung von Datenschutz und Nutzbarkeit synthetischer Daten.
- Heusel et al., 2017, GANs Trained by a Two Time-Scale Update Rule - FID.
- Kynkäänniemi et al., 2019, Improved Precision and Recall Metric for Assessing Generative Models.
- Abadi et al., 2016, Deep Learning with Differential Privacy - DP-SGD.
- Carlini et al., 2023, Extracting Training Data from Diffusion Models.