Training von KI-Modellen mit Foto- & Video-Datensätzen: Workflow für Anonymisierung und Gesichtsverpixelung

Mateusz Zimoch

Veröffentlicht: 2.12.2025

Aktualisiert: 10.3.2026

Inhaltsverzeichnis

Regulatorischer Kontext für das Training von Modellen mit Fotos und Videos
Wann Anonymisierung und Einwilligung entbehrlich sein können
Typische Risikopunkte bei der Anonymisierung visueller Daten
Ein praxisnaher Workflow für Gesichts- und Kennzeichenverpixelung
DSGVO vs. UK GDPR bei der Veröffentlichung von Fotos und Videos
Qualitätssicherung für anonymisierte Datensätze
FAQ: Training von KI-Modellen mit Foto- & Video-Datensätzen

Visuelle Datenanonymisierung bedeutet, Fotos und Videos so zu transformieren, dass natürliche Personen nicht mehr identifizierbar sind. In der Praxis umfasst dies häufig Gesichtsverpixelung und Kennzeichenverpixelung, kombiniert mit der Entfernung von Metadaten sowie Maßnahmen zum Schutz vor Re-Identifizierung. Für das Training von KI-Modellen mit Foto- und Video-Datensätzen ermöglicht Anonymisierung die Nutzung umfangreicher Datensätze, reduziert gleichzeitig Risiken für personenbezogene Daten und unterstützt Datenschutz durch Technikgestaltung und datenschutzfreundliche Voreinstellungen.

Ein minimalistischer Laptop auf einem weißen Tisch, auf dessen Bildschirm ein geometrisches Drahtgittermodell eines Gehirns vor grauem Hintergrund zu sehen ist.

Regulatorischer Kontext für das Training von Modellen mit Fotos und Videos

Nach der DSGVO und der UK GDPR gelten Fotos oder Videos als personenbezogene Daten, wenn eine Person direkt oder indirekt identifiziert werden kann, auch durch die Kombination von Elementen wie Umgebung, Kleidung oder einzigartigen Objekten [1][2]. Sind Personen identifizierbar, erfordert das Modelltraining eine Rechtsgrundlage und muss die Grundsätze der Zweckbindung, Datenminimierung und Speicherbegrenzung einhalten [1]. Anonymisierte Daten fallen nur dann nicht in den Anwendungsbereich der DSGVO, wenn eine Identifizierung einer Person mit keinen Mitteln mehr möglich ist, die vernünftigerweise eingesetzt werden könnten, unter Berücksichtigung verfügbarer Technologien und Kosten (Erwägungsgrund 26) [1].

Der EU AI Act führt Governance-Anforderungen über den gesamten KI-Lebenszyklus ein. Er enthält Vorgaben zu Risikomanagement, Daten-Governance und technischer Dokumentation für bestimmte KI-Systeme und ergänzt das bestehende EU-Datenschutzrecht, anstatt es zu ersetzen. Anonymisierung und robuste Schwärzung können die Datenminimierung unterstützen und Risiken wie unbeabsichtigtes Memorieren oder Model Inversion reduzieren, machen einen Anwendungsfall jedoch nicht automatisch konform, wenn Personen weiterhin identifizierbar bleiben [5].

Aufsichtsbehörden weisen auf besondere Aspekte bei Bildern aus Videoüberwachung (CCTV) oder öffentlichen Räumen hin, insbesondere wenn diese über Sicherheitszwecke hinaus für Analysen oder Veröffentlichungen genutzt werden [2][3]. Organisationen führen häufig eine Datenschutz-Folgenabschätzung (DSFA/DPIA) durch, bevor öffentlich zugängliche Bereiche in großem Umfang oder systematisch überwacht werden oder wenn neue Technologien die Risiken erhöhen könnten [1][3].

Schwarzweißfoto, auf dem sich ein Telefon mit geöffneter AI-Chat-App befindet, Fingerberührung, vor dem Hintergrund des Bildschirms mit derselben App

Wann Anonymisierung und Einwilligung entbehrlich sein können

Während viele Veröffentlichungs- und Trainingsszenarien eine Rechtsgrundlage oder Anonymisierung erfordern, werden in der Praxis des Bildrechts häufig drei bekannte Ausnahmen genannt. Diese sind kontextabhängig und variieren je nach Rechtsordnung. Die drei Ausnahmen sind:

Die Person ist weithin bekannt (Person des öffentlichen Lebens), und das Bild wurde im Zusammenhang mit ihrer öffentlichen Rolle aufgenommen.
Die Person erscheint nur als Teil einer größeren Szene, etwa einer Versammlung, Landschaft oder öffentlichen Veranstaltung.
Die Person wurde für das Posieren bezahlt, es sei denn, sie hat ausdrücklich erklärt, dass sie der Verbreitung ihres Bildes nicht zustimmt.

Diese Ausnahmen setzen datenschutzrechtliche Pflichten nicht außer Kraft, wenn Personen identifizierbar bleiben. Sie werden häufig parallel zu Interessenabwägungen (berechtigte Interessen), Ausnahmen für die Meinungsfreiheit und lokalen Bildrechten betrachtet. Für das KI-Training ist die Berufung auf solche Ausnahmen weniger vorhersehbar als Anonymisierung, da das Modelltraining oft eine Zweckänderung über den ursprünglichen Aufnahmekontext hinaus darstellt.

Typische Risikopunkte bei der Anonymisierung visueller Daten

Re-Identifizierungsrisiko. Selbst wenn Gesichter verpixelt sind, kann eine Kombination aus markanter Kleidung, Tattoos, Ortsmerkmalen oder Zeitstempeln eine Identifizierung ermöglichen. Organisationen betrachten Verpixelung daher häufig nur als eine Ebene innerhalb einer umfassenderen Strategie, die bei risikoreichen Szenen auch Zuschneiden, Maskieren oder Hintergrundschwärzung umfasst, orientiert am Maßstab der „vernünftigerweise einzusetzenden Mittel“ aus Erwägungsgrund 26 [1].

Hintergrund-Identifikatoren. Whiteboards, Bildschirme, Dokumente im Bildausschnitt oder Gebäudebeschilderungen können Namen, E-Mail-Adressen oder Anschriften offenlegen. Kennzeichen im Hintergrund werden ohne mehrskalige Erkennung leicht übersehen.

Metadaten. EXIF-Daten können GPS-Koordinaten, Gerätekennungen und Aufnahmedaten enthalten. Das Entfernen oder Minimieren von Metadaten vor dem Teilen oder Veröffentlichen kann das Verknüpfungsrisiko erheblich reduzieren [2].

Erkennungsfehler. Gesichts- und Kennzeichendetektoren erzeugen False Negatives und False Positives. Übersehene Erkennungen legen Identitäten offen, während übermäßige Verpixelung den Nutzwert des Datensatzes beeinträchtigen kann. Die Genauigkeit ist stark kontextabhängig und variiert je nach Licht, Blickwinkel, Verdeckung und Kameratyp. Eine menschliche Nachprüfung (Human-in-the-Loop) bleibt bei sensiblen Veröffentlichungen gängige Praxis.

Ein praxisnaher Workflow für Gesichts- und Kennzeichenverpixelung

Zweck definieren. Festlegen, ob Bilder veröffentlicht, für interne Analysen genutzt oder in das Training von KI-Modellen einbezogen werden. Der Zweck bestimmt die Stärke der Anonymisierung und die Aufbewahrungsfristen.
Rechtsgrundlage und Risikokontrollen wählen. Sind Personen identifizierbar, prüfen Organisationen eine geeignete Rechtsgrundlage (z. B. berechtigte Interessen, wo anwendbar, oder Einwilligung in bestimmten Kontexten) und entscheiden, ob eine DSFA erforderlich ist [1][3]. Im Zweifel sollte eine Anonymisierung angestrebt werden, die dem Standard des Erwägungsgrundes 26 entspricht.
Assets erfassen und klassifizieren. Fotos und Videos nach Szenario, Kameratyp und Sensibilität des Aufnahmeortes trennen. Herkunft und Rechte dokumentieren, einschließlich Model-Releases bei bezahltem Posieren, sofern vorhanden.
On-Premise-Software wählen (wo sinnvoll). On-Premise-Software hält Datensätze im Netzwerk der Organisation und reduziert das Risiko externer Datenübertragungen. Sie unterstützt Verschlüsselung ruhender Daten, identitätsbasierte Zugriffe und Audit-Logs im Einklang mit Rechenschaftspflicht und Datenschutz durch Technikgestaltung [1].
Detektoren und Schwellenwerte konfigurieren. Modelle für Gesichter und Kennzeichen einsetzen. Mindestgesichtsgröße, Konfidenzschwellen und bewegungsbasierte Vorerkennung für Videos kalibrieren. Bei Menschenmengen mehrskalige Erkennung und Auflösung überlappender Masken aktivieren.
Automatisierte Schwärzung. Gesichts- und Kennzeichenverpixelung anwenden. In Hochrisikokontexten zusätzlich Ganzkörper- oder Hintergrundmaskierung nutzen. Konsistente Kernel, Pixelierungsstufen oder Gaußsche Unschärfe verwenden, die eine praktische Rückgängigmachung mit vernünftigerweise einzusetzenden Mitteln verhindern.
Human-in-the-Loop-Review. Stichproben von Frames prüfen, fehlende Erkennungen identifizieren und mit Annotationstools korrigieren. Playbooks für wiederkehrende Edge Cases erstellen, etwa Spiegelungen, Poster mit Gesichtern, Bildschirme mit Videokonferenzen oder spiegelnde Helme.
Metadaten entfernen und Outputs vorbereiten. EXIF- und Gerätekennungen entfernen. Veröffentlichungskopien nur in erforderlicher Auflösung exportieren. Für Trainingsdatensätze eine Zuordnung von Originalen zu anonymisierten Versionen nur bei Bedarf führen, getrennt speichern und den Zugriff beschränken (z. B. rollenbasierte Zugriffskontrollen). Direkte Verknüpfbarkeit möglichst vermeiden.
Re-Identifizierungsrisiko testen. Verknüpfungsversuche anhand von Kontextmerkmalen und, wo sinnvoll, umgekehrter Bildsuche durchführen. Restrisiken und Verbesserungsmaßnahmen dokumentieren. Tests auf vielfältige Szenen und Geräte ausweiten.
Protokollieren, aufbewahren und löschen. Verarbeitungsprotokolle und Schwärzungsnachweise auf das notwendige Minimum für Rechenschaftspflicht beschränken. Aufbewahrung nach Zweck definieren. Nicht erforderliche Originale löschen oder in ein versiegeltes Archiv mit strengen Zugriffsvorgaben überführen.

Überlegungen zu On-Premise-Software

On-Premise-Software kann die Übermittlung personenbezogener Daten an externe Auftragsverarbeiter reduzieren und - abhängig von Architektur und Anbietern - die Exponierung gegenüber Drittstaatenzugriffen besser steuern. Zudem erleichtert sie die Auditierbarkeit, unterstützt die Rechenschaftspflicht nach DSGVO und entspricht den Governance-Erwartungen des EU AI Act über den Lebenszyklus hinweg für erfasste Systeme [1][5]. Entdecken Sie Gallio PRO für On-Premise-Verarbeitungsoptionen, die zu diesem Workflow passen.

Digitale Illustration einer Text-zu-Bild-KI-Schnittstelle mit Eingabeaufforderung, Generieren-Schaltfläche und Symbolen, die KI- und Gehirnverarbeitungsdaten darstellen.

Die folgende Tabelle hebt gängige Praxispunkte hervor. Sie ersetzt keine Rechtsberatung und ist als hochrangige, kontextabhängige Orientierung auf Basis öffentlich zugänglicher Materialien zu verstehen.

Thema	DSGVO (EU)	UK GDPR + Data Protection Act 2018
Bilder als personenbezogene Daten	Fotos und Videos sind personenbezogene Daten, wenn eine Person direkt oder indirekt identifizierbar ist [1].	Gleicher Ansatz. Leitlinien des ICO liefern praxisnahe Beispiele für Fotos und CCTV [2][3].
Rechtsgrundlage für Veröffentlichung	Häufig berechtigte Interessen für bestimmte operative Veröffentlichungen, vorbehaltlich Interessenabwägung und Kontext. Einwilligung wird in einigen Szenarien genutzt, z. B. bei Marketingporträts aus der Nähe. Kontextabhängig.	Gleich. Der ICO betont Transparenz, berechtigte Erwartungen und das Widerspruchsrecht, wo zutreffend [2].
DSFA-Indikatoren	Systematische Überwachung öffentlich zugänglicher Bereiche in großem Umfang oder neue Technologien mit erhöhtem Risiko sind typische Auslöser für eine DSFA [1].	ICO-Leitlinien zeigen, dass systematische Überwachung und neue Technologien je nach Umfang und Risiko eine DSFA erfordern können [3].
Anonymisierungsstandard	Anonymisiert, wenn eine Identifizierung unter Berücksichtigung von Mitteln und Kosten nicht mehr vernünftigerweise wahrscheinlich ist (Erwägungsgrund 26) [1].	Gleicher Standard in der UK GDPR. ICO-Leitlinien behandeln robuste Anonymisierung und den Umgang mit Restrisiken [2].
Ausnahmen für Meinungsfreiheit	Regelungen der Mitgliedstaaten gelten für journalistische sowie akademische/künstlerische/literarische Zwecke. Stark kontextabhängig.	Der Data Protection Act 2018 sieht Ausnahmen vor, u. a. für Journalismus sowie Forschung/Statistik unter bestimmten Bedingungen. Stark kontextabhängig [4].

Teams, die regelmäßige Veröffentlichungen oder den Austausch von Datensätzen planen, können diese Punkte in DSFA-Checklisten, Schwärzungsprofile und Freigabeprozesse überführen. Demo herunterladen, um dies in einer On-Premise-Umgebung zu testen.

Qualitätssicherung für anonymisierte Datensätze

Die Qualitätssicherung sollte sich auf messbare Abdeckung und Fehlerraten konzentrieren. Erstellen Sie Ground-Truth-Stichproben mit manuellen Annotationen. Vergleichen Sie automatisierte Gesichts- und Kennzeichenverpixelung mit dem Ground Truth, um False Negatives und False Positives zu schätzen. Verfolgen Sie die Leistung nach Szenarien wie Nachtaufnahmen, Helmen, Masken und Fisheye-Kameras. Berichten Sie Ergebnisse als kontextabhängige Kennzahlen statt universeller Genauigkeitsversprechen. Für Veröffentlichungen strengere Schwellenwerte und manuelle Prüfungen anwenden. Für das Modelltraining die Anonymisierungsstärke mit dem Nutzwert ausbalancieren, indem risikoreiche Attribute unterdrückt werden, während nicht identifizierende, aufgabenrelevante Merkmale erhalten bleiben.

Organisationen, die diesen Workflow operationalisieren möchten, können ihn mit internen Richtlinien und Lieferanten-Due-Diligence abstimmen. Kontaktieren Sie uns, um On-Premise-Verarbeitungskontrollen, rollenbasierte Zugriffe und Audit-Logging zu besprechen.

Ein weißes Fragezeichen mit Spray auf der Asphaltstraße gemalt

FAQ: Training von KI-Modellen mit Foto- & Video-Datensätzen

Macht Gesichtsverpixelung allein einen Datensatz nach DSGVO anonym?

Nicht immer. Bleibt eine Person mit vernünftigerweise einzusetzenden Mitteln identifizierbar, etwa durch markante Kleidung oder Ortsmerkmale, enthält der Datensatz weiterhin personenbezogene Daten. Je nach Kontext und Risiko kann eine Kombination aus Gesichtsverpixelung, Kennzeichenverpixelung, Hintergrundschwärzung und Entfernung von Metadaten erforderlich sein [1][2].

Wann sollte Kennzeichenverpixelung angewendet werden?

Immer dann, wenn Fahrzeuge so erscheinen, dass Fahrer oder Halter identifizierbar sind oder eine Verknüpfung zu einer Person möglich ist (z. B. bei lesbaren Kennzeichen im Kontext). Das ist typisch für Straßenszenen, Parkplätze und Gebäudeeingänge. Beim Modelltraining sollte die Kennzeichenerkennung mehrskalig aktiviert werden, um auch entfernte Fahrzeuge zu erfassen.

Ist Cloud-Verarbeitung für Verpixelung zulässig?

Das hängt von Risiko, Architektur und Verträgen ab. On-Premise-Software kann externe Datenübertragungen reduzieren und eine stärkere Kontrolle über Zugriff und Aufbewahrung ermöglichen. Bei Cloud-Nutzung sind angemessene Sicherheitsmaßnahmen umzusetzen und eine konforme Verantwortlicher-Auftragsverarbeiter-Vereinbarung sicherzustellen, einschließlich etwaiger Anforderungen an internationale Datenübermittlungen nach DSGVO/UK GDPR.

Wie sollten Organisationen mit Metadaten umgehen?

GPS-Koordinaten und Gerätekennungen aus Veröffentlichungskopien entfernen. Für interne Compliance nur die minimal erforderlichen technischen Protokolle zur Rechenschaftspflicht und Fehlerbehebung aufbewahren und unnötige Metadaten vermeiden, die eine Re-Identifizierung ermöglichen würden. ICO-Leitlinien behandeln den sorgfältigen Umgang mit Bildern und zugehörigen Informationen [2].

Welches Maß an Unschärfe ist ausreichend?

Es gibt kein universelles Niveau. Wählen Sie Pixelierung oder Gaußsche Unschärfe, die eine praktische Identifizierung verhindert und gegenüber vernünftigerweise wahrscheinlicher Bildverbesserung robust ist. Testen Sie unter verschiedenen Lichtverhältnissen, Blickwinkeln und Bewegungen. Für öffentliche Freigaben sollte die Stärke in der Regel höher sein als für interne Analysen.

Wie wirkt sich der EU AI Act auf visuelle Datensätze aus?

Er stärkt Governance-Erwartungen über den Lebenszyklus (für erfasste Systeme), einschließlich Risikomanagement und Daten-Governance, und gilt parallel zum bestehenden Datenschutzrecht. Anonymisierung und Datenminimierung können Risiken personenbezogener Daten reduzieren, beseitigen jedoch keine DSGVO-Pflichten, wenn Personen identifizierbar bleiben [5].

Sind die drei Ausnahmen für KI-Training verlässlich?

Sie sind kontextabhängig und beziehen sich typischerweise auf Bildveröffentlichung/Bildrechte, nicht auf eine umfassende Zweckänderung für Trainingszwecke. Für Trainingsdatensätze bietet Anonymisierung (oder eine andere klar anwendbare Rechtsgrundlage mit geeigneten Schutzmaßnahmen) in der Regel vorhersehbarere Compliance-Ergebnisse.

Kostenlose Demo herunterladen