Was ist Model Drift?

Inhaltsverzeichnis

Model Drift - Definition
Die Rolle von Model Drift bei der Video- und Bildanonymisierung
Arten und Symptome von Model Drift in der Anonymisierung
Zentrale Parameter und Metriken zur Drift-Erkennung
Drift-Monitoring ohne Erhebung personenbezogener Daten
Strategien zur Reduzierung von Model Drift und Korrekturmaßnahmen
Herausforderungen und Compliance
Technologien zur Erkennung und Reduktion von Model Drift
Normative Verweise und Quellen

Model Drift - Definition

Model Drift bezeichnet eine Veränderung der Leistungsfähigkeit eines Machine-Learning-Modells im Zeitverlauf, die durch Änderungen der Eingabedaten, der Merkmalsverteilungen, der Labels oder der Beziehung zwischen Merkmalen und Zielvariable verursacht wird. In der Fachliteratur werden dabei Data Drift (Änderung der Eingabeverteilungen), Concept Drift (Änderung der Beziehung zwischen Input und Label) sowie Label Shift (Änderung der Labelverteilung) unterschieden - siehe u. a. die Übersichtsarbeit von Gama et al. (2014, ACM Computing Surveys) sowie die Klassifikation nach Webb et al. (2016, DMKD).

In der Anonymisierung von Bildern und Videos bedeutet Model Drift eine schleichende Verschlechterung der Erkennungsleistung für Objekte, die unkenntlich gemacht werden müssen - insbesondere Gesichter und Kfz-Kennzeichen. Änderungen bei Beleuchtung, neue Kennzeichenformate, Masken, Brillen, geringere Kompressionsqualität oder modernisierte Kameras führen zu einer zunehmenden Abweichung zwischen Trainings- und Produktionsdaten. Dies senkt den Recall und erhöht das Risiko der Offenlegung personenbezogener Daten.

Die Rolle von Model Drift bei der Video- und Bildanonymisierung

In Systemen wie Gallio PRO erkennen Deep-Learning-Modelle Gesichter und Kfz-Kennzeichen und wenden anschließend eine Unschärfe (Blur) an. Model Drift führt dabei zu Nichterkennungen oder fehlerhafter Lokalisierung der Objekte. Die Folge sind fehlende oder zu klein dimensionierte Unschärfebereiche. Aus Sicht der DSGVO stellt dies ein Risiko für die Wahrung von Integrität und Vertraulichkeit gemäß Art. 5 Abs. 1 lit. f sowie für den Grundsatz des Datenschutzes durch Technikgestaltung und datenschutzfreundliche Voreinstellungen nach Art. 25 DSGVO dar.

Gallio PRO führt keine Echtzeit-Anonymisierung durch, sondern arbeitet im Batch-Betrieb. Dies erleichtert die Kontrolle von Model Drift durch regelmäßige Überprüfungen auf Validierungsdatensätzen sowie durch geplante Modell-Updates ohne unmittelbare Auswirkungen auf laufende Videoströme.

Arten und Symptome von Model Drift in der Anonymisierung

Für Datenschutzbeauftragte und technische Teams ist die Unterscheidung der Drift-Typen besonders hilfreich, da sie die geeigneten Gegenmaßnahmen bestimmt. Die folgende Übersicht fasst die wichtigsten Aspekte zusammen.

Drift-Typ	Definition (Quellen)	Typische Symptome in Video/Bild	Tests/Metriken	Maßnahmen
Data Drift (Covariate Shift)	Änderung der Verteilung der Eingangsmerkmale (Gama 2014; ISO/IEC 22989:2022)	Andere Lichtverhältnisse, Kamerawinkel, Kompression, neue Hintergründe	PSI, KL, KS, Wasserstein-Distanz	Rekalibrierung, Datenaugmentation, Aktualisierung der Stichproben
Concept Drift	Änderung der Beziehung zwischen Input und Label (Webb 2016)	Neue Maskentypen, veränderte Kennzeichenlayouts, ungewöhnliche Schriftarten	Abfall von mAP/Recall auf annotierten Stichproben	Neutraining, Erweiterung der Labels
Label Shift	Änderung der Labelverteilung bei konstanter Input-Label-Beziehung (Gama 2014)	Mehr Kennzeichen nachts als tagsüber, andere Anteile verdeckter Gesichter	Tests der Labelverteilungen, Stichprobengewichtung	Regewichtung, Loss-Sampling

Drift-Typ

Definition (Quellen)

Typische Symptome in Video/Bild

Tests/Metriken

Maßnahmen

Data Drift (Covariate Shift)

Änderung der Verteilung der Eingangsmerkmale (Gama 2014; ISO/IEC 22989:2022)

Andere Lichtverhältnisse, Kamerawinkel, Kompression, neue Hintergründe

PSI, KL, KS, Wasserstein-Distanz

Rekalibrierung, Datenaugmentation, Aktualisierung der Stichproben

Concept Drift

Änderung der Beziehung zwischen Input und Label (Webb 2016)

Neue Maskentypen, veränderte Kennzeichenlayouts, ungewöhnliche Schriftarten

Abfall von mAP/Recall auf annotierten Stichproben

Neutraining, Erweiterung der Labels

Label Shift

Änderung der Labelverteilung bei konstanter Input-Label-Beziehung (Gama 2014)

Mehr Kennzeichen nachts als tagsüber, andere Anteile verdeckter Gesichter

Tests der Labelverteilungen, Stichprobengewichtung

Regewichtung, Loss-Sampling

Zentrale Parameter und Metriken zur Drift-Erkennung

Die Überwachung von Model Drift erfordert objektive Messgrößen. In der Objekterkennung kommen sowohl Qualitätsmetriken als auch statistische Verteilungsmaße zum Einsatz. Zu den wichtigsten zählen:

Recall und Precision in der Objekterkennung - berechnet auf Referenzdatensätzen mit Annotationen. Standard ist die Berichterstattung der mAP über IoU-Schwellen von 0,5 bis 0,95 in 0,05er-Schritten (COCO; Lin et al., 2014).
PSI (Population Stability Index) zur Erkennung von Verteilungsänderungen. Formel: PSI = Σ_i (p_i − q_i) · ln(p_i/q_i), wobei p_i den Produktions- und q_i den Referenzanteil beschreibt (Siddiqi, 2012).
Klassische Verteilungstests wie der Kolmogorov-Smirnov-Test für kontinuierliche Variablen und der Chi-Quadrat-Test für kategoriale Merkmale.
KL-Divergenz als Maß für die Abweichung zwischen zwei Verteilungen P und Q: D_KL(P‖Q) = Σ P(x) ln(P(x)/Q(x)) (Kullback-Leibler, 1951).
Wasserstein-Distanz zur robusten Vergleichbarkeit kontinuierlicher Histogramme von Bildmerkmalen und Embeddings.
FID (Fréchet Inception Distance) zur Bewertung von Änderungen visueller Repräsentationen im Embedding-Raum (Heusel et al., 2017).

Drift-Monitoring ohne Erhebung personenbezogener Daten

Gallio PRO speichert keine Logs mit Gesichts- oder Kennzeichendetektionen und verarbeitet keine Protokolle mit personenbezogenen Daten. Dennoch lässt sich Model Drift auf Basis nicht-personenbezogener und aggregierter Daten überwachen.

Synthetische und Kontroll-Datensätze - regelmäßige Evaluation auf annotierten Testbildern ohne identifizierbare Personen. Bewährt haben sich Validierungsverfahren gemäß ISO/IEC 23894:2023.
Aggregierte Telemetriedaten ohne PII - Verteilungen von Bounding-Box-Größen, durchschnittliche Confidence-Werte sowie Histogramme zu Schärfe und Beleuchtung nach der Anonymisierung.
Verteilungstests technischer Merkmale - PSI, KL und KS auf Bildmerkmalen (z. B. Luminanz, Rauschen) und Embeddings, die keine Rekonstruktion des Erscheinungsbildes erlauben.

Strategien zur Reduzierung von Model Drift und Korrekturmaßnahmen

Ein wirksames Drift-Management verbindet MLOps-Prozesse mit regulatorischen Anforderungen. Rahmenwerke wie NIST AI RMF 1.0 (2023) sowie ISO/IEC 22989:2022 und ISO/IEC 23894:2023 liefern dafür geeignete Leitlinien.

Zyklisches Re-Training - regelmäßige Aktualisierung der Modelle zur Gesichts- und Kennzeichenerkennung mit vollständiger Validierung von mAP und Recall.
Domänenspezifische Datenaugmentation - Simulation unterschiedlicher Lichtverhältnisse, Motion Blur, Kompression, Vignettierung und neuer Kennzeichenformate.
Kalibrierung von Schwellenwerten - Anpassung der Confidence-Schwellen und der Maskengröße für die Unschärfe, dokumentiert und getestet auf Referenzdatensätzen.
Versionierung von Modellen und Daten - Nachvollziehbare Ablage von Modellen, Konfigurationen und Testergebnissen gemäß ISO/IEC 23894:2023.

Herausforderungen und Compliance

Schwankende Aufnahmequalität, heterogene Kameralandschaften und unterschiedliche nationale Regelungen erhöhen das Risiko unzureichender Unkenntlichmachung. Der EDPB stellt in den Leitlinien 3/2019 (Version 2.0 vom 29.01.2020) klar, dass identifizierbare Elemente wie Gesichter oder Kfz-Kennzeichen personenbezogene Daten darstellen können, sofern eine Identifizierung möglich ist. Ihre Anonymisierung muss daher wirksam und belastbar sein. Die DSGVO verlangt angemessene technische und organisatorische Maßnahmen sowie eine dokumentierte Risikobewertung (Art. 5, Art. 25 DSGVO). In mehreren westeuropäischen Staaten ist das Verpixeln von Kennzeichen in bestimmten Kontexten rechtlich oder faktisch vorgeschrieben, während in Polen divergierende Auslegungen bestehen. In diesem Umfeld ist das Management von Model Drift ein zentraler Bestandteil der Due Diligence und der Compliance-Dokumentation.

Technologien zur Erkennung und Reduktion von Model Drift

Für die Erkennung von Gesichtern und Kennzeichen werden überwachte Convolutional Neural Networks und Transformer-Modelle eingesetzt. Ihr Betrieb erfordert Werkzeuge zur Analyse von Datenverteilungen und zur kontinuierlichen Validierung. Die folgende Tabelle zeigt ausgewählte Best Practices.

Bereich	Technische Praxis	Ziel	Normen/Quellen
Qualitätsvalidierung	mAP und Recall@IoU [0.5:0.95] auf Kontroll-Datensätzen	Früherkennung von Qualitätsverlusten	COCO Evaluation (Lin et al., 2014)
Verteilungsmonitoring	PSI, KL, KS, Wasserstein auf Bildmerkmalen	Identifikation von Data Drift	Siddiqi (2012); Kullback-Leibler (1951)
Modellrobustheit	Domänenaugmentation und Klassenbalancierung	Reduktion der Drift-Anfälligkeit	ISO/IEC 23894:2023
Risikomanagement	Risikoregister, Eskalationskriterien, Re-Training-Plan	Compliance und Auditierbarkeit	NIST AI RMF 1.0 (2023)

Normative Verweise und Quellen

Die folgenden hochrangigen Quellen bilden die Grundlage der im Text verwendeten Definitionen und Empfehlungen:

DSGVO - Verordnung (EU) 2016/679, Art. 5 und Art. 25; Erwägungsgrund 26.
EDPB, Leitlinien 3/2019 zur Verarbeitung personenbezogener Daten durch Videogeräte, Version 2.0 vom 29.01.2020.
ISO/IEC 22989:2022 - Künstliche Intelligenz - Konzepte und Terminologie.
ISO/IEC 23894:2023 - Künstliche Intelligenz - Risikomanagement.
NIST AI Risk Management Framework 1.0, 2023.
Gama, J. et al., A Survey on Concept Drift Adaptation, ACM Computing Surveys, 2014.
Webb, G.I. et al., Characterizing Concept Drift, Data Mining and Knowledge Discovery, 2016.
Lin, T.-Y. et al., Microsoft COCO: Common Objects in Context, 2014.
Siddiqi, N., Credit Risk Scorecards, 2012.
Kullback, S.; Leibler, R.A., On Information and Sufficiency, 1951.
Heusel, M. et al., GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium, 2017.

Siehe auch

Zurück zum Glossar