Model Drift - Definition
Model Drift bezeichnet eine Veränderung der Leistungsfähigkeit eines Machine-Learning-Modells im Zeitverlauf, die durch Änderungen der Eingabedaten, der Merkmalsverteilungen, der Labels oder der Beziehung zwischen Merkmalen und Zielvariable verursacht wird. In der Fachliteratur werden dabei Data Drift (Änderung der Eingabeverteilungen), Concept Drift (Änderung der Beziehung zwischen Input und Label) sowie Label Shift (Änderung der Labelverteilung) unterschieden - siehe u. a. die Übersichtsarbeit von Gama et al. (2014, ACM Computing Surveys) sowie die Klassifikation nach Webb et al. (2016, DMKD).
In der Anonymisierung von Bildern und Videos bedeutet Model Drift eine schleichende Verschlechterung der Erkennungsleistung für Objekte, die unkenntlich gemacht werden müssen - insbesondere Gesichter und Kfz-Kennzeichen. Änderungen bei Beleuchtung, neue Kennzeichenformate, Masken, Brillen, geringere Kompressionsqualität oder modernisierte Kameras führen zu einer zunehmenden Abweichung zwischen Trainings- und Produktionsdaten. Dies senkt den Recall und erhöht das Risiko der Offenlegung personenbezogener Daten.
Die Rolle von Model Drift bei der Video- und Bildanonymisierung
In Systemen wie Gallio PRO erkennen Deep-Learning-Modelle Gesichter und Kfz-Kennzeichen und wenden anschließend eine Unschärfe (Blur) an. Model Drift führt dabei zu Nichterkennungen oder fehlerhafter Lokalisierung der Objekte. Die Folge sind fehlende oder zu klein dimensionierte Unschärfebereiche. Aus Sicht der DSGVO stellt dies ein Risiko für die Wahrung von Integrität und Vertraulichkeit gemäß Art. 5 Abs. 1 lit. f sowie für den Grundsatz des Datenschutzes durch Technikgestaltung und datenschutzfreundliche Voreinstellungen nach Art. 25 DSGVO dar.
Gallio PRO führt keine Echtzeit-Anonymisierung durch, sondern arbeitet im Batch-Betrieb. Dies erleichtert die Kontrolle von Model Drift durch regelmäßige Überprüfungen auf Validierungsdatensätzen sowie durch geplante Modell-Updates ohne unmittelbare Auswirkungen auf laufende Videoströme.
Arten und Symptome von Model Drift in der Anonymisierung
Für Datenschutzbeauftragte und technische Teams ist die Unterscheidung der Drift-Typen besonders hilfreich, da sie die geeigneten Gegenmaßnahmen bestimmt. Die folgende Übersicht fasst die wichtigsten Aspekte zusammen.
Drift-Typ | Definition (Quellen) | Typische Symptome in Video/Bild | Tests/Metriken | Maßnahmen
|
|---|---|---|---|---|
Data Drift (Covariate Shift) | Änderung der Verteilung der Eingangsmerkmale (Gama 2014; ISO/IEC 22989:2022) | Andere Lichtverhältnisse, Kamerawinkel, Kompression, neue Hintergründe | PSI, KL, KS, Wasserstein-Distanz | Rekalibrierung, Datenaugmentation, Aktualisierung der Stichproben |
Concept Drift | Änderung der Beziehung zwischen Input und Label (Webb 2016) | Neue Maskentypen, veränderte Kennzeichenlayouts, ungewöhnliche Schriftarten | Abfall von mAP/Recall auf annotierten Stichproben | Neutraining, Erweiterung der Labels |
Label Shift | Änderung der Labelverteilung bei konstanter Input-Label-Beziehung (Gama 2014) | Mehr Kennzeichen nachts als tagsüber, andere Anteile verdeckter Gesichter | Tests der Labelverteilungen, Stichprobengewichtung | Regewichtung, Loss-Sampling |
Zentrale Parameter und Metriken zur Drift-Erkennung
Die Überwachung von Model Drift erfordert objektive Messgrößen. In der Objekterkennung kommen sowohl Qualitätsmetriken als auch statistische Verteilungsmaße zum Einsatz. Zu den wichtigsten zählen:
- Recall und Precision in der Objekterkennung - berechnet auf Referenzdatensätzen mit Annotationen. Standard ist die Berichterstattung der mAP über IoU-Schwellen von 0,5 bis 0,95 in 0,05er-Schritten (COCO; Lin et al., 2014).
- PSI (Population Stability Index) zur Erkennung von Verteilungsänderungen. Formel: PSI = Σi (pi − qi) · ln(pi/qi), wobei pi den Produktions- und qi den Referenzanteil beschreibt (Siddiqi, 2012).
- Klassische Verteilungstests wie der Kolmogorov-Smirnov-Test für kontinuierliche Variablen und der Chi-Quadrat-Test für kategoriale Merkmale.
- KL-Divergenz als Maß für die Abweichung zwischen zwei Verteilungen P und Q: DKL(P‖Q) = Σ P(x) ln(P(x)/Q(x)) (Kullback-Leibler, 1951).
- Wasserstein-Distanz zur robusten Vergleichbarkeit kontinuierlicher Histogramme von Bildmerkmalen und Embeddings.
- FID (Fréchet Inception Distance) zur Bewertung von Änderungen visueller Repräsentationen im Embedding-Raum (Heusel et al., 2017).
Drift-Monitoring ohne Erhebung personenbezogener Daten
Gallio PRO speichert keine Logs mit Gesichts- oder Kennzeichendetektionen und verarbeitet keine Protokolle mit personenbezogenen Daten. Dennoch lässt sich Model Drift auf Basis nicht-personenbezogener und aggregierter Daten überwachen.
- Synthetische und Kontroll-Datensätze - regelmäßige Evaluation auf annotierten Testbildern ohne identifizierbare Personen. Bewährt haben sich Validierungsverfahren gemäß ISO/IEC 23894:2023.
- Aggregierte Telemetriedaten ohne PII - Verteilungen von Bounding-Box-Größen, durchschnittliche Confidence-Werte sowie Histogramme zu Schärfe und Beleuchtung nach der Anonymisierung.
- Verteilungstests technischer Merkmale - PSI, KL und KS auf Bildmerkmalen (z. B. Luminanz, Rauschen) und Embeddings, die keine Rekonstruktion des Erscheinungsbildes erlauben.
Strategien zur Reduzierung von Model Drift und Korrekturmaßnahmen
Ein wirksames Drift-Management verbindet MLOps-Prozesse mit regulatorischen Anforderungen. Rahmenwerke wie NIST AI RMF 1.0 (2023) sowie ISO/IEC 22989:2022 und ISO/IEC 23894:2023 liefern dafür geeignete Leitlinien.
- Zyklisches Re-Training - regelmäßige Aktualisierung der Modelle zur Gesichts- und Kennzeichenerkennung mit vollständiger Validierung von mAP und Recall.
- Domänenspezifische Datenaugmentation - Simulation unterschiedlicher Lichtverhältnisse, Motion Blur, Kompression, Vignettierung und neuer Kennzeichenformate.
- Kalibrierung von Schwellenwerten - Anpassung der Confidence-Schwellen und der Maskengröße für die Unschärfe, dokumentiert und getestet auf Referenzdatensätzen.
- Versionierung von Modellen und Daten - Nachvollziehbare Ablage von Modellen, Konfigurationen und Testergebnissen gemäß ISO/IEC 23894:2023.
Herausforderungen und Compliance
Schwankende Aufnahmequalität, heterogene Kameralandschaften und unterschiedliche nationale Regelungen erhöhen das Risiko unzureichender Unkenntlichmachung. Der EDPB stellt in den Leitlinien 3/2019 (Version 2.0 vom 29.01.2020) klar, dass identifizierbare Elemente wie Gesichter oder Kfz-Kennzeichen personenbezogene Daten darstellen können, sofern eine Identifizierung möglich ist. Ihre Anonymisierung muss daher wirksam und belastbar sein. Die DSGVO verlangt angemessene technische und organisatorische Maßnahmen sowie eine dokumentierte Risikobewertung (Art. 5, Art. 25 DSGVO). In mehreren westeuropäischen Staaten ist das Verpixeln von Kennzeichen in bestimmten Kontexten rechtlich oder faktisch vorgeschrieben, während in Polen divergierende Auslegungen bestehen. In diesem Umfeld ist das Management von Model Drift ein zentraler Bestandteil der Due Diligence und der Compliance-Dokumentation.
Technologien zur Erkennung und Reduktion von Model Drift
Für die Erkennung von Gesichtern und Kennzeichen werden überwachte Convolutional Neural Networks und Transformer-Modelle eingesetzt. Ihr Betrieb erfordert Werkzeuge zur Analyse von Datenverteilungen und zur kontinuierlichen Validierung. Die folgende Tabelle zeigt ausgewählte Best Practices.
Bereich | Technische Praxis | Ziel | Normen/Quellen
|
|---|---|---|---|
Qualitätsvalidierung | mAP und Recall@IoU [0.5:0.95] auf Kontroll-Datensätzen | Früherkennung von Qualitätsverlusten | COCO Evaluation (Lin et al., 2014) |
Verteilungsmonitoring | PSI, KL, KS, Wasserstein auf Bildmerkmalen | Identifikation von Data Drift | Siddiqi (2012); Kullback-Leibler (1951) |
Modellrobustheit | Domänenaugmentation und Klassenbalancierung | Reduktion der Drift-Anfälligkeit | ISO/IEC 23894:2023 |
Risikomanagement | Risikoregister, Eskalationskriterien, Re-Training-Plan | Compliance und Auditierbarkeit | NIST AI RMF 1.0 (2023) |
Normative Verweise und Quellen
Die folgenden hochrangigen Quellen bilden die Grundlage der im Text verwendeten Definitionen und Empfehlungen:
- DSGVO - Verordnung (EU) 2016/679, Art. 5 und Art. 25; Erwägungsgrund 26.
- EDPB, Leitlinien 3/2019 zur Verarbeitung personenbezogener Daten durch Videogeräte, Version 2.0 vom 29.01.2020.
- ISO/IEC 22989:2022 - Künstliche Intelligenz - Konzepte und Terminologie.
- ISO/IEC 23894:2023 - Künstliche Intelligenz - Risikomanagement.
- NIST AI Risk Management Framework 1.0, 2023.
- Gama, J. et al., A Survey on Concept Drift Adaptation, ACM Computing Surveys, 2014.
- Webb, G.I. et al., Characterizing Concept Drift, Data Mining and Knowledge Discovery, 2016.
- Lin, T.-Y. et al., Microsoft COCO: Common Objects in Context, 2014.
- Siddiqi, N., Credit Risk Scorecards, 2012.
- Kullback, S.; Leibler, R.A., On Information and Sufficiency, 1951.
- Heusel, M. et al., GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium, 2017.