Membership Inference Attack - Definition
Ein Membership Inference Attack, kurz MIA, bezeichnet eine Klasse von Angriffen auf Machine-Learning-Modelle, deren Ziel es ist festzustellen, ob ein bestimmter Datensatz Teil des Trainingsdatensatzes eines Modells war. Der Begriff wurde in der wissenschaftlichen Literatur insbesondere nach der Veröffentlichung von Shokri et al. aus dem Jahr 2017 breit diskutiert. Die Arbeit zeigte, dass bereits der Zugriff auf die Antworten eines Modells ausreichen kann, um auf die Zugehörigkeit eines Datensatzes zum Training zu schließen. In der Praxis geht es dabei nicht um die Rekonstruktion eines vollständigen Bildes oder einer Aufnahme, sondern um die Frage: Wurde dieses konkrete Gesichtsbild, dieses Videoframe oder dieses aus visuellem Material extrahierte Merkmal zum Training eines KI-Modells verwendet?
Im Kontext der Anonymisierung von Fotos und Videos entsteht das Risiko eines Membership Inference Attack, wenn ein Deep-Learning-Modell mit Materialien trainiert wurde, die Gesichter oder Kfz-Kennzeichen enthalten, und ein Angreifer das Modell abfragen oder seine Parameter analysieren kann. Wenn ein Modell zur Gesichtserkennung, zur Segmentierung von Gesichtsbereichen oder zur Lokalisierung von Nummernschildern Trainingsdaten zu genau speichert, kann es Informationen darüber preisgeben, dass ein bestimmtes Bild Teil des Trainingsprozesses war. Aus Sicht des Datenschutzes ist das relevant, weil bereits die Tatsache, dass ein konkretes Bild im Training verwendet wurde, eine personenbezogene oder vertrauliche Information sein kann - insbesondere dann, wenn das Material aus Videoüberwachung, Vorfallaufzeichnungen, medizinischer Dokumentation oder internen Beständen einer Organisation stammt.
Ein Zugehörigkeitsangriff ist nicht dasselbe wie Model Inversion, Model Extraction oder Datenrekonstruktion. Ein Membership Inference Attack beantwortet eine binäre oder probabilistische Frage zur Zugehörigkeit zum Trainingsdatensatz. Das typische Ergebnis ist eine 0/1-Entscheidung oder eine Zugehörigkeitswahrscheinlichkeit.
Wie funktioniert ein Membership Inference Attack bei der Verarbeitung von Fotos und Videos?
In Systemen zur visuellen Anonymisierung muss ein KI-Modell zunächst trainiert werden. Deep Learning ist nicht immer erforderlich, wird jedoch häufig eingesetzt, wenn Gesichter oder Kfz-Kennzeichen vor dem Unkenntlichmachen automatisch erkannt werden sollen. Genau diese Trainingsphase erzeugt das Risiko eines Membership Inference Attack. Das Modell lernt Muster auf Basis von Bildern und Aufnahmen. Kommt es dabei zu Overfitting, kann es auf bereits gesehene Trainingsdaten anders reagieren als auf neue Daten.
Das häufigste Szenario besteht darin, das Verhalten des Modells für eine Probe, die verdächtigt wird Teil des Trainings gewesen zu sein, mit Proben außerhalb des Trainings zu vergleichen. Der Angreifer analysiert das Konfidenzniveau der Vorhersage, die Verteilung der Klassenwahrscheinlichkeiten, den Wert der Verlustfunktion oder Zwischenmerkmale. Trainingsdaten führen häufig zu einem geringeren Loss und zu einer höheren Vorhersagesicherheit als bisher ungesehene Daten.
Für ein Bild oder ein Videoframe lässt sich dies in der Praxis mit folgender Formel beschreiben:
MIA(x) = 1, wenn s(f(x)) > t
wobei x die untersuchte Probe bezeichnet, f(x) die Antwort des Modells ist, s eine Scoring-Funktion darstellt, zum Beispiel den negativen Loss oder die maximale Klassenwahrscheinlichkeit, und t die Entscheidungsschwelle ist. Je höher das Ergebnis, desto größer ist die Wahrscheinlichkeit, dass die Probe zum Training gehörte.
Bedeutung des Membership Inference Attack für die Anonymisierung von Gesichtern und Kfz-Kennzeichen
Bei Tools zur Anonymisierung von Fotos und Videoaufnahmen betrifft ein Membership Inference Attack in erster Linie Detektions- und Segmentierungsmodelle. Er betrifft nicht den eigentlichen Blur- oder Verpixelungseffekt als grafische Operation, sondern die KI-Modelle, die die zu anonymisierenden Objekte finden. Diese Unterscheidung ist für Datenschutzbeauftragte und Sicherheitsteams wesentlich.
Das Risiko ist in mehreren Situationen praktisch relevant:
- wenn ein Modell mit internen Materialien der Organisation trainiert wurde, zum Beispiel mit Aufnahmen aus Produktionsstätten oder der Parkplatzüberwachung,
- wenn der Modellanbieter Kundendaten für ein weiteres Training genutzt hat,
- wenn das Modell per API bereitgestellt wird und wiederholt abgefragt werden kann,
- wenn die Dokumentation keine Angaben zu Quellen der Trainingsdaten, Aufbewahrung und Schutzmaßnahmen gegen Informationsabfluss enthält.
In Systemen wie Gallio PRO besteht der praktische Kontext darin, in Foto- und Videomaterial ausschließlich Gesichter und Kfz-Kennzeichen automatisch zu erkennen und diese anschließend unkenntlich zu machen. Die Software anonymisiert keine vollständigen Körper. Deshalb sollte sich die Risikobewertung eines Membership Inference Attack auf Modelle zur Erkennung von Gesichtern und Kennzeichen konzentrieren und nicht auf andere Objektkategorien.
Zentrale Parameter und Metriken für Membership Inference Attack
Die Bewertung des MIA-Risikos erfordert messbare Kennzahlen. Die bloße Erklärung, ein Modell sei „sicher“, reicht nicht aus. In Fachliteratur und Sicherheitspraxis werden Klassifikationsmetriken sowie Kennzahlen verwendet, die sich auf Unterschiede im Modellverhalten bei Trainings- und Testdaten beziehen.
Parameter / Metrik | Bedeutung | Interpretation bei Modellen zur Bildanonymisierung
|
|---|---|---|
Attack Accuracy | Anteil korrekter Angriffsentscheidungen | Je höher der Wert, desto leichter lässt sich feststellen, ob ein Foto oder Frame im Training enthalten war |
Precision / Recall | Präzision und Sensitivität des Angriffs | Wichtig bei unausgeglichenen Verhältnissen von Mitglieds- und Nichtmitgliedsproben |
AUC-ROC | Qualität der Unterscheidung durch den Angriff | Ermöglicht den Vergleich der Wirksamkeit von MIA zwischen verschiedenen Modellen |
Generalization Gap | Unterschied zwischen Fehler auf Training und Test | Eine große Lücke erhöht in der Regel die Anfälligkeit für MIA |
Confidence Score | Vorhersagesicherheit des Modells | Übermäßig sichere Antworten erleichtern den Angriff oft |
Loss Value | Wert der Verlustfunktion für eine Probe | Ein niedrigerer Loss bei Trainingsdaten kann die Zugehörigkeit offenlegen |
Bei Modellen zur Gesichts- und Kennzeichenerkennung werden zusätzlich klassische Qualitätsmaße wie mAP, Precision und Recall beobachtet, da eine zu aggressive Begrenzung des Informationsabflusses die Erkennungsleistung für die unkenntlich zu machenden Objekte verschlechtern kann. Deshalb muss der Zielkonflikt zwischen Datenschutz und Nutzbarkeit des Modells analysiert werden.
Techniken zur Reduzierung des Risikos eines Membership Inference Attack
Es gibt keine einzelne Maßnahme, die einen Membership Inference Attack ohne Qualitätsverlust vollständig eliminiert. Der Schutz erfordert eine Kombination von Methoden in der Trainings-, Bereitstellungs- und Betriebsphase des Modells. In Systemen zur Verarbeitung von Fotos und Videos ist es entscheidend, Overfitting sowie die Offenlegung der Modellschnittstelle zu begrenzen.
Zu den am häufigsten eingesetzten Techniken gehören:
- Modellregularisierung, einschließlich Weight Decay, Dropout und Early Stopping,
- Begrenzung der Detailtiefe der Modellantworten, zum Beispiel ohne vollständigen Wahrscheinlichkeitsvektor,
- Differential Privacy während des Trainings entsprechend dem unter anderem von Dwork et al. entwickelten Ansatz,
- Datenminimierung bei Trainingsdaten und strikte Kontrolle der Quellen von Bildern und Aufnahmen,
- Red-Team-Tests und Privacy-Audits von Modellen vor dem produktiven Einsatz,
- On-Premise-Bereitstellung, wenn die Richtlinien der Organisation die vollständige Kontrolle über Daten und Modell verlangen.
In Umgebungen mit erhöhtem Risiko sollte vom Anbieter verlangt werden, Informationen über Trainingsverfahren, die Aufbewahrung von Trainingsdaten, die Möglichkeit zur Deaktivierung eines weiteren Trainings mit Kundendaten sowie die Ergebnisse von Resilienztests gegen Membership Inference Attack bereitzustellen. Das ist besonders wichtig bei Materialien, die das Bildnis von Personen und Kfz-Kennzeichen enthalten.
Normative Bezüge und Compliance-Praxis
Ein Membership Inference Attack wird in der DSGVO nicht ausdrücklich als eigener Begriff genannt, seine Auswirkungen fallen jedoch in den Bereich der Vertraulichkeit, der Integrität des Verarbeitungsvorgangs sowie von Privacy by Design. Von zentraler Bedeutung sind insbesondere Art. 5 Abs. 1 lit. f DSGVO, Art. 25 DSGVO und Art. 32 DSGVO. Für KI-Systeme, die zur visuellen Anonymisierung eingesetzt werden, sind außerdem Leitlinien zur Modellsicherheit und zum Risikomanagement relevant.
Beachtenswerte Quelldokumente sind:
- Verordnung (EU) 2016/679, also die DSGVO, in Kraft seit dem 25. Mai 2018,
- NIST AI RMF 1.0, National Institute of Standards and Technology, 2023,
- NIST Privacy Framework 1.0, 2020,
- ISO/IEC 23894:2023 - Information technology - Artificial intelligence - Guidance on risk management,
- Shokri et al., Membership Inference Attacks Against Machine Learning Models, IEEE Symposium on Security and Privacy, 2017.
In der Compliance-Praxis für die Verarbeitung von Fotos und Videos bedeutet dies, dass nachgewiesen werden muss, dass das zur Erkennung von Gesichtern und Kfz-Kennzeichen verwendete Modell keine übermäßigen Informationen über Trainingsdaten preisgibt und dass die Bereitstellungsarchitektur die Prinzipien der Datenminimierung und Datensicherheit unterstützt.