Re-Identification Risk Assessment - Was ist das?

Re-Identification Risk Assessment - Definition

Re-Identification Risk Assessment (Bewertung des Re‑Identifizierungsrisikos) ist ein strukturierter Prozess zur Abschätzung der Wahrscheinlichkeit, dass Personen trotz eingesetzter Anonymisierungstechniken in Bildern und Videoaufnahmen identifizierbar bleiben. Rechtlicher Bezugspunkt ist die DSGVO, die in Erwägungsgrund 26 verlangt, dass eine Anonymisierung eine Identifizierung nicht mehr „mit Mitteln, die vernünftigerweise eingesetzt werden können“, ermöglicht (VO (EU) 2016/679). Auf technischer Ebene werden Rahmenwerke zur Risikobewertung der Re‑Identifizierung u. a. in ISO/IEC 20889:2018 sowie ISO/IEC 27559:2022 definiert, die Klassen von De‑Identifizierungsverfahren und Prozesse zur Risikobewertung - auch für Bilddaten - beschreiben.

Im Kontext der Anonymisierung von Fotos und Videos bedeutet eine Re-Identification Risk Assessment die empirische und kontextbezogene Prüfung, wie stark eine erneute Identifizierung nach dem Verpixeln oder Unkenntlichmachen von Gesichtern und Kfz‑Kennzeichen erschwert ist - unter Einsatz moderner Gesichtserkennungssysteme und OCR für Kennzeichen. Dazu gehören Tests mit Deep‑Learning‑Modellen, die sowohl für die Entwicklung von Erkennungssystemen (Gesichts- und Kennzeichendetektion) als auch für simulierte Angriffe mit vergleichbaren oder leistungsfähigeren Modellen erforderlich sind.

Rolle bei der Anonymisierung von Bildern und Videos

Die Bewertung des Re‑Identifizierungsrisikos definiert die Parameter der Unkenntlichmachung vor der Implementierung und überprüft anschließend die Wirksamkeit der Anonymisierung anhand von Stichproben. In der Praxis bedeutet dies die Festlegung der Filterstärke, der Maskenränder sowie der Verarbeitung von Bildsequenzen, sodass das Risiko der Gesichtserkennung oder Kennzeichenerkennung in realistischen Angriffsszenarien gering bleibt. In vielen westeuropäischen Ländern ist das Unkenntlichmachen von Kennzeichen in bestimmten Kontexten (z. B. bei Street‑View‑Veröffentlichungen) vorgeschrieben. In Deutschland besteht keine generelle Pflicht zur Verpixelung in jedem Fall, jedoch verlangen Datenschutzbehörden eine risikobasierte Minimierung der Identifizierbarkeit abhängig vom Nutzungskontext.

In der Umgebung von Gallio PRO konzentriert sich die Re‑Identifizierungsrisiko‑Bewertung auf Gesichter und Kfz‑Kennzeichen. Gallio PRO wird On‑Premise betrieben, führt keine Echtzeit‑Anonymisierung durch und automatisiert ausschließlich das Unkenntlichmachen von Gesichtern und Kennzeichen. Andere identifizierende Merkmale wie Logos oder Tätowierungen können im integrierten Editor manuell maskiert werden und sollten ebenfalls in die Risikobewertung einbezogen werden.

Technologien und Verfahren der Re-Identification Risk Assessment

Die Bewertung kombiniert Detektions‑, Anonymisierungs‑ und Angriffswerkzeuge. In der Praxis werden tiefe neuronale Netze zur Erkennung von Gesichtern und Kennzeichen, Unkenntlichmachungsalgorithmen sowie unabhängige Erkennungssysteme zur Messung des Risikos nach der Anonymisierung eingesetzt.

  • Erkennung und Maskierung: Gesichtsdetektoren (z. B. auf Basis konvolutionaler Netze wie RetinaFace) und Kennzeichendetektoren, anschließend Gaußsche Unschärfe oder Pixelierung mit objektgrößenabhängigen Parametern.
  • Angriffsmodell: Gesichtserkennung auf Embedding‑Basis (z. B. ArcFace) sowie OCR für Kfz‑Kennzeichen. Diese Modelle repräsentieren realistisch verfügbare Mittel potenzieller Angreifer.
  • Verfahren: Zunächst Messung der Identifizierungsleistung auf nicht anonymisiertem Material (Baseline), anschließend Wiederholung der Tests nach der Anonymisierung und Bestimmung der Reduktion der Identifizierungswahrscheinlichkeit.
  • Kontextbewertung: Analyse zusätzlicher Faktoren wie auffällige Kleidung, charakteristische Accessoires, EXIF‑Metadaten oder Tonspuren. Bei Bedarf erfolgt eine manuelle Maskierung weiterer Elemente.

Zentrale Parameter und Metriken

Metriken sollten messbar, reproduzierbar und mit Unsicherheitsangaben berichtet werden. Empfohlen wird die Verwendung von 95‑%‑Konfidenzintervallen für binomiale Kennzahlen.

Metrik

Definition

Messhinweise

 

p_reid

Empirische Wahrscheinlichkeit der Re‑Identifizierung nach Anonymisierung = Anzahl korrekter Identifizierungen / Anzahl Versuche

Bericht mit 95‑%‑KI (Binomialverteilung)

Recall@k

Anteil der Fälle, in denen die korrekte Identität unter den Top‑k‑Treffern erscheint

Tests mit Referenzgalerie; Vergleich vor und nach Anonymisierung

FNR_det

Anteil nicht erkannter Gesichter/Kennzeichen = Fehlende Detektionen / Anzahl GT‑Objekte

IoU‑Schwelle z. B. 0,5 gegenüber Ground Truth

Maskenabdeckung

Anteil der Gesichts‑/Kennzeichenfläche, der durch die Maske abgedeckt ist

IoU der Maske gegenüber GT; Kontrolle des Maskenrands

Unschärfestärke s

Gauß‑Sigma oder Pixelblockgröße, normalisiert durch Pupillenabstand oder Kennzeichenhöhe

Angabe als Anteil der Objektgröße

In der Fachliteratur - insbesondere im Gesundheitsbereich - werden in Expertengutachten teils akzeptable Re‑Identifizierungsrisiken von etwa 0,09 diskutiert (El Emam et al., 2013). Die DSGVO definiert jedoch keinen festen Schwellenwert. Für Bild‑ und Videodaten empfiehlt sich die Festlegung von Akzeptanzkriterien auf Basis realistischer Angriffsmodelle und repräsentativer Datensätze.

Herausforderungen und Grenzen

Selbst nach erfolgreichem Verpixeln von Gesichtern oder Kennzeichen kann eine Re‑Identifizierung durch Kontextinformationen möglich bleiben. Bei der Bewertung sind daher technische und organisatorische Faktoren zu berücksichtigen.

  • Zusatzinformationen: Kleidung, Körperbau, Ort, Zeit oder einzigartige Accessoires. In solchen Fällen ist eine manuelle Maskierung in Gallio PRO erforderlich.
  • Detektionsfehler: Teilverdeckungen, Bewegung und Bewegungsunschärfe erhöhen die FNR_det. Eine Qualitätskontrolle auf Sequenzebene ist notwendig.
  • Rekonstruktionsangriffe: Super‑Resolution und Deblurring können die Bildqualität verbessern; die Unschärfestärke sollte daher konservativ gewählt werden.
  • Metadaten: EXIF‑Informationen und eingebettete Vorschaubilder können personenbezogene Daten preisgeben und sollten vor Veröffentlichung entfernt werden.
  • Rechtliche Unterschiede: Das Fehlen eines einheitlichen numerischen Schwellenwerts in der EU erfordert eine projektspezifische Dokumentation von Annahmen und Bedrohungsmodellen.

Anwendungsbeispiele

Die Re-Identification Risk Assessment wird in verschiedenen praktischen Szenarien der Verarbeitung visueller Inhalte eingesetzt.

  • Veröffentlichung von Schulungs‑ und Marketingmaterialien mit vorheriger Unkenntlichmachung von Gesichtern und Kennzeichen.
  • Weitergabe von Videoüberwachungsaufnahmen an berechtigte Stellen unter Minimierung des Risikos für unbeteiligte Personen.
  • Anonymisierung von Forschungsdaten und KI‑Datensätzen mit Bericht zu p_reid und FNR_det.
  • Erfüllung rechtlicher Anforderungen in EU‑Mitgliedstaaten, in denen die Kennzeichenverpixelung kontextabhängig vorgeschrieben sein kann, einschließlich Dokumentation der Bewertungsmethodik.

Normative Referenzen und Quellen

Die folgenden Dokumente bilden die Grundlage für Definition und Methodik der Bewertung des Re‑Identifizierungsrisikos in Bildern und Videos:

  • DSGVO, Verordnung (EU) 2016/679, Erwägungsgrund 26 und Art. 4 (EUR‑Lex).
  • ISO/IEC 20889:2018 - Privacy enhancing data de-identification terminology and classification of techniques.
  • ISO/IEC 27559:2022 - Privacy enhancing data de-identification framework.
  • Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques, 2014.
  • CNIL, Guide to anonymisation, 2019.
  • NISTIR 8053, De-Identification of Personal Information, NIST, 2015.
  • Deng J. et al., ArcFace: Additive Angular Margin Loss for Deep Face Recognition, CVPR 2019 (99,83 % auf LFW).
  • El Emam K., Arbuckle L., Anonymizing Health Data, Morgan Kaufmann, 2013.