Was ist Re-identification (Daten-Reidentifizierung)?

Re-identification, auf Deutsch Daten-Reidentifizierung, bezeichnet den Prozess, bei dem Daten, die eine Person ursprünglich nicht direkt identifizierbar machen sollten, wieder einer konkreten natürlichen Person zugeordnet werden. In der Praxis geht es um die Umkehrung der Wirkung von Pseudonymisierung, einer unzureichenden Anonymisierung oder um die Verknüpfung mehrerer Informationsbestände, um die Identität einer auf einem Foto oder in einem Video sichtbaren Person festzustellen. Im Kontext visueller Inhalte betrifft dieses Risiko vor allem Gesichter, Kfz-Kennzeichen und indirekte Merkmale wie Standort, Aufnahmezeit, Kleidung, den situativen Kontext oder besondere Fahrzeugmerkmale.

Aus Sicht der DSGVO ist die Re-identifizierung von zentraler Bedeutung, weil die Beurteilung, ob ein bestimmtes Material wirksam anonymisiert wurde, davon abhängt, ob die Identifizierung einer Person unter Einsatz von Mitteln weiterhin möglich ist, die vernünftigerweise in Betracht gezogen werden können. Dieser Maßstab ergibt sich aus Erwägungsgrund 26 der DSGVO, also der Verordnung (EU) 2016/679. Wenn nach dem Unkenntlichmachen eines Gesichts oder eines Kfz-Kennzeichens weiterhin eine reale Möglichkeit besteht, die Identität anhand anderer Bildelemente oder Metadaten festzustellen, sollte das Material nicht als anonym angesehen werden.

Re-identification (Daten-Reidentifizierung) - Definition

Operativ betrachtet ist die Daten-Reidentifizierung bei Bild- und Videodaten die Fähigkeit, einen anonymisierten oder teilweise anonymisierten visuellen Datensatz derselben Person oder demselben Fahrzeug zuzuordnen wie ein zuvor bekannter Referenzdatensatz. In der Fachliteratur wird der Begriff auch als Person Re-Identification, Vehicle Re-Identification oder Identity Linkage verwendet. Er bedeutet nicht immer, dass Vor- und Nachname rekonstruiert werden. Es genügt bereits, verlässlich festzustellen, dass die Person in Material A dieselbe ist wie in Material B, und dieses Ergebnis anschließend mit zusätzlichen externen Informationen zu verknüpfen.

In der Praxis der Anonymisierung von Fotos und Videos tritt Re-identifizierung am häufigsten in drei Situationen auf. Erstens, wenn die Unschärfe von Gesicht oder Kennzeichen zu schwach ist und umgangen werden kann. Zweitens, wenn andere indirekte Identifikatoren sichtbar bleiben. Drittens, wenn das Material Metadaten oder Kontextinformationen enthält, die eine Korrelation mit anderen Datenquellen ermöglichen.

Element

Bedeutung für die Re-identifizierung

Beispiel im Videomaterial

 

Gesicht

Direkter oder biometrischer Identifikator

Unpräzise unkenntlich gemachtes Gesicht in einer seitlichen Einstellung

Kfz-Kennzeichen

Fahrzeugidentifikator, teilweise auch indirekt des Halters oder Nutzers

Nach der Exportkomprimierung teilweise lesbare Zeichenfolge

Kleidung und Körperstatur

Indirekter Identifikator

Gleicher Mantel, gleicher Rucksack und gleiche Wegstrecke

Metadaten

Quelle für Korrelation mit anderen Datensätzen

Datum, Uhrzeit, GPS, Gerätename

Szenenkontext

Erleichtert Identifizierung bei kleiner Personenzahl

Eingang zu einem bestimmten Unternehmen oder Grundstück

Die Rolle der Daten-Reidentifizierung bei der Anonymisierung von Fotos und Videos

Die Bewertung des Reidentifizierungsrisikos ist einer der grundlegenden Tests für die Qualität einer Anonymisierung. Allein die Verwendung von Blur, Maske oder Pixelierung entscheidet noch nicht über die Wirksamkeit des Datenschutzes. Maßgeblich sind das Endergebnis und die Widerstandsfähigkeit des Materials gegenüber einer Zuordnung zu einer Person mit technisch und organisatorisch vernünftigerweise verfügbaren Mitteln.

Bei Fotos und Videoaufnahmen ist die Unterscheidung zwischen Anonymisierung und Pseudonymisierung besonders wichtig. Wenn der Verantwortliche oder Empfänger des Materials die Identität weiterhin rekonstruieren kann, weil das Original, ein Zuordnungsschlüssel, andere Referenzaufnahmen oder präzise Metadaten vorliegen, handelt es sich in der Regel nicht um eine Anonymisierung im engeren Sinne. Das ist für Datenschutzbeauftragte bei der Bewertung der Rechtsgrundlage, der Aufbewahrung, der Weitergabe von Material und der Informationspflichten wesentlich.

  • Anonymisierung soll die Möglichkeit der Identifizierung auf ein praktisch irreversibles Niveau reduzieren.
  • Pseudonymisierung senkt das Risiko, lässt aber weiterhin eine erneute Zuordnung der Daten zu einer Person zu.
  • Re-identifizierung ist ein Hinweis darauf, dass die eingesetzte Schutzmethode im konkreten Nutzungskontext unzureichend war.

Technologien und Mechanismen der Daten-Reidentifizierung

In Videosystemen kann Re-identifizierung sowohl auf manueller Analyse als auch auf Modellen des maschinellen Lernens beruhen. Insbesondere Deep Learning wird eingesetzt, um Modelle zu entwickeln, die Gesichter, Personen oder Fahrzeuge anhand von Merkmalsvektoren erkennen. Das ist dieselbe allgemeine technologische Richtung, die auf der Datenschutzseite das Trainieren von Modellen zur automatischen Erkennung von Gesichtern und Kfz-Kennzeichen und deren anschließende Unkenntlichmachung ermöglicht. Die reine Erkennung und das bloße Verwischen beseitigen jedoch nicht das gesamte Risiko, wenn andere Merkmale der Szene unverändert bleiben.

Typische Mechanismen der Re-identifizierung umfassen:

  • den Vergleich von Gesichtsmerkmalen, wenn die Unkenntlichmachung unvollständig oder unwirksam war,
  • Person Re-Identification auf Basis von Kleidung, Körperstatur, Gangbild und Bewegungsbahn,
  • Vehicle Re-Identification anhand von Marke, Modell, Farbe, Beschädigungen und Umgebung,
  • die Korrelation von EXIF-Metadaten, Zeitstempel, Standort und Ereignisreihenfolge,
  • die Verknüpfung des Materials mit öffentlich verfügbaren Daten, etwa Berichten über Veranstaltungen.

In der Praxis dient Gallio PRO dazu, Gesichter und Kfz-Kennzeichen in Foto- und Videomaterial automatisch unkenntlich zu machen, das außerhalb des Echtzeitmodus verarbeitet wird. Die Software anonymisiert keine Video-Streams und erkennt auch nicht automatisch Logos, Tätowierungen, Namensschilder, Dokumente oder Bildinhalte auf Monitoren. Diese Elemente können einen manuellen Eingriff im Editor erfordern - gerade weil sie, wenn sie im Material sichtbar bleiben, das Risiko der Re-identifizierung erhöhen können.

Zentrale Parameter und Metriken der Daten-Reidentifizierung

Das Risiko einer Daten-Reidentifizierung sollte messbar bewertet werden. Im Forschungsumfeld werden Qualitätsmetriken für das Matching von Datensätzen verwendet, im Compliance-Umfeld die Wahrscheinlichkeit einer Identifizierung bei gegebenen Ressourcen eines Angreifers. Bei Video- und Fotomaterial sind sowohl die Qualität der Objekterkennung für die Unkenntlichmachung als auch die Widerstandsfähigkeit des Endbildes gegen Rekonstruktion oder Umgehung der Maske relevant.

Metrik / Parameter

Bedeutung

Praktische Hinweise

 

Detection Recall

Anteil der zur Anonymisierung erkannten Gesichter oder Kennzeichen

Ein niedriger Recall erhöht die Zahl nicht unkenntlich gemachter Identifikatoren

Detection Precision

Anteil korrekter Erkennungen

Eine niedrige Precision verschlechtert die operative Qualität, wirkt sich aber meist weniger auf die Privatsphäre aus als ein niedriger Recall

mAP

Mean Average Precision für die Objekterkennung

Gängige Bewertungsmetrik für Detektionsmodelle

Rank-1 / Recall@k

Trefferquote der richtigen Identität in den Top-k-Ergebnissen

Wird in der Forschung zur Person Re-Identification eingesetzt

mAP für Re-ID

Qualität der Suche nach derselben Person oder demselben Fahrzeug im Datensatz

Je höher der Wert, desto größer das Risiko einer Verknüpfung von Aufnahmen

Maskierungsgrad

Grad der Unlesbarkeit eines Gesichts oder Kennzeichens nach dem Export

Sollte nach der finalen Komprimierung bewertet werden, nicht nur in der Arbeitsvorschau

Für die Risikobewertung hilft ein einfaches Modell:

Reidentifizierungsrisiko = Wahrscheinlichkeit des Matchings x Verfügbarkeit von Zusatzdaten x Auswirkung eines Anonymisierungsfehlers

Das ist keine normative Formel, sondern eine nützliche analytische Vereinfachung für DPIA beziehungsweise Datenschutz-Folgenabschätzungen und interne Tests.

Herausforderungen und Grenzen der Daten-Reidentifizierung

Das größte Problem ist in der Regel nicht allein das sichtbare Gesicht, sondern die Summe der im Material verbleibenden Informationen. Selbst eine korrekt unkenntlich gemachte Person kann weiterhin identifizierbar sein, wenn die Aufnahme ein seltenes Ereignis, einen präzisen Ort und eine genaue Uhrzeit zeigt. In einer kleinen Gemeinschaft oder in einem Arbeitsumfeld kann diese Kombination bereits ausreichen, um eine Person zu identifizieren.

Zu den wichtigsten Einschränkungen und Fehlerquellen gehören:

  • ein falsches Sicherheitsgefühl nach dem Einsatz eines einfachen Blur-Effekts,
  • nicht unkenntlich gemachte Kfz-Kennzeichen oder Gesichter in einzelnen Frames,
  • die Nichtberücksichtigung von Spiegelungen in Fenstern, Spiegeln oder Displays,
  • der Export des Materials mit Metadaten, die eine Korrelation erleichtern,
  • die Nichtberücksichtigung rechtlicher Ausnahmen bei der Veröffentlichung von Bildnissen, die die Pflicht zur Risikobewertung im Einzelfall nicht aufheben.

In Polen hängt der Status von Kfz-Kennzeichen als personenbezogene Daten vom Kontext ab. In der Praxis von Datenschutzbehörden und in der Fachliteratur wird die Notwendigkeit von Vorsicht betont, während in der Rechtsprechung auch die Auffassung vertreten wird, dass ein Kfz-Kennzeichen für sich genommen nicht immer personenbezogene Daten darstellt. Für die Compliance-Praxis ist es sicherer, das Risiko einer kontextbezogenen Re-identifizierung zu berücksichtigen, statt sich ausschließlich auf die abstrakte Einordnung eines einzelnen Identifikators zu stützen.

Normative und fachliche Quellen zur Daten-Reidentifizierung

Der Begriff Re-identifizierung ist im Lichte rechtlicher und technischer Quellen auszulegen. Besonders wichtig sind Rechtsakte und Dokumente, die die Identifizierbarkeit einer Person sowie die Kriterien zur Bewertung der einsetzbaren Mittel definieren.

  • DSGVO - Verordnung (EU) 2016/679, Erwägungsgrund 26 und Art. 4 Nr. 1 sowie Nr. 5 - Identifizierbarkeit einer Person und Pseudonymisierung.
  • Stellungnahme 05/2014 der Artikel-29-Datenschutzgruppe zu Anonymisierungstechniken - Erläuterung der Risiken von Singling Out, Linkability und Inference, 2014.
  • EDSA, Leitlinien 4/2019 zum Datenschutz durch Technikgestaltung und durch datenschutzfreundliche Voreinstellungen, angenommene Fassung vom 20. Oktober 2020.
  • ISO/IEC 20889:2018 - Privacy enhancing data de-identification terminology and classification of techniques.
  • NISTIR 8053 - De-Identification of Personal Information, National Institute of Standards and Technology, 2015.

Diese Dokumente beziehen sich nicht ausschließlich auf Bild- und Videodaten, ihre Kriterien lassen sich jedoch unmittelbar auf visuelle Materialien anwenden. Besonders nützlich sind die Begriffe Linkability und Singling Out, weil sie das Risiko gut beschreiben, mehrere Aufnahmen trotz unkenntlich gemachtem Gesicht derselben Person zuzuordnen.

Beispiele für Anwendungen und Risikobewertung der Daten-Reidentifizierung

Die praktische Bewertung sollte sich auf den konkreten Anwendungsfall beziehen und nicht nur auf die Technologie selbst. Derselbe Grad der Unkenntlichmachung kann für internes Schulungsmaterial ausreichend sein, bei einer Veröffentlichung im Internet jedoch unzureichend, weil dort der Umfang verfügbarer Zusatzdaten unvergleichlich größer ist.

  • Aufnahme von einem Parkplatz - Gesichter wurden unkenntlich gemacht, Kfz-Kennzeichen und Ereigniszeit blieben jedoch sichtbar. Das Reidentifizierungsrisiko ist hoch.
  • Material aus einem Empfangsbereich - Gesichter sind unkenntlich gemacht, aber der Mitarbeiterausweis auf dem Namensschild ist sichtbar. Das Risiko bleibt erheblich.
  • Veröffentlichung von einer öffentlichen Veranstaltung - möglicherweise greift eine Ausnahme für das Bildnis als Beiwerk oder Teil einer Gesamtszene, die Bewertung muss jedoch die Art der Aufnahme und die Hervorhebbarkeit einer bestimmten Person berücksichtigen.
  • Beweisarchiv - selbst nach dem Unkenntlichmachen kann das Material weiterhin personenbezogene Daten darstellen, wenn der Verantwortliche das Original speichert und die Zuordnung rekonstruieren kann.