Was ist T-Closeness (t-Nähe)?

T-Closeness (t-Nähe) - Definition

T-Closeness ist ein Datenschutzmodell, das 2007 von Ninghui Li, Tiancheng Li und Suresh Venkatasubramanian als Weiterentwicklung der früheren Modelle k-Anonymität und l-Diversität veröffentlicht wurde. Ziel ist es, die sogenannte Attributoffenlegung zu begrenzen, also Situationen, in denen sich nach der Zuordnung eines Datensatzes zu einer Anonymitätsgruppe ein sensibles Merkmal mit hoher Wahrscheinlichkeit aus der Verteilung der Daten innerhalb dieser Gruppe ableiten lässt. Das Modell T-Closeness verlangt, dass der Abstand zwischen der Verteilung eines sensiblen Attributs in jeder Äquivalenzklasse und der Verteilung dieses Attributs im gesamten Datensatz den Schwellenwert t nicht überschreitet.

In der Fachliteratur wird dieser Abstand über die Earth Mover’s Distance (EMD) definiert. Formal gilt für jede Äquivalenzklasse E die Bedingung: Abstand(D(E), D(T)) <= t, wobei D(E) die Verteilung des sensiblen Attributs in der Klasse E und D(T) die Verteilung dieses Attributs im gesamten Datensatz bezeichnet. Ursprungsartikel: Li, Li, Venkatasubramanian, „t-Closeness: Privacy Beyond k-Anonymity and l-Diversity“, ICDE 2007, IEEE.

Im Kontext der Anonymisierung von Fotos und Videos ist T-Closeness kein Mechanismus zum Verpixeln von Gesichtern oder Kfz-Kennzeichen. Es handelt sich vielmehr um ein Modell zur Bewertung des Risikos einer Informationsoffenlegung aus Metadaten, Labels, Detektionsergebnissen oder Szenenbeschreibungen, die nach der Verarbeitung des Materials erhalten bleiben. Relevant ist es daher vor allem dann, wenn eine Organisation Datensätze, statistische Exporte oder Berichte aus Prozessen der Bild- und Videoanonymisierung erstellt - nicht dann, wenn die Software selbst eine Maske über ein Gesicht legt.

Die Rolle von T-Closeness bei der Anonymisierung von Fotos und Videos

In Systemen zur Verarbeitung von Bildern und Videoaufnahmen endet das Datenschutzrisiko nicht mit dem Unkenntlichmachen von Gesichtern. Selbst nach dem Entfernen direkter Identifikatoren können Daten verbleiben, die indirekt Informationen über Personen oder Ereignisse offenlegen. T-Closeness ist daher als analytische Schutzschicht für Sekundärdaten nützlich.

In der Praxis betrifft dies vor allem abgeleitete Datensätze, etwa Materialbeschreibungen, Detektionsstatistiken, Trainingsannotationen oder operative Berichte. In solchen Fällen kann eine Äquivalenzklasse beispielsweise aus einer Gruppe von Aufnahmen derselben Location, desselben Tages oder desselben Ereignistyps bestehen.

  • Quasi-Identifikatoren - Kamerastandort, Tageszeit, Objekttyp, Wetterbedingungen, Aufnahmelänge, Ortskategorie.
  • Sensible Attribute - das Vorhandensein eines Kindes, eines medizinischen Notfalls, von Einsatzkräften, eines Protests, eines Verkehrsvorfalls oder eines anderen Kontexts mit erhöhtem Risiko.
  • Risiko - die Kombination von Quasi-Identifikatoren mit der Verteilung sensibler Attribute kann mehr offenlegen, als aus der bloßen Unkenntlichmachung von Gesichtern hervorgeht.

Praktisches Beispiel: Wenn ein Bericht für eine bestimmte Kamera und ein bestimmtes Zeitfenster fast ausschließlich Aufnahmen mit dem Label „medizinischer Einsatz“ zeigt, kann selbst ohne sichtbare Personen ein sensibler Ereigniskontext offengelegt werden. T-Closeness soll genau eine solche Abweichung in der Verteilung verhindern.

Wie funktioniert T-Closeness in der Praxis?

Das Modell basiert auf Äquivalenzklassen, also Gruppen von Datensätzen, die hinsichtlich der Quasi-Identifikatoren nicht unterscheidbar sind. Anschließend wird die Verteilung des sensiblen Attributs innerhalb jeder Gruppe mit der globalen Verteilung verglichen.

Für geordnete oder numerische Daten wird in der Regel die EMD verwendet, da sie die „Distanz“ zwischen Kategorien berücksichtigt. Für nominale Daten wird im Ursprungsartikel ein Abstand definiert, der der Hälfte der Summe der absoluten Unterschiede zwischen den Verteilungen entspricht. Die Wahl der Metrik sollte ausdrücklich dokumentiert werden.

Element des Modells

Bedeutung in Foto- und Videodaten

 

Quasi-Identifikatoren

Merkmale der Materialbeschreibung, die für sich genommen keine Person identifizieren, in Kombination aber die Menge eingrenzen können

Sensibles Attribut

Merkmal, das den Ereigniskontext oder eine Kategorie mit besonderem Schutzbedarf offenlegt

Äquivalenzklasse

Gruppe von Videoaufnahmen oder Fotos mit denselben generalisierten Quasi-Identifikatoren

Schwellenwert t

maximal zulässiger Unterschied zwischen lokaler und globaler Verteilung

Je niedriger der Schwellenwert t ist, desto stärker ist der Datenschutz - allerdings geht damit meist auch ein größerer Verlust an Datennutzbarkeit einher. Es gibt keinen universellen Schwellenwert, der gesetzlich oder durch eine ISO-Norm vorgegeben wäre. Der Wert t wird in Abhängigkeit vom Verarbeitungszweck, der Größe des Datensatzes und dem akzeptierten Risiko festgelegt.

Zentrale Parameter und Metriken von T-Closeness

Die Bewertung von T-Closeness erfordert die Definition messbarer Parameter. In der Projektpraxis sollte nicht nur der Wert t dokumentiert werden, sondern auch die Bildung der Äquivalenzklassen und die informationsbezogenen Kosten der Anonymisierung.

  • t - maximal zulässiger Abstand zwischen Verteilungen.
  • EMD - grundlegende Metrik zur Messung des Abstands zwischen Verteilungen bei geordneten oder numerischen Attributen; im Ursprungsartikel von 2007 ausdrücklich genannt.
  • Größe der Äquivalenzklasse - beeinflusst die Stabilität der Schätzung von Verteilungen.
  • Information Loss - Informationsverlust nach Generalisierung oder Unterdrückung von Daten.
  • Disclosure Risk - Risiko der Attributoffenlegung nach der Anonymisierung.

Im Bild- und Video-Umfeld sollten zusätzlich operative Kennzahlen berücksichtigt werden, die zwar nicht zur Definition von T-Closeness gehören, aber die Sicherheit des Gesamtprozesses beeinflussen:

  • Precision und Recall der Gesichts- und Kennzeichenerkennung - Erkennungsfehler wirken sich auf die Qualität der Eingangsdaten für die weitere Anonymisierung aus.
  • False-Negative-Rate - ein übersehenes Gesicht oder Kennzeichen stellt ein direktes Risiko dar, das durch T-Closeness nicht kompensiert wird.
  • Verarbeitungszeit von Datenbatches - operativ relevant, aber kein Parameter des T-Closeness-Modells.

T-Closeness und das Verpixeln von Gesichtern und Kennzeichen

Es ist wichtig, zwei Schutzebenen klar voneinander zu trennen. Das Verpixeln von Gesichtern und Kfz-Kennzeichen wirkt auf Pixelebene des Bildes. T-Closeness wirkt auf Ebene beschreibender oder analytischer Daten. Es handelt sich nicht um austauschbare Lösungen.

In Systemen wie Gallio PRO bezieht sich die automatische Verarbeitung auf Gesichter und Kfz-Kennzeichen. Sie umfasst nicht die automatische Erkennung von Logos, Tätowierungen, Namensschildern, Dokumenten oder Bildschirminhalten. Solche Elemente können manuell im Editor maskiert werden. Wenn eine Organisation nach der Anonymisierung zusätzliche Labels oder Metadaten zum Material speichert, kann genau dort der Bedarf entstehen, ein Modell wie T-Closeness einzusetzen.

Für das automatische Verpixeln von Gesichtern und Kennzeichen sind KI-Modelle erforderlich, die in der Regel auf Deep Learning basieren und mit Bilddaten für Objekterkennungsaufgaben trainiert werden. T-Closeness dient nicht zum Training dieser Modelle. Es kann jedoch für die sicherere Bereitstellung von Annotationsdatensätzen, Statistiken oder Evaluationsergebnissen solcher Modelle eingesetzt werden.

Herausforderungen und Grenzen von T-Closeness

Das Modell ist restriktiver als k-Anonymität und l-Diversität, löst aber nicht alle Probleme. In Foto- und Videoanwendungen sind insbesondere Einschränkungen relevant, die mit der hohen Dimensionalität der Daten und der Bildsemantik zusammenhängen.

  • Funktioniert nicht auf Rohpixeln - es erfordert eine tabellarische Darstellung von Attributen.
  • Abhängigkeit von der Definition des sensiblen Attributs - eine fehlerhafte Kategorisierung von Szenen mindert den Nutzen des Modells.
  • Einbußen bei der Nutzbarkeit - starke Generalisierung kann den analytischen Wert eines Datensatzes verringern.
  • Kein normativer Schwellenwert t - eine Risikobewertung und Dokumentation der Entscheidungen sind erforderlich.
  • Kein Ersatz für rechtliche Compliance - die bloße Erfüllung von T-Closeness bedeutet nicht automatisch DSGVO-Konformität.

Normative Bezüge und Quellen

T-Closeness ist ein wissenschaftlicher Begriff und weder ein ISO-Standard noch eine wörtlich in der DSGVO genannte Anforderung. Dennoch entspricht das Modell dem Grundgedanken von Datenschutz durch Technikgestaltung und Risikominimierung.

  • Li, N., Li, T., Venkatasubramanian, S., „t-Closeness: Privacy Beyond k-Anonymity and l-Diversity“, IEEE 23rd International Conference on Data Engineering, 2007.
  • Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates - DSGVO, insbesondere Art. 5, Art. 25 und Erwägungsgrund 26.
  • Stellungnahme 05/2014 der Artikel-29-Datenschutzgruppe zu Anonymisierungstechniken sowie die Leitlinien des EDPB zur Pseudonymisierung und Risikobewertung können gemeinsam mit der Bewertung des Re-Identifizierungsrisikos interpretiert werden, ohne T-Closeness jedoch als verbindlichen Standard festzulegen.

In der Compliance-Praxis kann T-Closeness als Technik zur Unterstützung der Risikobewertung für abgeleitete Daten im Zusammenhang mit Fotos und Videoaufnahmen verstanden werden. Es ersetzt weder Zugriffskontrollen noch Aufbewahrungsregeln, die Analyse der Rechtsgrundlage oder die technische Wirksamkeit der Unkenntlichmachung von Gesichtern und Kennzeichen.