L-Diversity (l-Diversität) – Definition
L-Diversity ist ein Datenschutzmodell, das als Weiterentwicklung der k-Anonymität vorgeschlagen wurde. Es wurde 2007 von A. Machanavajjhala, D. Kifer, J. Gehrke und M. Venkitasubramaniam in einer wissenschaftlichen Arbeit zum Schutz vor Attributoffenlegung in Datensätzen beschrieben. Vereinfacht ausgedrückt verlangt das Modell, dass in jeder Gruppe von Datensätzen, die hinsichtlich sogenannter Quasi-Identifikatoren nicht unterscheidbar sind, mindestens l gut repräsentierte Werte eines sensiblen Attributs vorkommen. Ziel ist es, Situationen zu begrenzen, in denen eine Person zwar nicht leicht direkt identifiziert werden kann, sich die ihrem Datensatz zugeordnete vertrauliche Eigenschaft aber mit hoher Wahrscheinlichkeit erschließen lässt.
Im Kontext der Anonymisierung von Fotos und Videoaufnahmen bezieht sich dieser Begriff nicht direkt auf den eigentlichen Effekt der Unschärfe von Gesichtern oder Kfz-Kennzeichen. L-Diversity ist vielmehr ein Modell zur Bewertung des Risikos der Offenlegung von Informationen in Datensätzen, Metadaten oder Zusammenstellungen von Merkmalen, die aus Bild- und Videomaterial abgeleitet wurden. Relevanz hat es dann, wenn eine Organisation strukturierte Informationsbestände aus visuellen Materialien erstellt, speichert oder weitergibt, etwa Szenenbeschreibungen, Zeitstempel, Standorte, Objektklassen, Detektionsergebnisse oder Ereignisstatistiken.
Wurde Foto- oder Videomaterial zwar durch Unkenntlichmachung von Gesichtern bearbeitet, detaillierte Metadaten bleiben jedoch erhalten, kann das Risiko einer Identifizierung oder Inferenz weiterhin bestehen. So kann etwa die Kombination aus Standort, Uhrzeit, Ereignistyp und weiteren Merkmalen den Kreis möglicher Personen stark eingrenzen. In einem solchen Fall kann l-Diversität als unterstützendes Kriterium bei der Konzeption sicherer Sekundärdatensätze dienen, ersetzt aber keine Verfahren zur Bildanonymisierung. In der Praxis anonymisiert Gallio PRO automatisch Gesichter und Kfz-Kennzeichen, während sich L-Diversity auf die begleitende Datenebene oder auf analytische Daten bezieht, die auf Basis des bereits anonymisierten Materials erstellt werden.
Wie ist L-Diversity bei der Verarbeitung von Fotos und Videoaufnahmen zu verstehen?
In Systemen, die mit Bild- und Videodaten arbeiten, können personenbezogene Daten gleichzeitig auf mehreren Ebenen vorkommen. Die erste Ebene ist das Bild selbst, in dem Gesichter, Kfz-Kennzeichen oder andere Merkmale als Identifikatoren dienen können. Die zweite Ebene umfasst Metadaten und abgeleitete Merkmale, zum Beispiel Aufnahmedatum, Geolokalisierung, Kameranummer, Ereignistyp, Anzahl der Personen im Bildausschnitt oder Aktivitätsklassifikationen.
L-Diversity ist vor allem für diese zweite Ebene relevant. Exportiert eine Organisation anonymisierte Aufnahmen zusammen mit einer beschreibenden Tabelle, hängt die Anonymität nicht nur von der Qualität der Gesichtsverpixelung oder Unschärfe ab. Sie hängt auch davon ab, ob die veröffentlichten Datensatzgruppen nicht zu homogene Informationen über Personen oder Ereignisse offenlegen.
Datenebene | Beispiel | Ist L-Diversity anwendbar? | Praktische Hinweise
|
|---|---|---|---|
Pixelbild | Im Bildausschnitt sichtbares Gesicht | Nicht direkt | Hier kommen Gesichtserkennung und Unkenntlichmachung zum Einsatz |
Pixelbild | Kfz-Kennzeichen eines Fahrzeugs | Nicht direkt | Hier kommen Kennzeichenerkennung und Unkenntlichmachung zum Einsatz |
Metadaten | Uhrzeit, Ort, Ereignistyp | Ja | Inferenzrisiko trotz Bildanonymisierung |
Analytische Merkmale | Personenzahl, Objektklassen, Szenen-Tags | Ja | Erfordert die Bewertung von Quasi-Identifikatoren und sensiblen Attributen |
Zusammenhang zwischen L-Diversity und der Anonymisierung von Gesichtern und Kfz-Kennzeichen
Die Bildanonymisierung dient dazu, die Identifizierbarkeit einer Person oder eines Fahrzeugs im visuellen Material selbst zu entfernen oder erheblich zu reduzieren. In der Praxis bedeutet das, Gesichter und Kfz-Kennzeichen zu erkennen und anschließend unkenntlich zu machen. Für die automatische Erkennung werden meist Modelle des maschinellen Lernens eingesetzt, insbesondere Deep Learning, da klassische Verfahren auf Basis einfacher Bildmerkmale in der Regel weniger robust gegenüber Veränderungen bei Beleuchtung, Blickwinkel, Verdeckung und Aufnahmequalität sind.
Diese Unterscheidung ist wichtig. Deep Learning wird häufig verwendet, um KI-Modelle zur Erkennung von Gesichtern und Kfz-Kennzeichen zu entwickeln, die anschließend für die Anonymisierung von Bild- und Videomaterial genutzt werden können. L-Diversity beschreibt dagegen nicht die Qualität eines Detektionsmodells. Das Modell sagt auch nichts darüber aus, wie stark ein Gesicht unkenntlich gemacht oder wie groß der abzudeckende Bereich eines Kennzeichens sein sollte. Es dient vielmehr der Bewertung des Datenschutzes bei tabellarischen oder strukturierten Daten, die zusätzlich zum Prozess der Anonymisierung von Fotos und Videos erzeugt werden können.
In der Praxis bedeutet das zwei getrennte Schutzebenen:
- Ebene des visuellen Materials – Erkennung und Unkenntlichmachung von Gesichtern und Kfz-Kennzeichen,
- Ebene der Sekundärdaten – Begrenzung des Risikos der Identifizierung oder Inferenz aus Metadaten und Analyseberichten, unter anderem durch k-Anonymität, l-Diversität oder weiterentwickelte Modelle.
Zentrale Parameter und Bedingungen der L-Diversity
Um l-Diversität anzuwenden, müssen zunächst die Quasi-Identifikatoren und das sensible Attribut bestimmt werden. Quasi-Identifikatoren sind Merkmale, die für sich genommen keine Person identifizieren müssen, in Kombination mit anderen Daten den Kreis möglicher Kandidaten aber deutlich eingrenzen können. In aus Videodaten abgeleiteten Informationen können das beispielsweise Kamerastandort, Zeitfenster, Ortskategorie oder Ereignistyp sein.
In der Fachliteratur werden meist drei Interpretationsvarianten beschrieben:
- distinct l-diversity – in jeder Äquivalenzklasse kommen mindestens l verschiedene Werte des sensiblen Attributs vor,
- entropy l-diversity – die Verteilung der Werte des sensiblen Attributs weist eine ausreichend hohe Entropie auf,
- recursive (c, l)-diversity – begrenzt zusätzlich die Dominanz der häufigsten Werte, um eine nur scheinbare Diversität zu vermeiden.
Die vereinfachte Bedingung für entropy l-diversity lässt sich wie folgt ausdrücken:
H(S) = - Σ p(s) log p(s) >= log(l)
Dabei ist H(S) die Entropie der Verteilung des sensiblen Attributs innerhalb der jeweiligen Äquivalenzklasse, und p(s) ist die Wahrscheinlichkeit des Auftretens des Werts s.
Parameter | Bedeutung | Praktische Bedeutung für aus Videodaten abgeleitete Informationen
|
|---|---|---|
k | Größe der Äquivalenzklasse | Mindestanzahl von Datensätzen mit denselben Quasi-Identifikatoren |
l | Minimale Diversität des sensiblen Attributs | Begrenzt die Möglichkeit, auf eine vertrauliche Eigenschaft eines Ereignisses oder einer Person zu schließen |
Entropie | Maß für die Vielfalt der Verteilung | Schützt vor Klassen, die von einem einzelnen Wert dominiert werden |
Grenzen der L-Diversity beim Schutz der Privatsphäre visueller Materialien
L-Diversity ist kein ausreichendes Modell für den gesamten Prozess der Anonymisierung von Fotos und Videoaufnahmen. In der Fachliteratur wurde darauf hingewiesen, dass es bei stark schiefen Datenverteilungen und bei semantischer Ähnlichkeit der Werte sensibler Attribute versagen kann. Dieses Problem wurde unter anderem im Zusammenhang mit der Weiterentwicklung zum Modell t-Closeness beschrieben, das 2007 von N. Li, T. Li und S. Venkatasubramanian vorgestellt wurde.
Für visuelle Materialien ergeben sich in der Praxis insbesondere folgende Grenzen:
- Das Modell schützt nicht das Bild selbst, wenn ein Gesicht oder ein Kfz-Kennzeichen weiterhin sichtbar ist.
- Das Modell löst nicht das Problem der Identifizierung über den Szenenkontext, etwa durch einen markanten Ort oder ein einzigartiges Fahrzeug.
- Das Modell lässt sich auf rohes, unstrukturiertes Material nur schwer anwenden, solange dieses nicht zuvor in eine tabellarische Form überführt wurde.
- Die bloße Bedingung einer bestimmten Anzahl unterschiedlicher Werte kann zu schwach sein, wenn diese Werte semantisch sehr ähnlich sind.
Praktischer Anwendungskontext in On-Premise-Umgebungen
In Umgebungen, die dem Grundsatz der Datenminimierung folgen, ist es sinnvoll, mehrere Schutzebenen zu kombinieren. Zunächst sollte das visuelle Material durch Unkenntlichmachung von Gesichtern und Kfz-Kennzeichen anonymisiert werden. Anschließend ist der Umfang der Metadaten zu begrenzen und das Risiko einer Re-Identifizierung in abgeleiteten Datensätzen zu bewerten.
Bei On-Premise-Lösungen kommt als zusätzlicher Vorteil eine umfassendere Kontrolle über Datenflüsse, Aufbewahrung und Zugriffsrichtlinien hinzu. Dennoch hängt die Datensicherheit auch davon ab, welche Exportdatensätze nach Abschluss der Verarbeitung erstellt werden. L-Diversity kann als Audit-Kriterium für Berichte, Statistiken und Ereignisregister eingesetzt werden, die auf Basis verarbeiteter Aufnahmen erstellt werden.
Normative Bezüge und Quellen
L-Diversity ist weder ein gesetzlicher Standard noch eine ISO-Norm. Es handelt sich um ein wissenschaftliches Modell, das im Privacy Engineering verwendet wird. Bei der Bewertung der Rechtskonformität der Bild- und Videoverarbeitung sollte es daher als unterstützendes Instrument verstanden werden, nicht als Ersatz für Pflichten aus dem Datenschutzrecht. Für die Verarbeitung visueller Materialien sind insbesondere die Vorgaben der DSGVO maßgeblich, vor allem die Grundsätze der Datenminimierung, Privacy by Design sowie die Bewertung von Risiken für die Rechte und Freiheiten betroffener Personen.
- Machanavajjhala A., Kifer D., Gehrke J., Venkitasubramaniam M., "l-Diversity: Privacy Beyond k-Anonymity", ACM Transactions on Knowledge Discovery from Data, 1(1), 2007.
- Li N., Li T., Venkatasubramanian S., "t-Closeness: Privacy Beyond k-Anonymity and l-Diversity", ICDE 2007, IEEE.
- Verordnung (EU) 2016/679 des Europäischen Parlaments und des Rates vom 27. April 2016 – DSGVO.