Qu’est-ce que la l-diversité ?

L-diversité : définition

La l-diversité est un modèle de protection de la vie privée proposé comme prolongement de la k-anonymat. Elle a été décrite par A. Machanavajjhala, D. Kifer, J. Gehrke et M. Venkitasubramaniam en 2007 dans un article scientifique consacré à la protection contre la divulgation d’attributs dans les jeux de données. En termes simples, ce modèle exige que, dans chaque groupe d’enregistrements indiscernables au regard des quasi-identifiants, figurent au moins l valeurs bien représentées d’un attribut sensible. L’objectif est de limiter les situations dans lesquelles une personne ne peut certes pas être identifiée facilement, mais où il reste possible de deviner avec une forte probabilité la caractéristique confidentielle associée à son enregistrement.

Dans le contexte de l’anonymisation des photos et des vidéos, cette notion ne se rapporte pas directement à l’effet de floutage des visages ou des plaques d’immatriculation. La l-diversité est plutôt un modèle d’évaluation du risque de divulgation d’informations dans des jeux de données, des métadonnées ou des ensembles de caractéristiques dérivées d’images et de vidéos. Elle devient pertinente lorsqu’une organisation crée, stocke ou partage des ensembles structurés d’informations issus de contenus visuels, par exemple des descriptions de scènes, des horodatages, des localisations, des classes d’objets, des résultats de détection ou des statistiques d’événements.

Si un contenu photo ou vidéo a été flouté au niveau des visages, mais que des métadonnées détaillées ont été conservées, le risque d’identification ou d’inférence peut toujours subsister. Par exemple, la combinaison de la localisation, de l’heure, du type d’événement et d’autres caractéristiques peut réduire fortement le groupe de personnes possibles. Dans ce cadre, la l-diversité peut être utilisée comme critère complémentaire lors de la conception de jeux de données secondaires sécurisés, mais elle ne remplace pas les techniques d’anonymisation d’image. En pratique, Gallio PRO floute automatiquement les visages et les plaques d’immatriculation, tandis que la l-diversité concerne la couche de données associées ou les données analytiques construites à partir du contenu après anonymisation.

Comment comprendre la l-diversité dans le traitement des photos et des vidéos ?

Dans les systèmes qui traitent des images et des vidéos, les données personnelles peuvent être présentes simultanément à plusieurs niveaux. Le premier niveau est l’image elle-même, dans laquelle les identifiants peuvent être le visage, la plaque d’immatriculation ou d’autres caractéristiques permettant l’identification. Le deuxième niveau correspond aux métadonnées et aux caractéristiques dérivées, par exemple la date d’enregistrement, la géolocalisation, le numéro de caméra, le type d’événement, le nombre de personnes dans le champ ou la classification d’activité.

La l-diversité s’applique principalement à ce deuxième niveau. Si une organisation exporte des vidéos anonymisées avec un tableau descriptif, l’anonymat ne dépend pas uniquement de la qualité du floutage des visages. Il dépend aussi du fait que les groupes d’enregistrements publiés ne révèlent pas des informations trop homogènes sur les personnes ou les événements.

Couche de données

Exemple

La l-diversité s’applique-t-elle ?

Remarques pratiques

 

Image pixelisée

Visage visible dans le cadre

Non, pas directement

On utilise ici la détection et le floutage des visages

Image pixelisée

Plaque d’immatriculation d’un véhicule

Non, pas directement

On utilise ici la détection et le floutage des plaques

Métadonnées

Heure, lieu, type d’événement

Oui

Risque d’inférence malgré l’anonymisation de l’image

Caractéristiques analytiques

Nombre de personnes, classes d’objets, tags de scène

Oui

Nécessite une évaluation des quasi-identifiants et des attributs sensibles

Relation entre la l-diversité et l’anonymisation des visages et des plaques d’immatriculation

L’anonymisation d’image consiste à supprimer ou à réduire fortement la possibilité d’identifier une personne ou un véhicule dans le contenu visuel lui-même. En pratique, cela signifie détecter les visages et les plaques d’immatriculation, puis les flouter. Pour la détection automatique, on utilise le plus souvent des modèles de machine learning, notamment de deep learning, car les méthodes classiques fondées sur des caractéristiques visuelles simples sont généralement moins robustes face aux variations d’éclairage, d’angle, d’occlusion et de qualité d’enregistrement.

Cette distinction est essentielle. Le deep learning est souvent utilisé pour construire des modèles d’IA capables de détecter les visages et les plaques d’immatriculation, qui peuvent ensuite servir à l’anonymisation des contenus. La l-diversité ne décrit pas la qualité du modèle de détection. Elle n’indique pas non plus à quel point il faut flouter un visage ni quelle partie d’une plaque doit être masquée. Ce modèle sert à évaluer la confidentialité de données tabulaires ou structurées, qui peuvent être générées parallèlement au processus d’anonymisation des photos et des vidéos.

En pratique, cela signifie qu’il existe deux niveaux de protection distincts :

  • le niveau du contenu visuel : détection et floutage des visages et des plaques d’immatriculation,
  • le niveau des données secondaires : réduction du risque d’identification ou d’inférence à partir des métadonnées et des rapports analytiques, notamment grâce au k-anonymat, à la l-diversité ou à des modèles plus avancés.

Paramètres clés et conditions de la l-diversité

Pour appliquer la l-diversité, il faut d’abord déterminer les quasi-identifiants et l’attribut sensible. Les quasi-identifiants sont des caractéristiques qui, prises isolément, n’identifient pas nécessairement une personne, mais qui, combinées à d’autres données, peuvent réduire considérablement l’ensemble des candidats possibles. Dans des données issues de la vidéo, il peut s’agir par exemple de l’emplacement de la caméra, d’un intervalle temporel, d’une catégorie de lieu ou d’un type d’événement.

La littérature décrit le plus souvent trois variantes d’interprétation :

  • distinct l-diversity : chaque classe d’équivalence contient au moins l valeurs différentes de l’attribut sensible,
  • entropy l-diversity : la distribution des valeurs de l’attribut sensible présente une entropie suffisamment élevée,
  • recursive (c, l)-diversity : cette variante limite en plus la domination des valeurs les plus fréquentes afin d’éviter une diversité seulement apparente.

La condition simplifiée pour l’entropy l-diversity peut s’écrire comme suit :

H(S) = - Σ p(s) log p(s) >= log(l)

où H(S) désigne l’entropie de la distribution de l’attribut sensible dans une classe d’équivalence donnée, et p(s) la probabilité d’apparition de la valeur s.

Paramètre

Signification

Importance pratique pour les données vidéo

 

k

Taille de la classe d’équivalence

Nombre minimal d’enregistrements ayant les mêmes quasi-identifiants

l

Diversité minimale de l’attribut sensible

Limite la possibilité de deviner une caractéristique confidentielle liée à un événement ou à une personne

Entropie

Mesure de l’hétérogénéité de la distribution

Protège contre les classes dominées par une seule valeur

Limites de la l-diversité dans la protection de la vie privée des contenus visuels

La l-diversité n’est pas un modèle suffisant pour couvrir l’ensemble du processus d’anonymisation des photos et des vidéos. La littérature montre qu’elle peut être insuffisante lorsque les distributions de données sont très asymétriques et lorsque les valeurs de l’attribut sensible sont proches sur le plan sémantique. Ce problème a notamment été mis en évidence dans le cadre de l’évolution vers le modèle t-closeness, présenté par N. Li, T. Li et S. Venkatasubramanian en 2007.

En pratique, pour les contenus visuels, les limites sont les suivantes :

  • le modèle ne protège pas l’image elle-même si le visage ou la plaque d’immatriculation reste visible,
  • le modèle ne résout pas le problème de l’identification par le contexte de la scène, par exemple un lieu caractéristique ou un véhicule unique,
  • le modèle est difficile à appliquer à un contenu brut non structuré sans transformation préalable en format tabulaire,
  • la seule condition portant sur le nombre de valeurs différentes peut être trop faible si ces valeurs sont très proches sémantiquement.

Contexte pratique d’utilisation dans un environnement on-premise

Dans les environnements conformes au principe de minimisation des données, l’approche la plus pertinente consiste à combiner plusieurs niveaux de protection. Il faut d’abord anonymiser le contenu visuel en floutant les visages et les plaques d’immatriculation. Il convient ensuite de limiter le périmètre des métadonnées et d’évaluer le risque de réidentification dans les ensembles dérivés.

Dans le cas des solutions on-premise, un avantage supplémentaire réside dans un contrôle plus complet des flux de données, de la conservation et de la politique d’accès. Cela ne change toutefois pas le fait que la sécurité des données dépend aussi des ensembles exportés créés après le traitement. La l-diversité peut être utilisée comme critère d’audit pour les rapports, les statistiques et les journaux d’événements construits à partir d’enregistrements traités.

Références normatives et sources

La l-diversité n’est ni une norme juridique ni une norme ISO. Il s’agit d’un modèle scientifique utilisé en ingénierie de la vie privée. Dans l’évaluation de la conformité du traitement d’images et de vidéos, elle doit être considérée comme un outil complémentaire, et non comme un substitut aux obligations découlant du droit de la protection des données. Pour le traitement des contenus visuels, les règles du RGPD sont déterminantes, en particulier les principes de minimisation des données, de privacy by design et d’évaluation des risques pour les droits et libertés des personnes concernées.

  • Machanavajjhala A., Kifer D., Gehrke J., Venkitasubramaniam M., "l-Diversity: Privacy Beyond k-Anonymity", ACM Transactions on Knowledge Discovery from Data, 1(1), 2007.
  • Li N., Li T., Venkatasubramanian S., "t-Closeness: Privacy Beyond k-Anonymity and l-Diversity", ICDE 2007, IEEE.
  • Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 - RGPD.