T-closeness (proximité t) : définition
La t-closeness est un modèle de protection de la vie privée publié par Ninghui Li, Tiancheng Li et Suresh Venkatasubramanian en 2007, comme prolongement des modèles antérieurs de k-anonymat et de l-diversité. Son objectif est de limiter ce que l’on appelle la divulgation d’attribut, c’est-à-dire la situation dans laquelle, après avoir rattaché un enregistrement à un groupe d’anonymat, il devient possible de reconstituer avec une forte probabilité une caractéristique sensible à partir de la distribution des données dans ce groupe. Dans le modèle de t-closeness, on exige que la distance entre la distribution de l’attribut sensible dans chaque classe d’équivalence et la distribution de cet attribut dans l’ensemble complet ne dépasse pas le seuil t.
Dans la littérature scientifique d’origine, cette distance est définie à l’aide de l’Earth Mover’s Distance (EMD). Formellement, pour chaque classe d’équivalence E, la condition s’écrit : distance(D(E), D(T)) <= t, où D(E) désigne la distribution de l’attribut sensible dans la classe E, et D(T) la distribution de cet attribut dans l’ensemble des données. Article de référence : Li, Li, Venkatasubramanian, « t-Closeness: Privacy Beyond k-Anonymity and l-Diversity », ICDE 2007, IEEE.
Dans le contexte de l’anonymisation des photos et des vidéos, la t-closeness n’est pas un mécanisme de floutage des visages ni des plaques d’immatriculation. Il s’agit d’un modèle d’évaluation du risque de divulgation d’informations issues des métadonnées, des étiquettes, des résultats de détection ou des descriptions de scènes qui subsistent après le traitement du contenu. Elle devient donc pertinente lorsqu’une organisation constitue des jeux de données, des exports statistiques ou des rapports issus de processus d’anonymisation d’images et de vidéos, et non lorsque le logiciel applique lui-même un masque sur un visage.
Rôle de la t-closeness dans l’anonymisation des photos et des vidéos
Dans les systèmes qui traitent des images et des enregistrements vidéo, le risque pour la vie privée ne s’arrête pas au floutage des visages. Même après suppression des identifiants directs, il peut rester des données révélant indirectement des informations sur des personnes ou des événements. La t-closeness est utile comme couche analytique appliquée aux données secondaires.
En pratique, cela concerne surtout les jeux de données dérivés, tels que les descriptions de contenus, les statistiques de détection, les annotations d’entraînement ou les rapports opérationnels. Dans ce type de cas, une classe d’équivalence peut par exemple correspondre à un groupe d’enregistrements provenant du même lieu, du même jour ou du même type d’événement.
- Attributs quasi-identifiants - localisation de la caméra, moment de la journée, type d’objet, conditions météorologiques, durée du plan, catégorie de lieu.
- Attributs sensibles - présence d’un enfant, d’une intervention médicale, de services d’urgence, d’une manifestation, d’un accident de la route ou d’un autre contexte à risque élevé.
- Risque - la combinaison de quasi-identifiants avec la distribution d’attributs sensibles peut révéler davantage d’informations que le simple floutage des visages.
Exemple concret : si un rapport relatif à une caméra précise et à une plage horaire donnée présente presque exclusivement des enregistrements étiquetés « intervention médicale », alors, même sans image identifiable, le contexte sensible des événements peut être révélé. La t-closeness vise à éviter ce type d’écart de distribution.
Comment fonctionne la t-closeness en pratique
Le modèle repose sur des classes d’équivalence, c’est-à-dire des groupes d’enregistrements indiscernables au regard des quasi-identifiants. On compare ensuite la distribution de l’attribut sensible à l’intérieur de chaque groupe à la distribution globale.
Pour les données ordonnées ou numériques, on utilise généralement l’EMD, car cette métrique tient compte de la « distance » entre les catégories. Pour les données nominales, l’article de référence utilise une distance égale à la moitié de la somme des différences absolues entre les distributions. Le choix de la métrique doit être documenté de manière explicite.
Élément du modèle | Signification dans les données photo-vidéo
|
|---|---|
Quasi-identifiants | caractéristiques descriptives du contenu qui, seules, n’identifient pas une personne, mais qui, combinées, peuvent réduire l’ensemble possible |
Attribut sensible | caractéristique révélant le contexte d’un événement ou une catégorie nécessitant une vigilance particulière |
Classe d’équivalence | groupe d’enregistrements ou de photos ayant les mêmes quasi-identifiants généralisés |
Seuil t | écart maximal admissible entre la distribution locale et la distribution globale |
Plus le seuil t est faible, plus la protection est forte, mais plus la perte d’utilité des données est importante. Il n’existe pas de seuil unique imposé par la loi ou par une norme ISO. La valeur de t est définie en fonction de la finalité du traitement, de la taille du jeu de données et du niveau de risque acceptable.
Paramètres et métriques clés de la t-closeness
L’évaluation de la t-closeness exige de définir des paramètres mesurables. Dans la pratique des projets, il convient de documenter non seulement la valeur t elle-même, mais aussi la manière de construire les classes d’équivalence et le coût informationnel de l’anonymisation.
- t - distance maximale admissible entre les distributions.
- EMD - métrique de base de distance entre distributions pour les attributs ordonnés ou numériques, indiquée dans l’article fondateur de 2007.
- Taille de la classe d’équivalence - influe sur la stabilité de l’estimation des distributions.
- Perte d’information - perte d’information après généralisation ou suppression de données.
- Risque de divulgation - risque de divulgation d’un attribut après anonymisation.
Dans l’environnement image et vidéo, il est également utile d’ajouter des métriques opérationnelles qui ne relèvent pas de la définition de la t-closeness, mais qui influencent la sécurité de l’ensemble du processus :
- Précision et rappel de la détection des visages et des plaques - les erreurs de détection affectent la qualité des données d’entrée pour l’anonymisation ultérieure.
- Taux de faux négatifs - un visage ou une plaque non détecté constitue un risque direct que la t-closeness ne compense pas.
- Temps de traitement d’un lot de données - important sur le plan opérationnel, mais ne constitue pas un paramètre du modèle de t-closeness.
T-closeness et floutage des visages et des plaques d’immatriculation
Il faut clairement distinguer deux niveaux de protection. Le floutage des visages et des plaques d’immatriculation agit au niveau des pixels de l’image. La t-closeness agit au niveau des données descriptives ou analytiques. Il ne s’agit pas de solutions interchangeables.
Dans des systèmes tels que Gallio PRO, le traitement automatique concerne les visages et les plaques d’immatriculation. Il ne couvre pas la détection automatique des logos, tatouages, badges nominatifs, documents ou contenus affichés sur des écrans. De tels éléments peuvent être masqués manuellement dans l’éditeur. Si, après anonymisation, l’organisation conserve des étiquettes ou des métadonnées supplémentaires sur le contenu, c’est précisément à ce niveau qu’un modèle comme la t-closeness peut devenir nécessaire.
Le floutage automatique des visages et des plaques nécessite des modèles d’IA, généralement fondés sur le deep learning, entraînés sur des données visuelles pour des tâches de détection d’objets. La t-closeness ne sert pas à entraîner ces modèles. En revanche, elle peut servir à partager plus sûrement des jeux d’annotations, des statistiques ou des résultats d’évaluation de ces modèles.
Défis et limites de la t-closeness
Ce modèle est plus restrictif que le k-anonymat et la l-diversité, mais il ne résout pas tous les problèmes. Dans les usages photo-vidéo, les limites liées à la grande dimensionnalité des données et à la sémantique de l’image sont particulièrement importantes.
- Ne fonctionne pas sur les pixels bruts - il exige une représentation tabulaire des attributs.
- Sensibilité à la définition de l’attribut sensible - une catégorisation erronée des scènes réduit la valeur du modèle.
- Coût en utilité - une généralisation forte peut diminuer la valeur analytique du jeu de données.
- Absence de seuil t normatif - une évaluation du risque et une documentation des décisions sont nécessaires.
- Ne remplace pas la conformité juridique - le simple respect de la t-closeness ne signifie pas une conformité au RGPD.
Références normatives et sources
La t-closeness est une notion scientifique, et non une norme ISO ni une exigence explicitement formulée dans le RGPD. Elle s’inscrit néanmoins dans la logique de la protection des données dès la conception et de la minimisation des risques.
- Li, N., Li, T., Venkatasubramanian, S., « t-Closeness: Privacy Beyond k-Anonymity and l-Diversity », IEEE 23rd International Conference on Data Engineering, 2007.
- Règlement (UE) 2016/679 du Parlement européen et du Conseil - RGPD, en particulier l’article 5, l’article 25 et le considérant 26.
- L’avis 05/2014 du Groupe de travail Article 29 sur les techniques d’anonymisation, ainsi que les lignes directrices de l’EDPB sur la pseudonymisation et l’évaluation du risque, peuvent être interprétés conjointement avec l’évaluation du risque de réidentification, bien qu’ils n’établissent pas la t-closeness comme standard obligatoire.
Dans la pratique de la conformité, la t-closeness peut être considérée comme une technique soutenant l’évaluation des risques pour les données dérivées liées aux photos et aux enregistrements vidéo. Elle ne remplace ni le contrôle d’accès, ni la politique de conservation, ni l’analyse de la base juridique, ni l’efficacité technique du floutage des visages et des plaques d’immatriculation.