Qu’est-ce que la ré-identification des données ?

Table des matières

Ré-identification des données : définition
Le rôle de la ré-identification des données dans l’anonymisation des photos et vidéos
Technologies et mécanismes de ré-identification des données
Paramètres et métriques clés de la ré-identification des données
Défis et limites de la ré-identification des données
Références normatives et documentaires relatives à la ré-identification des données
Exemples d’usage et d’évaluation du risque de ré-identification des données

La ré-identification des données désigne le processus consistant à relier de nouveau des données qui, en principe, ne permettaient pas d’identifier directement une personne, à une personne physique déterminée. En pratique, il s’agit d’annuler l’effet d’une pseudonymisation, d’une anonymisation inefficace ou de croiser plusieurs ensembles d’informations de manière à établir l’identité d’une personne visible sur une photo ou un enregistrement vidéo. Dans le contexte des contenus visuels, ce risque concerne avant tout les visages, les plaques d’immatriculation ainsi que des caractéristiques indirectes telles que la localisation, l’heure de l’enregistrement, la tenue vestimentaire, le contexte de l’événement ou les éléments distinctifs d’un véhicule.

Du point de vue du RGPD, la ré-identification revêt une importance fondamentale, car l’évaluation de l’efficacité d’une anonymisation dépend de la question de savoir si l’identification d’une personne reste possible au moyen de ressources qu’il est raisonnable de prendre en compte. Ce test découle du considérant 26 du RGPD, c’est-à-dire du règlement (UE) 2016/679. Si, après floutage du visage ou de la plaque d’immatriculation, il subsiste une possibilité réelle d’établir l’identité à partir d’autres éléments de l’image ou des métadonnées, le contenu ne doit pas être considéré comme anonyme.

Ré-identification des données : définition

D’un point de vue opérationnel, la ré-identification des données dans l’image et la vidéo correspond à la capacité d’attribuer un enregistrement visuel anonymisé ou partiellement anonymisé à la même personne ou au même véhicule qu’un enregistrement de référence déjà connu. Dans la littérature technique, cette notion apparaît également sous les termes person re-identification, vehicle re-identification ou identity linkage. Elle ne signifie pas toujours la récupération du nom et du prénom. Il suffit d’établir de manière crédible que la personne figurant dans le contenu A est la même que celle présente dans le contenu B, puis de relier ce résultat à des informations externes supplémentaires.

Dans la pratique de l’anonymisation des photos et des enregistrements vidéo, la ré-identification des données se produit le plus souvent dans trois situations. Premièrement, lorsque le floutage du visage ou de la plaque est trop faible et peut être contourné. Deuxièmement, lorsque d’autres identifiants indirects restent visibles. Troisièmement, lorsque le contenu contient des métadonnées ou un contexte permettant une corrélation avec d’autres sources de données.

Élément	Importance pour la ré-identification	Exemple dans un contenu vidéo
Visage	Identifiant direct ou biométrique	Visage flouté de manière imprécise dans un plan latéral
Plaque d’immatriculation	Identifiant du véhicule, parfois indirectement du propriétaire ou de l’utilisateur	Numéro partiellement lisible après compression à l’export
Vêtements et silhouette	Identifiant indirect	Même manteau, même sac à dos et même trajet
Métadonnées	Source de corrélation avec d’autres ensembles	Date, heure, GPS, nom de l’appareil
Contexte de la scène	Facilite l’identification lorsqu’il y a peu de personnes	Entrée d’une entreprise ou d’une propriété précise

Le rôle de la ré-identification des données dans l’anonymisation des photos et vidéos

L’évaluation du risque de ré-identification constitue l’un des tests fondamentaux de la qualité de l’anonymisation. Le simple fait d’utiliser un effet de flou, un masque ou une pixellisation ne suffit pas à garantir une protection efficace de la vie privée. Ce qui compte, c’est le résultat final et la résistance du contenu à un rattachement à une personne au moyen de ressources techniques et organisationnelles raisonnablement disponibles.

Pour les photos et les enregistrements vidéo, il est particulièrement important de distinguer l’anonymisation de la pseudonymisation. Si le responsable du traitement ou le destinataire du contenu peut encore reconstituer l’identité, parce qu’il dispose de l’original, d’une clé de correspondance, d’autres enregistrements de référence ou de métadonnées précises, on n’est généralement pas en présence d’une anonymisation au sens strict. Cela est essentiel pour le délégué à la protection des données lorsqu’il évalue la base légale, la durée de conservation, la communication des contenus et les obligations d’information.

L’anonymisation vise à réduire la possibilité d’identification à un niveau pratiquement irréversible.
La pseudonymisation réduit le risque, mais laisse encore subsister la possibilité de rattacher à nouveau les données à une personne.
La ré-identification des données est un indicateur que la méthode de protection appliquée était insuffisante dans le contexte d’utilisation considéré.

Technologies et mécanismes de ré-identification des données

Dans les systèmes de vision, la ré-identification des données peut reposer aussi bien sur une analyse manuelle que sur des modèles d’apprentissage automatique. En particulier, le deep learning est utilisé pour construire des modèles capables de reconnaître des visages, des personnes ou des véhicules à partir de vecteurs de caractéristiques. C’est le même grand courant technologique qui, du côté de la protection de la vie privée, permet d’entraîner des modèles de détection automatique des visages et des plaques d’immatriculation, puis de les flouter. Toutefois, la seule détection et le seul floutage n’éliminent pas l’ensemble du risque si d’autres caractéristiques de la scène restent inchangées.

Les mécanismes typiques de ré-identification comprennent :

la comparaison des caractéristiques faciales, si le floutage était incomplet ou inefficace,
la person re-identification à partir des vêtements, de la silhouette, de la démarche et de la trajectoire de déplacement,
la vehicle re-identification à partir de la marque, du modèle, de la couleur, des dommages et de l’environnement,
la corrélation des métadonnées EXIF, de l’horodatage, de la localisation et de la séquence des événements,
le croisement du contenu avec des données accessibles au public, par exemple des comptes rendus d’événements.

En pratique, Gallio PRO sert au floutage automatique des visages et des plaques d’immatriculation dans des photos et vidéos traitées hors temps réel. Le logiciel ne réalise pas l’anonymisation d’un flux vidéo et ne détecte pas automatiquement les logos, tatouages, badges nominatifs, documents ni les images affichées sur des écrans de moniteur. Ces éléments peuvent nécessiter une intervention manuelle dans l’éditeur, précisément parce que leur présence dans le contenu peut accroître le risque de ré-identification.

Paramètres et métriques clés de la ré-identification des données

Le risque de ré-identification mérite d’être évalué de manière mesurable. Dans l’environnement de recherche, on utilise des métriques de qualité d’appariement des enregistrements, tandis qu’en matière de conformité, on évalue la probabilité d’identification compte tenu des ressources dont dispose un adversaire donné. Pour les photos et vidéos, la qualité de la détection des objets à flouter est aussi importante que la résistance de l’image finale à une reconstitution ou à un contournement du masque.

Métrique / paramètre	Signification	Remarques pratiques
Rappel de détection	Proportion des visages ou plaques détectés pour anonymisation	Un rappel faible augmente le nombre d’identifiants non floutés
Précision de détection	Proportion des détections correctes	Une précision faible dégrade la qualité opérationnelle, mais affecte généralement moins la vie privée qu’un rappel faible
mAP	Précision moyenne pour la détection d’objets	Métrique couramment utilisée pour évaluer les modèles de détection
Rank-1 / Recall@k	Efficacité de l’identification correcte dans les top-k résultats	Utilisés dans les recherches sur la person re-identification
mAP pour le re-ID	Qualité de la recherche de la même personne ou du même véhicule dans un ensemble	Plus elle est élevée, plus le risque de relier des enregistrements entre eux est grand
Niveau de masquage	Degré d’illisibilité du visage ou de la plaque après export	Doit être évalué après la compression finale, et pas seulement dans l’aperçu de travail

Pour évaluer le risque, un modèle simple peut être utile :

Risque de ré-identification = probabilité d’appariement x disponibilité de données auxiliaires x impact d’une erreur d’anonymisation

Il ne s’agit pas d’une formule normative, mais d’une simplification analytique utile pour les DPIA et les tests internes.

Défis et limites de la ré-identification des données

Le principal problème n’est généralement pas la seule présence d’un visage, mais la somme des informations laissées dans le contenu. Même un floutage correct du visage peut ne pas suffire si l’enregistrement montre un événement rare, un lieu précis et un horaire exact. Dans une petite communauté ou dans un environnement de travail, une telle combinaison peut suffire à identifier une personne.

Parmi les principales limites et sources d’erreur figurent :

un faux sentiment de sécurité après l’application d’un simple flou,
la présence de plaques d’immatriculation ou de visages non floutés sur certaines images,
la non-prise en compte des reflets dans les vitres, les miroirs ou les écrans,
l’export du contenu avec des métadonnées facilitant la corrélation,
la non-prise en compte des exceptions juridiques applicables à la publication de l’image d’une personne, qui ne suppriment pas l’obligation d’analyser le risque dans le cas concret.

En Pologne, le statut des plaques d’immatriculation en tant que données à caractère personnel dépend du contexte. Dans la pratique des autorités de protection des données et dans la doctrine, la nécessité d’agir avec prudence est soulignée, tandis que la jurisprudence admet parfois que la seule plaque d’immatriculation ne constitue pas toujours une donnée personnelle. Pour une démarche de conformité, il est plus prudent de tenir compte du risque de ré-identification contextuelle plutôt que de se fonder exclusivement sur une qualification abstraite d’un identifiant isolé.

Références normatives et documentaires relatives à la ré-identification des données

La notion de ré-identification doit être interprétée à la lumière de sources juridiques et techniques. Les plus importantes sont les actes et documents qui définissent l’identifiabilité d’une personne ainsi que les critères d’évaluation des moyens susceptibles d’être utilisés.

RGPD - règlement (UE) 2016/679, considérant 26 et article 4, points 1 et 5 - identifiabilité de la personne et pseudonymisation.
Avis 05/2014 du Groupe de travail « Article 29 » sur les techniques d’anonymisation - présentation des risques de singling out, de linkability et d’inference, 2014.
CEPD, Lignes directrices 4/2019 sur la protection des données dès la conception et par défaut, version adoptée le 20 octobre 2020.
ISO/IEC 20889:2018 - Privacy enhancing data de-identification terminology and classification of techniques.
NISTIR 8053 - De-Identification of Personal Information, National Institute of Standards and Technology, 2015.

Ces documents ne portent pas exclusivement sur l’image et la vidéo, mais leurs critères peuvent être appliqués directement aux contenus visuels. Les notions de linkability et de singling out sont particulièrement utiles, car elles traduisent bien le risque de relier plusieurs enregistrements à la même personne malgré le floutage du visage.

Exemples d’usage et d’évaluation du risque de ré-identification des données

L’évaluation pratique doit porter sur un cas d’usage concret, et non sur la seule technologie. Le même niveau de floutage peut être suffisant pour un support de formation interne, mais insuffisant pour une publication sur Internet, où l’ensemble des données auxiliaires disponibles est incomparablement plus vaste.

Enregistrement d’un parking - les visages sont floutés, mais les plaques d’immatriculation et l’heure de l’événement sont visibles. Le risque de ré-identification est élevé.
Contenu filmé à l’accueil - visages floutés, mais badge nominatif du salarié visible. Le risque reste important.
Publication d’un événement public - une exception relative à l’image en tant qu’élément d’une scène d’ensemble peut être envisageable, mais l’évaluation doit tenir compte de la nature du plan et de la possibilité d’isoler une personne précise.
Archives à valeur probatoire - même après floutage, le contenu peut rester une donnée à caractère personnel si le responsable du traitement conserve l’original et peut rétablir le lien.

Voir aussi

Retour au glossaire