Qu’est-ce que le suivi d’objets dans la vidéo (object tracking) ?

Définition du suivi d’objets (object tracking)

Le suivi d’objets dans la vidéo, ou object tracking, est le processus qui consiste à attribuer à un même objet une identité temporelle cohérente sur l’ensemble d’une séquence d’images. Dans la pratique de l’anonymisation des photos et des enregistrements, cela signifie conserver l’information selon laquelle le visage ou la plaque d’immatriculation détecté(e) dans l’image t est le même objet que celui apparu dans les images t-1, t-2 et suivantes. Grâce à cela, le masque de floutage ou d’occultation ne « saute » pas d’un objet à l’autre et ne disparaît pas momentanément en cas de baisse temporaire de la qualité de détection.

Dans la littérature technique, le suivi d’objets est généralement distingué de la détection. La détection répond à la question de savoir si un visage ou une plaque est présent(e) dans une image donnée et où il ou elle se trouve. Le tracking répond à la question de savoir s’il s’agit du même objet qu’auparavant et comment prédire sa position entre deux détections successives. Dans les systèmes d’anonymisation vidéo, le suivi d’objets constitue donc une couche de stabilisation du fonctionnement de l’algorithme de détection. Il est particulièrement important en cas d’occlusions partielles, de mouvement de caméra, de changement d’échelle de l’objet et de flou momentané de l’image.

Cette définition correspond à l’approche utilisée dans les recherches sur le suivi multi-objets en vidéo, notamment dans les benchmarks MOTChallenge développés depuis 2015 ainsi que dans les publications de synthèse de l’IEEE consacrées au Multiple Object Tracking. Dans le contexte de Gallio PRO, cette notion désigne le suivi des visages et des plaques d’immatriculation d’une image à l’autre afin de préserver la continuité de l’anonymisation du contenu vidéo. Cela ne concerne pas l’anonymisation de flux en temps réel, car Gallio PRO ne réalise pas d’anonymisation en temps réel.

Rôle du suivi d’objets dans l’anonymisation vidéo

Dans un système de floutage des visages et des plaques, la seule détection image par image ne suffit pas. Le détecteur peut perdre brièvement un objet à cause d’un reflet, d’un mouvement, d’une faible résolution ou d’une occultation par un autre élément de la scène. Le suivi d’objets limite les effets de ces interruptions et permet de maintenir le masque d’anonymisation dans une position logique.

En pratique, cela correspond à plusieurs fonctions critiques pour la conformité et la qualité du traitement du contenu :

  • maintenir la continuité du floutage d’un même visage ou d’une même plaque d’immatriculation dans les images successives,
  • réduire l’effet de « clignotement » du masque lorsque le détecteur fonctionne de manière instable,
  • prédire la position de l’objet entre les détections à partir d’un modèle de mouvement,
  • réduire le risque de divulgation temporaire de données à caractère personnel dans certaines images,
  • permettre une correction manuelle cohérente dans l’éditeur lorsque l’automatisation nécessite un ajustement.

Pour un délégué à la protection des données, cela a une portée très concrète. Un incident d’anonymisation ne doit pas nécessairement concerner l’intégralité de l’enregistrement. Quelques images non floutées suffisent pour qu’un visage ou un numéro d’immatriculation devienne lisible lors d’un arrêt sur image. C’est pourquoi le suivi d’objets doit être considéré comme un mécanisme de réduction des risques, et non uniquement comme une fonctionnalité améliorant l’esthétique de l’export.

Comment fonctionne le suivi des visages et des plaques entre les images

Un pipeline typique se compose de la détection, de l’estimation du mouvement, de l’association des objets et de la mise à jour des trajectoires. Dans les systèmes modernes, la détection est généralement assurée par des modèles de deep learning, car les visages et les plaques d’immatriculation varient en taille, en angle et en qualité d’une manière difficile à décrire à l’aide de règles simples. C’est ce modèle d’IA qui détecte l’objet, lequel peut ensuite être suivi entre les images.

Les composants techniques les plus courants sont les suivants :

  • détecteur d’objets — par exemple un modèle CNN ou un transformer détectant des visages ou des plaques dans une image isolée,
  • modèle de mouvement — souvent un filtre de Kalman, décrit classiquement par R.E. Kalman en 1960, utilisé pour prédire la position suivante de l’objet,
  • algorithme d’association — par exemple un problème d’affectation résolu à l’aide de l’algorithme hongrois,
  • mesures de similarité — IoU, distance entre caractéristiques visuelles, cohérence de la trajectoire et taille de la boîte englobante,
  • mécanismes de gestion des pistes — initialisation, confirmation, perte et fermeture de la trajectoire de l’objet.

Un schéma simplifié peut être décrit par la formule :

Track(t) = Associate(Detections(t), Predict(Track(t-1)))

Où Predict détermine la position attendue de l’objet dans la nouvelle image, et Associate associe les nouvelles détections aux trajectoires existantes. Si la détection disparaît momentanément, le tracker peut maintenir la piste pendant un temps limité sur la base de la prédiction. Si l’absence de détection dure trop longtemps, la piste est fermée.

Paramètres clés et métriques du suivi d’objets

L’évaluation du tracking ne devrait pas reposer uniquement sur une affirmation générale selon laquelle le système « suit bien » les objets. En pratique, il faut mesurer la qualité du maintien de l’identité de l’objet, la stabilité de la trajectoire et l’impact sur l’efficacité de l’anonymisation. Une partie des métriques provient directement de l’écosystème MOTChallenge ainsi que de la publication de Bernardin et Stiefelhagen de 2008 consacrée à MOTA et MOTP.

Paramètre / métrique

Signification

Importance pour l’anonymisation

 

ID Switches

Nombre de changements erronés d’identité de l’objet suivi

Influe sur le risque de transfert du masque vers le mauvais objet

MOTA

Mesure globale des erreurs de suivi

Montre la stabilité générale du suivi de plusieurs objets

MOTP

Mesure de la précision de localisation dans la définition benchmark classique

Influe sur le fait que le masque couvre précisément le visage ou la plaque

HOTA

Mesure combinant la qualité de détection et d’association, publiée en 2020

Reflète mieux la qualité du lien entre un objet et ses positions d’une image à l’autre

Latency

Latence de calcul du traitement

Importante pour les performances du processus, sans impliquer nécessairement un fonctionnement en temps réel

Track fragmentation

Nombre de divisions d’une même trajectoire en plusieurs pistes courtes

Augmente le risque de lacunes temporaires dans l’anonymisation

Dans les applications liées à la protection de la vie privée, un faible niveau de false negatives, c’est-à-dire d’objets non détectés, est particulièrement important. Du point de vue de la conformité, il vaut parfois mieux appliquer un masque légèrement plus large que de laisser visible une partie du visage ou de la plaque.

Défis et limites du suivi d’objets

Le tracking ne supprime pas tous les problèmes. Son efficacité dépend de la qualité de la détection en entrée, du nombre d’images par seconde, de la compression du contenu, de l’éclairage et du degré d’occultation de l’objet. Des visages partiellement détournés, de petites plaques d’immatriculation en arrière-plan ou de forts artefacts de compression réduisent la stabilité du suivi.

Les limites les plus fréquentes comprennent :

  • les occultations partielles ou complètes de l’objet par d’autres personnes ou véhicules,
  • les mouvements brusques de la caméra et le motion blur,
  • le faible nombre de pixels représentant le visage ou la plaque,
  • l’apparence similaire de plusieurs objets dans une même scène,
  • les erreurs héritées du détecteur, que le tracking ne peut pas corriger à lui seul.

Il est également important de définir correctement le périmètre de l’automatisation. Gallio PRO détecte et floute automatiquement les visages et les plaques d’immatriculation. Il ne détecte pas automatiquement les logos, les tatouages, les badges nominatifs, les documents ni l’image affichée sur des écrans. Ces éléments peuvent être floutés manuellement dans l’éditeur. Du point de vue du tracking, cela signifie que le suivi porte sur les classes d’objets que le système est réellement capable de détecter automatiquement.

Références normatives et importance pratique pour la conformité

Le suivi d’objets n’est pas une obligation juridique distincte prévue par le RGPD, mais une technique qui contribue à la mise en œuvre du principe d’intégrité et de confidentialité énoncé à l’article 5, paragraphe 1, point f), ainsi qu’à la sécurité du traitement visée à l’article 32 du règlement (UE) 2016/679. Si le responsable du traitement anonymise un contenu vidéo, la stabilité de cette anonymisation a une incidence sur l’efficacité réelle de la mesure technique. De brèves lacunes entre les images peuvent compromettre l’effet pratique de la protection.

Dans le cas des visages, les dispositions relatives au droit à l’image issues du droit civil et du droit d’auteur peuvent également entrer en jeu. Pour les plaques d’immatriculation, la situation juridique en Pologne reste hétérogène, tandis que, dans de nombreux pays d’Europe, les pratiques et les interprétations en matière de protection des données peuvent conduire à leur masquage. D’un point de vue technique, le tracking renforce la cohérence de ce masquage sur l’ensemble du contenu.