Qu’est-ce que le suivi multi-objets (Multi-Object Tracking, MOT) ?

Table des matières

Suivi multi-objets (MOT) : définition
Rôle du suivi multi-objets dans l’anonymisation des photos et des enregistrements vidéo
Technologies utilisées dans le Multi-Object Tracking
Paramètres clés et métriques du Multi-Object Tracking
Défis et limites du Multi-Object Tracking
Références normatives et contexte pratique d’utilisation

Suivi multi-objets (MOT) : définition

Le suivi multi-objets, ou Multi-Object Tracking (MOT), est une tâche relevant de l’analyse d’images et de vidéos qui consiste à suivre simultanément plusieurs objets au fil des images d’une séquence. L’objectif n’est pas seulement de détecter un objet dans une image isolée, mais de conserver une identité cohérente dans le temps malgré les déplacements, les occultations partielles, les changements d’échelle, de luminosité et d’angle de vue. Dans la littérature technique, le MOT est généralement défini comme un problème d’estimation des trajectoires de plusieurs objets à partir d’une séquence d’observations visuelles. Cette approche est notamment utilisée dans les benchmarks MOTChallenge développés depuis 2015, ainsi que dans les publications IEEE et Springer consacrées à la computer vision.

Dans le contexte de l’anonymisation des photos et des enregistrements vidéo, le suivi multi-objets a une utilité très concrète. Un simple détecteur de visages ou de plaques d’immatriculation indique la présence d’un objet dans une image unique. En revanche, le mécanisme de suivi permet d’attribuer un identifiant au même objet dans le temps et de maintenir la continuité du masquage entre les images. Grâce à cela, le floutage des visages ou le masquage des plaques d’immatriculation est plus stable et moins sujet au scintillement, aux pertes de détection et aux décalages erronés de la zone masquée. Dans les systèmes d’anonymisation offline, le MOT constitue donc une couche technique qui soutient un traitement vidéo cohérent, et non un objectif métier autonome.

En pratique, un modèle MOT fonctionne à partir des données d’entrée issues de la détection d’objets. Pour l’anonymisation vidéo, cela signifie le plus souvent une combinaison en deux étapes : d’abord, un modèle d’IA détecte les visages ou les plaques d’immatriculation, puis un algorithme de suivi relie les détections des images successives en trajectoires. Ce n’est qu’ensuite qu’un masque, un flou ou une pixellisation est appliqué. Le deep learning est ici surtout nécessaire pour créer les modèles de détection, et de plus en plus aussi les modèles de ré-identification et d’association d’objets, qui améliorent la qualité du suivi.

Rôle du suivi multi-objets dans l’anonymisation des photos et des enregistrements vidéo

Dans le cas d’une photo unique, le MOT n’a pas d’application, car il n’existe pas de dimension temporelle. Son importance apparaît avec les enregistrements vidéo, où le même objet est présent dans de nombreuses images successives. Pour un délégué à la protection des données ou une personne responsable de la publication de contenus, il est essentiel non seulement qu’un visage ait été détecté, mais aussi qu’il ait été masqué de manière cohérente pendant toute sa durée d’exposition dans la vidéo.

Dans un système d’anonymisation, le suivi multi-objets contribue avant tout à la stabilité et à l’exhaustivité du masquage. Cela a un impact direct sur le risque de divulgation de données personnelles via des images isolées non masquées.

il maintient la continuité du suivi d’un même visage ou d’une même plaque d’immatriculation d’une image à l’autre,
il réduit l’effet de scintillement du masque en cas de baisse ponctuelle de la qualité de détection,
il permet de prédire la position d’un objet lors de brèves occultations,
il diminue le nombre de situations dans lesquelles un objet n’est masqué que partiellement ou avec retard,
il facilite le contrôle qualité de l’anonymisation à l’échelle de toute la séquence, et non d’une image isolée.

Il convient de préciser le périmètre. Dans un logiciel d’anonymisation tel que Gallio PRO, l’automatisation concerne les visages et les plaques d’immatriculation. Le MOT peut donc contribuer à un masquage stable de ces deux classes d’objets. Cela ne signifie pas la détection automatique des logos, tatouages, badges nominatifs, documents ou contenus affichés sur des écrans. Ces éléments peuvent nécessiter un travail manuel dans l’éditeur, sauf si le système comprend des modèles distincts pour leur détection.

Technologies utilisées dans le Multi-Object Tracking

Les systèmes MOT modernes combinent des méthodes classiques d’estimation du mouvement avec des modèles d’apprentissage automatique. En pratique, on utilise une architecture de type tracking-by-detection, c’est-à-dire un suivi fondé sur les résultats successifs de la détection. Il s’agit aujourd’hui de l’approche dominante dans les applications industrielles et de recherche.

Un pipeline type comprend plusieurs étapes techniques :

détection d’objets - par exemple des visages ou des plaques d’immatriculation dans chaque image,
prédiction du mouvement - souvent à l’aide du filtre de Kalman, décrit initialement par R. E. Kalman en 1960,
association de données - mise en correspondance des nouvelles détections avec les trajectoires existantes, souvent à l’aide de l’algorithme hongrois,
caractéristiques d’apparence - embeddings de ré-identification permettant de distinguer des objets visuellement similaires,
gestion des occultations et fin de trajectoires - règles d’initialisation, de maintien et de clôture des tracks.

Parmi les méthodes connues figurent SORT, proposé en 2016, et Deep SORT, introduit en 2017. SORT repose principalement sur la géométrie et le mouvement, ce qui le rend rapide, mais moins performant en cas d’occultations fréquentes. Deep SORT enrichit ce modèle avec des descripteurs d’apparence, ce qui améliore généralement la robustesse face aux changements d’identifiant. Entre 2021 et 2023, les approches ByteTrack et BoT-SORT ont également été largement citées, car elles amélioraient les résultats sur les benchmarks MOTChallenge grâce à une meilleure exploitation des détections à plus faible niveau de confiance.

Paramètres clés et métriques du Multi-Object Tracking

L’évaluation du MOT ne devrait pas reposer uniquement sur l’efficacité de la détection. Pour l’anonymisation vidéo, la continuité du suivi et le risque de perte d’objet entre les images comptent également. Dans la littérature, on utilise un ensemble normalisé de métriques de benchmark.

Métrique	Signification	Interprétation dans l’anonymisation
MOTA	Multi-Object Tracking Accuracy - combine les faux positifs, les faux négatifs et les changements d’identifiant	Une valeur plus élevée signifie moins d’erreurs globales de suivi
MOTP	Mesure de la précision de localisation des correspondances dans les anciens protocoles d’évaluation MOT	Influe sur la précision de positionnement du masque de flou
IDF1	Mesure de la cohérence de l’identification dans le temps	Importante pour la cohérence du masquage d’un même objet
HOTA	Higher Order Tracking Accuracy - métrique combinant détection et association	Reflète bien la qualité réelle du suivi de trajectoires complètes
FPS / latence	Vitesse de traitement et délai	Important d’un point de vue opérationnel, même si Gallio PRO ne réalise pas d’anonymisation en temps réel

Pour mémoire, il convient d’indiquer la relation simple utilisée dans la littérature pour la MOTA :

MOTA = 1 - (FN + FP + IDSW) / GT

où FN désigne les objets manqués, FP les fausses détections, IDSW les changements d’identifiant, et GT le nombre d’objets de référence. Les définitions de ces métriques sont notamment utilisées dans les benchmarks MOTChallenge et dans les publications comparatives depuis 2015.

Défis et limites du Multi-Object Tracking

Le MOT n’élimine pas les problèmes liés à la qualité des données d’entrée. Si la détection d’un visage ou d’une plaque d’immatriculation est faible, le suivi sera lui aussi peu fiable. C’est pourquoi l’efficacité de l’anonymisation dépend de l’ensemble de la chaîne de traitement, et non du seul module de tracking.

Les limites les plus fréquentes sont les suivantes :

occultations importantes et disparition de l’objet hors champ,
petite taille de l’objet et faible résolution du contenu,
flou de mouvement et compression vidéo avec pertes,
forte similarité visuelle entre les objets d’une même scène,
changements brusques de plan ou coupes de montage rompant la continuité des trajectoires.

Du point de vue de la conformité en matière de protection de la vie privée, cela implique la nécessité de valider le résultat final. Le suivi multi-objets améliore la stabilité du masquage, mais ne remplace pas le contrôle qualité du processus d’anonymisation. Cet aspect est particulièrement important pour les contenus publiés ou transmis à des tiers.

Références normatives et contexte pratique d’utilisation

Le MOT n’est pas une notion définie explicitement par le RGPD ni par les normes de protection des données en tant qu’obligation juridique autonome. Il s’agit d’une technique de traitement d’image qui soutient la réalisation d’un objectif : l’anonymisation ou la désidentification efficace d’un contenu vidéo. En pratique, il convient donc de le considérer comme une mesure technique soutenant les principes de privacy by design et de privacy by default définis à l’article 25 du RGPD, ainsi que la sécurité du traitement visée à l’article 32 du règlement (UE) 2016/679 du 27 avril 2016.

Dans les usages opérationnels, il faut garder à l’esprit que Gallio PRO fonctionne en mode on-premise et sert à l’anonymisation offline des photos et des enregistrements vidéo. Le logiciel masque automatiquement les visages et les plaques d’immatriculation, mais ne réalise ni anonymisation de flux vidéo ni traitement en temps réel. Dans ce contexte, le MOT doit être compris comme un mécanisme améliorant la cohérence du traitement d’un enregistrement après son chargement dans le système, et non comme un outil de surveillance en temps réel. Cela a une importance pour l’évaluation des risques, l’architecture de déploiement et le périmètre des données opérationnelles. En outre, conformément aux principes du système, les logs ne devraient contenir ni données personnelles ni enregistrements de détection de visages et de plaques d’immatriculation.

Voir aussi

Retour au glossaire