Qu’est-ce que le traitement vidéo par lots ?

Table des matières

Traitement vidéo par lots : définition
Rôle du traitement vidéo par lots dans l’anonymisation de grands volumes d’enregistrements
Comment organiser un pipeline d’anonymisation par lots
Technologies utilisées dans le traitement vidéo par lots
Paramètres clés et métriques du traitement vidéo par lots
Défis et limites du traitement vidéo par lots
Références normatives et sources pour le traitement vidéo par lots

Traitement vidéo par lots : définition

Le traitement vidéo par lots, c’est-à-dire le traitement massif de fichiers vidéo, est un mode d’organisation du travail d’un système dans lequel de nombreux enregistrements sont traités automatiquement comme un ensemble de tâches, et non un par un ni en mode flux. Dans le contexte de l’anonymisation des photos et des enregistrements, cela signifie l’exécution d’une séquence d’opérations sur de gros volumes de fichiers, généralement archivés, selon un pipeline prédéfini. Chaque fichier passe par les mêmes étapes : ingest, validation du format, décodage, extraction d’images ou analyse image par image, détection des objets à protéger, suivi des objets dans le temps, application d’un masque ou d’un floutage, réencodage, contrôle qualité et enregistrement du résultat.

En pratique technique, le traitement vidéo par lots s’oppose au traitement en temps réel. Le système n’a pas besoin de satisfaire à des exigences de faible latence, mais il doit garantir un débit prévisible, une tolérance aux erreurs et la possibilité de relancer les tâches. Dans le cas de l’anonymisation vidéo, il s’agit le plus souvent de détecter automatiquement puis de flouter les visages et les plaques d’immatriculation sur un grand nombre de contenus. Cette approche est standard dans les archives de vidéosurveillance, les pièces à conviction, les jeux de données d’audit, les médiathèques et les processus de publication de contenus après anonymisation.

Dans des systèmes tels que Gallio PRO, le traitement vidéo par lots concerne le traitement de fichiers enregistrés sur disque ou dans un référentiel. Il ne s’agit ni d’anonymisation d’un flux vidéo ni d’un fonctionnement en temps réel. La détection automatique couvre les visages et les plaques d’immatriculation. D’autres éléments, comme les documents, le contenu des écrans, les tatouages, les logos ou les badges nominatifs, peuvent nécessiter un travail manuel dans l’éditeur si le système ne propose pas de détection automatique pour ces éléments.

Rôle du traitement vidéo par lots dans l’anonymisation de grands volumes d’enregistrements

Dans les projets d’anonymisation d’archives, la difficulté principale n’est pas le floutage d’un seul visage, mais le traitement répétable de milliers d’heures de contenu avec contrôle qualité et traçabilité complète du processus. Le traitement vidéo par lots résout ce problème en divisant le travail en étapes séparées et en automatisant son exécution.

Pour le délégué à la protection des données, l’intérêt d’un pipeline par lots est de permettre la définition de règles de traitement uniformes pour l’ensemble du corpus. Cela réduit le risque d’omettre accidentellement une partie des fichiers ou d’appliquer des paramètres d’anonymisation différents dans des cas similaires.

Scalabilité - le système peut traiter des milliers de fichiers via une file de tâches et plusieurs workers.
Répétabilité - même modèle de détection, mêmes seuils et mêmes politiques de masquage pour tout le lot.
Résilience - un fichier erroné n’arrête pas l’ensemble du processus et la tâche peut être relancée.
Auditabilité - il est possible d’associer le résultat à une version du modèle, à des paramètres et à une date d’exécution.
Séparation des environnements - il est plus facile de maintenir un traitement on-premise sans transférer les enregistrements vers des services publics.

Comment organiser un pipeline d’anonymisation par lots

Le pipeline doit être conçu comme une suite d’étapes pouvant être surveillées et redémarrées. En pratique, une architecture en file d’attente avec des workers CPU et GPU indépendants donne les meilleurs résultats. Le décodage, l’inférence des modèles et l’encodage final ont des profils de charge différents ; ils ne devraient donc pas être fusionnés dans un seul processus indifférencié.

Pour de grandes archives, il est utile de conserver non seulement le fichier de sortie, mais aussi les métadonnées techniques nécessaires à la traçabilité du processus. En revanche, il ne faut pas créer de journaux contenant des données à caractère personnel ni des captures de détection. Gallio PRO ne doit pas collecter de logs contenant la détection de visages et de plaques d’immatriculation, ni d’autres logs comportant des données personnelles.

Étape	Description technique	Objectif
Ingest	Import des fichiers, checksum, identification du codec et du conteneur	Vérification de l’exhaustivité et de la conformité des entrées
Décodage	Lecture du flux vidéo en images ou en segments GOP	Préparation des données pour l’analyse
Détection	Un modèle de deep learning détecte les visages et les plaques d’immatriculation	Définir les zones à anonymiser
Tracking	Association des détections entre les images	Masquage stable dans le temps
Masquage	Flou, pixellisation ou occultation complète de la zone	Réduire l’identifiabilité
Réencodage	Réencodage du contenu de sortie	Obtenir un fichier prêt à l’emploi
QA	Contrôle automatique et échantillonnage manuel	Évaluer l’efficacité et les erreurs

Technologies utilisées dans le traitement vidéo par lots

L’anonymisation automatique des visages et des plaques d’immatriculation repose généralement sur des modèles d’apprentissage profond. Le deep learning est utilisé pour construire un modèle d’IA qui réalise ensuite la détection d’objets sur les images vidéo. En pratique, on utilise des architectures de détection de type CNN ou leurs équivalents plus récents, entraînés sur des jeux de données annotés. Le modèle seul ne suffit pas. Un fonctionnement correct exige également des algorithmes de suivi d’objets, des mécanismes d’interpolation des détections manquantes et un contrôle qualité du masque.

Du côté de l’infrastructure, la pile technologique typique comprend l’accélération GPU pour l’inférence, des files de tâches, un stockage de fichiers, une base de métadonnées techniques et un module d’orchestration. Pour les environnements soumis à des exigences de sécurité renforcées, un déploiement on-premise est privilégié.

Paramètres clés et métriques du traitement vidéo par lots

L’évaluation d’un pipeline par lots ne peut pas reposer uniquement sur le temps d’exécution. En anonymisation, comptent à la fois l’efficacité de la détection, la stabilité du fonctionnement et le coût de traitement d’une heure de contenu. Les paramètres doivent être mesurés séparément pour les visages et pour les plaques d’immatriculation, car la taille des objets, les conditions d’éclairage et la dynamique des erreurs diffèrent.

Débit - nombre de minutes ou d’heures de contenu traitées par heure de fonctionnement du système.
Latence de la tâche - temps écoulé entre l’ajout du fichier dans la file et l’obtention du résultat.
Recall - pourcentage de visages ou de plaques effectivement présents et détectés par le système.
Precision - pourcentage de détections correctes parmi l’ensemble des détections du système.
Frame miss rate - part des images dans lesquelles un objet présent n’a pas été flouté.
Tracking continuity - cohérence du masquage d’une image à l’autre.
Failure rate - pourcentage de fichiers terminés avec une erreur technique.
Bitrate output - débit cible après réencodage, influençant la qualité et la taille du fichier.

Dans une formulation simple, le débit peut s’écrire ainsi : Throughput = durée totale des contenus d’entrée / temps total de traitement. Pour la planification des ressources, le ratio GPU-hours / 100h de contenu est également utile.

Défis et limites du traitement vidéo par lots

Les contenus archivés présentent de fortes variations de qualité. Les anciens codecs, un faible bitrate, l’entrelacement, la résolution SD, les enregistrements nocturnes et une forte compression dégradent la qualité de la détection. Il en va de même pour les plans avec beaucoup de mouvement de caméra, des occultations et de petits objets en arrière-plan. Dans ces conditions, des seuils conservateurs et un contrôle manuel par échantillonnage sont nécessaires.

En pratique, il faut également distinguer les questions techniques des questions juridiques. Un visage peut constituer une donnée à caractère personnel dans un contenu visuel s’il permet d’identifier une personne. L’obligation de l’anonymiser dépend du contexte du traitement, notamment du RGPD, de la protection des droits de la personnalité et des règles de diffusion de l’image d’une personne. S’agissant des plaques d’immatriculation, la situation en Pologne fait parfois l’objet d’appréciations divergentes. Certaines positions soulignent la nécessité de les flouter, mais il existe aussi une jurisprudence des juridictions administratives estimant que les plaques, à elles seules, ne constituent pas toujours des données à caractère personnel. Dans de nombreux pays d’Europe occidentale, la pratique en matière de protection est généralement plus stricte.

Références normatives et sources pour le traitement vidéo par lots

Le traitement vidéo par lots en tant que terme technique n’est pas défini dans une norme sectorielle unique applicable à l’anonymisation vidéo. Son sens découle de l’usage établi en informatique du traitement par lots et de la pratique des systèmes de computer vision. Pour évaluer la conformité et la sécurité, il convient de se référer aux actes juridiques et aux normes décrivant le traitement des données, la gestion de la sécurité et l’évaluation des systèmes d’IA.

Règlement (UE) 2016/679 du Parlement européen et du Conseil - RGPD, 2016.
ISO/IEC 27001:2022 - exigences relatives au système de management de la sécurité de l’information, ISO/IEC, 2022.
ISO/IEC 23894:2023 - management du risque lié à l’intelligence artificielle, ISO/IEC, 2023.
NIST AI RMF 1.0 - Artificial Intelligence Risk Management Framework, NIST, 2023.
ISO/IEC 22989:2022 - concepts et terminologie de l’IA, ISO/IEC, 2022.
ETSI EN 303 645 V2.1.1, 2020 - bonnes pratiques de sécurité pour les appareils connectés, utiles lors du traitement de contenus issus de caméras IoT.

Si l’organisation déploie un pipeline on-premise, il est également utile de documenter : la version du modèle de détection, l’étendue du corpus d’entrée, le niveau d’échantillonnage du contrôle qualité, la procédure de traitement des erreurs ainsi que les règles de rétention des fichiers source et des fichiers de sortie.

Voir aussi

Retour au glossaire