Qu’est-ce que le Video Frame Sampling ?

Video Frame Sampling - définition

Le Video Frame Sampling désigne la sélection contrôlée d’un sous-ensemble d’images (frames) à partir d’une séquence vidéo afin de réduire les coûts de calcul, le volume de données ou d’adapter le traitement aux exigences d’un cas d’usage donné. En pratique, il consiste à sélectionner une image sur n, des images clés, des images lors d’un changement de scène ou selon une règle adaptative. Ce concept se distingue de la conversion du nombre d’images par seconde (modification du fps), car il concerne le choix des images analysées et n’implique pas nécessairement le réencodage de l’ensemble du flux.

Dans le contexte de l’anonymisation des images et des vidéos, le Video Frame Sampling définit combien et quelles images sont analysées par les algorithmes de détection des visages et des plaques d’immatriculation, de suivi (tracking) et d’application de masques. Le choix de la stratégie et de la densité d’échantillonnage a un impact direct sur l’exhaustivité du floutage ainsi que sur les coûts de calcul et le temps de traitement. Les fréquences d’images courantes incluent notamment 25 et 29,97 fps. Le paramétrage de l’échantillonnage doit donc tenir compte de la dynamique de la scène, du fps réel du contenu et des exigences de conformité au RGPD.

Rôle du Video Frame Sampling dans l’anonymisation

L’anonymisation des visages et des plaques d’immatriculation exige la détection de toutes les occurrences d’un objet dans le contenu vidéo. Un échantillonnage trop faible peut manquer des expositions de courte durée, des rotations rapides de la tête ou des objets visibles seulement sur quelques images. À l’inverse, un échantillonnage trop dense augmente les coûts et les temps de calcul sans amélioration significative de l’efficacité pour certains types de scènes.

En pratique, on combine la détection sur des images sélectionnées avec un suivi inter-images afin d’interpoler les masques sur les images non soumises à une détection complète. Le suivi (par exemple SORT, DeepSORT) permet de réduire le nombre d’appels au détecteur tout en garantissant la continuité du floutage des objets entre les images échantillonnées. L’obligation de mettre en œuvre des mesures techniques et organisationnelles appropriées découle du RGPD (articles 5 et 32) ainsi que des recommandations de l’EDPB relatives au traitement des données issues de dispositifs vidéo, qui soulignent la nécessité de limiter l’identifiabilité des personnes (source : EDPB, Lignes directrices 3/2019, version 2.1, 20.01.2022).

Technologies et stratégies d’échantillonnage

Le choix de la stratégie d’échantillonnage dépend du type de contenu, du codec et du niveau de détection attendu. Le tableau ci-dessous présente les approches les plus courantes et leurs implications pour l’anonymisation vidéo.

Stratégie

Description

Usage en anonymisation

Risque de perte de détection

Complexité de calcul

 

Échantillonnage uniforme (toutes les n images)

Pas de temps constant, par exemple toutes les 2 ou 5 images

Contrôle simple des coûts, comportement prévisible

Moyen - risque de manquer des expositions brèves

Faible

Échantillonnage sur images clés

Analyse des I-frames du GOP selon H.264/H.265

Efficace pour les contenus avec GOP régulier

Moyen à élevé pour des GOP longs

Faible à moyenne

Détection de changement de scène

Sélection d’images lors de variations brusques du contenu

Focus sur les moments à forte variabilité

Plus faible pour les scènes dynamiques, plus élevé pour les scènes statiques

Moyenne

Échantillonnage adaptatif basé sur le mouvement

Échantillonnage plus dense en cas de mouvement important, plus rare en statique

Bon compromis entre coût et couverture des événements

Faible à moyen

Moyenne

Images clés + suivi

Détection sur images de référence, interpolation des masques via le tracking

Très utilisé en détection vidéo, adapté à l’anonymisation

Faible avec un suivi stable

Moyenne

Au niveau des codecs, les structures GOP ainsi que les images I/P/B sont décrites dans les normes ITU-T H.264 | ISO/IEC 14496-10 (AVC) et ISO/IEC 23008-2 (HEVC). L’utilisation des images I comme échantillons est une pratique d’ingénierie courante permettant de réduire les coûts de décodage et d’analyse par rapport au traitement de chaque image, même si, dans de nombreux cas, la séquence (ou une partie) est de toute façon décodée selon les outils et le format utilisés.

Paramètres clés et métriques en anonymisation

L’évaluation de l’efficacité de l’échantillonnage doit combiner des paramètres temporels avec des métriques de détection et de conformité. Les principaux indicateurs sont présentés ci-dessous.

Paramètre / métrique

Description et importance

 

Stride k

Pas d’échantillonnage fixe en nombre d’images. Plus k est élevé, plus le coût baisse et plus le risque d’omission augmente.

fps effectif f_eff

f_eff = f_src / k, où f_src correspond au fps source. Détermine la densité temporelle du masquage.

Intervalle temporel maximal

Δt_max ≈ 1 / f_eff. Limite supérieure approximative entre deux images analysées (échantillonnage uniforme) ; en pratique, l’absence de masque ne devrait pas se produire si les masques sont propagés par le suivi.

Recall_video

Pourcentage de toutes les occurrences de visages/plaques dans la vidéo ayant été masquées. Critique pour la conformité.

Precision_video

Pourcentage de masques appliqués correspondant à de véritables objets. Impacte la qualité visuelle après traitement.

F1_video

Moyenne harmonique de la précision et du rappel, utile pour comparer différentes stratégies d’échantillonnage.

Latence de traitement

Temps total nécessaire à l’anonymisation. Important en traitement par lots. Gallio PRO ne réalise pas d’anonymisation en temps réel.

En pratique, l’échantillonnage est combiné à des détecteurs basés sur des CNN et à un suivi inter-images, comme démontré notamment dans les travaux sur la détection d’objets vidéo avec agrégation temporelle (FGFA) et le suivi DeepSORT. La réduction du nombre d’appels au détecteur tout en maintenant la continuité des résultats est déterminante pour maîtriser les coûts et la couverture des événements.

Défis et limites

Le choix de l’échantillonnage est contraint par les caractéristiques techniques du contenu et par les exigences légales. Les omissions sont plus fréquentes en cas de flou de mouvement, de faible exposition, de rolling shutter ou dans des vidéos à forte intensité de mouvement.

  • Risque de non-conformité - Toute omission d’un visage ou d’une plaque affaiblit l’efficacité de l’anonymisation. L’EDPB souligne la nécessité de mesures techniques et organisationnelles adéquates pour limiter l’identifiabilité des personnes dans les contenus diffusés (source : EDPB 3/2019).
  • Structure GOP - Les GOP longs en H.264/H.265 compliquent un échantillonnage efficace basé uniquement sur les images I.
  • Variabilité des fps - Les fps standard définis notamment par l’ITU-R et la SMPTE nécessitent une adaptation des paramètres d’échantillonnage à la source afin de limiter Δt_max.
  • Modèles d’IA - L’efficacité dépend de détecteurs de visages et de plaques correctement entraînés. Des réseaux profonds entraînés sur des données représentatives sont indispensables pour un floutage automatique fiable.

Exemples d’usage et bonnes pratiques de déploiement

En traitement par lots on-premise, une stratégie images clés + suivi est fréquemment utilisée : détection sur des images de référence, propagation des masques via les pistes de suivi, puis densification ciblée des échantillons dans les segments à forte incertitude. Cette approche permet de réduire les coûts tout en conservant une couverture élevée de l’anonymisation.

  • Gallio PRO floute automatiquement les visages et les plaques d’immatriculation. Il ne prend pas en charge la détection automatique des logos, tatouages, documents ou contenus d’écran, qui peuvent être masqués manuellement dans l’éditeur.
  • Gallio PRO ne réalise pas d’anonymisation en temps réel ni sur des flux en direct. L’échantillonnage concerne le traitement hors ligne de fichiers vidéo et d’images.
  • Gallio PRO fonctionne on-premise et ne collecte pas de journaux contenant les résultats de détection des visages ou des plaques.
  • Dans l’UE, le masquage des plaques d’immatriculation est souvent recommandé lors de la publication de contenus, selon le contexte et la base juridique. Les pratiques et l’approche des autorités de contrôle varient d’un pays à l’autre.

Références normatives et sources

Les normes et publications techniques suivantes sont liées à l’échantillonnage des images, aux codecs vidéo et à la conformité au RGPD.

  • ITU-R BT.709-6 - Parameter values for the HDTV standards for production and international programme exchange, 2015. https://www.itu.int/rec/R-REC-BT.709
  • ITU-T H.264 | ISO/IEC 14496-10 - Advanced Video Coding, version 2019. https://www.itu.int/rec/T-REC-H.264 et https://www.iso.org/standard/76682.html
  • ISO/IEC 23008-2:2020 - High efficiency coding and media delivery in heterogeneous environments - Part 2: HEVC. https://www.iso.org/standard/79388.html
  • IEC 62676-4:2014 - Video surveillance systems for use in security applications - Part 4: Application guidelines. https://webstore.iec.ch/publication/6027
  • EDPB, Lignes directrices 3/2019 sur le traitement des données personnelles par des dispositifs vidéo, version 2.1 du 20.01.2022. https://edpb.europa.eu
  • X. Zhu et al., Flow-Guided Feature Aggregation for Video Object Detection, ICCV 2017. https://openaccess.thecvf.com/content_iccv_2017/html/Zhu_Flow-Guided_Feature_Aggregation_ICCV_2017_paper.html
  • N. Wojke et al., Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT), 2017. https://arxiv.org/abs/1703.07402