Video Frame Sampling - définition
Le Video Frame Sampling désigne la sélection contrôlée d’un sous-ensemble d’images (frames) à partir d’une séquence vidéo afin de réduire les coûts de calcul, le volume de données ou d’adapter le traitement aux exigences d’un cas d’usage donné. En pratique, il consiste à sélectionner une image sur n, des images clés, des images lors d’un changement de scène ou selon une règle adaptative. Ce concept se distingue de la conversion du nombre d’images par seconde (modification du fps), car il concerne le choix des images analysées et n’implique pas nécessairement le réencodage de l’ensemble du flux.
Dans le contexte de l’anonymisation des images et des vidéos, le Video Frame Sampling définit combien et quelles images sont analysées par les algorithmes de détection des visages et des plaques d’immatriculation, de suivi (tracking) et d’application de masques. Le choix de la stratégie et de la densité d’échantillonnage a un impact direct sur l’exhaustivité du floutage ainsi que sur les coûts de calcul et le temps de traitement. Les fréquences d’images courantes incluent notamment 25 et 29,97 fps. Le paramétrage de l’échantillonnage doit donc tenir compte de la dynamique de la scène, du fps réel du contenu et des exigences de conformité au RGPD.
Rôle du Video Frame Sampling dans l’anonymisation
L’anonymisation des visages et des plaques d’immatriculation exige la détection de toutes les occurrences d’un objet dans le contenu vidéo. Un échantillonnage trop faible peut manquer des expositions de courte durée, des rotations rapides de la tête ou des objets visibles seulement sur quelques images. À l’inverse, un échantillonnage trop dense augmente les coûts et les temps de calcul sans amélioration significative de l’efficacité pour certains types de scènes.
En pratique, on combine la détection sur des images sélectionnées avec un suivi inter-images afin d’interpoler les masques sur les images non soumises à une détection complète. Le suivi (par exemple SORT, DeepSORT) permet de réduire le nombre d’appels au détecteur tout en garantissant la continuité du floutage des objets entre les images échantillonnées. L’obligation de mettre en œuvre des mesures techniques et organisationnelles appropriées découle du RGPD (articles 5 et 32) ainsi que des recommandations de l’EDPB relatives au traitement des données issues de dispositifs vidéo, qui soulignent la nécessité de limiter l’identifiabilité des personnes (source : EDPB, Lignes directrices 3/2019, version 2.1, 20.01.2022).
Technologies et stratégies d’échantillonnage
Le choix de la stratégie d’échantillonnage dépend du type de contenu, du codec et du niveau de détection attendu. Le tableau ci-dessous présente les approches les plus courantes et leurs implications pour l’anonymisation vidéo.
Stratégie | Description | Usage en anonymisation | Risque de perte de détection | Complexité de calcul
|
|---|---|---|---|---|
Échantillonnage uniforme (toutes les n images) | Pas de temps constant, par exemple toutes les 2 ou 5 images | Contrôle simple des coûts, comportement prévisible | Moyen - risque de manquer des expositions brèves | Faible |
Échantillonnage sur images clés | Analyse des I-frames du GOP selon H.264/H.265 | Efficace pour les contenus avec GOP régulier | Moyen à élevé pour des GOP longs | Faible à moyenne |
Détection de changement de scène | Sélection d’images lors de variations brusques du contenu | Focus sur les moments à forte variabilité | Plus faible pour les scènes dynamiques, plus élevé pour les scènes statiques | Moyenne |
Échantillonnage adaptatif basé sur le mouvement | Échantillonnage plus dense en cas de mouvement important, plus rare en statique | Bon compromis entre coût et couverture des événements | Faible à moyen | Moyenne |
Images clés + suivi | Détection sur images de référence, interpolation des masques via le tracking | Très utilisé en détection vidéo, adapté à l’anonymisation | Faible avec un suivi stable | Moyenne |
Au niveau des codecs, les structures GOP ainsi que les images I/P/B sont décrites dans les normes ITU-T H.264 | ISO/IEC 14496-10 (AVC) et ISO/IEC 23008-2 (HEVC). L’utilisation des images I comme échantillons est une pratique d’ingénierie courante permettant de réduire les coûts de décodage et d’analyse par rapport au traitement de chaque image, même si, dans de nombreux cas, la séquence (ou une partie) est de toute façon décodée selon les outils et le format utilisés.
Paramètres clés et métriques en anonymisation
L’évaluation de l’efficacité de l’échantillonnage doit combiner des paramètres temporels avec des métriques de détection et de conformité. Les principaux indicateurs sont présentés ci-dessous.
Paramètre / métrique | Description et importance
|
|---|---|
Stride k | Pas d’échantillonnage fixe en nombre d’images. Plus k est élevé, plus le coût baisse et plus le risque d’omission augmente. |
fps effectif f_eff | f_eff = f_src / k, où f_src correspond au fps source. Détermine la densité temporelle du masquage. |
Intervalle temporel maximal | Δt_max ≈ 1 / f_eff. Limite supérieure approximative entre deux images analysées (échantillonnage uniforme) ; en pratique, l’absence de masque ne devrait pas se produire si les masques sont propagés par le suivi. |
Recall_video | Pourcentage de toutes les occurrences de visages/plaques dans la vidéo ayant été masquées. Critique pour la conformité. |
Precision_video | Pourcentage de masques appliqués correspondant à de véritables objets. Impacte la qualité visuelle après traitement. |
F1_video | Moyenne harmonique de la précision et du rappel, utile pour comparer différentes stratégies d’échantillonnage. |
Latence de traitement | Temps total nécessaire à l’anonymisation. Important en traitement par lots. Gallio PRO ne réalise pas d’anonymisation en temps réel. |
En pratique, l’échantillonnage est combiné à des détecteurs basés sur des CNN et à un suivi inter-images, comme démontré notamment dans les travaux sur la détection d’objets vidéo avec agrégation temporelle (FGFA) et le suivi DeepSORT. La réduction du nombre d’appels au détecteur tout en maintenant la continuité des résultats est déterminante pour maîtriser les coûts et la couverture des événements.
Défis et limites
Le choix de l’échantillonnage est contraint par les caractéristiques techniques du contenu et par les exigences légales. Les omissions sont plus fréquentes en cas de flou de mouvement, de faible exposition, de rolling shutter ou dans des vidéos à forte intensité de mouvement.
- Risque de non-conformité - Toute omission d’un visage ou d’une plaque affaiblit l’efficacité de l’anonymisation. L’EDPB souligne la nécessité de mesures techniques et organisationnelles adéquates pour limiter l’identifiabilité des personnes dans les contenus diffusés (source : EDPB 3/2019).
- Structure GOP - Les GOP longs en H.264/H.265 compliquent un échantillonnage efficace basé uniquement sur les images I.
- Variabilité des fps - Les fps standard définis notamment par l’ITU-R et la SMPTE nécessitent une adaptation des paramètres d’échantillonnage à la source afin de limiter Δt_max.
- Modèles d’IA - L’efficacité dépend de détecteurs de visages et de plaques correctement entraînés. Des réseaux profonds entraînés sur des données représentatives sont indispensables pour un floutage automatique fiable.
Exemples d’usage et bonnes pratiques de déploiement
En traitement par lots on-premise, une stratégie images clés + suivi est fréquemment utilisée : détection sur des images de référence, propagation des masques via les pistes de suivi, puis densification ciblée des échantillons dans les segments à forte incertitude. Cette approche permet de réduire les coûts tout en conservant une couverture élevée de l’anonymisation.
- Gallio PRO floute automatiquement les visages et les plaques d’immatriculation. Il ne prend pas en charge la détection automatique des logos, tatouages, documents ou contenus d’écran, qui peuvent être masqués manuellement dans l’éditeur.
- Gallio PRO ne réalise pas d’anonymisation en temps réel ni sur des flux en direct. L’échantillonnage concerne le traitement hors ligne de fichiers vidéo et d’images.
- Gallio PRO fonctionne on-premise et ne collecte pas de journaux contenant les résultats de détection des visages ou des plaques.
- Dans l’UE, le masquage des plaques d’immatriculation est souvent recommandé lors de la publication de contenus, selon le contexte et la base juridique. Les pratiques et l’approche des autorités de contrôle varient d’un pays à l’autre.
Références normatives et sources
Les normes et publications techniques suivantes sont liées à l’échantillonnage des images, aux codecs vidéo et à la conformité au RGPD.
- ITU-R BT.709-6 - Parameter values for the HDTV standards for production and international programme exchange, 2015. https://www.itu.int/rec/R-REC-BT.709
- ITU-T H.264 | ISO/IEC 14496-10 - Advanced Video Coding, version 2019. https://www.itu.int/rec/T-REC-H.264 et https://www.iso.org/standard/76682.html
- ISO/IEC 23008-2:2020 - High efficiency coding and media delivery in heterogeneous environments - Part 2: HEVC. https://www.iso.org/standard/79388.html
- IEC 62676-4:2014 - Video surveillance systems for use in security applications - Part 4: Application guidelines. https://webstore.iec.ch/publication/6027
- EDPB, Lignes directrices 3/2019 sur le traitement des données personnelles par des dispositifs vidéo, version 2.1 du 20.01.2022. https://edpb.europa.eu
- X. Zhu et al., Flow-Guided Feature Aggregation for Video Object Detection, ICCV 2017. https://openaccess.thecvf.com/content_iccv_2017/html/Zhu_Flow-Guided_Feature_Aggregation_ICCV_2017_paper.html
- N. Wojke et al., Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT), 2017. https://arxiv.org/abs/1703.07402