Qu’est-ce que le codec vidéo et la qualité de l’anonymisation ?
Le codec vidéo et la qualité de l’anonymisation désignent la relation entre la manière dont une image vidéo est compressée, l’efficacité de la détection des visages et des plaques d’immatriculation, ainsi que la qualité finale du floutage de ces zones. En pratique, il s’agit de comprendre comment le format d’encodage et les paramètres de compression influencent la quantité d’informations visuelles disponible pour les algorithmes de détection et de suivi d’objets.
Dans le contexte de l’anonymisation des photos et des vidéos, trois groupes de caractéristiques du codec sont particulièrement importants : le niveau de compression avec perte, la structure de l’échantillonnage couleur et l’organisation des images dans le flux. Des codecs comme H.264/AVC et H.265/HEVC sont des standards de compression avec perte développés conjointement par l’ITU-T et l’ISO/IEC, tandis qu’Apple ProRes est une famille de codecs mezzanine utilisée principalement en postproduction et préservant une qualité plus élevée du matériau source. H.264 a été normalisé sous les références ITU-T H.264 et ISO/IEC 14496-10 AVC, H.265 sous ITU-T H.265 et ISO/IEC 23008-2 HEVC, tandis que ProRes est une spécification propriétaire largement prise en charge dans les environnements de montage.
Pour l’anonymisation, cela implique une règle simple : moins il y a d’artefacts de compression, plus la résolution effective de la zone du visage ou de la plaque est élevée, et plus la qualité reste stable d’une image à l’autre, plus la sensibilité de détection est généralement élevée et plus le risque de floutage erroné ou instable est faible. Cette relation n’est toutefois pas linéaire. Le modèle de détection, la méthode d’extraction des images, l’éclairage, le mouvement de l’objet et le débit binaire influencent souvent le résultat autant que le choix du codec lui-même.
Comment le codec influence la détection des visages et des plaques d’immatriculation
Un système d’anonymisation ne « voit » pas les visages ni les plaques d’immatriculation de manière sémantique. Il analyse d’abord les pixels, puis un modèle d’IA, généralement fondé sur le deep learning, localise les objets à partir des caractéristiques de l’image. Si la compression supprime les détails fins ou introduit des distorsions de blocs, du ringing ou du flou de mouvement, le modèle reçoit des données d’entrée moins fiables.
Les mécanismes les plus fréquents qui dégradent l’efficacité de l’anonymisation sont les suivants :
- réduction des détails haute fréquence : perte des contours des yeux, du nez, de la bouche ou des caractères sur la plaque,
- sous-échantillonnage chromatique : généralement 4:2:0 au lieu de 4:2:2 ou 4:4:4, ce qui réduit la précision des informations colorimétriques sur les bords des objets,
- compression inter-image : la dépendance aux images I, P et B peut compliquer un suivi stable lors de mouvements brusques,
- faible débit binaire : augmentation des artefacts de blocs et du banding,
- réduction de bruit agressive avant encodage : suppression de microdétails nécessaires au modèle de détection.
Dans le cas des visages, le problème vient souvent de la perte de caractéristiques locales. Pour les plaques d’immatriculation, les éléments déterminants sont les contours de la zone rectangulaire, le contraste des caractères et la lisibilité du contour de la plaque. C’est pourquoi un contenu fortement compressé peut encore sembler acceptable à l’œil humain, tout en étant plus difficile à analyser pour un détecteur.
H.264, H.265 et ProRes : différences pratiques pour l’anonymisation
Ces trois solutions diffèrent non seulement par leur efficacité de compression, mais aussi par leur usage habituel. Pour les processus d’anonymisation, il est important de savoir si le contenu provient d’une archive, d’un export issu d’un enregistreur ou d’un fichier intermédiaire destiné au traitement.
Codec | Type de compression | Échantillonnage typique | Impact sur la détection | Impact sur la qualité du floutage
|
|---|---|---|---|---|
H.264/AVC | avec perte, forte compatibilité | le plus souvent 4:2:0, 8 bits | bon à débit binaire modéré, baisse de qualité en cas de forte compression | contours du masque potentiellement irréguliers en présence d’artefacts de blocs |
H.265/HEVC | avec perte, plus efficace que H.264 | souvent 4:2:0, 8 bits ou 10 bits | à qualité visuelle égale, requiert généralement un débit plus faible que H.264, mais un contenu trop compressé dégrade malgré tout la détection | image plus stable à qualité comparable et taille de fichier réduite, mais des artefacts locaux peuvent apparaître en mouvement |
Apple ProRes | avec perte à faible compression, mezzanine | souvent 4:2:2 ou 4:4:4, débits plus élevés | généralement la meilleure qualité d’entrée pour l’analyse parmi ces trois familles | en général la meilleure précision des bords du masque et le plus faible risque de dégradation après réexport |
H.265 offre généralement une qualité visuelle comparable à un débit binaire inférieur à celui de H.264, comme le confirment les documents de normalisation, la littérature comparative du JCT-VC et les études universitaires sur l’efficacité du HEVC par rapport à l’AVC. Cela ne signifie toutefois pas automatiquement une meilleure efficacité de détection. Si le contenu source a été encodé avec un débit trop faible, l’avantage du codec ne compense pas la perte d’information. ProRes constitue en général le meilleur point de départ pour l’anonymisation, car il conserve davantage de détails et supporte mieux les étapes de traitement successives.
Paramètres clés et métriques pour évaluer l’impact du codec
Le seul nom du codec ne suffit pas. Deux fichiers H.264 peuvent se comporter de manière totalement différente s’ils ont un débit binaire, une structure GOP, un profil ou une résolution distincts. C’est pourquoi l’évaluation technique doit s’appuyer sur des paramètres et des métriques.
En pratique, il convient de surveiller au minimum :
- la résolution d’entrée : nombre de pixels correspondant à un visage ou à une plaque dans l’image,
- le débit binaire moyen et instantané : en Mb/s,
- la structure GOP : intervalle entre les images I, présence d’images B,
- l’échantillonnage couleur : 4:2:0, 4:2:2, 4:4:4,
- la profondeur de couleur : 8 bits ou 10 bits,
- les métriques de qualité d’image : PSNR, SSIM, VMAF,
- les métriques de détection : precision, recall, F1-score, IoU pour la boîte de détection,
- les métriques de suivi : nombre de trajectoires perdues et instabilité du masque d’une image à l’autre.
La formule du recall est la suivante :
Recall = TP / (TP + FN)
où TP désigne les objets correctement détectés et FN les objets non détectés. Pour l’anonymisation, le recall est critique. Un visage ou une plaque non détectés signifient un risque d’absence de floutage. La precision est également importante, mais un faux positif est généralement moins risqué qu’un faux négatif.
Influence du codec sur la qualité finale du floutage
La qualité de l’anonymisation ne se limite pas à la détection de l’objet. Il est tout aussi important que le masque couvre précisément le visage ou la plaque et qu’il reste stable dans le temps. La compression influence ces deux étapes.
Avec un contenu source de faible qualité, on observe plus souvent :
- un scintillement du masque d’une image à l’autre,
- une couverture imprécise des contours de l’objet,
- une « perte » momentanée du visage lors d’une rotation de la tête ou d’un mouvement de caméra,
- une zone de floutage trop petite lorsque le détecteur sous-estime la taille de la boîte,
- une dégradation secondaire après réexport vers un codec avec perte.
C’est pourquoi, en environnement de production, il est souvent recommandé d’effectuer l’anonymisation sur un matériau de la meilleure qualité possible, puis seulement ensuite d’exporter vers le format final. Cela permet de limiter l’accumulation des pertes liées à la compression. Dans des systèmes comme Gallio PRO, cela revêt une importance pratique particulière lors du traitement d’enregistrements de vidéosurveillance, de caméras mobiles et de pièces vidéo à valeur probante, où la source est parfois déjà fortement compressée.
Défis et limites dans la pratique de l’anonymisation
Le codec est important, mais ce n’est pas le seul facteur. Même un contenu en ProRes ne garantit pas une efficacité totale si le visage occupe trop peu de pixels, s’il est occulté ou si la scène est surexposée. À l’inverse, un contenu H.264 bien capturé peut être suffisant pour une anonymisation correcte.
En pratique, il faut tenir compte de trois limites :
- la qualité de la source ne peut pas être « récupérée » par le seul modèle d’IA,
- une recompression après anonymisation peut dégrader la lisibilité des bords du masque,
- la détection automatique ne couvre pas tous les éléments potentiellement sensibles, et certains d’entre eux peuvent nécessiter un traitement manuel dans l’éditeur.
Cette dernière distinction est importante sur le plan organisationnel. Gallio PRO ne détecte pas automatiquement les logos, les tatouages, les badges nominatifs, les documents ni le contenu affiché sur des écrans. Ces zones peuvent être floutées manuellement, mais elles ne font pas partie de la détection automatique abordée dans cet article.
Références normatives et sources techniques
L’évaluation de l’impact du codec sur l’anonymisation doit s’appuyer sur des documents de référence ainsi que sur une validation propre à l’organisation, réalisée sur des contenus réels. Les normes et sources ci-dessous constituent des points de référence techniques :
- ITU-T Recommendation H.264 - Advanced video coding for generic audiovisual services, conjointement avec ISO/IEC 14496-10 AVC,
- ITU-T Recommendation H.265 - High efficiency video coding, conjointement avec ISO/IEC 23008-2 HEVC,
- les documents du Joint Collaborative Team on Video Coding (JCT-VC) relatifs à l’efficacité du HEVC par rapport à l’AVC,
- la documentation Apple relative à Apple ProRes, notamment les profils et débits utilisés en postproduction,
- la littérature scientifique sur l’impact de la compression sur la vision par ordinateur, la détection d’objets et la reconnaissance faciale.
Dans les usages liés à la protection des données, il est recommandé d’effectuer des tests sur un échantillon représentatif du contenu. Il convient de comparer l’efficacité de la détection pour au moins deux niveaux de débit binaire et deux formats d’entrée, puis de consigner le résultat dans une procédure technique. Cette approche répond mieux au principe de responsabilité que le simple recours aux déclarations des fabricants de codecs.