Qu’est-ce que le frame rate (FPS) en détection de visage ?

Frame rate (FPS) et détection de visage : définition

Le frame rate (FPS), c’est-à-dire le nombre d’images par seconde (frames per second), indique combien d’images successives sont enregistrées ou traitées pendant une seconde de vidéo. Dans le contexte de la détection de visage et de l’anonymisation vidéo, le FPS influence directement la fréquence à laquelle l’algorithme reçoit une nouvelle information sur la position du visage dans le temps. Plus le FPS est élevé, plus l’intervalle entre les images est court, et plus les chances sont grandes que le visage soit détecté de manière continue d’un plan à l’autre, sans interruption.

En pratique, cette relation n’est pas linéaire. Un FPS plus élevé ne garantit pas automatiquement une meilleure efficacité de l’anonymisation. La précision de la détection des visages dépend aussi de la résolution, de la compression, du flou de mouvement, de l’éclairage, de l’angle du visage, de la qualité du modèle d’IA et de la méthode de traitement du contenu. Dans les systèmes d’anonymisation de photos et de vidéos, le FPS est l’un des paramètres d’entrée qui influencent le recall de détection, la continuité du suivi d’objet et le risque d’omettre certaines images.

Dans les usages conformes au RGPD, l’objectif n’est pas l’esthétique du floutage, mais la réduction du risque d’identification d’une personne. C’est pourquoi l’analyse du FPS doit être liée à une question essentielle : pour une vidéo donnée, le système détectera-t-il le visage suffisamment tôt et de manière suffisamment stable pour le masquer sur toutes les images pertinentes ?

Pourquoi le FPS est-il important dans l’anonymisation des vidéos ?

Une vidéo est une séquence d’images. Un détecteur de visage analyse soit chaque image, soit certaines images sélectionnées selon une stratégie d’échantillonnage définie. Si l’intervalle entre les images est trop grand, un visage en mouvement rapide peut n’apparaître que sur une ou deux images, ou être partiellement flou. Dans ce cas, le risque augmente que le visage ne soit pas détecté et, par conséquent, ne soit pas flouté.

Pour une vidéo à 25 FPS, une image dure environ 40 ms. À 10 FPS, on passe déjà à 100 ms, et à 5 FPS à 200 ms. Lors d’un mouvement de tête, d’un changement de cadrage ou du passage d’une personne dans la scène, de telles différences sont techniquement importantes. Dans les systèmes fondés sur le deep learning, le modèle de détection de visage fonctionne image par image, tandis que la continuité entre les images peut être renforcée par le tracking. Toutefois, si le visage n’est pas correctement détecté sur l’image initiale ou disparaît pendant plusieurs images consécutives, le suivi cesse lui aussi d’être fiable.

Dans l’anonymisation vidéo, il ne s’agit donc pas uniquement de détecter un visage, mais de le couvrir de façon stable dans le temps. C’est précisément à ce niveau que le frame rate (FPS) influe sur le résultat opérationnel.

Paramètres et métriques clés du FPS en détection de visage

L’évaluation de l’impact du nombre d’images par seconde doit reposer sur des métriques techniques, et non sur le FPS déclaré du fichier seul. Ce qui compte, c’est le nombre d’images réellement analysées, avec quel niveau d’efficacité et avec quel taux d’omissions.

  • FPS du contenu source - nombre d’images enregistrées dans la vidéo, par exemple 25, 30, 50 ou 60 FPS.
  • Processing FPS - nombre d’images analysées par le moteur de détection par unité de temps.
  • Taux d’échantillonnage - toutes les images sont-elles analysées, ou seulement une sur deux, une sur cinq, etc. ?
  • Recall - pourcentage de visages réellement présents et détectés par le système.
  • Precision - pourcentage de détections correctes parmi l’ensemble des détections.
  • False Negative Rate - part des visages non détectés, métrique critique du point de vue de la vie privée.
  • Intersection over Union (IoU) - mesure de concordance entre la boîte de détection et l’objet de référence.
  • Continuité temporelle - continuité de la détection sur les images successives.
  • Latence de traitement - délai opérationnel, particulièrement important en traitement de flux ou en quasi-temps réel ; généralement moins critique en traitement par lots.

La relation temporelle de base peut être exprimée par une formule simple :

intervalle entre les images [ms] = 1000 / FPS

Par exemple :

FPS

Intervalle entre les images

Impact sur la détection de visage

 

5

200 ms

Risque élevé de manquer une apparition brève du visage

10

100 ms

Utilisable pour des scènes calmes et statiques

25

40 ms

Niveau typique pour la vidéosurveillance et les enregistrements documentaires

30

33,3 ms

Bon équilibre entre fluidité et coût de calcul

50-60

20-16,7 ms

Meilleure continuité lors de mouvements rapides, avec des besoins de calcul plus élevés

Réglages FPS optimaux selon les usages d’anonymisation

Il n’existe pas une valeur de FPS optimale valable pour tous les cas. Le bon réglage dépend de la dynamique de la scène, de la distance entre la caméra et la personne, de la qualité de l’optique et de l’objectif du traitement. Pour un délégué à la protection des données, l’essentiel est que les paramètres soient choisis pour réduire le risque de divulgation de l’image d’une personne, et pas uniquement pour accélérer le traitement.

Scénario

FPS recommandé pour le contenu

Remarques pratiques

 

Vidéos statiques, peu de mouvement

10-15 FPS

Possible avec une bonne qualité d’image et peu de variation de la position du visage

Vidéosurveillance classique, entrées, réceptions, parkings

20-30 FPS

Compromis le plus fréquent entre efficacité et ressources

Scènes à mouvement rapide, passages, transport, caméras mobiles

30-60 FPS

Un FPS plus élevé réduit les trous temporels et améliore le tracking

Contenu fortement compressé ou affecté par le flou de mouvement

30 FPS et plus

L’augmentation du FPS seule ne suffit pas ; une exposition et un bitrate adaptés sont également nécessaires

Si le contenu est analysé en traitement par lots, il est possible de traiter toutes les images ou d’appliquer une détection périodique avec maintien du masque par un tracker. Ce modèle peut être performant, mais il doit être validé sur un jeu de test concret. Dans un cadre de conformité, il ne faut pas présumer l’efficacité sans mesurer le recall et le taux d’images omises.

Technologies utilisées pour la détection de visage et lien avec le FPS

L’anonymisation de visage moderne repose généralement sur des modèles d’apprentissage profond. Le deep learning est nécessaire pour entraîner un modèle d’IA capable de détecter des visages dans des conditions variées : occultation partielle, changement d’éclairage, rotation de la tête ou faible qualité d’image. Ce type de modèle est ensuite utilisé dans le processus de floutage automatique des visages sur les photos et les vidéos.

Les approches techniques les plus courantes sont les suivantes :

  • détection indépendante sur chaque image - précision temporelle maximale, coût de calcul plus élevé,
  • détection toutes les N images et suivi entre elles - coût plus faible, mais risque d’erreur accru en cas de mouvement brusque,
  • combinaison d’une détection multi-échelle et du tracking - adaptée aux scènes dans lesquelles la taille du visage varie dans le cadre.

En pratique, le seul FPS du fichier ne résout pas le problème si le modèle fonctionne avec une résolution d’entrée trop faible ou si la compression entraîne une perte de détails. Les standards de codage tels que H.264/AVC (ITU-T H.264 | ISO/IEC 14496-10) et H.265/HEVC (ITU-T H.265 | ISO/IEC 23008-2) peuvent introduire des artefacts qui dégradent la qualité de la détection, notamment à faible bitrate.

Défis et limites du FPS en détection de visage

Un nombre d’images par seconde plus élevé améliore la densité d’observation, mais n’élimine pas les limites fondamentales de l’image. Un visage peut rester non détecté malgré 60 FPS s’il est trop petit, occulté, surexposé ou flou à cause d’un temps d’exposition trop long.

Les limites les plus courantes sont :

  • le flou de mouvement, dû principalement au temps d’exposition et non à un FPS faible,
  • une faible résolution du visage en nombre de pixels,
  • la perte de détails causée par la compression inter-image,
  • un angle de visage trop prononcé et une occultation partielle,
  • l’échantillonnage d’une partie seulement des images pour accélérer les calculs.

Du point de vue de la protection de la vie privée, les false negatives, c’est-à-dire les visages non détectés, sont l’enjeu principal. Ce sont eux qui créent le risque de divulgation de données à caractère personnel. C’est pourquoi, pour les contenus présentant un risque élevé, il convient d’appliquer des réglages d’analyse conservateurs et un contrôle qualité des résultats.

Références normatives et sources

Dans le domaine de l’anonymisation vidéo, le FPS n’est pas encadré par un texte juridique unique, mais son choix influe sur l’efficacité des mesures techniques mises en œuvre pour protéger les données. À ce titre, il doit être compris comme un paramètre contribuant au respect du principe d’intégrité et de confidentialité ainsi qu’à la privacy by design.

  • Règlement (UE) 2016/679 - RGPD, art. 5, par. 1, point f, art. 25, art. 32.
  • ISO/IEC 2382 - terminologie informatique, y compris les notions liées à l’image et à la vidéo.
  • ITU-T H.264 et ITU-T H.265 - normes de compression vidéo influençant la qualité des données d’entrée pour la détection.
  • NIST Face Recognition Vendor Test (FRVT), rapports en cours du National Institute of Standards and Technology - source comparative pour l’efficacité des algorithmes faciaux, sous réserve que les tests FRVT portent principalement sur la reconnaissance et la vérification, et non sur l’anonymisation complète.

Dans une démarche de conformité, il convient de documenter non seulement le modèle de détection utilisé, mais aussi les paramètres du contenu d’entrée, notamment le FPS, la résolution, le codec et les résultats des tests d’efficacité sur un échantillon de données représentatif.