Image segmentation

Table des matières

Qu’est-ce que la segmentation d’image ?
Rôle de la segmentation dans l’anonymisation des visages et des plaques d’immatriculation
Technologies et modèles de segmentation au service de la protection de la vie privée
Paramètres clés et métriques de la segmentation d’image
Défis et limites dans les projets de conformité (compliance)
Références normatives et sources

Qu’est-ce que la segmentation d’image ?

La segmentation d’image (image segmentation) est un processus qui consiste à attribuer des étiquettes aux pixels d’une image ou aux images d’une séquence vidéo afin d’isoler des zones appartenant à des objets ou à des classes spécifiques. On distingue la segmentation sémantique (tous les pixels d’une même classe, par exemple un visage), la segmentation d’instance (masques distincts pour chaque occurrence, par exemple plusieurs visages) et la segmentation panoptique (combinaison des deux approches). Un saut qualitatif majeur a été apporté par les réseaux neuronaux convolutifs (CNN) et des architectures telles que FCN et U-Net, puis par des méthodes de détection-segmentation comme Mask R-CNN, ainsi que par des approches plus récentes basées sur les transformers et la segmentation interactive.

Dans le contexte de l’anonymisation de photos et de vidéos, la segmentation d’image permet de créer des masques de pixels précis pour les objets sensibles. Ces masques servent ensuite à appliquer un floutage, une pixelisation ou toute autre technique d’occultation, afin de réduire le risque de divulgation d’un visage ou d’une plaque d’immatriculation, tout en préservant le contexte de la scène.

Rôle de la segmentation dans l’anonymisation des visages et des plaques d’immatriculation

En pratique, l’anonymisation vidéo et l’anonymisation d’images combinent la détection d’objets et la segmentation. Le détecteur localise les visages et les plaques d’immatriculation, tandis que la segmentation d’instance affine la forme exacte de l’objet. Le floutage n’englobe ainsi pas inutilement l’arrière-plan et ne laisse pas d’espaces non masqués aux contours.

Dans les séquences vidéo, les masques sont propagés d’une image à l’autre à l’aide de techniques de suivi (tracking) et d’optimisation spatio-temporelle, ce qui limite les effets de scintillement et les pertes d’objets.

Du point de vue du RGPD, le masquage des visages et des identifiants visuels s’inscrit dans les principes de minimisation des données ainsi que d’intégrité et de confidentialité (article 5, paragraphe 1, points c et f du Règlement 2016/679). Le Comité européen de la protection des données (CEPD), dans ses Lignes directrices 3/2019 relatives au traitement des données personnelles par le biais de dispositifs vidéo, recommande l’utilisation de mesures limitant la portée du traitement, notamment des techniques de masquage ou d’occultation des zones sensibles. Dans les pays d’Europe occidentale, les règles relatives à la publication ou au partage de contenus comportant des plaques d’immatriculation visibles découlent principalement des législations nationales et de la pratique des autorités de protection des données, et non d’une exigence uniforme applicable dans toute l’Union européenne.

Dans Gallio PRO, la segmentation d’image est utilisée pour générer des masques de visages et de plaques d’immatriculation en amont du floutage. Le logiciel prend automatiquement en charge ces deux catégories et ne réalise pas d’anonymisation en temps réel ni de traitement de flux vidéo. D’autres éléments, tels que des logos ou des tatouages, peuvent être masqués manuellement dans l’éditeur.

Technologies et modèles de segmentation au service de la protection de la vie privée

Pour l’anonymisation, on utilise principalement des méthodes d’apprentissage profond (deep learning), car elles garantissent des masques de haute qualité même dans des conditions d’éclairage complexes ou en présence de mouvement. Les techniques traditionnelles, telles que les graph cuts ou les superpixels, sont aujourd’hui moins utilisées seules, mais peuvent intervenir en post-traitement.

FCN et U-Net - architectures end-to-end pour la segmentation sémantique. U-Net est particulièrement utile avec des jeux de données limités grâce aux connexions de saut (skip connections) et à un entraînement avec forte augmentation de données.
Mask R-CNN - étend la détection par une branche dédiée aux masques, facilitant le masquage indépendant de plusieurs objets dans une même scène, notamment de multiples visages.
DeepLabv3+ et modèles apparentés - utilisent des convolutions atrous (dilatées) et des décodeurs pour améliorer la précision des contours.
Transformers de segmentation et outils interactifs - par exemple les modèles de type SegFormer ou les approches assistées par points/cadres fournis par l’utilisateur. Des modèles comme Segment Anything permettent d’obtenir rapidement un masque à partir d’une indication approximative.

L’entraînement de modèles destinés à l’anonymisation nécessite des données annotées avec des masques pour les visages et les plaques d’immatriculation. En pratique, on utilise des jeux de données comportant des masques de segmentation ou l’on combine la détection avec un ajustement précis des contours. Les sources incluent notamment COCO et Open Images pour la segmentation d’instance, ainsi que des ensembles dédiés aux visages avec masques sémantiques tels que CelebAMask-HQ. Pour les plaques d’immatriculation, on exploite des jeux de données de détection complétés par des annotations d’instance propres, dans le respect des exigences légales relatives au processus d’annotation.

Paramètres clés et métriques de la segmentation d’image

Le choix et l’évaluation des modèles de segmentation d’image doivent s’appuyer sur des indicateurs mesurables. Dans le cadre de l’anonymisation, les métriques de qualité des masques ainsi que les performances de calcul, influençant le temps de traitement des contenus, sont particulièrement importantes.

Métrique / paramètre	Définition	Formule ou description	Source
IoU (Intersection over Union)	Chevauchement entre le masque prédit et le masque de référence	\|A ∩ B\| / \|A ∪ B\|	Protocole d’évaluation COCO, Lin et al., 2014
mIoU	IoU moyenne par classe	Moyenne des IoU calculées pour les classes du jeu de données	Cityscapes ; Cordts et al., 2016
Dice (F1 pixel)	Mesure similaire à l’IoU, mettant l’accent sur le recouvrement	2\|A ∩ B\| / (\|A\| + \|B\|)	Sørensen-Dice ; voir Ronneberger et al., 2015
APmask	Average Precision pour les masques à différents seuils IoU	Précision moyenne pour IoU ∈ [0.5, 0.95]	COCO, Lin et al., 2014
Latence	Temps de traitement d’une image / d’une frame	ms par image ou par frame	Spécifications de déploiement
Débit (Throughput)	Capacité du système	FPS = nombre d’images par seconde	Spécifications de déploiement
Consommation mémoire	Mémoire GPU/CPU utilisée lors de l’inférence	MB ou GB	Spécifications de déploiement
Taux de FN	Proportion de pixels de la classe non détectés	1 - rappel pixel	Études comparatives

En anonymisation, il est crucial de réduire le risque de faux négatifs (FN), notamment aux contours des objets. On applique souvent une dilatation des masques ainsi qu’un filtrage des bords afin d’éviter les fuites de floutage.

Défis et limites dans les projets de conformité (compliance)

La mise en œuvre efficace de la segmentation d’image dans des projets de protection des données se heurte à des contraintes techniques et juridiques. Voici les principaux défis et leurs conséquences sur la qualité de l’anonymisation :

Conditions d’acquisition variables - faible contraste, scènes nocturnes, mouvement ou salissures affectent la précision des contours des masques.
Variabilité des domaines - différences de caméras, de pays, de formats de plaques d’immatriculation ou de couvre-visages entraînent une baisse de performance hors domaine d’entraînement.
Risque de faux négatifs - des fragments non floutés de visages ou de caractères peuvent porter atteinte à la vie privée et aux exigences du RGPD.
Ressources de calcul - la segmentation d’instance est coûteuse. Pour les données sensibles, un traitement on-premise est souvent privilégié afin de limiter les transferts vers le cloud.
Gestion des données - le stockage des masques et des métadonnées doit réduire le risque de réidentification. Gallio PRO ne conserve pas de journaux contenant des données relatives aux détections de visages et de plaques.
Limites de l’automatisation - dans Gallio PRO, la détection automatique se limite aux visages et aux plaques d’immatriculation. Les autres éléments doivent être masqués manuellement dans l’éditeur.

Références normatives et sources

Les documents et publications ci-dessous constituent la base des définitions, des métriques et des recommandations relatives à la segmentation d’image et au traitement des données visuelles dans un contexte de protection des données.

Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 (RGPD).
Comité européen de la protection des données, Lignes directrices 3/2019 sur le traitement des données à caractère personnel par le biais de dispositifs vidéo, version adoptée le 29 janvier 2020.
ISO/IEC 27001:2022 - Sécurité de l’information, cybersécurité et protection de la vie privée - Systèmes de management de la sécurité de l’information.
ISO/IEC 23894:2023 - Technologies de l’information - Intelligence artificielle - Management du risque.
Long, Shelhamer, Darrell, Fully Convolutional Networks for Semantic Segmentation, CVPR 2015.
Ronneberger, Fischer, Brox, U-Net: Convolutional Networks for Biomedical Image Segmentation, MICCAI 2015.
He, Gkioxari, Dollár, Girshick, Mask R-CNN, ICCV 2017.
Kirillov et al., Panoptic Segmentation, CVPR 2019.
Lin et al., Microsoft COCO: Common Objects in Context, ECCV 2014.
Cordts et al., The Cityscapes Dataset for Semantic Urban Scene Understanding, CVPR 2016.
Kuznetsova et al., The Open Images Dataset V6, IJCV 2020.
Lee et al., CelebAMask-HQ: A Large-Scale Face Parsing Dataset, CVPR Workshops 2020.
Kirillov et al., Segment Anything, arXiv 2023.

Voir aussi

Retour au glossaire