Reconnaissance optique de caractères (OCR) - définition
La reconnaissance optique de caractères (OCR, Optical Character Recognition) est une technique de traitement d’image permettant la reconnaissance automatique de caractères à partir d’images et de séquences vidéo. D’un point de vue normatif, l’OCR fait partie du domaine plus large de la reconnaissance de formes en informatique, défini notamment dans la norme ISO/IEC 2382:2015 comme un traitement de l’information reposant sur l’identification de symboles par analyse optique. En pratique, le processus comprend trois étapes : la détection des zones contenant du texte, la normalisation des segments extraits, puis la reconnaissance (décodage) des séquences de caractères sous forme numérique.
Dans le contexte de l’anonymisation des images et des vidéos, l’OCR prend en charge la détection automatique des éléments textuels susceptibles de constituer des données à caractère personnel ou de permettre une identification, en particulier les numéros de plaques d’immatriculation. L’OCR n’est pas destiné à la reconnaissance faciale : celle-ci repose sur des méthodes de détection de visages et, le cas échéant, de reconnaissance faciale. En revanche, l’OCR peut servir à vérifier ou à renforcer les règles d’anonymisation applicables au texte présent dans l’image.
Rôle de l’OCR dans l’anonymisation des images et des vidéos
L’OCR joue un rôle de soutien dans la chaîne d’anonymisation en augmentant la probabilité que les zones à masquer aient été correctement identifiées. Cela concerne notamment les plaques d’immatriculation, les inscriptions sur les vêtements professionnels ou les marquages pouvant servir à identifier une personne. Pour le floutage des visages, l’OCR n’est pas nécessaire ; en revanche, pour les plaques d’immatriculation, il peut agir comme une couche de validation supplémentaire.
- Support à la détection des plaques d’immatriculation : le motif de caractères reconnu peut confirmer que la zone détectée correspond bien à une plaque (ANPR/LPR).
- Validation des règles : la correspondance avec les formats nationaux des plaques réduit les faux positifs lors du floutage.
- Aide à l’édition manuelle : la mise en évidence des zones contenant du texte facilite le masquage manuel rapide des éléments non détectés automatiquement.
- Incohérences comme signal de risque : l’impossibilité de lire les caractères dans une zone manifestement correspondante à une plaque peut déclencher une inspection supplémentaire.
Les aspects juridiques restent déterminants. Le CEPD (EDPB) indique que l’image d’une personne et ses attributs identifiables relèvent du RGPD lorsqu’une identification d’une personne physique est possible (Guidelines 3/2019, version 2.0, 29/01/2020). Des autorités nationales, telles que l’ICO britannique, considèrent le numéro d’immatriculation comme une donnée à caractère personnel potentielle selon le contexte et la possibilité de le relier à une personne physique (ICO, What is personal data). En Pologne, l’UODO souligne, dans ses documents relatifs à la vidéosurveillance, la nécessité de respecter les principes de minimisation et d’adéquation du traitement des images, y compris pour les éléments permettant l’identification d’un véhicule. La jurisprudence présente toutefois des positions divergentes quant à la qualification des plaques comme données personnelles, ce qui impose une analyse du contexte et de la finalité du traitement.
Technologies OCR au service de la protection de la vie privée
L’OCR moderne appliqué aux scènes naturelles (scene text) repose sur l’apprentissage profond. Le pipeline sépare généralement la détection et la reconnaissance. Le choix des technologies influe directement sur la qualité, la rapidité et la stabilité de l’anonymisation des images et des vidéos.
- Détection de texte : des modèles en une ou deux étapes sont couramment utilisés, notamment EAST (CVPR 2017), CRAFT (CVPR 2019) et DBNet. Ils permettent de détecter du texte sous différentes orientations et déformations (Zhou et al., 2017 ; Baek et al., 2019).
- Reconnaissance des séquences de caractères : les approches CRNN avec CTC, ainsi que les modèles attentionnels et basés sur des transformers tels que TrOCR, convertissent les segments normalisés en chaînes de caractères (Shi et al., 2017 ; Li et al., TrOCR 2021).
- Traitement vidéo : la stabilisation inter-images, la réduction du bruit et la normalisation de l’exposition améliorent la cohérence de la reconnaissance en cas de mouvement ou de faible luminosité. Des filtres classiques et des bibliothèques de traitement d’image (par ex. OpenCV) viennent en appui.
- Validation métier : des règles fondées sur des expressions régulières et des listes de caractères autorisés pour les formats de plaques renforcent les décisions d’anonymisation.
Paramètres clés et métriques de l’OCR
L’efficacité de l’OCR dans l’anonymisation doit être évaluée à l’aide de métriques permettant d’identifier les risques de sous-floutage et de sur-floutage. Les indicateurs ci-dessous sont couramment utilisés dans les études et les benchmarks ICDAR et concours associés.
Métrique | Définition | Usage en anonymisation
|
|---|---|---|
CER - Character Error Rate | CER = Levenshtein(pred, ref) / length(ref) | Évaluation de la précision de reconnaissance des caractères sur les plaques d’immatriculation. |
WER - Word Error Rate | WER = (S + D + I) / N, où S = substitutions, D = suppressions, I = insertions, N = nombre de mots | Utile pour les inscriptions courtes ; des valeurs faibles réduisent le risque de décision erronée. |
Précision / Rappel (détection de texte) | Précision = TP/(TP+FP), Rappel = TP/(TP+FN) | Le rappel est critique lorsque le non-floutage présente un risque supérieur au sur-floutage. |
Score F1 | F1 = 2·(Précision·Rappel)/(Précision+Rappel) | Équilibre entre faux positifs et omissions lors du réglage des seuils. |
IoU des boîtes | IoU = surface(intersection)/surface(union) | Vérification du recouvrement entre la zone floutée et la zone de texte. |
Latence de traitement | Temps moyen par image ou par frame, de bout en bout | Planification du débit en traitement par lots, sans exigence de temps réel. |
Les résultats de recherche et de compétitions sont disponibles dans les actes de conférences, notamment les rapports de synthèse des Robust Reading Competitions organisées dans le cadre d’ICDAR entre 2015 et 2019, qui définissent et appliquent ces métriques à l’évaluation des détecteurs et des systèmes de reconnaissance de texte en scène.
Défis et limites de l’OCR en anonymisation
Les environnements réels génèrent de nombreuses dégradations visuelles. Leur atténuation nécessite le choix de modèles et de politiques de traitement alignés sur l’objectif d’anonymisation et sur le principe de minimisation des données.
- Conditions de prise de vue : le flou de mouvement, le faible contraste, les reflets et la variété des polices réduisent le rappel de détection et augmentent le CER.
- Angles et occultations : les déformations de perspective et les masquages partiels exigent des détecteurs robustes à la rotation et aux formes irrégulières.
- Diversité des formats de plaques : les formats nationaux et régionaux diffèrent par les jeux de caractères et la mise en page, ce qui impose des règles de validation dépendantes de la juridiction.
- Risque de surtraitement : conformément à l’article 5, paragraphe 1, point c du RGPD, il convient de limiter l’étendue et la durée du traitement et d’éviter la conservation inutile des résultats OCR.
Exemples d’usages dans le contexte de Gallio PRO
Gallio PRO utilise la détection d’objets et le floutage pour anonymiser les visages et les plaques d’immatriculation sur les images et les vidéos. Le logiciel ne réalise pas d’anonymisation en temps réel et fonctionne en mode on‑premise. Dans ce cadre, l’OCR a un rôle complémentaire.
- Visages : l’OCR n’est pas utilisé. L’anonymisation repose sur la détection et le floutage des visages.
- Plaques d’immatriculation : l’OCR peut vérifier que la zone floutée correspond bien à un motif de caractères de plaque, réduisant ainsi les faux positifs.
- Éléments non pris en charge automatiquement : logos, tatouages, badges nominatifs ou contenus affichés sur des écrans ne sont pas détectés automatiquement. Ils peuvent être masqués manuellement via l’éditeur intégré.
- Confidentialité et journaux : l’outil ne conserve pas de logs contenant les résultats de détection des visages ou des plaques. Les résultats OCR, lorsqu’ils sont utilisés, respectent le principe de minimisation et ne sont pas conservés comme données personnelles.
Le floutage des plaques d’immatriculation est une pratique courante dans de nombreux pays d’Europe occidentale et peut être recommandé ou attendu selon le contexte de publication, conformément aux positions des autorités de protection des données et aux usages du marché. En Pologne, les interprétations divergent quant au statut des plaques comme données personnelles, mais l’UODO et le CEPD soulignent l’importance de l’analyse du contexte et du risque. Cette situation plaide en faveur de l’utilisation de l’OCR comme couche de contrôle afin de limiter le risque de divulgation d’inscriptions identifiables dans les images.
Références normatives et sources
Les documents ci-dessous présentent les définitions, métriques et bonnes pratiques techniques et réglementaires relatives à l’OCR et au traitement d’image dans un contexte de protection des données.
- ISO/IEC 2382:2015 - Information technology - Vocabulary. Définitions liées à la reconnaissance de formes et au traitement de l’information.
- CEPD (EDPB), Guidelines 3/2019 on processing of personal data through video devices, version 2.0, 29/01/2020 - lignes directrices sur la vidéo et le RGPD.
- RGPD - articles 4(1), 5(1)(c), 25, 32 - définitions, minimisation, protection des données dès la conception, sécurité du traitement.
- ICO, What is personal data - guide pratique, section avec exemples, dont le numéro d’immatriculation comme donnée personnelle potentielle.
- Zhou et al., EAST: An Efficient and Accurate Scene Text Detector, CVPR 2017 - détection de texte.
- Baek et al., Character Region Awareness for Text Detection (CRAFT), CVPR 2019 - détection de texte irrégulier.
- Shi et al., An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition, TPAMI 2017 - CRNN et CTC.
- Li et al., TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models, 2021 - reconnaissance basée sur des transformers.
- ICDAR Robust Reading Competitions - rapports techniques des éditions 2015-2019 - métriques et jeux de données pour la détection et la reconnaissance de texte en scène.