Reconocimiento Óptico de Caracteres (OCR) - definición
El Reconocimiento Óptico de Caracteres (OCR) es una técnica de procesamiento de imágenes utilizada para el reconocimiento automático de texto a partir de imágenes y fotogramas de vídeo. Desde un punto de vista normativo, el OCR forma parte del ámbito más amplio del reconocimiento de patrones en informática y está definido, entre otros, en la norma ISO/IEC 2382:2015 como un tipo de procesamiento de la información basado en la identificación de símbolos mediante análisis óptico. En la práctica, el OCR consta de tres etapas principales: la detección de regiones que contienen texto, la normalización de los recortes y el reconocimiento (decodificación) de las secuencias de caracteres a formato digital.
En el contexto de la anonimización de imágenes y grabaciones de vídeo, el OCR facilita el reconocimiento automático de elementos textuales que pueden constituir datos personales o permitir la identificación de una persona, en particular los números de matrícula. El OCR no se utiliza para el reconocimiento facial; para ello se emplean técnicas de detección de rostros y, opcionalmente, de reconocimiento facial. No obstante, el OCR puede verificar o reforzar las reglas de anonimización relacionadas con el texto presente en una imagen.
El papel del OCR en la anonimización de imágenes y vídeo
El OCR desempeña una función auxiliar dentro de la cadena de anonimización, aumentando la probabilidad de que las áreas que deben difuminarse hayan sido correctamente identificadas. Esto resulta especialmente relevante para matrículas, textos en ropa de trabajo o marcas que puedan utilizarse para identificar a una persona. En el caso del difuminado de rostros, el OCR no es necesario, mientras que para las matrículas puede actuar como una capa adicional de validación.
- Apoyo a la detección de matrículas: el patrón de caracteres reconocido puede confirmar que el área detectada corresponde realmente a una matrícula (ANPR/LPR).
- Validación de reglas: la coincidencia con formatos nacionales de matrículas reduce los falsos positivos durante el proceso de difuminado.
- Asistencia en la edición manual: el resaltado de áreas con texto facilita el difuminado manual rápido de elementos no detectados automáticamente.
- Desajustes como señal de riesgo: la imposibilidad de leer caracteres en una zona claramente correspondiente a una matrícula puede activar una inspección adicional.
Las cuestiones legales siguen siendo fundamentales. El EDPB indica que la imagen de una persona y sus atributos identificables están sujetos al RGPD cuando es posible identificar a una persona física (Guidelines 3/2019, versión 2.0, 29.01.2020). Autoridades nacionales como el ICO del Reino Unido consideran el número de matrícula como un posible dato personal, dependiendo del contexto y de la posibilidad de vincularlo con una persona física (ICO, What is personal data). En Polonia, la autoridad UODO subraya en sus materiales sobre videovigilancia la necesidad de aplicar los principios de minimización y adecuación en el tratamiento de imágenes, incluidos los elementos que permiten identificar un vehículo. Al mismo tiempo, la jurisprudencia presenta posturas divergentes sobre la calificación de las matrículas como datos personales, lo que exige evaluar el contexto y la finalidad del tratamiento.
Tecnologías OCR en la protección de la privacidad
El OCR moderno aplicado a texto en escenas naturales se basa principalmente en técnicas de aprendizaje profundo. El flujo de procesamiento suele separar la detección del texto y su reconocimiento. La elección de la tecnología influye directamente en la calidad, la velocidad y la estabilidad del proceso de anonimización de imágenes y vídeos.
- Detección de texto: son habituales modelos de una y dos etapas, como EAST (CVPR 2017), CRAFT (CVPR 2019) y DBNet, que permiten detectar texto con diferentes orientaciones y deformaciones (Zhou et al., 2017; Baek et al., 2019).
- Reconocimiento de secuencias de caracteres: los enfoques CRNN con CTC, así como los modelos con atención y basados en transformers, como TrOCR, convierten los recortes normalizados en secuencias de texto (Shi et al., 2017; Li et al., TrOCR 2021).
- Procesamiento de vídeo: la estabilización entre fotogramas, la reducción de ruido y la normalización de la exposición mejoran la coherencia del reconocimiento en situaciones de movimiento o baja iluminación. Se apoyan en filtros clásicos y bibliotecas de procesamiento de imagen como OpenCV.
- Validación por dominio: reglas basadas en expresiones regulares y listas de caracteres permitidos para los formatos de matrícula refuerzan las decisiones de anonimización.
Parámetros y métricas clave del OCR
La eficacia del OCR en la anonimización debe evaluarse mediante métricas que identifiquen el riesgo de no difuminar información sensible o de difuminar en exceso. A continuación se presentan las métricas básicas, ampliamente utilizadas en estudios y benchmarks de ICDAR y competiciones relacionadas.
Métrica | Definición | Aplicación en la anonimización
|
|---|---|---|
CER - Character Error Rate | CER = Levenshtein(pred, ref) / length(ref) | Evaluación de la precisión del reconocimiento de caracteres en matrículas. |
WER - Word Error Rate | WER = (S + D + I) / N, donde S = sustituciones, D = eliminaciones, I = inserciones, N = número de palabras | Útil para textos cortos; valores más bajos reducen el riesgo de decisiones erróneas. |
Precision/Recall (detección de texto) | Precision = TP/(TP+FP), Recall = TP/(TP+FN) | El recall es crítico cuando el riesgo de no difuminar es mayor que el de difuminar en exceso. |
F1-score | F1 = 2·(Precision·Recall)/(Precision+Recall) | Equilibrio entre falsos positivos y omisiones al seleccionar umbrales. |
IoU para cajas delimitadoras | IoU = área(intersección)/área(unión) | Verificación de la cobertura del área difuminada respecto al área del texto. |
Latencia de procesamiento | Tiempo medio por fotograma o imagen, de extremo a extremo | Planificación de la capacidad de procesamiento por lotes sin necesidad de tiempo real. |
Los resultados de investigaciones y competiciones están disponibles en actas de congresos. Por ejemplo, la serie de Robust Reading Competitions organizadas en el marco de ICDAR cuenta con informes de revisión de los años 2015-2019 que definen y aplican estas métricas para evaluar la detección y el reconocimiento de texto en escenas.
Retos y limitaciones del OCR en la anonimización
El entorno real genera numerosas distorsiones. Su mitigación requiere seleccionar modelos y políticas de procesamiento acordes con el objetivo de la anonimización y con el principio de minimización de datos.
- Condiciones de captura: el movimiento, el bajo contraste, los reflejos y la variedad de tipografías reducen el recall de detección y aumentan el CER.
- Ángulos y oclusiones: las deformaciones de perspectiva y las obstrucciones parciales requieren detectores resistentes a la rotación y a formas irregulares.
- Diversidad de formatos de matrículas: los formatos nacionales y regionales difieren en conjuntos de caracteres y disposición, lo que exige reglas de validación dependientes de la jurisdicción.
- Riesgo de sobreprocesamiento: conforme al art. 5.1.c del RGPD, debe minimizarse el alcance y la duración del tratamiento, evitando la recopilación innecesaria de resultados de OCR.
Ejemplos de uso en el contexto de Gallio PRO
Gallio PRO utiliza detección de objetos y difuminado para anonimizar rostros y matrículas en imágenes y grabaciones de vídeo. El software no realiza anonimización en tiempo real y funciona en un modelo on‑premise. En este contexto, el OCR tiene un papel auxiliar.
- Rostros: no se utiliza OCR. La anonimización se basa en la detección y el difuminado de caras.
- Matrículas: el OCR puede verificar si el área difuminada corresponde al patrón de caracteres de una matrícula, reduciendo los falsos positivos.
- Elementos no compatibles automáticamente: logotipos, tatuajes, placas con nombres o imágenes de pantallas no se detectan de forma automática y pueden difuminarse manualmente con el editor integrado.
- Privacidad y registros: la herramienta no almacena logs con resultados de detección de rostros ni de matrículas. Los resultados de OCR, cuando se utilizan, se rigen por el principio de minimización y no se conservan como datos personales.
El difuminado de matrículas es una práctica habitual en muchos países de Europa Occidental y, según el contexto de publicación, puede ser recomendado o esperado, de acuerdo con el enfoque de las autoridades de protección de datos y la práctica del mercado. En Polonia existen interpretaciones divergentes sobre el estatus de las matrículas como datos personales; no obstante, tanto la UODO como el EDPB destacan la necesidad de evaluar el contexto y el riesgo. Esta situación respalda el uso del OCR como una capa de control adicional para reducir el riesgo de divulgar texto identificable en imágenes.
Referencias normativas y fuentes
Los siguientes materiales documentan definiciones, métricas y buenas prácticas técnicas y regulatorias relacionadas con el OCR y el procesamiento de imágenes en el ámbito de la protección de datos.
- ISO/IEC 2382:2015 - Information technology - Vocabulary. Definiciones relacionadas con el reconocimiento de patrones y el procesamiento de la información.
- EDPB, Guidelines 3/2019 on processing of personal data through video devices, Version 2.0, 29.01.2020 - directrices sobre vídeo y RGPD.
- RGPD - art. 4.1, art. 5.1.c, art. 25, art. 32 - definiciones, minimización, privacidad desde el diseño y seguridad del tratamiento.
- ICO, What is personal data - guía con ejemplos, incluido el número de matrícula como posible dato personal.
- Zhou et al., EAST: An Efficient and Accurate Scene Text Detector, CVPR 2017 - detección de texto.
- Baek et al., Character Region Awareness for Text Detection (CRAFT), CVPR 2019 - detección de texto irregular.
- Shi et al., An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition, TPAMI 2017 - CRNN y CTC.
- Li et al., TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models, 2021 - reconocimiento basado en transformers.
- ICDAR Robust Reading Competitions - informes técnicos de los años 2015-2019 sobre métricas y conjuntos de datos para detección y reconocimiento de texto en escenas.