¿Qué es la segmentación de imágenes (Image Segmentation)?

Tabla de contenidos

Segmentación de imágenes - definición
El papel de la segmentación en la anonimización de rostros y matrículas
Tecnologías y modelos de segmentación en la protección de datos
Parámetros clave y métricas de segmentación
Retos y limitaciones en aplicaciones de compliance
Referencias normativas y fuentes

Segmentación de imágenes - definición

La segmentación de imágenes (image segmentation) es el proceso de asignar etiquetas a los píxeles de una imagen o a los fotogramas de un vídeo con el fin de separar regiones que pertenecen a objetos o clases específicas. Se distinguen la segmentación semántica (todos los píxeles de una clase determinada, por ejemplo, un rostro), la segmentación de instancias (máscaras independientes para cada ejemplar, por ejemplo, varios rostros) y la segmentación panóptica (combinación de ambos enfoques). Un cambio fundamental en la calidad lo introdujeron las redes neuronales convolucionales y arquitecturas como FCN y U-Net, seguidas por métodos de detección y segmentación como Mask R-CNN, y más recientemente por enfoques basados en transformers y segmentación interactiva.

En el contexto de la anonimización de imágenes y vídeos, la segmentación de imágenes se utiliza para crear máscaras de píxeles precisas sobre objetos sensibles. Estas máscaras sirven de base para aplicar desenfoque, pixelado u otras formas de ocultación, minimizando el riesgo de revelar rostros o matrículas y manteniendo al mismo tiempo el contexto de la escena.

El papel de la segmentación en la anonimización de rostros y matrículas

En la práctica, la anonimización de vídeo y fotografías combina la detección de objetos con la segmentación. El detector localiza rostros y matrículas, mientras que la segmentación de instancias precisa la forma del objeto, evitando que el desenfoque afecte innecesariamente al fondo o deje huecos en los bordes. En secuencias de vídeo, las máscaras se propagan entre fotogramas mediante técnicas de seguimiento y optimización espacio-temporal, lo que reduce el parpadeo y la pérdida de objetos.

Desde la perspectiva del cumplimiento del RGPD, el enmascaramiento de la imagen y de identificadores visuales se ajusta al principio de minimización de datos y a los principios de integridad y confidencialidad (art. 5.1.c y f del Reglamento 2016/679). El Comité Europeo de Protección de Datos, en sus Directrices 3/2019 sobre dispositivos de vídeo, señala la necesidad de aplicar medidas que limiten el alcance del tratamiento, incluidas técnicas como el enmascaramiento u ocultación de zonas sensibles. En los países de Europa Occidental, las normas sobre la publicación o difusión de materiales con matrículas visibles derivan de la legislación nacional y de la práctica de las autoridades de protección de datos, y no de un requisito uniforme aplicable en toda la UE. En Polonia existen divergencias interpretativas; no obstante, las directrices de la UODO y las posiciones del CEPD enfatizan la necesidad de limitar la identificabilidad en los materiales publicados.

En Gallio PRO, la segmentación se utiliza para generar máscaras de rostros y matrículas como paso previo al desenfoque. El software cubre automáticamente estas dos categorías y no realiza anonimización en tiempo real ni procesamiento de streaming de vídeo. Otros elementos, como logotipos o tatuajes, pueden enmascararse manualmente en el editor.

Tecnologías y modelos de segmentación en la protección de datos

Para la segmentación en procesos de anonimización se emplean principalmente métodos de aprendizaje profundo, ya que ofrecen máscaras de alta calidad incluso en condiciones complejas de iluminación y movimiento. Las técnicas tradicionales, como graph-cuts o superpíxeles, hoy en día se utilizan con menor frecuencia de forma independiente, aunque pueden formar parte del posprocesamiento.

FCN y U-Net: arquitecturas end-to-end para segmentación semántica. U-Net resulta útil con conjuntos de datos limitados gracias a las conexiones skip y al entrenamiento con fuerte aumento de datos.
Mask R-CNN: amplía la detección con una rama de máscara, facilitando el enmascaramiento independiente de múltiples objetos en una misma escena, incluidos varios rostros.
DeepLabv3+ y variantes relacionadas: emplean convoluciones atrous y decodificadores para mejorar la precisión de los bordes.
Transformers de segmentación y herramientas interactivas: por ejemplo, modelos como SegFormer y enfoques asistidos por puntos o cuadros definidos por el usuario. Modelos como Segment Anything permiten obtener rápidamente una máscara a partir de una indicación aproximada.

El entrenamiento de modelos para fines de anonimización requiere datos anotados con máscaras de rostros y matrículas. En la práctica, se utilizan conjuntos con máscaras de segmentación o se combina la detección con el ajuste de forma. Entre las fuentes de datos se incluyen COCO y Open Images para segmentación de instancias, así como conjuntos de rostros con máscaras semánticas como CelebAMask-HQ. En el caso de matrículas, se emplean conjuntos de detección y anotaciones propias de instancias, garantizando la conformidad legal del proceso de anotación.

Parámetros clave y métricas de segmentación

La selección y evaluación de modelos de segmentación deben basarse en indicadores medibles. En el contexto de la anonimización, son especialmente relevantes las métricas de calidad de la máscara y los parámetros de rendimiento computacional, que influyen en el tiempo de procesamiento de los materiales.

Métrica/parámetro	Definición	Fórmula o descripción	Fuente
IoU (Intersection over Union)	Superposición entre la máscara predicha y la de referencia	\|A ∩ B\| / \|A ∪ B\|	COCO evaluation protocol, Lin et al., 2014
mIoU	IoU media por clase	Promedio de IoU calculado para las clases del conjunto	Cityscapes; Cordts et al., 2016
Dice (F1 de píxeles)	Métrica similar a IoU, enfatiza la superposición	2\|A ∩ B\| / (\|A\| + \|B\|)	Sørensen-Dice; ver Ronneberger et al., 2015
APmask	Average Precision para máscaras en distintos umbrales IoU	Precisión media para IoU ∈ [0.5, 0.95]	COCO, Lin et al., 2014
Latencia	Tiempo de procesamiento de una imagen/fotograma	ms por imagen o ms por fotograma	Especificaciones de implementación
Throughput	Rendimiento del sistema	FPS = fotogramas por segundo	Especificaciones de implementación
Uso de memoria	Memoria GPU/CPU durante la inferencia	MB o GB	Especificaciones de implementación
Tasa de FN	Porcentaje de píxeles de clase no detectados	1 - recall de píxeles	Estudios comparativos

En la anonimización es fundamental reducir el riesgo de errores FN en los bordes de los objetos. Se aplican técnicas como la dilatación de máscaras (dilation) y el filtrado de bordes para evitar fugas en el desenfoque.

Retos y limitaciones en aplicaciones de compliance

Una segmentación eficaz en proyectos de protección de datos enfrenta barreras técnicas y legales. A continuación, se presentan los desafíos más comunes y sus implicaciones para la calidad de la anonimización.

Condiciones de captura variables: bajo contraste, escenas nocturnas, movimiento o suciedad afectan a los límites de las máscaras.
Variabilidad de dominios: distintos tipos de cámaras, países, formatos de matrículas y elementos que cubren el rostro reducen la calidad fuera del dominio de entrenamiento.
Riesgo de errores FN: fragmentos no desenfocados de rostros o caracteres pueden vulnerar la privacidad y el RGPD.
Recursos computacionales: la segmentación de instancias es costosa. En la práctica, a menudo se prefiere el procesamiento on-premise para datos sensibles, limitando la transferencia a la nube.
Gestión de datos: el almacenamiento de máscaras y metadatos debe minimizar la reidentificación. Gallio PRO no recopila registros que contengan datos sobre detecciones de rostros y matrículas.
Límites de la automatización: en Gallio PRO, la detección automática se limita a rostros y matrículas. Otros elementos se enmascaran manualmente en el editor.

Referencias normativas y fuentes

Los siguientes documentos y publicaciones constituyen la base de las definiciones, métricas y recomendaciones relativas a la segmentación y al tratamiento de datos visuales en el contexto de la protección de datos.

Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo de 27.04.2016 (RGPD).
European Data Protection Board, Guidelines 3/2019 on processing of personal data through video devices, versión adoptada el 29.01.2020.
ISO/IEC 27001:2022 - Information security, cybersecurity and privacy protection - Information security management systems.
ISO/IEC 23894:2023 - Information technology - Artificial intelligence - Risk management.
Long, Shelhamer, Darrell, Fully Convolutional Networks for Semantic Segmentation, CVPR 2015.
Ronneberger, Fischer, Brox, U-Net: Convolutional Networks for Biomedical Image Segmentation, MICCAI 2015.
He, Gkioxari, Dollár, Girshick, Mask R-CNN, ICCV 2017.
Kirillov et al., Panoptic Segmentation, CVPR 2019.
Lin et al., Microsoft COCO: Common Objects in Context, ECCV 2014.
Cordts et al., The Cityscapes Dataset for Semantic Urban Scene Understanding, CVPR 2016.
Kuznetsova et al., The Open Images Dataset V6, IJCV 2020.
Lee et al., CelebAMask-HQ: A Large-Scale Face Parsing Dataset, CVPR Workshops 2020.
Kirillov et al., Segment Anything, arXiv 2023.

Ver también

Volver al glosario