Definición
Las redes neuronales (Artificial Neural Networks, ANN) son una familia de modelos de aprendizaje automático compuestos por capas de unidades computacionales interconectadas que transforman los datos de entrada en salidas deseadas mediante el aprendizaje de pesos. En el contexto del procesamiento de imágenes y vídeo se utilizan principalmente redes neuronales profundas (Deep Neural Networks, DNN), incluidas las redes neuronales convolucionales (Convolutional Neural Networks, CNN), entrenadas mediante el algoritmo de retropropagación del error, a menudo sobre datos etiquetados. Parafraseado conforme a la norma ISO/IEC 22989:2022, que define los conceptos básicos de IA y ML, y al enfoque de la ISO/IEC 23053:2022, que describe los marcos de los sistemas de IA que utilizan aprendizaje automático.
En la anonimización de imágenes y grabaciones de vídeo, las redes neuronales desempeñan una función clave como detector y/o segmentador de objetos sensibles. El modelo ANN localiza rostros y matrículas, y posteriormente el sistema aplica operaciones de posprocesamiento como desenfoque, pixelado o enmascaramiento. La calidad y la seguridad del proceso dependen de la eficacia del modelo para detectar todas las instancias de los objetos con una tasa aceptable de falsas alarmas.
Rol en la anonimización de imágenes y vídeo
- Detección de rostros: el detector CNN devuelve cuadros delimitadores o máscaras que definen el área a desenfocar. Ejemplos de enfoques: detectores de objetos de una sola etapa y detectores de rostros especializados.
- Detección de matrículas: los modelos de detección de objetos localizan las matrículas en distintas condiciones de iluminación y desde diferentes ángulos. La segmentación puede precisar la forma de la máscara.
- Seguimiento en vídeo: los algoritmos de asociación de objetos entre fotogramas estabilizan las máscaras y reducen el parpadeo. Funcionan de forma complementaria a las ANN utilizadas para la detección.
- Posprocesamiento: tras la detección, el sistema aplica un filtro de desenfoque con una intensidad determinada, pixelado o una máscara uniforme. Los parámetros de posprocesamiento se seleccionan teniendo en cuenta el requisito de que las personas no sean (o ya no sean) identificables, de acuerdo con el considerando 26 del RGPD.
Tecnologías utilizadas en ANN para el desenfoque
- Arquitecturas de detección: YOLOv3-v4 y variantes monofase más recientes, que ofrecen alta velocidad de inferencia con buena precisión (Redmon et al., 2018; Bochkovskiy et al., 2020). Los modelos bifase, como Faster R-CNN, proporcionan mayor precisión a costa de una mayor latencia.
- Detectores de rostros: RetinaFace combina la detección con la estimación de puntos de referencia, lo que mejora la localización de la máscara en posturas no estándar (Deng et al., 2020).
- Segmentación: U-Net y sus derivados definen con precisión los contornos cuando se requiere una máscara de forma irregular (Ronneberger et al., 2015).
- Formatos y despliegues: PyTorch o TensorFlow para el entrenamiento, conversión a ONNX o TensorRT para despliegues on‑premise. Optimizaciones: cuantización INT8, poda y fusión de capas.
- Aceleración: GPU con soporte CUDA y cuDNN, alternativamente CPU con AVX2 y aceleradores NPU. El rendimiento depende de la resolución de entrada, el tamaño del lote y la complejidad de la red.
Parámetros clave y métricas para ANN en la anonimización
Parámetro | Definición | Importancia práctica | Fuente
|
|---|---|---|---|
IoU | Intersection over Union: área de intersección dividida por el área de la unión entre el cuadro de detección y el ground truth. | Determina el ajuste de la detección al objeto. Un umbral de evaluación típico es 0,5. | Pascal VOC |
Precisión | TP / (TP + FP) | Cuanto mayor es, menos áreas desenfocadas que no son rostros ni matrículas. | COCO, VOC |
Recall | TP / (TP + FN) | Crítico para la protección de la privacidad: minimiza los rostros omitidos. | COCO, VOC |
F1 | 2 × Precisión × Recall / (Precisión + Recall) | Métrica equilibrada para seleccionar el umbral de confianza. | COCO, VOC |
Precisión media (mAP) para un umbral IoU = 0,5 | Métrica clásica para la detección de objetos según la metodología VOC. | Pascal VOC | |
[email protected]:0.95 | mAP promedio para IoU de 0,5 a 0,95 en incrementos de 0,05 | Métrica exigente de COCO que refleja mejor la calidad global. | COCO |
Latencia | Tiempo de inferencia por fotograma [ms] | Importante para la fluidez del procesamiento de vídeo (incluido el procesamiento por lotes). | NIST AI RMF 2023 |
Rendimiento | Fotogramas por segundo [fps] | Planificación de la capacidad de cómputo on‑premise. | NIST AI RMF 2023 |
Umbral de confianza | Confianza mínima del modelo para reportar una detección | Umbral más alto: menos falsas alarmas, pero riesgo de perder recall. | COCO |
NMS IoU | Umbral IoU para la supresión no máxima | Control de la fusión de cuadros duplicados. | COCO |
Fuentes de las métricas: Pascal VOC (Everingham et al., 2010), COCO (Lin et al., 2014). El NIST AI RMF 1.0 (2023) recomienda la selección y el seguimiento de métricas relacionadas, entre otras, con el rendimiento y el riesgo a lo largo del ciclo de vida de los sistemas de IA.
Retos y limitaciones
- Cambio de dominio: caída del rendimiento fuera de la distribución de los datos de entrenamiento, por ejemplo, con cámaras, iluminación o condiciones meteorológicas diferentes.
- Oclusiones y desenfoque por movimiento: detecciones más difíciles, incluidos perfiles y rostros parciales.
- Sesgos en los datos: la falta de representación de determinados grupos puede provocar diferencias en el recall. Se requieren pruebas de equidad del rendimiento.
- Adversarialidad: patrones o reflejos atípicos pueden interferir con la detección.
- Requisitos legales: los modelos operan con datos personales en la etapa de entrada. Se requieren bases legales y el principio de minimización conforme al RGPD.
Ejemplos de uso en Gallio PRO
- Desenfoque automático de rostros y matrículas en imágenes y vídeos mediante detectores CNN. El software no desenfoca siluetas completas.
- Sin procesamiento en tiempo real: procesamiento por lotes de archivos, no de flujos.
- Modo manual en el editor para otros elementos, como logotipos, tatuajes, documentos o pantallas, sin detección automática de estas clases.
- Despliegue on‑premise: control del flujo de datos dentro de la organización y sin envío de datos a la nube. El sistema no almacena registros que contengan información sobre detecciones de rostros o matrículas.
Referencias normativas y fuentes
- ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. ISO, 2022.
- ISO/IEC 23053:2022 - Framework for AI systems using machine learning. ISO, 2022.
- Reglamento (UE) 2016/679 (RGPD) - considerando 26 y artículo 4, apartado 1. Diario Oficial de la UE, 2016.
- EDPB, Guidelines 3/2019 on processing of personal data through video devices, versión 2.0, 29.01.2020.
- Goodfellow, Bengio, Courville, Deep Learning, MIT Press, 2016.
- Everingham et al., The Pascal Visual Object Classes challenge, IJCV, 2010.
- Lin et al., Microsoft COCO, ECCV 2014.
- Redmon, Farhadi, YOLOv3, arXiv:1804.02767, 2018. Bochkovskiy et al., YOLOv4, arXiv:2004.10934, 2020.
- Deng et al., RetinaFace, arXiv:1905.00641, 2020.
- Ronneberger et al., U-Net, MICCAI 2015.
- NIST, AI Risk Management Framework 1.0, 2023.