1) Definición (precisa y verificable)
YOLO es una familia de algoritmos de detección de objetos que formula la detección como un proceso de un solo paso (single-shot): el modelo predice cuadros delimitadores y probabilidades de clase directamente de la imagen completa en una sola evaluación, permitiendo operación en tiempo real.
La primera versión (YOLOv1) se introdujo en 2016; la configuración base alcanzó ~45 FPS, mientras que "Fast YOLO" llegó a ~155 FPS en GPUs de la época [Redmon et al., 2016].
Las versiones más recientes (YOLOv4-YOLOv10) amplían el equilibrio velocidad-precisión y modifican los flujos de entrenamiento y postprocesamiento (p. ej., YOLOv10 introduce detección de extremo a extremo sin NMS) [Bochkovskiy et al., 2020; Wang et al., 2024].
2) Relevancia en anonimización de imágenes y vídeos
En flujos de anonimización, los objetos sensibles (rostros, matrículas) deben detectarse antes de ser transformados (difuminados, pixelados, etc.). YOLO se utiliza frecuentemente como componente de detección debido a:
- Baja latencia (inferencia fotograma por fotograma en tiempo real)
- Escalabilidad a dispositivos edge (variantes de modelo ligeras)
- Alto rendimiento en benchmark COCO (mAP@[.5:.95], la métrica estándar de la industria)
Nota legal: La anonimización efectiva bajo el RGPD Considerando 26 debe asegurar que los individuos ya no sean identificables, considerando tiempo, coste y tecnología. La precisión de detección, especialmente los falsos negativos, afecta directamente al riesgo residual de reidentificación.
La terminología técnica relevante se proporciona en ISO/IEC 20889:2018 (Clasificación de técnicas de desidentificación).
3) Métricas fundamentales y fórmulas
IoU (Intersección sobre Unión)
IoU(A,B) = |A ∩ B| / |A ∪ B|
Se utiliza para evaluar la superposición entre cuadros delimitadores predichos y de referencia.
AP y mAP (estándar COCO)
La Precisión Promedio (AP) es el área bajo la curva precisión-exhaustividad; COCO AP@[.5:.95] promedia AP a través de umbrales de IoU de 0.50 a 0.95 (paso 0.05).
mAP = (1/C) ∑ AP_c
Puntos de referencia de latencia y FPS
Modelo | Conjunto de datos | Hardware | Rendimiento |
|---|---|---|---|
YOLOv1 | VOC 2007 | Titan X | ~45 FPS (base), 155 FPS (Fast YOLO) |
YOLOv4 | COCO | Tesla V100 | 43,5% AP (COCO), ~65 FPS |
YOLOv10 | COCO | RTX 4090 | hasta 46% menor latencia vs YOLOv9-C con precisión similar |
4) Resumen de versiones
Versión | Año | Autores / Artículo | Características clave | Métricas reportadas* |
|---|---|---|---|---|
YOLOv1 | 2016 | Redmon et al. | Detector unificado de un solo paso | 45/155 FPS |
YOLOv4 | 2020 | Bochkovskiy et al. | Backbone CSP, CIoU, Mosaic | 43,5% AP (COCO), ~65 FPS |
YOLOv7 | 2022 | Wang et al. | "Bag-of-freebies entrenable" | Detector SOTA en tiempo real |
YOLOv8 | 2023 | Ultralytics | Arquitectura simplificada (det/seg/pose) | Alto mAP, pocos parámetros |
YOLOv9 | 2024 | WongKinYiu | Información de Gradiente Programable (PGI) | Precisión mejorada |
YOLOv10 | 2024 | Wang et al. | Detección extremo a extremo, sin NMS | Menor latencia, mayor eficiencia |
YOLOv11 | 2024 | Ultralytics | Ratio mAP-a-parámetros optimizado | ~22% menos parámetros vs v8m |
*Los valores dependen de la variante (n/s/m/l/x), resolución y configuración de hardware.
5) Arquitectura y flujo de procesamiento
- Backbone - extracción de características (p. ej., CSPNet, ELAN).
- Neck - fusión de características multi-escala (FPN/PAN).
- Head - predice cuadros delimitadores, clases, confianza; las versiones más recientes integran detección sin post-NMS.
- Postprocesamiento - Supresión No Máxima (NMS) tradicional o sin NMS en entrenamiento extremo a extremo (YOLOv10).
6) Integración en sistemas de anonimización
Objetivo: minimizar falsos negativos (detecciones omitidas de rostros/matrículas), aceptando falsos positivos moderados (regiones de difuminado adicionales).
Configuración operacional recomendada (vídeo 1080p, 25-30 FPS, GPU T4/A10):
- Variante de modelo: s o m (equilibrio velocidad-precisión)
- Resolución de entrada: 640-960 px en el lado más largo
- Umbral de confianza: 0,2-0,35
- Umbral de IoU (para NMS): 0,5-0,7
- Seguimiento MOT: combinar con rastreador de múltiples objetos para asegurar estabilidad de máscara
- Validación: medir Exhaustividad@IoU=0,5 para clases críticas (rostro, matrícula); objetivo operacional Exhaustividad ≥ 0,98
Riesgos y mitigaciones
Riesgo | Mitigación |
|---|---|
Oclusión o poca luz | aumentar resolución de entrada, aplicar aumentos de brillo |
Movimiento rápido / desenfoque | usar estabilización o mayor velocidad de obturación |
Desajuste de dominio (objetos no-COCO) | aplicar aprendizaje por transferencia en datos de dominio personalizado |
Contexto legal / estándar
- RGPD Considerando 26 - define el alcance de datos anónimos.
- ISO/IEC 20889:2018 - taxonomía de métodos de desidentificación.
- WP29/EDPB 05/2014 - directrices sobre límites de anonimización y riesgo residual.
7) Lista de verificación de pruebas de aceptación (para DPD o equipos de control de calidad)
Métrica | Requisito | Comentario |
|---|---|---|
Exhaustividad (clases críticas) | ≥ 0,98 @ IoU=0,5 | prevenir subanonimización |
Precisión | reportar conjuntamente con Exhaustividad | evitar difuminado excesivo |
Latencia (p95) | ≤ 40 ms/fotograma (edge) o 20 ms (GPU) | umbral de tiempo real |
Estabilidad temporal | ≥ 95% de fotogramas mantienen máscara consistente | evitar parpadeo |
Robustez | pruebas en escenarios noche/lluvia/reflejos | cobertura de dominio |
8) Resumen de atributos de implementación
Atributo | Descripción | Fuente |
|---|---|---|
mAP@[.5:.95] | AP promediado para umbrales IoU 0,5-0,95 | Métrica COCO (Lin et al., 2014) |
FPS / latencia | Velocidad de procesamiento de fotogramas | YOLOv1: 45/155 FPS; YOLOv4: ~65 FPS |
NMS vs E2E | Supresión No Máxima vs extremo a extremo | YOLOv10 - sin NMS |
Tamaño del modelo | Parámetros y FLOPs | YOLOv11 - ~22% menos parámetros vs v8m |
9) Referencias
- Redmon J. et al., You Only Look Once: Unified, Real-Time Object Detection, arXiv:1506.02640 v5, 2016.
- Bochkovskiy A., Wang C.Y., Liao H.Y.M., YOLOv4: Optimal Speed and Accuracy of Object Detection, 2020.
- Wang C.Y. et al., YOLOv7: Trainable Bag-of-Freebies, 2022.
- Ultralytics Documentation, YOLOv8 and YOLOv11 Model Zoo, 2023-2024.
- WongKinYiu, YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information, 2024.
- Wang A. et al., YOLOv10: Real-Time End-to-End Object Detection, 2024.
- Lin T.Y. et al., Microsoft COCO: Common Objects in Context, 2014.
- RGPD (UE 2016/679), Considerando 26 - Definición de datos anónimos.
- ISO/IEC 20889:2018 - Terminología y clasificación de técnicas de desidentificación de mejora de la privacidad.
- WP29 / EDPB, Opinion 05/2014 on Anonymisation Techniques.