¿Qué es YOLO (You Only Look Once)?

1) Definición (precisa y verificable)

YOLO es una familia de algoritmos de detección de objetos que formula la detección como un proceso de un solo paso (single-shot): el modelo predice cuadros delimitadores y probabilidades de clase directamente de la imagen completa en una sola evaluación, permitiendo operación en tiempo real.

La primera versión (YOLOv1) se introdujo en 2016; la configuración base alcanzó ~45 FPS, mientras que "Fast YOLO" llegó a ~155 FPS en GPUs de la época [Redmon et al., 2016].

Las versiones más recientes (YOLOv4-YOLOv10) amplían el equilibrio velocidad-precisión y modifican los flujos de entrenamiento y postprocesamiento (p. ej., YOLOv10 introduce detección de extremo a extremo sin NMS) [Bochkovskiy et al., 2020; Wang et al., 2024].

2) Relevancia en anonimización de imágenes y vídeos

En flujos de anonimización, los objetos sensibles (rostros, matrículas) deben detectarse antes de ser transformados (difuminados, pixelados, etc.). YOLO se utiliza frecuentemente como componente de detección debido a:

  • Baja latencia (inferencia fotograma por fotograma en tiempo real)
  • Escalabilidad a dispositivos edge (variantes de modelo ligeras)
  • Alto rendimiento en benchmark COCO (mAP@[.5:.95], la métrica estándar de la industria)

Nota legal: La anonimización efectiva bajo el RGPD Considerando 26 debe asegurar que los individuos ya no sean identificables, considerando tiempo, coste y tecnología. La precisión de detección, especialmente los falsos negativos, afecta directamente al riesgo residual de reidentificación.

La terminología técnica relevante se proporciona en ISO/IEC 20889:2018 (Clasificación de técnicas de desidentificación).

3) Métricas fundamentales y fórmulas

IoU (Intersección sobre Unión)

IoU(A,B) = |A ∩ B| / |A ∪ B|

Se utiliza para evaluar la superposición entre cuadros delimitadores predichos y de referencia.

AP y mAP (estándar COCO)

La Precisión Promedio (AP) es el área bajo la curva precisión-exhaustividad; COCO AP@[.5:.95] promedia AP a través de umbrales de IoU de 0.50 a 0.95 (paso 0.05).

mAP = (1/C) ∑ AP_c

Puntos de referencia de latencia y FPS

Modelo

Conjunto de datos

Hardware

Rendimiento

YOLOv1

VOC 2007

Titan X

~45 FPS (base), 155 FPS (Fast YOLO)

YOLOv4

COCO

Tesla V100

43,5% AP (COCO), ~65 FPS

YOLOv10

COCO

RTX 4090

hasta 46% menor latencia vs YOLOv9-C con precisión similar

4) Resumen de versiones

Versión

Año

Autores / Artículo

Características clave

Métricas reportadas*

YOLOv1

2016

Redmon et al.

Detector unificado de un solo paso

45/155 FPS

YOLOv4

2020

Bochkovskiy et al.

Backbone CSP, CIoU, Mosaic

43,5% AP (COCO), ~65 FPS

YOLOv7

2022

Wang et al.

"Bag-of-freebies entrenable"

Detector SOTA en tiempo real

YOLOv8

2023

Ultralytics

Arquitectura simplificada (det/seg/pose)

Alto mAP, pocos parámetros

YOLOv9

2024

WongKinYiu

Información de Gradiente Programable (PGI)

Precisión mejorada

YOLOv10

2024

Wang et al.

Detección extremo a extremo, sin NMS

Menor latencia, mayor eficiencia

YOLOv11

2024

Ultralytics

Ratio mAP-a-parámetros optimizado

~22% menos parámetros vs v8m

*Los valores dependen de la variante (n/s/m/l/x), resolución y configuración de hardware.

5) Arquitectura y flujo de procesamiento

  • Backbone - extracción de características (p. ej., CSPNet, ELAN).
  • Neck - fusión de características multi-escala (FPN/PAN).
  • Head - predice cuadros delimitadores, clases, confianza; las versiones más recientes integran detección sin post-NMS.
  • Postprocesamiento - Supresión No Máxima (NMS) tradicional o sin NMS en entrenamiento extremo a extremo (YOLOv10).

6) Integración en sistemas de anonimización

Objetivo: minimizar falsos negativos (detecciones omitidas de rostros/matrículas), aceptando falsos positivos moderados (regiones de difuminado adicionales).

Configuración operacional recomendada (vídeo 1080p, 25-30 FPS, GPU T4/A10):

  • Variante de modelo: s o m (equilibrio velocidad-precisión)
  • Resolución de entrada: 640-960 px en el lado más largo
  • Umbral de confianza: 0,2-0,35
  • Umbral de IoU (para NMS): 0,5-0,7
  • Seguimiento MOT: combinar con rastreador de múltiples objetos para asegurar estabilidad de máscara
  • Validación: medir Exhaustividad@IoU=0,5 para clases críticas (rostro, matrícula); objetivo operacional Exhaustividad ≥ 0,98

Riesgos y mitigaciones

Riesgo

Mitigación

Oclusión o poca luz

aumentar resolución de entrada, aplicar aumentos de brillo

Movimiento rápido / desenfoque

usar estabilización o mayor velocidad de obturación

Desajuste de dominio (objetos no-COCO)

aplicar aprendizaje por transferencia en datos de dominio personalizado

  • RGPD Considerando 26 - define el alcance de datos anónimos.
  • ISO/IEC 20889:2018 - taxonomía de métodos de desidentificación.
  • WP29/EDPB 05/2014 - directrices sobre límites de anonimización y riesgo residual.

7) Lista de verificación de pruebas de aceptación (para DPD o equipos de control de calidad)

Métrica

Requisito

Comentario

Exhaustividad (clases críticas)

≥ 0,98 @ IoU=0,5

prevenir subanonimización

Precisión

reportar conjuntamente con Exhaustividad

evitar difuminado excesivo

Latencia (p95)

≤ 40 ms/fotograma (edge) o 20 ms (GPU)

umbral de tiempo real

Estabilidad temporal

≥ 95% de fotogramas mantienen máscara consistente

evitar parpadeo

Robustez

pruebas en escenarios noche/lluvia/reflejos

cobertura de dominio

8) Resumen de atributos de implementación

Atributo

Descripción

Fuente

mAP@[.5:.95]

AP promediado para umbrales IoU 0,5-0,95

Métrica COCO (Lin et al., 2014)

FPS / latencia

Velocidad de procesamiento de fotogramas

YOLOv1: 45/155 FPS; YOLOv4: ~65 FPS

NMS vs E2E

Supresión No Máxima vs extremo a extremo

YOLOv10 - sin NMS

Tamaño del modelo

Parámetros y FLOPs

YOLOv11 - ~22% menos parámetros vs v8m

9) Referencias

  • Redmon J. et al., You Only Look Once: Unified, Real-Time Object Detection, arXiv:1506.02640 v5, 2016.
  • Bochkovskiy A., Wang C.Y., Liao H.Y.M., YOLOv4: Optimal Speed and Accuracy of Object Detection, 2020.
  • Wang C.Y. et al., YOLOv7: Trainable Bag-of-Freebies, 2022.
  • Ultralytics Documentation, YOLOv8 and YOLOv11 Model Zoo, 2023-2024.
  • WongKinYiu, YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information, 2024.
  • Wang A. et al., YOLOv10: Real-Time End-to-End Object Detection, 2024.
  • Lin T.Y. et al., Microsoft COCO: Common Objects in Context, 2014.
  • RGPD (UE 2016/679), Considerando 26 - Definición de datos anónimos.
  • ISO/IEC 20889:2018 - Terminología y clasificación de técnicas de desidentificación de mejora de la privacidad.
  • WP29 / EDPB, Opinion 05/2014 on Anonymisation Techniques.