¿Qué es el Video Frame Sampling?

Video Frame Sampling - definición

Video Frame Sampling, conocido en español como muestreo de fotogramas de vídeo, es la selección controlada de un subconjunto de fotogramas de una secuencia de vídeo con el fin de reducir el coste computacional, el volumen de datos o adaptar el procesamiento a los requisitos de una tarea concreta. En la práctica, consiste en elegir cada n‑ésimo fotograma, fotogramas clave, fotogramas en cambios de escena o fotogramas según una regla adaptativa. Este concepto se diferencia de la conversión de fotogramas por segundo (cambio de fps), ya que se refiere a la selección de fotogramas para el análisis y no implica necesariamente la recodificación de todo el flujo de vídeo.

En el contexto de la anonimización de imágenes y grabaciones de vídeo, el Video Frame Sampling define cuántos y qué fotogramas son analizados por los algoritmos de detección de rostros y matrículas, seguimiento y operaciones de enmascarado. La elección de la estrategia y de la densidad de muestreo influye directamente en la integridad del desenfoque, así como en los costes computacionales y el tiempo de procesamiento. Las frecuencias de fotogramas más habituales incluyen, entre otras, 25 y 29,97 fps. Por ello, el muestreo debe tener en cuenta la dinámica de la escena, el fps real del material y los requisitos de cumplimiento del RGPD.

El papel del Video Frame Sampling en la anonimización

La anonimización de rostros y matrículas requiere detectar todas las apariciones del objeto en el material. Un muestreo demasiado poco frecuente puede omitir exposiciones breves, giros rápidos de la cabeza u objetos visibles solo en parte de los fotogramas. Un muestreo excesivamente denso incrementa el coste y el tiempo de cálculo sin una mejora significativa de la eficacia en determinados escenarios.

En la práctica, se combina la detección en fotogramas seleccionados con el seguimiento entre fotogramas, de modo que las máscaras se interpolan en los fotogramas que no se someten a detección completa. El seguimiento (por ejemplo, SORT, DeepSORT) permite reducir el número de llamadas al detector manteniendo la continuidad del desenfoque de los objetos entre muestras. La obligación de aplicar medidas técnicas y organizativas adecuadas se deriva del RGPD (artículos 5 y 32) y de las recomendaciones del EDPB sobre el tratamiento de datos procedentes de dispositivos de vídeo, que subrayan la necesidad de limitar la identificabilidad de las personas (fuente: EDPB, Directrices 3/2019, versión 2.1, 20.01.2022).

Tecnologías y estrategias de muestreo

La elección de la estrategia de muestreo depende del tipo de material, del códec y de la eficacia de detección deseada. A continuación se presentan los enfoques más utilizados junto con sus implicaciones para la anonimización.

Estrategia

Descripción

Aplicación en la anonimización

Riesgo de pérdida de detección

Complejidad computacional

 

Uniforme cada n fotogramas

Paso temporal constante, p. ej. cada 2 o cada 5 fotogramas

Control sencillo de costes, comportamiento predecible

Media: posible omisión de exposiciones breves

Baja

Muestreo por fotogramas clave

Análisis de I‑frames del GOP según H.264/H.265

Eficiente para materiales con GOP regular

Media a alta con GOP largos

Baja a media

Detección de cambios de escena

Selección del fotograma en cambios bruscos de contenido

Enfoque en los momentos de mayor variabilidad

Menor en escenas dinámicas, mayor en escenas uniformes

Media

Adaptativo basado en movimiento

Muestreo más denso con mucho movimiento, más espaciado en escenas estáticas

Buen equilibrio entre coste y cobertura de eventos

Bajo a medio

Media

Keyframe + seguimiento

Detección en fotogramas base e interpolación de máscaras mediante seguimiento

Común en detección de vídeo, eficaz para anonimización

Bajo con seguimiento estable

Media

A nivel de códecs, las estructuras GOP y los fotogramas I/P/B se describen en ITU‑T H.264 | ISO/IEC 14496‑10 (AVC) e ISO/IEC 23008‑2 (HEVC). El uso de fotogramas I como muestras es una práctica de ingeniería que puede reducir el coste de decodificación y análisis frente al procesamiento de cada fotograma, aunque en muchas aplicaciones la secuencia (o parte de ella) se decodifica igualmente según las herramientas y el formato.

Parámetros y métricas clave en la anonimización

La evaluación de la eficacia del muestreo debe combinar parámetros temporales con métricas de detección y cumplimiento normativo. A continuación se recogen los atributos más relevantes.

Parámetro / métrica

Descripción y relevancia

 

Stride k

Paso fijo de muestreo en fotogramas. Cuanto mayor es k, menor es el coste y mayor el riesgo de omisiones.

fps efectivo f_eff

f_eff = f_src / k, donde f_src es el fps original. Determina la densidad temporal del enmascarado.

Intervalo temporal máximo

Δt_max ≈ 1 / f_eff. Límite superior aproximado entre dos fotogramas analizados (en muestreo uniforme); en la práctica no debería haber ausencia de máscara si se propaga mediante seguimiento.

Recall_video

Porcentaje de todas las apariciones de rostros o matrículas en todo el vídeo que han sido enmascaradas. Crítico para el cumplimiento.

Precision_video

Porcentaje de máscaras aplicadas que corresponden a objetos reales. Influye en la calidad visual tras el procesamiento.

F1_video

Media armónica de precision y recall. Permite comparar variantes de muestreo.

Latencia de procesamiento

Tiempo desde el inicio hasta la finalización de la anonimización. Relevante en el procesamiento por lotes. Gallio PRO no realiza anonimización en tiempo real.

En la práctica, el muestreo se combina con detectores basados en CNN y con seguimiento entre fotogramas, como se demuestra en trabajos sobre detección de objetos en vídeo con agregación temporal (FGFA) y en el seguimiento DeepSORT. Reducir las llamadas al detector manteniendo la continuidad de los resultados es clave para optimizar costes y cobertura de eventos.

Retos y limitaciones

La selección del muestreo está condicionada por las limitaciones técnicas del material y por los requisitos legales. Las omisiones son más frecuentes con desenfoque de movimiento, baja exposición, rolling shutter y en vídeos con alta intensidad de movimiento.

  • Riesgo de cumplimiento: cada omisión de un rostro o matrícula reduce la eficacia de la anonimización. El EDPB subraya la necesidad de aplicar medidas técnicas y organizativas adecuadas que limiten la identificabilidad de las personas en los materiales publicados (fuente: EDPB 3/2019).
  • Estructura GOP: los GOP largos en H.264/H.265 dificultan un muestreo eficaz basado únicamente en fotogramas I.
  • Variedad de fps: los fps estándar definidos, entre otros, por ITU‑R y SMPTE requieren adaptar los parámetros de muestreo al material de origen para limitar Δt_max.
  • Modelos de IA: la eficacia depende de detectores de rostros y matrículas correctamente entrenados. Las redes profundas entrenadas con datos representativos son esenciales para el desenfoque automático.

Ejemplos de uso y práctica de implementación

En el procesamiento por lotes on‑premise se utiliza habitualmente la estrategia keyframe + seguimiento: detección en fotogramas base, propagación de máscaras a través de las trayectorias y, finalmente, un muestreo de refuerzo en segmentos con alta incertidumbre. Este enfoque reduce costes manteniendo una alta cobertura de anonimización.

  • Gallio PRO desenfoca automáticamente rostros y matrículas. No admite la detección automática de logotipos, tatuajes, documentos ni contenido de pantallas; estos elementos pueden enmascararse manualmente en el editor.
  • Gallio PRO no realiza anonimización en tiempo real ni para transmisiones en directo. El muestreo se aplica al procesamiento offline de archivos de vídeo e imágenes.
  • Gallio PRO funciona on‑premise y no almacena registros que contengan resultados de detección de rostros o matrículas.
  • En la UE suele recomendarse el enmascarado de matrículas al publicar material audiovisual, según el contexto y la base legal. La práctica y la interpretación de las autoridades de control varían entre países. En Polonia, las interpretaciones pueden ser ambiguas, aunque las directrices de la UODO y del EDPB apuntan a la minimización de datos.

Referencias normativas y fuentes

A continuación se indican estándares y publicaciones técnicas relacionadas con el muestreo de fotogramas, los códecs y el cumplimiento del RGPD.

  • ITU‑R BT.709‑6 - Parameter values for the HDTV standards for production and international programme exchange, 2015. https://www.itu.int/rec/R-REC-BT.709
  • ITU‑T H.264 | ISO/IEC 14496‑10 - Advanced Video Coding, versión 2019. https://www.itu.int/rec/T-REC-H.264 y https://www.iso.org/standard/76682.html
  • ISO/IEC 23008‑2:2020 - High efficiency coding and media delivery in heterogeneous environments - Part 2: HEVC. https://www.iso.org/standard/79388.html
  • IEC 62676‑4:2014 - Video surveillance systems for use in security applications - Part 4: Application guidelines. https://webstore.iec.ch/publication/6027
  • EDPB, Directrices 3/2019 sobre el tratamiento de datos personales mediante dispositivos de vídeo, versión 2.1 del 20.01.2022. https://edpb.europa.eu
  • X. Zhu et al., Flow‑Guided Feature Aggregation for Video Object Detection, ICCV 2017. https://openaccess.thecvf.com/content_iccv_2017/html/Zhu_Flow-Guided_Feature_Aggregation_ICCV_2017_paper.html
  • N. Wojke et al., Simple Online and Realtime Tracking with a Deep Association Metric (DeepSORT), 2017. https://arxiv.org/abs/1703.07402