Velocidad de fotogramas (FPS) y detección de rostros: definición
La velocidad de fotogramas (FPS), es decir, el número de fotogramas por segundo (frames per second), indica cuántas imágenes consecutivas se han grabado o procesado en un segundo de vídeo. En el contexto de la detección de rostros y la anonimización de vídeo, los FPS influyen directamente en la frecuencia con la que el algoritmo recibe nueva información sobre la posición del rostro a lo largo del tiempo. Cuanto mayor sea el FPS, menor será el intervalo temporal entre fotogramas y mayor la probabilidad de que el rostro se detecte en tomas consecutivas sin interrupciones.
En la práctica, esta relación no es lineal. Un FPS más alto no garantiza automáticamente una mayor eficacia de la anonimización. La precisión de la detección de rostros también depende de la resolución, la compresión, el desenfoque por movimiento, la iluminación, el ángulo del rostro, la calidad del modelo de IA y la forma en que se procesa el material. En los sistemas de anonimización de fotos y vídeos, los FPS son uno de los parámetros de entrada que influyen en el recall de la detección, la continuidad del seguimiento del objeto y el riesgo de omitir fotogramas individuales.
En aplicaciones conformes con el RGPD, el objetivo no es la estética del difuminado, sino reducir el riesgo de identificación de una persona. Por eso, el análisis de los FPS debe ir unido a la pregunta de si, en un vídeo determinado, el sistema detectará el rostro con suficiente antelación y estabilidad como para cubrirlo en todos los fotogramas relevantes.
¿Por qué son importantes los FPS en la anonimización de grabaciones de vídeo?
Un vídeo es una secuencia de imágenes. El detector de rostros analiza fotogramas individuales o fotogramas seleccionados según la estrategia de muestreo adoptada. Si el intervalo entre fotogramas es demasiado grande, un rostro que se mueve rápidamente puede aparecer solo en uno o dos fotogramas, o quedar parcialmente borroso. En ese caso, aumenta el riesgo de que el rostro no sea detectado y, por tanto, no sea difuminado.
En un material de 25 FPS, un fotograma dura aproximadamente 40 ms. En 10 FPS ya son 100 ms, y en 5 FPS llegan a 200 ms. En movimientos de cabeza, cambios de encuadre o cuando una persona atraviesa la escena, estas diferencias son técnicamente relevantes. En los sistemas basados en deep learning, el modelo de detección facial actúa sobre los fotogramas, mientras que la continuidad entre ellos puede apoyarse en el tracking. Sin embargo, si el rostro no se detecta correctamente en el fotograma inicial o desaparece en varios fotogramas consecutivos, el seguimiento también deja de ser fiable.
Por tanto, en la anonimización de grabaciones no se trata únicamente de la detección en sí, sino de mantener una cobertura estable del rostro a lo largo del tiempo. Es precisamente aquí donde los FPS influyen en el resultado operativo.
Parámetros y métricas clave para los FPS y la detección de rostros
La evaluación del impacto de los fotogramas por segundo debe basarse en métricas técnicas, y no en el FPS declarado del propio archivo. Lo importante es cuántos fotogramas se han analizado realmente, con qué eficacia y con qué porcentaje de omisiones.
- FPS del material de origen: número de fotogramas grabados en el vídeo, por ejemplo, 25, 30, 50 o 60 FPS.
- FPS de procesamiento: número de fotogramas analizados por el motor de detección por unidad de tiempo.
- Tasa de muestreo: si se analizan todos los fotogramas o, por ejemplo, uno de cada dos o uno de cada cinco.
- Recall: porcentaje de rostros reales detectados por el sistema.
- Precision: porcentaje de detecciones correctas entre todas las detecciones.
- False Negative Rate: proporción de rostros omitidos, crítica desde el punto de vista de la privacidad.
- Intersection over Union (IoU): medida de la coincidencia entre la posición del cuadro de detección y el objeto de referencia.
- Continuidad temporal: continuidad de la detección en fotogramas consecutivos.
- Latencia de procesamiento: retraso operativo, especialmente importante en el procesamiento en streaming o casi en tiempo real; en el procesamiento por lotes suele tener menos relevancia.
La relación temporal básica puede expresarse con una fórmula sencilla:
intervalo entre fotogramas [ms] = 1000 / FPS
Por ejemplo:
FPS | Intervalo entre fotogramas | Importancia para la detección de rostros
|
|---|---|---|
5 | 200 ms | Alto riesgo de omitir una exposición breve del rostro |
10 | 100 ms | Útil para escenas tranquilas y estáticas |
25 | 40 ms | Nivel habitual en videovigilancia y materiales documentales |
30 | 33,3 ms | Buen equilibrio entre fluidez y coste computacional |
50-60 | 20-16,7 ms | Mejor continuidad en movimientos rápidos, con mayores exigencias de cálculo |
Ajustes óptimos de FPS para distintos usos de anonimización
No existe un único valor de FPS óptimo para todos los casos. La elección depende de la dinámica de la escena, de la distancia entre la cámara y la persona, de la calidad de la óptica y del objetivo del procesamiento. Para el Delegado de Protección de Datos, es importante que los parámetros se configuren para reducir el riesgo de divulgación de la imagen, y no únicamente para aumentar la velocidad de trabajo.
Escenario | FPS recomendados del material | Observaciones prácticas
|
|---|---|---|
Grabaciones estáticas, poco movimiento | 10-15 FPS | Posible con buena calidad de imagen y pocos cambios en la posición del rostro |
Videovigilancia típica, accesos, recepciones, aparcamientos | 20-30 FPS | El compromiso más habitual entre eficacia y recursos |
Escenas con movimiento rápido, pasos, transporte, cámaras móviles | 30-60 FPS | Un FPS más alto reduce los huecos temporales y mejora el seguimiento |
Material muy comprimido o con desenfoque por movimiento | 30 FPS o más | Subir el FPS por sí solo no basta; también se necesita una exposición y un bitrate adecuados |
Si el material se analiza por lotes, pueden procesarse todos los fotogramas o aplicarse una detección periódica con mantenimiento de la máscara mediante un tracker. Este modelo puede ser eficiente, pero requiere validación sobre un conjunto de prueba concreto. En entornos de cumplimiento normativo, no debe asumirse la eficacia sin medir el recall y el porcentaje de fotogramas omitidos.
Tecnologías utilizadas en la detección de rostros y su relación con los FPS
La anonimización facial moderna suele basarse en modelos de aprendizaje profundo. El deep learning es necesario para entrenar un modelo de IA capaz de detectar rostros en distintas condiciones: con oclusión parcial, cambios de iluminación, rotación de la cabeza o baja calidad de imagen. Después, ese modelo se utiliza en el proceso de difuminar rostros o pixelar rostros automáticamente en fotos y vídeos.
Los enfoques técnicos más habituales son:
- detección independiente en cada fotograma: máxima precisión temporal, mayor coste computacional;
- detección cada N fotogramas y seguimiento entre ellos: menor coste, mayor riesgo de error ante movimientos bruscos;
- combinación de detección multiescala con tracking: adecuada para escenas en las que el rostro cambia de tamaño dentro del encuadre.
En la práctica, el FPS del archivo por sí solo no resuelve el problema si el modelo trabaja con una resolución de entrada demasiado baja o si la compresión provoca pérdida de detalle. Estándares de codificación como H.264/AVC (ITU-T H.264 | ISO/IEC 14496-10) y H.265/HEVC (ITU-T H.265 | ISO/IEC 23008-2) pueden introducir artefactos que afectan a la calidad de la detección, especialmente con bitrates bajos.
Retos y limitaciones de los FPS en la detección de rostros
Un mayor número de fotogramas por segundo mejora la densidad de observación, pero no elimina las limitaciones básicas de la imagen. Un rostro puede seguir sin detectarse incluso a 60 FPS si es demasiado pequeño, está oculto, sobreexpuesto o borroso por un tiempo de exposición excesivo.
Las limitaciones más comunes son:
- desenfoque por movimiento causado principalmente por el tiempo de exposición y no por un FPS bajo;
- baja resolución del rostro en píxeles;
- pérdida de detalle por compresión entre fotogramas;
- gran ángulo de inclinación del rostro y oclusión parcial;
- muestreo de solo una parte de los fotogramas para acelerar los cálculos.
Desde la perspectiva de la protección de la privacidad, lo más importante son los false negatives, es decir, los rostros omitidos. Son ellos los que generan el riesgo de divulgación de datos personales. Por eso, en materiales de riesgo elevado deben aplicarse ajustes de análisis conservadores y controles de calidad de los resultados.
Referencias normativas y documentales
En el ámbito de la anonimización de vídeo, los FPS no están regulados por una única norma jurídica, pero su elección influye en la eficacia de las medidas técnicas implantadas para la protección de datos. En este sentido, deben entenderse como un parámetro que ayuda a aplicar el principio de integridad y confidencialidad, así como el enfoque de privacy by design.
- Reglamento (UE) 2016/679 - RGPD, art. 5.1.f, art. 25, art. 32.
- ISO/IEC 2382 - terminología informática, incluidos conceptos relacionados con imagen y vídeo.
- ITU-T H.264 e ITU-T H.265 - estándares de compresión de vídeo que influyen en la calidad de los datos de entrada para la detección.
- NIST Face Recognition Vendor Test (FRVT), informes vigentes del National Institute of Standards and Technology - fuente comparativa sobre la eficacia de algoritmos faciales, con la salvedad de que las pruebas FRVT se refieren principalmente al reconocimiento y la verificación, y no a la anonimización completa.
En la práctica del cumplimiento normativo, debe documentarse no solo el modelo de detección utilizado, sino también los parámetros del material de entrada, incluidos los FPS, la resolución, el códec y los resultados de las pruebas de eficacia sobre una muestra de datos representativa.