¿Qué es la redacción de vídeo con IA?

Redacción de vídeo con IA: definición

La redacción de vídeo con IA es la edición automática de material audiovisual mediante modelos de inteligencia artificial, utilizada para detectar y ocultar de forma permanente determinados elementos de la imagen, sobre todo rostros y matrículas. En la práctica de la anonimización de fotos y grabaciones, esto significa un proceso en el que el sistema primero localiza los objetos que podrían permitir identificar a una persona y, a continuación, les aplica una máscara, un desenfoque u otro efecto que dificulta o impide la lectura de los datos visuales.

En el contexto de la protección de datos, no se trata de una mejora general de la imagen ni de una edición creativa. El objetivo es reducir el riesgo de identificación de una persona física mediante la eliminación o el ocultamiento de los identificadores visibles en el encuadre. En sistemas como Gallio PRO, la redacción automática se aplica a rostros y matrículas. Otros elementos, como logotipos, tatuajes, identificaciones nominales, documentos o el contenido visible en una pantalla, pueden requerir redacción manual en el editor.

Técnicamente, la redacción de vídeo con IA suele basarse en modelos de detección de objetos y seguimiento entre fotogramas. Hoy en día, el deep learning se utiliza con mayor frecuencia en la fase de creación del modelo de IA, ya que permite entrenar una red neuronal con grandes conjuntos de imágenes que contienen rostros y matrículas en diferentes condiciones. El modelo ya entrenado se emplea después para difuminar automáticamente las clases de objetos indicadas en el material de entrada.

¿Cómo funciona la redacción automática de vídeo con IA?

El proceso de redacción automática es secuencial y consta de varias etapas. Su correcta ejecución influye directamente en la eficacia de la anonimización y en el riesgo de dejar algún fotograma sin difuminar.

Un pipeline de procesamiento típico es el siguiente:

  1. decodificación del archivo de vídeo en una secuencia de fotogramas,
  2. detección de rostros y matrículas en fotogramas individuales,
  3. seguimiento de objetos a lo largo del tiempo para mantener la continuidad de la máscara entre fotogramas,
  4. interpolación de la posición del objeto si en algunos fotogramas la detección es más débil,
  5. aplicación de la máscara de redacción, normalmente mediante blur, pixelación u ocultación completa,
  6. renderizado final y exportación del archivo.

En la práctica, el detector por sí solo no es suficiente. Si el modelo detecta un rostro en 98 de cada 100 fotogramas, pero en 2 fotogramas el objeto desaparece de la máscara, existe riesgo de divulgación de datos. Por eso, los sistemas de anonimización de vídeo combinan detección, tracking y control de continuidad. Esta es la diferencia básica entre una herramienta de visión por computador convencional y una herramienta de redacción diseñada para cumplir los requisitos de privacidad.

Tecnologías utilizadas en la redacción de vídeo con IA

La redacción automática de vídeo utiliza métodos de visión por computador y aprendizaje automático. En los entornos de producción predominan las arquitecturas CNN, así como los modelos híbridos y basados en transformers más recientes para la detección de objetos. La elección del modelo depende del equilibrio entre precisión, tiempo de procesamiento y requisitos de hardware.

Los componentes más utilizados son:

  • detección de objetos: por ejemplo, modelos de una etapa y de dos etapas para localizar rostros y matrículas,
  • segmentación o bounding box: según si la máscara debe cubrir el contorno exacto o un área rectangular,
  • tracking multióbjeto: mantenimiento de la identificación del mismo objeto entre fotogramas,
  • post-processing: suavizado de trayectorias, ampliación de la máscara y reducción de falsos positivos,
  • renderizado de la redacción: aplicación de desenfoque, pixelación u ocultación completa.

En materiales de baja calidad, las condiciones de entrada son especialmente importantes: resolución, compresión, motion blur, ángulo de cámara e iluminación. Un modelo de IA no garantiza la detección de un objeto que sea demasiado pequeño, esté oculto o fuera de foco. Por este motivo, el sistema debe permitir una verificación manual tras el procesamiento.

Redacción de vídeo con IA frente a redacción manual

La redacción automática y la redacción manual resuelven el mismo problema, pero difieren en escala, coste y perfil de riesgo. En entornos organizativos suele aplicarse un modelo mixto: automatización para rostros y matrículas, y corrección manual para las excepciones.

Criterio

Redacción con IA

Redacción manual

 

Velocidad de trabajo

Alta con grandes volúmenes

Baja, dependiente del operador

Repetibilidad

Alta con los mismos parámetros

Variable

Gestión de excepciones

Limitada a las clases aprendidas por el modelo

Amplia

Riesgo de omisión

Depende del recall del modelo y de la calidad del material

Depende del cansancio y de la atención del operador

Escalabilidad

Alta

Baja

Gallio PRO no realiza anonimización en tiempo real ni anonimización de streaming de vídeo. Esta distinción técnica es importante. El procesamiento de archivos permite un control de calidad más preciso, una nueva verificación y la corrección manual antes de publicar o compartir el material.

Parámetros clave y métricas de la redacción de vídeo con IA

La evaluación de la eficacia del sistema no debería basarse únicamente en afirmaciones como “alta precisión”. Se necesitan indicadores medibles. En el ámbito de la redacción de vídeo, las métricas más importantes son las de detección y las operativas.

  • precision: porcentaje de detecciones correctas sobre el total de detecciones,
  • recall: porcentaje de objetos detectados sobre el total de objetos realmente presentes,
  • F1-score: media armónica de precision y recall,
  • false negative rate: porcentaje de objetos omitidos, crítico desde la perspectiva de la privacidad,
  • IoU - Intersection over Union: medida del solapamiento entre el área detectada y el área de referencia,
  • latency o throughput: tiempo de procesamiento del material o capacidad de procesamiento del sistema,
  • frame coverage continuity: continuidad de la máscara en fotogramas consecutivos.

De forma simplificada, el recall puede expresarse con la fórmula:

recall = TP / (TP + FN)

En la anonimización de vídeo, un recall alto suele ser más importante que una precision muy alta, porque omitir un rostro o una matrícula crea un riesgo directo de divulgación de datos. Al mismo tiempo, un enmascaramiento excesivo reduce la utilidad del material, por lo que el sistema debe mantener un equilibrio.

Garantías de eficacia y limitaciones

La redacción automática con IA no ofrece una garantía absoluta de detectar cada objeto en cualquier condición. Ese tipo de garantía sería técnicamente imposible de verificar. Lo que sí puede definirse son las condiciones de eficacia, los procedimientos de validación y el alcance funcional del sistema.

Es necesario tener en cuenta las siguientes limitaciones:

  • la eficacia disminuye con objetos pequeños, compresión intensa y poca iluminación,
  • la ocultación parcial de un rostro o una matrícula dificulta la detección,
  • el material con movimiento dinámico de cámara aumenta el riesgo de errores entre fotogramas,
  • el modelo no detectará automáticamente clases para las que no haya sido diseñado.

Por ello, una práctica adecuada incluye pruebas con una muestra de datos propios, revisión de calidad tras la redacción y posibilidad de corrección manual. En sistemas on-premise, una ventaja adicional es que los datos permanecen en la infraestructura propia, lo que limita la exposición del material al transferirlo a servicios externos.

Redacción de vídeo con IA en el contexto del RGPD y la protección de la privacidad

La imagen de una persona puede constituir un dato personal si permite su identificación directa o indirecta. Esta interpretación se deriva del artículo 4, punto 1, del RGPD, es decir, del Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo de 27 de abril de 2016. La mera aplicación de desenfoque no siempre implica una anonimización completa en el sentido del considerando 26 del RGPD. El resultado depende de si la identificación de la persona sigue siendo realmente posible.

En relación con los rostros, la obligación de protección también puede derivarse de normativas nacionales sobre derechos de la personalidad y difusión de la propia imagen, si bien existen excepciones relativas a personas de notoriedad pública, escenas públicas más amplias y situaciones en las que la persona ha recibido una remuneración pactada por posar.

En el caso de las matrículas, la situación jurídica en Polonia no es completamente uniforme. Parte de las directrices de las autoridades de protección de datos y la práctica europea se inclinan por su ocultación, mientras que en la jurisprudencia nacional también existe la postura de que las matrículas por sí solas no siempre constituyen un dato personal. En muchos países europeos, la práctica de difuminar matrículas es más restrictiva.

Referencias normativas y fuentes

Los siguientes actos y estándares establecen el marco interpretativo para la redacción automática de imágenes y vídeo. No son la especificación de un único producto, pero sí constituyen una base para evaluar el cumplimiento y el riesgo.

  • RGPD - Reglamento (UE) 2016/679, artículo 4, punto 1; artículo 5; artículo 25; considerando 26,
  • EDPB, Guidelines 4/2019 on Article 25 Data Protection by Design and by Default, versión adoptada el 20 de octubre de 2020,
  • ISO/IEC 23894:2023 - Information technology - Artificial intelligence - Guidance on risk management,
  • ISO/IEC 27001:2022 - Information security management systems - Requirements,
  • NIST AI RMF 1.0, 2023 - Artificial Intelligence Risk Management Framework.