Entrenamiento de modelos de IA con conjuntos de datos de fotos y vídeos: flujo de trabajo de anonimización y desenfoque facial

Mateusz Zimoch
Publicado: 2/12/2025
Actualizado: 10/3/2026

La anonimización de datos visuales consiste en transformar fotos y vídeos para que las personas físicas ya no sean identificables. En la práctica, esto suele implicar el desenfoque de rostros y el desenfoque de matrículas, combinados con la eliminación de metadatos y salvaguardas frente a la reidentificación. En el entrenamiento de modelos de IA, la anonimización permite utilizar conjuntos de datos ricos reduciendo el riesgo de datos personales y apoyando los principios de protección de datos desde el diseño y por defecto.

Un ordenador portátil sobre un escritorio blanco con un modelo 3D del cerebro en forma de estructura alámbrica en la pantalla, sobre un fondo gris neutro.

Contexto normativo para el entrenamiento de modelos con fotos y vídeos

Según el RGPD y el RGPD del Reino Unido, una foto o un vídeo constituyen datos personales si una persona puede ser identificada directa o indirectamente, incluso mediante la combinación de elementos como el entorno, la ropa o objetos únicos [1][2]. Si las personas son identificables, el entrenamiento de modelos requiere una base jurídica válida y debe respetar los principios de limitación de la finalidad, minimización de datos y limitación del plazo de conservación [1]. Los datos anonimizados quedan fuera del ámbito del RGPD únicamente si la identificación de una persona ya no es posible por ningún medio razonablemente probable, teniendo en cuenta la tecnología y los costes disponibles (Considerando 26) [1].

La Ley de IA de la UE introduce un marco de gobernanza a lo largo de todo el ciclo de vida de la IA. Incluye requisitos sobre gestión de riesgos, gobernanza de datos y documentación técnica para determinados sistemas de IA, y se coordina con la normativa europea de protección de datos existente en lugar de sustituirla. La anonimización y la redacción robusta pueden respaldar la minimización de datos y reducir riesgos como la memorización involuntaria o la inversión de modelos, pero no hacen automáticamente que un caso de uso sea conforme si las personas siguen siendo identificables [5].

Las autoridades de control destacan consideraciones especiales para imágenes procedentes de CCTV o espacios públicos, especialmente cuando se utilizan más allá de fines de seguridad, por ejemplo para analítica o publicación [2][3]. Las organizaciones suelen realizar una Evaluación de Impacto en la Protección de Datos (EIPD/DPIA) antes de una vigilancia a gran escala o sistemática de zonas de acceso público, o cuando una nueva tecnología puede aumentar los riesgos [1][3].

Foto en blanco y negro, en la que aparece un teléfono con una aplicación de chat IA abierta, tocando con el dedo, sobre el fondo de la pantalla con la misma aplicación

Cuándo la anonimización y el consentimiento pueden no ser necesarios

Aunque muchos escenarios de publicación y entrenamiento requieren una base jurídica o anonimización, existen tres excepciones ampliamente conocidas en la práctica de derechos de imagen. Son dependientes del contexto y varían según la jurisdicción. Las tres excepciones son:

  • La persona es ampliamente conocida (figura pública) y la imagen se tomó en relación con su función pública.
  • La persona aparece solo como parte de una escena más amplia, como una reunión, un paisaje o un evento público.
  • La persona fue remunerada por posar, salvo que haya declarado explícitamente que no consiente la distribución de su imagen.

Estas excepciones no eliminan las obligaciones de protección de datos cuando las personas siguen siendo identificables. A menudo se consideran en paralelo con pruebas de interés legítimo, exenciones por libertad de expresión y derechos de imagen locales. En el entrenamiento de IA, apoyarse en estas excepciones es menos predecible que la anonimización, ya que el entrenamiento suele implicar una reutilización más allá del contexto original de la captura.

Un ordenador portátil sobre un escritorio blanco con un modelo 3D del cerebro en forma de estructura alámbrica en la pantalla, sobre un fondo gris neutro.

Puntos de riesgo comunes en la anonimización de datos visuales

Riesgo de reidentificación. Incluso con rostros desenfocados, la combinación de ropa distintiva, tatuajes, puntos de referencia del lugar o marcas temporales puede hacer identificable a una persona. Las organizaciones suelen tratar el desenfoque como una capa dentro de una estrategia más amplia que puede incluir recorte, enmascaramiento o redacción del fondo en escenas de alto riesgo, guiadas por el estándar de medios razonables del Considerando 26 [1].

Identificadores en el fondo. Pizarras, pantallas, documentos dentro del encuadre y señalización de edificios pueden exponer nombres, correos electrónicos o direcciones. Las matrículas en el fondo son fáciles de pasar por alto sin detección multiescala.

Metadatos. Los datos EXIF pueden incluir coordenadas GPS, identificadores de dispositivo y fechas de captura. Eliminar o minimizar los metadatos antes de compartir o publicar reduce significativamente el riesgo de vinculación [2].

Errores de detección. Los detectores de rostros y matrículas generan falsos negativos y falsos positivos. Las detecciones omitidas exponen identidades; el exceso de desenfoque degrada la utilidad del conjunto de datos. La precisión depende en gran medida del contexto y varía según la iluminación, el ángulo, la oclusión y el tipo de cámara. La revisión humana sigue siendo una práctica habitual en publicaciones sensibles.

Gráfico en blanco y negro que muestra a un pequeño robot sosteniendo dos cuadrados con el logo de montañas y un globo de diálogo con la inscripción «prompt...GENERATE»

Flujo de trabajo práctico para el desenfoque de rostros y matrículas

  1. Definir la finalidad. Describir si las imágenes se publicarán, se usarán para analítica interna o se incluirán en el entrenamiento de modelos de IA. El uso determina la intensidad de la anonimización y los periodos de conservación.
  2. Seleccionar la base jurídica y controles de riesgo. Cuando las personas son identificables, las organizaciones evalúan la base jurídica adecuada (por ejemplo, interés legítimo cuando proceda, o consentimiento en algunos contextos) y deciden si es necesaria una EIPD [1][3]. En caso de duda, avanzar hacia una anonimización que cumpla el estándar del Considerando 26.
  3. Ingesta y clasificación de activos. Separar fotos y vídeos por escenario, tipo de cámara y sensibilidad de la ubicación. Registrar la procedencia y los derechos, incluidas las cesiones de imagen cuando existan.
  4. Elegir software on‑premise (cuando sea apropiado). El software on‑premise mantiene los conjuntos de datos dentro de la red de la organización y reduce el riesgo de transferencias externas. Puede admitir cifrado en reposo, acceso basado en identidad y registros de auditoría alineados con la responsabilidad y la protección de datos desde el diseño [1].
  5. Configurar detectores y umbrales. Utilizar modelos para rostros y matrículas. Calibrar el tamaño mínimo de rostro, los umbrales de confianza y la pre‑detección basada en movimiento para vídeo. En escenas concurridas, habilitar detección multiescala y resolución de máscaras superpuestas.
  6. Automatizar la redacción. Aplicar desenfoque facial y de matrículas. En contextos de alto riesgo, añadir enmascaramiento de cuerpo completo o del fondo. Usar kernels consistentes, niveles de pixelado o desenfoque gaussiano que impidan la reversión práctica por medios razonablemente probables.
  7. Revisión humana (human‑in‑the‑loop). Muestrear fotogramas, buscar detecciones omitidas y corregir con herramientas de anotación. Crear guías para casos límite recurrentes como reflejos, pósteres con rostros, pantallas con videollamadas y cascos espejados.
  8. Eliminar metadatos y preparar salidas. Quitar EXIF e identificadores de dispositivo. Exportar copias de publicación solo a la resolución necesaria. Para conjuntos de entrenamiento, mantener el mapeo entre originales y versiones anonimizadas solo si es imprescindible, almacenarlo por separado y restringir el acceso (por ejemplo, con controles de acceso basados en roles). Evitar la vinculabilidad directa cuando sea posible.
  9. Probar el riesgo de reidentificación. Intentar la vinculación mediante pistas contextuales y búsqueda inversa de imágenes cuando aplique. Registrar el riesgo residual y las acciones de mejora. Repetir en escenas y dispositivos diversos.
  10. Registrar, conservar y eliminar. Mantener registros de procesamiento y manifiestos de redacción al mínimo necesario para la responsabilidad. Definir la conservación según la finalidad. Eliminar originales no esenciales o moverlos a un archivo sellado con políticas de acceso estrictas.

Consideraciones sobre software on‑premise

El software on‑premise puede reducir la transferencia de datos personales a encargados externos y ayudar a gestionar la exposición al acceso desde terceros países, según la arquitectura y los proveedores. También facilita la auditabilidad, apoyando la responsabilidad del RGPD y alineándose con las expectativas de gobernanza del ciclo de vida de la Ley de IA de la UE para sistemas incluidos en su ámbito [1][5]. Descubre Gallio PRO para opciones de procesamiento on‑premise que encajan con este flujo de trabajo.

Interfaz futurista que muestra un generador de «texto a imagen» con botones de entrada y generación, e iconos relacionados con la IA sobre un fondo oscuro.

RGPD vs RGPD del Reino Unido para la publicación de fotos y vídeos

La siguiente tabla destaca puntos habituales de la práctica. No sustituye el análisis legal y debe leerse como orientación de alto nivel y dependiente del contexto basada en materiales públicos.

Tema

RGPD (UE)

RGPD del Reino Unido + Data Protection Act 2018

 

Imágenes como datos personales

Las fotos y los vídeos son datos personales si una persona es identificable directa o indirectamente [1].

Mismo enfoque. La guía de la ICO ofrece ejemplos prácticos para fotos y CCTV [2][3].

Base jurídica para publicar

A menudo interés legítimo para algunas publicaciones operativas, sujeto a prueba de ponderación y contexto. El consentimiento se usa con frecuencia en escenarios como retratos de marketing en primer plano. Dependiente del contexto.

Igual. La ICO enfatiza la transparencia, las expectativas razonables y el derecho de oposición cuando proceda [2].

Indicadores de EIPD

La vigilancia sistemática a gran escala de zonas accesibles al público o nuevas tecnologías que aumenten el riesgo suelen activar una EIPD [1].

La guía de la ICO indica que la vigilancia sistemática y el uso de nuevas tecnologías probablemente requieran una EIPD según la escala y el riesgo [3].

Estándar de anonimización

Anonimizado si la identificación ya no es razonablemente probable dadas los medios y costes (Considerando 26) [1].

Mismo estándar en el RGPD del Reino Unido. La ICO aborda la anonimización robusta y la gestión del riesgo residual [2].

Exenciones por libertad de expresión

Se aplican normas de los Estados miembros para fines periodísticos y de expresión académica/artística/literaria. Muy contextual.

La DPA 2018 prevé exenciones, incluida la de periodismo y la de investigación/estadística bajo condiciones específicas. Muy contextual [4].

Los equipos que planifican publicaciones periódicas o el intercambio de conjuntos de datos pueden operacionalizar estos puntos mediante plantillas de EIPD, perfiles de redacción y procedimientos de publicación. Descarga una demo para probar cómo funciona en un entorno on‑premise.

Imagen en blanco y negro que muestra una pantalla con el texto y el logo de «OpenAI»

Aseguramiento de la calidad para conjuntos de datos anonimizados

El aseguramiento de la calidad debe centrarse en la cobertura medible y las tasas de error. Crear muestras de verdad‑terreno con anotaciones manuales. Comparar el desenfoque automático de rostros y matrículas frente a la verdad‑terreno para estimar falsos negativos y falsos positivos. Seguir el rendimiento por escenario, como grabaciones nocturnas, cascos, mascarillas y cámaras ojo de pez. Informar resultados como métricas dependientes del contexto, no como afirmaciones universales de precisión. Para publicación, aplicar umbrales más estrictos y comprobaciones manuales. Para entrenamiento de modelos, equilibrar la intensidad de la anonimización con la utilidad, suprimiendo atributos de alto riesgo y conservando características no identificativas relevantes para la tarea del modelo.

Las organizaciones que quieran poner en práctica este flujo de trabajo pueden alinearlo con la política interna y la diligencia debida de proveedores. Contacta con nosotros para hablar sobre controles de procesamiento on‑premise, acceso basado en roles y registros de auditoría.

Un signo de interrogación blanco pintado con spray en una carretera asfaltada

FAQ: Entrenamiento de modelos de IA con conjuntos de datos de fotos y vídeos

¿El desenfoque facial por sí solo hace anónimo un conjunto de datos según el RGPD?

No siempre. Si una persona sigue siendo identificable por medios razonablemente probables, como ropa distintiva o pistas de ubicación, el conjunto de datos sigue conteniendo datos personales. Puede requerirse una combinación de desenfoque facial, desenfoque de matrículas, redacción del fondo y eliminación de metadatos según el contexto y el riesgo [1][2].

¿Cuándo debe aplicarse el desenfoque de matrículas?

Aplicarlo siempre que los vehículos aparezcan de forma que puedan identificar a un conductor o propietario, o vincularse a una persona (por ejemplo, cuando las matrículas son legibles y conectables en contexto). Es común en escenas urbanas, aparcamientos y entradas de edificios. En el entrenamiento de modelos, habilitar la detección de matrículas a múltiples escalas para gestionar vehículos lejanos.

¿Es aceptable el procesamiento en la nube para el desenfoque?

Depende del riesgo, la arquitectura y los contratos. El software on‑premise puede reducir transferencias externas y ofrecer mayor control sobre el acceso y la conservación. Si se usa la nube, implementar medidas de seguridad adecuadas y asegurar un acuerdo responsable‑encargado conforme, incluidos los requisitos para transferencias internacionales bajo el RGPD/RGPD del Reino Unido.

¿Cómo deben gestionar las organizaciones los metadatos?

Eliminar coordenadas GPS e identificadores de dispositivo de las copias de publicación. Para cumplimiento interno, conservar solo los registros técnicos mínimos necesarios para la responsabilidad y la resolución de incidencias, y evitar almacenar metadatos innecesarios que permitan la reidentificación. La guía de la ICO trata el manejo cuidadoso de imágenes y la información asociada [2].

¿Qué nivel de desenfoque es suficiente?

No existe un nivel universal. Elegir pixelado o desenfoque gaussiano que impida la identificación práctica y sea robusto frente a mejoras razonablemente probables. Probar en distintas condiciones de iluminación, ángulos y movimiento. La intensidad suele ser mayor para la publicación pública que para la analítica interna.

¿Cómo afecta la Ley de IA de la UE a los conjuntos de datos visuales?

Refuerza las expectativas de gobernanza del ciclo de vida (para sistemas dentro de su ámbito), incluidos requisitos de gestión de riesgos y gobernanza de datos, y opera junto con la normativa de protección de datos existente. La anonimización y la minimización ayudan a reducir riesgos de datos personales, pero no eliminan las obligaciones del RGPD si las personas siguen siendo identificables [5].

¿Es seguro basarse en las tres excepciones para el entrenamiento de IA?

Son dependientes del contexto y suelen relacionarse con la publicación de imágenes/derechos de imagen, no con la reutilización amplia para entrenamiento. Para conjuntos de entrenamiento, la anonimización (u otra base jurídica claramente aplicable con salvaguardas adecuadas) suele ofrecer resultados de cumplimiento más predecibles.

Lista de referencias

  1. [1] Reglamento (UE) 2016/679 (Reglamento General de Protección de Datos), en particular el Considerando 26 y los artículos 4, 5, 25 y 35.
  2. [2] ICO, Guía del RGPD del Reino Unido - ¿Qué son los datos personales? ¿Y las fotografías y los vídeos? https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/personal-information-what-is-it/what-is-personal-data/
  3. [3] ICO, Guía sobre videovigilancia (incluido CCTV). https://ico.org.uk/for-organisations/guide-to-data-protection/ico-codes-of-practice/video-surveillance-cctv/
  4. [4] Data Protection Act 2018 (Reino Unido), exenciones relevantes, incluida la de periodismo y la de investigación/estadística (se aplican condiciones dependientes del contexto).
  5. [5] Comisión Europea, página de política y legislación de la Ley de Inteligencia Artificial (AI Act). https://digital-strategy.ec.europa.eu/en/policies/european-approach-artificial-intelligence