¿Qué es la generación de datos sintéticos (SDG)?

Generación de datos sintéticos (SDG) - definición

La generación de datos sintéticos (Synthetic Data Generation, SDG) es un proceso controlado de creación de datos artificiales que conservan las propiedades estadísticas o estructurales clave de los datos originales, pero que no constituyen copias de estos. Desde un punto de vista normativo, los datos sintéticos son datos generados artificialmente y no obtenidos directamente de la observación de fenómenos o personas (ISO/IEC 22989:2022). La SDG puede aplicarse a imágenes, vídeo, audio y datos tabulares.

En el contexto de la anonimización de imágenes y vídeo, la SDG se utiliza principalmente con dos fines. En primer lugar, para crear conjuntos de datos de entrenamiento y validación para modelos de detección y difuminado de rostros y matrículas. En segundo lugar, para sustituir fragmentos de imagen por texturas o rostros sintéticos con una similitud biométrica baja (idealmente cercana a cero), lo que reduce el riesgo de reidentificación. La mera generación de datos sintéticos no implica automáticamente su anonimización en el sentido del RGPD. Para que los datos se consideren anónimos, la identificación de una persona debe ser prácticamente imposible mediante medios razonables, de acuerdo con el considerando 26 del RGPD y la Opinión 05/2014 del GT29.

El papel de la SDG en la anonimización de imágenes y vídeo

En la práctica, la SDG es un eslabón dentro de una cadena de procesamiento que incluye la detección, la segmentación y el enmascaramiento de los elementos que requieren protección. Al crear rostros y matrículas sintéticas, los equipos pueden entrenar y probar detectores de acuerdo con el principio de minimización de datos, sin necesidad de distribuir ampliamente datos reales. Esto es especialmente relevante en entornos on‑premise y en escenarios con requisitos elevados de seguridad de la información.

La SDG también ayuda a aumentar la diversidad de las condiciones de captura de imágenes: iluminación, ángulos, oclusiones, tipos de matrículas y sus artefactos. Gracias a ello, los modelos de difuminado de rostros y matrículas alcanzan una mayor sensibilidad en escenas concurridas, con desenfoque por movimiento y baja resolución. Desde la perspectiva del delegado de protección de datos (DPO), la SDG es una herramienta que apoya el cumplimiento normativo, ya que mejora la eficacia de las técnicas de anonimización, aunque no sustituye a la evaluación de riesgos ni a las pruebas de resistencia frente a la reidentificación.

Tecnologías de SDG utilizadas en la anonimización

Para generar imágenes y secuencias de vídeo sintéticas se emplean modelos generativos especializados. En los flujos de trabajo de anonimización también son relevantes los modelos de detección y verificación de identidad, que evalúan el riesgo de divulgación de información en los resultados sintéticos.

  • Modelos generativos: modelos de difusión de imágenes, GAN y VAE, utilizados para crear rostros, matrículas y texturas de fondo (Heusel et al., 2017; trabajos sobre difusión desde 2020 en adelante).
  • Modelos de detección: YOLO, RetinaFace, EfficientDet, para localizar rostros y matrículas tanto en el material original como en los datos sintéticos destinados al entrenamiento.
  • Modelos de verificación biométrica: por ejemplo ArcFace, para medir la similitud entre un rostro sintético y uno real y supervisar el riesgo de una similitud excesiva.
  • Privacidad en el aprendizaje: DP‑SGD y técnicas para limitar la memorización de ejemplos, con el fin de reducir el riesgo de reconstrucción de los datos de entrenamiento por parte del generador (Abadi et al., 2016; Carlini et al., 2023).

Parámetros y métricas clave de la SDG en la anonimización

La evaluación de la eficacia de la SDG debe equilibrar la utilidad para los modelos de difuminado y el riesgo para la privacidad. En la siguiente tabla se recopilan métricas comúnmente utilizadas en imagen y anonimización, junto con su interpretación y fuentes.

Categoría

Métrica

Descripción

Interpretación

 

Utilidad para la detección

mAP@IoU

Precisión media a un umbral de IoU determinado, medida en un modelo de detección entrenado con datos sintéticos

Cuanto más alta, mejor: indica si la SDG mejora la detección de rostros y matrículas

Calidad generativa

FID

Fréchet Inception Distance: convergencia de las distribuciones de características entre el conjunto real y el sintético

Cuanto menor, mejor: un FID bajo indica mayor fidelidad (Heusel et al., 2017)

Diversidad

Precision‑Recall para modelos generativos

Métrica que equilibra la precisión y la cobertura de los modos de los datos

Alta precisión y alto recall: ausencia de modos espurios y de colapso de modos (Kynkäänniemi et al., 2019)

Riesgo de memorización

Membership inference AUC

Capacidad de un ataque para distinguir si una muestra formó parte del entrenamiento del generador

AUC bajo, cercano a 0,5: menor riesgo de fuga de información (literatura sobre MIA; herramientas del NIST para datos sintéticos)

Riesgo biométrico

Match rate

Porcentaje de coincidencias entre rostros sintéticos y reales según un clasificador biométrico

Baja tasa de coincidencia: los datos sintéticos no se asemejan a personas concretas

Calidad del enmascaramiento

SSIM / PSNR en la zona enmascarada

Coherencia estructural y nivel de ruido respecto al efecto de redacción deseado

Alineado con la política: ausencia de artefactos que faciliten la identificación

Rendimiento

Tiempo de generación, número de pasos

Latencia y complejidad computacional, por ejemplo el número de pasos en modelos de difusión

Adecuado para procesamiento por lotes on‑premise: sin requisito de tiempo real

Retos y limitaciones de la SDG

La implementación de la SDG en la protección de la privacidad exige tener en cuenta riesgos técnicos y legales. A continuación se enumeran los aspectos más relevantes para los DPO y los equipos técnicos.

  • Ausencia de anonimato automático: los datos sintéticos pueden revelar información si el modelo memoriza muestras de entrenamiento o reproduce combinaciones raras de características. La literatura documenta la extracción de fragmentos de datos a partir de modelos generativos sin protecciones adecuadas (Carlini et al., 2023).
  • Desajustes de dominio: datos sintéticos excesivamente “limpios” pueden reducir la eficacia de los detectores en condiciones reales. Es necesaria la domain randomization y la validación con datos reales, respetando la minimización y los principios del RGPD.
  • Gestión del riesgo: se requieren prácticas de gestión del riesgo en IA conforme a la norma ISO/IEC 23894:2023, así como la documentación de decisiones y datos de referencia.
  • Cumplimiento y transparencia: en materiales públicos deben evitarse datos sintéticos que puedan inducir a error sobre su autenticidad. En los procesos internos de anonimización son clave las pruebas de resistencia frente a la reidentificación y el reprofilado.

Ejemplos de uso de la SDG en el difuminado de rostros y matrículas

En soluciones de la clase Gallio PRO, que funcionan on‑premise y realizan el difuminado automático de rostros y matrículas en modo por lotes, la SDG respalda varias etapas del ciclo de vida de los modelos. Los ejemplos mencionados se refieren a imágenes y vídeo y no se aplican a documentos de texto.

  • Augmentación de conjuntos de datos para el entrenamiento de detectores de rostros y matrículas: escenas sintéticas concurridas, distintos países y formatos de matrículas, variaciones de iluminación.
  • Validación de la eficacia de la redacción: generación de casos de prueba complejos con oclusiones parciales del rostro y desenfoque por movimiento.
  • Sustitución sintética de identidades: creación de rostros con una coincidencia biométrica baja (idealmente cercana a cero) y relleno de la máscara en lugar de un simple blur, para reducir el riesgo de reversibilidad.
  • Soporte al cumplimiento normativo: en algunas jurisdicciones el difuminado de matrículas es obligatorio o recomendado, y la SDG permite mejorar la detectabilidad de formatos poco comunes. En Polonia, el estatus de las matrículas como dato personal depende del contexto, por lo que se recomienda una política de precaución y pruebas de eficacia de detección basadas en un enfoque de riesgo y en las directrices del EDPB y de la autoridad UODO.
  • Operaciones manuales: en el caso de logotipos, tatuajes, placas con nombres o pantallas que no se detectan automáticamente, la SDG puede proporcionar patrones para la formación de operadores y escenarios de prueba para el editor manual integrado.

Referencias normativas y fuentes

A continuación se presenta una recopilación de normas y fuentes técnicas utilizadas para las definiciones y métricas de la SDG. Las fechas y números de edición permiten su verificación.

  • ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. Definición de datos sintéticos.
  • ISO/IEC 23894:2023 - Artificial intelligence - Risk management. Marco de gestión del riesgo en IA.
  • ISO/IEC 27559:2022 - Privacy enhancing data de‑identification framework. Marco de desidentificación y evaluación del riesgo de privacidad.
  • RGPD - considerando 26 y artículo 4. Definiciones de datos personales y criterios de anonimato.
  • EDPB, Guidelines 3/2019 on processing of personal data through video devices, versión final 2020. Directrices sobre vídeo y videovigilancia.
  • Grupo de Trabajo del Artículo 29, Opinión 05/2014 sobre técnicas de anonimización. Criterios clave para evaluar la anonimidad.
  • NIST AI RMF 1.0, enero de 2023. Marco de gestión del riesgo en IA, incluidos datos y pruebas.
  • NIST SDNist toolkit, 2023‑2024. Herramientas para evaluar la privacidad y la utilidad de los datos sintéticos.
  • Heusel et al., 2017, GANs Trained by a Two Time‑Scale Update Rule - FID. Métrica de calidad generativa.
  • Kynkäänniemi et al., 2019, Improved Precision and Recall Metric for Assessing Generative Models. Métricas de precision‑recall para modelos generativos.
  • Abadi et al., 2016, Deep Learning with Differential Privacy. DP‑SGD como mecanismo de protección frente a la memorización.
  • Carlini et al., 2023, Extracting Training Data from Diffusion Models. Riesgos de fuga de datos en modelos de difusión.