Generación de datos sintéticos (SDG) - definición
La generación de datos sintéticos (Synthetic Data Generation, SDG) es un proceso controlado de creación de datos artificiales que conservan las propiedades estadísticas o estructurales clave de los datos originales, pero que no constituyen copias de estos. Desde un punto de vista normativo, los datos sintéticos son datos generados artificialmente y no obtenidos directamente de la observación de fenómenos o personas (ISO/IEC 22989:2022). La SDG puede aplicarse a imágenes, vídeo, audio y datos tabulares.
En el contexto de la anonimización de imágenes y vídeo, la SDG se utiliza principalmente con dos fines. En primer lugar, para crear conjuntos de datos de entrenamiento y validación para modelos de detección y difuminado de rostros y matrículas. En segundo lugar, para sustituir fragmentos de imagen por texturas o rostros sintéticos con una similitud biométrica baja (idealmente cercana a cero), lo que reduce el riesgo de reidentificación. La mera generación de datos sintéticos no implica automáticamente su anonimización en el sentido del RGPD. Para que los datos se consideren anónimos, la identificación de una persona debe ser prácticamente imposible mediante medios razonables, de acuerdo con el considerando 26 del RGPD y la Opinión 05/2014 del GT29.
El papel de la SDG en la anonimización de imágenes y vídeo
En la práctica, la SDG es un eslabón dentro de una cadena de procesamiento que incluye la detección, la segmentación y el enmascaramiento de los elementos que requieren protección. Al crear rostros y matrículas sintéticas, los equipos pueden entrenar y probar detectores de acuerdo con el principio de minimización de datos, sin necesidad de distribuir ampliamente datos reales. Esto es especialmente relevante en entornos on‑premise y en escenarios con requisitos elevados de seguridad de la información.
La SDG también ayuda a aumentar la diversidad de las condiciones de captura de imágenes: iluminación, ángulos, oclusiones, tipos de matrículas y sus artefactos. Gracias a ello, los modelos de difuminado de rostros y matrículas alcanzan una mayor sensibilidad en escenas concurridas, con desenfoque por movimiento y baja resolución. Desde la perspectiva del delegado de protección de datos (DPO), la SDG es una herramienta que apoya el cumplimiento normativo, ya que mejora la eficacia de las técnicas de anonimización, aunque no sustituye a la evaluación de riesgos ni a las pruebas de resistencia frente a la reidentificación.
Tecnologías de SDG utilizadas en la anonimización
Para generar imágenes y secuencias de vídeo sintéticas se emplean modelos generativos especializados. En los flujos de trabajo de anonimización también son relevantes los modelos de detección y verificación de identidad, que evalúan el riesgo de divulgación de información en los resultados sintéticos.
- Modelos generativos: modelos de difusión de imágenes, GAN y VAE, utilizados para crear rostros, matrículas y texturas de fondo (Heusel et al., 2017; trabajos sobre difusión desde 2020 en adelante).
- Modelos de detección: YOLO, RetinaFace, EfficientDet, para localizar rostros y matrículas tanto en el material original como en los datos sintéticos destinados al entrenamiento.
- Modelos de verificación biométrica: por ejemplo ArcFace, para medir la similitud entre un rostro sintético y uno real y supervisar el riesgo de una similitud excesiva.
- Privacidad en el aprendizaje: DP‑SGD y técnicas para limitar la memorización de ejemplos, con el fin de reducir el riesgo de reconstrucción de los datos de entrenamiento por parte del generador (Abadi et al., 2016; Carlini et al., 2023).
Parámetros y métricas clave de la SDG en la anonimización
La evaluación de la eficacia de la SDG debe equilibrar la utilidad para los modelos de difuminado y el riesgo para la privacidad. En la siguiente tabla se recopilan métricas comúnmente utilizadas en imagen y anonimización, junto con su interpretación y fuentes.
Categoría | Métrica | Descripción | Interpretación
|
|---|---|---|---|
Utilidad para la detección | mAP@IoU | Precisión media a un umbral de IoU determinado, medida en un modelo de detección entrenado con datos sintéticos | Cuanto más alta, mejor: indica si la SDG mejora la detección de rostros y matrículas |
Calidad generativa | FID | Fréchet Inception Distance: convergencia de las distribuciones de características entre el conjunto real y el sintético | Cuanto menor, mejor: un FID bajo indica mayor fidelidad (Heusel et al., 2017) |
Diversidad | Precision‑Recall para modelos generativos | Métrica que equilibra la precisión y la cobertura de los modos de los datos | Alta precisión y alto recall: ausencia de modos espurios y de colapso de modos (Kynkäänniemi et al., 2019) |
Riesgo de memorización | Membership inference AUC | Capacidad de un ataque para distinguir si una muestra formó parte del entrenamiento del generador | AUC bajo, cercano a 0,5: menor riesgo de fuga de información (literatura sobre MIA; herramientas del NIST para datos sintéticos) |
Riesgo biométrico | Match rate | Porcentaje de coincidencias entre rostros sintéticos y reales según un clasificador biométrico | Baja tasa de coincidencia: los datos sintéticos no se asemejan a personas concretas |
Calidad del enmascaramiento | SSIM / PSNR en la zona enmascarada | Coherencia estructural y nivel de ruido respecto al efecto de redacción deseado | Alineado con la política: ausencia de artefactos que faciliten la identificación |
Rendimiento | Tiempo de generación, número de pasos | Latencia y complejidad computacional, por ejemplo el número de pasos en modelos de difusión | Adecuado para procesamiento por lotes on‑premise: sin requisito de tiempo real |
Retos y limitaciones de la SDG
La implementación de la SDG en la protección de la privacidad exige tener en cuenta riesgos técnicos y legales. A continuación se enumeran los aspectos más relevantes para los DPO y los equipos técnicos.
- Ausencia de anonimato automático: los datos sintéticos pueden revelar información si el modelo memoriza muestras de entrenamiento o reproduce combinaciones raras de características. La literatura documenta la extracción de fragmentos de datos a partir de modelos generativos sin protecciones adecuadas (Carlini et al., 2023).
- Desajustes de dominio: datos sintéticos excesivamente “limpios” pueden reducir la eficacia de los detectores en condiciones reales. Es necesaria la domain randomization y la validación con datos reales, respetando la minimización y los principios del RGPD.
- Gestión del riesgo: se requieren prácticas de gestión del riesgo en IA conforme a la norma ISO/IEC 23894:2023, así como la documentación de decisiones y datos de referencia.
- Cumplimiento y transparencia: en materiales públicos deben evitarse datos sintéticos que puedan inducir a error sobre su autenticidad. En los procesos internos de anonimización son clave las pruebas de resistencia frente a la reidentificación y el reprofilado.
Ejemplos de uso de la SDG en el difuminado de rostros y matrículas
En soluciones de la clase Gallio PRO, que funcionan on‑premise y realizan el difuminado automático de rostros y matrículas en modo por lotes, la SDG respalda varias etapas del ciclo de vida de los modelos. Los ejemplos mencionados se refieren a imágenes y vídeo y no se aplican a documentos de texto.
- Augmentación de conjuntos de datos para el entrenamiento de detectores de rostros y matrículas: escenas sintéticas concurridas, distintos países y formatos de matrículas, variaciones de iluminación.
- Validación de la eficacia de la redacción: generación de casos de prueba complejos con oclusiones parciales del rostro y desenfoque por movimiento.
- Sustitución sintética de identidades: creación de rostros con una coincidencia biométrica baja (idealmente cercana a cero) y relleno de la máscara en lugar de un simple blur, para reducir el riesgo de reversibilidad.
- Soporte al cumplimiento normativo: en algunas jurisdicciones el difuminado de matrículas es obligatorio o recomendado, y la SDG permite mejorar la detectabilidad de formatos poco comunes. En Polonia, el estatus de las matrículas como dato personal depende del contexto, por lo que se recomienda una política de precaución y pruebas de eficacia de detección basadas en un enfoque de riesgo y en las directrices del EDPB y de la autoridad UODO.
- Operaciones manuales: en el caso de logotipos, tatuajes, placas con nombres o pantallas que no se detectan automáticamente, la SDG puede proporcionar patrones para la formación de operadores y escenarios de prueba para el editor manual integrado.
Referencias normativas y fuentes
A continuación se presenta una recopilación de normas y fuentes técnicas utilizadas para las definiciones y métricas de la SDG. Las fechas y números de edición permiten su verificación.
- ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology. Definición de datos sintéticos.
- ISO/IEC 23894:2023 - Artificial intelligence - Risk management. Marco de gestión del riesgo en IA.
- ISO/IEC 27559:2022 - Privacy enhancing data de‑identification framework. Marco de desidentificación y evaluación del riesgo de privacidad.
- RGPD - considerando 26 y artículo 4. Definiciones de datos personales y criterios de anonimato.
- EDPB, Guidelines 3/2019 on processing of personal data through video devices, versión final 2020. Directrices sobre vídeo y videovigilancia.
- Grupo de Trabajo del Artículo 29, Opinión 05/2014 sobre técnicas de anonimización. Criterios clave para evaluar la anonimidad.
- NIST AI RMF 1.0, enero de 2023. Marco de gestión del riesgo en IA, incluidos datos y pruebas.
- NIST SDNist toolkit, 2023‑2024. Herramientas para evaluar la privacidad y la utilidad de los datos sintéticos.
- Heusel et al., 2017, GANs Trained by a Two Time‑Scale Update Rule - FID. Métrica de calidad generativa.
- Kynkäänniemi et al., 2019, Improved Precision and Recall Metric for Assessing Generative Models. Métricas de precision‑recall para modelos generativos.
- Abadi et al., 2016, Deep Learning with Differential Privacy. DP‑SGD como mecanismo de protección frente a la memorización.
- Carlini et al., 2023, Extracting Training Data from Diffusion Models. Riesgos de fuga de datos en modelos de difusión.