¿Qué es el Model Drift?

Model Drift - definición

El model drift, conocido en español como deriva del modelo, es la variación del rendimiento de un modelo de aprendizaje automático a lo largo del tiempo causada por cambios en los datos de entrada, en las distribuciones de las características, en las etiquetas o en la relación entre las características y la etiqueta. En la literatura se distinguen el data drift (cambio en la distribución de las entradas), el concept drift (cambio en la relación entrada‑etiqueta) y el label shift (cambio en la distribución de las etiquetas); véase la revisión de Gama et al. (2014, ACM Computing Surveys) y la clasificación de Webb et al. (2016, DMKD).

En la anonimización de imágenes y grabaciones de vídeo, la deriva del modelo se manifiesta como una degradación de la eficacia en la detección de objetos que deben difuminarse, principalmente rostros y matrículas. Cambios en la iluminación, nuevos formatos de matrículas, el uso de mascarillas o gafas, la pérdida de calidad por compresión o la modernización de cámaras generan una discrepancia entre los datos de entrenamiento y los datos en producción, lo que reduce el recall y aumenta el riesgo de divulgación de datos personales.

El papel del model drift en la anonimización de vídeo e imágenes

En sistemas como Gallio PRO, los modelos de aprendizaje profundo detectan rostros y matrículas y posteriormente aplican el difuminado. La deriva del modelo conduce a detecciones incompletas o a una localización incorrecta de los objetos, lo que se traduce en ausencia de difuminado o en un difuminado de un área demasiado pequeña. Desde la perspectiva del RGPD, esto supone un riesgo de vulneración del principio de integridad y confidencialidad del artículo 5.1.f, así como del requisito de protección de datos desde el diseño y por defecto del artículo 25 del RGPD.

Gallio PRO no realiza la anonimización en tiempo real y funciona en modo por lotes. Esto facilita el control del drift mediante verificaciones periódicas sobre conjuntos de validación y la actualización de modelos sin riesgo de impacto inmediato en el flujo de vídeo.

Tipos y síntomas de la deriva del modelo en la anonimización

En la práctica de los delegados de protección de datos y de los equipos técnicos, resulta útil distinguir el tipo de cambio, ya que determina la forma de respuesta. A continuación se presenta un resumen sintético.

Tipo de drift

Definición (fuentes)

Síntomas típicos en vídeo/imagen

Pruebas/métricas

Acciones

 

Data drift (covariate shift)

Cambio en las distribuciones de las características de entrada (Gama 2014; ISO/IEC 22989:2022)

Iluminación distinta, ángulo de cámara, compresión, nuevos fondos

PSI, KL, KS, distancia de Wasserstein

Recalibración, augmentación, actualización de muestras

Concept drift

Cambio en la relación entrada‑etiqueta (Webb 2016)

Nuevos estilos de mascarillas, cambios en los diseños de matrículas, tipografías no estándar

Caída de mAP/recall en muestras etiquetadas

Reentrenamiento, ampliación de etiquetas

Label shift

Cambio en la distribución de las etiquetas con relación entrada‑etiqueta constante (Gama 2014)

Más matrículas de noche que de día, diferentes proporciones de rostros cubiertos

Pruebas de distribución de etiquetas, ponderación de muestras

Reponderación, muestreo de la función de pérdida

Parámetros clave y métricas para la detección de drift

La monitorización del model drift requiere métricas objetivas. En la detección de objetos se emplean métricas de calidad y estadísticas de distribución. A continuación se enumeran las más utilizadas, junto con sus fuentes y fórmulas resumidas.

  • Recall y precision en la detección de objetos, calculados sobre conjuntos de referencia con anotaciones. El estándar de reporte es el mAP calculado para umbrales de IoU de 0.5:0.95 en incrementos de 0.05 (COCO, Lin et al., 2014).
  • PSI (Population Stability Index), ampliamente usado para detectar deriva de distribuciones. Fórmula: PSI = Σi (pi − qi) · ln(pi/qi), donde pi es la proporción en producción y qi en el conjunto de referencia (Siddiqi, 2012).
  • Pruebas clásicas de distribución: test de Kolmogorov‑Smirnov para variables continuas y prueba chi‑cuadrado para variables categóricas, útiles para demostrar la significación de los cambios.
  • Divergencia KL, medida de la discrepancia entre las distribuciones P y Q: DKL(P||Q) = Σ P(x) ln(P(x)/Q(x)) (Kullback‑Leibler, 1951).
  • Distancia de Wasserstein, útil para comparar histogramas de características continuas de la imagen y embeddings.
  • FID (Fréchet Inception Distance), empleada para evaluar cambios en la distribución de representaciones visuales en el espacio de embeddings (Heusel et al., 2017).

Monitorización del drift sin recopilar datos personales

Gallio PRO no recopila registros que contengan detecciones de rostros o matrículas ni procesa logs con datos personales. Aun así, la deriva del modelo puede supervisarse utilizando datos no personales y agregados.

  • Conjuntos sintéticos y de control: evaluación periódica sobre conjuntos de imágenes de prueba con anotaciones, diseñados para no contener personas identificables. Un buen estándar son los procedimientos de validación conforme a ISO/IEC 23894:2023, que incluyen la evaluación de riesgos asociados a sistemas de IA.
  • Agregados telemétricos sin PII: distribuciones del tamaño de las cajas, valores medios de confianza, histogramas de nitidez e iluminación tras la anonimización. Los datos están agregados y no permiten la identificación.
  • Pruebas de distribución de características: PSI, KL y KS calculados sobre características técnicas de la imagen (por ejemplo, luminancia o ruido) y embeddings que no se utilizan para reconstruir la imagen.

Estrategias de mitigación del model drift y acciones correctivas

Un plan de gestión de la deriva del modelo debe integrar procesos de MLOps con los requisitos regulatorios. El NIST AI RMF 1.0 (2023) y las normas ISO/IEC 22989:2022 e ISO/IEC 23894:2023 proporcionan marcos para el ciclo de vida y la gestión de riesgos en IA.

  • Reentrenamiento periódico: actualización de los modelos de detección de rostros y matrículas con nuevos datos, con validación completa de mAP y recall en conjuntos de control.
  • Augmentación de dominio: simulación de condiciones de iluminación, desenfoque por movimiento, compresión, viñeteado y nuevos formatos de matrículas para reducir la sensibilidad al data drift.
  • Calibración de umbrales: ajuste del umbral de confianza y del margen de la máscara de difuminado para minimizar las no detecciones. Los cambios deben documentarse y probarse en conjuntos de referencia.
  • Versionado de modelos y datos: repositorios de modelos, configuraciones y conjuntos de prueba, con trazabilidad de cambios y métricas conforme a ISO/IEC 23894:2023.

Retos y cumplimiento normativo

Las variaciones en la calidad de las grabaciones, la heterogeneidad de las cámaras y los cambios en la normativa local incrementan el riesgo de un difuminado insuficiente. El EDPB, en las Directrices 3/2019 (versión 2.0 de 29/01/2020), señala que elementos identificables como el rostro de una persona o las matrículas pueden constituir datos personales si permiten identificar a una persona física; por ello, su anonimización debe ser eficaz y robusta. El RGPD exige medidas técnicas y organizativas adecuadas y una evaluación del riesgo (artículos 5 y 25). En parte de Europa Occidental, el difuminado de matrículas es obligatorio en determinados contextos por normativa o práctica nacional, mientras que en Polonia existen divergencias interpretativas en la jurisprudencia, con orientaciones paralelas de la UODO y el EDPB que enfatizan la protección frente a la identificabilidad. En este contexto, la gestión del model drift forma parte de la diligencia debida y de la documentación de cumplimiento.

Tecnologías que apoyan la detección y reducción del drift

En la detección de rostros y matrículas se utilizan redes neuronales convolucionales y transformadores entrenados de forma supervisada. Su mantenimiento requiere infraestructuras para el análisis de distribuciones de datos y la validación continua. La siguiente tabla resume algunas prácticas clave.

Área

Práctica técnica

Objetivo

Normas/fuentes relacionadas

 

Validación de calidad

mAP y recall@IoU [0.5:0.95] en conjuntos de control

Detección temprana de caídas de calidad

Evaluación COCO (Lin et al., 2014)

Monitorización de distribuciones

PSI, KL, KS, Wasserstein sobre características de la imagen

Identificación de data drift

Siddiqi (2012); Kullback‑Leibler (1951)

Robustez del modelo

Augmentaciones de dominio y balanceo de clases

Reducción de la sensibilidad a cambios

ISO/IEC 23894:2023

Gestión del riesgo

Registro de riesgos, criterios de escalado, plan de reentrenamiento

Cumplimiento y auditabilidad

NIST AI RMF 1.0 (2023)

Referencias normativas y fuentes

La siguiente lista incluye fuentes de alta autoridad cuyas definiciones y recomendaciones se citan en el texto.

  • RGPD - Reglamento (UE) 2016/679, artículos 5 y 25; considerando 26.
  • EDPB, Directrices 3/2019 sobre el tratamiento de datos personales mediante dispositivos de vídeo, versión 2.0 de 29/01/2020.
  • ISO/IEC 22989:2022 - Artificial intelligence - Concepts and terminology.
  • ISO/IEC 23894:2023 - Artificial intelligence - Risk management.
  • NIST AI Risk Management Framework 1.0, 2023.
  • Gama, J. et al., A Survey on Concept Drift Adaptation, ACM Computing Surveys, 2014.
  • Webb, G.I. et al., Characterizing Concept Drift, Data Mining and Knowledge Discovery, 2016.
  • Lin, T.-Y. et al., Microsoft COCO: Common Objects in Context, 2014 - definiciones de mAP/IoU.
  • Siddiqi, N., Credit Risk Scorecards, 2012 - definición de PSI.
  • Kullback, S., Leibler, R.A., On Information and Sufficiency, 1951 - definición de DKL.
  • Heusel, M. et al., GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium, 2017 - FID.