¿Qué es el Privacy Budget?

Privacy Budget - definición

Privacy Budget (en español, presupuesto de privacidad) es una medida de la pérdida total de privacidad permitida por un sistema que utiliza mecanismos de privacidad diferencial. En términos formales, se aplica a mecanismos que cumplen con la privacidad diferencial (ε, δ), donde ε (epsilon) y δ (delta) parametrizan el límite superior del riesgo de divulgación de información sobre un único registro. El presupuesto de privacidad se acumula con cada operación realizada sobre los datos (la llamada composición) y define el límite global de privacidad “consumida” por múltiples consultas o iteraciones de entrenamiento.

Definición de privacidad diferencial: un mecanismo M garantiza (ε, δ)-DP si, para cualesquiera conjuntos vecinos D y D′ y para cualquier conjunto de resultados S, se cumple: P[M(D) ∈ S] ≤ eε · P[M(D′) ∈ S] + δ (véase Dwork et al., 2006; Dwork, Roth, 2014). En la práctica, el presupuesto de privacidad describe cuánto “ε” (y su correspondiente “δ”) puede gastarse en el conjunto total de operaciones sobre los datos.

Traducciones: EN: Privacy Budget; DE: Datenschutzbudget / Privatsphärenbudget; FR: Budget de confidentialité; ES: Presupuesto de privacidad.

Rol en la anonimización de imágenes y vídeo

En la anonimización de imágenes y grabaciones de vídeo, el presupuesto de privacidad es clave cuando se emplea aprendizaje automático con control del riesgo de filtración de información sobre las personas presentes en los materiales de origen. Esto se aplica especialmente al entrenamiento de modelos de detección de rostros y matrículas, que posteriormente se utilizan para el difuminado automático. El uso de DP-SGD o de métodos de agregación de etiquetas con privacidad implica que cada paso de entrenamiento “consume” parte del presupuesto, y el Delegado de Protección de Datos puede supervisar el nivel total de riesgo mediante los límites de ε y δ.

El propio proceso de difuminado (por ejemplo, desenfocar un rostro en el material final) no requiere presupuesto de privacidad, siempre que no se recopilen datos adicionales ni registros que permitan reconstruir datos personales. El presupuesto es relevante en la fase de creación de modelos de IA a partir de datos que contienen imágenes de personas y al publicar estadísticas de conjuntos de datos de vídeo. Esta distinción es coherente con el enfoque según el cual la privacidad diferencial es un mecanismo de protección en la fase de procesamiento y entrenamiento, y no únicamente de edición visual (WP29, 2014; ISO/IEC 20889:2018; ISO/IEC 27559:2022).

Tecnologías y métodos relacionados

En la práctica, el presupuesto de privacidad está vinculado a técnicas concretas de adición de ruido controlado y de contabilidad de la privacidad. A continuación se resumen los enfoques más relevantes para el entrenamiento de modelos de difuminado de rostros y matrículas.

  • DP-SGD: descenso de gradiente estocástico con recorte de gradientes y adición de ruido, que garantiza (ε, δ)-DP a nivel de las iteraciones de entrenamiento. Proporciona límites formales de filtración de información a costa de una posible degradación del rendimiento del modelo (Abadi et al., CCS 2016).
  • PATE: agregación de etiquetas de múltiples “profesores” con adición de ruido, lo que limita la información sobre ejemplos individuales en los datos de entrenamiento (Papernot et al., ICLR 2017/2018).
  • RDP y accounting: la contabilidad de privacidad basada en la privacidad diferencial de Rényi (RDP) y en el moments accountant permite límites de composición más ajustados y una estimación más precisa del presupuesto total (Mironov, S&P 2017; Abadi et al., 2016).
  • Herramientas: las bibliotecas TensorFlow Privacy y Opacus (PyTorch) implementan DP-SGD y la contabilidad del presupuesto, facilitando el control práctico de ε y δ durante el entrenamiento de detectores (documentación de TF Privacy y Opacus).

Parámetros y métricas clave (Privacy Budget)

Los parámetros de la privacidad diferencial están estrictamente definidos en la literatura y en las normas. En los procesos de Gallio PRO, los más relevantes son aquellos que determinan la solidez de la protección de la privacidad durante el entrenamiento de modelos de reconocimiento de rostros y matrículas.

Parámetro / métrica

Significado y observaciones

Fuente

 

ε (epsilon)

Fuerza de la garantía de DP. Un ε menor implica una protección más fuerte y, por lo general, una menor utilidad del modelo. ε ≥ 0.

Dwork, Roth (2014)

δ (delta)

Probabilidad de violación de la garantía de DP. Debe ser “despreciable” en relación con el tamaño del conjunto de datos.

Dwork, Roth (2014)

Composición

El presupuesto total aumenta con el número de consultas o épocas. La composición avanzada y la RDP permiten estimar de forma más ajustada el (ε, δ) acumulado.

Dwork, Roth (2014); Mironov (2017)

Accountant

Los métodos de moments accountant y RDP-accountant se utilizan para seguir con precisión el consumo del presupuesto durante el entrenamiento.

Abadi et al. (2016); Mironov (2017)

Utilidad del modelo

mAP/precision/recall en la detección de rostros y matrículas. La pérdida de calidad depende de ε, δ y del nivel de ruido.

Abadi et al. (2016)

Ejemplo de práctica pública

La Oficina del Censo de EE. UU. aplicó un presupuesto ε = 12,2 para los datos de redistribución del Censo 2020, ilustrando la escala del presupuesto en grandes conjuntos de datos.

US Census Bureau (2021)

Retos y limitaciones

La planificación del presupuesto de privacidad exige un equilibrio entre protección y calidad de detección. La interpretación de “qué significa ε” no es intuitiva para los usuarios de negocio y requiere formación. Además, es importante distinguir dos significados distintos de “privacy budget”: en la privacidad diferencial se refiere a los parámetros (ε, δ), mientras que en el ecosistema publicitario de los navegadores se ha propuesto un concepto independiente destinado a limitar el fingerprinting mediante un presupuesto de consultas a APIs. Este último no es equivalente a la DP (véanse los debates del WICG/Chromium en el marco de Privacy Sandbox).

  • Ausencia de umbrales regulatorios: la legislación de la UE no define valores aceptables de ε/δ. Se requiere un enfoque basado en el riesgo y en la adecuación del efecto de la anonimización (RGPD, considerando 26; WP29, 2014).
  • Composición continua: los experimentos repetidos y el reentrenamiento de modelos acumulan presupuesto. Es necesaria una contabilidad rigurosa y una política de “reinicio” con nuevos datos.
  • Compromiso con la calidad: un ε excesivamente restrictivo puede reducir el mAP del detector de rostros o matrículas a un nivel operativamente inaceptable.

Ejemplos de uso en la práctica de Gallio PRO

En los casos de uso de Gallio PRO, el presupuesto de privacidad es relevante al crear o ajustar modelos que detectan rostros y matrículas para su posterior difuminado automático. El Delegado de Protección de Datos puede definir límites (ε, δ) para el proceso de entrenamiento y las reglas de composición.

  • Entrenamiento de detectores de rostros con DP-SGD: el número de épocas, el tamaño de la muestra y el nivel de ruido determinan el (ε, δ) final. Al alcanzar el límite, el entrenamiento debe detenerse o rediseñarse.
  • Agregación de etiquetas: en proyectos que requieren etiquetado de vídeo, pueden utilizarse mecanismos PATE y controlar el presupuesto durante la agregación de votos de los profesores.
  • Exportación de metadatos: la publicación de estadísticas del conjunto de datos (por ejemplo, la distribución del número de rostros por fotograma) debe estar sujeta al mismo presupuesto.
  • Explotación operativa: Gallio PRO no realiza anonimización en tiempo real ni recopila registros de detección de rostros o matrículas, lo que reduce los riesgos secundarios asociados a la filtración de datos personales.

Referencias normativas y estándares

Las regulaciones y normas establecen el marco conceptual y las buenas prácticas, aunque no fijan umbrales estrictos para ε y δ.

  • RGPD (UE) 2016/679, considerando 26 - definición de información anónima y requisito de tener en cuenta “todos los medios razonables” de identificación.
  • WP29 (actualmente EDPB), Opinion 05/2014 on Anonymisation Techniques - clasificación de técnicas y criterios de evaluación del riesgo.
  • ISO/IEC 20889:2018 - Privacy enhancing data de-identification - terminología y clasificación de técnicas.
  • ISO/IEC 27559:2022 - Privacy enhancing data de-identification framework.
  • NISTIR 8053:2015 - De-Identification of Personal Information - marco para la evaluación de técnicas y riesgos.

Fuentes y bibliografía

Los siguientes materiales incluyen definiciones, contabilidad de la composición y ejemplos de uso en aprendizaje profundo y en políticas del sector público.

  • C. Dwork, F. McSherry, K. Nissim, A. Smith, Calibrating Noise to Sensitivity in Private Data Analysis, TCC 2006. Definición de (ε, δ)-DP.
  • C. Dwork, A. Roth, The Algorithmic Foundations of Differential Privacy, FnT TCS, 2014. Fundamentos teóricos y composición.
  • M. Abadi et al., Deep Learning with Differential Privacy, CCS 2016. DP-SGD y moments accountant.
  • I. Mironov, Renyi Differential Privacy, IEEE S&P 2017. RDP y contabilidad.
  • N. Papernot et al., Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data (PATE), ICLR 2017/2018.
  • US Census Bureau, Disclosure Avoidance System for the 2020 Census, selección de parámetros (ε = 12,2 para datos de redistribución), 2021 - documentos técnicos.
  • WICG/Chromium, Privacy Sandbox - debates sobre el “privacy budget” en navegadores (concepto distinto de la DP).