t-closeness (t-proximidad): definición
La t-closeness, también conocida como t-proximidad, es un modelo de protección de la privacidad publicado por Ninghui Li, Tiancheng Li y Suresh Venkatasubramanian en 2007 como evolución de los modelos anteriores de k-anonymity y l-diversity. Su objetivo es limitar la llamada divulgación de atributos, es decir, la situación en la que, tras asignar un registro a un grupo de anonimato, puede inferirse con alta probabilidad un atributo sensible a partir de la distribución de datos dentro de ese grupo. En el modelo de t-closeness se exige que la distancia entre la distribución del atributo sensible en cada clase de equivalencia y la distribución de ese atributo en el conjunto completo no supere el umbral t.
En la literatura original, esta distancia se define mediante la Earth Mover's Distance (EMD). Formalmente, para cada clase de equivalencia E, la condición se expresa como: distancia(D(E), D(T)) <= t, donde D(E) representa la distribución del atributo sensible en la clase E, y D(T) la distribución de ese atributo en todo el conjunto de datos. Artículo de referencia: Li, Li, Venkatasubramanian, "t-Closeness: Privacy Beyond k-Anonymity and l-Diversity", ICDE 2007, IEEE.
En el contexto de la anonimización de fotos y vídeos, la t-closeness no es un mecanismo de difuminado de rostros ni de matrículas. Se trata de un modelo para evaluar el riesgo de divulgación de información procedente de metadatos, etiquetas, resultados de detección o descripciones de escenas que permanecen tras el procesamiento del material. Por tanto, cobra importancia cuando una organización crea conjuntos de datos, exportaciones estadísticas o informes derivados de procesos de anonimización de imágenes y vídeo, y no cuando el propio software aplica una máscara sobre un rostro.
El papel de la t-closeness en la anonimización de fotos y vídeos
En los sistemas que procesan imágenes y grabaciones, el riesgo para la privacidad no termina con el difuminado de los rostros. Incluso después de eliminar los identificadores directos, pueden seguir existiendo datos que revelen indirectamente información sobre personas o acontecimientos. La t-closeness resulta útil como capa analítica para datos secundarios.
En la práctica, esto afecta sobre todo a conjuntos derivados, como descripciones de materiales, estadísticas de detección, anotaciones de entrenamiento o informes operativos. En estos casos, una clase de equivalencia puede ser, por ejemplo, un grupo de grabaciones de la misma ubicación, del mismo día o del mismo tipo de incidente.
- Atributos cuasiidentificadores: ubicación de la cámara, hora del día, tipo de objeto, condiciones meteorológicas, duración de la toma, categoría del lugar.
- Atributos sensibles: presencia de un menor, una intervención médica, servicios de emergencia, una protesta, un incidente de tráfico u otro contexto de riesgo elevado.
- Riesgo: la combinación de cuasiidentificadores con la distribución de atributos sensibles puede revelar más información de la que se desprende del simple difuminado de rostros.
Ejemplo práctico: si un informe para una cámara concreta y una franja horaria determinada muestra casi exclusivamente grabaciones etiquetadas como "intervención médica", incluso sin imagen identificable podría revelarse un contexto sensible de los hechos. La t-closeness busca evitar este tipo de desviación en la distribución.
Cómo funciona la t-closeness en la práctica
El modelo se basa en clases de equivalencia, es decir, grupos de registros indistinguibles en términos de cuasiidentificadores. A continuación, se compara la distribución del atributo sensible dentro de cada grupo con la distribución global.
Para datos ordenados o numéricos suele utilizarse la EMD, ya que tiene en cuenta la "distancia" entre categorías. Para datos nominales, el trabajo original emplea una distancia igual a la mitad de la suma de las diferencias absolutas entre distribuciones. La elección de la métrica debe documentarse de forma explícita.
Elemento del modelo | Significado en datos de foto y vídeo
|
|---|---|
Cuasiidentificadores | características descriptivas del material que por sí solas no identifican a una persona, pero que en combinación pueden reducir el conjunto |
Atributo sensible | rasgo que revela el contexto del evento o una categoría que requiere especial cautela |
Clase de equivalencia | grupo de grabaciones o imágenes con los mismos cuasiidentificadores generalizados |
Umbral t | diferencia máxima permitida entre la distribución local y la global |
Cuanto menor sea el umbral t, mayor será la protección, pero también mayor la pérdida de utilidad de los datos. No existe un único umbral universal impuesto por la ley o por una norma ISO. El valor de t se selecciona en función del objetivo del tratamiento, del tamaño del conjunto y del nivel de riesgo tolerado.
Parámetros y métricas clave de la t-closeness
La evaluación de la t-closeness exige definir parámetros medibles. En la práctica de proyecto, debe documentarse no solo el propio valor de t, sino también la forma de construir las clases de equivalencia y el coste informativo de la anonimización.
- t: distancia máxima permitida entre distribuciones.
- EMD: métrica básica de distancia entre distribuciones para atributos ordenados o numéricos, indicada en el trabajo original de 2007.
- Tamaño de la clase de equivalencia: influye en la estabilidad de la estimación de las distribuciones.
- Information loss: pérdida de información tras la generalización o supresión de datos.
- Disclosure risk: riesgo de divulgación del atributo después de la anonimización.
En entornos de imagen y vídeo conviene añadir también métricas operativas que no forman parte de la definición de la t-closeness, pero que influyen en la seguridad del proceso en su conjunto:
- Precisión y recall en la detección de rostros y matrículas: los errores de detección afectan a la calidad de los datos de entrada para la anonimización posterior.
- False negative rate: un rostro o una matrícula omitidos implican un riesgo directo que la t-closeness no compensa.
- Tiempo de procesamiento por lote de datos: es importante desde el punto de vista operativo, pero no es un parámetro del modelo de t-closeness.
t-closeness y difuminado de rostros y matrículas
Es importante distinguir claramente dos niveles de protección. El difuminado de rostros y matrículas actúa a nivel de píxeles de la imagen. La t-closeness actúa a nivel de datos descriptivos o analíticos. No son soluciones intercambiables.
En sistemas como Gallio PRO, el procesamiento automático se aplica a rostros y matrículas. No incluye la detección automática de logotipos, tatuajes, placas identificativas, documentos ni contenido mostrado en monitores. Estos elementos pueden ocultarse manualmente en el editor. Si, después de la anonimización, la organización conserva etiquetas o metadatos adicionales sobre el material, es precisamente ahí donde puede surgir la necesidad de aplicar un modelo como la t-closeness.
Para el difuminado automático de rostros y matrículas son necesarios modelos de IA, normalmente basados en deep learning, entrenados con datos visuales para tareas de detección de objetos. La t-closeness no se utiliza para entrenar estos modelos. Sin embargo, sí puede servir para compartir de forma más segura conjuntos de anotaciones, estadísticas o resultados de evaluación de dichos modelos.
Retos y limitaciones de la t-closeness
Este modelo es más restrictivo que la k-anonymity y la l-diversity, pero no resuelve todos los problemas. En aplicaciones de foto y vídeo, son especialmente relevantes las limitaciones relacionadas con la alta dimensionalidad de los datos y la semántica de la imagen.
- No funciona sobre píxeles en bruto: requiere una representación tabular de los atributos.
- Sensibilidad a la definición del atributo sensible: una categorización incorrecta de las escenas reduce el valor del modelo.
- Coste en utilidad: una generalización intensa puede reducir el valor analítico del conjunto.
- Ausencia de un umbral t normativo: es necesaria una evaluación del riesgo y la documentación de las decisiones.
- No sustituye el cumplimiento legal: cumplir con la t-closeness no implica por sí solo conformidad con el RGPD.
Referencias normativas y fuentes
La t-closeness es un concepto científico, no una norma ISO ni un requisito expresamente indicado en el RGPD. Aun así, encaja en la lógica de la protección de datos desde el diseño y de la minimización del riesgo.
- Li, N., Li, T., Venkatasubramanian, S., "t-Closeness: Privacy Beyond k-Anonymity and l-Diversity", IEEE 23rd International Conference on Data Engineering, 2007.
- Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo - RGPD, en particular el art. 5, el art. 25 y el considerando 26.
- Dictamen 05/2014 del Grupo de Trabajo del Artículo 29 sobre técnicas de anonimización, así como las directrices del EDPB sobre seudonimización y evaluación del riesgo, pueden interpretarse conjuntamente con la evaluación del riesgo de reidentificación, aunque no establecen la t-closeness como estándar obligatorio.
En la práctica de compliance, la t-closeness puede considerarse una técnica de apoyo para la evaluación del riesgo en datos derivados relacionados con fotos y grabaciones de vídeo. No sustituye el control de acceso, la retención, el análisis de la base jurídica ni la eficacia técnica del difuminado de rostros y matrículas.