L-diversity (diversidad l): definición
La l-diversity es un modelo de privacidad propuesto como una ampliación de la k-anonimidad. Fue descrito por A. Machanavajjhala, D. Kifer, J. Gehrke y M. Venkitasubramaniam en 2007 en un trabajo científico sobre la protección frente a la divulgación de atributos en conjuntos de datos. En su formulación más breve, el modelo exige que en cada grupo de registros indistinguibles respecto de los llamados cuasiidentificadores existan al menos l valores bien representados del atributo sensible. El objetivo es limitar las situaciones en las que una persona no puede ser señalada fácilmente, pero sí puede inferirse con alta probabilidad la característica confidencial asociada a su registro.
En el contexto de la anonimización de fotos y vídeos, este concepto no se refiere directamente al efecto de difuminar rostros o matrículas. La l-diversity es, más bien, un modelo para evaluar el riesgo de divulgación de información en conjuntos de datos, metadatos o combinaciones de características derivadas de imagen y vídeo. Cobra relevancia cuando una organización crea, almacena o comparte conjuntos estructurados de información procedente de materiales visuales, por ejemplo descripciones de escenas, marcas de tiempo, ubicaciones, clases de objetos, resultados de detección o estadísticas de eventos.
Si un material fotográfico o de vídeo ha sido sometido a un difuminado de rostros, pero se han conservado metadatos detallados, el riesgo de identificación o de inferencia puede seguir existiendo. Por ejemplo, la combinación de ubicación, hora, tipo de evento y otras características puede reducir considerablemente el grupo de personas posibles. En este escenario, la diversidad l puede utilizarse como criterio auxiliar al diseñar conjuntos de datos secundarios seguros, pero no sustituye las técnicas de anonimización de imágenes. En la práctica, Gallio PRO difumina automáticamente rostros y matrículas, mientras que la l-diversity se aplica a la capa de datos complementarios o a los datos analíticos construidos a partir del material una vez anonimizado.
¿Cómo entender la l-diversity en el procesamiento de fotos y vídeos?
En los sistemas que trabajan con imagen y vídeo, los datos personales pueden aparecer simultáneamente en varias capas. La primera capa es la propia imagen, en la que los identificadores son el rostro, la matrícula u otros rasgos que permiten identificar a una persona. La segunda capa la forman los metadatos y las características derivadas, por ejemplo la fecha de grabación, la geolocalización, el número de cámara, el tipo de evento, el número de personas en el encuadre o la clasificación de la actividad.
La l-diversity se aplica principalmente a esta segunda capa. Si una organización exporta grabaciones anonimizadas junto con una tabla descriptiva, el anonimato no depende únicamente de la calidad del difuminado de rostros. También depende de si los grupos de registros publicados no revelan información excesivamente homogénea sobre personas o eventos.
Capa de datos | Ejemplo | ¿Se aplica la l-diversity? | Observaciones prácticas
|
|---|---|---|---|
Imagen de píxeles | Rostro visible en el encuadre | No directamente | Aquí se aplican la detección y el difuminado de rostros |
Imagen de píxeles | Matrícula de un vehículo | No directamente | Aquí se aplican la detección y el difuminado de matrículas |
Metadatos | Hora, lugar, tipo de evento | Sí | Existe riesgo de inferencia pese a la anonimización de la imagen |
Características analíticas | Número de personas, clases de objetos, etiquetas de escena | Sí | Requiere evaluar cuasiidentificadores y atributos sensibles |
Relación entre la l-diversity y la anonimización de rostros y matrículas
La anonimización de imágenes consiste en eliminar o reducir de forma significativa la posibilidad de identificar a una persona o un vehículo en el propio material visual. En la práctica, esto implica detectar rostros y matrículas y, a continuación, difuminarlos. Para la detección automática se utilizan con mayor frecuencia modelos de aprendizaje automático, incluido el deep learning, ya que los métodos clásicos basados en características simples de la imagen suelen ser menos resistentes a cambios de iluminación, ángulo, oclusión y calidad de la grabación.
Se trata de una distinción importante. El deep learning se utiliza a menudo para construir modelos de IA capaces de detectar rostros y matrículas, que luego pueden emplearse para anonimizar materiales visuales. La l-diversity no describe la calidad del modelo de detección. Tampoco indica cuánto debe difuminarse un rostro ni qué área de la matrícula debe cubrirse. Este modelo sirve para evaluar la privacidad de datos tabulares o estructurados que pueden generarse paralelamente al proceso de anonimización de fotos y vídeos.
En la práctica, esto significa dos niveles de protección distintos:
- nivel del material visual: detección y difuminado de rostros y matrículas,
- nivel de los datos secundarios: reducción del riesgo de identificación o de inferencia a partir de metadatos e informes analíticos, entre otros medios, mediante k-anonimidad, diversidad l o modelos más avanzados.
Parámetros clave y condiciones de la l-diversity
Para aplicar la diversidad l, primero hay que definir los cuasiidentificadores y el atributo sensible. Los cuasiidentificadores son características que, por sí solas, no tienen por qué identificar a una persona, pero que, combinadas con otros datos, pueden reducir significativamente el conjunto de posibles candidatos. En los datos procedentes de vídeo, pueden ser, por ejemplo, la ubicación de la cámara, la franja horaria, la categoría del lugar o el tipo de evento.
En la literatura suelen encontrarse tres variantes interpretativas:
- distinct l-diversity: en cada clase de equivalencia aparecen al menos l valores distintos del atributo sensible,
- entropy l-diversity: la distribución de los valores del atributo sensible presenta una entropía suficientemente alta,
- recursive (c, l)-diversity: además limita el predominio de los valores más frecuentes para evitar una diversidad solo aparente.
La condición simplificada para entropy l-diversity puede expresarse así:
H(S) = - Σ p(s) log p(s) >= log(l)
donde H(S) es la entropía de la distribución del atributo sensible en una determinada clase de equivalencia, y p(s) es la probabilidad de aparición del valor s.
Parámetro | Significado | Importancia práctica para datos de vídeo
|
|---|---|---|
k | Tamaño de la clase de equivalencia | Número mínimo de registros con los mismos cuasiidentificadores |
l | Diversidad mínima del atributo sensible | Limita la posibilidad de adivinar una característica confidencial del evento o de la persona |
Entropía | Medida de la diversidad de la distribución | Protege frente a clases dominadas por un único valor |
Limitaciones de la l-diversity en la protección de la privacidad de materiales visuales
La l-diversity no es un modelo suficiente para todo el proceso de anonimización de imágenes y vídeos. En la literatura se ha señalado que puede fallar en distribuciones de datos muy sesgadas y cuando existe similitud semántica entre los valores del atributo sensible. Este problema se describió, entre otros contextos, en la evolución posterior hacia el modelo t-closeness, presentado por N. Li, T. Li y S. Venkatasubramanian en 2007.
En la práctica, para materiales visuales, las limitaciones son las siguientes:
- el modelo no protege la imagen en sí misma si el rostro o la matrícula siguen siendo visibles,
- el modelo no resuelve el problema de la identificación por el contexto de la escena, por ejemplo un lugar característico o un vehículo único,
- el modelo es difícil de aplicar a material bruto no estructurado sin transformarlo previamente a formato tabular,
- la mera condición del número de valores distintos puede ser demasiado débil si esos valores son semánticamente muy parecidos entre sí.
Contexto práctico de aplicación en un entorno on-premise
En entornos alineados con el principio de minimización de datos, un enfoque razonable consiste en combinar varias capas de protección. En primer lugar, debe anonimizarse el material visual mediante el difuminado de rostros y matrículas. Después, es necesario limitar el alcance de los metadatos y evaluar el riesgo de reidentificación en los conjuntos de datos derivados.
En el caso de las soluciones on-premise, una ventaja adicional es el mayor control sobre el flujo de datos, la retención y la política de acceso. Sin embargo, esto no cambia el hecho de que la seguridad de los datos también depende de qué conjuntos de exportación se generen una vez finalizado el procesamiento. La l-diversity puede utilizarse como criterio de auditoría para informes, estadísticas y registros de eventos construidos a partir de grabaciones procesadas.
Referencias normativas y fuentes
La l-diversity no es un estándar legal ni una norma ISO. Es un modelo científico utilizado en la ingeniería de la privacidad. Al evaluar la conformidad del tratamiento de imagen y vídeo, debe considerarse una herramienta de apoyo, no un sustituto de las obligaciones derivadas de la normativa de protección de datos. Para el tratamiento de materiales visuales, tienen una importancia fundamental el RGPD, en particular los principios de minimización de datos, privacy by design y la evaluación del riesgo para los derechos y libertades de los interesados.
- Machanavajjhala A., Kifer D., Gehrke J., Venkitasubramaniam M., "l-Diversity: Privacy Beyond k-Anonymity", ACM Transactions on Knowledge Discovery from Data, 1(1), 2007.
- Li N., Li T., Venkatasubramanian S., "t-Closeness: Privacy Beyond k-Anonymity and l-Diversity", ICDE 2007, IEEE.
- Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016 - RGPD.