¿Qué es la diarización de hablantes (Speaker Diarization)?

Diarización de hablantes: definición

La diarización de hablantes, también conocida como Speaker Diarization, es el proceso de dividir automáticamente una grabación de audio en segmentos asignados a las distintas personas que intervienen. En la práctica, responde a la pregunta: “quién habló y cuándo”, pero sin necesidad de determinar la identidad de esa persona por su nombre y apellidos. Se trata de una distinción importante tanto desde el punto de vista técnico como jurídico. La diarización no es lo mismo que el speaker recognition ni que el speaker identification. El reconocimiento de hablante se utiliza para vincular una voz con una persona concreta o con un patrón biométrico, mientras que la diarización agrupa segmentos de voz según la similitud vocal dentro de una misma grabación.

En el contexto de la anonimización de grabaciones de audio y vídeo, la diarización de hablantes es una técnica de apoyo. Por sí sola no anonimiza ni la imagen ni el sonido, pero permite señalar con precisión los fragmentos en los que habla una persona concreta. Gracias a ello, es posible aplicar de forma selectiva el silenciamiento, la modulación de voz, la eliminación de la pista de audio o combinar el resultado con el análisis de imagen, por ejemplo, mediante el difuminado automático del rostro de la persona que habla en un intervalo temporal determinado. En los sistemas de tratamiento de material probatorio, grabaciones de videovigilancia, entrevistas, interrogatorios o materiales formativos, la diarización aumenta el control sobre el alcance de la anonimización y reduce el riesgo de un tratamiento excesivo de datos.

En la literatura especializada y en los benchmarks del sector, la diarización se desarrolla y evalúa, entre otros, por el NIST en el marco de la serie Rich Transcription y de posteriores evaluaciones del habla, así como en benchmarks académicos abiertos. La métrica de calidad más utilizada es DER - Diarization Error Rate. Su forma clásica incluye errores de asignación de hablante, omisiones de habla y falsas alarmas. Las definiciones y los procedimientos de evaluación están descritos, entre otros, por el NIST y en herramientas de referencia como pyannote.metrics y dscore, que se basan en prácticas de evaluación consolidadas.

El papel de la diarización de hablantes en la anonimización de grabaciones de audio y vídeo

En el ámbito de la protección de datos, la diarización de hablantes cobra importancia cuando el material contiene intervenciones de varias personas y el alcance de la anonimización no debe abarcar la grabación completa. Esto se aplica especialmente a entrevistas, grabaciones de cámaras corporales, registros de reuniones, materiales formativos y documentación de incidentes. La simple detección de rostros no es suficiente si la identificación de la persona también puede derivarse de la voz.

Desde el punto de vista práctico del tratamiento de contenidos multimedia, la diarización ayuda, entre otras cosas, a las siguientes operaciones:

  • dividir la pista de audio en segmentos asignados a distintos hablantes,
  • vincular la actividad de voz con la línea temporal de la grabación de vídeo,
  • silenciar o modificar selectivamente la voz de un hablante concreto,
  • facilitar la verificación manual cuando la anonimización automática debe limitarse a fragmentos concretos,
  • reducir el volumen de datos sometidos a tratamiento posterior.

En el contexto de Gallio PRO, conviene añadir una limitación funcional relevante. El software difumina automáticamente rostros y matrículas en fotos y grabaciones de vídeo. No realiza la anonimización automática de la voz, no lleva a cabo anonimización en tiempo real y no procesa el flujo de vídeo en modo live. Por ello, aquí la diarización de hablantes no debe entenderse como una función nativa de enmascaramiento automático de audio, sino como un concepto importante dentro de un proceso más amplio de tratamiento conforme de materiales audiovisuales, en el que algunas operaciones pueden requerir herramientas independientes o actuaciones manuales.

Cómo funciona la diarización de hablantes: etapas y tecnologías

La diarización moderna suele basarse en varias etapas de procesamiento de señal. En los sistemas más antiguos predominaban los modelos GMM y los i-vectores. En las soluciones más recientes se utilizan embeddings de hablante generados por redes profundas, como los x-vectors, ECAPA-TDNN o modelos end-to-end. En la actualidad, el deep learning es el enfoque dominante, especialmente cuando el objetivo es diferenciar hablantes de forma estable en entornos ruidosos, con solapamiento de intervenciones y con calidad variable de grabación.

El pipeline técnico típico incluye:

  1. VAD - Voice Activity Detection, es decir, la detección de los tramos que contienen habla.
  2. Segmentación, o división del habla en fragmentos analíticos más breves.
  3. Extracción de características o embeddings de hablante.
  4. Clustering, es decir, agrupación de los segmentos que pertenecen al mismo hablante.
  5. Re-segmentación y suavizado de los límites temporales.
  6. De forma opcional, gestión del habla solapada, es decir, situaciones en las que habla más de una persona al mismo tiempo.

En las grabaciones de vídeo se aplica cada vez más un enfoque audiovisual. Esto significa combinar la señal de audio con la detección de rostros, el seguimiento facial entre fotogramas y la estimación del movimiento de los labios. Esta combinación puede mejorar la asignación de las intervenciones a la persona visible en pantalla, pero requiere una calibración temporal cuidadosa y una buena calidad de los datos de entrada.

Parámetros y métricas clave de la diarización de hablantes

La evaluación de la calidad de la diarización de hablantes debe basarse en métricas reproducibles y metodológicamente descritas. La más importante es DER, pero un valor porcentual por sí solo, sin describir las condiciones de la prueba, puede resultar engañoso. El resultado depende de si se permitió el llamado collar en los límites de los segmentos, de si se tuvo en cuenta el habla solapada y de cómo se calcularon los errores de asignación.

Parámetro / métrica

Significado

Observaciones prácticas

 

DER - Diarization Error Rate

Error total de diarización

Incluye miss, false alarm y confusion

JER - Jaccard Error Rate

Error basado en la cobertura de segmentos

Se utiliza como complemento; refleja mejor la calidad de las asignaciones por hablante

Latency

Latencia de procesamiento

Importante en procesamiento en flujo o grandes volúmenes, aunque no aplica al tiempo real en Gallio PRO

Overlap handling

Gestión del habla solapada

Crítica en reuniones y entrevistas grupales

Speaker count error

Error en el número de hablantes detectados

Afecta a la corrección de la anonimización posterior

De forma simplificada, puede expresarse así:

DER = E_miss + E_fa + E_conf

donde E_miss indica el habla omitida, E_fa el habla detectada falsamente y E_conf la asignación incorrecta de un segmento a un hablante. Esta formulación es coherente con la manera consolidada de informar resultados en las evaluaciones del NIST y en publicaciones científicas.

Retos y limitaciones de la diarización de hablantes

La diarización es una tarea computacionalmente compleja y sensible a la calidad de los datos. En aplicaciones relacionadas con la protección de la privacidad, resulta especialmente importante tener en cuenta que una diarización incorrecta puede dar lugar a una anonimización incompleta o, por el contrario, a un ocultamiento excesivo de contenidos que no requieren protección.

Las limitaciones más habituales incluyen:

  • ruido de fondo y reverberación,
  • habla solapada,
  • intervenciones breves y cambios frecuentes de hablante,
  • compresión de audio elevada,
  • grabaciones multicanal y fuentes no sincronizadas,
  • diferencias entre idiomas, acentos y estilos de habla.

Desde la perspectiva del DPD y de los equipos de compliance, esto significa que la diarización no debe considerarse una prueba de anonimización completa. Es una herramienta de apoyo. En procesos de mayor riesgo, se necesita validación humana del resultado, especialmente cuando el material va a publicarse o a compartirse fuera de la organización.

Referencias legales y normativas

La diarización de hablantes no está definida de forma independiente en el RGPD ni en la normativa sectorial polaca. La relevancia de este concepto deriva de la función que desempeña en el tratamiento de datos personales dentro de material audiovisual. Si la voz permite identificar a una persona directa o indirectamente, puede constituir un dato personal en el sentido del artículo 4.1 del RGPD. Si el sistema se utilizara para confirmar de forma inequívoca la identidad a partir de la voz, en determinadas condiciones podría entrar en el ámbito de los datos biométricos del artículo 4.14 del RGPD. No obstante, la diarización por sí sola, por regla general, no tiene por qué conducir a la identificación de una persona concreta.

En la práctica, deben tomarse como referencia los principios del artículo 5 del RGPD, en particular los de minimización de datos, integridad y confidencialidad, así como el de responsabilidad proactiva. En una evaluación de impacto relativa a la protección de datos, conviene describir si la diarización se utiliza exclusivamente para segmentación técnica o también para el perfilado posterior o la identificación de hablantes. Para los sistemas de IA también es importante tener en cuenta normas de seguridad de la información, como ISO/IEC 27001:2022, así como buenas prácticas de gestión de la privacidad, como ISO/IEC 27701:2019.

Ejemplos de uso de la diarización de hablantes en la práctica

En materiales multimedia, la diarización de hablantes resulta especialmente útil cuando es necesario distinguir con precisión a las personas que aparecen o intervienen en una grabación. En el ámbito de la protección de la privacidad, permite limitar el alcance del tratamiento y documentar mejor el proceso de anonimización.

  • grabaciones de interrogatorios o conversaciones: identificación de los fragmentos que requieren ocultar la voz de una persona concreta,
  • reuniones y videoconferencias: asignación de intervenciones a participantes y edición selectiva del material,
  • materiales formativos: eliminación de las intervenciones de terceros manteniendo el valor sustantivo de la grabación,
  • análisis de incidentes: vinculación de la línea temporal del habla con la línea temporal de rostros o matrículas difuminados.

Si una organización utiliza Gallio PRO para la anonimización de imagen, la diarización puede tratarse como un elemento auxiliar del proceso para la capa de audio, realizado fuera del propio módulo de difuminado automático de rostros y matrículas.