¿Qué es la biometría de voz (voice biometrics)?

Tabla de contenidos

Biometría de voz - definición
El papel de la biometría de voz en la anonimización de vídeos e imágenes
Tecnologías y arquitecturas utilizadas en biometría de voz
Parámetros y métricas clave en biometría de voz
Retos y limitaciones
Ejemplos de aplicación práctica en la anonimización
Referencias normativas y fuentes

Biometría de voz - definición

La biometría de voz (voice biometrics) es un conjunto de métodos de identificación o verificación de identidad basados en las características del habla y la acústica de la voz. Estos sistemas crean un perfil del hablante (por ejemplo, un vector de características o embedding) y luego lo comparan con patrones de referencia. Desde el punto de vista jurídico, se consideran datos biométricos cuando se tratan con el fin de identificar de manera unívoca a una persona física. De acuerdo con el RGPD, en ese caso constituyen una categoría especial de datos y requieren el cumplimiento de los requisitos del art. 9, así como medidas de protección reforzadas.

En el contexto de la anonimización de vídeos e imágenes, la biometría de voz se refiere a la pista de audio de los archivos de vídeo. Incluso después de difuminar rostros y matrículas, una persona puede ser reconocida por su voz. Por ello, la evaluación de riesgos y el diseño de procesos de anonimización de materiales audiovisuales deben tener en cuenta la posible identificación de los hablantes y la necesidad de modificar, enmascarar o silenciar el audio.

El papel de la biometría de voz en la anonimización de vídeos e imágenes

En la práctica de la anonimización multimedia, la biometría de voz actúa como marco de referencia: permite estimar el riesgo de reidentificación de personas a partir del habla. No se trata de reconocer a individuos durante el proceso de anonimización, sino de comprender qué características de la voz permiten la identificación y qué transformaciones reducen ese riesgo.

Evaluación de riesgos y EIPD (DPIA): la voz puede permitir la identificación en materiales con rostros difuminados, especialmente en intervenciones largas o con timbres característicos. La EIPD debe contemplar este riesgo y las medidas compensatorias.
Detección de segmentos de habla: identificación de los fragmentos con voz en la pista de audio para aplicar selectivamente silenciamiento, modulación o sustitución de voz.
Diarización: separación de hablantes que permite aplicar distintos niveles de modificación según la base jurídica o los consentimientos disponibles.
Validación de efectos: tras la transformación de la voz, puede verificarse si la similitud de los embeddings con muestras conocidas ha descendido por debajo de un umbral establecido, lo que respalda la reducción de la identificabilidad.

Gallio PRO automatiza el difuminado de rostros y matrículas en modo offline y on-premise. El software no realiza reconocimiento de voz ni anonimización de audio. Cuando sea necesario enmascarar la voz, deben utilizarse herramientas y procesos independientes, documentando los resultados en la EIPD.

Tecnologías y arquitecturas utilizadas en biometría de voz

En los sistemas modernos de biometría de voz predominan técnicas de aprendizaje profundo que generan representaciones compactas y robustas frente al ruido y a los cambios de canal. A continuación, se describen los componentes clave y su papel en la evaluación de riesgos y la sanitización de audio.

Extracción de características: MFCC clásicos y embeddings profundos, como x-vectors y ECAPA-TDNN, entrenados con grandes conjuntos de datos de voz diversos.
Verificación e identificación: comparación de embeddings mediante medidas de similitud coseno o clasificadores PLDA. En anonimización, estos métodos sirven para evaluar la vinculabilidad antes y después de la modificación de la voz.
Diarización: segmentación por hablantes mediante VAD, embeddings y técnicas de agrupamiento (por ejemplo, clustering espectral), lo que permite el tratamiento selectivo del audio.
Protección frente a ataques de presentación (PAD): mecanismos que detectan reproducciones de grabaciones o síntesis de voz, relevantes para evaluar riesgos de uso indebido.

Si un vídeo, tras difuminar los rostros, sigue conteniendo audio, la práctica habitual es detectar el habla y modificarla (por ejemplo, voice conversion, pitch shifting) o silenciar completamente la pista cuando lo exija el principio de minimización de datos.

Parámetros y métricas clave en biometría de voz

La eficacia y seguridad del tratamiento de la voz se evalúan mediante métricas estandarizadas. En la anonimización, se aplican principalmente para medir el riesgo de vinculabilidad del hablante tras la transformación del audio.

Métrica	Definición	Unidad	Relevancia para la anonimización
EER	Equal Error Rate: punto en el que la tasa de falsas aceptaciones es igual a la de falsos rechazos	%	Cuanto mayor sea tras la modificación, menor será la distinguibilidad entre hablantes
FMR / FNMR	False Match Rate y False Non-Match Rate según ISO/IEC 19795-1	%	Control del umbral de similitud de los embeddings antes y después de la transformación
minDCF	Minimal Detection Cost Function según los protocolos NIST SRE	adimensional	Coste agregado de errores, útil para comparar métodos de modificación
DER	Diarization Error Rate: suma de omisiones, falsas alarmas y asignaciones incorrectas dividida por el tiempo total de habla	%	Evaluación de la calidad de separación de hablantes para tratamiento selectivo
Latencia	Tiempo de procesamiento por minuto de audio en una configuración determinada	ms o x tiempo real	Planificación de la anonimización por lotes de materiales de vídeo

En la práctica, en canales telefónicos es habitual el muestreo a 8 kHz, mientras que en grabaciones con micrófono se utilizan 16 kHz o más. Esta elección influye en las características y modelos empleados y debe ser coherente con el protocolo de evaluación adoptado.

Retos y limitaciones

Las implementaciones relacionadas con la voz implican diversos riesgos técnicos y jurídicos. En la anonimización, deben identificarse y documentarse para justificar las medidas adoptadas.

Desajuste de dominio: cambios de canal, condiciones acústicas y ruido afectan a la comparabilidad de los embeddings, lo que debe considerarse en la evaluación de riesgos.
Ataques de presentación: reproducciones y síntesis de voz requieren mecanismos PAD descritos en la norma ISO/IEC 30107.
Protección de plantillas: la norma ISO/IEC 24745 aborda la protección de la información biométrica, incluida la limitación de la vinculabilidad y el riesgo de reconstrucción de datos biométricos a partir de plantillas.
Base jurídica: el tratamiento de la voz para identificar de forma unívoca a una persona puede constituir tratamiento de categorías especiales de datos según el art. 9 del RGPD y requiere una base jurídica adecuada y, según el riesgo, una EIPD.
Documentación y registros: los sistemas de tratamiento de vídeo deben limitar el alcance de los logs. Gallio PRO no recopila registros de detección de rostros y matrículas ni datos sensibles.

Ejemplos de aplicación práctica en la anonimización

En instituciones que publican vídeos con personas privadas, la gestión del riesgo de identificación por voz forma parte de la política de privacidad. A continuación, un esquema de acciones a considerar.

Extracción de pistas con habla y clasificación de escenas según el riesgo de identificación.
Selección de la medida: silenciamiento total, enmascaramiento parcial o transformación del timbre, justificada por proporcionalidad y minimización de datos.
Evaluación: comparación de embeddings antes y después de la transformación para demostrar la reducción de la similitud por debajo del umbral establecido.
Integración en el pipeline: Gallio PRO realiza el difuminado de rostros y matrículas en modo on-premise y offline, mientras que el tratamiento de audio se lleva a cabo en una herramienta independiente.

Referencias normativas y fuentes

Los siguientes documentos definen términos, métricas y requisitos relativos a datos biométricos y a la evaluación de sistemas de reconocimiento de hablantes.

Reglamento (UE) 2016/679 (RGPD) - art. 4.14, art. 9 y considerando 51. Texto oficial: EUR-Lex.
European Data Protection Board, Directrices 3/2019 sobre el tratamiento de datos personales mediante dispositivos de vídeo, versión 2.0, 29.01.2020 - referencias a la grabación de audio en videovigilancia. EDPB.
ISO/IEC 19795-1:2021 - Information technology - Biometric performance testing and reporting - Part 1: Principles and framework. ISO/IEC.
ISO/IEC 24745:2022 - Information security - Biometric information protection. ISO/IEC.
ISO/IEC 30107-3:2017 - Biometric presentation attack detection - Part 3: Testing and reporting. ISO/IEC.
NIST, Speaker Recognition Evaluations (SRE) - alcance, protocolos y métricas minDCF y EER. nist.gov.
D. Snyder et al., X-vectors: Robust DNN embeddings for speaker recognition, ICASSP 2018.
B. Desplanques et al., ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation, Interspeech 2020.

Ver también

Volver al glosario