¿Qué es la detección de actividad de voz (VAD)?

La detección de actividad de voz (VAD), también conocida como detección de voz, es una técnica de procesamiento de señales de audio que permite distinguir los fragmentos que contienen habla del silencio, el ruido de fondo y otros sonidos no verbales. En la práctica, un sistema VAD asigna a cada trama de la señal la etiqueta “speech” o “non-speech” y, en algunos casos, también una probabilidad de presencia de voz. Se trata de un concepto bien consolidado en telecomunicaciones, reconocimiento de voz y sistemas de conferencia, entre otros, en documentos de 3GPP, ETSI e ITU-T sobre procesamiento de voz y códecs con mecanismos DTX y VAD.

Detección de actividad de voz (VAD): definición

Desde un punto de vista técnico, la VAD es un algoritmo de decisión que suele operar sobre segmentos cortos de audio, normalmente de entre 10 y 30 ms. Para cada trama se calculan características acústicas y, a continuación, un modelo o un conjunto de reglas determina si en ese fragmento hay habla. Los sistemas clásicos utilizan la energía de la señal, la tasa de cruces por cero, características espectrales y estimación del nivel de ruido. Las soluciones más recientes emplean modelos de aprendizaje automático y deep learning, incluidas redes CNN, RNN, CRNN y transformadores, entrenados con conjuntos de grabaciones etiquetadas.

En el contexto de la anonimización de fotos y grabaciones de vídeo, la VAD no se utiliza para detectar rostros ni matrículas. Su función se limita a la capa de audio. Permite determinar en qué fragmentos de la grabación hay realmente habla que requiere análisis posterior, transcripción, silenciamiento, eliminación o modificación. Esto es especialmente importante cuando el material de vídeo contiene datos personales no solo en la imagen, sino también en el audio, por ejemplo, un nombre, un apellido, una dirección u otra información pronunciada por la persona grabada. Por tanto, la VAD constituye una etapa auxiliar dentro del proceso de protección de la privacidad en materiales audiovisuales, pero por sí sola no realiza la anonimización de la imagen.

En la literatura y en la práctica suelen encontrarse dos enfoques. El primero trata la VAD como una clasificación simple entre habla y ausencia de habla. El segundo amplía el alcance a la detección del inicio y del final de la intervención, es decir, endpoint detection. Esta distinción tiene importancia práctica, porque un sistema puede detectar correctamente la presencia de habla y, al mismo tiempo, delimitar mal los bordes de los segmentos, lo que dificulta el procesamiento posterior.

El papel de la detección de actividad de voz (VAD) en la anonimización audiovisual

En los sistemas de procesamiento de grabaciones, la VAD suele ser una de las etapas del pipeline analítico. Permite reducir la cantidad de fragmentos enviados a modelos más costosos, como ASR, diarización o detección de palabras clave. Desde el punto de vista del DPD, esto tiene relevancia operativa y de cumplimiento, ya que la minimización del tratamiento es uno de los principios básicos establecidos en el art. 5.1.c del RGPD.

En materiales destinados a su publicación o difusión, la VAD puede respaldar procesos como:

  • la separación de fragmentos que contienen intervenciones orales para su verificación posterior,
  • el silenciamiento automático de tramos con habla cuando la política de publicación exige eliminar toda la capa verbal,
  • la preparación de la entrada para un sistema de reconocimiento de voz que posteriormente identifica contenidos que requieren edición,
  • la aceleración del trabajo manual del operador mediante el marcado de los tramos que deben escucharse.

En el caso del software Gallio PRO, es clave diferenciar el alcance funcional. Gallio PRO difumina automáticamente rostros y matrículas en el material visual. No realiza la anonimización del flujo de audio ni la anonimización en tiempo real. Por tanto, el concepto de VAD debe entenderse como un componente relacionado con la pista de audio dentro de un proceso más amplio de protección de datos, y no como un mecanismo de difuminado automático de rostros o matrículas.

Tecnologías utilizadas en la detección de actividad de voz (VAD)

La elección de la tecnología VAD depende de la calidad de la grabación, de los requisitos de latencia y de las condiciones acústicas. En la práctica, se utilizan tanto métodos clásicos como modelos neuronales.

Enfoque

Descripción

Ventajas

Limitaciones

 

Basado en umbrales y energía

Decisión basada en la energía de la señal y en características temporales simples

Bajo coste computacional, baja latencia

Escasa resistencia al ruido y a los cambios en el nivel de fondo

Estadístico

Modelos de contraste de hipótesis, estimación de SNR, modelos de fondo acústico

Mayor estabilidad que los métodos basados en umbrales

Sensibilidad al ruido no estacionario

Aprendizaje automático

SVM, GMM, árboles, clasificadores basados en características MFCC y espectrales

Mejor adaptación a los datos

Requiere datos de entrenamiento y ajuste

Deep learning

CNN, LSTM, CRNN, transformadores entrenados end-to-end

Alta eficacia en condiciones difíciles

Mayores exigencias computacionales y riesgo de pérdida de calidad fuera del dominio de entrenamiento

En sistemas de producción también suele aplicarse un suavizado temporal de las decisiones, por ejemplo, mediante reglas de hangover. Esto significa mantener la etiqueta “speech” durante algunas tramas adicionales tras una caída momentánea de energía, para evitar recortar finales de palabras y pausas breves dentro de una intervención.

Parámetros y métricas clave de la detección de actividad de voz (VAD)

La evaluación de la calidad de una VAD no debería limitarse a un único indicador. Para el procesamiento de grabaciones son importantes tanto los errores de clasificación como la latencia y la estabilidad de la segmentación.

  • Frame length - normalmente 10, 20 o 30 ms. Las tramas más cortas ofrecen mejor resolución temporal, pero aumentan la sensibilidad a las interferencias.
  • Frame shift - a menudo 10 ms. Determina cada cuántos milisegundos se toma una decisión.
  • Latency - retraso de la decisión. En aplicaciones offline puede ser mayor; en sistemas interactivos normalmente se busca que sea de unas decenas de milisegundos.
  • False Acceptance Rate - porcentaje de tramas sin habla clasificadas erróneamente como habla.
  • False Rejection Rate - porcentaje de tramas con habla rechazadas por error.
  • Precision y recall - métricas útiles cuando los datos están desbalanceados.
  • F1-score - media armónica de precision y recall.
  • Detection Error Tradeoff (DET) - análisis del compromiso entre omisión de habla y falsas alarmas.
  • Robustness vs. SNR - eficacia en función de la relación señal-ruido, normalmente expresada en dB.

La forma más simple de expresar precisión y sensibilidad es:

precision = TP / (TP + FP)

recall = TP / (TP + FN)

F1 = 2 precision recall / (precision + recall)

En aplicaciones relacionadas con la protección de la privacidad, un false rejection elevado suele ser más problemático, porque un fragmento de habla omitido puede no llegar a las fases posteriores de análisis y edición. Por su parte, un false acceptance demasiado alto incrementa el coste del procesamiento y el número de alarmas innecesarias, aunque normalmente es menos arriesgado desde la perspectiva de la protección de datos.

Retos y limitaciones de la detección de actividad de voz (VAD)

La eficacia de la VAD depende en gran medida de la calidad del material de origen. Las grabaciones procedentes de cámaras, registradores móviles y sistemas de videovigilancia suelen contener reverberación, viento, tráfico, voces superpuestas y compresión con pérdidas. Todo ello dificulta distinguir de forma fiable el habla del fondo.

  • las intervenciones breves y las palabras aisladas son más fáciles de pasar por alto,
  • la risa, los gritos, la tos y otras vocalizaciones pueden clasificarse erróneamente como habla,
  • las grabaciones con varias personas hablando al mismo tiempo empeoran la calidad de la segmentación,
  • un modelo entrenado con conversaciones telefónicas puede funcionar peor en grabaciones de campo,
  • la VAD no reconoce el contenido de la intervención ni indica si el habla contiene datos personales.

Por este motivo, la VAD debe considerarse una herramienta auxiliar. El simple resultado “speech detected” no constituye por sí mismo una base para evaluar si el material cumple los requisitos de protección de datos. Es necesario combinarlo con etapas posteriores de análisis o con la supervisión de un operador.

Referencias normativas y fuentes sobre la detección de actividad de voz (VAD)

El concepto de VAD está ampliamente presente en documentos de normalización de telecomunicaciones y codificación de voz. En la práctica, conviene remitirse a las fuentes primarias, ya que la terminología y los detalles de implementación pueden variar entre estándares.

  • ETSI/3GPP GSM/AMR - documentos de estandarización relativos a la VAD para sistemas GSM y códecs AMR, publicados por ETSI y 3GPP.
  • 3GPP TS 26.094 - especificación del códec AMR de tasa adaptativa múltiple, que incluye aspectos de VAD, DTX y generación de ruido confortable.
  • ITU-T G.729 Annex B - anexo que define VAD, DTX y Comfort Noise Generation para el códec G.729, de la Unión Internacional de Telecomunicaciones.
  • ITU-T G.723.1 Annex A - ampliación que incluye mecanismos de VAD y CNG.
  • Reglamento (UE) 2016/679 - RGPD, relevante en lo relativo a la minimización del tratamiento y la adecuación de las medidas técnicas en el procesamiento de grabaciones audiovisuales.

En el contexto del cumplimiento normativo, debe subrayarse que los estándares de telecomunicaciones describen cómo detectar la voz, pero no determinan cuándo un fragmento de audio contiene datos personales. Esta evaluación depende de la finalidad del tratamiento, del contexto del material y de la posibilidad de identificar a la persona.