¿Qué es el seguimiento de múltiples objetos (MOT)?

Tabla de contenidos

Seguimiento de múltiples objetos (MOT): definición
El papel del seguimiento de múltiples objetos en la anonimización de fotos y vídeos
Tecnologías utilizadas en el seguimiento de múltiples objetos
Parámetros y métricas clave del seguimiento de múltiples objetos
Retos y limitaciones del seguimiento de múltiples objetos
Referencias normativas y contexto práctico de uso

Seguimiento de múltiples objetos (MOT): definición

El seguimiento de múltiples objetos, o Multi-Object Tracking (MOT), es una tarea del ámbito del análisis de imagen y vídeo que consiste en rastrear simultáneamente varios objetos a lo largo de fotogramas consecutivos de una grabación. El objetivo no es solo detectar un objeto en un único fotograma, sino mantener una identidad coherente en el tiempo pese al movimiento, las oclusiones parciales, los cambios de escala, iluminación y ángulo de visión. En la literatura técnica, el MOT suele definirse como un problema de estimación de trayectorias de múltiples objetos a partir de una secuencia de observaciones visuales. Este enfoque se utiliza, entre otros, en los benchmarks MOTChallenge desarrollados desde 2015, así como en publicaciones de IEEE y Springer sobre visión por computador.

En el contexto de la anonimización de fotos y grabaciones de vídeo, el MOT tiene una utilidad práctica. Un detector de rostros o de matrículas solo indica el objeto en un fotograma concreto. En cambio, el mecanismo de seguimiento permite asignar un identificador al mismo objeto a lo largo del tiempo y mantener la continuidad del enmascaramiento entre fotogramas. Gracias a ello, el desenfoque de rostros o el difuminado de matrículas es más estable y menos propenso a parpadeos, pérdidas de detección y desplazamientos erróneos del área de la máscara. En los sistemas de anonimización offline, el MOT actúa por tanto como una capa que refuerza el procesamiento coherente del vídeo, y no como un objetivo de negocio independiente.

En la práctica, un modelo MOT funciona sobre datos de entrada procedentes de la detección de objetos. En la anonimización de vídeo, esto suele significar la combinación de dos etapas: primero, un modelo de IA detecta rostros o matrículas y, a continuación, un algoritmo de seguimiento enlaza las detecciones de fotogramas consecutivos en trayectorias. Solo sobre esa base se aplica la máscara, el desenfoque o la pixelación. El deep learning es necesario aquí principalmente para crear modelos de detección y, cada vez más, también modelos de reidentificación y asociación de objetos, que mejoran la calidad del seguimiento.

El papel del seguimiento de múltiples objetos en la anonimización de fotos y vídeos

En el caso de una imagen única, el MOT no se aplica, porque no existe dimensión temporal. Su relevancia aparece en las grabaciones de vídeo, donde el mismo objeto está presente en muchos fotogramas consecutivos. Para un Delegado de Protección de Datos o para la persona responsable de publicar materiales, es importante no solo si un rostro ha sido detectado, sino también si ha sido difuminado de forma consistente durante todo el tiempo en que aparece en el material.

En un sistema de anonimización, el seguimiento de múltiples objetos contribuye sobre todo a la estabilidad y la integridad del enmascaramiento. Esto influye en el riesgo de divulgar datos personales a través de fotogramas individuales sin anonimizar.

mantiene la continuidad del seguimiento del mismo rostro o de la misma matrícula entre fotogramas,
reduce el efecto de parpadeo de la máscara cuando desciende temporalmente la calidad de la detección,
permite predecir la posición del objeto durante oclusiones breves,
disminuye el número de situaciones en las que el objeto queda difuminado solo parcialmente o con retraso,
facilita el control de calidad de la anonimización a nivel de toda la secuencia, y no de un único fotograma.

Conviene precisar el alcance. En software de anonimización como Gallio PRO, la automatización se aplica a rostros y matrículas. Por ello, el MOT puede ayudar a difuminar de forma estable estas dos clases de objetos. Esto no implica la detección automática de logotipos, tatuajes, placas identificativas, documentos o contenido mostrado en pantallas de monitor. Esos elementos pueden requerir trabajo manual en el editor, salvo que el sistema incorpore modelos específicos para su detección.

Tecnologías utilizadas en el seguimiento de múltiples objetos

Los sistemas modernos de MOT combinan métodos clásicos de estimación del movimiento con modelos de aprendizaje automático. En la práctica se emplea la arquitectura tracking-by-detection, es decir, seguimiento basado en resultados sucesivos de detección. Actualmente, este es el enfoque dominante en aplicaciones industriales y de investigación.

Un pipeline típico incluye varias etapas técnicas:

detección de objetos: por ejemplo, de rostros o matrículas en cada fotograma,
predicción del movimiento: a menudo mediante el filtro de Kalman, descrito originalmente por R. E. Kalman en 1960,
asociación de datos: emparejamiento de nuevas detecciones con trayectorias existentes, a menudo con el algoritmo húngaro,
características de apariencia: embeddings de reidentificación que ayudan a diferenciar objetos similares,
gestión de oclusiones y finalización de trayectorias: reglas para iniciar, mantener y cerrar tracks.

Entre los métodos conocidos se encuentran SORT, de 2016, y Deep SORT, de 2017. SORT se basa principalmente en la geometría y el movimiento, por lo que es rápido, pero gestiona peor las oclusiones frecuentes. Deep SORT amplía este modelo con descriptores de apariencia, lo que normalmente mejora la resistencia a los cambios de identificador. Entre 2021 y 2023 también fueron ampliamente citados enfoques como ByteTrack y BoT-SORT, que mejoraron los resultados en los benchmarks MOTChallenge gracias a un mejor aprovechamiento de detecciones con menor nivel de confianza.

Parámetros y métricas clave del seguimiento de múltiples objetos

La evaluación del MOT no debería basarse únicamente en la eficacia de la detección. En la anonimización de vídeo también importan la continuidad del seguimiento y el riesgo de perder el objeto entre fotogramas. En la literatura se utiliza un conjunto de métricas benchmark estandarizadas.

Métrica	Significado	Interpretación en anonimización
MOTA	Multi-Object Tracking Accuracy: combina falsos positivos, falsos negativos y cambios de identificador	Un valor más alto indica menos errores generales de seguimiento
MOTP	Medida de la precisión de localización de las correspondencias en protocolos de evaluación MOT más antiguos	Influye en la precisión de la posición de la máscara de desenfoque
IDF1	Medida de la consistencia de la identificación a lo largo del tiempo	Importante para la coherencia del difuminado del mismo objeto
HOTA	Higher Order Tracking Accuracy: métrica que combina detección y asociación	Refleja bien la calidad real del seguimiento de trayectorias completas
FPS / latencia	Velocidad de procesamiento y retraso	Operativamente relevantes, aunque Gallio PRO no realiza anonimización en tiempo real

Para mayor claridad, conviene indicar la relación simple utilizada en la literatura para MOTA:

MOTA = 1 - (FN + FP + IDSW) / GT

donde FN significa objetos omitidos, FP falsas detecciones, IDSW cambios de identificador y GT el número de objetos de referencia. Las definiciones de estas métricas se utilizan, entre otros, en los benchmarks MOTChallenge y en publicaciones comparativas desde 2015.

Retos y limitaciones del seguimiento de múltiples objetos

El MOT no elimina los problemas de calidad de los datos de entrada. Si la detección de un rostro o de una matrícula es deficiente, el seguimiento también será poco fiable. Por ello, la eficacia de la anonimización depende de toda la cadena de procesamiento, y no solo del módulo de tracking.

Las limitaciones más habituales son las siguientes:

oclusiones intensas y desaparición del objeto del encuadre,
tamaño reducido del objeto y baja resolución del material,
desenfoque por movimiento y compresión con pérdida de la grabación,
gran similitud visual entre objetos en la misma escena,
cambios bruscos de plano o cortes de edición que rompen la continuidad de las trayectorias.

Desde el punto de vista del cumplimiento en materia de privacidad, esto implica la necesidad de validar el resultado final. El MOT aumenta la estabilidad del enmascaramiento, pero no sustituye el control de calidad del proceso de anonimización. Esto es especialmente importante en materiales publicados o cedidos a terceros.

Referencias normativas y contexto práctico de uso

El MOT no es un concepto definido de forma expresa en el RGPD ni en las normas de protección de datos como una obligación jurídica independiente. Se trata de una técnica de procesamiento de imagen que apoya el objetivo de una anonimización o desidentificación eficaz del material de vídeo. En la práctica, debe entenderse como una medida técnica que respalda los principios de privacy by design y privacy by default establecidos en el artículo 25 del RGPD, así como la seguridad del tratamiento prevista en el artículo 32 del Reglamento (UE) 2016/679, de 27 de abril de 2016.

En aplicaciones operativas, debe recordarse que Gallio PRO funciona en un modelo on-premise y sirve para la anonimización offline de fotos y grabaciones de vídeo. El software difumina automáticamente rostros y matrículas, pero no realiza anonimización de streaming de vídeo ni procesamiento en tiempo real. En este contexto, el MOT debe entenderse como un mecanismo para mejorar la coherencia del tratamiento de la grabación una vez cargada en el sistema, y no como una herramienta de vigilancia en tiempo real. Esto es relevante para la evaluación de riesgos, la arquitectura de implantación y el alcance de los datos operativos. Además, de acuerdo con los supuestos del sistema, los logs no deberían contener datos personales ni registros de detección de rostros y matrículas.

Ver también

Volver al glosario