¿Qué es la visión por computador?

Definición

La visión por computador es una subdisciplina de la inteligencia artificial (IA) y el aprendizaje automático (ML) centrada en permitir que los sistemas informáticos adquieran, procesen, analicen e interpreten automáticamente datos visuales —tales como imágenes estáticas, flujos de vídeo, entradas sensoriales multidimensionales (por ejemplo, nubes de puntos o mapas de profundidad)— con el propósito de derivar información significativa o impulsar la toma de decisiones autónoma. Wikipedia+2IBM+2

Desde una perspectiva teórica, la visión por computador "busca automatizar tareas que el sistema visual humano puede realizar". Wikipedia

En contextos impulsados por tecnología, pretende empoderar a las máquinas para "ver, observar y comprender" entrada visual, similar a la visión humana, pero utilizando cámaras, sensores y algoritmos. IBM+1

En el contexto de la anonimización de imágenes y vídeos, la visión por computador sirve como fundamento técnico: permitiendo la detección, localización y seguimiento de elementos de identificación personal (rostros, matrículas, etc.), posibilitando así operaciones de anonimización posteriores (enmascaramiento, difuminado, redacción).

Ámbitos de aplicación y relevancia

Dominio

Ejemplo de caso de uso

Relevancia para manejo de datos visuales / anonimización

Seguridad pública / vigilancia

Análisis de multitudes, detección de intrusiones

Requiere anonimización de individuos sin consentimiento en transmisiones de vídeo

Automoción (ADAS / vehículos autónomos)

Detección de peatones/vehículos/carriles

Las transmisiones visuales capturadas por vehículos deben respetar regulaciones de privacidad

Sanidad e imagen médica

Diagnóstico automatizado a partir de escáneres (rayos X/RMN)

Las imágenes de pacientes son sensibles y frecuentemente requieren desidentificación

Industrial y manufactura

Inspección visual de líneas de producción

Las cámaras pueden capturar trabajadores o elementos sensibles: puede necesitarse anonimización

Comercio minorista y analítica de clientes

Seguimiento de comportamiento del cliente, reconocimiento de productos

La analítica visual debe considerar privacidad y protección de datos cuando personas son visibles

Tecnologías y métodos fundamentales

Componentes técnicos clave

Tecnología

Propósito

Notas

Redes Neuronales Convolucionales (CNN)

Extracción de características de datos de imagen, clasificación y detección

Fundamentales para muchos modelos de visión por computador

Segmentación semántica e instancia

Etiquetado a nivel de píxel de objetos/regiones

Permite enmascaramiento detallado más allá de cuadros delimitadores

Detección de objetos

Localización y clasificación de objetos en imágenes o fotogramas

Genera cuadros delimitadores / máscaras: esencial para anonimización

Seguimiento de objetos

Seguimiento de objetos a través de fotogramas secuenciales (vídeo)

Asegura consistencia de anonimización a lo largo del tiempo

Reconocimiento Óptico de Caracteres (OCR)

Extracción de texto de imágenes/vídeo (p. ej., matrículas)

Respalda la anonimización de información personal identificable textual en transmisiones visuales

Estimación de profundidad / Reconstrucción 3D

Recuperación de estructura 3D o profundidad a partir de datos visuales

Ayuda en comprensión de escenas cuando datos multisensoriales están disponibles

Modelos de atención / transformadores en visión

Modelado de dependencias espaciales/temporales en datos visuales

Emergentes en sistemas CV avanzados para rendimiento robusto arXiv

Métricas de calidad y objetivos de rendimiento

Métrica

Rango de referencia / objetivo típico

Importancia en visión en tiempo real / anonimización

Exactitud (clasificación)

p. ej., ≥ 90% en entornos controlados

Indica corrección de subsistemas de clasificación

mAP (Precisión Promedio Media) para detección

~0,5-0,9 dependiendo del conjunto de datos/complejidad

Mide qué tan bien se detectan/localizan objetos

Tasa de fotogramas (FPS)

≥ 25-30 fps para vídeo en tiempo real

Necesario para mantener procesamiento fluido y anonimización oportuna

Latencia (tiempo de respuesta)

≤ 100-200 ms (sistemas en tiempo real)

Crítico para que la anonimización ocurra rápidamente, evitando exposición

Tasas de Falsos Positivos / Falsos Negativos

Idealmente < 5-10% en casos de uso de alto riesgo

El equilibrio FP/FN es esencial en flujos de trabajo de anonimización

Recursos de hardware/inferencia

GPU/TPU/ASICs edge requeridos para alto rendimiento

La infraestructura impacta viabilidad y coste

Desafíos y limitaciones

Desafío

Descripción

Impacto en anonimización o uso operacional

Iluminación variable, reflejos, clima

Iluminación pobre o cambiante degrada precisión de detección

Puede incrementar falsos negativos (p. ej., rostros no detectados)

Fondos complejos, oclusión, aglomeración

Objetos pueden estar parcialmente ocultos o superponerse

Más difícil detectar y enmascarar elementos sensibles de forma fiable

Datos de entrenamiento limitados o sesgados

Cobertura insuficiente de variación del mundo real reduce robustez del modelo

Puede producir errores o propagar sesgo en detección

Restricciones de procesamiento en tiempo real

Alta resolución o múltiples flujos elevan demandas computacionales

Puede forzar compromisos: menor precisión, procesamiento más lento

Problemas de privacidad, legales y éticos

Datos visuales frecuentemente contienen información personal identificable; se requiere cumplimiento regulatorio

Los sistemas deben integrar anonimización, auditoría, EIPD

Problema inverso / Ambigüedad 3D desde 2D

Recuperar geometría de escena solo desde imagen es mal planteado Wikipedia

Puede perjudicar precisión de localización para tareas de anonimización

Consideraciones específicas para anonimización de datos visuales

En aplicaciones donde la visión por computador respalda la anonimización de imágenes y vídeos, los siguientes aspectos operacionales son particularmente relevantes:

  • Los sistemas deben detectar de forma fiable identificadores personales (rostros, cuerpos, objetos, matrículas) a través de fotogramas y modalidades.
  • La localización (cuadros delimitadores o máscaras de segmentación) debe ser suficientemente precisa para cubrir la región sensible sin cobertura excesiva de áreas no sensibles.
  • Para vídeo/transmisiones en directo, la detección, seguimiento y enmascaramiento deben sincronizarse con latencia y desviación mínimas para evitar exposición o artefactos.
  • Los falsos negativos (identificadores omitidos) plantean riesgo de privacidad y regulatorio; los falsos positivos (exceso de enmascaramiento) reducen utilidad del material.
  • El registro detallado y rastros de auditoría (qué objeto fue detectado, cuándo, qué máscara se aplicó) respaldan el cumplimiento y permiten supervisión por delegados de protección de datos.
  • La infraestructura y operaciones deben manejar la escala (alta resolución, múltiples flujos, híbrido edge/cloud), manteniendo seguridad de datos (cifrado en tránsito y en reposo), controles de acceso y políticas de retención.

Referencias normativas y técnicas

  • ISO/IEC 22989:2022 - Inteligencia artificial: Terminología y clasificación (cubre conceptos de visión por computador).
  • ISO/IEC 24029-1:2021 - Evaluación de la robustez de redes neuronales (relevante para sistemas de visión).
  • Comité Europeo de Protección de Datos (CEPD) Directrices 03/2019 sobre el tratamiento de datos personales a través de dispositivos de vídeo: enfatiza medidas técnicas apropiadas y evaluación de riesgos en sistemas de vídeo.

Definiciones de la industria:

  • IBM: "La visión por computador es un campo de la inteligencia artificial (IA) que usa aprendizaje automático y redes neuronales para enseñar a computadores y sistemas a derivar información significativa de imágenes digitales, vídeos y otras entradas visuales." IBM
  • Microsoft Azure: "La visión por computador permite a las máquinas interpretar, analizar y extraer datos significativos de imágenes y vídeos, replicando la vista y habilidades cognitivas humanas." Microsoft Azure

Conjuntos de datos estándar y puntos de referencia: COCO (Common Objects in Context), ImageNet, OpenImages: utilizados ampliamente para validar rendimiento de modelos de visión.

Guía de implementación

  1. Seleccionar modelos adecuados dependiendo del objetivo de anonimización (por ejemplo, detección facial → MTCNN o RetinaFace; detección general de objetos → YOLOv8).
  2. Preparar conjuntos de datos representativos para entrenamiento o validación que reflejen condiciones operacionales (ángulos de cámara, iluminación, densidad de multitudes).
  3. Medir métricas de referencia de detección y localización (p. ej., mAP, latencia, tasa de falsos negativos) en el entorno operacional real.
  4. Desplegar flujo de trabajo: captura de imagen → detección de objetos → seguimiento (si vídeo) → localización → máscara/difuminado/redacción → salida. Asegurar que la latencia de extremo a extremo esté dentro de límites aceptables.
  5. Proporcionar auditoría/trazabilidad: registrar eventos de detección, acciones de anonimización aplicadas, marcas temporales: permite supervisión por DPD y evidencia de cumplimiento.
  6. Despliegue seguro: asegurar que flujos de entrada/transmisión estén cifrados, el acceso a salidas del modelo esté controlado, los datos anonimizados se retengan solo según sea necesario, y se mantenga la documentación (EIPD).