Definición
El Aprendizaje Federado (FL, por sus siglas en inglés) es un enfoque descentralizado de aprendizaje automático en el cual el entrenamiento ocurre directamente en dispositivos locales - tales como nodos edge, cámaras, sistemas médicos o servidores on-premise - sin transferir datos sin procesar a una ubicación central. Solo las actualizaciones del modelo (pesos o gradientes) se envían a un servidor coordinador, que las agrega en un modelo global.
Esta arquitectura permite el entrenamiento sobre conjuntos de datos sensibles o regulados que no pueden compartirse entre organizaciones, regiones o dispositivos debido a restricciones legales, de privacidad u operacionales.
Arquitectura y flujo de trabajo
- Inicialización del modelo global - un servidor distribuye un modelo base a los clientes participantes.
- Entrenamiento local - cada cliente entrena el modelo sobre su conjunto de datos local (ej. fotogramas de vídeo, imágenes, metadatos).
- Carga de actualizaciones - solo los gradientes o parámetros se envían de vuelta al servidor.
- Agregación - el servidor calcula una nueva versión del modelo global (comúnmente utilizando FedAvg).
- Re-distribución - el modelo global actualizado se envía de vuelta a los clientes.
Estándares clave y puntos de referencia
- Algoritmo FedAvg - trabajo seminal de McMahan et al. (2017).
- Frameworks como OpenFL (Intel) y TensorFlow Federated.
- Directrices de ML preservador de privacidad que combinan FL con Privacidad Diferencial o Computación Segura Multi-Parte.
Métricas técnicas y parámetros de evaluación
Métrica | Significado |
|---|---|
Divergencia | Diferencia entre modelos globales y locales; afecta la estabilidad del entrenamiento. |
Sobrecarga de Comunicación | Cantidad de datos intercambiados por ronda de entrenamiento. |
Latencia por Ronda | Tiempo total requerido para un ciclo de actualización global. |
Variabilidad Non-IID | Grado en que las distribuciones de datos de los clientes difieren. |
Ventajas
- Garantías de privacidad robustas - los datos sin procesar nunca abandonan el dispositivo.
- Cumplimiento normativo - soporta RGPD, HIPAA y marcos similares.
- Escalable a sistemas distribuidos y heterogéneos - adecuado para flotas de cámaras o sensores.
- Uso reducido de ancho de banda - solo se transmiten actualizaciones del modelo.
Desafíos y limitaciones
- Las distribuciones Non-IID frecuentemente reducen la precisión o ralentizan la convergencia.
- Potenciales ataques de fuga de gradientes que permiten inferir datos personales.
- Capacidades de cómputo variables en dispositivos heterogéneos.
- Alta frecuencia de comunicación para modelos de gran tamaño.
Relevancia en anonimización de imagen y vídeo
El Aprendizaje Federado es altamente relevante para sistemas visuales sensibles a la privacidad porque permite el entrenamiento de modelos de detección y anonimización sin centralizar datos de vídeo sin procesar. Las ventajas clave en este contexto incluyen:
- entrenamiento local de detectores de rostros, matrículas u objetos sobre vídeo capturado por el dispositivo,
- mejora constante del modelo sin exportar fotogramas de vídeo identificables,
- flujos de trabajo de privacidad por diseño que aseguran minimización de datos,
- adaptación de modelos a condiciones locales (iluminación, ángulo de cámara, dinámicas de escena).
Las aplicaciones típicas incluyen:
- sistemas de vigilancia de ciudades inteligentes que actualizan modelos en dispositivo,
- flujos de trabajo de anonimización de imagen médica donde los fotogramas no pueden exportarse,
- sistemas de cámaras de flotas vehiculares que aprenden a detectar matrículas bajo condiciones variables,
- analítica de vídeo industrial donde la confidencialidad estricta previene el compartir datos.