El algoritmo que 'entiende' imágenes

El 25 de junio de 2015, el modelo ResNet de Microsoft introdujo 'atajos' para entrenar redes neuronales profundas, revolucionando la visión por computadora.

El 25 de junio de 2015, el mundo de la inteligencia artificial dio un salto cuántico en la capacidad de las máquinas para 'ver' y comprender imágenes. El equipo de Microsoft Research presentó ResNet (Residual Network), un modelo que, mediante el uso de 'atajos' o conexiones residuales, permitía entrenar redes neuronales con una profundidad sin precedentes.

Antes de ResNet, hacer las redes neuronales más profundas (con más capas) no siempre mejoraba su rendimiento; de hecho, a menudo provocaba un efecto de 'degradación' donde la precisión disminuía. La genialidad de ResNet radicó en permitir que estas redes profundas aprendieran funciones residuales, básicamente, lo que faltaba para llegar a la salida deseada. Estos 'atajos' facilitaban el flujo de gradientes durante el entrenamiento, superando el problema de la degradación.

El impacto de ResNet fue inmediato y masivo, especialmente en el campo de la visión por computadora. Ganó el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) de 2015 con una precisión asombrosa. Hoy, las arquitecturas residuales son un pilar fundamental en el entrenamiento de modelos de IA para reconocimiento de imágenes, detección de objetos y un sinfín de aplicaciones, desde coches autónomos hasta diagnósticos médicos.

Puente Pop