Los investigadores descubren que no se requiere magia para explicar por qué las redes profundas se generalizan a pesar de ir en contra de la intuición estadística.
Los cursos de introducción a la estadística nos enseñan que, cuando ajustamos un modelo a algunos datos, debemos tener más datos que parámetros libres para evitar el peligro de sobreajuste: ajustar demasiado los datos ruidosos y, por lo tanto, no ajustar los nuevos datos. Es sorprendente, entonces, que en el aprendizaje profundo moderno la práctica sea tener órdenes de magnitud más parámetros que datos. A pesar de esto, las redes profundas muestran un buen rendimiento predictivo y, de hecho, lo hacen mejor cuantos más parámetros tienen. ¿Por qué sería eso?
Hace tiempo que se sabe que un buen rendimiento en el aprendizaje automático proviene del control de la complejidad de las redes, que no es solo una función de la cantidad de parámetros libres. La complejidad de un clasificador, como una red neuronal, depende de medir el “tamaño” del espacio de funciones que esa red representa, con múltiples medidas técnicas sugeridas previamente: dimensión de Vapnik-Chervonenkis, cubriendo números, o complejidad de Rademacher, por nombrar algunos. La complejidad, medida por estas nociones, se puede controlar durante el proceso de aprendizaje imponiendo una restricción en la norma de los parámetros, en resumen, en qué tan «grandes» pueden llegar a ser. El hecho sorprendente es que no parece ser necesaria una restricción tan explícita en el entrenamiento de redes profundas. ¿Se encuentra el aprendizaje profundo fuera de la teoría clásica del aprendizaje? ¿Necesitamos repensar los cimientos?
En un nuevo artículo de Nature Communications , «Complexity Control by Gradient Descent in Deep Networks», un equipo del Centro de cerebros, mentes y máquinas dirigido por el director Tomaso Poggio, profesor Eugene McDermott en el Departamento de Ciencias Cognitivas y del Cerebro del MIT, ha arrojado algo de luz sobre este rompecabezas al abordar las aplicaciones más prácticas y exitosas del aprendizaje profundo moderno: los problemas de clasificación.
“Para los problemas de clasificación, observamos que, de hecho, los parámetros del modelo no parecen converger, sino que aumentan de tamaño indefinidamente durante el descenso del gradiente. Sin embargo, en los problemas de clasificación solo importan los parámetros normalizados, es decir, la dirección que definen, no su tamaño”, dice el coautor y candidato a doctorado del MIT Qianli Liao. «Lo que no es tan obvio que mostramos es que el descenso de gradiente comúnmente utilizado en los parámetros no normalizados induce el control de complejidad deseado en los normalizados».
“Hace tiempo que sabemos que, en el caso de la regresión para redes lineales poco profundas, como las máquinas kernel, las iteraciones de descenso de gradiente proporcionan un efecto de regularización implícito que se desvanece”, dice Poggio. “De hecho, en este caso simple, probablemente sabemos que obtenemos la solución de norma mínima y margen máximo que mejor se comporta. La pregunta que nos hicimos entonces fue: ¿Puede pasar algo similar para las redes profundas?”.
Los investigadores encontraron que sí. Como explica el coautor y posdoctorado del MIT, Andrzej Banburski, “Comprender la convergencia en redes profundas muestra que hay direcciones claras para mejorar nuestros algoritmos. De hecho, ya hemos visto indicios de que controlar la velocidad a la que divergen estos parámetros no normalizados nos permite encontrar soluciones con mejor rendimiento y encontrarlas más rápido”.
¿Qué significa esto para el aprendizaje automático? No hay magia detrás de las redes profundas. La misma teoría detrás de todos los modelos lineales también está en juego aquí. Este trabajo sugiere formas de mejorar las redes profundas, haciéndolas más precisas y más rápidas de entrenar.