Investigadores del MIT investigan la carga computacional del Deep Learning.

Un equipo de investigadores del MIT , la Universidad de Yonsei y la Universidad de Brasilia ha lanzado un nuevo sitio web, Computer Progress , que analiza la carga computacional de más de 1,000 artículos de investigación de aprendizaje profundo. Los datos del sitio muestran que la carga computacional está creciendo más rápido que la tasa esperada, lo que sugiere que los algoritmos aún tienen margen de mejora.

El investigador principal Neil Thompson anunció el lanzamiento en Twitter. Thompson, junto con Kristjan Greenewald del MIT-IBM Watson AI Lab, el profesor Keeheon Lee de la Universidad de Yonsei y Gabriel Manso de la Universidad de Brasilia, detallaron la motivación del trabajo y sus resultados en un artículo publicado en IEEE Spectrum. El equipo analizó 1.058 artículos de investigación de aprendizaje profundo de arXiv para determinar una fórmula de escala que relaciona el rendimiento de un modelo con la carga computacional.o la cantidad de recursos informáticos necesarios para entrenar el modelo. En teoría, el límite inferior de la carga computacional es un polinomio de cuarto orden con respecto al rendimiento; sin embargo, los investigadores encontraron que los algoritmos actuales funcionan mucho peor; por ejemplo, encontraron que los algoritmos de clasificación de imágenes de ImageNet escalan como un polinomio de noveno orden, lo que requeriría 500 veces el cálculo para reducir la tasa de error a la mitad. Según los autores, estas tendencias de escala sugieren que los investigadores deberían buscar mejores algoritmos:

Frente a un escalado computacional que sería económica y ambientalmente ruinoso, debemos adaptar la forma en que hacemos el aprendizaje profundo o enfrentar un futuro de progreso mucho más lento.

Las redes neuronales profundas a menudo están sobre parametrizadas , lo que significa que tienen más parámetros de modelo de los esperados para el tamaño de los datos de entrenamiento. Empíricamente, se ha demostrado que esto mejora el rendimiento y la generalización del modelo, mientras que los métodos de entrenamiento como el descenso de gradiente estocástico (SGD) y la regularización evitan que los modelos se ajusten demasiado. Los investigadores también han descubierto que un aumento en el rendimiento o la precisión del modelo requiere un aumento en los datos de entrenamiento, con un crecimiento correspondiente en el tamaño del modelo. Suponiendo que las mejoras de rendimiento requieren un aumento cuadrático en el tamaño de los datos de entrenamiento, y que el cálculo aumenta de forma cuadrática con los parámetros del modelo, Thompson y sus colegas proponen un límite inferior teórico de que el cálculo crece como la cuarta potencia del rendimiento.

Para verificar esta suposición, los investigadores revisaron artículos de aprendizaje profundo.en varios campos de la visión por computadora (CV) y el procesamiento del lenguaje natural (NLP), incluido el reconocimiento de imágenes, la detección de objetos, la respuesta a preguntas, el reconocimiento de entidades nombradas y la traducción automática. De los artículos extrajeron las métricas de precisión de los modelos discutidos junto con la carga computacional de entrenar los modelos, definida como el número de procesadores x tasa de cálculo x tiempo (esencialmente, el número total de operaciones de punto flotante). Luego realizaron una regresión lineal para expresar el rendimiento del modelo en función del cálculo. Estas ecuaciones muestran que el rendimiento del modelo escala mucho peor que el polinomio de cuarto grado predicho por la teoría: desde el grado 7.7 para la respuesta a preguntas hasta un polinomio de grado «alrededor de 50» para la detección de objetos, el reconocimiento de entidades nombradas y la traducción automática.

Sin embargo, es posible que estos desafíos de escala se puedan resolver mediante algoritmos mejorados. La investigación del equipo del MIT sugiere que «tres años de mejora algorítmica equivalen a un aumento de la potencia de cálculo de 10 veces». En 2020, OpenAI hizo un estudio similar de algoritmos de reconocimiento de imágenes y descubrió que «desde 2012, la cantidad de cómputo necesario para entrenar una red neuronal con el mismo rendimiento en la clasificación de ImageNet ha disminuido en un factor de 2 cada 16 meses». Más recientemente, Thompson y otro colega realizaron una encuesta de 113 dominios de problemas de algoritmos informáticos, including computer networking, signal processing, operating systems, and cryptography, to analyze how improved algorithms improved performance in solving the problems. They found that, while «around half» of problems, or «algorithm families» have not experienced any improvement, 14% achieved «transformative» improvements, and 30%-43% achieved improvements «comparable or greater than those that users experienced from Moore’s Law.»

El equipo de Computer Progress también sugirió varios enfoques complementarios que podrían mejorar la eficiencia del aprendizaje profundo, muchos de los cuales se han cubierto en InfoQ. La computación óptica podría reducir el consumo de energía que necesitan los grandes modelos de aprendizaje profundo, y el tamaño general del modelo se puede abordar mediante la cuantificación y la poda. Por último, el metaaprendizaje ofrece una forma de reducir el número de ciclos de formación necesarios para completar la formación del modelo.

El sitio web Computer Progress aloja los datos de escalado de rendimiento frente a cómputo, junto con enlaces a los artículos originales, así como un llamado a los investigadores para que envíen sus propios resultados de rendimiento .

EXTRAIDO