Meta AI Research lanzó Open Pre-trained Transformer (OPT-175B), un modelo de lenguaje de IA con parámetros 175B. El modelo se entrenó en un conjunto de datos que contenía tokens de 180B y exhibe un rendimiento comparable con GPT-3 , mientras que solo requiere 1/7 de la huella de carbono de entrenamiento de GPT-3.
El lanzamiento fue anunciado en una entrada de blog escrita por los investigadores de Meta Susan Zhang , Mona Diab y Luke Zettlemoyer . Para ayudar a promover la investigación abierta y reproducible en IA, Meta ha publicado no solo el código y los pesos de los modelos entrenados, sino también un libro de registro operativo completo que documenta los desafíos encontrados durante el proceso de capacitación. El modelo se publica bajo una licencia no comercial y está destinado a investigadores “afiliados a organizaciones gubernamentales, de la sociedad civil y académicas”, así como a investigadores de la industria. Aunque el acceso al modelo 175B completo debe otorgarse a través de un proceso de solicitud, se pueden descargar versiones más pequeñas que van desde 125M a 30B parámetros como parte de la biblioteca HuggingFace Transformers . Según Zhang, et. Alabama.:
Un segmento mucho más amplio de la comunidad de IA necesita acceso a estos modelos para realizar investigaciones reproducibles e impulsar colectivamente el campo. Con el lanzamiento de OPT-175B y líneas de base a menor escala, esperamos aumentar la diversidad de voces que definen las consideraciones éticas de tales tecnologías.
La arquitectura de aprendizaje profundo de Transformer se ha convertido en el estándar de facto para los modelos de lenguaje, y los investigadores han logrado resultados impresionantes al aumentar el tamaño de los modelos y los conjuntos de datos de entrenamiento. Gran parte de la investigación se ha centrado en modelos solo de decodificadores autorregresivos, como GPT-3 y PaLM , que pueden funcionar tan bien como el ser humano promedio en muchos puntos de referencia de procesamiento de lenguaje natural (NLP). Aunque algunas organizaciones de investigación, como EleutherAI , han puesto a disposición los pesos de sus modelos entrenados, la mayoría de los modelos comerciales son completamente inaccesibles para el público o están controlados por una API .. Esta falta de acceso dificulta que los investigadores obtengan información sobre la causa de las áreas problemáticas de rendimiento del modelo conocidas, como la toxicidad y el sesgo.
Los investigadores de Meta basaron el diseño de OPT en GPT-3 y utilizaron la arquitectura y los hiperparámetros descritos en el trabajo de investigación de OpenAI . Para los datos de entrenamiento, el equipo concatenó el conjunto de datos utilizado para entrenar a RoBERTa con Pile y el conjunto de datos PushShift.io Reddit . En general, después de limpiar y deduplicar el conjunto de datos combinado, el corpus final contenía alrededor de 180 000 millones de tokens. Usando una combinación de la herramienta de datos paralelos totalmente fragmentados (FSDP) de Meta y el marco Megatron-LM de NVIDIA , el proceso de capacitación logró un alto rendimiento y eficiencia energética.
A diferencia de muchos esfuerzos de investigación anteriores, el equipo de OPT también lanzó un libro de registro que incluye notas de ejecuciones de capacitación experimental, excepciones de tiempo de ejecución y respuestas de ingenieros de guardia, y un libro de jugadas de depuración. Los investigadores también mencionan varios ajustes realizados en su proceso durante dos meses de capacitación. Hubo una cantidad “significativa” de fallas de hardware que provocaron 35 reinicios de capacitación y más de 100 hosts ciclados. El equipo también realizó varios cambios en el código durante el entrenamiento, incluido el cambio de optimizadores de entrenamiento de AdamW a “vanilla SGD” y viceversa, así como la actualización a una nueva versión de Megatron.
En una discusión sobre el libro de registro en Hacker News, un usuario notó lo “hackeado” que parecía el proceso, mientras que otros notaron que hacer ajustes sobre la marcha era en realidad algo común. Otro usuario declaró:
Incluso sin la enorme cantidad de problemas de hardware/controladores que parecían tener con las GPU en sus grandes grupos de entrenamiento, esto pone en perspectiva lo difícil que es entrenar modelos enormes como este. Muchas de las fallas no tienen una causa inmediatamente obvia. Además, no hay tantos lugares que realicen capacitación a esta escala, así que imagino que muchas de estas cosas deben resolverse por sí mismas.
El código OPT y el libro de registro están disponibles en GitHub.