La subsidiaria de Google, DeepMind, anunció Gopher , un modelo de procesamiento de lenguaje natural (NLP) de IA de 280 mil millones de parámetros. Basado en la arquitectura Transformer y entrenado en un corpus de 10.5TB llamado MassiveText, Gopher superó el estado actual de la técnica en 100 de 124 tareas de evaluación.
El modelo y varios experimentos se describieron en un artículo publicado en arXiv. Como parte de su esfuerzo de investigación en IA general, el equipo de DeepMind entrenó a Gopher y a varios modelos más pequeños para explorar las fortalezas y debilidades de los modelos de lenguaje grandes (LLM). En particular, los investigadores identificaron tareas en las que una mayor escala del modelo conducía a una mayor precisión, como la comprensión lectora y la verificación de datos, así como aquellas en las que no, como el razonamiento lógico y matemático. El equipo evaluó a Gopher en una gran cantidad de puntos de referencia de PNL, incluidos Massive Multitask Language Understanding (MMLU) y BIG-bench, y comparó su rendimiento con varios modelos de referencia como GPT-3., señalando una tendencia general de que Gopher mostró una mejora constante en las tareas intensivas en conocimiento, pero menos en las que requieren un uso intensivo de razonamiento. Según el equipo de DeepMind, Gopher es parte de
una base para la investigación del lenguaje de DeepMind en el futuro, particularmente en áreas que influirán en la forma en que se evalúan y se implementan estos modelos … Este enfoque es clave para crear grandes modelos de lenguaje que sirvan a la sociedad, fomentando nuestra misión de resolver inteligencia para avanzar en la ciencia y beneficiar a la humanidad.
Los modelos de lenguaje predicen el siguiente elemento o token en una secuencia de texto, dados los tokens anteriores; cuando un modelo de este tipo se utiliza de forma iterativa, con la salida prevista realimentada como entrada, el modelo se denomina autorregresivo . Los modelos de lenguaje autorregresivos basados en la arquitectura de aprendizaje profundo de Transformer han establecido récords de rendimiento de vanguardia en muchas tareas de PNL, y muchos investigadores han desarrollado modelos a muy gran escala. Aunque el parámetro 175B GPT-3 puede ser el más conocido, se han entrenado modelos con más parámetros, incluido el parámetro 178B Jurassic-1 y el parámetro 530B Megatron-Turing NLG .
La recopilación de un gran conjunto de datos para entrenar tales modelos es un desafío. Varios de estos conjuntos de datos han sido de código abierto, como Pile y C4 , y contienen documentos extraídos de sitios web como Wikipedia. Al equipo de DeepMind le preocupaba que el simple hecho de rastrear la web indiscriminadamente pudiera contaminar su conjunto de datos de entrenamiento con conjuntos de datos de prueba para sus evaluaciones comparativas, ya que están disponibles en la web. Para evitar esto, DeepMind desarrolló una canalización de preparación de datos y un conjunto de datos de entrenamiento personalizado llamado MassiveText. Comenzando con el contenido de C4, Wikipedia, GitHub y otras fuentes, la canalización filtra el contenido explícito, realiza la deduplicación de documentos y filtra los datos de prueba.
DeepMind entrenó seis modelos de diferentes tamaños, desde los parámetros 44M hasta el modelo Gopher del parámetro 280B. Evaluaron los modelos en una batería de 152 tareas, incluidas 62 de BIG-bench, 57 de MMLU, así como tareas de referencia para modelado del lenguaje, comprensión de lectura, verificación de datos, respuesta a preguntas y sentido común. Para 124 de estas tareas, compararon su desempeño con el desempeño conocido de vanguardia, con Gopher batiendo el récord de 100. El equipo también investigó cómo se desempeñó su modelo en diferentes escalas, y concluyó que “[m] cualquier asignatura académica , junto con el conocimiento general, las grandes mejoras provienen únicamente de la escala “, pero la escala tiene un” beneficio reducido “para el razonamiento lógico, el sentido común y las tareas matemáticas.
En una discusión de Hacker News sobre Gopher , algunos comentaristas se preguntaron si su capacidad para “desenterrar” información, inspiró a sus creadores a darle el mismo nombre que el sistema de búsqueda Gopher anterior a la web . Otros discutieron si los modelos de lenguaje deberían considerarse IA “verdaderos”:
Cuanto más nos acercamos a la inteligencia artificial, más subimos el listón de lo que califica como IA (como deberíamos). Gopher / GPT-3 ya son mucho más precisos que el humano promedio en la recuperación de información técnica.
El rango de Gopher en varios puntos de referencia de PNL se puede encontrar en el sitio web Papers with Code.