Amazon lanza un conjunto de datos de entrenamiento de IA en 51 idiomas MASIVO

El grupo de comprensión del lenguaje natural de Amazon Alexa AI lanzó Amazon SLURP multilingüe (paquete de recursos SLU) para relleno de ranuras, clasificación de intenciones y evaluación de asistente virtual (MASSIVE), un conjunto de datos para entrenar modelos de IA de comprensión del lenguaje natural (NLU) que contiene un millón de muestras anotadas de 51 idiomas. El lanzamiento también incluye código y herramientas para usar los datos.

El lanzamiento fue anunciado en el blog de Amazon Science. MASSIVE se compiló traduciendo frases del conjunto de datos SLURP solo en inglés , utilizando traductores contratados de Amazon Mechanical Turk . Los investigadores utilizaron el conjunto de datos resultante para afinar dos modelos de referencia previamente entrenados, XLM-R y mT5 , y los evaluaron en una parte de los datos del conjunto de prueba. Los modelos ajustados mostraron una mejora de 20 puntos en la precisión de coincidencia exacta en comparación con los resultados de “disparo cero”. Además de lanzar el conjunto de datos y el código del modelo, Amazon ha anunciado una competencia, Massively Multilingual NLU 2022(MMNLU-22), donde los competidores probarán sus modelos en una parte reservada del conjunto de datos MASIVO. Los ganadores se anunciarán en agosto y se les invitará a participar en un taller que se realizará en la próxima Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP). Según Prem Natarajan, vicepresidente de Alexa AI Natural Understanding:

Esperamos que este conjunto de datos permita a los investigadores de todo el mundo impulsar nuevos avances en la comprensión de idiomas multilingües que amplíen la disponibilidad y el alcance de las tecnologías de IA conversacional.

Los asistentes virtuales como Alexa se basan en modelos NLU para actuar según las instrucciones habladas de un usuario. Aunque estos modelos han progresado mucho en los últimos años, entrenarlos requiere grandes conjuntos de datos que contengan ejemplos anotados de datos de voz; por ejemplo, el conjunto de datos SLURP que contiene casi 20 000 expresiones. La recopilación de estos conjuntos de datos puede ser costosa y llevar mucho tiempo y, en consecuencia, la mayoría de los asistentes virtuales admiten solo un puñado de idiomas; por ejemplo, Alexa solo puede entender árabe, alemán, inglés, francés, hindi, italiano, japonés, portugués y español.

Para ayudar a los investigadores a entrenar y evaluar los modelos NLU para un conjunto más amplio de idiomas, el equipo de Amazon hizo traducir el conjunto de datos SLURP a 50 idiomas adicionales. Los investigadores comenzaron contratando traductores de Mechanical Turk, eligiendo a aquellos que demostraron fluidez en su idioma de destino. El equipo también utilizó Mechanical Turk para contratar jueces para evaluar la calidad de las traducciones, y los resultados de los jueces se incluyeron como anotaciones en el conjunto de datos. En general, MASSIVE contiene 587 000 ejemplos para entrenamiento, 104 000 para desarrollo, 152 000 para prueba y 153 000 que no se han publicado y que se usarán durante la competencia.

El autor principal, Jack FitzGerald, se unió a una discusión de Hacker News sobre el lanzamiento . En respuesta a algunos comentarios sobre la calidad de las traducciones, FitzGerald respondió:

El control de calidad no fue trivial, para decirlo de manera sucinta, pero ciertamente siempre queremos ser mejores… Aunque recopilamos algunas expresiones con puntuaciones bajas, no teníamos el presupuesto para obtener puntuaciones perfectas para todas las expresiones. Como tal, decidimos incluir todas las expresiones junto con las puntuaciones de los 3 evaluadores, de modo que los usuarios puedan filtrar como deseen. Algunos pueden querer mantener el ruido intacto para ayudar con el entrenamiento.

Los modelos de IA multilingües son un tema de investigación activo en muchas grandes empresas tecnológicas. A principios de este año, InfoQ cubrió el modelo XLS-R de reconocimiento de voz multilingüe de Meta , que fue entrenado con datos de 128 idiomas. InfoQ también cubrió previamente los dos modelos de referencia evaluados en el conjunto de datos MASSIVE, XLM-R y mT5, desarrollados por Meta y Google respectivamente, así como los modelos desarrollados por Microsoft.

Las herramientas y el código de modelado para el conjunto de datos MASSIVE están disponibles en GitHub.