Facebook desarrolla un nuevo modelo de inteligencia artificial que puede anticipar acciones futuras

Facebook presentó su último proceso de aprendizaje automático llamado Anticipative Video Transformer ( AVT ), que puede predecir acciones futuras mediante el uso de interpretación visual. AVT funciona como un modelo basado en la atención de un extremo a otro para la anticipación de la acción en los videos.

El nuevo modelo se basa en avances recientes en arquitecturas de transformadores , en particular para el procesamiento del lenguaje natural y el modelado de imágenes para aplicaciones que van desde automóviles autónomos hasta realidad aumentada.

AVT analiza una actividad para mostrar el resultado potencial especialmente para AR y el metaverso . Facebook planea que sus aplicaciones de metaverso funcionen en otras plataformas y hardware, a través de API que permiten que los programas se comuniquen entre sí.

Anticipar las actividades futuras es un tema difícil para la IA, ya que requiere tanto predecir la distribución multimodal de las actividades futuras como modelar el curso de las acciones anteriores.

AVT se basa en la atención, por lo que puede procesar una secuencia completa en paralelo, mientras que los enfoques basados ​​en redes neuronales recurrentes a menudo olvidan el pasado, ya que necesitan procesar secuencias secuencialmente. AVT también presenta funciones de pérdida que alientan al modelo a capturar la naturaleza secuencial del video, que de otro modo se perdería por arquitecturas basadas en la atención, como las redes no locales. 

AVT consta de dos partes: una red troncal basada en la atención (AVT-b) que opera en cuadros de video y una arquitectura de cabeza basada en la atención (AVT-h) que opera en características extraídas por la red troncal.

La red troncal AVT-b se basa en la arquitectura del transformador de visión ( VIT ). Divide los fotogramas en parches que no se superponen, los inserta en una red de avance, agrega un token de clasificación especial y aplica múltiples capas de auto-atención de múltiples cabezas. La arquitectura de la cabeza toma las características por cuadro y aplica otra arquitectura de transformador con atención causal. Esto significa que evalúa características solo de los marcos actual y anterior. Esto, a su vez, permite que el modelo se base únicamente en características pasadas al generar una representación de cualquier marco individual.

AVT se puede utilizar como un entrenador de acción de RA o como un asistente de inteligencia artificial que advertiría a las personas antes de que cometan errores. Además, AVT podría ser útil para tareas más allá de la anticipación, como el aprendizaje auto supervisado, el descubrimiento de esquemas de acción y límites, e incluso para el reconocimiento de acciones generales en tareas que requieren modelar la secuencia cronológica de acciones.

EXTRAIDO