LinkedIn Engineering abrió recientemente su tienda de funciones Feathr , que ayuda a los ingenieros a desarrollar productos de aprendizaje automático al simplificar la administración y el uso de funciones en la producción.
Feathr es la capa de gestión de datos para aplicaciones de aprendizaje automático. Define características, las calcula con fines de entrenamiento e inferencia, y las hace reconocibles por otros desarrolladores de aprendizaje automático. Ayuda a escalar y administrar los productos de aprendizaje automático al reducir los pasos comunes de generación, mantenimiento y observabilidad de características.
Como se muestra en la siguiente imagen, las canalizaciones de generación de funciones de aprendizaje automático deben traer diferentes fuentes de datos sensibles al tiempo y unirlas. Estas funciones se conservan en bases de datos o cachés con fines de entrenamiento e inferencia (en tiempo real o por lotes). En este proceso, la consistencia es muy importante. Significa que las características deben prepararse de la misma manera para el entrenamiento y la inferencia para evitar inconsistencias y fugas en los modelos de aprendizaje automático.
Canalizaciones de inferencia y generación de funciones de aprendizaje automático general
Feathr es una capa de abstracción que proporciona el espacio de nombres para definir, calcular, servir y descubrir funciones comunes de aprendizaje automático. La arquitectura de alto nivel es como la arquitectura productor-consumidor donde los productores definen, generan y registran características de aprendizaje automático y los consumidores usan esas características en capacitación e inferencia. Feather tiene un modelo de programación simple. Los desarrolladores solo proporcionan los nombres de las funciones que desean importar y usar en sus modelos de aprendizaje automático. Todos los demás procesos en segundo plano, como la forma en que todo debe obtenerse y calcularse, suceden en Feathr. Como se menciona en la publicación del blog de LinkedIn :
Bajo el capó, Feathr descubre cómo proporcionar los datos de características solicitados de la manera requerida para el entrenamiento de modelos y la inferencia de producción. Para el entrenamiento de modelos, las funciones se calculan y se unen a las etiquetas de entrada en un punto en el tiempo correcto, y para la inferencia de modelos, las funciones se materializan previamente y se implementan en almacenes de datos en línea para un servicio en línea de baja latencia. Las características definidas por diferentes equipos y proyectos se pueden usar juntas fácilmente, lo que permite la colaboración y la reutilización.
Como parte de este anuncio, la ingeniería de LinkedIn abrió el código fuente de Feathr en Github y puso este servicio a disposición de los desarrolladores en Azure (Microsoft Cloud Service).
El almacén de características es uno de los servicios más importantes que es esencial en las operaciones de aprendizaje automático ( MLOps ). Acelera el uso y democratiza los productos habilitados para el aprendizaje automático en cualquier empresa. Hay una comunidad especial en torno a este tema que también tiene su cumbre.
La tienda de características de AWS SageMaker (Amazon Machine learning Service) y Google Cloud Vertex AI son algunos ejemplos de soluciones de tiendas de características en nubes públicas. Además, hay otras tiendas de funciones de código abierto para el público como Feast , Databricks Feature Store y Hopsworks .