Apple ha compartido públicamente cuatro modelos de código abierto que se jactan de una mayor precisión para las consultas, lo que podría ayudar al desarrollo de futuros modelos de IA.
A medida que la industria tecnológica continúa avanzando con los desarrollos de la IA, Apple ha seguido ofreciendo más información sobre la tecnología en la que está trabajando. En el último lanzamiento público, Apple ha lanzado un cuarteto de modelos de código abierto.
Conocidos como LLM eficientes de código abierto, o OpenELM, los modelos de instrucción están alojados en la plataforma colaborativa Hugging Face. Hugging Face se utiliza para alojar modelos de IA, así como para entrenarlos y trabajar con otros para hacer mejoras.
OpenELM se refiere a una biblioteca de código abierto que combina múltiples modelos de lenguaje grande (LLM) utilizando algoritmos evolutivos.
Los cuatro modelos OpenELM utilizan una “estrategia de escalado en capas” para asignar parámetros dentro de las capas de un modelo de transformador para una mayor precisión, se lee en la tarjeta de modelo para las versiones.
Los modelos fueron preentrenados utilizando la biblioteca CoreNet. Apple proporcionó modelos preentrenados y ajustados por instrucción utilizando 270 millones, 450 millones, 1.100 millones y 3 mil millones de parámetros.
El conjunto de datos previo al entrenamiento utilizó una combinación de un subconjunto de Dolma v1.6, RefinedWeb, PILE deduplicado y un subconjunto de RedPajama. Esto dio como resultado un conjunto de datos con aproximadamente 1,8 billones de tokens.
En un artículo relacionado publicado el martes, los investigadores detrás del proyecto dicen que la reproducibilidad y la transparencia de los grandes modelos lingüísticos son “cruciales para avanzar en la investigación abierta”. También ayuda a garantizar la fiabilidad de los resultados y permite investigar los sesgos y riesgos del modelo.
En cuanto a la precisión de los modelos, se explica que utilizando mil millones de parámetros, OpenELM tiene una mejora del 2,36 % en la precisión con respecto a OLMo, al tiempo que requiere la mitad del número de tokens previos al entrenamiento.
Los autores autores modelocone modelos modelo modelococa, Saca, Mohammad Mehajbi, Mohammad Hajaji, yji, ya, ya, ya, de la, de la, ya, la, la, la, la, lata, lata, lata, lata, y, lata, y
El lanzamiento del código fuente de los modelos es una nueva acción por parte de Apple para dar a conocer sus desarrollos en IA y aprendizaje automático.
No es el primer lanzamiento público de rutinas de IA de Apple. En octubre, compartió un LLM de código abierto llamado Ferret, que mejoró la forma en que un modelo podía analizar una imagen.
En abril, una nueva versión de Ferret agregó la capacidad de analizar puntos de datos dentro de la captura de pantalla de una aplicación y, en general, de entender cómo funciona la aplicación.
También se han publicado artículos sobre las herramientas de animación de IA generativa y la creación de avatares de IA.
Se espera que la WWDC en junio incluya bastantes avances en IA para los productos de Apple.