El equipo de investigación de Apple Intelligence de Apple ha lanzado dos nuevos modelos de lenguaje pequeños pero de alto rendimiento utilizados para entrenar a los generadores de IA.
El equipo de aprendizaje automático de Apple participa en un proyecto de código abierto de DataComp for Language Models junto con otros actores de la industria.
Los dos modelos que Apple ha producido recientemente coinciden o superan a otros modelos de entrenamiento líderes, como Llama 3 y Gemma.
Este tipo de modelos de lenguaje se utilizan para entrenar motores de IA, como ChatGPT, al proporcionar un marco estándar. Esto incluye una arquitectura, parámetros y filtrado de conjuntos de datos para proporcionar datos de mayor calidad para que los motores de IA se extraen.
I am really excited to introduce DataComp for Language Models (DCLM), our new testbed for controlled dataset experiments aimed at improving language models. 1/x pic.twitter.com/uNe5mUJJxb
— Vaishaal Shankar (@Vaishaal) June 18, 2024
La aportación de Apple al proyecto incluye dos modelos: uno más grande con siete mil millones de parámetros y otro más pequeño con 1.400 millones de parámetros. El equipo de Apple dice que el modelo más grande ha superado al modelo superior anterior, MAP-Neo, en un 6,6 por ciento en los puntos de referencia.
Lo que es más notable es que el modelo DataComp-LM del equipo de Apple utiliza un 40 por ciento menos de potencia informática para lograr esos puntos de referencia. Fue el modelo de mejor rendimiento entre aquellos con conjuntos de datos abiertos, y competitivo en comparación con aquellos con conjuntos de datos privados.