Apple sigue tocando tambores de que su IA está lista

Los investigadores de Apple han desarrollado nuevos métodos para entrenar grandes modelos de lenguaje tanto en texto como en imágenes, lo que permite sistemas de IA más potentes y flexibles, en lo que podría ser un avance significativo para la inteligencia artificial y para los futuros productos de Apple.

El trabajo, descrito en un documento de investigación titulado “MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training” que ha publicado silenciosamente en arxiv.org, demuestra cómo la combinación cuidadosa de diferentes tipos de datos de entrenamiento y arquitecturas de modelos puede conducir a un rendimiento de vanguardia en una gama de puntos de referencia de IA.

“Demostramos que para el preentrenamiento multimodal a gran escala, el uso de una mezcla cuidadosa de subtítula de imagen, texto intercalado de imagen y datos de solo texto es crucial para lograr resultados de pocas tomas de última generación a través de múltiples puntos de referencia”, explican los investigadores.

Al entrenar modelos en un conjunto de datos diverso que abarca la información visual y lingüística, los modelos MM1 fueron capaces de sobresalir en tareas como los subtítulos de imágenes, la respuesta visual a preguntas y la inferencia del lenguaje natural.

Escalar los componentes visuales es clave

Los investigadores también encontraron que la elección del codificador de imágenes y la resolución de las imágenes de entrada tuvieron un gran impacto en el rendimiento del modelo. “Demostramos que el codificador de imagen, junto con la resolución de la imagen y el recuento de tokens de imagen, tienen un impacto sustancial, mientras que el diseño del conector de lenguaje de visión es de una importancia comparativamente insignificante”, dijeron.

Esto sugiere que el escalado y el refinamiento continuos de los componentes visuales de estos modelos multimodales serán clave para desbloquear más ganancias.

Sorprendentemente, el modelo MM1 de 30 mil millones de parámetros más grandes exhibió fuertes habilidades de aprendizaje en el contexto, lo que le permitió realizar un razonamiento de varios pasos sobre múltiples imágenes de entrada utilizando indicaciones de “cadena de pensamiento” de pocos disparos.

Esto apunta al potencial de los grandes modelos multimodales para abordar problemas complejos y abiertos que requieren una comprensión y generación del lenguaje fundamentadas.

Precisamente nos hacíamos eco de la compra de DarwinAI

Fuente

___

Faq-mac: se sigue repitiendo como una canción memorizada (ya sabes, Apple nunca innova) que está peleando "por ponerse al día" de las iniciativas de Microsoft (que en realidad es OpenAI), Google (que como es habitual ha prometido mucho para el futuro pero ha entregado poco para el presente)

Apple no anuncia, Apple presenta. Cuando Apple enseñe su estrategia de Inteligencia Artificial generativa, estará disponible desde el primer dispositivo y a partir de ahí irá iterando cada año (o menos) impulsando lo que pueden hacer sus iPhone, iPad, Apple Watch, Apple TV, Vision Pro, etc. mientras que los demás siguen hhablando de potencia y millones de usuarios. Pero Apple entregará ventajas inmediatas y palpables a sus usuarios.

No olvidemos que Apple lleva innovando con inteligencia artificial desde hace años, que son cosas que hacen que sus productos sean mucho más útiles y sencillos de usar, sin que el usuario necesite recibir una clase para entender cómo usar. Fotos, calendarios, correos electrónicos, ... prácticamente todas las áreas del sistema operativo han recibido mejoras sin que nosotros tengamos ni una leve curva de aprendizaje.

La diferencia entre Apple y el resto (OpenAI, Google, etc.) es que desarrollan sus modelos de lenguaje "en abstracto" -un mismo producto para todos los usos. Mientras que Apple sabe para qué quiere usar la IA y la adaptará según cada app.

Como leíamos esta mañana en un artículo (te lo traduzco): "me da mucho más miedo ceder el control de la inteligencia artificial a empresas que ponen por delante los intereses de los anunciantes que ceder el control a una empresa que tiene como prioridad a sus clientes y su privacidad"

¿Quién vas a dejar que "gobierne tu dispositivo"?
Alf

Propietario de www.faq-mac.com.

5 2 votos
Article Rating
Subscribe
Notify of
0 Comments
Opiniones Inline
Ver todos los comentarios
0
Me encantaría saber tu opinión, por favor, deja un comentariox
()
x