Apple Siri

ReALM de Apple ocupa menos y es más rápido que GPT-4 al analizar datos contextuales

Alf3 abril, 20242 Minutos de lectura

La investigación en IA de Apple revela un modelo que hará que dar comandos a Siri sea más rápido y eficiente al convertir cualquier contexto dado en texto, que es más fácil de analizar mediante un modelo de lenguaje grande.

La investigación de inteligencia artificial en Apple sigue siendo publicada a medida que la compañía se acerca al lanzamiento público de sus iniciativas de IA en junio durante la WWDC. Hasta ahora se ha publicado una variedad de investigaciones, incluida Keyframer, que permite a los usuarios describir una animación y luego genera código de animación CSS para sitios web.

El último artículo publicado por Apple detalla algo llamado ReALM – Reference Resolution As Language Modeling.

Hacer que un programa informático realice una tarea basada en entradas de lenguaje vagas, como la forma en que un usuario podría decir “esto” o “eso”, se llama resolución de referencia.

Es un problema complejo de resolver, ya que las computadoras no pueden interpretar las imágenes de la manera en que los humanos pueden, pero Apple puede haber encontrado una resolución simplificada utilizando LLM.

Al hablar con asistentes “inteligentes” como Siri, los usuarios pueden hacer referencia a cualquier cantidad de información contextual con la que interactuar, como tareas en segundo plano, datos en pantalla y otras entidades no conversacionales.

Los métodos de análisis tradicionales se basan en modelos increíblemente grandes y materiales de referencia como imágenes, pero Apple ha simplificado el enfoque al convertir todo en texto.

Apple descubrió que sus modelos ReALM más pequeños funcionaron de manera similar a GPT-4 con muchos menos parámetros, por lo que son más adecuados para su uso en el dispositivo. El aumento de los parámetros utilizados en ReALM hizo que superara sustancialmente a GPT-4.

Una de las razones de este aumento del rendimiento es la dependencia de GPT-4 del análisis de imágenes para comprender la información en pantalla.

Gran parte de los datos de entrenamiento de imágenes se basan en imágenes naturales, no en páginas web basadas en código artificial llenas de texto, por lo que el OCR directo es menos eficiente.

La conversión de una imagen en texto permite a ReALM omitir la necesidad de estos parámetros avanzados de reconocimiento de imágenes, lo que la hace más pequeña y eficiente. Apple también evita problemas con las alucinaciones al incluir la capacidad de restringir la decodificación o usar un procesamiento posterior simple.

Por ejemplo, si estás desplazándote por un sitio web y decides que te gustaría llamar a esa empresa, simplemente decir “llama a la empresa” requiere que Siri analice a qué te refieres, dado el contexto. Sería capaz de “ver” que hay un número de teléfono en la página que está etiquetado como el número de la empresa y llamarlo sin más instrucciones del usuario.