Apple todavía está trabajando en formas de ayudar a Siri a ver aplicaciones en una pantalla, ya que un nuevo documento explica cómo está funcionando en una versión de Ferret que funcionará localmente en un iPhone.

El trabajo de Apple para poner a Siri al día con otros sistemas de IA utilizables en un teléfono inteligente se está acelerando gradualmente. Apple todavía está mirando hacia el futuro para otras actualizaciones que puede hacer a su asistente y Apple Intelligence.

Parece que el camino a seguir es centrarse en su fortaleza: el procesamiento local de consultas.

Apple trabaja en la ferretería

Aunque Ferret en inglés quiere decir «hurón», nos ha parecido más oportuno adaptarlo al español. En 2023 Apple y los investigadores de la Universidad de Cornell impulsaron un LLM multimodal de código abierto llamado «Ferret». Fue la creación de un software que podía usar regiones de imágenes para consultas, como identificar lo que hay en un área dibujada de una fotografía.

Medio año después, en abril de 2024, el trabajo se había ampliado a una nueva versión de Ferret-UI que podía comprender elementos de una interfaz de usuario. Es decir, una IA que podría leer una captura de pantalla de una pantalla de un teléfono, determinar y leer los elementos importantes en la vista y potencialmente interactuar con la interfaz de usuario de una aplicación abierta.

En un artículo de febrero de 2026 para «Ferret-UI Lite», hay una evolución natural para crear una versión de Ferret que intenta solucionar un problema de las versiones anteriores. Es decir, que se basaba en el procesamiento con grandes modelos de lenguaje (LLM) que eran bastante considerables, y en realidad no estaban diseñados para el procesamiento en el dispositivo.

El uso de estos LLM basados en la nube tenía sentido, porque las capacidades de planificación y razonamiento eran considerables, lo que garantizaba excelentes resultados. Sin embargo, todavía requería el envío de datos a estos servidores en la nube, cuando los defensores de la privacidad y la seguridad pueden preferir que los datos se procesen localmente.

Si bien el equipo vio que se ha avanzado tanto para producir sistemas basados en GUI como multiagente para la tarea, especialmente al tratar de reducir el trabajo requerido para que los agentes interactúen con las interfaces de usuario, todavía había demasiado trabajo para realizar localmente en un teléfono inteligente.

Eso provocó la creación de la nueva versión Lite de Ferret-UI.

Ligero y rápido

El resultado, Ferret-UI Lite, es un agente GUI de extremo a extremo que funciona en múltiples plataformas, incluidos los sistemas móviles, web y de escritorio. Es decir, es algo que funcionará en un teléfono inteligente, como un iPhone, sin demasiados problemas.

Para lograr esto, Ferret-UI Lite está hecho con 3 mil millones de parámetros utilizando datos GUI de fuentes reales y sintéticas. También aumentó el rendimiento del tiempo de inferencia utilizando el razonamiento de la cadena de pensamiento y el uso de herramientas visuales, junto con el aprendizaje de refuerzo.

Como ejemplo de las formas en que Ferret-UI Lite funciona de formas que ayudan a las consultas procesadas localmente, se incluye un mecanismo de zoom para ayudar a analizar la imagen de la interfaz de usuario. El modelo produce una predicción inicial, y la imagen se recorta alrededor de la ubicación esperada basada en esta predicción.

Con menos imágenes con las que trabajar, puede centrarse más en qué información se presenta en esa región recortada, lo que le permite refinar mucho más la predicción.

Para los investigadores, esto aparentemente imita el comportamiento humano al mirar de cerca algo para obtener detalles.