“Ferret” de Apple es un nuevo modelo de aprendizaje automático de código abierto

Hace pocos días nos hacíamos eco de la liberación, por parte de Apple, de su propio modelo de aprendizaje automático, llamado MMX, en GitHiub y por lo tanto a disposición de todo el mundo que quiera utilizarlo y entrenarlo.

Resulta que no sólo lo ha hecho con el lenguaje, sino que también ha liberado un modelo de aprendizaje para imágenes, similar al que ya utilizamos en las fotografías en el iPhone y iPad, cuando mantenemos presionado para seleccionar una imagen, o cuando le pedimos que identifique qué planta hemos fotografiado.

Los investigadores que trabajan para Apple y de la Universidad de Cornell han presentado sin anuncio de ningún tipo un LLM multimodal de código abierto en octubre, llamado “Ferret” (Hurón) que puede usar regiones de imágenes para consultas.

Su aparición en Github pasó desapercibida al publicarse el 30 de Octubre, con la introducción de puntos de control el 14 de diciembre.

Si bien no recibió mucha atención al principio, el lanzamiento se convirtió en un descubrimiento fenomenal para los investigadores de IA, según informa VentureBeat.

Bart De Witte, fundador de HIPPO AI Foundation, una organización sin ánimo de lucro de IA en medicina, publicó en X sobre ese lanzamiento “oculto”, calificándolo de un “testamento del compromiso de Apple con la investigación de la IA”.

El lanzamiento de Ferret como código abierto se está realizando bajo una licencia no comercial, por lo que no se puede comercializar en su estado actual. Sin embargo, siempre existe la posibilidad de que se utilice en un futuro producto o servicio de Apple de alguna manera.

Un tuit de octubre del científico investigador de inteligencia artificial/ML de Apple, Zhe Gan, explica el uso de Ferret como un sistema que puede “referir y localizar cualquier cosa en cualquier lugar con cualquier granularidad” en una imagen. También puede hacerlo utilizando cualquier forma de región dentro de una imagen.

En términos más simples, el modelo puede examinar una región dibujada en una imagen, determinar los elementos dentro de ella que son de uso para un usuario en una consulta, identificarla y dibujar un cuadro delimitador alrededor del elemento detectado. Luego puede usar ese elemento identificado como parte de una consulta, a la que luego puede responder de una manera típica.

Por ejemplo, resaltar una imagen de un animal en una imagen y preguntarle al LLM qué animal es, podría determinar la especie de la criatura y que el usuario se está refiriendo a un animal individual de un grupo. Luego podría usar el contexto de otros elementos detectados en la imagen para ofrecer más respuestas o completar la original.

Alf

Propietario de www.faq-mac.com.

Deja una respuesta