Apple elabora sobre futuras herramientas de Apple Intelligence

Apple Intelligence ofrece a los usuarios acceso a nuevas aplicaciones como Image Playground, respuestas inteligentes generadas por IA en Mail, resúmenes de correo electrónico y notificaciones, un nuevo marco de herramientas de escritura y mucho más. 

Apple sigue centrada en la investigación de inteligencia artificial, y dos documentos recién publicados ofrecen información sobre la dirección que podrían tomar las futuras características de IA. Específicamente, la compañía documentó dos modelos de IA, conocidos como Matrix3D StreamBridge, en su Blog de Aprendizaje Automático.

Matrix 3D permite mejorar la fotogrametría

Apple dice que Matrix3D es un modelo de fotogrametría grande todo en uno, lo que significa que agiliza y reduce los requisitos para crear objetos tridimensionales a partir de imágenes 2D. Puede crear objetos y entornos 3D a partir de solo unas pocas imágenes, como se muestra en los vídeos de ejemplo de Apple.

La fotogrametría en su conjunto no es un concepto nuevo, y se ha utilizado en varias industrias, como el desarrollo de juegos. Sin embargo, la implementación de Apple a través de Matrix3D simplifica lo que alguna vez fue un esfuerzo de varios pasos, eliminando errores en el proceso. 

A diferencia del enfoque tradicional de la fotogrametría, donde cada subproceso se trata como un paso independiente que requiere un algoritmo específico, el nuevo modelo de IA de Apple realiza todas las tareas necesarias. Maneja procesos como la estimación de profundidad y poses, junto con la síntesis de vistas novedosas mediante el uso de una arquitectura unificada, lo que permite una mayor precisión.

El modelo Matrix3D de la compañía fue entrenado a través de una técnica conocida como estrategia de aprendizaje enmascarado. En esencia, esto significa que el modelo se entrenó en datos de profundidad de imagen y pose parcialmente completos, lo que efectivamente requería que «llenara los espacios en blanco» para lograr el resultado deseado. 

En su trabajo de investigación, Apple señala que el enfoque de fotogrametría tradicional «generalmente requiere una densa colección de imágenes, a menudo cientos, para lograr una reconstrucción 3D robusta y precisa, que puede ser problemática en aplicaciones prácticas». El modelo Matrix3D, mientras tanto, solo necesita dos o tres imágenes para la misma salida, reduciendo en gran medida los requisitos de fotogrametría. 

Apple ya convierte imágenes 2D a 3D en Apple Vision Pro. Es una acción que se puede realizar en cualquier imagen, incluso una sin datos de profundidad del modo retrato. 

El otro modelo de inteligencia artificial revelado por Apple tiene más que ver con los vídeos que con las imágenes.

StreamBridge actúa como un «asistente de transmisión proactivo»

El documento de investigación de Apple sobre StreamBridge dice que es un marco que transforma «los LLM de vídeo en modelos con capacidad de streaming». Mientras que algunos modelos de IA procesan la entrada de vídeo procesando archivos de vídeo pregrabados en su totalidad, el modelo StreamBridge de Apple es capaz de ofrecer «comprensión en tiempo real de múltiples turnos» y «generación de respuestas proactivas».

Lo que esto significa es que StreamBridge puede responder a diferentes preguntas sobre un vídeo en tiempo real. El ejemplo de Apple incluye preguntas sobre los eventos de un vídeo, la ubicación, junto con una pregunta sobre un objeto específico que aparece en el vídeo de entrada. 

StreamBridge también puede ofrecer instrucciones sin que se le pregunte, ya que «el modelo monitorea activamente el flujo visual y genera resultados oportunos basados en el contenido que se desarrolla». El ejemplo proporcionado por Apple muestra su modelo de IA que le da al usuario «guía paso a paso a medida que avanza el dibujo sin que se le pregunte explícitamente, simulando el soporte continuo en entornos dinámicos».

Alf

Propietario de www.faq-mac.com.

Deja una respuesta