En palabras sencillas, DeepSeek es un nuevo modelo largo de lenguaje (LLM) pero que necesita menos recursos para ejecutarse. Es decir, compitiendo con CharGPT (OpenAI), Perplexity, etc. es mucho más barato.
Hasta ahora el statu quo parecía asentado en que los Estados Unidos se habían hecho con el liderazgo indiscutible en Inteligencia Artificial, y repentinamente esta empresa china ha anunciado un modelo de lenguaje similar a los que ya existen pero con un modelo económico mucho más asequible.
De igual forma, el ascenso meteórico de Nvidia se basaba en la asunción de que mayor potencia de proceso requeriría un escalado quasi infinito de chips para computar toda la Información. Lo que les convertía en indispensables en la nueva era de inteligencia artificial. Ahora se demuestra que no son «tan indispensables» y que hay otros modelos que pueden provocar una disrupción en el mercado mandando a todas las empresas que acaparan titulares a pensar si de verdad necesitan tantos millones de dólares para triunfar.
Por último, y no menos importante, en el actual clima político de Estados Unidos, llega una empresa china y les arrebata el foco.
Si Deepseek es capaz de mantener el ritmo de innovación, los OpenAI que conocemos podrían acabar quebrando ya que se han montado unas estructuras que requieren mucho dinero, mientras que los nuevos actores han encontrado una forma de penetrar en el mercado por abajo.
Como remate, por la parte que nos toca, parece que la estrategia de Apple de «wait and see» (Esperar y ver qué pasa) parece que no estaba tan desencaminada, y que aún tienen que pasar muchas cosas en este mundo de la inteligencia artificial antes de que pueda dar por establecido y/o maduro.
¿Qué ha anunciado DeepSeek?
El anuncio que ha provocado el colapso en bolsas y el pánico (es una forma de hablar) en los grandes modelos más populares ha sido el de R1, un modelo de razonamiento similar al o1 de OpenAI. Sin embargo, muchas de las revelaciones que contribuyeron al colapso —incluyendo los costos de entrenamiento de DeepSeek— en realidad acompañaron el anuncio de V3 durante la Navidad, solo que hasta ahora no ha llegado al gran público. Además, muchos de los avances que sustentaron V3 se revelaron con el lanzamiento del modelo V2 en enero pasado.
¿Qué es el R1?
R1 es un modelo de razonamiento, similar al o1 de OpenAI. Tiene la capacidad de analizar un problema, produciendo resultados de mucha mayor calidad, particularmente en áreas como la programación, las matemáticas y la lógica.
R1 es notable porque o1 era el único modelo de razonamiento en el mercado, y el indicador más claro de que OpenAI lideraba el mercado.
R1 desmonta el mito de o1 de un par de maneras importantes. Primero, por el simple hecho de que existe. OpenAI no tiene una “fórmula secreta” que no pueda ser replicada. Segundo, R1 —como todos los modelos de DeepSeek— tiene publicado el código. Esto significa que, en lugar de pagarle a OpenAI por razonamiento, puedes ejecutar R1 en el servidor que elijas, o incluso de forma local, a un costo dramáticamente menor.
¿Cuál es el modelo V2 y por qué era importante?
El modelo DeepSeek-V2 introdujo dos avances importantes: DeepSeekMoE y DeepSeekMLA. El “MoE” en DeepSeekMoE se refiere a “mezcla de expertos” (Mixture of Experts). Algunos modelos, como GPT-3.5, activan todo el modelo tanto durante el entrenamiento como durante la inferencia; sin embargo, se ha descubierto que no todas las partes del modelo son necesarias para el tema en cuestión. MoE divide el modelo en múltiples “expertos” y solo activa los que son necesarios; GPT-4 fue un modelo MoE que se creía tenía 16 expertos con aproximadamente 110 mil millones de parámetros cada uno.
DeepSeekMoE, tal como se implementó en V2, introdujo innovaciones importantes en este concepto, incluyendo la diferenciación entre expertos especializados más detallados y expertos compartidos con capacidades más generalizadas. De manera crítica, DeepSeekMoE también presentó nuevos enfoques para el balanceo de carga y el enrutamiento durante el entrenamiento; tradicionalmente, MoE incrementaba la sobrecarga de comunicaciones durante el entrenamiento a cambio de una inferencia eficiente, pero el enfoque de DeepSeek hizo que el entrenamiento también fuera más eficiente.
DeepSeekMLA fue un gran avance aún mayor. Una de las mayores limitaciones de la inferencia es la gran cantidad de memoria requerida: ambos necesitan cargar el modelo en la memoria y también cargar toda la ventana de contexto. Las ventanas de contexto son particularmente caras en términos de memoria, ya que cada token requiere tanto una clave como un valor correspondiente; DeepSeekMLA, o atención latente de múltiples cabezas, hace posible comprimir el almacén de valores clave, disminuyendo drásticamente el uso de la memoria durante la inferencia.
¿Qué tal si me lo explicas con un lenguaje más sencillo?
Las implicaciones clave de estos avances —y la parte que necesitas entender— solo han sido evidentes con V3, que añade un nuevo enfoque al balanceo de carga (reduciendo aún más la sobrecarga de comunicaciones) y la predicción de múltiples tokens durante el entrenamiento (densificando aún más cada paso de entrenamiento, lo que nuevamente redujo la sobrecarga): V3 resultó sorprendentemente barato de entrenar. DeepSeek afirma que el entrenamiento del modelo tomó 2.788 mil horas de GPU H800, lo que, a un costo de $2 por hora/GPU, equivale a solo $5.576 millones.
¿Entonces V3 es un modelo realmente avanzado?
Definitivamente es competitivo con el 4o de OpenAI y el Sonnet-3.5 de Anthropic, y parece ser mejor que el modelo más grande de Llama. Lo que parece probable es que DeepSeek pudo destilar esos modelos para proporcionar a V3 tokens de alta calidad para entrenar.
¿Qué es la destilación?
La destilación es un medio para extraer la comprensión de otro modelo; puede enviar entradas al modelo del profesor y registrar las salidas, y usar eso para entrenar el modelo del estudiante. Así es como obtienes modelos como GPT-4 Turbo de GPT-4. La destilación es más fácil para una empresa de hacer en sus propios modelos, porque tienen acceso completo, pero aún puede hacer la destilación de una manera algo más difícil de manejar a través de API, o incluso, si se vuelve creativo, a través de clientes de chat.
La destilación obviamente viola los términos de servicio de varios modelos, pero la única forma de detenerla es cortar el acceso directamente, mediante bloqueos de IP, limitaciones de tasa, etc. Se asume que es una práctica generalizada en el entrenamiento de modelos, y es la razón por la cual un número cada vez mayor de modelos están alcanzando una calidad similar a GPT-4o. Esto no significa que sepamos con certeza que DeepSeek haya destilado 4o o Claude, pero, francamente, sería extraño que no lo hayan hecho.
¿La destilación parece que es nefasta para los líderes porque los demás se aprovechan de ellos, no?
En el lado positivo, OpenAI, Anthropic y Google están casi seguro de que están utilizando la destilación para optimizar los modelos que utilizan para la inferencia de sus aplicaciones orientadas al consumidor; en el lado negativo, están asumiendo efectivamente el costo total de entrenar para mantenerse en vanguardia, mientras que todos los demás están libres de esa inversión.
De hecho, este es probablemente el factor económico central que subyace al lento divorcio de Microsoft y OpenAI. Microsoft está interesada en proporcionar inferencias a sus clientes, pero mucho menos entusiasmada con la financiación de centros de datos de 100 mil millones de dólares para capacitar modelos de vanguardia.
¿Por esto han bajado las acciones de las Big Tech?
A largo plazo, la mercantilización de modelos y la inferencia más barata, que DeepSeek también ha demostrado, son excelentes para Big Tech. Un mundo en el que Microsoft puede proporcionar inferencia a sus clientes por una fracción del costo significa que Microsoft tiene que gastar menos en centros de datos y GPU, o, con la misma probabilidad, ver un uso dramáticamente mayor dado que la inferencia es mucho más barata.
Apple también es un gran ganador. Los requisitos de memoria dramáticamente disminuidos para la inferencia hacen que la inferencia en el dispositivo sea mucho más viable, y Apple tiene el mejor hardware exactamente para eso. Apple Silicon utiliza memoria unificada, lo que significa que la CPU, la GPU y la NPU (unidad de procesamiento neuronal) tienen acceso a un grupo compartido de memoria; esto significa que el hardware de alta gama de Apple en realidad tiene el mejor chip de consumo para la inferencia (las GPU para juegos de Nvidia alcanzan un máximo de 32 GB de VRAM, mientras que los chips de Apple van hasta 192 GB de RAM).
¿Por qué China está liberando su modelo como código abierto?
Bueno, para ser claros, es DeepSeek quien lo está haciendo; su CEO, Liang Wenfeng, dijo en una entrevista que el código abierto es clave para atraer talento:
*“Frente a tecnologías disruptivas, los fosos creados por el código cerrado son temporales. Incluso el enfoque de código cerrado de OpenAI no puede evitar que otros los alcancen. Así que anclamos nuestro valor en nuestro equipo: nuestros colegas crecen a través de este proceso, acumulan conocimientos y forman una organización y cultura capaces de innovar. Ese es nuestro foso.
El código abierto, la publicación de artículos, de hecho, no nos cuestan nada. Para el talento técnico, que otros sigan tu innovación les da un gran sentido de logro. De hecho, el código abierto es más un comportamiento cultural que comercial, y contribuir a él nos gana respeto. También hay una atracción cultural para que una empresa haga esto.”*
El entrevistador preguntó si esto cambiaría:
“DeepSeek, ahora mismo, tiene una especie de aura idealista que recuerda a los primeros días de OpenAI, y es de código abierto. ¿Cambiarán a código cerrado más adelante? Tanto OpenAI como Mistral pasaron de código abierto a código cerrado.”
“No cambiaremos a código cerrado. Creemos que tener un ecosistema técnico sólido primero es más importante.”
___
Seguro que tenemos que seguir hablando de DeepSeek en el futuro, pero espero haberte dado las claves para que entiendas lo que está pasando.
Con ayuda de Stratechery
Deja una respuesta
Lo siento, debes estar conectado para publicar un comentario.