DeepSeek ha causado sensación recientemente en el mundo de la tecnología con su nuevo modelo de IA, R1. Este modelo muestra una capacidad de razonamiento comparable a la del o1 de OpenAI, pero con una notable distinción: DeepSeek afirma que su modelo fue entrenado a un coste significativamente menor.
Aunque se ha debatido si DeepSeek es real o un DeepFake, está claro que se trata de una llamada de atención: el camino de los LLM cada vez más grandes que dependen de GPU cada vez mayores y cantidades masivas de energía no es el único camino a seguir. De hecho, es obvio que ese enfoque tiene pocas ventajas, por varias razones:
En primer lugar, el escalado puro de los LLM en el momento del entrenamiento ha llegado a un punto de rendimiento decreciente o incluso casi nulo. Los modelos más grandes entrenados con más datos no producen mejoras significativas.
Además, las empresas no necesitan LLM masivos para la mayoría de los casos de uso. Incluso antes de DeepSeek, existía un cambio notable hacia modelos más pequeños y especializados adaptados a necesidades empresariales específicas. A medida que surgen más casos de uso de la IA empresarial, se trata más de la inferencia, es decir, de ejecutar realmente los modelos para generar valor. En muchos casos, esto ocurrirá en la periferia de Internet, cerca de los usuarios finales. Los modelos más pequeños optimizados para ejecutarse en hardware ampliamente disponible crearán más valor a largo plazo que los LLM sobredimensionados.
Por último, el espacio LLM está entrando en una era de optimización. Los modelos de IA que hemos visto hasta ahora se han centrado en la innovación escalando a cualquier precio. La eficiencia, la especialización y la optimización de recursos vuelven a ocupar un lugar central, una señal de que el futuro de la IA no pasa solo por la fuerza bruta, sino por cómo se despliega esa potencia de forma estratégica y eficiente.
DeepSeek destaca muy bien este punto en sus documentos técnicos, que muestran un tour de force de ingeniería de optimización. Sus avances incluyen modificaciones en la arquitectura del transformador y técnicas para optimizar la asignación de recursos durante el entrenamiento. Aunque estas innovaciones hacen avanzar el campo, se trata de pasos graduales hacia el progreso y no de una revolución radical de la tecnología de IA.
Y aunque los medios de comunicación están dando mucha importancia a sus avances -que son realmente notables-, en general pasan por alto un punto clave: si DeepSeek no hubiera hecho esto, alguien más lo habría hecho. Y es probable que solo sean los primeros de lo que será una nueva oleada de IA que aprovechará importantes mejoras de eficiencia tanto en costes de formación de modelos como en tamaño.
Es importante situar los logros de DeepSeek en su contexto. Los avances de la empresa son el último paso de una marcha constante que lleva años perfeccionando la arquitectura y la formación en LLM. No se trata de un avance disruptivo. Aunque la noticia fue una llamada de atención para muchos, debería haber sido esperada por quienes prestan atención a las tendencias del sector. La realidad es que en los dos años transcurridos desde que OpenAI entrenó a GPT-4, el estado del arte en eficiencia de entrenamiento ha avanzado considerablemente. Y no se trata sólo de hardware (GPU), sino también de algoritmos y software. Así que no es de extrañar que una empresa -incluso una empresa como DeepSeek que no tiene acceso a las últimas y mejores GPU- pueda ahora entrenar modelos tan buenos como GPT-4 a un coste mucho menor.
DeepSeek merece crédito por dar este paso y por divulgarlo tan minuciosamente, pero no es más que otro hito esperado en la evolución técnica de la IA al que seguirán muchos más.
Comentarios