DeepSeek a récemment fait des vagues dans le monde de la technologie avec son nouveau modèle d'IA, R1. Ce modèle présente une capacité de raisonnement comparable à celle du modèle o1 d'OpenAI, mais avec une distinction notable : DeepSeek affirme que son modèle a été formé à un coût nettement inférieur.
Bien qu'il y ait eu un débat sur la question de savoir si DeepSeek est une vraie affaire ou un DeepFake, il est clair qu'il s'agit d'une sonnette d'alarme - la voie des LLM toujours plus grands qui s'appuient sur des GPU toujours plus nombreux et des quantités massives d'énergie n'est pas la seule voie à suivre. En fait, il est devenu évident que cette approche présente peu d'avantages, et ce pour plusieurs raisons :
Premièrement, la mise à l'échelle pure des LLM au moment de l'apprentissage a atteint le point des rendements décroissants ou peut-être même des rendements proches de zéro. Des modèles plus grands entraînés avec plus de données n'entraînent pas d'améliorations significatives.
En outre, les entreprises n'ont pas besoin de LLM massifs pour la plupart des cas d'utilisation. Même avant DeepSeek, on observe une évolution notable vers des modèles plus petits et plus spécialisés, adaptés aux besoins spécifiques de l'entreprise. Au fur et à mesure que les cas d'utilisation de l'IA en entreprise se multiplient, il s'agit davantage d'inférence, c'est-à-dire d'exécuter les modèles pour générer de la valeur. Dans de nombreux cas, cela se fera à la périphérie de l'internet, près des utilisateurs finaux. Les petits modèles optimisés pour fonctionner sur du matériel largement disponible créeront plus de valeur à long terme que les LLM surdimensionnés.
Enfin, l'espace LLM entre dans une ère d'optimisation. Les modèles d'IA que nous avons vus jusqu'à présent se sont concentrés sur l'innovation en augmentant la taille à tout prix. L'efficacité, la spécialisation et l'optimisation des ressources occupent à nouveau le devant de la scène, signe que l'avenir de l'IA ne repose pas uniquement sur la force brute, mais sur la manière dont cette puissance est déployée de manière stratégique et efficace.
DeepSeek souligne très bien ce point dans ses documents techniques, qui présentent un tour de force en matière d'optimisation technique. Leurs avancées comprennent des modifications de l'architecture du transformateur et des techniques d'optimisation de l'allocation des ressources pendant la formation. Bien que ces innovations fassent progresser le domaine, il s'agit d'étapes progressives plutôt que d'une révolution radicale de la technologie de l'IA.
Et si les médias font grand cas de leurs avancées - qui sont effectivement remarquables - ils omettent généralement un point essentiel : si DeepSeek n'avait pas fait cela, quelqu'un d'autre l'aurait fait. Et ce n'est probablement que le premier d'une nouvelle vague d'IA qui permettra de réaliser des gains d'efficacité significatifs en termes de coûts de formation et de taille des modèles.
Il est important de replacer les réalisations de DeepSeek dans leur contexte. Les avancées de l'entreprise sont la dernière étape d'une marche régulière qui fait progresser l'état de l'art en matière d'architecture et de formation LLM depuis des années. Il ne s'agit pas d'une percée révolutionnaire. Si la nouvelle a été un signal d'alarme pour beaucoup, elle aurait dû être attendue par ceux qui suivent de près les tendances du secteur. En réalité, au cours des deux années qui se sont écoulées depuis qu'OpenAI a formé GPT-4, l'état de l'art en matière d'efficacité de la formation a considérablement progressé. Et il ne s'agit pas seulement de matériel (GPU), mais aussi d'algorithmes et de logiciels. Il n'est donc pas surprenant qu'une entreprise - même une entreprise comme DeepSeek qui n'a pas accès aux GPU les plus récents et les plus performants - puisse maintenant former des modèles aussi performants que GPT-4 à un coût beaucoup plus faible.
DeepSeek a le mérite d'avoir pris cette mesure et de l'avoir divulguée de manière aussi complète, mais il s'agit là d'une nouvelle étape attendue dans l'évolution technique de l'IA, qui sera suivie de beaucoup d'autres.
Commentaires