DeepSeek hat vor kurzem mit seinem neuen KI-Modell R1 für Aufsehen in der Welt der Technologie gesorgt. Dieses Modell zeigt eine Denkfähigkeit, die mit der von OpenAIs o1 vergleichbar ist, jedoch mit einem bemerkenswerten Unterschied: DeepSeek behauptet, dass sein Modell zu wesentlich geringeren Kosten trainiert wurde.
Während es eine Debatte darüber gab, ob DeepSeek echt ist oder eine Fälschung, ist es klar, dass dies ein Weckruf ist - der Weg der immer größeren LLMs, die sich auf immer größere GPUs und massive Energiemengen verlassen, ist nicht der einzige Weg nach vorne. Es ist sogar offensichtlich geworden, dass dieser Ansatz aus mehreren Gründen nur begrenzte Vorteile bietet:
Erstens hat die reine Skalierung von LLMs zur Trainingszeit den Punkt erreicht, an dem die Erträge abnehmen oder vielleicht sogar gegen Null gehen. Größere Modelle, die mit mehr Daten trainiert werden, führen nicht zu sinnvollen Verbesserungen.
Außerdem brauchen Unternehmen für die meisten Anwendungsfälle keine riesigen, alles fragenden LLMs. Schon vor DeepSeek gab es eine deutliche Verschiebung hin zu kleineren, spezielleren Modellen, die auf spezifische Geschäftsanforderungen zugeschnitten sind. Je mehr KI-Anwendungsfälle in Unternehmen auftauchen, desto mehr geht es um Inferenz - die tatsächliche Ausführung der Modelle, um den Wert zu steigern. In vielen Fällen wird dies am Rande des Internets geschehen, in der Nähe der Endnutzer. Kleinere Modelle, die für den Betrieb auf weithin verfügbarer Hardware optimiert sind, werden langfristig mehr Wert schaffen als überdimensionierte LLMs.
Schließlich tritt der LLM-Bereich in eine Ära der Optimierung ein. Die KI-Modelle, die wir bisher gesehen haben, haben sich auf Innovation durch Skalierung um jeden Preis konzentriert. Effizienz, Spezialisierung und Ressourcenoptimierung rücken wieder in den Mittelpunkt. Das ist ein Zeichen dafür, dass die Zukunft der KI nicht allein in der rohen Gewalt liegt, sondern darin, wie strategisch und effizient diese Kraft eingesetzt wird.
DeepSeek unterstreicht diesen Punkt sehr gut in seinen technischen Unterlagen, die eine Meisterleistung der technischen Optimierung darstellen. Zu ihren Fortschritten gehören Änderungen an der Transformatorarchitektur und Techniken zur Optimierung der Ressourcenzuweisung während des Trainings. Diese Innovationen bringen das Feld zwar voran, doch handelt es sich eher um schrittweise Fortschritte als um eine radikale Revolution der KI-Technologie.
Und während die Medien viel Aufhebens um ihre Fortschritte machen - die in der Tat bemerkenswert sind - übersehen sie im Allgemeinen einen wichtigen Punkt: Wenn DeepSeek dies nicht getan hätte, hätte es jemand anderes getan. Und DeepSeek ist wahrscheinlich nur der erste Vertreter einer neuen KI-Welle, die erhebliche Effizienzgewinne sowohl bei den Kosten für die Modellschulung als auch bei der Größe erzielt.
Es ist wichtig, dass wir die Errungenschaften von DeepSeek in einen Kontext stellen. Die Fortschritte des Unternehmens sind der jüngste Schritt in einem stetigen Prozess, der den Stand der Technik in der LLM-Architektur und -Ausbildung seit Jahren vorantreibt. Es handelt sich nicht um einen bahnbrechenden Durchbruch. Auch wenn die Nachricht für viele ein Weckruf war, hätte sie von denjenigen erwartet werden müssen, die die Branchentrends aufmerksam verfolgen. Die Realität ist, dass in den zwei Jahren, seit OpenAI die GPT-4 trainiert hat, der Stand der Technik bei der Trainingseffizienz erheblich verbessert wurde. Und dabei geht es nicht nur um Hardware (GPUs), sondern auch um Algorithmen und Software. Es sollte also nicht überraschen, dass ein Unternehmen - selbst ein Unternehmen wie DeepSeek, das keinen Zugang zu den neuesten und besten Grafikprozessoren hat - jetzt Modelle trainieren kann, die genauso gut sind wie GPT-4, und das zu wesentlich geringeren Kosten.
DeepSeek verdient Anerkennung dafür, dass es diesen Schritt unternommen und so gründlich offengelegt hat, aber es ist nur ein weiterer erwarteter Meilenstein in der technischen Entwicklung der KI, dem noch viele weitere folgen werden.
Kommentare