DeepSeekは最近、新しい人工知能 モデル「R1」を発表し、技術界に波紋を投げかけた。このモデルはOpenAIのo1に匹敵する推論能力を示しているが、特筆すべき点がある:DeepSeekは、彼らのモデルが大幅に低いコストで訓練されたと主張している。
DeepSeekが本物かDeepFakeかについては議論があったが、これが警鐘であることは明らかだ。増え続けるGPUと膨大なエネルギーに依存し、LLMをますます大きくしていく道だけが前進ではない。実際、いくつかの理由から、そのようなアプローチの利点が限られていることは明らかだ:
第一に、学習時のLLMの純粋なスケーリングは、収穫逓増、あるいはおそらく収穫ゼロに近いところまで来ている。より多くのデータで訓練されたより大きなモデルは、意味のある改善をもたらさない。
さらに、企業はほとんどのユースケースにおいて、大規模で何でも聞けるLLMを必要としていない。DeepSeekの登場以前から、特定のビジネス・ニーズに合わせた、より小規模で専門的なモデルへのシフトが顕著でした。より多くの企業の人工知能 ユースケースが出現するにつれて、推論、つまり価値を高めるために実際にモデルを実行することが重要になってくる。 多くの場合、それはインターネットのエッジ、エンドユーザーの近くで行われる。 広く利用可能なハードウェア上で動作するように最適化された小型のモデルの方が、オーバーサイズのLLMよりも長期的な価値を生み出すだろう。
最後に、LLM領域は最適化の時代を迎えつつある。私たちがこれまで見てきた人工知能 モデルは、どんな犠牲を払っても規模を拡大することでイノベーションを起こすことに重点を置いてきた。効率化、専門化、リソースの最適化が再び中心となりつつあり、人工知能未来は総力戦だけでなく、その力をいかに戦略的かつ効率的に展開するかにあることを示している。
DeepSeekは、エンジニアリング最適化の力作を紹介する技術論文の中で、この点を非常にうまく強調している。彼らの進歩には、トランスフォーマーアーキテクチャーの修正と、トレーニング中のリソース割り当てを最適化する技術が含まれる。これらの技術革新はこの分野を前進させるものではあるが、人工知能 技術の根本的な革命というよりは、進歩に向けた漸進的なステップである。
そして、メディアは彼らの進歩について大騒ぎしているが、それは実に注目に値するものであるが、彼らは概して重要なポイントを見逃している。そして、ディープシークは、モデルのトレーニング・コストとサイズの両面で大幅な効率化を実現する人工知能 新しい波の最初の一歩に過ぎないだろう。
DeepSeekの功績を文脈の中でとらえることは重要である。同社の進歩は、長年にわたってLLMのアーキテクチャとトレーニングの最先端技術を進歩させてきた着実な歩みの最新のステップである。これは破壊的なブレークスルーではない。このニュースは多くの人に警鐘を鳴らすものではあったが、業界の動向に細心の注意を払っている人たちには予想できたはずだ。現実には、オープンAIがGPT-4をトレーニングしてからの2年間で、トレーニング効率の最先端技術はかなり進歩した。そして、それはハードウェア(GPU)だけでなく、アルゴリズムやソフトウェアにも言えることだ。そのため、最新かつ最高のGPUを利用できないディープシークのような企業であっても、GPT-4と同程度のモデルをはるかに低コストで訓練できるようになったとしても不思議ではない。
ディープシークがこの一歩を踏み出し、それを徹底的に公開したことは称賛に値するが、これは人工知能 技術的進化において予想されるもうひとつのマイルストーンに過ぎず、さらに多くのマイルストーンが続くだろう。
コメント