科学技術
トップ  > コラム&リポート 科学技術 >  File No.25-023

【25-023】低コストで高性能を求めた「DeepSeek」

崔 爽(科技日報記者) 2025年03月05日

image

(画像:視覚中国)

 2025年に入り、中国の大規模言語モデルが、AI業界で注目を集めている。

 杭州深度求索人工知能基礎技術研究有限公司(以下「DeepSeek社」)は、オープンソースの大規模言語モデル「DeepSeek-V3」を発表すると同時に、53ページにわたるテクニカルレポートを公開し、主要技術とトレーニングの詳細を紹介している。

 このレポートは本当の意味で「オープンソース」となっている。その中でも、V3は能力が大幅にアップグレードされたにもかかわらず、2048個という限られた「NVIDIA H800GPU」で2カ月ほどトレーニングされ、コストはわずか557万6000ドル(1ドル=約149円)しかかからなかったという点が、最も目を引く部分となっている。

 米国のAI(人工知能)スタートアップ企業Anthropicのダリオ・アモデイ最高経営責任者(CEO)は以前、AIモデル「GPT-4o」のトレーニングコストは約1億ドルと明らかにした。米国のOpenAIの共同設立者であるアンドレイ・カーパシーはDeepSeek-V3について「限られた計算能力と予算内でのプレトレーニングの実施を容易にした」との見方を示している。

 では、DeepSeek社はどのようにして低コストで能力を大幅に高めたのだろうか。同社は大規模言語モデルの発展の新たな道を歩み始めたということなのだろうか。

モデルの推論コストを低減

 DeepSeek社は、中国のAIの勢力図で独自路線を歩んでおり、唯一、2C(個人消費者向け)のアプリを製作していない企業で、オープンソース路線を選んでおり、今まで融資を受けたことがない。

 同社が24年5月に発表した「DeepSeek-V2」は、その革新的なアーキテクチャと前例を見ないコストパフォーマンスが大きな話題となった。その推論コストは、100万トークン(テキストデータの最小単位)当たり1元(約20円)まで抑えられた。オープンソース大規模言語モデル「Llama3 70B」のおよそ7分の1で、「GPT-4 Turbo」のおよそ70分の1となり、字節跳動(バイトダンス)や阿里巴巴(アリババ)、百度といった企業がこれによりAIモデルを次々に値下げするようになった。

 DeepSeek-V2で最もカギとなっているのは、DeepSeek社が打ち出しているMLA(Multi Head Latent Attention)アーキテクチャとDeepSeekMoESparse(まばらな構造の混合専門家モデルを採用)構造で、モデルの計算量とビデオメモリーの占有率を大幅に減らし、効率的な推論と経済的かつ効果的なトレーニングを実現した。

 簡単に言うと、モデル圧縮やエキスパート並列学習、FP8混合精度トレーニング、データ蒸留、アルゴリズム最適化といった一連の技術が、V3のコストを大幅に引き下げた。新しい低精度のトレーニング方法としてのFP8技術は、データ表示に必要な桁数を減らすことによって、メモリーの占有率と計算のニーズを大幅に引き下げている。報道によると、現在、Googleなどはこの技術をモデルのトレーニングと推論に既に導入している。

 深度科技研究院の張孝栄院長は「DeepSeek社が大きな話題となっているのは、大規模言語モデルの技術におけるブレイクスルーとイノベーションが認められたということであり、アルゴリズムの最適化と工学的実践を通じて、高性能と低コストのバランスを実現している。同社は業界全体の発展に活力を注入しているほか、大規模言語モデルのテクノロジー・ロードマップと工学的実践に対して積極的な影響を与え、効率的なトレーニング、モデルの軽量化、工学的最適化を促進している」と見解を述べた。

 ある業界関係者は、V3はアーキテクチャのイノベーション、トレーニングの効率、推論の性能などの面で大きなポテンシャルを秘めており、特にコストや性能のバランスという面で重要な貢献をしていると分析している。しかし、それと同時に、コンテキストの長さをさらに延ばしたり、マルチモーダルデータ処理を最適化したりしなければならないなど、解決すべき課題も山積みだという。モデルの推論速度アップや、さらに効率的なハードウェアアーキテクチャ設計の最適化、マルチモーダル学習・生成能力の増強などが今後の研究の方向性となる。

革新的なアルゴリズムに目を向けることも必要

 大規模なパラメータや計算能力、投資が有効だと示したChatGPTのロードマップは、実際にはほとんどのベンチャー企業にとっては、受け入れがたいほどの負担となる。

 報道によると、研究開発段階にある次世代AIモデル「GPT-5」は少なくとも2回の大規模トレーニングが実施された。どちらのトレーニングにも数カ月かかり、1回当たりの計算コストは5億ドル近くに達するという。開発開始から1年半が過ぎているが、GPT-5は依然としてリリースされていない。つまり、次世代汎用大規模言語モデルのトレーニングコストは十数億ドル、さらにはそれ以上に達することを意味し、その数字は今後も上昇し続ける可能性がある。

 スケーリング則とは、大規模言語モデルをトレーニングする時、データ量やパラメータ数、計算資源が増えるほど、モデルの能力と効果が高まることを指す。ところが、業界ではこのところ、スケーリング則の持続可能性に対する懐疑的な声が後を絶たない。

 V3の出現で新しいソリューションが提供された。智源研究院の林咏華副院長兼チーフエンジニアは科技日報の取材に対し、「スケーリング則はプレトレーニングの段階に限定されず、事後トレーニングにも適用され、とりわけ推論分野における事後トレーニングセットや強化学習といった分野での拡張を重視している。これに関して、中国国外では大規模言語モデル『OpenAI o1』の発表に象徴されているのが、中国には強化学習トレーニングを使用した『DeepSeek R1』というマイニング能力とアクティベート能力が非常に高い推論モデルがある」と述べた。そして、「V3の発表は、R1を活用すると能力がかなり高まることを裏付けている」との見方を示した。

 業界ではさまざまな模索が進められている。例えば、Kimiは強化学習をさらに多くの検索シーンに応用しており、論理的思考と深い思考をコア機能とした複雑な数学問題を解く推論AIモデル「K0-math」を発表した。螞蟻技術研究院は強化学習実験室を設置し、事後トレーニングや強化学習において、どのようにしてモデル能力を高めることができるかを模索している。今後の展開について林氏は、計算能力をさらに高め、多くのパラメータやデータを積み重ねていくだけでなく、本当の意味でのアルゴリズムのイノベーションを通じて、事後トレーニングの段階でモデルが基礎能力を高めるようサポートできることを期待しているという。

「コスト削減モード」に入ったといっても、計算能力が下がることを意味しているわけではない。

 V3が発表されると、サイバーセキュリティ企業「360集団」の創業者、周鴻禕氏は「DeepSeekの進歩は、中国のAI産業の発展にとって大きな追い風になる」と称賛しながらも、「中国のAI発展に最先端の演算チップが必要でないというわけではない。なぜなら、GPUを集めて計算能力クラスターを作り出すことが依然として必要で、現時点でプレトレーニングの計算能力のニーズはそれほど高くないが、スローシンキングのような複雑な推論モデルは推論のための高い計算能力を必要としており、テキストからの画像生成、テキストからの動画生成を行う場合にも、大量の計算能力リソースを消耗しなければならないからだ。大手がAIクラウドサービスを提供し、強力な計算能力の基礎を築くことが必要不可欠で、これとDeepSeekがトレーニングにおける計算能力の需要を引き下げたこととは別問題で、両者の間に矛盾はない」と指摘している。

 ある業界の専門家は取材に対し「2025年、大規模言語モデル業界は技術レベルやメーカーレベルで、数々のモデルによる『混戦』の後半戦に入る。モデルの計算効率をさらに高め、推論コストを低減するためには、計算のアーキテクチャの分布や利用効率といった点で、さらに要求が細分化されていく」と語った。

コストをかけることが唯一の論理ではない

 DeepSeek社の創業者である梁文鋒氏は、金融業界で長年働いてきた。梁氏が設立した「幻方量化」は早くも2019年から多額の資金をディープラーニングトレーニングプラットフォームに投入してきた。そして、2023年7月に、DeepSeek社を創設し、大規模AIモデルの研究と開発に打ち込むようになった。

 報道によると、同社のエンジニアと研究者は、梁氏を含めて139人しかいない。外部からすると、これは「ミステリアスな東洋の力」だ。

 梁氏は以前、「DeepSeek社にはずば抜けた天才はいない。メンバーはいずれも、中国の一流大学の新卒者やまだ卒業していない博士課程4年目、5年目のインターンシップ生、そして卒業して数年しか経っていない若者だ」と述べ、「V2を開発したのは、中国国内で学んだ人ばかりで、留学帰国者はいない」と強調している。

 また、「過去30年以上のITブームにおいて、中国はほぼ『追走者』となっていた。経済の発展に伴い、中国は次第に技術革新の主たる貢献者にならなければならない。V3の登場は、効率的かつ低コストの大規模言語モデルの発展にサンプルを提供しており、AI業界は可能性を見出すことができる。大規模言語モデルのトレーニングには依然として、大規模なGPUクラスターが必要であるものの、コストをかけるというのが業界の唯一の論理ではなく、より多くのコストをかけた人が勝つができるというわけでもない」との見方も示している。

 これに対し周氏は、「V3はたった2000個のGPUで、1万個の物理演算プロセッサ(PPU)でなければできないことをやった。このようなトレーニング方法で、何かの分野に特化した大規模言語モデルをトレーニングすると、計算能力のコストはさらに低減し、今後、中国のAIが専門分野やバーティカル領域、特定のシーン、業界向け大規模モデルで普及するのを促すだろう」と述べた。


※本稿は、科技日報「深度求索大模型:"花小钱办大事"」(2025年1月15日付6面)を科技日報の許諾を得て日本語訳/転載したものである。

 

バックナンバー