科学技術
トップ  > コラム&リポート 科学技術 >  File No.24-93

【24-93】大規模モデルが良いとは限らない 言語モデルはニーズに合わせた選択を(その1)

都 芃(科技日報記者) 2024年10月10日

(画像提供:視覚中国)

 今年8月末、マイクロソフトとNVIDIAが小規模言語モデル(SLM)を相次いで発表し、業界で大きな話題となった。両社はそれぞれの小規模モデルについて、計算リソースの消費と機能パフォーマンスのバランスが取れており、一部の面では大規模言語モデル(LLM)に匹敵すると強調した。これに加え、アップルやOpenAIなども、より少ないパラメータ数で高い性能を発揮する小規模モデルを発表した。

 小規模言語モデルとは一般に、パラメータ数や占用する計算リソースが少なく、反応速度が速く、ローカルで実行できる小規模の言語モデルを指す。大規模モデルの競争が日増しに激しくなっている現在、多くの人工知能(AI)企業や研究機関が大規模モデルとは異なる道を切り開き、小規模モデルに力を入れるのはなぜだろうか。

大規模モデルはトレーニングコストが高い

「大規模モデルの競争は激しすぎる」 これは、一部業界関係者の大規模モデル産業に対する評価だ。各AIメーカーの大規模モデルに対する投資が拡大し続けたことで、今ではパラメータ数が100億や1000億を超える大規模モデルが珍しくなくなり、製品の同質化の流れもますます顕著になっている。

 しかし、言語モデルは本当に大きければ大きいほど良いのだろうか。言語モデルが大きくなると、消費するリソースも増え、コストもより高くなる。OpenAIのサム・アルトマン最高経営責任者(CEO)は今年4月、米マサチューセッツ工科大学で講演した際に、「巨大な言語モデルの時代は終わりつつある」と指摘。「将来のAIの新たな進歩は、モデルサイズの拡大から生まれるものではないだろう」との見方を示した。

 大規模モデルは、トレーニング段階だけでも巨額のコストを必要とする。OpenAIの元研究担当副社長で、AIスタートアップ企業「アンソロピック」CEOのダリオ・アモデイ氏は以前、「GPT-4oのような言語モデルは、トレーニングコストが約1億ドル(1ドル=約146円)かかっている。現在開発中の大規模AIモデルのトレーニングコストは10億ドルに達する可能性がある」と指摘した上で、「今後3年以内に、大規模AIモデルのトレーニングコストは100億ドル、さらには1000億ドルまで上昇するだろう」と予測した。

 中国国内の大規模モデル製品も同様に、コストが高止まりしている。百川智能の創業者兼CEOの王小川氏は以前「大規模モデルはパラメータ数1億あたりのトレーニングコストが1万5000元~3万元(1元=約21円)になる。パラメータ数が1000億級の大規模モデルなら、トレーニング1回あたりのコストは3000万~5000万元だ」と紹介した。

 また、ハイレベルな計算能力の不足といった要因も、中国国内の大規模モデルの発展を阻む難題だ。2023年に科大訊飛(iFLYTEK)と華為技術(ファーウェイ)が共同で中国初の国産計算能力プラットフォーム「飛星1号」を発表し、これをベースにトレーニングを行った訊飛星火大規模モデルが中国国内での独自開発を実現した。しかし全体的に見れば、世界の先端レベルと比較して、中国国内の大規模モデル製品にはまだ大きな向上の余地がある。

 応用面では現在、オンデバイスが注目されているが、大規模モデルは必要な計算リソースがあまりにも膨大なため、スマートフォンや人型ロボットのような小型デバイスにおいて、ローカルで実行することがほぼ不可能であり、このことが大規模モデルの応用を制約している。例えば、これまでに発表された言語モデルのうち、パラメータ数が10億のモデルはまだスマホでの実行が可能だが、パラメータ数が100億になると、スマホでの実行は非常に困難になり、正常な使用はほぼ不可能になる。このように、多くのシーンでは言語モデルが大きいほど良いとは限らず、このことが小言語モデルに対し、さらなる発展の余地を与えている。

その2 へつづく)


※本稿は、科技日報「并非越大越好,模型选择要结合需求」(2024年9月2日付6面)を科技日報の許諾を得て日本語訳/転載したものである。

 

上へ戻る