科学技術
トップ  > コラム&リポート 科学技術 >  File No.24-13

【24-13】技術の高度化が大規模モデルのコスト削減・効率向上を支援

羅雲鵬(科技日報記者) 2024年02月08日

image

2023世界AI大会で大規模モデルを撮影する来場者。大規模モデルのトレーニング効率向上と応用加速の面で、複数の中国企業が独自の成果を上げている。

 計算能力が不足した場合に、いかに大規模モデルのトレーニングや推理の効率を高め、コストを削減するか。このことは、多くの大規模言語モデル企業が直面する課題の一つとなっている。

 騰訊(テンセント)は、同社が開発した大規模モデル「混元(Hunyuan)」のバックグラウンドにある、独自開発したマシンラーニングフレームワーク「Angel」を再びアップデートしたことを明らかにした。2023年11月30日、騰訊マシンラーニングプラットフォーム部の陶陽宇総監は、「マシンラーニングフレームワークのアップデート後、われわれの大規模モデルのトレーニング効率は、主流となっているオープンソースフレームワークの2.6倍に向上した。それを使ってパラメーター数が1千億級の大規模モデルをトレーニングすると、計算能力コストを50%削減でき、大規模モデルの推理速度が1.3倍向上する」と説明した。

 大規模モデルのトレーニング効率を高め、その応用を加速させているのは騰訊だけではなく、他の複数の中国企業も成果を上げている。

トレーニング効率を高めながら計算能力コストを削減

 大規模モデルのトレーニング・推理プロセスでは、計算能力リソースを大量に消耗する。そのため、ハードウェアリソースの利用率を高めることは、中国製大規模モデルの技術発展において極めて重要となる。

 陶氏によると、騰訊は大規模モデルのトレーニングのために、マシンラーニングフレームワーク「Angel」を独自開発した。同フレームワークがプレトレーニングやモデルのファインチューニング、強化学習など、全フローの加速と最適化を推進している。「Angel」には、FP8混合精度トレーニング技術が採用されており、4D混合並行トレーニングプランを最適化しているほか、ZeRO Cache技術をベースに、余分なモデルストレージとメモリ断片化を減らし、メモリの利用率を高めている。さらに、同フレームワークは多くの中国製ハードウェアとも互換性がある。

 報道によると、ハードウェアリソースの利用率を高め、通信プランやAIフレームワーク、モデルコンパイラなどを対象に、システムレベルの最適化を実施すれば、トレーニング・チューニングや計算能力のコストを大幅に低減することができるという。

 また、モデルのパラメーター数が増えるにつれて、大規模モデルの推理コストも上昇している。陶氏によると、騰訊のAngelは、並行拡張やベクトルデータバンク、バッチ処理といった複数の最適化手段を通じて、スループットキャパシティを増強し、推理性能を高めながらコストを低減したという。

 インターネット大手「百度(Baidu)」の王海峰最高技術責任者(CTO)も第20回中国コンピューター大会で、「大規模言語モデル『文心』4.0は、23年3月の発表からトレーニングアルゴリズム効率が3.6倍向上した。ディープラーニングフレームワーク『百度飛槳(PaddlePaddle)』と文心を同時に最適化した結果、文心の1週間当たりの平均トレーニング有効率が98%を超え、推理性能は50倍向上した」と明らかにした。

 公開資料によると、阿里雲(アリクラウド)の大規模言語モデル「通義千問(Tongyi Qianwen)」は、スケーリング則に焦点を当てている。小規模AIモデルのデータ分布、規則、割合に基づき、パラメーターが大規模な場合にモデル能力をどのように高めることができるかを研究し、基盤クラスターの最適化を通じて、モデルのトレーニング効率を30%高め、その安定性も15%向上したという。

大規模言語モデルの「アウト・オブ・ザ・ボックス」が可能に

 モデルのトレーニングと推理の方法を調整・最適化することの最終目的は、モデルをより良い形で実際の応用シーンに適応させ、端末における応用の余分なコストを削減することだと理解できる。騰訊のマシンラーニングプラットフォームエンジニアである姚軍氏は「大規模モデルの応用は、研究開発と同じくらい重要だ。アクセスが便利で、強力なプラットフォームを提供してはじめて、大規模モデルを応用することができる」と見解を述べた。

 百度の創業者である李彦宏董事長兼最高経営責任者(CEO)は「大規模モデル自体に価値が生まれることはない。それをベースにして開発したアプリケーションこそが大規模モデルの存在意義だ」と述べたことがある。しかし、多くの大規模モデルは応用の難易度が高い。それは、大規模モデルは往々にして数多くのアプリケーションに対応しており、大量のインターフェースとフローのサポートを必要としているからだ。

 では、どのようにしてその難題を解決すれば良いのだろうか? 騰訊は「Angel」をベースに、大規模モデルの接続とアプリケーション開発のワンストップ型プラットフォームを構築し、業務シーンのデータ処理、モデルのファインチューニング、評価・配置、アプリケーション構築などを対象に、複数のチームが協力するスタイルから、流れ作業プラットフォームにおける自動生産スタイルに移行させ、大規模モデルの「アウト・オブ・ザ・ボックス」を可能にした。「アウト・オブ・ザ・ボックス」は、プレトレーニング基礎モデルの汎化能力や高性能フレームワークが提供するファインチューニング、拡張プロジェクト能力、そして応用プラットフォームの柔軟な構築能力などの支えがカギとなる。報道によると、「騰訊」は現在、ビデオ会議プラットフォーム「騰訊会議」やニュースポータル「騰訊新聞」、動画共有サービス「騰訊視頻」といった300以上の製品・シーンに「混元」を接続し、内部テストを実施している。その数は10月から倍増しており、テキスト総括、ダイジェスト、創作、翻訳、コードといったシーンをカバーしている。また、騰訊の「混元」は、スマート化された広告素材の作成が可能で、千差万別のニーズを満たすことができる。

「北京市AI業界大規模言語モデルイノベーション応用白書(2023年)」の統計によると、23年10月時点で、パラメーター数が10億以上の大規模モデルメーカーおよび大学が中国国内に計254機関あり、20以上の省・市/地区に分布している。

 中国人民大学デジタル経済研究センターの李三希主任は「大規模モデル製品では今後、汎用大規模モデルと垂直分野細分化モデルの結合が、発展の方向性になる可能性がある。そのためには、大規模で高品質の多様化したコーパスを含む、堅実な技術的基盤や、革新的大規模モデルアルゴリズム、独自開発したマシンラーニングフレームワーク、強力な計算能力インフラが必要であるとともに、大規模モデル製品のシーンに合わせた確実な応用も必要だ。今後、実践の中で生まれた『実用型』大規模モデルがその傾向となるだろう」と語った。


※本稿は、科技日報「"技术升级+一站构建"助大模型降本增效」(2023年12月4日付6面)を科技日報の許諾を得て日本語訳/転載したものである。

 

上へ戻る