科学技術
トップ  > コラム&リポート 科学技術 >  File No.24-94

【24-94】大規模モデルが良いとは限らない 言語モデルはニーズに合わせた選択を(その2)

都 芃(科技日報記者) 2024年10月11日

小規模言語モデル(SLM)とは一般に、パラメータ数や占用する計算リソースが少なく、反応速度が速く、ローカルで実行できる小規模の言語モデルを指す。大規模言語モデル(LLM)の競争が日増しに激しくなっている現在、多くの人工知能(AI)企業や研究機関が大規模モデルとは異なる道を切り開き、小規模モデルに力を入れるのはなぜだろうか。

その1 よりつづき)

小規模言語モデルの優位性は?

 ほとんどの小規模モデルはパラメータ数が数百万から数千万の間で、構造もよりシンプルだ。パラメータ数が少ないため、必要とする消費電力や計算能力も減少する。

 現在主流のフラッグシップモデルのスマホは、チップの計算能力が40~50TOPS(1TOPSはプロセッサが1秒間に実行できる演算回数を1兆回単位で表したもの)に達する。これにスマホ向けに開発された消費電力制御戦略を組み合わせれば、多くのスマホが小規模モデルを簡単に扱えるようになる。

 小規模モデルは言語モデルとしては小さいが、特定の専門分野では機能やパフォーマンスは決して大規模モデルに劣らない。たとえばOpenAIが打ち出した軽量化言語モデルGPT-4o miniは、よくあるマルチターン会話などの機能では、GPT-4oと遜色のないパフォーマンスを示している。

 現在の大規模モデルにはハルシネーション(幻覚)、つまり言語モデルが事実と異なる内容をアウトプットする可能性があるという問題が存在するが、小規模モデルは細分化された精度の高いデータの学習に専念することで、見当違いや想定外の内容、事実と一致しない内容がアウトプットされるリスクを軽減している。

 このほか、小規模モデルは「カスタマイズのレベルが高い」「応答速度が速い」といった特徴があるため、ユーザーのニーズに一層寄り添うことが可能になる。また、クラウド上で実行される大規模モデルに比べ、小規模モデルはオンデバイスで利用できるため、ユーザーのデータ制御権やプライバシーをより手厚く保証することも可能だ。

大規模モデルと小規模モデルの協同発展

 もちろん、汎用人工知能(AGI)の実現という究極の目標から見れば、小規模モデルはまったく不十分なものと言える。小規模モデルの現在の急速な発展は、コストとユーザーニーズのバランスにおける企業の合理的な選択という面が大きい。

 科大訊飛の副総裁で科大訊飛研究院院長を務める劉聡氏は「大規模モデルと小規模モデルの優劣を上辺だけで論じるのではなく、具体的な使用シーンを踏まえて評価すべきだ」と指摘。「ある業界に関する文章を書かせたり、資料を翻訳させ、手を加えるだけなら、中小規模の言語モデルで十分に事足りる。しかし、オープンな情報環境の中で、不特定の内容を抽出・識別・分析する場合は、大規模モデルのパフォーマンスが優れていることに疑問の余地はない」と説明した。

 劉氏によると、大規模モデルと小規模モデルの連携が、将来のAI発展の重要な方向性になる可能性が高く、何らかのタスクにおいて大規模モデルと小規模モデルのどちらを使用するかは、タスクの汎用性と効率の要求によって決まるという。「結局は具体的なニーズを軸に展開するべきで、この両者は二者択一の関係ではない」と劉氏は指摘する。

 具体的に言えば、研究開発段階において、大規模モデルと小規模モデルの関係は、競争ではなく協調という面が大きい。現在、多くの大手テクノロジー企業は、まず汎用的能力を十分備えた大規模モデルをトレーニングし、それから大規模モデルを使ってデータの初歩的なスクリーニングを行う方法を採用している。大規模モデルをベースにした小規模モデルは、より少ないデータ数で質の高いトレーニングをすることが可能で、より少ないコストで大規模モデルに引けを取らない効果を発揮する。劉氏は「大規模モデルの目標は最高性能に達することだ。これをベースに小規模モデルを最適化すれば、ゼロから小規模モデルに取り組む場合と比べ、効果は全く違ったものになる」と語った。


※本稿は、科技日報「并非越大越好,模型选择要结合需求」(2024年9月2日付6面)を科技日報の許諾を得て日本語訳/転載したものである。

 

上へ戻る