科学技術

【24-24】大規模言語モデルの発展に不可欠な高品質のコーパス

羅雲鵬（科技日報記者）　2024年03月14日

大規模言語モデルは急速に発展しているが、質の高いコーパスの不足がその発展を妨げる足かせとなりつつある。（画像提供：視覚中国）

　人工知能（AI）を手がける米国のOpenAIは1月5日、AIモデルのトレーニングに使うコンテンツを取得するために、出版事業者数十社と著作物のライセンス契約について交渉していることを明らかにした。少し前の2023年12月27日には、米紙ニューヨーク・タイムズが、同紙の記事数百万本をAIモデルの学習用に許可なく使用して著作権を侵害しているとして、OpenAIとマイクロソフトを提訴した。さらに、2023年3月には、グーグルの会話型AI「Bard」の一部のトレーニングデータがOpenAIのChatGPTを利用しているという報道もあった。

　これらのニュースは、大規模言語モデルの質の高いコーパスが不足しているという問題を浮き彫りにしている。ハルビン工業大学（深圳）コンピューター科学・技術学院の邵睿教授は、「一からトレーニングする大規模言語モデルにとって、コーパスの不足はその発展を非常に大きく制限するものとなる。コーパスを増やして大規模言語モデルの能力を増強することで得られる限界利益は減少しつつあり、質の高いコーパスの不足が大規模言語モデルの発展を妨げる足かせになっている」との見方を示した。

大規模言語モデルのトレーニングに必要なコーパスが不足

　中国科学技術部(省)次世代人工知能発展研究センターが2023年に発表した「中国AI大規模言語モデルマップ研究報告」によると、世界でリリース済みの大規模言語モデルの数は中国と米国が大きくリードしており、世界全体の80％以上を占めている。

　大規模言語モデルは急速に発展しているが、質の高いコーパス不足が世界共通の課題となっている。公開されている資料によると、大規模言語モデルには、極めて多くのデータ供給が必要となる。例えば、OpenAIのマルチモーダル大規模言語モデル「GPT-4」とグーグルのAIモデル「Gemini Ultra」のトレーニングには、およそ4兆～8兆個の単語が必要になる。米マサチューセッツ工科大学などの研究者は、2026年までに機械学習に必要な高品質のコーパス・データが枯渇する可能性があると予測している。研究機関のEpochAIも「早ければ2024年に、人類のトレーニングデータが枯渇する可能性がある。そうなれば世界中で高品質のトレーニングデータが枯渇してしまうだろう」と予測している。また、OpenAIもデータ枯渇に対する懸念を表明している。

　現時点で、大規模言語モデルのデータセットは主に英語であることは注目に値する。そして、中国語のコーパス不足はさらに深刻だ。

　中国工程院院士（アカデミー会員）で、鵬城実験室の高文曽主任は「世界で使われている50億の大規模言語モデルのデータ・トレーニングセットのうち、中国語のコーパスが占める割合はわずか1.3％だ」と公の場で述べていた。

　上海データ取引センター・市場発展部の章健副総経理は以前、「大規模言語モデル業界には現在、コーパス供給不足という問題が存在している。特に垂直に細分化された分野を見ると、一部の共有型の無料ダウンロード可能なコーパスは数こそ多いものの、質は低い。コーパスの数の増加を追求すると同時に、質も重視しなければならない」と指摘していた。

高品質コーパスが備えているべき7つの特徴とは？

　では、どんなコーパスが「高品質」と言えるのだろう？　騰訊(テンセント)や商湯科技（センスタイム）、ハルビン工業大学（深圳）といった企業や大学の専門家は、高品質のコーパスが備えるべき特徴について、「多様性」「大規模」「合法性」「信ぴょう性」「整合性」「公平性」「無害」の7つを挙げている。

　邵氏は「高品質のコーパスは多様性が高い、文章が流暢という特徴を備えるべきだ」と指摘している。騰訊機械学習プラットフォームのアルゴリズム責任者である康戦輝氏は「コーパスの多様性は、コーパスの質を確保するための基礎となる。異なるルートを通して、ニュースや小説、詩歌、科学技術文章といった異なる種類のコーパスを集める必要がある。それは、大規模言語モデルがさらに豊富な言語表現を学ぶ助けになる」と訴えた。

　また、大規模言語モデルは大きな規模を持つ必要がある。なぜなら、言語の規則を学習するとともに、一般化する能力を高める必要があるからだ。十分なコーパスを持って初めて、大規模言語モデルは言語の微妙なニュアンスを把握することができる。

　さらに、高品質のコーパスは合法的かつ無害である必要もある。合法的でないまたは有害なコーパスは、モデルの回答や提案を不適切なものに導く可能性があるほか、無意識のうち他人のプライバシーを漏洩してしまう可能性がある。

　康氏は「大規模言語モデルが、文脈をより良く理解して、論理的な回答を生成するためには、高品質のコーパスが高い信ぴょう性と整合性を備えるべきだ。コーパスはその多様性を十分反映するとともに、偏見を避けるべきだ。こうしてはじめて、大規模言語モデルは、さまざまなシチュエーションにおけるユーザーの質問に、できる限り科学的で客観的な回答をすることができる」と説明した。