【24-24】大規模言語モデルの発展に不可欠な高品質のコーパス
羅雲鵬(科技日報記者) 2024年03月14日
大規模言語モデルは急速に発展しているが、質の高いコーパスの不足がその発展を妨げる足かせとなりつつある。(画像提供:視覚中国)
人工知能(AI)を手がける米国のOpenAIは1月5日、AIモデルのトレーニングに使うコンテンツを取得するために、出版事業者数十社と著作物のライセンス契約について交渉していることを明らかにした。少し前の2023年12月27日には、米紙ニューヨーク・タイムズが、同紙の記事数百万本をAIモデルの学習用に許可なく使用して著作権を侵害しているとして、OpenAIとマイクロソフトを提訴した。さらに、2023年3月には、グーグルの会話型AI「Bard」の一部のトレーニングデータがOpenAIのChatGPTを利用しているという報道もあった。
これらのニュースは、大規模言語モデルの質の高いコーパスが不足しているという問題を浮き彫りにしている。ハルビン工業大学(深圳)コンピューター科学・技術学院の邵睿教授は、「一からトレーニングする大規模言語モデルにとって、コーパスの不足はその発展を非常に大きく制限するものとなる。コーパスを増やして大規模言語モデルの能力を増強することで得られる限界利益は減少しつつあり、質の高いコーパスの不足が大規模言語モデルの発展を妨げる足かせになっている」との見方を示した。
大規模言語モデルのトレーニングに必要なコーパスが不足
中国科学技術部(省)次世代人工知能発展研究センターが2023年に発表した「中国AI大規模言語モデルマップ研究報告」によると、世界でリリース済みの大規模言語モデルの数は中国と米国が大きくリードしており、世界全体の80%以上を占めている。
大規模言語モデルは急速に発展しているが、質の高いコーパス不足が世界共通の課題となっている。公開されている資料によると、大規模言語モデルには、極めて多くのデータ供給が必要となる。例えば、OpenAIのマルチモーダル大規模言語モデル「GPT-4」とグーグルのAIモデル「Gemini Ultra」のトレーニングには、およそ4兆~8兆個の単語が必要になる。米マサチューセッツ工科大学などの研究者は、2026年までに機械学習に必要な高品質のコーパス・データが枯渇する可能性があると予測している。研究機関のEpochAIも「早ければ2024年に、人類のトレーニングデータが枯渇する可能性がある。そうなれば世界中で高品質のトレーニングデータが枯渇してしまうだろう」と予測している。また、OpenAIもデータ枯渇に対する懸念を表明している。
現時点で、大規模言語モデルのデータセットは主に英語であることは注目に値する。そして、中国語のコーパス不足はさらに深刻だ。
中国工程院院士(アカデミー会員)で、鵬城実験室の高文曽主任は「世界で使われている50億の大規模言語モデルのデータ・トレーニングセットのうち、中国語のコーパスが占める割合はわずか1.3%だ」と公の場で述べていた。
上海データ取引センター・市場発展部の章健副総経理は以前、「大規模言語モデル業界には現在、コーパス供給不足という問題が存在している。特に垂直に細分化された分野を見ると、一部の共有型の無料ダウンロード可能なコーパスは数こそ多いものの、質は低い。コーパスの数の増加を追求すると同時に、質も重視しなければならない」と指摘していた。
高品質コーパスが備えているべき7つの特徴とは?
では、どんなコーパスが「高品質」と言えるのだろう? 騰訊(テンセント)や商湯科技(センスタイム)、ハルビン工業大学(深圳)といった企業や大学の専門家は、高品質のコーパスが備えるべき特徴について、「多様性」「大規模」「合法性」「信ぴょう性」「整合性」「公平性」「無害」の7つを挙げている。
邵氏は「高品質のコーパスは多様性が高い、文章が流暢という特徴を備えるべきだ」と指摘している。騰訊機械学習プラットフォームのアルゴリズム責任者である康戦輝氏は「コーパスの多様性は、コーパスの質を確保するための基礎となる。異なるルートを通して、ニュースや小説、詩歌、科学技術文章といった異なる種類のコーパスを集める必要がある。それは、大規模言語モデルがさらに豊富な言語表現を学ぶ助けになる」と訴えた。
また、大規模言語モデルは大きな規模を持つ必要がある。なぜなら、言語の規則を学習するとともに、一般化する能力を高める必要があるからだ。十分なコーパスを持って初めて、大規模言語モデルは言語の微妙なニュアンスを把握することができる。
さらに、高品質のコーパスは合法的かつ無害である必要もある。合法的でないまたは有害なコーパスは、モデルの回答や提案を不適切なものに導く可能性があるほか、無意識のうち他人のプライバシーを漏洩してしまう可能性がある。
康氏は「大規模言語モデルが、文脈をより良く理解して、論理的な回答を生成するためには、高品質のコーパスが高い信ぴょう性と整合性を備えるべきだ。コーパスはその多様性を十分反映するとともに、偏見を避けるべきだ。こうしてはじめて、大規模言語モデルは、さまざまなシチュエーションにおけるユーザーの質問に、できる限り科学的で客観的な回答をすることができる」と説明した。
関連メカニズムを整備してコーパスの質的向上に取り組む
現在、大規模言語モデルのトレーニングに使われているコーパスの一部はデータカンパニーから購入するか、一部はインターネット上に公開されているコーパスやデータセットから取得して、整理している。邵氏は「データカンパニーから購入したコーパスは質が高く、大部分が垂直分野のデータだが、データの量は比較的少ない上に価格も高い。一方、インターネット上で公開されているコーパスは汎用性が高く、データの量が多いが、その質を保証することができず、データ形式を統一することが難しい」と指摘する。
商湯科技のスポークスマンは「価値の高い大量の情報を含めて、人間が生み出す効果的な情報は、インターネットのデータではなく、各業界のデータとして散在している可能性がある。いかにしてより多くのデータを集め、質が高いインターネット構造を設計し、より多くのコンピューターリソースを活用して、容量がより大きな高品質のコーパスを支え、知能をさらに高めることができるようするのか。これが、極めて重要な課題となっている。コーパスの問題を解決するためには、コーパスの量を増やすだけでなく、その質を高める必要がある。さらに、データ交換メカニズムを整備し、AIデータのインフラ化の推進まで考慮する必要がある」との見解を述べた。
同スポークスマンが指摘するように、業界は現在、データ交換メカニズム構築を推進するための方策を講じている。例えば、2023年7月、深圳データ取引所は50近くの機関と共同で「開放算料連盟」を立ち上げた。同連盟は高品質の中国語のトレーニングデータとマルチモーダルAIのトレーニングデータについて、データ要素やデータガバナンス、トレーニングデータ、データ注釈、合成データなどに関連する基準制定を調整し、データ取引所が大規模言語モデル関連の新ジャンルや新専門エリアを増やすことができるようサポートしている。
また、23年7月に開催された2023世界人工知能大会では、中国大規模言語モデルコーパスデータ連盟が設立された。さらに同年8月、上海人工知能実験室は、同連盟の会員機関と共同でオープンソースの「書生・万巻」1.0マルチモーダルプレトレーニングコーパスを発表した。オープンソースのデータ総量は2テラバイト(TB)以上で、5億本以上のテキスト、画像と文書が混在する2200万件のファイル、1000本の映像・動画が含まれている。
さらに整備された体制、メカニズムを構築するほか、データクリーニングといった技術的手段も高品質コーパス不足という難題解決に一役買っている。しかし、こうした技術的手段のハードルが高いことにも注目しなければならない。商湯科技のスポークスマンは「われわれはデータクリーニングの過程で、1000にのぼるグラフィックスプロセッサ(GPU)の計算能力を投入している」と明らかにした。OpenAIは事あるごとにGPT-4トレーニングの経験を紹介しているが、データクリーニングの経験については一度も明らかにしていない。
※本稿は、科技日報「大模型发展亟需高质量"教材"相伴」(2024年1月15日付6面)を科技日報の許諾を得て日本語訳/転載したものである。