ビッグモデルをベースにスモールデータで微調整 企業のスマート化モデル転換
2022年04月25日 翟冬冬(科技日報記者)
(画像提供:視覚中国)
スモールデータやハイクオリティデータの応用は、ビッグ基礎モデル(プレトレーニングモデル)をベースに、スモールデータを通して、モデルの微調整を行い、モデルが具体的な応用シーンに、より的確なサービスを提供できるようになる。この視点から考えると、スモールデータが今後、基礎モデルがダウンストリームタスクを行う際に、カギとなる役割を果たすようになるだろう。
王金橋 中国科学院自動化研究所研究員
ビッグデータは現在、人工知能の「標準装備」となっている。人工知能モデルのトレーニングの過程で、それをさらにスマートにするためには、多様性ある大量のデータが不可欠だ。しかし、著名な人工知能学者である呉恩達氏は最近、人工知能の今後10年の発展の方向性を展望した際、「スモールデータやハイクオリティデータの応用が今後のトレンドになるかもしれない」という異なる見方を示した。
中国科学院自動化研究所の研究員である王金橋氏は、「スモールデータやハイクオリティデータの応用は、ビッグ基礎モデル(プレトレーニングモデル)をベースに、スモールデータを通して、モデルの微調整を行い、モデルが具体的な応用シーンに、より的確なサービスを提供できるようになる。この視点から考えると、スモールデータが今後、基礎モデルがダウンストリームタスクを行う際に、カギとなる役割を果たすようになるだろう」との見方を示した。
大半のシーンはハイクオリティのビッグデータ獲得が難しい
アルゴリズム(モデル)や計算力、データは、人工知能の発展を推進する3大要素となっていると言える。うち、データは特に重要だ。多くのインターネット消費シーンにおいて、人工知能を用いた、精度の高いプッシュ通知が送られてくることがよくあるだろう。消費者の消費習慣や買い物の傾向を分析することにより、プラットフォームのシステムは消費者の潜在的なニーズを判断して、それを誘導する。それら全ての基礎となっているのが豊富で大量のデータサンプルだ。ビッグデータを活用して、プラットフォームは対象分野の専用モデルを構築し、的確なプッシュ通知を実現している。
こうした体験は、一般消費者のビッグデータや人工知能に対する最も直接的なイメージかもしれない。呉氏は取材に対して、「過去10年の間に、消費者向けの企業は、大量のユーザーグループ(時には数十億人に達する)を有しているため、非常に大きなデータセットを獲得するとともに、人工知能がディープラーニングを展開して、企業に多くの経済効果をもたらしている」としながらも、「このような法則は他の業界には適用できない。その理由は、すべてのシーンが、豊富なビッグデータサンプルを産出するわけではないからだ」と強調した。
実際には、「生活における8~9割のシーンの問題はスモールサンプルの問題に属している」。王氏によると、多くの応用シーンは、トレーニングサンプルを獲得するのが難しく、ごく少量のデータしか得られない。欠陥検出はその典型的な例だ。欠陥検出というのは、マシンビジョン技術などを活用して、ある特定の欠陥を検出、識別することを指す。このような検査は宇宙飛行・航空、鉄道交通、スマート自動車といった多くの分野に応用されている。実際の生活において、欠陥が存在する製品というのは常に少数であるため、欠陥検出のトレーニングサンプルは非常に少ない。
一方で、サンプルが豊富なシーンであっても、トレーニングデータにアノテーションを付けるのが非常に難しいという問題点がある。王氏によると、現在、人工知能が使用するトレーニングデータは、人手によって付けられたアノテーションがメインで、データは大量で、さらに人手によってアノテーションを付けるには往々にして、業界の経験が必要だ。一般の人では、アノテーションエリアの識別を行うのは非常に難しい。このほか、各応用のニーズごとに、人工知能専門家が設計したアルゴリズムモデルが必要で、モデルが多くなればなるほど、開発コストも高くなる。
呉氏は、「消費インターネット業界においては、少しの機械学習モデルをトレーニングするだけで、ユーザー10億人にサービスを提供できる。だが、製造業においては、メーカーが1万社あれば、1万個の専用モデルを作らなければならない。そして、そのためにはたくさんの人工知能専門家が必要となる」と説明する。
現時点での業界の発展トレンドからして、基礎モデルが上記の問題を解決する一つの方向性となるかもしれない。
基礎モデルを「基盤」としてスモールデータを微調整
王氏は、「近年、業界は基礎モデルの研究開発を重視し始めたあるいは共通タイプのモデルで上記の問題を解決するようになったとも言える。まず、大量データを使って1つのモデルのプレトレーニングを行う。こうしたモデルのプレトレーニングの過程での主な任務は知識を広くすることだ。トレーニングにおいて、モデルは各分野の多種多様なデータに接して、知識を広げ、今後直面する各種状況に対応できるように準備する。その後、ダウンストリームタスクにおいて、具体的なシーンのデータを利用して微調整を行う」と説明する。
自然言語処理(NLP)分野のビッグモデルを例にすると、それを利用して対話や質疑応答といったダウンストリームタスクを行う場合、そのダウンストリームタスクの中の少しのデータを使い、そのビッグモデルをベースにして微調整を行うだけで、良いパフォーマンスが期待できる。一部の研究成果を見ても、構築済みの専属モデルの5~10%のデータサンプルをビッグモデルのデータ微調整に使うだけで、専属モデルと同じ精度が得られることが分かる。
王氏は、「ビッグモデルからスモールモデルに転換することで、一つのモデルがたくさんの任務を行えるようにすることができ、これが現在の業界の発展における転換と言うことができる。そうすることで開発の難度が下がるだけでなく、開発コストも大幅に削減できる。以前、アルゴリズムごとに、ディープラーニング専門家が設計・トレーニングしなければならなかった。しかし、今は、ビッグモデルをベースにして微調整を行うことができる。モデルの設計や枠組みも比較的簡単になった。中小企業はビッグモデルをベースにして、自分でデータをアップするだけでよい」と説明する。
このほか、そのような方法を活用すると、モデルの誤報率も減少する。基礎モデルが多種多様なデータやシーンに触れ、実際の任務を実行する時に、大量の知識をストックすることで、実際の小さなシーンにおける応用の準備をしっかりと行うことができる。
しかし、呉氏は取材に対して、「プレトレーニングは、難題の一部しか解決しないことだ。使用者が正確にデータを選んで微調整を行い、一致した方法でデータにアノテーションを付けることのできるツールを提供するというのが、もっと大きな難題だ。ビッグデータセットに直面する場合、仮にデータにノイズがあっても、全てのデータを収集すれば、アルゴリズムが均衡を取ってくれるから大丈夫というのが多くの開発者の反応。しかし、研究者はデータが一致していない所にアノテーションを付けるツールを開発することができれば、使用者にピンポイントの方法を提供して、データのクオリティを向上させることができる。そうなれば、高性能のシステムを得るためのより効果的な方法になるだろう」との見方を示す。
マルチモーダルがビッグモデル発展の方向性か
基礎モデルは、たくさんのスモールモデルを生む「基盤」として、その性能が特に重要となる。その認知能力が人間に近づくほど、それを基礎にして作られたスモールモデルの性能も高くなる。
外界を感知する時、人間は視覚や聴覚、触覚といった手段を使い、さらに言葉による対話などを通して、インタラクティブな交流ができる。うち、視覚によって得られる情報が全体の70%を、聴覚と触覚が約30%を占めている。王氏は、「同様に、ビッグモデルの性能をさらに高め、人間の認知能力に近づけるには、トレーニングにおけるデータの融合という問題に触れなければならない。よく知られている文章生成言語モデルGPT-3は、人間が書くような自然なテキストを生成するほか、質疑応答、翻訳、小説創作といった一連のNLP任務をこなし、さらに、簡単な数学の計算を行うことさえできる。しかし、外界との交流の主な方法は、テキストを使った交流で、画像や動画といったマルチモーダル融合は進んでいない」と説明する。
どんな情報のソース、形式も、一種のモーダル(様式)と呼ぶことができる。例えば、人間には触覚や聴覚、視覚、臭覚などがあり、情報の媒介には音声、映像、文字などがある。人間の認知モデルは、マルチモーダルの集合と言うことができる。
基礎モデルのプレトレーニングを、少しでも人間の認知モデルに近づけるためには、マルチモーダルを融合させる必要がある。つまり、モデルがプレトレーニングという方法を通して、画像や映像、音声、意味といったマルチモーダルの情報を処理・理解する能力を備えるようにすることだ。マルチモーダルのプレトレーニングモデルは、限定された分野の弱い人工知能から汎用人工知能へと前進するルート模索とされている。
王氏は、「ここ1、2年、ビッグモデルの数が爆発的に増え、単一のモーダルモデルからマルチモーダルモデルへと進展している。マルチモーダル能力を備えた基礎モデルは、実際の応用シーンにおいて、ロバストネス性がより高く、異常発生時や危険な状況下でのシステムの生存能力も高い。今後、マルチモーダルの基礎モデルが基礎モデル発展の主な方向性になる可能性がある」との見方を示す。
※本稿は、科技日報「大模型"画竜",小数据"点睛"」(2022年3月1日付6面)を科技日報の許諾を得て日本語訳/転載したものである。