科学技術
トップ  > コラム&リポート 科学技術 >  File No.23-35

【23-35】中国語基盤モデル登場でAIの一般化が一段と進む

陳 曦(科技日報記者) 2023年07月27日

image

(画像提供:視覚中国)

 現在、成熟した生成人工知能(AI)モデルの大部分は、英語のデータをベースにトレーニングを行っているが、中国国内の各業界の応用環境においては、中国語の基盤モデルのほうがより親しみやすく、使いやすい。中国語と英語のデータでは、トレーニングしてできた基盤モデルは大きく異なる。中国語のほうが英語と比べて、文脈をしっかり理解する必要があり、意味の多義性も大きい。基盤モデルは、まず人間の意図を理解する必要があるため、中国のユーザーにとっては、中国語を使ってトレーニングした基盤モデルのほうが使いやすい。

「梁暁声氏の小説『人世間』のスタイルを真似して、続きの文章を書いてください」。5月20日に開かれた第7回世界知能大会(World Intelligence Congress)の閉幕式で、司会者の蒋昌建氏が、科大訊飛(iFLYTEK)が開発した大規模言語モデル「星火認知(SparkDesk)」に、そのように話しかけると、わずか数秒で、続きの文章が書き上げられた。その内容について、原作者の梁暁声氏は「内容は簡潔で洗練されており、温かみがある。伝わって来る感情と考えは、ほぼ非の打ちどころがない」との見解を示した。

 今回の大会で、生成AIが人々の注目の的となったことに疑いの余地はない。中国の各大手メーカーは、生成AIのコア技術の研究開発を加速させており、iFLYTEKのSparkDesk基盤モデルが示した強固な「中国語の基盤」にしても、国家スーパーコンピューター天津センターが発表した中国国産スパコン「天河」をベースに膨大な計算能力、スマート計算能力、中国語データ集を構築し、研究開発・トレーニングした「天河天元」基盤モデルにしても、中国が独自開発した中国語生成AI基盤モデルに対する期待が高まっている。

中国人に適した中国語基盤モデルを開発

 国家スーパーコンピューター天津センター・データ知能部の康波部長は「AI基盤モデルは、膨大なマルチソースデータをベースに構築されたプレトレーニングモデルで、元のアルゴリズムモデルの技術の高度化と製品の進化と言える。プレトレーニング基盤モデルは、膨大なデータに基づく自己モニタリング学習段階で『教養教育』が完了する。『プレトレーニング+高精度調整』などを通じて、パラメーターを共有し、応用シーンの特性に基づき、少量のデータを用いて相応の微調整を行うことで、高度なタスクを完了できる」と説明した。

 AI基盤モデルは、人間の自然言語の意味を理解し、巨大なネットワーク構造を通じて、的確なコンテンツを生成することが可能となる。

 その効果を見ると、生成AIは「全知全能」で、論理的推論や文脈理解、文書作成、知識の抽出、コードの生成といった、多岐にわたる非常に高い能力を備えている。

 ただし、現在成熟している生成AIモデルの大部分は、英語のデータをベースにトレーニングを行っている。康氏は「中国語と英語のデータでは、トレーニングしてできた基盤モデルは大きく異なる。中国語のほうが英語と比べて、文脈をしっかり理解する必要があり、意味の多義性も大きい。基盤モデルは、まず人間の意図を理解する必要があるため、中国のユーザーにとっては、中国語を使ってトレーニングした基盤モデルのほうが使いやすい」との見方を示した。

 また、生成AIは生産ツールの方向へと徐々に発展しており、産業を大きく活性化したり、AIと実体経済を深く結びつける重要な力となる可能性がある。データ駆動型のAI基盤モデルは、トレーニングデータの信頼性と安全性が、技術革新を推進する上で重要な要素となる。そのため、中国語基盤モデルの独自開発をファーストチョイスとするテクノロジー大手が増えている。

 3月以降、中国の基盤モデル分野は、「混戦」状態に入り、各分野の企業が次々と参入を表明した。そして、多くの企業が中国語基盤モデルの研究開発に取り組んでいる。

 iFLYTEKの劉慶峰董事長は「汎用AIの発展のチャンスを掴むには、いくつかの基本的要素が必要となる。まず、コントロール可能な独自のプラットホームが必要不可欠だ。次に、必ず中国語と英語の両方に取り組まなければならず、中国の『知恵』だけでなく、世界からも学ばなければならない。また、他国とのテクノロジー競争においては、学ぶだけでなく、追い越す方法を考えなければならない」と語った。

 例えば、阿里巴巴(アリババ)が初めて打ち出した中国語AIモデルコミュニティーは、第1弾として300モデルが搭載された。うち、中国語モデルが100を超え、視覚や音声、自然言語処理、マルチモーダルといったAI主要分野のほか、60以上の主要タスクをカバーし、いずれもオープンソースで公開されている。奇虎360が打ち出した「360智脳」は、360GPT基盤モデルが搭載され、膨大な中国語テキストデータによるプレトレーニングと微調整が行われているため、非常に高い言語理解能力と生成能力を備えている。同モデルは既に100億パラメーターに達し、その規模は拡大し続けている。

中国語大規模言語モデルデータ集が不足

 生成AIはAIの発展成果である。ImageNetデータ集が残差ネットワークなどのコンピュータビジョンアルゴリズムの成熟を推し進めたように、OpenSLRといったオープンソースデータ集の登場が長・短期記憶(LSTM)などの自然言語ニューラルネットワークの発展を促した。グラフィックスプロセッシングユニット(GPU)が大量使用されるようになったことで、モデルパラメーターが百万レベルから1千億レベル(ChatGPTは1万枚に上るA100グラフィックスカードを使ってトレーニングを実施)へと発展した。生成AIの急速な成長は、計算能力とデータの支えがなくては達成することができない。

 国家スーパーコンピューター天津センターの首席科学者、孟祥飛博士は「基盤モデルはビッグデータと膨大な計算能力によって推進された結果であり、どちらも不可欠だ」と強調した。

 中国語基盤モデルの理解能力はデータにかかっており、膨大な量のデータを使って学習し、自己注意とマルチヘッドアテンションメカニズムを通じて、知識間の関連性を構築する必要がある。さらに多くの質の高いデータを供給することで、モデルネットワークにおける知識間の関連性が整理され、相互接続性が高まる。ユーザーが深いレベルの質問をしたり、あまり知られていない分野の質問をしたりする際、データの質が高いほど、AI基盤モデルが正確な答えを出す確率も高くなる。

 孟博士は「現時点では、中国語大規模言語モデルのデータ集は非常に不足している。この問題を解決するために、天津スーパーコンピューターセンターはグローバルエリアネットワークのウェブサイトデータを収集、整理し、そこから質の高い中国語データを抽出処理し、データ集を作った。また、各種オープンソーストレーニングデータ、中国語小説データ、古文データ、百科事典データ、ニュースデータ、医学や法律などの専門分野のデータ集を組み込み、トレーニングデータ集のトークン数は3500億に達した。これをトレーニングすることで、中国語言語基盤モデル『天河天元基盤モデル』が完成した」と説明した。

 また、計算能力の供給は基盤モデルの基本的保障となる。基盤モデルは自然言語処理の分野から発展が始まった。基盤モデルの代表的なものには、グーグルのBERT、Open AIのChatGPT、百度の対話型AI「文心一言(ERNIE Bot)」などがあり、それらのパラメーター規模は次第に1千億、1兆に達し、トレーニングに使われるデータ規模も大幅に増加し、モデル能力も向上している。それは、計算能力のニーズが指数関数的に高まっていることも示している。

 孟博士は「スーパーコンピューターは、計算能力における戦闘機といえる。基盤モデルのトレーニングをスムーズに進めるために、当センターは、新世代のスーパーコンピューター『天河』の倍精度、単精度、半精度の融合計算・出力能力をフル活用し、独自のEクラス計算能力システムのメカニズムに基づくスマートコンピューティングエンジンを構築し、AIの大規模トレーニングと応用システムを支える環境を生み出した。特に、中国語処理の面では、中国語基盤モデルデータを処理するワークフロー技術システムを構築し、トレーニングの円滑な実施を保証している」と説明した。

技術成果が複数の分野で幅広く応用

 今回の世界知能大会では、iFLYTEKのSparkDeskと共に、基盤モデルが搭載された応用成果が複数展示された。

 康氏は「AIが新たなテクノロジー革命と産業変革を推進する大きな力になる。基盤モデルを産業のスマート化・高度化の基盤とし、専門的なデータ集を使って、業界に一層適したスマート化されたハイレベルな『エキスパート』を育てるべきだ」と訴えた。

 iFLYTEKのSparkDesk基盤モデルを例にすると、同モデルは「1+N」システムを全体構成としている。「1」は汎用コグニティブ・インテリジェンス基盤モデルを、「N」は教育やオフィス、自動車、ヒューマンコンピュータインタラクションといった各分野での基盤モデルの応用を指している。教育分野を例にすると、世界初の認知基盤モデルを搭載した電子学習機として、iFLYTEKが打ち出した電子学習機は、人間の教師のように、3~18歳の児童・学生を対象に、インタラクティブに学習サポートを提供することができる。オフィス分野では、基盤モデルの能力をベースに高度化した製品が、文書整理や会議の要約、ワンクリックによる原稿作成といった機能を備えている。

 康氏は「各業界の応用では、中国語基盤モデルのほうが明らかにより親しみやすく使いやすい。当センターは、テキストや音声、動画を含むマルチモーダルの基盤モデル生成能力を実現し、『1プラットホーム3能力』の基盤を作り上げ、より幅広い産業融合能力を実現している。自然言語の理解や表現能力をベースに、医療と結び付け、医学ガイドラインなどの専門的規範を学習させると、対応する専門知識をスピーディーに把握することができる。中国語基盤モデルは、医療上の『同じ言葉でも、状況によって意味が違う』という問題を解決し、的確なアウトプットを実現することで、さらなる診断サポートを提供することができる」と説明した。

 産業検査やプロセス制御の面でも、多様なアウトプット能力を持つ基盤モデルをベースに、規範化サポートや欠陥チェック、プロセス指示生成といった一連の操作を行うことで、エラー率を下げ、生産効率を高めることができる。うち中国語基盤モデルは、複雑な専門用語やプロセス指示の論理をより理解し、より正確で厳密なアウトプットを実現できる。

 康氏は「基盤モデルの汎用性、一般性、およびAI応用の門戸が広がったことなどが追い風となり、AIが急速に実用化され、新たなチャンスが形成されるだろう」と期待を示した。


※本稿は、科技日報「中文大模型让AI更"接地气"」(2023年5月23日付6面)を科技日報の許諾を得て日本語訳/転載したものである。