【24-14】オープンソースがAI技術の実用化を後押し
操秀英(科技日報記者) 2024年02月16日
中国の浪潮電子信息産業股份有限公司(Inspur)はこのほど、1000億パラメーターを超えるオープンソース大規模言語モデル「源2.0」を発表した。これには「Localized Filtering-based Attention(LFA)」と呼ばれる革新的メカニズムが採用されており、局所情報や短期依存性情報を効果的にキャッチできるため、モデルが文脈間の強い意味的関係性をより正確に把握し、人間の言語習慣パターンの本質を学習できるようになっており、数理論理や数学計算、コード生成の能力が大幅に向上している。
浪潮電子信息は2021年9月に、中国の業界として初めて、2457億パラメーター規模に達する中国語人工知能(AI)大規模言語モデル「源1.0」を発表した。同社AIソフトウェア研究開発部の呉韶華総監によると、「源2.0」は「源1.0」に比べ、アルゴリズムやデータ、計算などの面でイノベーションを実現しており、アルゴリズムの面では、同モデルはLFAに基づいている。従来のTransformerモデルの構造は、全般情報や長期依存性情報をキャッチする能力が高いという特徴があるが、LFAは局所情報や短期依存性情報を効果的にキャッチする能力が高く、人間の言語習慣パターンの本質を高精度で学習することができる。
データ処理の面では、「源2.0」は中国語と英語の書籍や論文などの資料を活用し、効率的なデータクリーニングプロセスと組み合わせて、大規模モデルのトレーニングに対し、質の高い専門分野のデータセットと論理推理データセットを提供している。浪潮電子信息はまた、単体テストに基づくデータクリーニング方法を打ち出し、質の高いデータセットをより効果的に獲得し、トレーニング効率を高めている。呉氏は「計算能力リソースに限りがある状況下では、トレーニングデータの質によってモデルの性能が決まる。『源1.0』のほとんどのデータはウェブページからリソースを取得しているため、かなりのエネルギーを使ってクリーニングしているものの、データの質をさらに高める必要があった。『源2.0』はウェブページからのデータを減らし、書籍や雑誌などからのデータを増やしたほか、コードと数学データを取り込んでおり、モデルの論理推理能力がさらに向上している」と説明した。
「源2.0」は今後、オープンソース(モデルの完全オープンソース、無償での商用利用可能、利用申請が不要)として公開されることになっている。これに対し、浪潮電子信息の劉軍シニア・バイス・プレジデントは「コンピュータサイエンスとAIの発展過程を見ると、オープンソースは常にソフトウェア技術、ひいてはIT技術の発展を大きく促進する役割を果たしてきた。Meta(メタ)の大規模言語モデルLLaMAがオープンソースとして公開されると、瞬く間に非常に多くの開発者が利用するようになった。中国でオープンソースとして公開することは、AI技術の発展と商用化を促す重要な手段となっており、大規模モデルをオープンソースとして公開することで、異なるモデル間において基礎データやアルゴリズム、コードが共有でき、モデルの『孤立化』を打破し、モデル間の連携と世代交代の促進、柔軟で効果的なAI開発の推進に貢献する」と語った。
劉氏はまた、「オープンソースとしての公開は、『技術+業界』の閉ループを推進し、さらに豊富で、質の高い業界データによる還元を通じて、高性能の技術製品を生み出し、その商用化プロセスを加速させる」と見解を述べた。
さらに「われわれは今後、AI計算能力プラットフォームなどの分野で長年積み重ねてきた技術を駆使することで、『源2.0』が大規模モデルの起業家や開発者に、さらに豊富で全面的なサポートと、よりオープンな技術革新の空間を提供し続ける」と述べた。
※本稿は、科技日報「开源助推AI技术落地」(2023年12月4日付6面)を科技日報の許諾を得て日本語訳/転載したものである。