科学技術
トップ  > コラム&リポート 科学技術 >  File No.24-18

【24-18】中国古典文学を読み解く大規模言語モデル「荀子」

金 鳳(科技日報記者) 2024年02月28日

「秦淮佳麗地、城闕望中迷。柳暗青糸髪、花香碧玉衣。歌楼留夜色、画閣斂春暉。細雨軽舟去、双魚夢沢飛」(秦淮の美しい地、宮殿からの景色に見とれてしまう。柳は黒髪のようになびき、衣装に花の香りが漂う。歌楼から夜の景色をとどめ、画楼から春の景色を眺める。小雨の降る川を船が去り、2匹の魚が跳ねている)。これは最近発表された中国の古典に特化した大規模言語モデル「荀子」が「金陵」をテーマに生成した漢詩だ。

「荀子」は中国で初めて古典の処理と研究に特化したオープンソースのスマートツールで、南京農業大学の王東波教授率いる研究チームが古連(北京)デジタル伝媒科技有限公司と共同で発表したものだ。「荀子」は中国の国家社会科学基金の重要プロジェクト「中国古典の言語横断的ナレッジベースの構築および応用に関する研究」を利用し、40億文字の大型混合コーパスデータに基づき、漢詩を生成する。

 王氏は「データは大規模言語モデルの基礎だ。『荀子』の開発過程で、われわれのチームは人工知能(AI)標準化モデルを踏まえ、繁体字と簡体字の『四庫全書』を含む20億文字の古代中国語コーパスと文化分野の20億文字の現代中国語コーパスを入れた。それにより、『荀子』は古典のスマートアノテーション、情報抽出、詩歌生成、高品質翻訳、読解という機能を備えた」と語った。

 王氏はまた「中国語研究者は『荀子』を活用して、古典の言葉の使い方の分析、実体の識別、関係の抽出、テキストの分類・マッチング、要約などができる」と強調。「もし『史記·陳涉世家』の登場人物の相互関係を研究する場合、『荀子』を使って登場人物の名称と相互関係を示す名詞を識別し、ナレッジグラフの方法を活用して、人物関係図を作成することで、検索、チェック、研究の効率を高めることができる」と例を挙げて説明した。

 王氏によると、ユーザーが必要に合わせて『荀子』大規模モデルをファインチューニングすることで、さらに的を絞った研究を行うことも可能になる。

「荀子」が繁体字を簡体字に変換したり、古代と現代の中国語を理解できるのは、十分な計算能力を備えており、コーパスを十分学習しているからで、王氏は「『荀子』を無事発表できたのは、南京農業大学が提供した高性能計算能力インフラによる支援が切り離せない。研究チームが長年蓄積し、高精度な加工を施したコーパスも役立った」と述べた。

 モデルの構築については「計算能力や応用シーンなどの影響を受けるが、比較的精度が高い良質のデータを持つことが最も重要な鍵となる。われわれのチームは2013年から、人手による高精度のデータアノテーションに力を注いできた」と強調。「例えば、大規模言語モデルが自動で『岳陽楼記』に出てくる形容詞をアノテーションできるようにするためには、まず、人手によってその文章に出てくる形容詞をアノテーションする必要がある。これを積み重ねてから、機械に学習させる。この根気が要る作業をコツコツと10年続けてきた」と語った。

 王氏はまた「古典のスマート化研究と学際的な人材育成を組み合わせることで、学生が将来を見据えた科学研究の視野を持ち、しっかりした文化的基盤を築くことを願っている。われわれは、一人でも多くの人が古典に触れ、それを熟読・発信し、『古典の山』に新たな活力を吹き込み、素晴らしい中華伝統文化が革新的転化・発展を遂げるよう推進し、中華文化が継承されていくことを願っている」と語った。

 王教授によると、「荀子」を使うと、内容を理解しながらよりスムーズに古典を読むことが可能で、古典の整理やデジタル化、活用・発信ができるほか、将来的にはAI作文、AI教育、デジタル文化・娯楽といった分野にも応用できる。


※本稿は、科技日報「荀子"大语言模型:化繁为简 通读古今」(2024年1月8日付6面)を科技日報の許諾を得て日本語訳/転載したものである。

 

上へ戻る