【24-65】学術論文のアーカイブ保存はデジタル化からデータ化へ(その2)
沈 唯(科技日報実習記者) 2024年07月10日
現在、学術論文は産出数が非常に多く、作成ペースも非常に速い。「オンライン論文保存システムは既に、その産出速度に対応できなくなっている」と指摘もある。全ての学術論文をアーカイブ保存する必要があるのだろうか? 学術論文のアーカイブ保存はどのような機会と課題に直面しているのだろうか?
(その1 よりつづき)
保存単位が段階的に縮小
デジタル時代おいて、学術論文のアーカイブ保存作業には、課題とチャンスが共存している。中国人民大学情報資源管理学院の索伝軍教授は「中国は計算能力やクラウドストレージなどの水準が高いため、技術的な問題が一番大きな課題というわけではない。現在、中国が直面している主な問題は、アーカイブ保存が必要な学術論文をどのように選別するかということだ。現在は統一された選別基準が足りず、科学的な評価方法も不足している」と指摘した。
現時点では、主に学術ジャーナルのインパクトファクターの高さや、ジャーナルおよびそこに掲載されている論文の重要性、学術的価値に基づいて判断している。しかし、客観的に見ると、ジャーナルのインパクトファクターは、そこに掲載されている論文の学術的価値を反映したものではなく、各ジャーナルに掲載されている学術論文の質や価値は、論文によって異なる。
多くの場合、人々は学術論文の全文を読む必要はなく、論文中の学術的価値がある内容を参考にしたり、利用している。これらの内容は「知識ユニット」と呼ぶことができる。索氏は「学術論文は本質的には一連の『知識ユニット』の論理的な組み合わせである。論文の中で最も革新的価値がある部分は、こうした『知識ユニット』の中に凝縮されている。『知識ユニット』こそが、人々が本当の意味で必要としているもので、本当の意味でアーカイブ保存が必要なものだ」と説明した。
そして、「デジタル保存は、ジャーナル単位から論文単位へと既に変化している。次の段階では、学術論文の全文保存という制約を打破して、論文の核心である『知識ユニット』だけを保存することができるかどうかがカギとなる。『知識ユニット』がアーカイブ保存の単位になれば、読者は直接『知識ユニット』を取得できるようになる。アーカイブの対象となる単位が小さいほど、コストが安くなり、読者が取得・利用する効率も高くなる。だが、学術論文の中から『知識ユニット』を識別・抽出するのは大きな課題だ。これは関連技術にとっての課題であるだけでなく、学界や業界の学術論文保存に対する理解や観念にとっても課題と言える」と強調した。
現在、世界の一部の学術ジャーナル(出版社)が、こうした試みを小規模で行っている。彼らは著者に対して、投稿する際に、論文で述べられている新たな観点、つまり、最も価値のある革新的な『知識ユニット』を提供するように求めている。索氏は「こうした試みは有益ではあるが、主観性が強いという問題も存在している。例えば、論文を掲載してもらうために、論文の革新性を誇張したり、個人の認識不足のため、それほど革新的でないものを非常に革新的だと思わせる描写をする作者が出て来る可能性がある」と指摘した。
さらに、「デジタル技術の発展に伴い、ジャーナル単位で学術論文を保存する必要はなくなっている。画一的な保存方法は改めるべきかもしれない。学術論文のデジタル保存は、時代の流れに沿って、データ保存の段階へと次第に移行する必要がある。それは、紙媒体の論文を「0」と「1」の記号に変換するような機械的なデジタル化ではなく、学術論文をより精密なデータに変換する必要がある」と訴えた。
中国国家データ局は第1回全国データ活動会議で「国家レベルのデータラベリング拠点建設を模索する」と打ち出した。索氏は「学術論文もデータラベリングの対象の一つだ。学術論文の内容を深く、細かく、正確にラベリングすることで、『知識ユニット』をより正確に評価、取得、利用できるようになる」と述べた。
生成AIや大規模言語モデルなどの新技術を応用することで、この目標が達成できる可能性がある。索氏は「学術論文は研究する課題に的を絞って作成されるものだ。マシンラーニングを通じて、各学術論文が研究している主な課題を見つけ出すことができれば、これをラベリングし、ユーザーが研究したい課題を入力することで、論文を検索できるようになる。これは、長期にわたる蓄積と発展のプロセスが必要で、さまざまな分野・学科の基準・参照系を次第に構築する必要がある。そして、大規模言語モデルやマシンラーニングなどの技術を活用し、最適化とイテレーションを繰り返して、ラベリングの結果を科学的で正確な水準に到達させなければならない」と訴えた。
関連リンク
※本稿は、科技日報「学术论文归档保存应从数字化转向数据化」(2024年4月30日付7面)を科技日報の許諾を得て日本語訳/転載したものである。