トップ >科学技術トピック> 人工知能が科学交流の分野でも存在感

人工知能が科学交流の分野でも存在感

2019年9月9日 張盖倫(科技日報記者)、陸越(科技日報実習生)

写真

視覚中国より

―ダイジェスト翻訳、論文執筆、情報検索、剽窃チェック......

 最近、中国でニュース原稿を書くロボットが登場した。この聡明なロボットの名前は「小柯(シャオクー)」で、中国科学報社と北京大学の科学研究チームが共同で研究開発した。

 小柯が書くのは普通の原稿ではなく、中国語のサイエンスニュース。自然言語処理(NLP)技術を活用しており、小柯は、英語論文のダイジェストを基礎に、中国語でサイエンスニュースの原稿の下書きをスピーディーに作成する。その後、専門家と新聞社の編集者が校正と情報等の確認を行うことで、科学者が、中国語で世界のハイレベルの英語論文に記載されている最新の科学研究の進展を、スピーディーに把握できるようサポートしている。

 小柯が原稿を作成したニュースはすでに各メディアに掲載されている。人工知能は、さまざまな分野で存在感を示すようになってきている。

精度の高いダイジェスト翻訳と執筆者である「小柯」

 7月5日に小柯が書いた1本目のニュースが掲載され、8月22日に筆者が統計した時点で、計415本が掲載されていた。当初、論文が発表されてからニュースが掲載されるまでに、約1ヶ月を要していたが、現在は発表当日、または翌日には更新され、1日に少ない時で数本、多い日で二十数本掲載されるようになっている。翻訳する論文は生命科学などの分野に関する内容が、英国の学術誌『ネイチャー(Nature)』や米国の科学誌『セル(Cell)』、医学雑誌『ニューイングランド・ジャーナル・オブ・メディシン』などから選ばれている。

 筆者は小柯の書いた記事「シングルセルシーケンシングが示す虚血性心疾患保護メカニズム」と、その英語原文を比較、分析してみた。その記事の中で、小柯はまず、論文の主題、研究機関、発表した刊行物について簡単に紹介し、その後、英語の原文のダイジェストを翻訳し、原文のおよその内容を説明していた。原文を適切な言葉を使ってシンプルに翻訳していたほか、「血管平滑筋細胞」や「繊維性被膜」といった専門用語も正確に翻訳していた。

 ただ、記事は小柯単独で仕上げたわけではなく、掲載前に、人がチェック、校正している。北京大学コンピューター科学技術研究所の研究員・万小軍氏率いるチームは、小柯のシステムの設計と技術との結合という難関に取り組んだ。万氏は取材に対して、「現在、機械翻訳システムの性能はパラレルコーパスによるデータマイニングに大きく依存している。現在のパラレルコーパスの多くはニュースコーパスであるため、データマイニングで得た機械翻訳のモデルは、日常的なニュースの翻訳にはうまく活用されている。しかし、例えば、生物学術論文などの学術文献は、日常的なニュースとは、使う言葉や文の構成などが大きく異なる。機械翻訳システムを使った学術文献の翻訳は、それほど精度が高くない」と指摘する。

 今回、万氏のチームは、科学分野の知識と融合させて、語句のスマート選別を行い、一般の人でも理解できる語句を選択し、さらに、語句をシンプルにすることで語句翻訳のクオリティを向上させた。「英語学術論文のダイジェストは専門の科学研究者が読むのには適しているが、そこで使われている語句は、サイエンスニュースに掲載して一般の人に見てもらうには適していない。そのため、編集者の先験的知識を結び合わせ、コンピューターアルゴリズムを採用して、語句を選別し、一般の人が読むニュースに適した語句を残している」と万氏は言う。

ロボットの原稿執筆以外にも用途があるNLP技術

 小柯の研究開発には半年の期間が費やされた。万氏は、「一般的な原稿を書くロボットと比べると、異なる言語を基にして、テクノロジーニュースの原稿を書くロボットは、2度の情報変換が必要だ。1度目は、1つの言語から別の言語への変換、つまり、英語テキストを中国語に変換する作業で、もう1度は、文章表現の変換で、学術的な文章表現を、一般の人でも読んで理解しやすい表現へ変換しなければならない。この2度の変換はいずれも難度が高く、現時点でも完全に問題が解決されているわけではない。今後、さらにデータを蓄積し、アルゴリズムモデルを調整しなければ、レベルの向上を実現することはできない」と説明する。

 万氏のチームは今後も引き続き小柯の最適化に努め、サイエンスニュースのコンテンツを豊富にし、文章を、読みやすい表現に仕上げることができるように取り組んでいく計画だ。

 もちろん、テクノロジーニュースの翻訳や執筆は、NLPなどの人工知能技術が、学術交流の中でうまく活用されている一例に過ぎない。

 万氏は、「基本的に、人の交流や仕事の過程で言語や文字に関係する部分なら、どんな部分でもNLP技術が活用できる可能性がある。科学研究論文の作成の過程で、NLP技術を活用して、参考文献を推薦し、related work(関連研究)などの文字を自動で生成することができる。ビジネス界でも、NLP技術を活用して、図書を自動で編纂する試みが行われている。私自身、とても興味深く、やりがいのある応用のニーズにたくさん出会ったことがある。しかし、多くのケースが現在のNLP技術では、それを実現することができないのがとても残念だ。NLP技術はさらなる発展とブレイクスルーが必要だ。それでも、近い将来、さらに多くの実力を発揮する機会があると信じている」と語る。

 中国知網(CNKI)の常務副総経理である張宏偉氏はこれまでずっとNLPやビッグデータ、人工知能などの面の応用研究に注目してきた。張氏によると、「デジタル出版やナレッジサービスのチェーン全体で、人工知能や機械学習技術を目にすることができる」としている。

 人工知能は、デジタル出版のテーマ選定の計画、原稿執筆サポート、内容の編集・校正におけるエンパワーメントを進めることが可能だ。ビッグデータラベリングシステムは、大量の文献情報ソースのOCR(文字認識)、紙面のスマート分析、ナレッジベース元の抽出、自動分類、テーマの自動ラベリング、ダイジェストの自動作成、自動翻訳、引用文献や参考文献の自動ラベリングなどを行うことができる。

 現在、広く知られるようになっている論文の剽窃チェックにも、スマート技術が必要とされてきている。それは、ただ重複している語句がないかをチェックするという簡単なことではなく、画像や公式、表などを含むテキストの内容の潜在的な意味の解析をしなければならない。張氏は、「発想という面でも、剽窃していないかチェックしなければならない」とし、ある言語の作品から剽窃して、それを別の言語に翻訳していないかをチェックするには、「機械翻訳」も必要で、「簡単な語義の剽窃は、機械で見つけることができる。しかし、巧妙な手法を使い、完全に自分の言葉で他の人の考えを表現している場合、非常に高いレベルの人工知能技術が必要となる。現在、ニューラルネットワークを利用して、テキストコンテンツの構造を高精度に潜在的な意味まで解析できる新技術などがあり、中国語でも、英語でも、全て一つの語義空間に入力し、コンテンツの理解に基づいた、語義レベルの全文チェックを行うことができるようになっている」と説明する。

スマート社会の基礎となるナレッジベース

 学術研究のうえで不可欠な資料索引も、簡単そうに見えて、実は高い技術が必要となる。

 張氏は、「デジタル出版やデジタル図書館のソースジャンルは非常に多く、大量のテキスト、画像、音声、動画のデータがある。また、データは構造化されておらず、それを深く掘り起こして利用したいと思うと、難度がさらに高くなる」と説明する。

 一般的な情報検索を例にすると、まず、網羅的で関連度の高い検索結果を出さなければならない。より一歩進んで、自然で対話的な言葉で検索できないか、さらに踏み込んでで、質問を入力する形で情報を検索しその答えを直接得ることはできないだろうか。張氏によると、「コンピューターが、資料を読み、それを総括し、推理して、回答できるようにならなければならない。それには、大量のデータソースを、自分が理解できるナレッジベースに変えなければならない」。

 ディープラーニングなどの統計方法は、大規模なサンプルデータに非常に大きく依存しているものの、現実の世界では、実際の問題の多くが統計の方法だけでは解決できない。そのため、専用のコンピューターが理解できるナレッジベースを作り、本当の意味での人工知能を実現することが必要となる。しかし、機械と人の知識に対する理解の仕方には大きな違いがあるため、ナレッジベースを構築すること自体、難度が非常に高く、非常に多くの時間を要する作業となる。

 張氏は、「知網のような機構は現在、世界の知識情報ソースを深く統合し、世界的な知識ビッグデータを構築することを試みている。また、テキスト文献の断片化、ネットワーク化を進め、知識を使うシーンに基づいて、半自動知識抽出アルゴリズムを採用し、垂直分野を対象にしたナレッジグラフを構築している。2019年、知網は、医療の分野の臨床スマート診断、法律の分野のスマート量刑判決など、ナレッジグラフに基づいたスマート応用製品を続々と打ち出した」と説明する。

 しかし「これらの分野はまだ初期段階。私は、浮足立たずに、落ち着いてじっくりと基礎的な研究をしなければならないと思っている。知識のサポートがなければ、『スマート』を語ることはできない。ナレッジベースと人工知能自体、互いに促進し、サポートし合う関係だ。ナレッジベースを構築するには、人工知能が必要で、人工知能の発展には、ナレッジベースが不可欠だ。人のナレッジベースを、コンピューターが理解できるナレッジベースにどのように変換できるかは、人工知能の分野の大きな課題。まだ、そのハードルはかなり高く、学術界と産業界が共に努力しなければならない」との見方を示す。


※本稿は、科技日報「人工智能延伸科学交流触角」(2019年8月26日付8面)を科技日報の許諾を得て日本語訳/転載したものである。