科学技術

【24-72】スマート音声技術でマンマシンインタラクションがスムーズに（その１）

都　芃（科技日報記者）　2024年08月05日

北京で開催された「InfoComm China 2024展示会」の科大訊飛のブースでスマート同時通訳システムを体験する来場者。

　中国科学院が6月26日に開いた学部第9回学術年次総会で、同院の外国籍院士（アカデミー会員）であるGabor Jozsef Stepan氏が学術報告を行った。同氏が英語で話した内容は、同時通訳システムで中国語に翻訳され、スクリーンに映し出されたが、翻訳は正確で、スピードも速く、専門用語もしっかりと翻訳されていた。

　この同時通訳システムには、2023年度国家科学技術進歩賞一等賞を受賞した「多言語スマート音声キーテクノロジーおよび産業化プロジェクト」の技術が活用されている。

　同プロジェクトは音声認識大手、科大訊飛（アイフライテック）が中心となり、中国科学技術大学や清華大学、華為（ファーウェイ）、中国移動（杭州）公司などが共同で実施した。10年以上かけた同プロジェクトでは、複数のキーテクノロジーが開発され、中国が独自の知的財産権を有する多言語スマート音声技術体系が構築された。

複雑なシーンでの識別精度が向上

　音声は人間にとって最も自然で円滑な意思疎通手段の一つであり、スマート時代のマンマシンインタラクションのカギを握る。今では、人間が声を発するだけで、マシンがタスクを実行してくれるものもある。こうしたスムーズなインタラクションが実現するのは、一連のキーテクノロジーが革新的ブレイクスルーを遂げたからだ。

　機械が人間の言語を聞き取って理解するのは決して容易ではない。音声認識の研究において最も困難で典型的な難題は、遠い場所、騒音の干渉、多人数の会話などの場合、音声認識が難しくなることだ。科大訊飛の副総裁で研究院院長の劉聡氏は「騒がしいカクテルパーティーでは、たくさんの人がそれぞれ会話し、BGMも流れている。このような環境で、必要としている音声だけを機械が正確に識別するにはどうすればいいのか。これはよく見られる応用シーンだが、非常に挑戦的な難題でもある」と述べた。

　このような典型的な難題に対し、研究開発チームは、人の声とさまざまな騒音を分離してからモデリングを行うマルチチャネル音声シグナル時空分離モデリング法を打ち出し、多次元音声属性のデカップリング特性評価法を編み出した。劉氏は「簡単に言えば、内容やリズム、音色といった音声属性をデカップリング・抽出し、音声情報をより正確に識別・伝達することで、『カクテルパーティー効果』という難題を解決し、複雑なシーンにおける音声認識の精度が大幅に高まった」と説明した。

　劉氏によると、人の声が飛び交う大型会議場で3人がそれぞれのテーマで同時に発言するという場面では、一般的に3人が話している内容を全て聞き取ることは困難であるが、スマート音声技術なら、3人の声をそれぞれ聞き取ることができ、それぞれの発言のリアルタイムで文字化することも可能で、精度は86％以上に達するという。

　多言語通訳はスマート音声技術の分野で、使用頻度とニーズが高い応用シーンであり、スマート音声技術が最も実力を発揮できるシーンの一つでもある。データは音声認識トレーニングにおいてカギとなる要素の一つだが、一部の「マイナー言語」では、トレーニングに必要な知識やトレーニングデータが不足しているため、技術発展の足かせとなっている。

　科大訊飛などは2014年から、中国の一部の民族言語を含むマイナー言語のスマート音声技術の研究を開始。ウイグル語やチベット語といった民族言語について、北京外国語大学や上海外国語大学などと提携し、貴重なリソースを積み重ねて、大量の技術を蓄積した。

　研究開発チームはこれをベースに、全く新たな多言語の汎用音素体系と基本的な言語ユニットを設計し、多言語対象の統一音素・リズム体系の構築を実現した。劉氏は「さまざまなマイナー言語を分類し、同タイプの言語に共通する法則を見つけ出し、これをベースに、分析・モデリングとトレーニングを行った。最終的に、トレーニングデータの量や質に限界がある状況で、マイナー言語の音声システムの性能を大幅に高めることができた」と説明した。

　研究開発チームはこのほか、音声インタラクションや音声通訳が直面する「深いレベルの意味の理解が難しい」「専門性が足りない」といった難題を解決するため、マルチソースの知識を強化した信頼性の高いテキスト生成技術を確立し、専門用語やドメイン知識の引用の精度を高めた。また、中国国産チップを使用してスマート音声アルゴリズムモデルのトレーニングと推論を行う際に直面する性能の低さや適合の難しさなどの問題を解決するために、ソフトウェアとハードウェアの協調最適化による動的テンソル演算子の自動融合や、マルチハードウェア連携による定量的計算シミュレーションなどの方法を通じて、スマート音声技術のハードウェアプラットフォームが制約を受ける問題を解決した。

（その２へつづく）

※本稿は、科技日報「智能语音技术让人机交互更"丝滑"」（2024年7月2日付5面）を科技日報の許諾を得て日本語訳／転載したものである。