科学技術
トップ  > コラム&リポート 科学技術 >  File No.24-73

【24-73】スマート音声技術でマンマシンインタラクションがスムーズに(その2)

都 芃(科技日報記者) 2024年08月06日

音声は人間にとって最も自然で円滑な意思疎通手段の一つであり、スマート時代のマンマシンインタラクションのカギを握る。今では、人間が声を発するだけで、マシンがタスクを実行してくれるものもある。こうしたスムーズなインタラクションが実現するのは、一連のキーテクノロジーが革新的ブレイクスルーを遂げたからだ。

その1 よりつづき)

大規模言語モデル活用で「より人間らしく」

 大規模言語モデル発のAIブームが近年、さまざまな分野に波及している。スマート音声技術も大規模言語モデルの追い風に乗り、ブレイクスルーを次々と遂げている。「大規模言語モデル+音声」という発展モデルは、スマート音声技術とその産業に新たな革命的ブレイクスルーをもたらすと期待されている。

 科大訊飛研究院の高建清常務副院長は「大規模言語モデルでは音声技術の超擬人化が実現でき、機械による音声が棒読みではなくなり、人間と同じように自然な対話ができるようになる。また、全二重通信インタラクションを使うと、『送信』と『受信』が同時にできるだけでなく、人間と機械の対話を随時中断したり、継続させたりすることができる。これらにより、スマート音声の分野で大規模言語モデルが注目を集めるようになっている。スマート音声技術の重要なイノベーションと大規模言語モデル技術の組み合わせにより、両者は相互に補い、促進し合うようになっている」と説明した。

 音声属性のデカップリングや音声信号の時空分離といった技術のブレイクスルー実現により、音声信号をコーディングしてから大規模言語モデルに入力することで、大規模言語モデルの性能を大幅に高めることができる。高氏は「大規模言語モデルのバックグラウンドの理解能力とテキスト生成能力を活用することで、従来の音声合成、音声認識、機械翻訳といった技術が、意味理解や指示追従、マルチターン会話、感情認識、超擬人化合成などの面で大幅にレベルアップし、音声対話の体験が大きく改善された」と述べた。

 将来に目を向けると、大規模言語モデル技術は、複雑な意味理解や大容量テキストのモデリング能力といった面で、音声認識や合成、翻訳などの効果をさらに高めることができる。また、大規模言語モデルの強力な意味理解、知識Q&A、マルチターン会話、マルチモーダルモデリング能力に基づき、スマート音声技術の使用シーンと応用価値をさらに高めることもできる。これにより、音声同時通訳や自動カスタマーサービス、学習サポート・質疑応答、ファミリードクター、バーチャルスタッフ、付き添いロボット、サービスロボットといった未来のスマート製品のイノベーション創出を支え、さらに多くの機会を生み出し、汎用AI時代の到来を加速させることが期待されている。高氏は「大規模言語モデル時代の音声技術は、本質的には万物のインターネット(IoE)と従来のマンマシンインタラクションの再構築を推進する大きなチャンスであり、音声産業にとっては全く新しい戦略的チャンスとなる」と分析する。

 現在、科大訊飛が独自開発した多言語スマート音声技術は、69言語をサポートしており、国連の6つの公用語(中国語、英語、フランス語、スペイン語、ロシア語、アラビア語)のほか、ノルウェー語やデンマーク語など、63の言語も使用できるレベルになっている。関連技術が搭載されたスマートフォンは、中国内外で累計10億台以上が稼働し、車載スマート製品は累計で5300万セット以上に達し、奇瑞汽車や比亜迪(BYD)、長安汽車などの自動車の海外輸出をサポートしている。


※本稿は、科技日報「智能语音技术让人机交互更"丝滑"」(2024年7月2日付5面)を科技日報の許諾を得て日本語訳/転載したものである。

 

上へ戻る