スマート音声認識技術、言外の意味まで察することが可能に

2016年12月05日

　人工知能がその威力を大いに発揮している昨今だが、現在の音声認識技術では、デバイスはまだ十分に自然言語を理解するにはいたらず、いわゆる「言外の意味」を聞き取り、理解することは、SF作品の中においてのみ存在する出来事。しかしこの状況には現在、変化が生じている。新華社が伝えた。
　中国最新のスマート音声技術の成果によると、デバイスはすでに高い正解率により音声の文字化、多言語同時通訳、そして声の模倣を可能にしているという。
　1000人以上が集まる会場で、複数のゲストが3時間近くスピーチ・交流する。スピーチの内容は速記者がいなくても、リアルタイムで巨大スクリーンに文字化される。
　記者が安徽科大訊飛信息科技有限公司（科大訊飛）の年次総会を取材したところ、スピーチの一部の人名・地名のミス、発言者の口語表現に含まれる冗長な語彙を除く、ほぼすべての内容が非常に正確に整理され、同時に英語・日本語・韓国語などの言語に翻訳されていた。
　説明によると、これはディープニューラルネットに基づく音声認識技術によって実現されるのだという。音声認識技術とは分かりやすく言えば、コンピュータに人間の言葉を理解させ、その音声に含まれる文字情報を読み取らせる技術だ。同技術はスマートコンピュータシステムで重要な役割を演じており、コンピュータに「耳」を与えることでマンマシンの通信・交流を実現する。音声認識の正解率は、現在97％に達する。
　同社の劉慶峰董事長（会長）は「万物がインターネット化する時代を迎え、音声を中心としキーボードを補助とするマンマシン交流が実需になる。今後5−10年で、人工知能は水や電気のように私たちの生活必需品になり、私たちの世界に大きな変化をもたらす」と述べた。
　中国はスマート音声技術で、5−8メートルの長距離識別、複数に渡る交流・対話、注意を促す言葉を用いない交流、交流中の話の打ち切りといった進展を実現しており、マンマシン交流がよりスムーズで自然になっている。
　劉氏は「中国語音声合成技術の進展があったほか、今年の世界音声合成コンクールにおいて、当社の音声合成技術は感情を込めて英語でストーリーを語ることができた。各種言語のテストで好成績を収めた」と話した。
　記者は携帯電話を使い、同社が開発した音声合成ソフトを使用してみた。音声合成機能は文字情報を耳にすることのできる音声情報に変えるほか、さらにある人の声の特徴を音声バンクに収録し、短時間内に文章をその特徴に基づき読み上げ、真似することができた。将来的に人々の声は「盗用」されるリスクが生じることになるだろう。