【25-046】AIが「デジタルヒューマン」の日常生活への普及を推進する(その2)
都 芃(科技日報記者) 2025年06月03日

第16回中国国際原子力発電産業展示会で披露された華知大規模言語モデルのデジタルヒューマン(張秀科/視覚中国)
デジタルヒューマンはデジタル経済の発展の中でますます重要な役割を担っている。大規模言語モデルの応用が進む中、デジタルヒューマンは「使える」段階から「使いやすい」存在へと進化しつつあり、関連産業を新たな成長フェーズへと推し進めている。
(その1 よりつづき)
AIによるイノベーションの入り口に
デジタルヒューマンはこれまで、「実際の人間による駆動」から「プログラムによる駆動」、そして現在の「AIによる駆動」へと、段階を経て進化してきた。
初期の「人間による駆動型」では、コンピュータグラフィックス(CG)によるモデリングやモーションキャプチャを使うものの、実際には大量の音声・動作データを人間が提供する必要があった。「プログラム駆動型」は、人間の動作データに依存せずに動作・音声を生成できるが、決まったプログラムに基づくもので、リアリティには限界があった。近年登場した「AI駆動型」では、音声や動作、表情などの再現度が飛躍的に向上し、対話や思考能力も備えるようになった。
科大訊飛(iFLYTEK)のデジタルヒューマン事業責任者である郜静文氏は、「数年前までは、口の動きや表情が音声と合わなかったり、動作がぎこちなかったりすることが多かった。これはデジタルヒューマン自体がテキストの意味を十分理解できず、表情や動作も限られたテンプレートに依存していたためだ。しかし、大規模言語モデルの応用により、デジタルヒューマンの性能は新たな段階に入った」と語った。
科大訊飛が2024年10月に発表した「超リアルデジタルヒューマン」は、マルチモーダル拡散生成大規模言語モデルに基づいており、音声のリズムや抑揚、内容に応じてリアルタイムで身体動作を生成できる。これにより、従来の動作テンプレートの制約を打ち破り、動的なシーンでの表現力を大幅に向上させた。
また、騰訊(テンセント)のデジタルヒューマン「智影」は、外見や声のクローン機能を搭載しており、数点の写真や動画、音声をアップロードするだけで、ユーザーが自らの「分身」を速やかに生成できる。阿里巴巴(アリババ)が開発したオープンソースAIデジタルヒューマン「EchoMimic」も、静止画に命を吹き込み、自然な音声と表情を生み出すことができる。
郜氏は「大規模言語モデルは、デジタルヒューマンが文脈を理解し、それに基づいて適切な動作や表情を素早く生成することを可能にしている」と述べた。
中国インターネット協会の尚氷理事長は「デジタルヒューマンはAI技術の活発な応用を具体化する新たな入り口となりつつある。ビッグデータやスマートデバイス、エンボディドAIなどの産業とも深く連携し、次世代インターネットにおける活発なインタラクションを生むインターフェースの一つになる可能性がある。さらに、イノベーションの実装と応用を積極的に探り、デジタルヒューマンなどの新しい業態の発展を促し、スケールメリットを持つ応用展開を加速させる必要がある」と強調した。
中国インターネット協会専門諮問委員会の武鎖寧委員も「デジタルヒューマンはAI応用の突破口であり、AIイノベーションの入り口でもある。AI駆動のデジタルヒューマンは今後、さまざまな分野において、より豊かな応用を生み出す可能性がある。こうした応用こそが、AIを現実的な発展の道に導くことができる」と述べた。
個性化された「デジタル分身」の実現へ
応用の拡大に伴い、デジタルヒューマンに求められる要件も高度化している。郜氏は「例えば、ECのライブ配信やカスタマーサポートのチャットのような場面では、デジタルヒューマンに非常に高いリアルタイムの対話能力が求められる。ユーザーとのリアルタイムな会話ができるだけでなく、会話の内容に応じて適切な動作や表情を生成できなければ、業務の処理効率に直結し、ユーザー体験にも直接的な影響が出てしまう」と説明した。郜氏によると、デジタルヒューマンの動画生成モデルの効率を向上させるため、同社のチームは「動作表現抽出技術」を開発した。これは、音声やテキストの入力をコンパクトな中間表現に変換し、動画データの次元を効果的に圧縮するものだ。この技術を活用することで、システムは速記者のように、入力されたテキストや音声から素早く重要な情報を抽出し、不要な情報のデータ量を削減する。これに基づいて動画を生成することで、動画生成の効率を大幅に高め、デジタルヒューマンとユーザーのインタラクションにおけるリアルタイム性を確保している。
さらに注目すべきは、デジタルヒューマン産業は勢いよく成長しているものの、現在はまだ急速な成長期にあるという点だ。郜氏は「現状ではデジタルヒューマン製品に同質化の傾向が見られるが、今後はパーソナライズ化やカスタマイズ化が、デジタルヒューマン産業における重要な方向性になるだろう」と指摘する。生成AI技術の進歩によって、デジタルヒューマンの制作コストやハードルは急速に下がり、制作効率やコンテンツの多様性が飛躍的に向上している。その結果、ユーザーが自身の特徴を反映したより個性的なデジタルヒューマンを作ることが現実のものとなった。いまや1枚の写真や短い音声だけで、超リアルなデジタルヒューマンを生成できるようになり、従来のように多数の素材を用意する必要はなくなった。これにより、ユーザー体験の向上と操作の簡略化が実現している。
郜氏はまた、「大規模モデル技術によって、デジタルヒューマンは『一般家庭に普及する』段階へと進んでいますが、より精密な表現を実現するには、依然として膨大なデータの学習や相互トレーニングが不可欠だ。また、それに伴って生じるプライバシー漏洩やデータセキュリティの問題にも十分な注意が必要だ」と率直に述べた。
さらに、「将来的には、誰もが自分の『デジタル分身』を持ち、それが仕事を手伝い、日常生活のさまざまな疑問に答え、私たちのパートナーとなるかもしれない」と語った。
※本稿は、科技日報「AI推动数字人"飞入寻常百姓家"」(2025年5月12日付6面)を科技日報の許諾を得て日本語訳/転載したものである。