このほど開かれた2024中関村フォーラム年次総会で、「長時間・高一貫性・高ダイナミクス」という特徴を持つ動画生成大規模AI(人工知能)モデル「Vidu」が初公開された。新華社が伝えた。
この大規模モデルは清華大学と北京生数科技が開発したもので、テキストの記述に基づき、解像度1080pの高画質動画コンテンツを最長16秒間生成できる。
清華大学人工智能研究院副院長で、北京生数科技首席科学者の朱軍氏は、「中国の動画生成大規模モデルは、動画の長さが約4秒のものがほとんどだが、Viduは16秒の動画が生成できる。動画は滑らかで、カメラの移動に合わせて人やシーンも高い一貫性を保つことができる」と語った。
ダイナミクスの面では、Viduは複雑な動きも生成でき、単純にカメラを前後左右に動かす固定的なアングルに限らず、1本の動画の中でロングショットやクローズショット、ミディアムショット、アップショットなど、さまざまなアングルも切り替えられる。さらに、長回しやフォーカストラッキング、トランジションなどの効果を直接生成することもできる。
朱氏は「Viduは光と影の効果や細やかな人物の表情などのように、実際の物理世界をシミュレーションし、複雑で物理法則に合致したシーンも生成できる。また、深みと複雑性を持つ超現実主義的な内容も生み出すことも可能だ。動画が最初から最後まで連続的に生成されるので、明らかなフレームの挿入が見られない」と説明した。
Viduの技術的進展は、チームが機械学習やマルチモーダル大規模モデルを長期的に蓄積してきたことによる。コアテクノロジー構造はチームが2022年に打ち出したもので、その後も独自の研究開発を続けた。朱氏は「汎用視覚モデルとしてのViduは今後、より多様で長時間の動画コンテンツを生成する」と決意を述べた。
サイエンスポータルチャイナ事務局が、中国の科学技術に関するニュース記事を人民網と共同通信の記事より選んで、日々届くフレッシュなニュースとしてお届けしています。
下記よりご覧ください。