テキストを入力したり画像をアップロードすると、すぐにリアルな動画が生成される。中国が独自開発した汎用動画生成大規模言語モデル(LLM)「Vidu」が、このほど公開された。この動画生成LLMは、テキストから動画を生成する機能と、画像から動画を生成する機能を備えており、動画の長さは4秒か8秒を選択することができる。画像の解像度は最高1080pで、わずか30秒で4秒の動画を生成する。新華社が伝えた。
Viduは清華大学が北京生数科技と共同で開発したもので、今年4月に行われた2024年中関村フォーラム年次総会で初めて発表された。清華大学人工知能(AI)研究院副院長で同社首席サイエンティストの朱軍氏は、「Viduが生成する動画は、長時間、高一貫性、高ダイナミクスという特徴があり、テキストと画像から高解像度の動画を生成することができ、スムーズで高ダイナミクスの画像効果を維持することができる。現時点で、Viduは1回あたり最長32秒の動画を生成できる」と説明した。
朱氏はまた「Viduは実在の物理的世界をシミュレーションすることができ、細部にこだわって複雑かつ物理法則に合ったシーンを生成することもできる。たとえば合理的な光と影の効果、人物の細かい表情などを生成でき、深みと複雑さを備えたシュールレアリスティックなコンテンツを生み出すこともできる。SFや西部劇、ロマンス、アニメなど複数タイプの映画について、Viduはそれぞれのスタイルに合った画面を生成でき、煙や霧、まぶしい光など、映画・テレビレベルの視覚効果も生成できる」と語った。
Viduはダイナミクスの面で、複雑な動的映像を生成することが可能で、大規模で正確なアクションを生成でき、画面の中で遠景、近景、中景、クローズアップなどのレンズの切り替えが可能で、ロングショット、ズーム、トランジションなどの効果も直接生成できるという。
同社によると、Viduではユーザーに対して個性を表現できる動画の創作体験を提供するため、「アニメスタイル」と「キャラクター一貫性」の新機能も備えている。「画像からの動画生成」セクションで「キャラ一貫性」機能を利用すると、ユーザーはキャラクターのイラストをアップロードしてテキストを打ち込むと、画像の中のキャラクターに好きなシーンで好きなアクションをさせることができる。この機能により動画制作プロセスが簡略化され、創作の自由度も増した。
Viduを使用する際には申請する必要はなく、ユーザーはメールアドレスを登録すればすぐに体験できる。Viduの技術は開発チームが機械学習(マシンラーニング)とマルチモーダル大規模言語モデルで長年にわたり積み上げてきた成果が土台となっており、そのコア技術のアーキテクチャはチームが2022年に提起し、その後も独自開発を続けてきたものだ。