北京生数科技が開発した中国製動画生成大規模言語モデル(LLM)「Vidu」のバージョン2.0がこのほど、発表となった。Vidu 2.0は長さ4秒、解像度512pの動画を10秒間で生成でき、1秒当たりの生成コストは0.04元(1元=約21円)となっている。科技日報が伝えた。
Vidu 2.0では動画のスタイルとテーマの一貫性が高まり、最初と最後のフレーム効果がより自然になった。ピークシフトモードが導入され、低負荷時には動画生成が無制限となり、生成回数の制限がなくなった。またユーザーは一度に最大4本の動画素材を同時に生成できる。
動画生成AIモデルは急速に進化しているが、実際の普及にはまだ至っていない。生成速度が大きな障害になっており、以前は無料ユーザーは一つのクリップを生成するために何時間も待たなければならず、実際の処理時間も非常に長かった。
2024年7月末にViduのバージョン1.0が発表された時、シングルクリップビデオの実際の処理時間が30秒以内に短縮された。Vidu 2.0はこれをさらに短縮し、画像からの動画生成の場合も、最初と最後のフレームを指定して作成するキーフレーム機能の場合も、長さ4秒の512pの動画を生成する時間が10秒未満となった。
Viduのチームは運営データについても初めて公開した。それによると、24年7月末の発表から20日以内にViduのユーザー数は100万人を超え、100日で1000万人を突破した。Viduプラットフォームはこれまでに1億本以上の動画を生成している。
Viduは「参照画像による動画生成」機能も提供している。ユーザーが1枚以上の参照画像をアップロードし、テキストプロンプトを入力すると、プラットフォームが参照画像と一致した動画を自動で生成する。この機能が発表されてから3カ月で、ユーザーによる動画生成数が1000万本に達した。
(画像提供:人民網)