テキストの指示だけでリアルな動画を生成する。動画生成AIモデル「Sora」が年初、世界のAI業界の内外から注目を浴びた。27日の2024中関村フォーラム年次総会では、中国が独自に研究した「長時間・高一貫性・高ダイナミクス」という特長を持つ動画生成AIモデル「Vidu」が初公開された。
記者の調べによると、この動画生成AIモデルは清華大学と北京生数科技有限公司(以下「同社」)が共同で研究開発したものだ。テキストの描写に基づき最長16秒、最高1080pの高画質動画コンテンツを直接生成できる。現実の物理世界をシミュレートでき、かつ豊富な想像力を持つ。
清華大学AI研究院副院長で同社の首席科学者である朱軍氏によると、中国の動画生成AIモデルの動画の長さはほとんどが4秒ほどだが、Viduは1度に16秒の動画を生成できる。また動画はなめらかに繋がり、カメラの移動に伴い人物及びシーンが時間と空間の高い一貫性を保つ。
ダイナミクスについて、Viduは複雑な動きのあるシーンを生成できる。単純にカメラを固定し前後左右に動かすだけでなく、ロングショット、クローズショット、ミディアムショット、アップショットなどを切り替え、長回し、フォーカス、シーン変更などの効果を直接生成できる。
朱氏は、「Viduは実際の物理世界を想定し、細部が複雑で物理法則に合うシーンを生成できる。例えば合理的な光と影の効果や、細やかな人の表情などで、さらには深みと複雑性を持つ超現実主義コンテンツを創出できる。ワンステップで完了という生成方法を採用するため、動画のシーンが最初から最後まで連続的に生成され、目立ったフレーム補間は生じない」と説明した。
さらにViduはパンダやドラゴンなどのキャラクターを生成できる。
情報によると、Viduの技術の進展は、チームの機械学習及びマルチモード大規模モデルの長期的な蓄積によるものだ。その中核テクノロジーアーキテクチャはチームが2022年に掲げ、独自の研究開発を続けた。朱氏は、「汎用視覚モデルであるViduは将来的により多様でより長い動画コンテンツを生成し、異なる生成任務を模索するだろう。その柔軟なアーキテクチャはより多くのモードを受け入れ、マルチモード汎用能力の境界をさらに広げるはずだ」と述べた。
「中国網日本語版(チャイナネット)」2024年4月28日