米誌「MITテクノロジーレビュー」は19日、「エキサイティングな中国の新型動画生成AIモデルを試してみた」と題した記事を掲載した。要旨は下記の通り。
「快手」はまだよく知られていないかもしれないが、この中国企業は重要なマイルストーンを迎えた。無料のお試し版の動画生成AIモデルをリリースしたのだ。この6億人以上のアクティブユーザーを持つショート動画プラットフォームは今月6日、この独自に研究開発した新型ツールを発表した。名称は「可霊」。
しかし一般人がOpenAIを試験的に4カ月使ってもSoraにアクセスできないのとは異なり、可霊はすぐに同モデルを一般公開した。筆者も自らこれを体験した。東京の街頭の風景、花畑をさっと通過する猫、宇宙飛行士による乗馬といった、Soraが発表した印象的なデモ動画とイメージをまだ覚えているだろうか。可霊も動画を生成できる。
生成結果にはいくつか称賛すべき点があった。これらの動画はテキストから外れておらず、カメラの平行移動、木の葉の振動、馬と宇宙飛行士の動きなど、動画の物理的特性はすべて正しいようだ。すべての動画が約3分で生成された。これは最も早くはないが、完全に許容可能だ。
これらの動画には大きな欠点もある。ぼやけて見え、テキストの要求を見落とすことがある。かつ現在生成できる動画の長さは5秒が上限で、画面の動きが乏しくなり複雑性が下がる。しかしこれらの結果をSoraのデモ動画と比べるのは不公平だ。後者はOpenAIが丁寧に選んだ後に発表されたもので、そのテキスト生成動画の平均水準を上回るとみられる。その一方で、筆者は初めて試験的にテキストを書き、可霊で動画を生成した。「写真レベルのリアルさ」といったキーワードで結果を微調整することも少なかった。
可霊の仕組みはSoraに似ているが、重要な強みを握っている。快手は抖音(中国版TikTok)の中国における最大のショート動画競合他社で、巨大な動画プラットフォームと数億人のユーザーを擁する。これらのユーザーによる投稿は、可霊の訓練に用いられる大量の動画データになる。可霊の最大のネックは、(現時点では)5秒の動画しか生成できない点にあるだろう。AI専門家によると、動画が長いほど「幻覚」もしくは一致しない結果が生成される可能性が高いという。
報道によると、快手の競合他社であるバイトダンスも動画生成ツールのリリースに備えている。業界の観測筋は、年末に選択肢が増えると述べた。
「中国網日本語版(チャイナネット)」2024年6月21日