バイトダンス版「Sora」がついに登場!テキストや画像から10秒の動画、完成度の高さに注目

36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

日本最大級の中国テック・スタートアップ専門メディア。日本経済新聞社とパートナーシップ提携。デジタル化で先行する中国の「今」から日本の未来を読み取ろう。

大企業注目記事

バイトダンス版「Sora」がついに登場!テキストや画像から10秒の動画、完成度の高さに注目

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

続きを読む

米OpenAIが今年初めにリリースした動画生成AI「Sora」が世界に大きな衝撃を与えてからというもの、業界では動画生成AIに強い関心が集まっている。Soraは現時点でまだ限定公開にとどまっているが、AI開発レースで先頭を走る中国では動画生成AIをめぐりIT大手やスタートアップが入り乱れる競争が巻き起こっている。

なかでも中国の二大ショート動画アプリの一つ、快手科技(Kuaishou Technology)が今年6月に公開した動画生成AI「Kling」は爆発的なヒットとなった。リリース以降、260万人以上が利用し、これまでに動画2700万本、画像5300万枚が生成された。

生成動画の長さはOpenAI「Sora」超え。ショート動画の快手、生成AI「Kling」発表

ショート動画アプリのもう一つの雄、TikTokの運営元バイトダンス(字節跳動)はいつ動画生成AIを発表するのか。多くの人が期待を抱いて動向を注視するなか、ついに9月24日、バイトダンス傘下のクラウドサービスプラットフォーム・火山引擎(Volcano Engine)から動画生成AI「PixelDance」と「Seaweed」が発表された。いずれもテキストや画像から10秒もの動画を生成できる。現在、法人向けに招待制のテストを実施中だという。

驚くべき完成度のバイトダンス版「Sora」

2つの動画生成AIのうち、拡散トランスフォーマーモデル(Diffusion Transformers)を採用した「PixelDance」は、複雑なプロンプトを理解し、複数の被写体が関わる自然な動画を生成できるのが特長で、ストーリー性のある動画の制作に適している。トランスフォーマーモデル(Transformer)をベースにした「Seaweed」は、さまざまな解像度で出力が可能で、リアルで滑らかな動画に仕上がるため、ショート動画や動画広告などより一般的なビジネス用途に適している。

いずれの動画生成AIも、完成度の高さには目を見張るものがある。

バイトダンスの公式リリースで紹介された生成動画では、複数の人物が関わり合いながらそれぞれ指示通りに動き、異なるアングルでも人物の外見や服装などのディテールに矛盾は見られず、実際に撮影したかのようなリアルさが感じられた。

バイトダンスの動画生成AI

これまで動画生成AIの多くは、単独の人物や物体に1つの動きをさせるような簡単な指示にしか対応できず、動きが複雑になると、ゆがみや変形が生じて不自然になりがちだった。しかしバイトダンスの動画生成AIは、走る、歩く、顔を上げるなどの動きもスムーズで、自然さや一貫性の点で大きな進歩が見られた。

目下、PixelDanceとSeaweedは小規模な内部テスト中で、まだ一般公開はされていない。

36Krが実際にPixelDanceで作成した動画

バイトダンスはこれと同時に、音楽生成モデルや同時通訳モデルも発表しており、同社の豆包(Doubao)大規模言語モデル(LLM)を始めとするAIモデルシリーズは、言語や音声、画像、動画などあらゆる形式をカバーするフルラインナップとなった。

ショート動画分野の巨頭として、バイトダンスは豊富な資金力やデータ、技術力、人材などにより、大規模基盤モデルやAIプロダクトを開発するうえで最も有利な企業に数えられている。実際、今年に入って豆包LLMを発表し、自社製品の50以上のシーンで検証を行っている。現在、豆包LLMは中国での利用数や活用シーンの多さがトップクラスで、1日平均1億3000万トークンのテキストデータを処理しているという。これを搭載した国内向けAIアシスタント「豆包」は、アップルのAPP Storeやアンドロイドの主要アプリストアで生成AIカテゴリのダウンロードランキングトップに輝いた。

(編集・36Kr Japan編集部、翻訳・畠中裕子)

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

関連記事はこちら

関連キーワード

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録