原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録
米OpenAIが今年初めにリリースした動画生成AI「Sora」が世界に大きな衝撃を与えてからというもの、業界では動画生成AIに強い関心が集まっている。Soraは現時点でまだ限定公開にとどまっているが、AI開発レースで先頭を走る中国では動画生成AIをめぐりIT大手やスタートアップが入り乱れる競争が巻き起こっている。
なかでも中国の二大ショート動画アプリの一つ、快手科技(Kuaishou Technology)が今年6月に公開した動画生成AI「Kling」は爆発的なヒットとなった。リリース以降、260万人以上が利用し、これまでに動画2700万本、画像5300万枚が生成された。
ショート動画アプリのもう一つの雄、TikTokの運営元バイトダンス(字節跳動)はいつ動画生成AIを発表するのか。多くの人が期待を抱いて動向を注視するなか、ついに9月24日、バイトダンス傘下のクラウドサービスプラットフォーム・火山引擎(Volcano Engine)から動画生成AI「PixelDance」と「Seaweed」が発表された。いずれもテキストや画像から10秒もの動画を生成できる。現在、法人向けに招待制のテストを実施中だという。
驚くべき完成度のバイトダンス版「Sora」
2つの動画生成AIのうち、拡散トランスフォーマーモデル(Diffusion Transformers)を採用した「PixelDance」は、複雑なプロンプトを理解し、複数の被写体が関わる自然な動画を生成できるのが特長で、ストーリー性のある動画の制作に適している。トランスフォーマーモデル(Transformer)をベースにした「Seaweed」は、さまざまな解像度で出力が可能で、リアルで滑らかな動画に仕上がるため、ショート動画や動画広告などより一般的なビジネス用途に適している。
いずれの動画生成AIも、完成度の高さには目を見張るものがある。
バイトダンスの公式リリースで紹介された生成動画では、複数の人物が関わり合いながらそれぞれ指示通りに動き、異なるアングルでも人物の外見や服装などのディテールに矛盾は見られず、実際に撮影したかのようなリアルさが感じられた。
これまで動画生成AIの多くは、単独の人物や物体に1つの動きをさせるような簡単な指示にしか対応できず、動きが複雑になると、ゆがみや変形が生じて不自然になりがちだった。しかしバイトダンスの動画生成AIは、走る、歩く、顔を上げるなどの動きもスムーズで、自然さや一貫性の点で大きな進歩が見られた。
目下、PixelDanceとSeaweedは小規模な内部テスト中で、まだ一般公開はされていない。
バイトダンスはこれと同時に、音楽生成モデルや同時通訳モデルも発表しており、同社の豆包(Doubao)大規模言語モデル(LLM)を始めとするAIモデルシリーズは、言語や音声、画像、動画などあらゆる形式をカバーするフルラインナップとなった。
ショート動画分野の巨頭として、バイトダンスは豊富な資金力やデータ、技術力、人材などにより、大規模基盤モデルやAIプロダクトを開発するうえで最も有利な企業に数えられている。実際、今年に入って豆包LLMを発表し、自社製品の50以上のシーンで検証を行っている。現在、豆包LLMは中国での利用数や活用シーンの多さがトップクラスで、1日平均1億3000万トークンのテキストデータを処理しているという。これを搭載した国内向けAIアシスタント「豆包」は、アップルのAPP Storeやアンドロイドの主要アプリストアで生成AIカテゴリのダウンロードランキングトップに輝いた。
(編集・36Kr Japan編集部、翻訳・畠中裕子)
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録