中国のデジタルヒューマン、30秒で自動生成可能へ。「視聴者とリアルに会話する」ライブ配信への活用に期待

36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

日本最大級の中国テック・スタートアップ専門メディア。日本経済新聞社とパートナーシップ提携。デジタル化で先行する中国の「今」から日本の未来を読み取ろう。

スタートアップ注目記事

中国のデジタルヒューマン、30秒で自動生成可能へ。「視聴者とリアルに会話する」ライブ配信への活用に期待

36Kr Japanで提供している記事以外に、スタートアップ企業や中国ビジネスのトレンドに関するニュース、レポート記事、企業データベースなど、有料コンテンツサービス「CONNECTO(コネクト)」を会員限定にお届けします。無料会員向けに公開している内容もあるので、ぜひご登録ください。

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

続きを読む

AI駆動のデジタルヒューマンサービスを手掛ける中国企業「向量方程」が、にエンジェルラウンドで約1000万元(約2億円)の資金調達を実施したと発表した。今回の出資は真成投資(Zhencheng Capital)が主導し、北京極信管理諮詢と上海天使会(Shanghai Angel Group)が参加した。資金はデジタルヒューマン技術の研究開発に充てられるという。

向量方程は2024年3月14日に設立された新興企業。創業者の沈仁奎CEOは、知識系コンテンツの著名ブランド「羅輯思惟(Luogic TalkShow)」の元CTOで、中国IT大手のテンセントや百度(バイドゥ)にも在籍していた。24年6月、アジア地域に特化したワンストップのデジタルヒューマン動画制作プラットフォーム「石榴数字人」の商用サービスを開始した。

ショート動画はかなり前からマーケティング(トラフィック獲得)に最適な手段に一つとされていたが、AIデジタルヒューマンがさらなる追い風となった。AIアバターと音声を活用した米国の動画生成プラットフォーム「HeyGen」は、年間売上高がこの14カ月間に100万ドル(約1億5000万円)から一気に3500万ドル(約54億円)まで急増した。中国のデジタルヒューマンのコア市場は2025年に480億6000万元(約1兆円)規模に達すると予測され、テンセントやアリババ、バイトダンス(字節跳動)など大手テック企業が次々と参入している。

沈CEOによると、デジタルヒューマン市場に参入するという考えを持ち始めた4年前から、技術的な転換点が訪れるのをひたすら待ち続けてきたという。「ある論文でデジタルヒューマンの新たなアーキテクチャを取り上げているのを目にしたとき、これこそが自分が待ち望んでいた、商用化を可能にする技術だと思った」とし、「これまではモデリングデータの収集に1日以上かかったが、今では3分から5分程度であっという間にデジタルヒューマンを生成することができる」と語った。

デジタルヒューマンの分野では、これまでの3Dエンジンなどの技術から大規模言語モデル(LLM)の活用へと移行しつつあり、生成効率は大幅に向上した。わずか数百元(数千円)で生成されたデジタルヒューマンでさえ、かつて100万元(約2000万円)以上かけて作ったものより優れている。

デジタルヒューマン制作プラットフォーム「石榴数字人」は、テキストデータをデジタルヒューマンの動画に変換し、コンテンツ制作の効率を向上させる。シミュレーション能力が高く、リアルな人物や情景、服装、動きを1対1で忠実に再現する。質の高いデータで訓練することにより優れた基盤モデルを構築、言語により異なる口元の動きを調整することもでき、必要なデータ量を大幅に減らした。

業界トップクラスのデジタルヒューマン生成サービスと比べて、石榴数字人は生成にかかる時間が短いのが特徴だ。これまで30分ほどかかっていた制作時間を、石榴数字人は30秒に縮めた。中国語環境への適合性も増し、屋外を走るといったような動きのあるシーンの表現に優れ、ひとつの動画内で複数のデジタルヒューマンがやり取りすることもできる。

石榴数字人のデジタルヒューマン。バスケットボールをし、自転車に乗り、複数言語を話すこともできる。

また、文章を音声に変換する「Text To Speech(TTS)」方式の課題を解決し、非常に滑らかでめりはりのある音声を実現した。自社で開発した販売価格1000元(約2万円)クラスの高機能版は、業界内で10万元(約200万円)クラスのプロダクトをベンチマークとし、シーンに合わせてアクセントや発声の癖をカスタマイズすることもできる。

石榴数字人はすでにデジタルヒューマン生成のカスタマイズプロセスを全て自動化しているという。動画を作成する時には、口の形を細かく気にする必要はなく、システムが文の区切りや前後のつながりを分析して自然な発声にする。人が介在するコストが不要になったため、プラットフォーム利用にかかる料金は動画生成時間の長さに応じた従量制だ。

大口の顧客に対してはAIアシスタントも提供する。テンセントのSNSアプリWeChat(微信)のチャット機能を利用した字幕の取り込み、リライトや動画生成などの機能もある。

沈CEOは、法人向け市場のほうがチャンスが大きくまだ飽和していないため、今後は法人向け市場に注力しようと考えている。デジタルヒューマンと自動化技術によって大量の動画コンテンツを短時間で生成し、運用効率を高める新たな動画サービスを提供する。

さらに、インタラクティブ動画の分野に進出することも計画しており、デジタルヒューマンが視聴者とリアルタイムに交流できるようにする構想もあるという。インタラクティブ動画の応用シーンのひとつにライブ配信がある。沈CEOは、将来的にはデジタルヒューマンによるライブ配信を目指そうと考えているものの、今はまだ技術が成熟するのを待っているところだとした。

*1元=約21円、1ドル=約154円で計算しています。

(翻訳・36Kr Japan編集部)

36Kr Japanで提供している記事以外に、スタートアップ企業や中国ビジネスのトレンドに関するニュース、レポート記事、企業データベースなど、有料コンテンツサービス「CONNECTO(コネクト)」を会員限定にお届けします。無料会員向けに公開している内容もあるので、ぜひご登録ください。

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

関連記事はこちら

関連キーワード

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録