36Kr Japanで提供している記事以外に、スタートアップ企業や中国ビジネスのトレンドに関するニュース、レポート記事、企業データベースなど、有料コンテンツサービス「CONNECTO(コネクト)」を会員限定にお届けします。無料会員向けに公開している内容もあるので、ぜひご登録ください。
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録
マルチモーダルAIを手がける「生数科技(Shengshu Technology)」はこのほど、新たに数億元(数十億~百十数億円)を調達した。出資は啓明創投(Qiming Venture Partners)が主導し、大規模言語モデル(LLM)のユニコーン・智譜華章科技(Zhipu AI)なども参加した。
2023年に設立された生数科技は、自社開発のマルチモーダル汎用LLMをベースとして企業向けに「MaaS(モデル・アズ・ア・サービス)」、消費者向けにアプリを提供している。コアメンバーはいずれも清華大学AI研究所の出身で、共同創業者の唐家渝CEOはテンセント(騰訊)AI研究部門の優図実験室(YouTu Lab)でシニア・プロダクト・マネージャーを務めていた。チームは創業前の22年9月、世界初の拡散トランスフォーマー(DiT)アーキテクチャとなる9億5000万パラメーター規模のU-ViTを発表、その1カ月後に画像生成AI 「Stable Diffusion」を手がけるStability AIが初代DiTアーキテクチャのU-Netを発表し、これが後に動画生成AI「Sora」の開発に使われた。
OpenAIが今年、最大60秒の動画を生成できるSoraをリリースしたことで、中国のAI業界でも動画、音声、3DなどのマルチモーダルAI技術の開発が加速した。
生数科技が独自に開発したマルチモーダル汎用LLMは、短い動画を生成する基本的な機能を備えている。同社はU-ViTアーキテクチャをベースに、マルチモーダルとマルチタスクが一体化した基盤モデルをリリースし、画像や動画、3Dなど多彩な形式のコンテンツ生成を可能にした。
例えば3Dモデルの生成において、同社のAIは生成スピードを10秒ほどにまで短縮することができる。また、360度パノラマの4D動画生成や、生成した3D画像の編集も行える。
唐CEOによると、同社はマルチモーダルAIの訓練データを、ネット上で公開されている大量のデータと、版権所有者から購入したプライベートデータの2方面から取得しており、これによって訓練データのバリエーションを増やしているという。
また、訓練のコスト削減と効率向上のためにエンジニアリング・データシステムを構築し、大規模GPUクラスタ上で効率的かつ低コストで高い互換性を持つ訓練を実現した。唐CEOによると、チームは昨年、1カ月近くを費やしてファーウェイ(華為技術)のAIチップセットAscendシリーズの訓練アーキテクチャに対応させ、チップの国産化によるコスト削減を後押ししたという。
生数科技は現在、ゲーム開発企業、デバイスメーカー、インターネットプラットフォームなどと提携している。例えばある自動車メーカーは、生数科技の画像生成機能を大型車載スクリーンの壁紙生成に活用している。
消費者向けでは2023年にビジュアルデザインプラットフォーム「PixWeaver」と3Dアセット作成ツール「VoxCraft」をリリースした。海外市場向けに先行リリースされたVoxCraftは3Dゲームのキャラクター開発を支援するもので、ラフモデルの生成機能を活用すればゲームの開発効率を30%上げられるという。
唐CEOは、AI開発企業にとってSoraに追いつくことは依然として大きな挑戦だと考えている。しかしよい面に目を向ければ、マルチモーダルAIが研究室やコンピュータルームを飛び出し、より多くのシーンで活用される段階を迎えたと言えるだろう。
*2024年5月1日のレート(1元=約22円)で計算しています。
(翻訳・大谷晶洋)
36Kr Japanで提供している記事以外に、スタートアップ企業や中国ビジネスのトレンドに関するニュース、レポート記事、企業データベースなど、有料コンテンツサービス「CONNECTO(コネクト)」を会員限定にお届けします。無料会員向けに公開している内容もあるので、ぜひご登録ください。
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録