中国AIユニコーン「MiniMax」、音声合成モデルの性能評価で世界一に OpenAIやElevenLabsを圧倒

36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

日本最大級の中国テック・スタートアップ専門メディア。日本経済新聞社とパートナーシップ提携。デジタル化で先行する中国の「今」から日本の未来を読み取ろう。

スタートアップ注目記事

中国AIユニコーン「MiniMax」、音声合成モデルの性能評価で世界一に OpenAIやElevenLabsを圧倒

36Kr Japanで提供している記事以外に、スタートアップ企業や中国ビジネスのトレンドに関するニュース、レポート記事、企業データベースなど、有料コンテンツサービス「CONNECTO(コネクト)」を会員限定にお届けします。無料会員向けに公開している内容もあるので、ぜひご登録ください。

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

続きを読む

中国のAIユニコーン「MiniMax」がリリースした最新の音声合成モデル「Speech-02」がこのほど、世界的な音声技術評価サイト「Artificial Analysis Speech Arena」および「Hugging Face TTS Arena」で共に首位を獲得、これまで長らく米OpenAIやElevenLabsがトップを占めていた中での快挙となった。しかも、最先端レベルの性能を誇りながら、料金はElevenLabsの半分から4分の1に抑えられている。

MiniMaxは、AI大手の商湯科技(センスタイム)で副総裁を務めていた閻俊傑氏らによって、2021年12月に上海で設立された。24年3月には、アリババグループの主導で6億ドル(約860億円)を調達し、評価額は25億ドル(約3600億円)に達している。

アリババ、中国生成AIユニコーン「MiniMax」に6億ドル以上の出資か クラウド事業のテコ入れ狙う

同社はこれまでに、マルチモーダルな入出力に対応できる複数の基盤モデルを独自に開発してきた。主力は、テキストモデル「MiniMax-Text-01」、視覚言語モデル「MiniMax-VL-01」、音声合成モデル「MiniMax-Speech」など。

今回リリースされた「Speech-02」は、音声合成技術において優れた性能を発揮しており、人に近い自然な発音、個性の再現、多様な話し方という3点が特に際立っている。

Speech-02の音声合成は、ほぼ完璧といえる仕上がりで、中国語・英語ともに自然なイントネーションと豊かな感情表現を実現している。さらに、数秒間の音声サンプルから話者の声を高精度で再現できる機能を備えており、声質の微調整も可能だ。例えば、テイラー・スウィフトの声で論文を読み上げさせてみたところ、声のトーンだけでなく、話し方のクセやリズムまで忠実に再現できる。

また、32言語に対応しており、異なる言語への切り替えも非常にスムーズだ。例えば、サンプルの音声が英語であっても、その声の特徴を保ったまま、違う言語で合成することができる。

多言語評価では、24言語に及ぶテストセットで優れた性能を示した。特に、中国語(標準語)、広東語、タイ語、日本語など複雑な言語で優れた成績を収め、英語においてもElevenLabsを上回る結果を記録した。

Speech-02はすでに複数の業種で実用化が始まっている。

教育分野では、オンライン教育を運営する高途教育科技と提携して、24時間対応可能かつ個々に合わせた言語トレーニングシステムを開発した。例えば、話題になった、香港の俳優・呉彦祖氏の声を高度に再現したAIを相手に、24時間いつでも英会話の練習を行えるサービスも、このシステムがベースになっている。

スマートコックピットでは、高級EVブランド極狐(ARCFOX)の車両にSpeech-02を含む複数のAIモデルを導入し、ユーザーの質問にリアルタイムで答えられるようにしている。

玩具分野では、中国の Haivivi(躍然創新)が開発した、ぬいぐるみに装着するだけで会話できるようにする「BubblePal」という画期的な製品に組み込まれ、子どものさまざまな質問に即時に応答可能な知育機能を提供。発売から2カ月で2万台以上を売り上げるヒット商品となった。

メディア・エンタメでは、香港のテレビ局と提携して、音声モデルを活用した広東語による天気予報サービスを導入した。また、動画生成AIのHedraと協業し、カスタマイズ可能なデジタルキャラクターを生成できるようにし、エンタメ業界に新たな可能性をもたらしている。

MiniMaxは、すでに一般消費者および企業向けのプロダクトを多数リリースしてきた。代表的なものには、バーチャルキャラクターを使ったAIチャットアプリ「Glow」とそのグローバル版「Talkie」、テキスト・音声・音楽・動画の生成機能を備えた業務効率化ツール「海螺AI(HailuoAI)」などがある。

中国発AIチャットアプリ「Talkie」が米国で快進撃、TikTokの二の舞い懸念も

*1ドル=約144円で計算しています。

作者:量子位(WeChat公式ID:QbitAI)

(編集・36Kr Japan編集部、翻訳・畠中裕子)

36Kr Japanで提供している記事以外に、スタートアップ企業や中国ビジネスのトレンドに関するニュース、レポート記事、企業データベースなど、有料コンテンツサービス「CONNECTO(コネクト)」を会員限定にお届けします。無料会員向けに公開している内容もあるので、ぜひご登録ください。

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

関連記事はこちら

関連キーワード

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録