36Kr Japanで提供している記事以外に、スタートアップ企業や中国ビジネスのトレンドに関するニュース、レポート記事、企業データベースなど、有料コンテンツサービス「CONNECTO(コネクト)」を会員限定にお届けします。無料会員向けに公開している内容もあるので、ぜひご登録ください。
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録
中国の人工知能(AI)スタートアップ「趣丸網絡科技(Quwan Network Technology)」(以下、趣丸科技)は2024年10月24日、香港中文大学・深圳校と共同で開発した音声合成モデル「MaskGCT」をオープンソースの音声生成ツールキット「Amphion」で公開したと発表した。MaskGCTは、既存のテキスト音声合成(TTS)モデルと異なり、マスク言語モデルと音声コーデック技術を採用し、音声クローン生成や多言語合成、音声制御などを迅速にこなす。
MaskGCTは、既存のTTSモデルよりも音声の類似性やクオリティー、安定性に優れ、音声合成モデルとしては最先端の性能を有しているという。主な特長は下記の3つ。
・超リアルな音声クローンを数秒で生成できる。3秒間の音声サンプルを入力すれば、人やアニメ、ささやき声といったあらゆる声色を生成し、語調や口調、感情を完璧に再現できる。
・細かく制御可能な音声を生成する。生成する音声の長さやスピード、表現を柔軟に調節でき、リズムや声色を変えずにテキストによる音声編集も可能だ。
・質の高い多言語音声データセットでトレーニングされている。香港中文大学深圳校や趣丸科技などが共同で公開した10万時間分のデータセット「Emilia」は、世界で最も大規模かつ種類が豊富な多言語音声データセットであり、これを使ってトレーニングした結果、中国語、英語、日本語、韓国語、フランス語、ドイツ語という6種類の多言語合成が可能となった。
MaskGCTは、香港中文大学深圳校と趣丸科技のAI共同研究室で開発された。大規模なゼロサンプルTTSモデルで、テキストと音声のアライメントや音素持続時間予測が不要な非自己回帰型のトランスフォーマーを採用しており、マスク言語モデルと音声コーデック技術を組み合わせた革新的な音声合成モデルとなった。
公式発表のテスト結果によると、MaskGCTは音声の質や類似性、明瞭性がほとんどのTTSモデルよりも優れ、モデルの規模とトレーニングデータ量が増えるほど性能が向上するうえ、音声を生成する時間を制御できる。
注目すべきは、MaskGCTが2段階のモデルとなっている点だ。第1段階では、テキストを使って音声の自己教師あり学習(SSL)モデルから抽出された語義トークンを予測し、第2段階では、マスク言語モデルに従ってこれらの語義トークンから音声トークンを予測する。
トレーニングでは、与えられた条件とプロンプトに基づき、マスクされた部分の語義・音声トークンを予測するほか、推論中は指定された長さのトークンを並行して生成する。リアルな音声による10万時間のテストでは、音質や類似性、明瞭性が既存のゼロサンプルTTSよりも優れた結果を出した。
MaskGCTは、ショートドラマやデジタルヒューマン、AIアシスタント、オーディオブック、教育支援などさまざまな分野で活用されている。趣丸科技は、安全性とコンプライアンスを保ちつつ活用の幅を広げようと、迅速な多言語翻訳が可能なAIプラットフォーム「趣丸千音」を開発した。動画をワンクリックでアップロードするだけで、セリフを素早く多言語に翻訳できる。字幕の修正・翻訳や音声翻訳、リップシンクなどの機能があり、手作業による翻訳のコストや制作期間を大きく減らすことで、映画やテレビ、ゲーム、ショートドラマなど中国製コンテンツの海外進出を後押しする。
「2024年ショートドラマ海外進出白書」によると、23年の海外ショートドラマ市場規模は中国市場の約12倍に当たる650億ドル(約9兆7500億円)に上り、中国ショートドラマの海外進出は大きな可能性を秘めている。MaskGCTが搭載された趣丸千音は、中国製コンテンツがより低コストで迅速に海外進出を果たせるよう支えることになる。
*1ドル=約150円で計算しています。
(翻訳・大谷晶洋)
36Kr Japanで提供している記事以外に、スタートアップ企業や中国ビジネスのトレンドに関するニュース、レポート記事、企業データベースなど、有料コンテンツサービス「CONNECTO(コネクト)」を会員限定にお届けします。無料会員向けに公開している内容もあるので、ぜひご登録ください。
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録