音声識別+歌声合成で名曲を歌える!? 「思必馳」の新商品「読詩成曲」

36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

日本最大級の中国テック・スタートアップ専門メディア。日本経済新聞社とパートナーシップ提携。デジタル化で先行する中国の「今」から日本の未来を読み取ろう。

ビジネス注目記事

音声識別+歌声合成で名曲を歌える!? 「思必馳」の新商品「読詩成曲」

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

続きを読む

CCTVの番組内で「読詩成曲」というオンラインツールが使われて話題になった。画面に出てくる歌詞を視聴者が朗読すると、自分の声で歌われているスタンダードナンバーの一節を聴くことができるのだ。

「読詩成曲」には、言語・音声関連の人工知能(AI)技術開発を手掛ける「思必馳(AISPEECH)」が開発した歌声合成アルゴリズムが使われている。歌声合成技術は、音声合成(テキスト・トゥー・スピーチ、TTS)から派生したが、リズム予測モデルがTTSとは異なる。一般のTTSは言葉の内容とアクセントに合わせて一つ一つの音素(音節)の長さや高低を予測していく。これに対して歌声合成は、楽譜から一つ一つの音素(音節)の長さや高低を予測する(楽曲リズムモデル)。それから、TTSと同様にリズムのパラメータとスペクトルを合成して歌声を作り出す。

こうした技術について、AISPEECHの北京研究院院長兼副総裁の初敏博士は「まずオリジナル楽曲のリズムモデルにパーソナライズラーニング技術を加え、名曲が持つ特徴に合わせたリズムを生成する。これにより、楽曲のリズムの特徴を限りなく名曲に近づけていく」と語る。

メロディについては、音声モデルのパーソナライズラーニング技術を応用。生成されたパラメータをユーザーの声にできるだけ近づけ、これに名曲のリズムパラメータを組合せて、ユーザーが歌っているようなメロディーを作り出す。

この2年で、言語・音声合成技術の商業化が加速している。同社の音声合成技術の商業化について、初敏博士は、IoTの幅広い業種でインタラクティブなサービスを提供することを想定していると語った。

同社のAI関連事業は、AI+IOT、AIチップ、AIBOT、AIエコシステムの4領域をカバー。コネクテッドカーやスマートスピーカー、子ども向けタブレットや学習機、スマートロボットといった領域では市場シェアトップに立つ。将来のビジョンとして、「クラウド+チップ」を基本戦略に、スマート端末とオムニチャンネル・サービスを組み合わせて、ホテル、不動産、物流、介護、医療、教育等様々な分野に「オール・イン・ワン」ソリューションを提供したいとしている。
(翻訳:林森)

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

関連キーワード

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録