音声識別+歌声合成で名曲を歌える！？　「思必馳」の新商品「読詩成曲」

2019年2月12日03153

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

CCTVの番組内で「読詩成曲」というオンラインツールが使われて話題になった。画面に出てくる歌詞を視聴者が朗読すると、自分の声で歌われているスタンダードナンバーの一節を聴くことができるのだ。

「読詩成曲」には、言語・音声関連の人工知能（AI）技術開発を手掛ける「思必馳（AISPEECH）」が開発した歌声合成アルゴリズムが使われている。歌声合成技術は、音声合成（テキスト・トゥー・スピーチ、TTS）から派生したが、リズム予測モデルがTTSとは異なる。一般のTTSは言葉の内容とアクセントに合わせて一つ一つの音素（音節）の長さや高低を予測していく。これに対して歌声合成は、楽譜から一つ一つの音素（音節）の長さや高低を予測する（楽曲リズムモデル）。それから、TTSと同様にリズムのパラメータとスペクトルを合成して歌声を作り出す。

こうした技術について、AISPEECHの北京研究院院長兼副総裁の初敏博士は「まずオリジナル楽曲のリズムモデルにパーソナライズラーニング技術を加え、名曲が持つ特徴に合わせたリズムを生成する。これにより、楽曲のリズムの特徴を限りなく名曲に近づけていく」と語る。

メロディについては、音声モデルのパーソナライズラーニング技術を応用。生成されたパラメータをユーザーの声にできるだけ近づけ、これに名曲のリズムパラメータを組合せて、ユーザーが歌っているようなメロディーを作り出す。

この2年で、言語・音声合成技術の商業化が加速している。同社の音声合成技術の商業化について、初敏博士は、IoTの幅広い業種でインタラクティブなサービスを提供することを想定していると語った。

同社のAI関連事業は、AI+IOT、AIチップ、AIBOT、AIエコシステムの4領域をカバー。コネクテッドカーやスマートスピーカー、子ども向けタブレットや学習機、スマートロボットといった領域では市場シェアトップに立つ。将来のビジョンとして、「クラウド＋チップ」を基本戦略に、スマート端末とオムニチャンネル・サービスを組み合わせて、ホテル、不動産、物流、介護、医療、教育等様々な分野に「オール・イン・ワン」ソリューションを提供したいとしている。
（翻訳：林森）

原文はこちら