音声識別+歌声合成で名曲を歌える!? 「思必馳」の新商品「読詩成曲」

36Kr Japan | 中国No.1スタートアップメディア日本版

中国最大のタートアップメディア、36Krの日本版です。先端企業の技術開発、業務提携、ファイナンス状況など中国の「今」を現地から届けるとともに、日本人向けの解説などのオリジナル記事を発信します。36Kr日本版を見れば、中国が分かります。

ビジネス注目記事

音声識別+歌声合成で名曲を歌える!? 「思必馳」の新商品「読詩成曲」

続きを読む

CCTVの番組内で「読詩成曲」というオンラインツールが使われて話題になった。画面に出てくる歌詞を視聴者が朗読すると、自分の声で歌われているスタンダードナンバーの一節を聴くことができるのだ。

「読詩成曲」には、言語・音声関連の人工知能(AI)技術開発を手掛ける「思必馳(AISPEECH)」が開発した歌声合成アルゴリズムが使われている。歌声合成技術は、音声合成(テキスト・トゥー・スピーチ、TTS)から派生したが、リズム予測モデルがTTSとは異なる。一般のTTSは言葉の内容とアクセントに合わせて一つ一つの音素(音節)の長さや高低を予測していく。これに対して歌声合成は、楽譜から一つ一つの音素(音節)の長さや高低を予測する(楽曲リズムモデル)。それから、TTSと同様にリズムのパラメータとスペクトルを合成して歌声を作り出す。

こうした技術について、AISPEECHの北京研究院院長兼副総裁の初敏博士は「まずオリジナル楽曲のリズムモデルにパーソナライズラーニング技術を加え、名曲が持つ特徴に合わせたリズムを生成する。これにより、楽曲のリズムの特徴を限りなく名曲に近づけていく」と語る。

メロディについては、音声モデルのパーソナライズラーニング技術を応用。生成されたパラメータをユーザーの声にできるだけ近づけ、これに名曲のリズムパラメータを組合せて、ユーザーが歌っているようなメロディーを作り出す。

この2年で、言語・音声合成技術の商業化が加速している。同社の音声合成技術の商業化について、初敏博士は、IoTの幅広い業種でインタラクティブなサービスを提供することを想定していると語った。

同社のAI関連事業は、AI+IOT、AIチップ、AIBOT、AIエコシステムの4領域をカバー。コネクテッドカーやスマートスピーカー、子ども向けタブレットや学習機、スマートロボットといった領域では市場シェアトップに立つ。将来のビジョンとして、「クラウド+チップ」を基本戦略に、スマート端末とオムニチャンネル・サービスを組み合わせて、ホテル、不動産、物流、介護、医療、教育等様々な分野に「オール・イン・ワン」ソリューションを提供したいとしている。
(翻訳:林森)

メールアドレスを登録して中国最新情報入手