原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録
CCTVの番組内で「読詩成曲」というオンラインツールが使われて話題になった。画面に出てくる歌詞を視聴者が朗読すると、自分の声で歌われているスタンダードナンバーの一節を聴くことができるのだ。
「読詩成曲」には、言語・音声関連の人工知能(AI)技術開発を手掛ける「思必馳(AISPEECH)」が開発した歌声合成アルゴリズムが使われている。歌声合成技術は、音声合成(テキスト・トゥー・スピーチ、TTS)から派生したが、リズム予測モデルがTTSとは異なる。一般のTTSは言葉の内容とアクセントに合わせて一つ一つの音素(音節)の長さや高低を予測していく。これに対して歌声合成は、楽譜から一つ一つの音素(音節)の長さや高低を予測する(楽曲リズムモデル)。それから、TTSと同様にリズムのパラメータとスペクトルを合成して歌声を作り出す。
こうした技術について、AISPEECHの北京研究院院長兼副総裁の初敏博士は「まずオリジナル楽曲のリズムモデルにパーソナライズラーニング技術を加え、名曲が持つ特徴に合わせたリズムを生成する。これにより、楽曲のリズムの特徴を限りなく名曲に近づけていく」と語る。
メロディについては、音声モデルのパーソナライズラーニング技術を応用。生成されたパラメータをユーザーの声にできるだけ近づけ、これに名曲のリズムパラメータを組合せて、ユーザーが歌っているようなメロディーを作り出す。
この2年で、言語・音声合成技術の商業化が加速している。同社の音声合成技術の商業化について、初敏博士は、IoTの幅広い業種でインタラクティブなサービスを提供することを想定していると語った。
同社のAI関連事業は、AI+IOT、AIチップ、AIBOT、AIエコシステムの4領域をカバー。コネクテッドカーやスマートスピーカー、子ども向けタブレットや学習機、スマートロボットといった領域では市場シェアトップに立つ。将来のビジョンとして、「クラウド+チップ」を基本戦略に、スマート端末とオムニチャンネル・サービスを組み合わせて、ホテル、不動産、物流、介護、医療、教育等様々な分野に「オール・イン・ワン」ソリューションを提供したいとしている。
(翻訳:林森)
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録