画像、テキスト、音声の「シームレス変換」実現 中国自動化研

36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

日本最大級の中国テック・スタートアップ専門メディア。日本経済新聞社とパートナーシップ提携。デジタル化で先行する中国の「今」から日本の未来を読み取ろう。

新華社短信

画像、テキスト、音声の「シームレス変換」実現 中国自動化研

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

続きを読む

【新華社北京7月19日】画像の検索や動画の解説から、詩や賦の吟唱、文章の続き部分の作成、さらには音声識別、バイリンガル翻訳に至るまで、仮想キャラクター「小初」がこのほど2021世界人工知能大会(WAIC2021)にお目見えし、画像、テキスト、音声という3種類のモーダルのインテリジェントな変換と生成をお披露目した。

「小初」がこのような能力を備えているのは、「紫東太初」という名のクロスモーダル汎用(はんよう)AIプラットフォームのおかげである。このプラットフォームは中国科学院自動化研究所が開発したもので、国産化した基礎的なソフト・ハードウエアをベースにしており、一つのビッグモデルを採用するだけで、視覚、テキスト、音声といった複数のシナリオでのAIの理解能力を「鍛錬」することができる。

同研究所の徐波所長は次のように説明した。「ビッグデータ+ビッグモデル+マルチモーダル」は、単一のモデルで単一のタスクに対応するという現在のAI研究開発のパラダイムを変え、マルチモーダル・ビッグモデルはさまざまな分野の共通プラットフォーム技術となるだろう。これは汎用AIに向かう重要な道筋を模索するものだ。

「『紫東太初』は画像、テキスト、音声という3種類のモーダルの統一された表現方式を実現し、画像による音声の生成、音声による画像の生成を行う。動画のアフレコ、音声放送、タイトルや要点の作成、ポスター創作など一層多元的なシナリオでのAIの応用を開拓していく」、徐氏はこう語る。

中国科学院自動化研究所は中国語プレトレーニングモデル、音声プレトレーニングモデル、視覚プレトレーニングモデルを構築するとともに、クロスモーダルのリンクを通じ、三つのモーダルのプレトレーニングビッグモデルを構築したといわれる。

原文はこちら

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

関連記事はこちら

関連キーワード

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録