原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録
【新華社北京7月19日】画像の検索や動画の解説から、詩や賦の吟唱、文章の続き部分の作成、さらには音声識別、バイリンガル翻訳に至るまで、仮想キャラクター「小初」がこのほど2021世界人工知能大会(WAIC2021)にお目見えし、画像、テキスト、音声という3種類のモーダルのインテリジェントな変換と生成をお披露目した。
「小初」がこのような能力を備えているのは、「紫東太初」という名のクロスモーダル汎用(はんよう)AIプラットフォームのおかげである。このプラットフォームは中国科学院自動化研究所が開発したもので、国産化した基礎的なソフト・ハードウエアをベースにしており、一つのビッグモデルを採用するだけで、視覚、テキスト、音声といった複数のシナリオでのAIの理解能力を「鍛錬」することができる。
同研究所の徐波所長は次のように説明した。「ビッグデータ+ビッグモデル+マルチモーダル」は、単一のモデルで単一のタスクに対応するという現在のAI研究開発のパラダイムを変え、マルチモーダル・ビッグモデルはさまざまな分野の共通プラットフォーム技術となるだろう。これは汎用AIに向かう重要な道筋を模索するものだ。
「『紫東太初』は画像、テキスト、音声という3種類のモーダルの統一された表現方式を実現し、画像による音声の生成、音声による画像の生成を行う。動画のアフレコ、音声放送、タイトルや要点の作成、ポスター創作など一層多元的なシナリオでのAIの応用を開拓していく」、徐氏はこう語る。
中国科学院自動化研究所は中国語プレトレーニングモデル、音声プレトレーニングモデル、視覚プレトレーニングモデルを構築するとともに、クロスモーダルのリンクを通じ、三つのモーダルのプレトレーニングビッグモデルを構築したといわれる。
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録