“Gemini級”の音声理解 アリババのオープンソースモデル「Qwen3-Omni」、Hugging Faceで首位獲得

36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

日本最大級の中国テック・スタートアップ専門メディア。日本経済新聞社とパートナーシップ提携。デジタル化で先行する中国の「今」から日本の未来を読み取ろう。

EXCITEのRSSに登録大企業注目記事

“Gemini級”の音声理解 アリババのオープンソースモデル「Qwen3-Omni」、Hugging Faceで首位獲得

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

続きを読む

世界最大のオープンソース人工知能(AI)コミュニティ「Hugging Face」が9月28日、新たなモデルランキングを発表した。同日時点で、中国のアリババグループが開発した大規模AIモデル「通義(Tongyi)」の7モデルが世界のトップ10オープンソースモデルにランクインし、うちオムニモーダルAIモデル「Qwen3-Omni」が首位を獲得した。

Qwen3-Omniシリーズのモデルは36項目の音声・動画ベンチマークテストの22項目で「SOTA(State-of-the-Art:最先端)」レベルを達成し、32項目でオープンソースモデルとして最高の性能を記録。音声認識、音声理解、音声対話能力は米グーグルの「Gemini2.5-Pro」に匹敵する。Qwen3-Omniはテキスト、画像、音声、映像という4種類の異なるデータタイプを処理でき、人間のように「聞く、話す、書く」ことが可能だ。

事前学習のプロセスでは、単一モーダルデータとクロスモーダルデータを組み合わせる方式を採用し、強力な音声処理能力および音声・映像統合処理能力を実現すると同時に、安定した単一モーダルのテキスト処理能力と画像処理能力を持つ。このようなトレーニング効果が実現されたのは業界初だという。同モデルは今後、車載システムやスマートグラス、スマートフォンなどに展開される予定で、幅広い活用が見込まれている。

“LLMは次世代のOS” アリババクラウドが描く「人工超知能(ASI)構想」とは

通義の大規模モデルファミリーにはQwen3-Omniの他、視覚言語モデル「Qwen3-VL」、画像編集モデル「Qwen-Image-Edit-2509」、動作生成モデル「Wan2.2-Animate」、深層研究エージェントモデル「DeepResearch」などがあり、これら6モデルが全てランクインしている。

アリババの通義シリーズは現時点で、300以上のモデルをオープンソース化し、全てのモダリティとサイズを網羅している。また、世界ダウンロード数は6億回を突破し、派生モデルは17万を超え、世界で首位に立っている。

(36Kr Japan編集部)

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

関連記事はこちら

関連キーワード

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録