“Gemini級”の音声理解　アリババのオープンソースモデル「Qwen3-Omni」、Hugging Faceで首位獲得

公開日：2025.10.08

世界最大のオープンソース人工知能（AI）コミュニティ「Hugging Face」が9月28日、新たなモデルランキングを発表した。同日時点で、中国のアリババグループが開発した大規模AIモデル「通義（Tongyi）」の7モデルが世界のトップ10オープンソースモデルにランクインし、うちオムニモーダルAIモデル「Qwen3-Omni」が首位を獲得した。

Qwen3-Omniシリーズのモデルは36項目の音声・動画ベンチマークテストの22項目で「SOTA（State-of-the-Art：最先端）」レベルを達成し、32項目でオープンソースモデルとして最高の性能を記録。音声認識、音声理解、音声対話能力は米グーグルの「Gemini2.5-Pro」に匹敵する。Qwen3-Omniはテキスト、画像、音声、映像という4種類の異なるデータタイプを処理でき、人間のように「聞く、話す、書く」ことが可能だ。

事前学習のプロセスでは、単一モーダルデータとクロスモーダルデータを組み合わせる方式を採用し、強力な音声処理能力および音声・映像統合処理能力を実現すると同時に、安定した単一モーダルのテキスト処理能力と画像処理能力を持つ。このようなトレーニング効果が実現されたのは業界初だという。同モデルは今後、車載システムやスマートグラス、スマートフォンなどに展開される予定で、幅広い活用が見込まれている。

“LLMは次世代のOS”　アリババクラウドが描く「人工超知能（ASI）構想」とは

通義の大規模モデルファミリーにはQwen3-Omniの他、視覚言語モデル「Qwen3-VL」、画像編集モデル「Qwen-Image-Edit-2509」、動作生成モデル「Wan2.2-Animate」、深層研究エージェントモデル「DeepResearch」などがあり、これら6モデルが全てランクインしている。

アリババの通義シリーズは現時点で、300以上のモデルをオープンソース化し、全てのモダリティとサイズを網羅している。また、世界ダウンロード数は6億回を突破し、派生モデルは17万を超え、世界で首位に立っている。