セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録
世界最大のオープンソース人工知能(AI)コミュニティ「Hugging Face」が9月28日、新たなモデルランキングを発表した。同日時点で、中国のアリババグループが開発した大規模AIモデル「通義(Tongyi)」の7モデルが世界のトップ10オープンソースモデルにランクインし、うちオムニモーダルAIモデル「Qwen3-Omni」が首位を獲得した。
Qwen3-Omniシリーズのモデルは36項目の音声・動画ベンチマークテストの22項目で「SOTA(State-of-the-Art:最先端)」レベルを達成し、32項目でオープンソースモデルとして最高の性能を記録。音声認識、音声理解、音声対話能力は米グーグルの「Gemini2.5-Pro」に匹敵する。Qwen3-Omniはテキスト、画像、音声、映像という4種類の異なるデータタイプを処理でき、人間のように「聞く、話す、書く」ことが可能だ。
事前学習のプロセスでは、単一モーダルデータとクロスモーダルデータを組み合わせる方式を採用し、強力な音声処理能力および音声・映像統合処理能力を実現すると同時に、安定した単一モーダルのテキスト処理能力と画像処理能力を持つ。このようなトレーニング効果が実現されたのは業界初だという。同モデルは今後、車載システムやスマートグラス、スマートフォンなどに展開される予定で、幅広い活用が見込まれている。
通義の大規模モデルファミリーにはQwen3-Omniの他、視覚言語モデル「Qwen3-VL」、画像編集モデル「Qwen-Image-Edit-2509」、動作生成モデル「Wan2.2-Animate」、深層研究エージェントモデル「DeepResearch」などがあり、これら6モデルが全てランクインしている。
アリババの通義シリーズは現時点で、300以上のモデルをオープンソース化し、全てのモダリティとサイズを網羅している。また、世界ダウンロード数は6億回を突破し、派生モデルは17万を超え、世界で首位に立っている。
(36Kr Japan編集部)
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録