アリババクラウド、音声認識モデル「Qwen3-ASR-Flash」公開 精度でGoogleやOpenAIを凌駕

36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

日本最大級の中国テック・スタートアップ専門メディア。日本経済新聞社とパートナーシップ提携。デジタル化で先行する中国の「今」から日本の未来を読み取ろう。

EXCITEのRSSに登録大企業注目記事

アリババクラウド、音声認識モデル「Qwen3-ASR-Flash」公開 精度でGoogleやOpenAIを凌駕

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

続きを読む

中国アリババグループ傘下のアリババクラウドは9月8日、最新の音声認識モデル「Qwen3-ASR-Flash」を発表した。同モデルは、中国語や英語、フランス語、日本語など11言語と多様なイントネーションに対応する。アリババクラウドの「ModelScope」のほか、「HuggingFace」などのオープンソースプラットフォームを通じて無料で利用できる。

推論コスト、DeepSeekの3分の1に⋯世界を揺らすアリババ「Qwen3」、オープンソースLLMで“最強“評価

Qwen3-ASR-Flashは大量のマルチモーダルデータと数千万時間分の自動音声認識(ASR)データに基づいて構築されており、言語を自動識別し、無音の部分や背景ノイズの部分などを自動的にフィルタリングする。

ASRモデルのベンチマークテストの結果、Qwen3-ASR-Flashは方言や多言語、重要情報、歌詞などの音声認識のエラー率が、グーグルの「Gemini-2.5-Pro」やOpenAIの「GPT-4o-Transcribe」、バイトダンスの「豆包(Doubao)ASR」などを大幅に下回った。

Qwen3-ASR-Flashについては、多様なノイズ、多言語、方言、専門用語の認識など、さまざまなデモ例が公開されている。たとえば、英語や日本語など5つの言語を含む音声を正確に文字起こしできるほか、アカペラと伴奏付きの楽曲の歌詞の書き起こしにも対応しており、研究者の実測によるエラー率は8%を下回った。

(36Kr Japan編集部)

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

関連記事はこちら

関連キーワード

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録