中国・百度のドキュメント解析モデル「PaddleOCR-VL」、GPTやGeminiを超えて総合性能で世界首位に

公開日：2025.10.25

中国ネット大手の百度（バイドゥ）がこのほど公開したオープンソースのマルチモーダルドキュメント解析モデル「PaddleOCR-VL」が、ドキュメント解析ランキング「OmniBenchDoc V1.5」で92.6点を獲得し、総合性能で世界1位となった。

テキスト、表、式、読み順の4つの主要性能のいずれもが、GPT-4oやGemini-2.5 Pro、Qwen2.5-VL-72Bなど現在主流のマルチモーダルモデルを上回ったほか、ドキュメント解析モデルのMonkeyOCR-Pro-3BやMinerU2.5、dots.ocrを超え、世界記録を塗り替えた。

PaddleOCR-VLは、バイドゥ独自の大規模言語モデル（LLM）「文心（ERNIE）4.5」の派生モデルで、コアモデルはわずか9億パラメータ（0.9B）と軽量かつ高効率。テキストや手書きの漢字、表、公式、グラフなど複雑な要素を、極めて低い計算コストで正確に識別できる。中国語や英語、フランス語、日本語、ロシア語、アラビア語、スペイン語など109種類の言語に対応し、政府や企業のドキュメント管理や知識検索、文書のデジタル化、研究情報の抽出などに幅広く活用できる。