中国・百度のドキュメント解析モデル「PaddleOCR-VL」、GPTやGeminiを超えて総合性能で世界首位に

36Kr Japan | 最大級の中国テック・スタートアップ専門メディア

日本最大級の中国テック・スタートアップ専門メディア。日本経済新聞社とパートナーシップ提携。デジタル化で先行する中国の「今」から日本の未来を読み取ろう。

大企業注目記事

中国・百度のドキュメント解析モデル「PaddleOCR-VL」、GPTやGeminiを超えて総合性能で世界首位に

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

続きを読む

中国ネット大手の百度(バイドゥ)がこのほど公開したオープンソースのマルチモーダルドキュメント解析モデル「PaddleOCR-VL」が、ドキュメント解析ランキング「OmniBenchDoc V1.5」で92.6点を獲得し、総合性能で世界1位となった。

テキスト、表、式、読み順の4つの主要性能のいずれもが、GPT-4oやGemini-2.5 Pro、Qwen2.5-VL-72Bなど現在主流のマルチモーダルモデルを上回ったほか、ドキュメント解析モデルのMonkeyOCR-Pro-3BやMinerU2.5、dots.ocrを超え、世界記録を塗り替えた。

PaddleOCR-VLは、バイドゥ独自の大規模言語モデル(LLM)「文心(ERNIE)4.5」の派生モデルで、コアモデルはわずか9億パラメータ(0.9B)と軽量かつ高効率。テキストや手書きの漢字、表、公式、グラフなど複雑な要素を、極めて低い計算コストで正確に識別できる。中国語や英語、フランス語、日本語、ロシア語、アラビア語、スペイン語など109種類の言語に対応し、政府や企業のドキュメント管理や知識検索、文書のデジタル化、研究情報の抽出などに幅広く活用できる。

従来のドキュメント解析モデルが文字を識別するだけだったのに対し、PaddleOCR-VLは文書の複雑な構成を理解することが可能。決算報告書の表、数学の公式、手書きの授業ノートなどの内容を正確に読み取り、ロジックを混乱させることなくタイトルや本文、図版、注釈などを完全に再現できる。

訓練コストは4400万円⋯中国DeepSeek「R1」モデル、Nature論文で透明性を示す

(36Kr Japan編集部・茶谷弥生)

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

関連記事はこちら

関連キーワード

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録