壮絶な大学入試「高考」、中国の生成AIが受験してみた…苦手・得意科目に意外な結果

2024年7月3日01217

Related tags : 通義千問高考アリバババイトダンス山谷剛史大規模言語モデル LLM 生成AI AI

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

6月に中国で大学受験「高考」があった。中国の学生はこの日まで日々朝から夜まで勉強漬けとなり、その集大成となる人生の一大イベントとなる。ちなみに、24年の高考への志願者数はなんと1342万人に達しており、昨年より51万人増加し、過去最高を更新した。例年の高考は日本の大学入学共通テスト以上にメディアで取り上げられるが、今年は中国の大規模言語モデル（LLM）・生成AIがどこまで点数をとれるかというのを試すメディアが続出し話題になった。

中国、AIモデルの数は米国に次いで2位　AI特許数は世界トップ：スタンフォード大学HAI

中国で今、様々な企業から生成AIが誕生し、赤字覚悟の低価格でユーザーを囲い込みつつ、能力を高め活用したサービスを提供している。有名なものではバイドゥの文心一言、アリババの通義千問、バイトダンスの豆包、テンセントの元宝、ユニコーン企業の智譜AI（Zhipu　AI）の清言のほか、シャオミ、ファーウェイやOPPOも独自のLLMを自社スマートフォンに導入している。これらの他にも数多く出ているが、それを各メディアが競うようにベンチマークを行ったわけだ。

TikTokのバイトダンス、独自の大規模言語モデルを発表　驚異の「業界平均0.7％」の低価格で普及を狙う

販売伸び悩む中国スマホメーカー、2024年はAI搭載競争へ突入か

さて、実際に高考の英語・数学・中国語の3科目で実験を行った結果を見てみると、アリババの通義千問が最も高得点で420点中303点、続いてGPT-4oが296点で後に続いた。

米最新のLLM評価基準、アリババの「Qwen2-72B」がトップ10入り　中国企業で唯一

英語は空欄を埋めるタイプや回答を選択するタイプで苦手とするLLMもあったが、英作文ではほとんど減点されることはなく高得点を記録。中国語では現代文の読解力ではどれも優れている一方、古文ではものによって差は出たが、どれも「オントロジー」「メタファー」「隠喩」などを理解できておらず点を落とした。特に意外だったのは、数学。すべては合格点数に及ばず、問題解決のためのプロセスで混乱し、AIの強力な数式記憶機能が問題解決プロセス中にうまく参照して使えてないというものだった。

そして注目を集めたのが作文で出てきた以下の問題だ。

「インターネットが普及し、AIが活用され、多くの課題の答えがすぐに出てくるようになりました。では私たちの課題は少なくなるのでしょうか、800字以上で答えなさい」

という旬なネタの問題が出てきたのだ。この問題を各社の生成AIはどう回答するのかと、中国の複数のメディアはAIに作らせた。かなりの数の記事があり、各社が生成AIに異なるプロンプトで書かせているので、答えは無数に出てきている。日本人にはわからない中国人にささる中国語ならではの使いまわしや表現がありそれぞれが長文なので翻訳文はここでは紹介しないが、興味があればこちらの記事（https://36kr.com/p/2809827496839681）などで自動翻訳をかけて読んでいただければと思う。

多くのAIが作り出した文章には以下のテーマで膨らませた内容が目立った。

好奇心を持ち、問いを持つこと疑問を持つことは、知恵やイノベーションの源泉である
情報は手軽になり情報過多になる、その中でどう選別し区別するか
テクノロジーや時代の変化にともない新たな問題も出てくる。インターネットやAIでもセキュリティやプライバシーや道徳などの問題に直面してしまう

ちなみに筆者がBingのCopilotとChatGPTでこの問題文を入れたところ、1番目の「好奇心を持ち～」がなく、2番目と3番目についての内容を膨らませて書いている。いずれも文章としては問題なく論理展開もおかしくはないが、感想や個性はなく淡々としていてそこが減点対象ではあるが、いずれも合格点だった。

大ヒットSF小説「三体」80万字をわずか数秒で要約！中国の大規模言語モデル、超長文処理の時代へ

他の教科はさておき、これだけ作文がよくできると現役の国語教師にとっては脅威となろう。実際各メディアがAIで作文をした結果に、作文の教育はどうすればいいのかという議論が出ている。多くの記事での論点はこうだ。AIは作文の採点で単語、文章や論理的表現で間違いがないかを修正することができるので、教師の負担を軽減するツールとしては役に立つ。しかし先に書いた通り、AIによって生成された記事は論理的であるように見えるが、そのほとんどは従来の文章の組み合わせであり、実際には個々の感情や体験や表現といった「個性」が抜けている。他者とコミュニケーションをとる際に本当の感情を表現し、自分の考えや個性を際立たせることが大事だと学習指導要領にもあり、その点でAIはまだまだ力不足であり、AIが教師に代わることはない、というものだ。

来年の高考でも生成AIがベンチマークされることだろう。合格点には達するが機械的で味気なく数学に弱い、これがどれだけ変わっていくか。