36Kr Japanで提供している記事以外に、スタートアップ企業や中国ビジネスのトレンドに関するニュース、レポート記事、企業データベースなど、有料コンテンツサービス「CONNECTO(コネクト)」を会員限定にお届けします。無料会員向けに公開している内容もあるので、ぜひご登録ください。
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録
中国VC「創新工場(Sinovation Ventures)」の会長兼CEOの李開復(カイフー・リー)氏が立ち上げたAIスタートアップ「零一万物(01.AI)」がこのほど、英中二カ国語に対応したオープンソースの大規模言語モデル(LLM)「Yi」を公開した。すでにアリババクラウド(阿里雲)主導の新たな資金調達を終えたことも、関係者の話で明らかになった。現時点の評価額は10億ドル(約1500億円)を超え、ユニコーン企業入りを果たしている。
零一万物の創業者である李氏は、中国のAI研究をリードする人物だ。これまでマイクロソフトのグローバル副総裁や、Google Chinaの社長などを歴任し、2009年にエンジェル投資とスタートアップ支援を行う創新工場を設立した。
11月2日、パラメーター数60億の「Yi-6B」と340億の「Yi-34B」という2種類のLLMが、AI開発プラットフォーム「Hugging Face」上にアップされた。11月5日時点で、Yi-34BはHugging Faceと中国語LLMの評価プラットフォーム「C-Eval」のランキングで1位を獲得している。
LLMが一度に処理できるテキスト量を示す「コンテキストウィンドウ」は、LLMの「記憶力」を測る指標となる。Yiは現時点では世界最長のコンテキストウィンドウを持つLLMで、20万トークンに対応し、漢字約40万字の入力が可能となっている。
李氏の説明によると、米政府の半導体輸出規制の影響で、LLMの処理や推論に必要な高性能GPU(画像処理装置)が不足しているため、Yi-6Bからさらにパラメーター数を増やす際、必要な規模を見極めてリソースを節約する必要があったという。同社はAIインフラをブラッシュアップすることで、Yi-34Bの訓練コストを40%削減することに成功した。李氏は「他社が2000枚のGPUを必要とするケースでも、当社なら1200枚で事足りる」と胸を張る。
訓練データは主に、公開されているコーパスのクローリングやデータベースが元になっている。李氏によると、訓練データの難点は重複が多く、品質が低いことだという。開発チームはデータの選別とクレンジングを行い、100テラ以上のデータの中から3テラをふるい分けた。中国語コーパスは質が低いため、訓練データの半分以上を英語のコーパスが占めている。
Yiの性能については、米メタ社のオープンソースLLM「Llama2」の性能評価で使用された複数のデータセットを参照し、「常識的推論」「読解力」「数学・コーティング能力」など多方面にわたって評価を行った。
その結果、Yi-6Bは数学・コーディング能力がいくらか弱かったものの、常識的推論と読解力は国内外のオープンソースモデルの平均値を上回った。Yi-34Bは常識的推論と読解力で国内外のオープンソースモデルを大きく上回り、数学・コーディング能力でもトップクラスの性能を示した。
すでに公開されているLLMのパラメーター数は多くが70億や130億だが、零一万物は60億と340億の2種類を採用した。340億というパラメーター数はオープンソースLLMの「黄金比」だと李氏は考える。高い精度を保ちながら効率的な推理処理が実行でき、訓練コストも抑えられるからだ。
李氏は、大規模言語モデルに象徴される「AI 2.0時代」において、最大のビジネスチャンスは消費者向けのスーパーアプリにあると語る。驚異的なユーザー数を誇るSNSアプリ微信(WeChat)やショート動画プラットフォームの抖音(TikTok)も、最初のバージョンからスーパーアプリだったわけではなく、ユーザーのニーズを的確に捉えたからこそスーパーアプリへと進化できたと指摘する。AI 2.0時代に、微信や抖音に比肩する消費者向けスーパープロダクトを生み出すこと、これが零一万物の目標だ。
現在、零一万物は1000億パラメーターを超えるLLMの訓練に着手している。
*2023年11月17日のレート(1ドル=約151円)で計算しています。
(翻訳・畠中裕子)
36Kr Japanで提供している記事以外に、スタートアップ企業や中国ビジネスのトレンドに関するニュース、レポート記事、企業データベースなど、有料コンテンツサービス「CONNECTO(コネクト)」を会員限定にお届けします。無料会員向けに公開している内容もあるので、ぜひご登録ください。
原文はこちら
セミナー情報や最新業界レポートを無料でお届け
メールマガジンに登録