NeurIPSマルチエージェント強化学習コンペでの受賞の背後に、「啓元世界」あり

2019年4月15日03417

セミナー情報や最新業界レポートを無料でお届け

メールマガジンに登録

2018年12月に開催されたAI系トップカンファレンス「NeuroIPS（ニューラル情報処理システム年次会議）」で、グーグル・ブレインやフェイスブック、オックスフォード大学およびニューヨーク大学の共催によるゲーム形式のAIコンペ「Pommerman Competition」が行われた。同大会では”AIの意思決定技術を開発する「啓元世界（inspir.ai）」の彭鵬博士、中国科学院の龐亮博士、北京師範大学の袁鈺峰氏で構成されたチームが、世界のトップクラスが揃った24チームと戦いを繰り広げた。その結果、「啓元意思決定AIプラットフォーム」で訓練されたデュアルエージェント「Navocado」が機能の着実な向上を見せ、ラーニング部門のチャンピオンに輝いた。

昨年4月、北京大学主催の第42回「ACM-ICPC（国際大学対抗プログラミングコンテスト）世界大会」で、啓元世界はゲームタイトル「スタークラフト2」をベースとしたマンマシンコラボレーションの競技結果について発表した。 2日間かけて540戦の有効なデータを分析したところ、1人の挑戦者と１つのAIエージェントで構成されたマンマシンコラボレーションチームが、2つのAIエージェントで構成されたマシンチームよりも優位性を示したという。さらに重要な点として、人とAIによるチームは、移動位置における連係や東西に分かれての並走、対戦相手に対するタイムリーな妨害、凍結など、多数のコンビプレーでいかんなく実力を発揮したとのことだ。

啓元世界の共同創業者でCTOの龍海涛氏は、次のように語っている。「我々の目標は、高度で自主的なAIエージェントを開発することであり、複雑かつ流動的で不確実な状況を認識して、信頼できる決定を下すことを可能にし、さらに自然なマンマシンインタラクティブシステムを実現することだ。 2016年、我々はスタークラフトなどのさまざまなゲームを用いてエージェントの訓練を開始したが、ゲームは認知的意思決定関連技術の研究と検証に最適な環境だと信じている。その理由は、まずトレーニングの反復速度が速いため、データの継続的な生成が可能なことであり、さらにトレーニングの過程や結果を観察して、感触をつかむことができることだ」。

意思決定アルゴリズムの研究に際し、、スタークラフトを実践のプラットフォームに選んだこと関しては、以下の点から理解できる。

•情報が不確かな環境のゲーム。囲碁や将棋は情報がオープンだ。しかし、スタークラフトは情報が不確かな条件下でのゲームであり、対戦相手の重要な情報は何もないため、偵察などの手段により対戦相手を把握する必要がある。

•決定を実行に移すための選択肢がが膨大。スタークラフトでは一つの決定を下すたびに、何百もの指令、何百ものユニットと建造物などから合理的な動作を選択する必要がある。決定を実行に移す選択肢は10の26乗通りに達している。

•長期的な計画能力。ゲームは1時間続くこともあるプレイ時間中、何千もの決定を下す必要があり、決定を下すたびに長期的な影響を考慮する必要があるため、偵察で得られた情報に従ってフレキシブルに調整する必要がある。これは人工知能にとって非常に大きな挑戦だ。

啓元世界の創業者でCEOの袁泉氏は、「我々が開発するエージェントが完成した暁には、いかなる制限もなくベテランゲーマーとフィールドで戦いを繰り広げられることだろう。これらの核心的な
技術的課題の解決は、意思決定に携わるAIの応用を大いに促進し、より多くの産業に力を与える」と語った。

2017年8月の設立以来、啓元世界チームは、互換性を備えた意思決定のAIプラットフォーム製品の製作に注力し、多様なビジネスシーンにまたがって業界のソリューションを提供してきた。「多くの人々が強化学習の不要論を語り、トレーニングも不安定だった頃に、我々はこのプラットフォーム製品に磨きをかけ続け、エージェントの安定した学習を維持することができていた。今回のNeurIPSでの受賞も含めて、すでにこの開発から益を得ている」と袁泉氏は語った。

啓元世界チームは、意思決定関連のAIプラットフォーム製品をロボット、セキュリティ、およびユビキタス・ネットワークに段階的に応用しており、これまで約10社のクライアントにサービスを提供してきた。2019年はさらに多くの業界で質の高いソリューションを提供していく。