AIが生成したデータでAIを訓練　中国企業、自動運転やロボット業界に照準

公開日：2023.08.29

人工知能（AI）トレーニング用の合成データソリューションを手がけるスタートアップ企業の「光輪智能（北京）科技」はこのほど、エンジェルラウンドのエクステンションラウンドで資金を調達した。今年設立されたばかりの同社はシードラウンド、エンジェルラウンド、エクステンションラウンドの3度にわたる資金調達を終え、累計で数千万元（数億～十数億円）を調達した。

同社はAI活用を目指す企業に合成データのソリューションを提供している。生成AIとシミュレーションの技術を組み合わせて物理法則に沿った汎化可能な3D合成データを提供し、自動運転技術などの開発における実世界データの利用率の低さ、アノテーション（データへのタグ付け）コストの高さ、コーナーケース（Corner Case）の不足といった問題の解決を図る。すでに複数の自動運転およびロボット開発企業がサービスを利用し始めている。

創業者兼CEOの謝晨博士はシミュレーション分野の第一人者で、半導体大手のNVIDIA（エヌビディア）、自動運転技術開発のCruise（クルーズ）、電気自動車（EV）メーカーの蔚来汽車（NIO）などで自動運転シミュレーション部門の責任者を務めてきた。合成データ開発に関する豊富な経験を有し、世界で初めてシミュレーションに生成AIを取り入れたことで知られる。

AIにとってデータはいわば燃料だ。深層学習では情報タグを付与された大量データを通じてさまざまなパターンとルールを学習するため、AIモデルの信頼性を高めるには完全で良質な訓練データが大量に必要となる。いま注目を集めている大規模言語モデル「GPT」は、データとパラメータを増やすことによって進化を遂げている。

ベルギーの半導体研究機関imecが主催する年次イベント「ITF World 2023」でNVIDIAのジェンスン・フアンCEOは、次のAI業界トレンドが「Embodied AI（具現化AI ）」になるとの見方を示した。これはロボットや自動運転車などが実世界を理解、推論し、相互に作用し合えるインテリジェント・システムを指す。このような最新のAI開発には大量の高品質な3Dデータを要する。

しかし、大規模なデータ取得には膨大な時間がかかる。

これまで自動運転やロボットなどをめぐるデータ収集とアノテーションは手作業に頼ってきたため、コストが高く、品質を確保するのが難しい。また、実世界のデータは車種やプラットフォームが異なると利用しづらいため、利用率は低く、保存コストばかりがかさむ。さらに自動運転の分野ではごくまれにしか起きない特殊なケースを網羅するのも大変だ。こうした理由から自動運転のデータ取得はかなりの長期戦となる。

長期的に見ると、良質な実世界のデータはますます希少になるだろう。

現在のアルゴリズムがすでに大量のデータを「食べ尽くして」おり、自然なデータの蓄積ではAIモデルのニーズを満たすのが難しくなるという研究もある。マサチューセッツ工科大学などが共同で発表した論文では、2026年までに大規模言語モデル（LLM）の学習に必要なデータが使い尽くされ、良質なデータが枯渇すると予測しており、自動運転やロボットの開発に必要とされる正確な3Dデータの取得はますます困難になるとみている。

このデータ枯渇問題の大部分を解決すると期待されているのが合成データだ。名前の通り、生成AIとシミュレーションを通じて少量の実世界データをもとに生成される。その特長はデータ収集コストの低さ、自動アノテーション、プラットフォーム間の汎用性などで、必要に応じてリスクが潜むケースやエッジケースを作ることもできる。

自動運転分野ではテスラ、Waymo、クルーズ、NVIDIAがさまざまなかたちで合成データ事業に関わっている。

謝CEOは、業界で一般的なシミュレーションベースの合成データでは、良質なデータを要するAIモデルのニーズを満たすことができないと説明した。シミュレーションに生成AIを組み合わせれば、少量の実世界データを元にデータ量を拡大し、独自開発の「エンドツーエンド・オーセンティック評価・アルゴリズム」を介してデータの品質と性能を確保することで、情報量の多い訓練に適したデータを生成できる。

「生成AI技術はこの1年で急速に発展し、正確性、汎用性、品質が大幅に向上した。生成AIとシミュレーションの組み合わせによって、当社は顧客のデータをもとに自動車百万台規模のデータ量を顧客へ提供することができる」。謝CEOによると、これにかかるコストは実世界のデータの10分の1にとどまるという。

ChatGPTの開発元OpenAIを創業したサム・アルトマン氏は「合成データは大規模言語モデルのデータ不足に対する最も効果的な解決策になる」との考えを示している。光輪智能は、これまで人間主導だったデータの取り扱いをAI主導に置き換えて業界の構造改革を進め「データ業界のNVIDIA」を目指す。

（翻訳・大谷晶洋）

原文はこちら