ロボットの知能は「データの質」で決まる。中国ロボット4社、データ企業に共同出資
フィジカルAIのうち、人型ロボットに代表されるエンボディドAI(Embodied AI)が盛り上がっている現在、業界はある隠れた「供給危機」に直面している。一方では膨大なモデルの訓練が求められているが、他方では、世の中にデータは大量にあるものの整理されていない。いわば、機械がそのまま理解できない「データのゴミ」が存在している。
国のスタートアップ企業「智域基石(Zhiyu Cornerstone)」はこのほど、エンジェルラウンドで数千万元規模(数十億円超) を調達したと発表した。投資家には、「万能な手」の実現に挑む「霊初智能(PsiBot)」、エンボディドAIの「脳」を創る「穹徹智能(Noematrix)」、産学連携で社会実装を加速する「浙江人形機器人創新中心(Zhejiang Humanoid Robot Innovation Center)」、人型ロボット「智平方(AI2 Robotics)」が名を連ねる。4社のロボット企業が足並みを揃えて同じデータ企業へ投資したことは、業界全体の「共通認識」を鮮明に示している。ロボット知能のボトルネックは、AIモデルでも計算能力でもなく、「データの質」にあるということだ。
そして智域基石の核心的な使命は、混沌とした物理世界の膨大なデータを、ロボットのタスク成功率を直接高められる高品質な学習素材へと「最適化(コンパイル)」することである。
「人海戦術の収集」から「自動化コンパイル」へ
智域基石の強みは、異分野のエキスパートが集結したチームにある。楊哲軒CEO:著名分散システム企業 PingCAP 出身。基盤アーキテクチャと商業化に精通。
徐良威CTO:テンセントおよび 小鵬機器人(XPENG Robotics)出身。ソフトとハードを融合した実戦経験者。
張計業COO:ファーウェイおよび穹徹智能(Noematrix)での経験を持つ。
アルゴリズム・・ハードウエア・大規模エンジニアリングの三領域をよく理解するこのチームが、ビッグデータ業界の技術アーキテクチャをフィジカルAI分野に持ち込むという同社の野心を支えている。
現在、智域基石は中国全土で、総面積1万平方メートル(㎡)超えの実機データ収集工場を建設する計画を進めている。工場内には、ロボット400台超、異種ハードウエア形態10種類超を備える予定である。2026年内には、200PB(ペタバイト)超の異種データ蓄積を見込んでいる。
今年4~6月期には、智域基石は実機データ生産から全面的に Ego-Centric(第一人称視点)領域へ拡張する。
モデルの事後学習および事前学習におけるデータ入口を掌握し、データコンパイル層を通じて、生データを高品質なコーパスへ加工し、そのままモデル訓練入力として利用可能にする。
楊CEOは「人海戦術型のデータ収集工場は参入障壁にならない。真の障壁は自動加工能力にある」と強調した。
同社はフルプロセスのデータコンパイルパイプラインを構築している。
① データ品質検査
従来、膨大なデータに対し他社の多くは抜き取り検査を採用しており、その結果、最大95%もの無効ノイズが訓練データセットへ混入していた。同社は分散計算と弾性スケーリング構造を導入し、ロボットが収集した映像、深度情報、関節姿勢、力・触覚などのマルチモーダルデータを全量検査し、無効な「データ膨張」を源流で直接排除する。
② データ基盤の再構築
現実世界の物理データは本来的に、高エントロピー、多ソース異種混在、サンプリング周波数の著しい非同期性 (例:映像30Hz、関節制御500Hz)という特徴を持つ。同社は成熟した データレイクハウス(Data Lakehouse) アーキテクチャをいち早く導入し、フィジカルAIの専用基盤として深く改造した。これにより、超大規模非構造化データの統一管理、映像、深度、力覚、触覚、関節姿勢など複雑な次元情報のミリ秒級の高精度な時空間タイムスタンプ同期を実現している。

データパイプライン構成図
③ データコンパイルと検索
システムは非標準データを「技能の細分化」をし、意図を伴う意味の断片を抽出する。顧客はデータベースを操作する言語のSQLに似たコード命令を入力するだけでよい。
例えば、「キッチンでコップを取る動作、かつ成功率95%超のデータを呼び出す」といった具体的な条件指定ができる。
そうすると高速に検索・再構成され、そのまま利用可能な標準データセットが生成される。
楊CEOは、2026年がフィジカルAIが商業化への壁を乗り越える重要な節目になると予測している。その時にはデータ総量は数十倍に増加し、数千万時間規模 に達する見込みである。もしデータ総量の問題が緩和された後も、大規模モデルの現実環境での汎化能力に突破がなければ、業界は厳しい試練に直面することになる。
智域基石は自らを、その時代の 「コンパイラ」 と位置づけている。技術革新によってデータ生成プロセスを人間の手作業から切り離し、フィジカルAI時代の真のデータインフラ建設者となることを目指している。

(36Kr Japan編集部)