ロボット学習の「データ不足」に挑む——Noitom、年45万時間のデータ「ModalityNet」をグローバルに公開

ヒューマノイドや身体性AI(エンボディドAI)向けデータ企業の諾亦騰機器人(Noitom Robotics)はこのほど、グローバル市場に向けたデータプラットフォーム「ModalityNet」をリリースした。

見る、触るなどさまざまな感覚情報を含む「人間中心(Human-centric)」なすべてのモダリティーデータが盛り込まれた「HiPHI-MOV」「HiPHI-OM」「ITW」の3つのデータセットを初公開した。年間の生産能力は合計45万時間規模に達する見込みで、ロボット本体メーカーやAIモデル開発チーム、研究機関に学習用データを提供する。

「新しいロボットが出るたび、学習し直し」の絶望を終わらせる。Noitom Robotics「人間起点のデータ活用」とは

同社によれば、言語と知識を学ぶ大規模言語モデル(LLM)とは異なり、身体性AIが学ぶのは人間と物理世界(フィジカルワールド)との相互作用の経験であり、動作・視覚・力覚/触覚・深度・物体の状態・空間構造など複数のモダリティーを束ねたデータが欠かせない。だが業界では、整合性のとれた高品質なデータセットが長く不足してきた。

3つのデータセットは役割が異なる。「HiPHI-MOV」はロボットの移動・移動操作(loco-manipulation)向けで、高精度の全身動作や手の姿勢、操作対象物の形状データ(メッシュ)、ロボットが自分の目から見た映像を収容しており、年間10万時間のデータが得られるようになる見通しだ。

「HiPHI-OM」は精密な手作業操作向けで、手の触覚や自分の視点と俯瞰の視点の両方のRGB-D(色と距離を同時に記録した)データを加え、精度は誤差がほぼない、信頼できるデータ(グラウンドトゥルース・真値)の水準に達するとし、年間5万時間規模をめざす。

「ITW(In-The-Wild)」は実際の生活環境 での自然な人間行動のデータを集め、日常の中でめったに起きないような多様な動作データも取り込むことで、AIがどんな新しい状況にも対応できるようにすることを目指しており、、年間30万時間と最大規模のデータを集める方向だ。

Noitomはモーションキャプチャー技術で知られる。社名は英語の「Motion」を逆さに綴ったもので、センサーで動きを感知する慣性式モーションキャプチャー「Perception Neuron」シリーズは映像制作やバーチャルアイドル、人間の動きを解析する生体力学などの分野へと利用が広がった。人体の動きを高精度に捉えるデータを蓄積しており、ModalityNet が高品質な人間データを量産できる技術的な土台となっている。

ヒューマノイド量産の鍵は「データ」、モーションキャプチャー世界首位・Noitomの次の一手

創業者兼CEOの戴若犁博士は「業界が必要としているのは単なるデータではなく、信頼できるデータインフラだ」と述べた。データの収集・測定機器のズレを正す 「キャリブレーション 」・品質検査(QC)・人間の動きを異なる形のロボットに当てはめる変換作業 である「クロスエンボディメント・マッピング(Cross-Embodiment Mapping)」といった一連の工程を経て「人間と外部の世界の相互作用」を表すデータを量産・評価・再利用できるようにすることが目標だとしている。

ModalityNetの公開は、ロボット分野の最高峰の国際会議であるICRA 2026(6月1〜4日、オーストリア・ウィーン)の開催期間中に行われた。会場でModalityNetのデータフレームワークを展示するとともに、新たなマルチモーダルデータ収集端末ソリューションを初披露した。

(36Kr Japan編集部)

日本企業のDXを促進するプラットフォーム「CONNECTO」
無料コンテンツ公開中

最新記事