宇树开源机器人操作大模型UnifoLM-VLA-0,让机器“看懂并动手”
1月29日,机器人公司宇树正式宣布开源其最新研发的UnifoLM-VLA-0大模型。该模型隶属于UnifoLM系列,是一款专门面向通用人形机器人操作的视觉‑语言‑动作(VLA)大模型,旨在突破传统视觉语言模型在物理交互中的局限,推动人工智能从“图文理解”向具备物理常识的“具身智能”迈进。
传统视觉语言模型虽然能“看懂”图像和文字,但在需要实际动手操作的机器人任务中往往力不从心。UnifoLM-VLA-0通过在海量机器人操作数据上进行“继续预训练”,让模型不仅理解指令和场景,更深度掌握物体操控、空间推理和动作规划能力,实现从“认知”到“执行”的关键跨越。
为提升模型对操作任务的理解与执行精度,宇树构建了覆盖机器人与通用场景的多任务数据集。该数据集不仅包含2D检测、分割等基础视觉任务,还整合了任务层级分解、3D目标检测、空间位置推理以及轨迹预测等多维度数据,有效增强了模型对几何空间与语义信息的对齐能力。
针对机器人操作这一核心目标,研发团队对开源数据集进行了系统性清洗,最终仅使用约340小时的真实机器人操作数据,训练模型预测离散动作。在此基础上,模型集成了动作分块预测机制,并结合前向与逆向动力学约束,实现对复杂动作序列的统一建模。这使得模型能够深入理解机器人与物体之间的物理交互规律,并支持长时序的动作规划与自主决策。
经过上述持续预训练,最终获得的UnifoLM-VLM-0在多类任务场景中展现出显著增强的空间推理能力与可靠的多模态感知性能。在真机验证中,仅凭单一策略即可高质量完成涵盖抓取、放置、堆叠、开关等在内的12类复杂操作任务,显示出优秀的任务泛化能力。