智元机器人开源全球首个ViLLA架构通用具身智能模型GO-1
9月23日,智元机器人宣布正式在GitHub开源其通用具身基座大模型GO-1(Genie Operator-1),这是继今年1月开放AgiBot World百万真机数据集后,该公司在推动具身智能技术普及方面的又一重要举措。官方表示,GO-1是全球首个采用Vision-Language-Latent-Action(ViLLA)架构的通用具身智能模型,其开源将大幅降低行业技术门槛,加速智能机器人研发与应用落地。
GO-1模型通过引入隐式动作标记,有效弥合了图像-文本输入与机器人动作执行之间的语义差距。其三层架构整合了多模态理解、隐式规划与动作生成能力:基于InternVL-2B的视觉语言模型处理多视角图像、力觉及语言信息;隐式规划器预测高层次任务规划;扩散模型驱动的动作专家则生成高精度连续动作序列。
为支持开发者高效使用,智元机器人同步推出Genie Studio一站式开发平台,提供从数据采集、模型训练到真机部署的全流程工具链。尽管GO-1基于AgiBot G1机器人数据预训练,但已在松灵机器人、Franka机械臂等多类本体上验证具备良好可移植性。在Genie Sim与Libero等仿真平台测试中,模型性能均达到领先水平。
此次开源不仅包含模型代码与文档,还集成通用LeRobot数据格式,支持不同机器人本体的适配与二次开发。智元机器人希望通过社区共建推动具身智能生态发展,为AI研究者与开发者提供高效、开放的技术基础。