英伟达发布 Alpamayo-R1 模型:为 L4 自动驾驶注入“常识”推理力
12 月 2 日, 在加利福尼亚州圣地亚哥举行的 NeurIPS 人工智能大会上,半导体巨头英伟达(NVIDIA)宣布推出一项旨在加速“具身智能”(Physical AI)发展的核心技术基础设施。具身智能被英伟达联合创始人兼首席执行官黄仁勋视为人工智能的下一波浪潮,其核心在于创造能够感知、理解并与现实世界互动的机器人和自动驾驶系统。
此次发布的核心是 Alpamayo-R1——一款面向自动驾驶研究的开源推理型视觉语言模型(Visual Language Action Model)。英伟达称,这是业界首个专注于自动驾驶领域的视觉语言动作模型。这类模型能够同时处理车辆周围的图像信息和文本指令,让车辆不仅能“看”到周围环境,还能基于这些感知内容进行逻辑推演并做出决策。
Alpamayo-R1 模型的推理能力,建立在英伟达此前发布的 Cosmos-Reason 推理模型基础之上。Cosmos 系列模型的一大特点是具备在响应前进行逻辑推演的能力,这种机制旨在赋予自动驾驶车辆类似人类的“常识”,使其能够更妥善、更安全地应对复杂的驾驶场景和细微的决策需求。英伟达强调,对于致力于实现 L4 级自动驾驶(在特定区域和限定条件下实现完全自动驾驶)的企业而言,Alpamayo-R1 这类技术至关重要。
为推动具身智能和自动驾驶技术的发展,英伟达选择了开放策略。目前,Alpamayo-R1 已在 GitHub 和 Hugging Face 平台全面开源发布,为全球的研究者和开发者提供了一个强大的研究工具。
此外,英伟达还同步在 GitHub 上推出了名为“Cosmos Cookbook”的完整开发资源包。这个资源包提供了详细的分步指南、推理工具以及训练后工作流,旨在帮助开发者更高效地针对自身应用场景使用和训练 Cosmos 系列模型。资源包内容涵盖了数据整理、合成数据生成和模型评估等多个关键环节,极大地降低了开发门槛。