小米开源Xiaomi OneVL:一步式潜空间语言视觉推理框架,统一VLA与世界模型

2026-05-14 16:18:44   |   棠糖   |   1251

5月13日,小米技术今日正式发布并开源Xiaomi OneVL一步式潜空间语言视觉推理框架。官方表示,该模型在业内率先实现VLA、世界模型、潜空间推理等多个技术路线的统一,在具备XLA模型强悍推理能力的基础上,大幅提升了推理速度和精度,是行业内具有开创性的方案,在精度上超越显式CoT,在速度上对齐“仅答案”预测的潜空间CoT方案。

过去,VLA和世界模型是自动驾驶领域两条相对独立的技术路线:VLA专注于理解场景并输出驾驶动作,世界模型专注于预测未来场景的演变。Xiaomi OneVL通过潜空间推理,首次将两者统一到同一套框架中。在涵盖感知、推理与规划的多个主流基准上,Xiaomi OneVL全面刷新了潜在推理方法的性能上限,在ROADWork、Impromptu、Alpamayo-R1三项基准上均达到SOTA,在NAVSIM上取得优越性能。

同时,Xiaomi OneVL能为模型决策提供语言和视觉双维度的可解释性——既能用文字说明“为什么这样开”,也能用预测画面展示“接下来会发生什么”。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

小米开源Xiaomi OneVL:一步式潜空间语言视觉推理框架,统一VLA与世界模型

2026-05-14 16:18:44 浏览量: 1251 作者: 棠糖

5月13日,小米技术今日正式发布并开源Xiaomi OneVL一步式潜空间语言视觉推理框架。官方表示,该模型在业内率先实现VLA、世界模型、潜空间推理等多个技术路线的统一,在具备XLA模型强悍推理能力的基础上,大幅提升了推理速度和精度,是行业内具有开创性的方案,在精度上超越显式CoT,在速度上对齐“仅答案”预测的潜空间CoT方案。

过去,VLA和世界模型是自动驾驶领域两条相对独立的技术路线:VLA专注于理解场景并输出驾驶动作,世界模型专注于预测未来场景的演变。Xiaomi OneVL通过潜空间推理,首次将两者统一到同一套框架中。在涵盖感知、推理与规划的多个主流基准上,Xiaomi OneVL全面刷新了潜在推理方法的性能上限,在ROADWork、Impromptu、Alpamayo-R1三项基准上均达到SOTA,在NAVSIM上取得优越性能。

同时,Xiaomi OneVL能为模型决策提供语言和视觉双维度的可解释性——既能用文字说明“为什么这样开”,也能用预测画面展示“接下来会发生什么”。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号