字节Seed智能体模型UI-TARS-1.5开源

2025-04-18 11:44:28 | 微观猎人 | 1527

4月18日，据报道，豆包大模型团队宣布UI-TARS-1.5 正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。

据介绍，UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS，通过强化学习进一步增强了模型的高阶推理能力，使模型能够在“行动”前先进行“思考”。

该版本的模型中，团队还展示了一个新的愿景：以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比，游戏更多依赖直观的、常识性的推理，并较少依赖专业知识，因此，游戏通常是评估和提升未来模型通用能力的理想测试场景。

据介绍，UI-TARS 是一个原生 GUI 智能体，具备真实操作电脑和手机系统的能力，同时，还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作，基于团队在四个维度的技术探索：

视觉感知增强：依托大规模界面截图数据，模型可理解元素的语义与上下文，形成精准描述。

System 2 推理机制：在动作前生成“思维（thought）”，支持复杂任务的多步规划与决策。

统一动作建模：构建跨平台标准动作空间，通过真实轨迹学习提升动作可控性与执行精度。

可自我演化的训练范式：通过自动化的交互轨迹采集与反思式训练，模型持续从错误中改进，适应复杂环境变化。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。