字节跳动推出通用AI智能体Lumine,可在《原神》等游戏中自主完成数小时任务
11月17日,据报道,字节跳动Seed团队宣布推出通用AI智能体Lumine,该智能体在热门游戏《原神》世界中接受训练,能够实时感知、思考并行动,自主完成复杂3D开放世界中长达数小时的任务。这一突破标志着AI在理解与交互复杂虚拟环境方面取得了重要进展。
在测试中,Lumine展现出了令人印象深刻的任务执行能力。在《原神》蒙德地区,它成功完成了时长五小时、共三幕的主线剧情。值得注意的是,虽然其推理训练仅基于第一幕内容,但它仍能自主推进并完整通关整个章节。
更令人惊讶的是,在完全未经训练的璃月区域,Lumine同样表现出色,不仅成功抵达并完成璃月港主线任务,甚至还拜访了深山中的仙人居所,显示出强大的环境适应与泛化能力。
Lumine的能力并不局限于《原神》。在没有进行任何额外微调或修改的情况下,它成功在《崩坏:星穹铁道》中通关黑塔空间站第一章全部主线任务(约7小时),并在《鸣潮》中完成约100分钟的主线剧情。这种跨游戏泛化能力为其作为通用AI智能体的应用前景提供了有力证明。
Lumine采用类人交互范式,将感知、思考与行动端到端统一整合,基于视觉-语言模型驱动。它以5Hz频率处理原始图像,并以30Hz生成精确的键鼠操作,仅在必要时进行思考,实现了高效的任务处理。
该智能体的训练遵循渐进式学习路径:首先使用1731小时的人类游戏数据预训练,学会根据游戏画面输出键鼠操作;然后用200小时的指令跟随数据,将语言和操作对应;最后用15小时的推理数据,让模型具备灵活思考能力。
在《原神》丰富多样的游戏环境中,Lumine展现了全面的游戏能力:它能够动态追踪敌人、精准地用弓箭击中远处目标,流畅地切换角色进行连招攻击;对Boss机制有较强的理解和应对能力,能够躲避攻击并使用对应策略击败Boss;能够应对各种挑战与解谜,展现出出色的空间感知能力和精确的底层操作控制。
此外,Lumine还实现了2D界面和3D世界的统一操作,能够像人类一样通过鼠标相对移动进行可靠的GUI操作,这对于通用智能体来说至关重要。同时,它展现出强大的上下文学习能力,当指令中提供任务的先验信息或更细的分解步骤时,可以完成一系列之前无法完成的复杂任务。