腾讯混元世界模型1.5发布:支持实时交互生成,开源全链路训练体系
12月17日,腾讯正式发布混元世界模型1.5,该模型在实时交互生成、长范围三维一致性等能力上实现重要突破,并首次开源业界覆盖数据、训练、推理部署全链路的实时世界模型框架。这一进展被视为腾讯在AI生成与模拟三维世界领域的重要推进。
混元世界模型1.5具备三大核心能力:支持以每秒24帧的流式速度生成720P高清视频;通过重构记忆机制实现分钟级内容的几何一致性,从而保持用户在探索虚拟世界时场景结构前后一致;兼容第一、第三人称视角,支持多样化场景风格,并允许实时文本触发事件与视频续写。
用户可以在生成的世界中自由移动探索,模型能够“记住”已访问区域的三维结构,实现空间记忆。同时,用户还可将交互场景导出为3D点云文件,便于后续复用与编辑。这一系列能力为游戏开发、影视预演、具身智能研究等场景提供了全新的内容生成与模拟工具。
在技术层面,腾讯此次开源了完整的训练体系,涵盖预训练、持续训练、自回归视频模型强化学习及带记忆的模型蒸馏等环节。模型基于自回归扩散架构,通过双分支动作表征、上下文记忆重构以及上下文对齐蒸馏等技术,在控制精度与生成一致性上实现优化。同时,团队构建了基于3D奖励的强化学习后训练框架,进一步提升了生成内容的视觉质量与结构稳定性。
腾讯混元团队此前已在3D生成领域持续布局,今年7月发布支持文本或图片生成3D场景的1.0版本,10月推出可从多视图或视频生成3D世界的1.1版本。1.5版本的推出,标志着其在实现实时、交互式、高一致性的“世界建模”方面迈出关键一步。