腾讯混元世界模型1.5发布：支持实时交互生成，开源全链路训练体系

2025-12-17 19:53:06 | 棠糖 | 1547

12月17日，腾讯正式发布混元世界模型1.5，该模型在实时交互生成、长范围三维一致性等能力上实现重要突破，并首次开源业界覆盖数据、训练、推理部署全链路的实时世界模型框架。这一进展被视为腾讯在AI生成与模拟三维世界领域的重要推进。

混元世界模型1.5具备三大核心能力：支持以每秒24帧的流式速度生成720P高清视频；通过重构记忆机制实现分钟级内容的几何一致性，从而保持用户在探索虚拟世界时场景结构前后一致；兼容第一、第三人称视角，支持多样化场景风格，并允许实时文本触发事件与视频续写。

用户可以在生成的世界中自由移动探索，模型能够“记住”已访问区域的三维结构，实现空间记忆。同时，用户还可将交互场景导出为3D点云文件，便于后续复用与编辑。这一系列能力为游戏开发、影视预演、具身智能研究等场景提供了全新的内容生成与模拟工具。

在技术层面，腾讯此次开源了完整的训练体系，涵盖预训练、持续训练、自回归视频模型强化学习及带记忆的模型蒸馏等环节。模型基于自回归扩散架构，通过双分支动作表征、上下文记忆重构以及上下文对齐蒸馏等技术，在控制精度与生成一致性上实现优化。同时，团队构建了基于3D奖励的强化学习后训练框架，进一步提升了生成内容的视觉质量与结构稳定性。

腾讯混元团队此前已在3D生成领域持续布局，今年7月发布支持文本或图片生成3D场景的1.0版本，10月推出可从多视图或视频生成3D世界的1.1版本。1.5版本的推出，标志着其在实现实时、交互式、高一致性的“世界建模”方面迈出关键一步。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。