腾讯混元世界模型1.5发布:支持实时交互生成,开源全链路训练体系

2025-12-17 19:53:06   |   棠糖   |   1537

12月17日,腾讯正式发布混元世界模型1.5,该模型在实时交互生成、长范围三维一致性等能力上实现重要突破,并首次开源业界覆盖数据、训练、推理部署全链路的实时世界模型框架。这一进展被视为腾讯在AI生成与模拟三维世界领域的重要推进。

混元世界模型1.5具备三大核心能力:支持以每秒24帧的流式速度生成720P高清视频;通过重构记忆机制实现分钟级内容的几何一致性,从而保持用户在探索虚拟世界时场景结构前后一致;兼容第一、第三人称视角,支持多样化场景风格,并允许实时文本触发事件与视频续写。

用户可以在生成的世界中自由移动探索,模型能够“记住”已访问区域的三维结构,实现空间记忆。同时,用户还可将交互场景导出为3D点云文件,便于后续复用与编辑。这一系列能力为游戏开发、影视预演、具身智能研究等场景提供了全新的内容生成与模拟工具。

在技术层面,腾讯此次开源了完整的训练体系,涵盖预训练、持续训练、自回归视频模型强化学习及带记忆的模型蒸馏等环节。模型基于自回归扩散架构,通过双分支动作表征、上下文记忆重构以及上下文对齐蒸馏等技术,在控制精度与生成一致性上实现优化。同时,团队构建了基于3D奖励的强化学习后训练框架,进一步提升了生成内容的视觉质量与结构稳定性。

腾讯混元团队此前已在3D生成领域持续布局,今年7月发布支持文本或图片生成3D场景的1.0版本,10月推出可从多视图或视频生成3D世界的1.1版本。1.5版本的推出,标志着其在实现实时、交互式、高一致性的“世界建模”方面迈出关键一步。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

腾讯混元世界模型1.5发布:支持实时交互生成,开源全链路训练体系

2025-12-17 19:53:06 浏览量: 1537 作者: 棠糖

12月17日,腾讯正式发布混元世界模型1.5,该模型在实时交互生成、长范围三维一致性等能力上实现重要突破,并首次开源业界覆盖数据、训练、推理部署全链路的实时世界模型框架。这一进展被视为腾讯在AI生成与模拟三维世界领域的重要推进。

混元世界模型1.5具备三大核心能力:支持以每秒24帧的流式速度生成720P高清视频;通过重构记忆机制实现分钟级内容的几何一致性,从而保持用户在探索虚拟世界时场景结构前后一致;兼容第一、第三人称视角,支持多样化场景风格,并允许实时文本触发事件与视频续写。

用户可以在生成的世界中自由移动探索,模型能够“记住”已访问区域的三维结构,实现空间记忆。同时,用户还可将交互场景导出为3D点云文件,便于后续复用与编辑。这一系列能力为游戏开发、影视预演、具身智能研究等场景提供了全新的内容生成与模拟工具。

在技术层面,腾讯此次开源了完整的训练体系,涵盖预训练、持续训练、自回归视频模型强化学习及带记忆的模型蒸馏等环节。模型基于自回归扩散架构,通过双分支动作表征、上下文记忆重构以及上下文对齐蒸馏等技术,在控制精度与生成一致性上实现优化。同时,团队构建了基于3D奖励的强化学习后训练框架,进一步提升了生成内容的视觉质量与结构稳定性。

腾讯混元团队此前已在3D生成领域持续布局,今年7月发布支持文本或图片生成3D场景的1.0版本,10月推出可从多视图或视频生成3D世界的1.1版本。1.5版本的推出,标志着其在实现实时、交互式、高一致性的“世界建模”方面迈出关键一步。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号