美团开源视频生成模型LongCat-Video，实现分钟级长视频生成

2025-10-27 11:19:01 | 嫣然 | 118

10月27日，美团LongCat团队正式发布并开源了其最新研发的LongCat-Video视频生成模型。这一突破性技术不仅在文生视频、图生视频等基础任务上达到了开源领域的先进水平，更通过创新的视频续写能力，实现了分钟级长视频的连贯生成，为构建下一代“世界模型”提供了重要技术支撑。

作为基于Diffusion Transformer架构的多功能统一视频生成基座，LongCat-Video通过独特的“条件帧数量”设计，实现了三大核心任务的统一处理：无需条件帧即可完成文生视频，输入单帧参考图实现图生视频，依托多帧前序内容进行视频续写。这种一体化架构避免了传统方案中需要多个模型适配的复杂性，形成了完整的任务闭环。

在具体能力方面，该模型展现出卓越的性能。文生视频功能可生成720p、30fps的高清视频，能够精准解析文本中描述的物体、人物、场景和风格等细节；图生视频则严格保留参考图像的主体属性与整体风格，确保动态过程符合物理规律；而视频续写作为其核心差异化能力，为生成长达5分钟的连贯视频提供了原生技术支持。

业界普遍认为，视频生成模型是构建“世界模型”的关键路径。通过视频生成任务，人工智能能够压缩几何、语义、物理等多种形式的知识，从而在数字空间中模拟真实世界的运行规律。LongCat-Video在这一领域的突破，特别是在保障跨帧时序一致性与物理运动合理性方面的优势，使其在长视频生成领域占据领先地位。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。