美团开源视频生成模型LongCat-Video,实现分钟级长视频生成
10月27日,美团LongCat团队正式发布并开源了其最新研发的LongCat-Video视频生成模型。这一突破性技术不仅在文生视频、图生视频等基础任务上达到了开源领域的先进水平,更通过创新的视频续写能力,实现了分钟级长视频的连贯生成,为构建下一代“世界模型”提供了重要技术支撑。
作为基于Diffusion Transformer架构的多功能统一视频生成基座,LongCat-Video通过独特的“条件帧数量”设计,实现了三大核心任务的统一处理:无需条件帧即可完成文生视频,输入单帧参考图实现图生视频,依托多帧前序内容进行视频续写。这种一体化架构避免了传统方案中需要多个模型适配的复杂性,形成了完整的任务闭环。
在具体能力方面,该模型展现出卓越的性能。文生视频功能可生成720p、30fps的高清视频,能够精准解析文本中描述的物体、人物、场景和风格等细节;图生视频则严格保留参考图像的主体属性与整体风格,确保动态过程符合物理规律;而视频续写作为其核心差异化能力,为生成长达5分钟的连贯视频提供了原生技术支持。
业界普遍认为,视频生成模型是构建“世界模型”的关键路径。通过视频生成任务,人工智能能够压缩几何、语义、物理等多种形式的知识,从而在数字空间中模拟真实世界的运行规律。LongCat-Video在这一领域的突破,特别是在保障跨帧时序一致性与物理运动合理性方面的优势,使其在长视频生成领域占据领先地位。