可灵 AI O1 模型全量上线:全球首个统一多模态视频模型
12 月 2 日,据报道,可灵 AI 今晚通过官方公众号宣布,全球首个统一多模态视频模型——可灵视频 O1 模型已正式全量上线,标志着视频生成技术迈入了“统一底座”的新时代。
据官方介绍,可灵 O1 模型构建了全新的生成式底座,其核心目标是“打破功能割裂”的传统模式。模型引入了创新的 MVL(多模态视觉语言)交互架构,允许用户在单一的输入框内,无缝融合处理视频、图像和文本等多种模态的任务。
这一统一模型的深层语义理解力使其具备了极高的指令执行能力。官方强调:“每一张照片、每一个视频、每一段文字,在可灵 O1 眼中皆是指令。”配合同步上线的全新创作界面,用户仅需通过简单的对话,即可轻松组合和使用各种素材,实现对视频画面每一处细节的精准生成。
可灵 O1 模型不仅在模态上实现了统一,在智能水平上也达到新高度。结合 Chain-of-thought(思维链)技术,模型具备了强大的常识推理与事件推演能力,能够更好地理解复杂场景和用户意图,生成更符合逻辑的视频内容。
在视频生成质量方面,可灵 O1 模型解决了以往 AI 视频生成中的一大难题——主体稳定性。它支持多视角构建主体特征,号称“无论镜头如何流转,主体特征都能稳定如一”,确保了画面在主体特征上的精准和连贯性。同时,模型还支持用户自由组合多个主体,为视频创作提供了极大的灵活性和无限可能。