B站开源动漫视频生成模型AniSora V3发布
7月7日,哔哩哔哩正式推出开源动漫视频生成模型AniSora V3预览版,这是继去年V2版本后的又一次重大升级。
据报道,在技术层面,AniSora V3基于B站此前开源的CogVideoX-5B和Wan2.1-14B模型,通过引入强化学习与人类反馈(RLHF)优化框架,大幅提升了生成视频的视觉质量和动作连贯性。最引人注目的是其全新升级的时空掩码模块,能够实现更精细的角色表情控制和动态镜头移动,甚至可以完成"五位女孩同步舞蹈,镜头随动作推近拉远"这样复杂的动画指令。
值得一提的是,V3版本特别针对国产硬件进行了优化,新增对华为Ascend910B NPU的原生支持,使得推理速度提升约20%。在实际测试中,生成一段4秒的1080p高清视频仅需2-3分钟,大大提升了创作效率。同时,经过优化的数据清洗流程确保了生成内容在风格上的一致性,让创作者能够更精准地控制作品的艺术风格。
从应用场景来看,AniSora V3展现出强大的多任务处理能力。无论是将单张静态图片转化为动态视频,还是为漫画分镜添加口型同步的动画效果,亦或是辅助VTuber进行实时动作生成,V3版本都能提供专业级的支持。测试数据显示,相比前代版本,V3在生成复杂场景时的伪影问题减少了15%,在角色一致性和动作流畅度等关键指标上都达到了业界领先水平。
与OpenAI的Sora等通用视频生成模型不同,AniSora V3专注于动漫这一垂直领域,在二次元风格的表现上更具优势。目前,已有开发者基于V3开发出能够强化特定动漫风格的定制插件,如吉卜力风格或赛博朋克风格的专用生成器。这种专业化的发展路线,使得AniSora在动漫内容创作领域形成了独特的竞争优势。