阿里通义发布PrismAudio:视频生成环境音框架,让AI“先思考再发声”

2026-03-25 17:32:24   |   探索者   |   1327

3月25日,据报道,阿里巴巴通义实验室发布PrismAudio,这是一个专注于环境音/音效合成的视频生成音频框架。与常见的人物配音不同,PrismAudio致力于生成马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音。

传统的配音模型采用“端到端”方式直接输出音频,内部过程不可控。PrismAudio则让模型先“写笔记”:分析视频内容应发出什么声音、声音何时开始结束、音质如何、声源方位等信息,形成一份完整的“行动指南”后再交给音频生成模型执行。这种分解式思维链将思考过程拆解,每一步都有据可依。

生成音频后,PrismAudio引入四位“老师”从不同维度持续打分:语义老师检查声音与画面内容是否匹配;时序老师精准测量声音与动作是否同步;美学老师评估音质的清晰度、动态、丰富度;空间老师验证左右声道信息与画面中声源位置是否一致。四个分数加权形成综合评分,模型的目标是不断调整生成策略让总分越来越高,避免被单一标准牵着走。

为实现强化学习优化模型,团队设计了高效训练算法Fast-GRPO,将随机探索限制在生成过程的极短时间内,其余时间走快速通道。结果显示,在单独优化某个指标时,Fast-GRPO只用200步就达到了传统方法600步的性能水平,大幅缩短训练时间。

在传统的VGGSound测试集上,PrismAudio全面超越了现有最好方法;在团队自建的复杂场景测试集AudioCanvas上,差距拉得更大。PrismAudio仅有5.18亿参数,生成9秒音频只需0.63秒,比动辄几十亿参数的模型更轻量、更实用。从“先写笔记”到“四位老师打分”,PrismAudio正以独特的思维链与强化学习结合,提升视频环境音生成的质量与可控性。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

阿里通义发布PrismAudio:视频生成环境音框架,让AI“先思考再发声”

2026-03-25 17:32:24 浏览量: 1327 作者: 探索者

3月25日,据报道,阿里巴巴通义实验室发布PrismAudio,这是一个专注于环境音/音效合成的视频生成音频框架。与常见的人物配音不同,PrismAudio致力于生成马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音。

传统的配音模型采用“端到端”方式直接输出音频,内部过程不可控。PrismAudio则让模型先“写笔记”:分析视频内容应发出什么声音、声音何时开始结束、音质如何、声源方位等信息,形成一份完整的“行动指南”后再交给音频生成模型执行。这种分解式思维链将思考过程拆解,每一步都有据可依。

生成音频后,PrismAudio引入四位“老师”从不同维度持续打分:语义老师检查声音与画面内容是否匹配;时序老师精准测量声音与动作是否同步;美学老师评估音质的清晰度、动态、丰富度;空间老师验证左右声道信息与画面中声源位置是否一致。四个分数加权形成综合评分,模型的目标是不断调整生成策略让总分越来越高,避免被单一标准牵着走。

为实现强化学习优化模型,团队设计了高效训练算法Fast-GRPO,将随机探索限制在生成过程的极短时间内,其余时间走快速通道。结果显示,在单独优化某个指标时,Fast-GRPO只用200步就达到了传统方法600步的性能水平,大幅缩短训练时间。

在传统的VGGSound测试集上,PrismAudio全面超越了现有最好方法;在团队自建的复杂场景测试集AudioCanvas上,差距拉得更大。PrismAudio仅有5.18亿参数,生成9秒音频只需0.63秒,比动辄几十亿参数的模型更轻量、更实用。从“先写笔记”到“四位老师打分”,PrismAudio正以独特的思维链与强化学习结合,提升视频环境音生成的质量与可控性。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号