阿里通义发布PrismAudio：视频生成环境音框架，让AI“先思考再发声”

2026-03-25 17:32:24 | 探索者 | 1338

3月25日，据报道，阿里巴巴通义实验室发布PrismAudio，这是一个专注于环境音/音效合成的视频生成音频框架。与常见的人物配音不同，PrismAudio致力于生成马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音。

传统的配音模型采用“端到端”方式直接输出音频，内部过程不可控。PrismAudio则让模型先“写笔记”：分析视频内容应发出什么声音、声音何时开始结束、音质如何、声源方位等信息，形成一份完整的“行动指南”后再交给音频生成模型执行。这种分解式思维链将思考过程拆解，每一步都有据可依。

生成音频后，PrismAudio引入四位“老师”从不同维度持续打分：语义老师检查声音与画面内容是否匹配；时序老师精准测量声音与动作是否同步；美学老师评估音质的清晰度、动态、丰富度；空间老师验证左右声道信息与画面中声源位置是否一致。四个分数加权形成综合评分，模型的目标是不断调整生成策略让总分越来越高，避免被单一标准牵着走。

为实现强化学习优化模型，团队设计了高效训练算法Fast-GRPO，将随机探索限制在生成过程的极短时间内，其余时间走快速通道。结果显示，在单独优化某个指标时，Fast-GRPO只用200步就达到了传统方法600步的性能水平，大幅缩短训练时间。

在传统的VGGSound测试集上，PrismAudio全面超越了现有最好方法；在团队自建的复杂场景测试集AudioCanvas上，差距拉得更大。PrismAudio仅有5.18亿参数，生成9秒音频只需0.63秒，比动辄几十亿参数的模型更轻量、更实用。从“先写笔记”到“四位老师打分”，PrismAudio正以独特的思维链与强化学习结合，提升视频环境音生成的质量与可控性。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。