Meta发布统一音频分离模型SAM Audio：支持文本、视觉与时间点三种提示方式

2025-12-18 18:50:21 | 弘乐 | 990

12月18日，据报道，Meta正式发布了名为SAM Audio的统一多模态音频分离模型。该模型允许用户通过文本描述、视频画面中的视觉提示或时间片段标记，从复杂音频混合中提取特定声音，将以往专业化的音频处理任务转化为更直观、易用的交互体验。

SAM Audio的核心创新在于其多模态提示机制。用户可通过三种方式完成音频分离：输入“吉他声”“人声”等文本描述；在视频画面中点击发声的人或物体；或直接标记目标声音出现的时间段。例如，在乐队演出视频中点击吉他即可单独提取其音轨；在户外录像中输入“交通噪音”可过滤背景车流声；在整个播客录音中标记狗叫时段，则可一次性消除此类干扰。

为实现这一能力，Meta构建了名为PE-AV（感知编码器视听）的底层技术引擎。该引擎基于Meta今年早些时候开源的感知编码器模型，能够同时理解视觉与听觉信息，如同为系统赋予“耳朵”，帮助模型精准识别并分离音源。

Meta同时发布了首个真实场景音频分离基准测试SAM Audio-Bench，以及用于自动评估分离效果的模型SAM Audio Judge，旨在推动音频处理技术的标准化与客观评测。此外，团队还推出了支撑SAM Audio的核心引擎Perception Encoder Audiovisual，将计算机视觉能力扩展至音频理解领域。

SAM Audio的发布，标志着音频处理技术正朝着更自然、更智能的方向演进。以往需要专业软件与复杂操作的声音分离任务，现在可通过直观的提示交互完成。这不仅为内容创作者、影视后期、播客制作等场景提供了高效工具，也为未来人机交互、智能听觉辅助等应用奠定了基础。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。