Meta发布统一音频分离模型SAM Audio:支持文本、视觉与时间点三种提示方式
12月18日,据报道,Meta正式发布了名为SAM Audio的统一多模态音频分离模型。该模型允许用户通过文本描述、视频画面中的视觉提示或时间片段标记,从复杂音频混合中提取特定声音,将以往专业化的音频处理任务转化为更直观、易用的交互体验。
SAM Audio的核心创新在于其多模态提示机制。用户可通过三种方式完成音频分离:输入“吉他声”“人声”等文本描述;在视频画面中点击发声的人或物体;或直接标记目标声音出现的时间段。例如,在乐队演出视频中点击吉他即可单独提取其音轨;在户外录像中输入“交通噪音”可过滤背景车流声;在整个播客录音中标记狗叫时段,则可一次性消除此类干扰。
为实现这一能力,Meta构建了名为PE-AV(感知编码器视听)的底层技术引擎。该引擎基于Meta今年早些时候开源的感知编码器模型,能够同时理解视觉与听觉信息,如同为系统赋予“耳朵”,帮助模型精准识别并分离音源。
Meta同时发布了首个真实场景音频分离基准测试SAM Audio-Bench,以及用于自动评估分离效果的模型SAM Audio Judge,旨在推动音频处理技术的标准化与客观评测。此外,团队还推出了支撑SAM Audio的核心引擎Perception Encoder Audiovisual,将计算机视觉能力扩展至音频理解领域。
SAM Audio的发布,标志着音频处理技术正朝着更自然、更智能的方向演进。以往需要专业软件与复杂操作的声音分离任务,现在可通过直观的提示交互完成。这不仅为内容创作者、影视后期、播客制作等场景提供了高效工具,也为未来人机交互、智能听觉辅助等应用奠定了基础。