Meta发布统一音频分离模型SAM Audio:支持文本、视觉与时间点三种提示方式

2025-12-18 18:50:21   |   弘乐   |   979

12月18日,据报道,Meta正式发布了名为SAM Audio的统一多模态音频分离模型。该模型允许用户通过文本描述、视频画面中的视觉提示或时间片段标记,从复杂音频混合中提取特定声音,将以往专业化的音频处理任务转化为更直观、易用的交互体验。

SAM Audio的核心创新在于其多模态提示机制。用户可通过三种方式完成音频分离:输入“吉他声”“人声”等文本描述;在视频画面中点击发声的人或物体;或直接标记目标声音出现的时间段。例如,在乐队演出视频中点击吉他即可单独提取其音轨;在户外录像中输入“交通噪音”可过滤背景车流声;在整个播客录音中标记狗叫时段,则可一次性消除此类干扰。

为实现这一能力,Meta构建了名为PE-AV(感知编码器视听)的底层技术引擎。该引擎基于Meta今年早些时候开源的感知编码器模型,能够同时理解视觉与听觉信息,如同为系统赋予“耳朵”,帮助模型精准识别并分离音源。

Meta同时发布了首个真实场景音频分离基准测试SAM Audio-Bench,以及用于自动评估分离效果的模型SAM Audio Judge,旨在推动音频处理技术的标准化与客观评测。此外,团队还推出了支撑SAM Audio的核心引擎Perception Encoder Audiovisual,将计算机视觉能力扩展至音频理解领域。

SAM Audio的发布,标志着音频处理技术正朝着更自然、更智能的方向演进。以往需要专业软件与复杂操作的声音分离任务,现在可通过直观的提示交互完成。这不仅为内容创作者、影视后期、播客制作等场景提供了高效工具,也为未来人机交互、智能听觉辅助等应用奠定了基础。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

Meta发布统一音频分离模型SAM Audio:支持文本、视觉与时间点三种提示方式

2025-12-18 18:50:21 浏览量: 979 作者: 弘乐

12月18日,据报道,Meta正式发布了名为SAM Audio的统一多模态音频分离模型。该模型允许用户通过文本描述、视频画面中的视觉提示或时间片段标记,从复杂音频混合中提取特定声音,将以往专业化的音频处理任务转化为更直观、易用的交互体验。

SAM Audio的核心创新在于其多模态提示机制。用户可通过三种方式完成音频分离:输入“吉他声”“人声”等文本描述;在视频画面中点击发声的人或物体;或直接标记目标声音出现的时间段。例如,在乐队演出视频中点击吉他即可单独提取其音轨;在户外录像中输入“交通噪音”可过滤背景车流声;在整个播客录音中标记狗叫时段,则可一次性消除此类干扰。

为实现这一能力,Meta构建了名为PE-AV(感知编码器视听)的底层技术引擎。该引擎基于Meta今年早些时候开源的感知编码器模型,能够同时理解视觉与听觉信息,如同为系统赋予“耳朵”,帮助模型精准识别并分离音源。

Meta同时发布了首个真实场景音频分离基准测试SAM Audio-Bench,以及用于自动评估分离效果的模型SAM Audio Judge,旨在推动音频处理技术的标准化与客观评测。此外,团队还推出了支撑SAM Audio的核心引擎Perception Encoder Audiovisual,将计算机视觉能力扩展至音频理解领域。

SAM Audio的发布,标志着音频处理技术正朝着更自然、更智能的方向演进。以往需要专业软件与复杂操作的声音分离任务,现在可通过直观的提示交互完成。这不仅为内容创作者、影视后期、播客制作等场景提供了高效工具,也为未来人机交互、智能听觉辅助等应用奠定了基础。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号