SAM Audio

互联网 2025-12-22 14:38:13

SAM Audio是Meta开源的音频分割模型，能通过文本、视觉和时间片段等多模态提示，从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual（PE-AV），基于Meta开源的Perception Encoder模型，能融合视听信息并进行精确的时间标注，实现高精度的音频分离。用户可以通过简单的文本描述（如“吉他声”）、在视频中点击发声物体，或者标记声音出现的时间范围来使用SAM Audio。

*文章为作者独立观点，不代表爱思词典立场

本文由 sexyivyivy发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/12187.html

SAM Audio