SAM Audio
互联网
2025-12-22 14:38:13
SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual(PE-AV),基于Meta开源的Perception Encoder模型,能融合视听信息并进行精确的时间标注,实现高精度的音频分离。用户可以通过简单的文本描述(如“吉他声”)、在视频中点击发声物体,或者标记声音出现的时间范围来使用SAM Audio。

![不关注没饭吃:懒人最爱的沙发之一了 躺下根本不想站起来[笑哈哈] ](https://imgs.knowsafe.com:8087/img/aideep/2021/7/8/f899e5674d5700bcbd0148371d92abaa.jpg?w=250)




![潘思沁星颜社 [XINGYAN] 2025.06.06](https://imgs.knowsafe.com:8087/img/aideep/2025/7/24/9007dc7d7c638c7dab58cc4e0092d96c.jpg?w=250)
