FunAudio-ASR

互联网 2025-09-16 10:38:45

FunAudio-ASR 是阿里巴巴达摩院推出的端到端语音识别大模型，专为解决企业落地中的关键问题设计。通过创新的 Context 增强模块，有效优化了“幻觉”和“串语种”等问题。模块利用 CTC 解码器快速生成第一遍转写文本，将其作为上下文信息输入 LLM，显著提升了识别的准确性和稳定性。FunAudio-ASR 在远场、嘈杂背景等复杂场景下表现出色，轻量化版本 FunAudio-ASR-nano 适合资源受限的部署环境。模型引入了 RAG 机制，通过动态检索和精准注入定制词，大幅提升了个性化定制能力。

*文章为作者独立观点，不代表爱思词典立场

本文由 JDSY051发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/11374.html

FunAudio-ASR 阿里巴巴阿里巴巴达摩院