Kimi-Audio
互联网
2025-05-10 18:49:51
Kimi-Audio 由月之暗面(Moonshot AI)开发,是一款开源音频基础模型,基于 Qwen 2.5-7B 构建,可以统一处理音频理解、生成和对话任务。
依托 1300 万小时音频数据预训练,通过混合输入(离散语义标记 + 连续声学特征)与创新架构,统一多种任务。
Kimi-Audio 支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、情感识别(SER)、声音分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。