Qwen3-TTS

互联网 2026-01-26 02:53:16

Qwen3-TTS是Qwen开源的系列语音生成模型，具备强大的音色克隆、创造和语音控制能力。模型基于创新的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器，实现高效语音压缩与高保真还原。模型采用Dual-Track双轨建模，支持低延迟流式生成，首包音频仅需等待一个字符。模型覆盖10种主流语言（中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语）及多种方言，具备智能文本理解能力，可自适应调整语气、节奏和情感。Qwen3-TTS 多码本全系列模型均已开源，包含1.7B和0.6B两种尺寸能满足不同性能与效率需求，为开发者和用户提供全面的语音生成功能。

*文章为作者独立观点，不代表爱思词典立场