AI编程 · 架构思考 · 技术人生

通义千问Qwen3-TTS发布:97ms超低延迟,语音克隆仅需3秒

阿里通义千问团队正式发布开源文本转语音模型系列Qwen3-TTS。该模型在语音生成质量和速度上均有显著提升,端到端合成延迟低至97ms,实现真正的实时流式生成。核心亮点包括仅需3秒音频即可完成快速克隆,以及支持用自然语言描述来自由设计语音的音色与情感。Qwen3-TTS涵盖中、英、日等10种语言,提供CustomVoice、VoiceDesign及Base三个版本,参数量分别为0.6B和1.7B。基于创新的双轨混合流式架构,该模型已完全开源并支持免费商用,极大降低了AI语音生成的应用门槛。

原文链接:V2EX 分享发现

赞(0)
未经允许不得转载:Toy's Tech Notes » 通义千问Qwen3-TTS发布:97ms超低延迟,语音克隆仅需3秒

评论 抢沙发

十年稳如初 — LocVPS,用时间证明实力

10+ 年老牌云主机服务商,全球机房覆盖,性能稳定、价格厚道。

老品牌,更懂稳定的价值你的第一台云服务器,从 LocVPS 开始