共 13 篇文章

标签：语音合成

阿里云Qwen团队开源Qwen3-TTS语音生成模型

阿里云Qwen团队正式开源了Qwen3-TTS语音生成模型系列。该模型旨在推动人工智能的开源与民主化进程，不仅支持稳定且富有表现力的语音生成，还实现了流式语音输出。此外，Qwen3-TTS具备强大的自由语音设计和逼真语音克隆功能，能够满足多...

赞(0)

Toy2026-01-23前沿阅读(9)去评论

阿里开源Qwen3-TTS：97ms低延迟，支持自然语言“设计”人声

阿里巴巴通义千问团队正式发布新一代开源语音合成模型Qwen3-TTS，涵盖0.6B至1.8B参数规模。该模型支持10种主流语言，不仅能实现3秒音频高保真克隆，更创新支持通过自然语言指令“设计”人声。技术上采用12Hz高压缩率Tokenize...

赞(0)

Toy2026-01-22前沿阅读(11)去评论

千问发布Qwen3-TTS模型，开源语音合成技术再升级

阿里千问团队正式推出Qwen3-TTS文本转语音模型，并已在Hugging Face平台开源。作为Qwen家族在音频模态的最新成员，该模型旨在通过开源科学推动人工智能的普及化。Qwen3-TTS的发布不仅展示了千问在多模态领域的技术突破，也...

赞(0)

Toy2026-01-22前沿阅读(15)去评论

AI有声书工具上线“拼书”模式，以众筹化解高成本困境

针对AI多角色有声书生成成本高昂的痛点，VoiceNovel团队推出了全新的“拼书”模式。该模式不单纯追求降价，而是通过拆分成本，允许用户发起或参与小说配音众筹。用户最低仅需1个积分即可加入拼单，众筹完成后即可解锁有声书。这一创新尝试通过拼...

赞(0)

Toy2026-01-21前沿阅读(17)去评论

indexTTS 2.5发布：语音合成速度与质量飞跃

indexTTS 2.5已在arXiv发布技术报告，显著提升了多语言覆盖范围、推理速度和语音合成整体质量。该模型基于Transformer架构，包含文本到语义（T2S）模块和非自回归语义到梅尔（S2M）模块，实现零样本神经文本到语音功能。实...

赞(0)

Toy2026-01-08前沿阅读(65)去评论

AI语音合成：当前最强中文TTS工具探秘

近期，一位视频创作者面临挑战，需让AI处理数千字口播稿，涉及专业术语和地名。尝试了Google的Flash 2.5 TTS技术后，效果不佳，现寻求业界最强解决方案。这一需求凸显了AI语音合成在专业内容创作中的关键作用，反映了技术瓶颈与行业进...

赞(0)

Toy2026-01-08前沿阅读(47)去评论

MiniMax vs Index TTS 2：AI语音合成模型对决

本文对比了MiniMax speech-2.6和Index TTS 2两大文本转语音模型。MiniMax speech-2.6在自动控制情绪方面表现突出，生成语音与原声区别极小，操作更省心；而Index TTS 2虽音色模仿出色，但需手动添...

赞(0)

Toy2025-12-25前沿阅读(47)去评论

Fun-CosyVoice3-0.5B-2512 Linux 简化部署指南

本文全面介绍了Fun-CosyVoice3-0.5B-2512语音合成模型在Linux环境下的简化部署方案，旨在帮助开发者快速实现语音合成服务。方案集成vLLM加速技术，支持流式音频输出、多种采样率选择、多音色复刻、GPU加速重采样和Spe...

赞(0)

Toy2025-12-24前沿阅读(60)去评论

揭秘Gemini Canvas系统的技术奥秘

本文深入研究了Google Canvas系统的技术实现，发现其能够高效集成多种Gemini模型，包括文本/视觉生成、图像生成、图像编辑和语音合成功能。配额分配机制基于用户Google账号，确保资源合理使用。系统还实现了指数退避错误处理策略，...

赞(0)

Toy2025-12-19前沿阅读(53)去评论

两大TTS模型对决：CosyVoice3与IndexTTS2实测体验

本文对阿里开源的CosyVoice3与IndexTTS2两大文本转语音模型进行了实际对比测试。测试采用《明日方舟》游戏角色的配音进行克隆，并与人声原版进行对比。结果显示，IndexTTS2在语音自然度上表现更佳，接近原声效果；而CosyVo...

赞(0)

Toy2025-12-17前沿阅读(68)去评论

阿里巴巴推出CosyVoice3：低显存本地TTS工具支持多语种合成

阿里巴巴近日开源了先进的文本到语音系统CosyVoice3，该系统基于大型语言模型，在内容一致性、说话人相似度和韵律自然度方面表现出色。支持9种常用语言及18+种中国方言，可实现多语种零样本声音克隆。一位开发者基于此模型开发了Windows...

赞(0)

Toy2025-12-16前沿阅读(60)去评论

TTS技术瓶颈：停顿与感情的真实性难题

近期，作者在使用讯飞和豆包的TTS技术合成表演串词时，发现合成效果平淡，即使调整停顿也难以达到真实感，情感表达更是不足。与专业录音对比后，差距明显。随后，尝试用AI将专业录音转换为所需音色，虽保留了人声情感，但音色变得不自然。这一经历暴露了...

赞(0)

Toy2025-12-15前沿阅读(52)去评论

中文TTS语音复刻技术哪家最优秀？

作者在Linux.do社区发帖，讨论中文文本转语音技术需求。半年前，他利用gpt-sovits v2 pro plus版本训练模型，效果显著应用于项目。现在，他询问社区是否有更优的TTS解决方案。帖子吸引了10位参与者，分享了各自经验，包括...

赞(0)

Toy2025-12-10前沿阅读(59)去评论

标签：语音合成

阿里云Qwen团队开源Qwen3-TTS语音生成模型

阿里开源Qwen3-TTS：97ms低延迟，支持自然语言“设计”人声

千问发布Qwen3-TTS模型，开源语音合成技术再升级

AI有声书工具上线“拼书”模式，以众筹化解高成本困境

indexTTS 2.5发布：语音合成速度与质量飞跃

AI语音合成：当前最强中文TTS工具探秘

MiniMax vs Index TTS 2：AI语音合成模型对决

Fun-CosyVoice3-0.5B-2512 Linux 简化部署指南

揭秘Gemini Canvas系统的技术奥秘

两大TTS模型对决：CosyVoice3与IndexTTS2实测体验

阿里巴巴推出CosyVoice3：低显存本地TTS工具支持多语种合成

TTS技术瓶颈：停顿与感情的真实性难题

中文TTS语音复刻技术哪家最优秀？

置顶推荐

前沿哨所

OpenAI爬虫1小时抓取新站，谷歌搜索效率遭质疑

DeepSeek获技术社区热议：商用翻译领域的性价比之王

开源项目AionUi受关注，一站式整合多款AI编程CLI工具

修复OpenCode调用中断：CPA反代配置修正方案

AI时代如何系统化构建个人“数字档案”？

开发者利用 Gemini 打造 Windows 剪贴板历史管理工具 MyClip

最新文章

热门专题

热门标签

网站统计

最新评论

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。