面壁智能近日开源了VoxCPM 1.5语音生成AI模型,该模型具有高采样音频克隆能力和生成效率翻倍的特点,并提供0.5b小模型版本。据测试,该模型在HuggingFace平台上表现优异,效果可媲美minimax等商业收费模型。这一开源发布对语音合成技术社区具有重要意义,尤其是对于关注TTS技术的开发者和研究者。值得注意的是,该模型可能对NVIDIA显卡有更好的支持,引发了部分AMD显卡用户的硬件升级考虑。尽管该技术发布于10日,但目前讨论热度不高,这可能与传播渠道有关。VoxCPM 1.5的开源为语音AI领域带来了新的可能性,特别是在资源受限环境下高效语音生成方面。
原文链接:Linux.do






AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战
语音合成这块开源方案确实稀缺,VoxCPM的MOS分数能到多少?