本文是一位开发者关于构建 AI 音频分离网站的完整技术复盘。作者在对比了 Spleeter、BS-RoFormer 等主流模型后,最终选择了 Meta 的 htdemucs_6s,在分离质量与推理速度之间取得了最佳平衡(推理时间仅为竞品的 1/3)。在架构层面,文章详细分析了从自建 GPU 迁移到 Replicate Serverless 平台的成本考量,指出按秒计费对流量波动的 C 端产品更为经济。此外,作者还分享了 YouTube 链接处理、Web Audio API 多轨同步及 FFmpeg 转码优化等具体的工程实践坑点。
原文链接:V2EX 分享发现











AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航