 

共 15 篇文章

标签：tts

开源项目RadioNowhere发布：AI Agent驱动音乐电台v1.0上线

开源项目RadioNowhere发布1.0.0版本，这是一款由AI Agent驱动的智能音乐电台。项目经过大规模重构，显著提升了播放流畅度与页面美观度，并优化了Gemini TTS调用逻辑以规避速率限制。尽管目前仍存在节目切换困难及内容重复...

Toy2026-01-26前沿阅读(23)去评论

通义千问Qwen3-TTS发布：97ms超低延迟，语音克隆仅需3秒

阿里通义千问团队正式发布开源文本转语音模型系列Qwen3-TTS。该模型在语音生成质量和速度上均有显著提升，端到端合成延迟低至97ms，实现真正的实时流式生成。核心亮点包括仅需3秒音频即可完成快速克隆，以及支持用自然语言描述来自由设计语音的...

Toy2026-01-23前沿阅读(36)去评论

全自动AI电台RadioNowhere：多Agent驱动生成广播节目

开发者分享了名为RadioNowhere的AI驱动电台预览版，该电台完全由AI Agent控制，实现了节目生成、音乐选择与语音播报的自动化。项目支持自建API接口，内置了微软TTS接口供免费使用。目前该项目仍处于早期阶段，存在音乐播放不稳定...

Toy2026-01-12前沿阅读(40)去评论

indexTTS 2.5发布：语音合成速度与质量飞跃

indexTTS 2.5已在arXiv发布技术报告，显著提升了多语言覆盖范围、推理速度和语音合成整体质量。该模型基于Transformer架构，包含文本到语义（T2S）模块和非自回归语义到梅尔（S2M）模块，实现零样本神经文本到语音功能。实...

Toy2026-01-08前沿阅读(68)去评论

AI语音合成：当前最强中文TTS工具探秘

近期，一位视频创作者面临挑战，需让AI处理数千字口播稿，涉及专业术语和地名。尝试了Google的Flash 2.5 TTS技术后，效果不佳，现寻求业界最强解决方案。这一需求凸显了AI语音合成在专业内容创作中的关键作用，反映了技术瓶颈与行业进...

Toy2026-01-08前沿阅读(55)去评论

AI垄断互联网？个人网站是救赎之道

互联网曾是自由探索的圣地，但如今沦为AI驱动的注意力工厂。TTS AI生成同质化内容，算法控制社交和创作，加速了技术垄断。文章引用哲学家Ivan Illich的“共享工具”理念，揭示技术如何从增强自由变成奴役人类。解决方案是回归个人网站——...

Toy2026-01-02前沿阅读(40)去评论

Transformer模型Web端TTS：延迟挑战与优化探索

在Linux.do社区，用户讨论使用transformers.js运行Kokoro-82M模型实现离线Web端TTS（文本转语音）功能。用户反馈模型运行延迟较高，虽可用但体验不佳，寻求更高效的替代方案。这反映了在浏览器环境中部署大型Tran...

Toy2025-12-29前沿阅读(40)去评论

Gemini Live TTS：魔改API实现实时语音合成

Gemini Live TTS是一个开源项目，通过修改Google Live API实现了高效实时文字转语音（TTS）功能。用户可通过Google账号在线体验demo，项目源码托管于GitHub（yeahhe365/Gemini-Live-...

Toy2025-12-28前沿阅读(47)去评论

indexTTS2整合包速度差异实测：9秒到120秒的惊人对比

用户在配置3060ti-8G、内存16G的机器上测试了多个indexTTS2整合包，发现生成同23字符文本的速度差异巨大，从9秒到120秒不等。文章还对比了GLM-tts、gpt sovits和CosyVoice3等语音合成技术，指出ind...

Toy2025-12-22前沿阅读(55)去评论

TTSFM v3.4 Update: Free OpenAI TTS Alternative Gets Major Upgrade

TTSFM v3.4: Free OpenAI TTS alternative with speed optimizations, audio conversion, and two variants for different user needs.

Toy2025-12-18前沿阅读(65)去评论

Alibaba Launches CosyVoice3: Low-VRAM Local TTS Tool with Multilingual Synthesis Support

Alibaba launches CosyVoice3, a low-VRAM local TTS tool supporting multilingual synthesis and zero-shot voice cloning.

Toy2025-12-16前沿阅读(72)去评论

YC F24公司Cekura招聘：AI代理可靠性工程师

YC F24批次初创公司Cekura专注于构建AI代理的可靠性层，提供测试和可观察性解决方案。公司由IIT Bombay和ETH Zurich校友创立，利用AI生成数据集模拟真实对话场景，从订购食物到预约面试，帮助团队优化语音和聊天代理性能...

Toy2025-12-16前沿阅读(57)去评论

TTS技术瓶颈：停顿与感情的真实性难题

近期，作者在使用讯飞和豆包的TTS技术合成表演串词时，发现合成效果平淡，即使调整停顿也难以达到真实感，情感表达更是不足。与专业录音对比后，差距明显。随后，尝试用AI将专业录音转换为所需音色，虽保留了人声情感，但音色变得不自然。这一经历暴露了...

Toy2025-12-15前沿阅读(57)去评论

智谱密集开源多款AI模型，GLM-TTS引发行业关注

智谱公司近期在人工智能领域动作频频，本周连续推出了AUTO-GLM、GLM-ASR、GLM-4.6V和GLM-TTS等一系列开源模型。其中，GLM-TTS作为文本转语音模型，为AI语音合成领域带来了新的技术选择。此次密集开源展示了智谱公司在...

Toy2025-12-14前沿阅读(61)去评论

智谱发布5大开源模型，AMA活动等你提问

智谱本周重磅发布了5款开源模型，涵盖GLM-4.6V多模态大模型、CogVideo家族视频生成模型、CogView家族图像生成模型以及GLM-TTS语音合成技术。公司将于北京时间12月11日傍晚6点至晚10点举办AMA活动，邀请模型训练团队...

Toy2025-12-11前沿阅读(64)去评论

前沿哨所

苹果强制Patreon切换支付系统，将对iOS端创作者抽成30%

苹果已设定最后期限，要求所有Patreon创作者在2026年11月1日前，于iOS版应用中强制切换至App Store的内购支付系统。苹果视此类支付为数字商品交易，将从中抽取最高30%的佣金，长期订阅费率降至15%。创作者可选择仅提高iOS端价格或自行承担费用，用户仍可通过网页端支付以规避佣金。目前仅4%的创作者尚未切换，Patreon对此政策表示失望。

原文链接：Hacker News

9分钟前
Kairos：能自主操作软件的AI智能体，打造你的全能数字实习生

Kairos是一款全新的AI工具，定位为“AI实习生”。与传统聊天机器人不同，它拥有专属浏览器，能像真人一样登录账号、填写表单、浏览网页并提取数据。该工具深度集成Gmail、Notion等20多款应用，支持在后台自动执行招聘筛选、退款处理、会议安排等复杂工作流。用户只需通过邮件或指令交互，即可实现营销、销售等领域的全流程自动化。

原文链接：Hacker News

9分钟前
用SQLite和llama.cpp构建低成本语义搜索引擎

本文详细记录了作者优化海军维护手册语义搜索引擎的实战过程。通过将数据库从昂贵的托管Postgres迁移至轻量级SQLite，并结合llama.cpp与8位量化技术大幅降低内存消耗，作者成功将项目月成本降至2美元以下。此外，引入重排序模型提升了结果相关性，并采用HATEOAS架构简化了前端状态管理，展示了低成本构建高效AI应用的最佳实践。

原文链接：Hacker News

9分钟前
Sherlock：可视化的LLM API流量代理，实时监控Token消耗

Sherlock 是一款透明的代理工具，能拦截发往 LLM API 的 HTTPS 流量。它通过精美的终端仪表盘，实时展示 Token 使用量、上下文窗口占用及 API 成本。该工具支持自动将提示词保存为 Markdown 和 JSON 格式，便于开发者调试和审计。最重要的是，Sherlock 无需修改任何代码，仅需配置环境变量即可运行，完美适配 Claude 等主流工具，有效解决了 AI 开发中的流量黑盒与成本监控难题。

原文链接：Hacker News

9分钟前
将网页虚拟为文件系统：这款 AI 代理能在浏览器中自动编写脚本

该项目展示了如何将类似 Claude Code 或 Cursor 的 AI 编码代理直接嵌入到浏览器中。作者通过将页面状态模拟为虚拟文件系统，让 AI 模型能够像在沙箱中一样操作 DOM，从而自动生成和维护 Userscripts 及 CSS。目前测试显示该代理运行可靠，特别适合数据提取和网页样式自定义，为浏览器端的自动化开发提供了新思路。

原文链接：Hacker News

1小时前
音频大厂Native Instruments申请破产，未来充满变数

知名音乐软硬件制造商Native Instruments已启动初步破产程序，管理人将负责重组或出售资产。该公司拥有Massive、Traktor等经典软件及iZotope等品牌，目前由私募股权公司控股。虽然子公司Plugin Alliance表示运营不受影响，但公司整体前途未卜，数百名员工命运堪忧，这对依赖其生态的音乐创作者而言是一记重锤。

原文链接：Hacker News

1小时前

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

老品牌，更懂稳定的价值你的第一台云服务器，从 LocVPS 开始