 

共 15 篇文章

标签：语音识别

微信输入法实测：语音识别竟超本地LLM，主打极简“不粘人”

作者在对比语音输入工具时发现，微信输入法的表现优于本地运行的LLM工具。微信方案在处理中英混合及专有名词时识别更准，且已引入AI优化。其产品理念尤为亮眼：无账号、无登录、无广告，支持跨设备剪贴板，主打轻量化“不粘人”。尽管暂缺电脑端语音输入...

Toy2026-01-18前沿阅读(43)去评论

拯救语音输入！利用Nowledge Mem实现专业术语精准识别

本文介绍了如何将AI记忆中枢Nowledge Mem与语音输入工具Spokenly结合。通过在语音转录后、AI处理前运行Bash脚本调用NMEM的语义搜索功能，系统能自动召回历史记录中的项目名、变量名和专有名词。这种集成方案大幅提升了专业术...

Toy2026-01-17前沿阅读(29)去评论

免费开源语音转文本工具 Handy 登场，挑战闭源竞品

GitHub 上发布了一款名为 Handy 的免费开源语音转文本应用程序，引发了社区关注。该工具采用了先进的 Parakeet V3 模型，配备图形用户界面（GUI），旨在降低普通用户的使用门槛。与 Superwhisper、MacWhis...

Toy2026-01-15前沿阅读(36)去评论

OpenMOSS发布多人声转文本模型，支持90分钟视频处理

OpenMOSS推出MOSS-Transcribe-Diarize模型，这是一款创新的AI语音处理工具，能够自动识别最长90分钟视频或音频中的不同说话者，并添加精确时间戳标记。该模型通过深度学习算法实现多人声分离与转录，极大提升字幕制作效率...

Toy2026-01-09前沿阅读(46)去评论

国内AI厂商能否兼容OpenAI Whisper音频接口？

随着AI技术快速发展，国内许多AI厂商如科大讯飞、字节跳动等在文本模型上已兼容OpenAI的chat/completions端点。然而，在语音转录领域，用户普遍关注是否有类似兼容OpenAI Whisper的/audio/transcrip...

Toy2026-01-02前沿阅读(42)去评论

Linux本地语音输入法开源：低延迟PTT交互

开发者推出Linux本地离线语音输入法VocoType-ibus，基于VocoType-cli引擎，支持Wayland和GNOME环境。采用PTT交互模式，按住F9键即可语音输入，松开立即上屏，延迟仅0.1秒。完全离线运行，保护隐私，中文识...

Toy2025-12-31前沿阅读(54)去评论

DeepSeek App悄然上线语音识别，疑用自研ASR技术

DeepSeek App在手机端最新版本悄然上线了语音识别功能，支持语音转文字。用户在Linux.do论坛讨论中提到，DeepSeek发布的模型中似乎没有语音识别能力，因此推测该功能可能采用了公司未公开的自家语音识别ASR技术。这一更新可能...

Toy2025-12-30前沿阅读(95)去评论

开源Qwen3-ASR免费语音识别模型发布

Qwen3-ASR是一个开源的语音识别工具，兼容OpenAI API接口，提供免费使用方案，适合开发者和研究人员。用户可通过Docker快速安装，支持多种模型如qwen3-asr和qwen3-asr:itn，后者启用逆文本标准化。文章详细介...

Toy2025-12-27前沿阅读(49)去评论

豆包语音识别技术出色，能准确捕捉快速语音和低声说话

豆包软件在语音识别方面表现出色，能够准确识别快速说话和低声内容，识别速度快，用户体验良好。尽管该软件整体能力被评价为’有点拉胯’，但其语音识别功能却赢得了用户称赞。用户在实际使用中发现，豆包对’悄悄话&#...

Toy2025-12-21前沿阅读(56)去评论

豆包AI实战体验：在OCR、语音识别与代码生成中的优势

作者分享了使用豆包AI的实战经验，指出其在OCR识别速度与准确度、语音转文字质量以及代码生成方面的显著优势。通过实际案例对比，豆包在处理中文和英文文本、尤其是手写识别方面表现优异。在修改刷机脚本的具体应用中，豆包成功生成了可用代码，而Cha...

Toy2025-12-20前沿阅读(57)去评论

豆包输入法语音识别体验：离线精准，低配设备也能流畅运行

豆包输入法凭借出色的语音识别功能引起用户关注。该输入法内置约150MB的本地模型，支持离线使用，即使在网络断开的情况下仍能保持高性能。用户在配置较低的红米14c设备上测试发现，其语音识别能够实现瞬时同步，识别准确度高，运行流畅。这种在低端设...

Toy2025-12-19前沿阅读(68)去评论

免费使用Qwen3-ASR语音识别：兼容OpenAI端口，支持Spokenly应用

本文介绍了一种免费使用Qwen3-ASR语音识别服务的方法，该服务兼容OpenAI端口，可与Spokenly语音转文字应用完美集成。文章提供了两种免费使用途径：一是通过阿里云百炼官方赠额使用，二是通过API中转免密使用。详细介绍了部署步骤、...

Toy2025-12-18前沿阅读(61)去评论

智谱AI输入法升级：提升IT术语转换效率

智谱AI输入法近日完成重要升级，显著提升了语音识别的准确度，尤其针对IT专业术语实现了高效转换。用户可直接通过语音输入，将复杂的技术术语精确转化为文字，大幅节省编辑和文档处理时间，工作效率实现翻倍。该功能对程序员、IT工程师等专业人士极具实...

Toy2025-12-17前沿阅读(84)去评论

开源语音识别模型GLM-ASR测试：为何不如B站AI字幕？

作者在实际测试中发现，开源语音识别模型GLM-ASR-Nano-2512在词汇覆盖上存在不足，如未能识别“职务类犯罪”等术语，而B站自带的AI语音字幕系统则表现更优。作者分享了使用glm-4.6模型的个人经验，认为其代码知识库更丰富，并推荐...

Toy2025-12-11前沿阅读(84)去评论

智能戒指Pebble Index 01：你的大脑外部记忆助手

Pebble公司推出创新的智能戒指Index 01，这是一款专为捕捉灵感而设计的外部记忆设备。用户只需按住戒指上的按钮，对着麦克风低语，想法就会被自动记录并同步到手机。这款产品采用不锈钢材质，小巧如婚戒，支持防水设计，电池寿命长达数年无需充...

Toy2025-12-10前沿阅读(71)去评论

前沿哨所

AI 革命只革程序员？实测 Claude Code 数月后的冷思考

本文作者分享了长期使用 Claude Code 的体验。文章指出，尽管 AI 在生图、医疗及教育等领域的落地效果尚不及传统工具，但在编程领域却展现出了极高的确定性。特别是升级后的 Claude Code，凭借稳定可靠的表现成为行业异类。作者认为，AI 在写作等领域目前仅能作为辅助，唯有编程领域最有可能引发真正的行业变革，甚至直接替代程序员的工作。

原文链接：V2EX 分享发现

57分钟前
开源AI漫画编辑器：Gemini/Kimi全自动翻译嵌字

开发者开源了一款名为 MangaType Live 的 AI 漫画编辑器，通过调用具备视觉能力的 LLM（如 Gemini、Kimi）实现全自动翻译与嵌字。该项目摆脱了传统机翻软件繁琐的调整过程，利用多模态 AI 替代了高负载的专用模型。测试表明，Gemini 3 Pro 效果卓越，Flash 版本性价比极高；配合文本探测技术，低成本模型也能胜任工作。此外，Kimi K2.5 等国产模型的表现也在快速追赶中。该工具显著提升了漫画汉化的自动化水平。

原文链接：Linux.do

57分钟前
无需训练直接生成LoRA，Z-Image-i2L模型正式发布

DiffSynth-Studio发布了Z-Image-i2L模型，实现了从图像直接生成LoRA的技术突破。该模型基于Z-Image架构升级，无需繁琐的传统训练流程，仅需一张或多张风格图片即可生成定制化LoRA。其风格复刻能力显著增强，能精准捕捉水彩、写实等复杂视觉风格，大幅降低了AI艺术定制的门槛。目前模型权重与推理代码已全面开源，并提供在线体验接口。

原文链接：Linux.do

57分钟前
Kimi 系统提示词曝光：揭秘月之暗面 K2.5 的核心运行逻辑

本文曝光了月之暗面 Kimi K2.5 模型的完整系统提示词，揭示了其作为具备原生视觉和多工具调用能力 AI 助手的底层逻辑。提示词详细规定了 Kimi 的边界，如不能直接生成可下载文件，需引导用户使用专门的 PPT 助手或 Agent 平台。此外，它还展示了 Kimi 对工具调用的严格限制、网络搜索策略、数据分析流程以及长短期记忆管理机制。这份泄露的文档为研究国产大模型的提示词工程和智能体架构提供了极具价值的技术参考。

原文链接：Linux.do

57分钟前
避坑指南：利用公益API部署Clawdbot并远程控制浏览器

本文分享了部署热门AI Agent项目Clawdbot的实战经验。作者在利用公益API和VPS进行部署时，解决了API调用拦截（需自定义Header）、VPS内存不足（需调整Node参数）以及Control UI鉴权报错等关键问题。文章详细记录了通过Telegram控制Windows浏览器的配置过程，并提供了完整的服务端与PC端配置代码，为开发者提供了极具价值的避坑指南。

原文链接：Linux.do

57分钟前
亚马逊大撤退：关闭Fresh及Go无人便利店，AI实体零售模式受挫

亚马逊宣布关闭旗下Amazon Fresh杂货店和Amazon Go“拿了就走”便利店，这标志着其进军实体零售核心业务的重大撤退。亚马逊承认，尚未找到既能创造独特客户体验、又具备大规模扩张经济模型的正确方案。部分门店将改造为全食超市。此次关店涉及现有的14家Go店和58家Fresh店。此前，亚马逊已关闭了书店、4-star店等多种实体业态，显示出其在实体零售领域的持续探索与调整。

原文链接：Hacker News

2小时前

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

老品牌，更懂稳定的价值你的第一台云服务器，从 LocVPS 开始