 

开源语音识别模型GLM-ASR测试：为何不如B站AI字幕？

2025-12-11 分类：前沿阅读(84) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

作者在实际测试中发现，开源语音识别模型GLM-ASR-Nano-2512在词汇覆盖上存在不足，如未能识别“职务类犯罪”等术语，而B站自带的AI语音字幕系统则表现更优。作者分享了使用glm-4.6模型的个人经验，认为其代码知识库更丰富，并推荐vscode作为Python开发环境。尽管官方文档支持自定义词典功能，但实际配置方法尚不明确。该模型作为语音识别领域的开源突破，性能优于whisper，但仍有改进空间。此外，用户还探讨了AI工具的选择，如deepseek和gemini，并澄清了z-image模型的归属问题。此讨论为AI语音识别技术提供了有价值的实践洞察，帮助开发者了解开源模型的优缺点和应用场景。

原文链接：Linux.do

赞(0)

未经允许不得转载：Toy's Tech Notes » 开源语音识别模型GLM-ASR测试：为何不如B站AI字幕？

分享到

AI B站 glm 开源模型技术比较自定义词典语音识别

评论抢沙发

前沿哨所

亚马逊大撤退：关闭Fresh及Go无人便利店，AI实体零售模式受挫

亚马逊宣布关闭旗下Amazon Fresh杂货店和Amazon Go“拿了就走”便利店，这标志着其进军实体零售核心业务的重大撤退。亚马逊承认，尚未找到既能创造独特客户体验、又具备大规模扩张经济模型的正确方案。部分门店将改造为全食超市。此次关店涉及现有的14家Go店和58家Fresh店。此前，亚马逊已关闭了书店、4-star店等多种实体业态，显示出其在实体零售领域的持续探索与调整。

原文链接：Hacker News

35分钟前
Kimi 2.5 前端能力实测：20字提示词克隆完整壁纸网站

社区用户分享了 Kimi 2.5 的前端代码生成能力演示。在测试中，用户仅输入了约20个字的简单提示词，要求克隆某壁纸网站，包含首页、分类、详情及评论等复杂页面结构。结果显示，Kimi 2.5 生成的代码效果惊人，几乎达到了1比1的复刻水平。这一测试直观地展示了当前大模型在前端开发领域的显著进步，预示着 AI 编程助手正变得更加高效和智能。

原文链接：Linux.do

35分钟前
Kimi K2.5 多模态实测：能力对标Gemini 3，特定场景表现优异

Kimi最新发布的K2.5模型展现了显著进步，其多模态能力在真实用例中已基本持平甚至超越Gemini 3系列。在特定图像识别盲测中，K2.5对风格与角色的识别准确率优于Gemini 3 Pro，显示出知识库与图像理解能力的双重提升，标志着国产大模型在垂直领域竞争力增强。

原文链接：Linux.do

35分钟前
无需重装Chrome：无痛开启Gemini内置AI功能的教程

本文详解了无需重装或删除Chrome数据即可激活Gemini内置AI与DevTools功能的方法。通过修改本地配置文件中的地区代码及特定参数，并配合美国IP与英语环境，用户可绕过地域限制。该方法解决了以往尝鲜新功能需牺牲用户数据的痛点，为极客用户提供了无缝体验谷歌浏览器AI新特性的捷径。

原文链接：Linux.do

36分钟前
AI科研写作实战：Claude Code与Zotero MCP的高效工作流

本文探讨了利用AI Agent辅助科研论文写作的实战经验。作者对比了Cline与OpenCode，发现Claude Code结合Zotero MCP能显著提升文献检索与写作效率，形成了一套从查文献到润色的完整工作流。文章邀请科研人员分享不同学科背景下的AI写作工具偏好与具体配置，旨在为学术社区提供前沿的AI辅助科研参考方案。

原文链接：Linux.do

36分钟前
开源神器「推了么」：利用NVIDIA模型实现X高情商自动回复

开发者为解决社交媒体回复压力，利用NVIDIA免费token开发了浏览器扩展「推了么」。该工具能在X/Twitter上一键生成高情商回复，支持多人格切换及独特的EVA风格界面。项目完全开源，并附带详细的扩展上架指南。这不仅展示了免费AI模型的实用潜力，也为开发者提供了极具参考价值的部署教程。

原文链接：V2EX 分享发现

2小时前