 

国产模型实力暴涨：Kimi K2.5实测表现优于Gemini与Claude

2026-01-27 分类：前沿阅读(2) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

继阿里Qwen3发布后，月之暗面也推出了Kimi K2.5新基座模型。经过开发者前端用例实测对比，Kimi K2.5的实际表现竟略优于谷歌Gemini 3 Pro及Anthropic Claude 4.5 Sonnet，令人惊喜。相比之下，Qwen3虽拥有亮眼的数据基准，但在实际落地中仍存在幻觉现象。此次测试结果充分展示了国产大模型在特定垂直领域的快速进步与实战能力。

原文链接：V2EX 分享发现

赞(0)

未经允许不得转载：Toy's Tech Notes » 国产模型实力暴涨：Kimi K2.5实测表现优于Gemini与Claude

分享到

评论抢沙发

前沿哨所

实测Kimi-2.5物理模拟能力：六边形刚体测试难倒新模型

社区用户对月之暗面最新发布的Kimi-2.5模型进行了代码生成能力的实测。测试任务极具挑战性，要求编写HTML代码，模拟一个球在旋转六边形内受重力和摩擦力影响的弹跳运动。结果显示，经过多次尝试，Kimi-2.5的思考模型未能成功实现该物理刚体模拟，表现令人失望。作为对比，测试者随后使用了Claude 3.7进行同一测试，引发了社区对于新模型在复杂逻辑推理与代码生成稳定性的讨论。

原文链接：Linux.do

23分钟前
Ollama一键部署Claude Code：编程工具零门槛落地本地

Ollama官方博客发布了全新的“ollama launch”命令。该功能旨在简化开发者的工作流程，允许用户一键设置并运行Claude Code、OpenCode及Codex等主流编程工具。它支持本地或云端模型，无需配置复杂的环境变量或配置文件，实现了真正意义上的“开箱即用”，极大地降低了AI辅助编程工具的使用门槛。

原文链接：Linux.do

24分钟前
Zen 浏览器深度测评：凭借卓越的标签页管理，有望成为主力浏览器

本文测评了基于 Firefox 开发的 Zen 浏览器。尽管仍处于 Beta 阶段，但其体验已趋于稳定，足以作为主力浏览器使用。Zen 的核心竞争力在于其独创的 Workspace 功能，通过独立工作区和快捷键切换，优雅地解决了海量标签页管理的痛点，并完美兼容 Firefox 容器功能。此外，其分屏视图和多显示器支持等细节也优于主流浏览器。作者还推荐了 GitHub 上的开源工具 Nozo 以替代原生的 Glance 功能。

原文链接：V2EX 分享发现

1小时前
AI爬虫无视协议引发众怒，网站宣布不再支持退出机制

近期关于“不支持退出表单”的文章引发热议，揭示了网站所有者与AI公司之间的紧张关系。Hacker News评论指出，包括OpenAI和百度在内的AI爬虫正频繁绕过Cloudflare等安全防御，对服务器发起每分钟数千次的高频请求，甚至攻击不存在的URL。这种无视抓取协议的野蛮行为迫使开发者采取强硬手段，标志着AI数据获取的博弈已从道德层面升级为激烈的攻防战。

原文链接：Hacker News

1小时前
Claude Code多Subagent并发调用Skill存在执行缺陷

有开发者反馈，在Claude Code平台测试Agent架构时发现严重的一致性问题。当使用多个Subagent并发调用同一Skill时，出现了任务遗漏、文档生成质量下降及格式混乱等现象，而主Agent单独调用时则运行正常。尽管在Prompt中严格强调执行步骤，并发场景下的稳定性依然无法保障，且用户确认使用的是官方Claude Pro订阅。

原文链接：Linux.do

1小时前
Antigravity完全指南：登录故障排除、反代配置与插件推荐

本文汇总了Antigravity平台的常见问题与实用技巧。针对用户反馈的登录转圈、账号资格不符提示以及频繁假死等现象，提供了详细的解决方案。此外，文章还涵盖了将Antigravity反代至Claude Code、Cherry Studio等工具的配置教程，并推荐了简体中文语言包和配额监控插件Cockpit，旨在优化用户使用体验，提升开发效率。

原文链接：Linux.do

1小时前