告别“玄学”开发:Anthropic 升级技能测试工具,支持自动评估与 A/B 盲测
Anthropic 发布了 Skill Creator 重大更新,旨在解决 Agent 技能开发和测试的痛点。新增功能包括:自动化评估,无需编写代码即可定义测试用例并追踪通过率及性能,防止模型更新导致的技能“退步”;多 Agent 并行测试...
Anthropic 发布了 Skill Creator 重大更新,旨在解决 Agent 技能开发和测试的痛点。新增功能包括:自动化评估,无需编写代码即可定义测试用例并追踪通过率及性能,防止模型更新导致的技能“退步”;多 Agent 并行测试...
最近在开发者社区中,一款名为Droid的AI命令行(CLI)工具引发了热议。根据Agent榜单及多位开发者实测反馈,Droid在用户界面设计、人机交互逻辑以及代码生成质量上均表现出色,甚至被认为是目前体验最佳的AI CLI工具。其在处理相同...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
针对目前 AI 使用中频繁“搬运”信息的痛点,开发者推出了本地文档搜索引擎 Linkly.AI。该 PC 客户端通过后台监控与自动索引,将指定目录下的文档转化为 AI Agent 可直接调用的上下文。它支持通过 CLI、MCP 协议及 Sk...

8600 次安装,57 颗星,11 个版本迭代。在 ClawHub 一万三千多个 Skill 里,proactive-agent 不算最花哨的,但它切中了一个真痛点——AI Agent 跑着跑着就”失忆”了。 这篇文...
在主流目光聚焦于Cursor(CC)和OpenCoder(OC)之时,开发者实测发现Kilo Code在Agent智能度与成本控制上表现更优。相比竞品在公共API下频繁中断、输出冗余以及需要手动催促“继续”的问题,Kilo Code不仅能自...
近日,热门 AI 编程工具 Windsurf 被用户发现调整了其服务计费规则。反馈显示,在启用 Agent 模式时,AI 的每一次回复现在都会消耗账户积分,而非此前可能的订阅制免费额度。这一变化标志着该产品正在收紧成本控制,从早期的推广试用...
通义千问团队正式开源Qwen3.5系列的小尺寸模型,涵盖0.8B、2B、4B及9B四个规格。这些模型基于Qwen3.5统一基座打造,采用Apache 2.0开源协议,允许商业使用。新模型针对消费级显卡进行了深度优化,支持LoRA微调,大幅降...
AI影视平台waoowaoo开源后引爆GitHub,三天内收获近7k Star,增速位列全球第二。该产品定位为“工业级全流程AI影视生产平台”,致力于打造影视领域的通用基础设施。项目创始人宣布在上海启动招聘,寻找精通“Vibe Coding...
Frontiers in Science 这周发了一篇论文。19个研究者——神经科学家、哲学家、AI伦理学家——警告AI发展太快,我们的理解跟不上。他们要科学测试。他们要框架。他们要检测方法。 他们写的不是某种未来的可能性。他们写的就是现在...
文章深入探讨了AI编程工具(如Cursor、Copilot、Agent)普及后带来的潜在危机。尽管AI显著提升了开发效率,但作者警告称,过度依赖会导致“认知债务”——即因停止深度思考而引发的大脑能力退化。研究指出,依赖AI的开发者在概念理解...