Your verifier is fake if it shares too much state with the agent
— title: “Your verifier is fake if it shares too much state with the agent” date: 2026-06-06T09:00:00 ...
— title: “Your verifier is fake if it shares too much state with the agent” date: 2026-06-06T09:00:00 ...

最近社区在传一个”自我蒸馏”的提示词,源头是 OpenAI Codex 团队成员 @VB。意思是让 Codex 回看你最近 30 天的执行记录,把里面反复出现的工作流打包成 Skill,把固定角色封成 Sub-age...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。

作者:toy | 覆盖周期:2026.5.30 – 2026.6.5 这一周的关键词是”上场”。MiniMax 在 6 月 1 日把 M3 拍在桌上,1M 上下文、原生多模态、开源权重,SWE-Bench Pro 5...

写了十年代码的工程师,上手 AI Agent 时常常比新人还别扭。不是能力问题,是直觉问题——越熟练的旧直觉,越容易在 agent 面前变成包袱。 Google DeepMind 的 Philipp Schmid 在 AI Engineer...

做生产级 Agent,很多人第一反应是挑一个框架、看一眼文档、运行一下 Hello World,然后觉得大事已定。 Mike Piccolo 的文章 How to Build Your Own Agent Harness 直接拆穿了这个幻觉...

去年,Anthropic 的文档工程师 Sarah 遇到了一个没法靠加班解决的问题:Claude Code 团队的 PR 合并量比年初增加了 200%,但维护文档的人只有她一个。每次有代码改动,她都要手动比对源码和文档有没有偏差,再开 PR...

作者:toy 一、为什么最后一篇要把这四件事放在一起 这个系列到了第九篇,前八篇依次拆解了 Agent 的基础理论、规划推理、开发框架、工具调用、记忆模块、微调方案、推理服务、显存优化。每一篇都可以单独成立,但如果你真的要把 Agent 推...

作者:toy 一、为什么需要微调 Prompt Engineering 的三类失效 用 Prompt 调教通用模型,是大多数 Agent 项目的第一站。这条路走得顺时,能省掉大量工程复杂度。但在三类场景下,它会系统性失效。 第一类是领域术语...

作者:toy 一、工具调用是什么:让模型伸手摸真实世界 从纯文本生成到”有手有脚” 大语言模型在工具调用出现之前,本质上是一台极其复杂的文字处理机器。你问它”今天北京的 PM2.5 是多少”,...

作者:toy 一、为什么需要 Agent 框架 从”手写循环”到框架 构建一个最简单的 ReAct Agent,大概需要五十行 Python:一个 while 循环,调 LLM,解析输出,调工具,把结果塞回上下文,再...