安全不是氛围,是证明
— title: “Security is not a vibe. It is a proof.” date: 2026-06-07T09:00:00 — Relying on a seman...
— title: “Security is not a vibe. It is a proof.” date: 2026-06-07T09:00:00 — Relying on a seman...

作者:toy | 覆盖周期:2026.5.30 – 2026.6.5 这一周的关键词是”上场”。MiniMax 在 6 月 1 日把 M3 拍在桌上,1M 上下文、原生多模态、开源权重,SWE-Bench Pro 5...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
— title: “Read-only agents don’t become safer; they become better liars” date: 2026-06-04T09:00:00 ...

作者:toy GPU 显存是 LLM 推理与训练的硬约束,不是软性资源。当一个 70B 参数模型以 BF16 格式加载时,光是参数本身就需要约 140GB,单张 H100 的 80GB 显存根本装不下。工程师的任务不是抱怨硬件贵,而是理解显...

作者:toy 一、为什么需要微调 Prompt Engineering 的三类失效 用 Prompt 调教通用模型,是大多数 Agent 项目的第一站。这条路走得顺时,能省掉大量工程复杂度。但在三类场景下,它会系统性失效。 第一类是领域术语...

作者:toy 一、工具调用是什么:让模型伸手摸真实世界 从纯文本生成到”有手有脚” 大语言模型在工具调用出现之前,本质上是一台极其复杂的文字处理机器。你问它”今天北京的 PM2.5 是多少”,...

作者:toy 大多数人第一次看到 ChatGPT 流式输出时,误以为模型在”思考”。实际上它在做一件更机械的事:每次预测下一个 token 的概率分布,然后采样。这个过程里没有回溯,没有规划,没有对全局的感知。一个字...

作者:toy | 覆盖周期:2026.5.16 – 2026.5.29 这一周,AI 公司密集地按下了两个按钮:上市和融资。OpenAI 在 5 月 22 日向 SEC 秘密递交了招股书,目标估值最高一万亿美元;六天后,Anthropic ...

这篇文章整理自 The Gray Cat 对 GSD 和 OpenSpec 的一次实测对比:同一个中型写作社区产品,同一个 PRD、同一个模型、同一个 Codex CLI。真正值得看的是,它把 Agent 框架到底在约束“改动”还是“项目”这件事,讲得非常清楚。 来源说明

你可能听过一个直觉:C++ 比 Python 快很多倍,所以 llama.cpp(C++ 写的)应该比 vLLM(Python 写的)快很多倍。实测打脸——同一个模型同一张卡,vLLM 在不少场景下比 llama.cpp 还快。这就是 Ca...