大模型周刊（第13期）：跨年特辑：从工具到代理的进化

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

TL;DR

哥，新年快乐！这周咱们不仅跨了个年，还跨过了一个 AI 时代的门槛。

本周（2025.12.28 – 2026.01.04）虽然有假期buff，但几大巨头都没闲着。最大的体感是：AI 正在从“手里的铲子”进化成“带项目的工头”。OpenAI 开始造硬件 Project Gumdrop，Google 让 Atlas 机器人进厂打工，Claude 和 Cursor 则在把程序员从“写代码”推向“审代码”的位置。

咱们这期是第13期，也是跨年特辑，所以除了盘点新闻，我还想和你聊聊这一年 AI 范式的底层逻辑变化。

一、2025 年度复盘：从 Tool 到 Agent 的惊险一跃

回看 2025 年初，咱们还在兴奋地折腾 n8n 和 Dify。那会儿的逻辑是“工作流编排”——我们是设计师，把一个个 AI 节点连线，AI 只是听话执行单一任务的零件。

到了年底，Claude Code 和 Subagents 的爆发把桌子掀了。现在的逻辑变了：你不需要告诉 AI “先做A再做B”，你只需要给它一个目标（Goal）。它自己拆解任务、自己写测试、自己改 Bug，甚至自己决定要不要查 Google。

这个变化意味着什么？
* 以前：你觉得 AI 傻，是因为 prompt 没写好。
* 现在：你觉得 AI 强，是因为它有了“自主权”（Autonomy）。

不管是 Cursor 的 Debug Mode 还是 Claude 的终端操作，都在讲同一个故事：人类正在从 Operator（操作员）变成 Supervisor（监督者）。2026 年，这种“代理化”只会更猛。

二、OpenAI：硬软结合的新野望

1. 硬件首秀：Project Gumdrop

OpenAI 终于按捺不住要进军物理世界了。最新的爆料是他们正在搞一个代号 “Project Gumdrop” 的硬件。
* 是啥：传闻是一支智能笔或者便携录音设备。
* 干啥：主打实时把你的手写笔记或语音扔进 ChatGPT 的云端大脑。
* 代工：富士康已经接单了，大概率在越南或美国生产。

这步棋很明显，Sam Altman 不想只活在浏览器里，他想渗透进你手里攥着的每一秒。

2. 也是“真”思考模式

Android 版本终于实装了 “Real Thinking Mode”。
这不是之前的生成速度慢一点那么简单，而是真·算力换智商。在 Auto、Instant 和 Thinking 三种模式里，Thinking 模式会调用更多的推理算力。
用户反馈：处理复杂逻辑（比如写正则、改架构）时，它不再是“秒回但在胡扯”，而是“慢吞吞但很靠谱”。这就是咱们要的——为了准确度，我愿意多等几秒。

3. Your Year 2025

虽然是个类似网易云音乐的年度总结功能，但这次能看出 OpenAI 想做“私人助理”的野心。它统计了你这一年聊了什么话题，这其实是在构建你的数字人格画像。

三、Google：搜索与身体的双重入侵

1. Gemini 3 Flash 接管搜索

Google 这周悄悄干了件大事：Gemini 3 Flash 成了 Google Search 的默认引擎。
你现在搜东西，看到的不再是十个蓝链接，而是一个极其结构化的答案。虽然为了防幻觉保留了原始链接，但这标志着“搜索”这个动作已经被“提问”取代了。

2. Atlas 进厂打工

波士顿动力的 Atlas 机器人（现在归 Hyundai 管，但脑子是 Google/Nvidia 的）开始在现代汽车工厂干活了。
* 任务：分类车顶架。
* 核心：它不是靠写死程序的，而是靠 AI 视觉和强化学习“看懂”了任务。这就是具身智能（Embodied AI）的闭环。

四、DevTools：最好的时代

1. Cursor 的 Debug Mode

Cursor 这周出的新功能直击痛点。以前我们要自己 console.log，现在 Cursor 的 Debug Mode 会：
1. 自动在代码里插桩（插入日志）。
2. 观察运行数据。
3. 定位 Bug。
4. 修复后自动把插桩代码删掉。
这简直是“用完即走”的典范，干净利落。

2. Claude 的代理爆发

Claude Code 最近被 Karpathy 大佬点名表扬了。大家发现 Claude 不只是个聊天框，它在终端里跑起来简直就是个初级工程师。
* 现象：给他一个 issue 链接，它自己去读代码、复现、修补、跑测试。
* 评价：社区都在说它是“下一代计算机”的雏形。

五、小结

哥，看完这周的新闻，我最大的感触是：AI 的容错率在降低，但上限在指数级拉高。

2025 年我们学会了用 AI，2026 年我们可能要学会“管理” AI。既然它能自己干活了，咱们的重点就得放在Code Review和架构设计上。

别被“泡沫论”吓到了，把手里的工具磨快，才是正经事。

下周见！

参考链接
* Project Gumdrop: Aibase
* Atlas Robot: Boston Dynamics

大模型周刊（第13期）：跨年特辑：从工具到代理的进化

TL;DR

一、2025 年度复盘：从 Tool 到 Agent 的惊险一跃