AI编程 · 架构思考 · 技术人生

大模型周刊(第13期):跨年特辑:从工具到代理的进化

#AI周刊:大模型、智能体与产业动态追踪
智谱 GLM,支持多语言、多任务推理。从写作到代码生成,从搜索到知识问答,AI 生产力的中国解法。

TL;DR

哥,新年快乐!这周咱们不仅跨了个年,还跨过了一个 AI 时代的门槛。

本周(2025.12.28 – 2026.01.04)虽然有假期buff,但几大巨头都没闲着。最大的体感是:AI 正在从“手里的铲子”进化成“带项目的工头”。OpenAI 开始造硬件 Project Gumdrop,Google 让 Atlas 机器人进厂打工,Claude 和 Cursor 则在把程序员从“写代码”推向“审代码”的位置。

咱们这期是第13期,也是跨年特辑,所以除了盘点新闻,我还想和你聊聊这一年 AI 范式的底层逻辑变化。


一、2025 年度复盘:从 Tool 到 Agent 的惊险一跃

回看 2025 年初,咱们还在兴奋地折腾 n8n 和 Dify。那会儿的逻辑是“工作流编排”——我们是设计师,把一个个 AI 节点连线,AI 只是听话执行单一任务的零件。

到了年底,Claude Code 和 Subagents 的爆发把桌子掀了。现在的逻辑变了:你不需要告诉 AI “先做A再做B”,你只需要给它一个目标(Goal)。它自己拆解任务、自己写测试、自己改 Bug,甚至自己决定要不要查 Google。

这个变化意味着什么?
* 以前:你觉得 AI 傻,是因为 prompt 没写好。
* 现在:你觉得 AI 强,是因为它有了“自主权”(Autonomy)。

不管是 Cursor 的 Debug Mode 还是 Claude 的终端操作,都在讲同一个故事:人类正在从 Operator(操作员) 变成 Supervisor(监督者)。2026 年,这种“代理化”只会更猛。


二、OpenAI:硬软结合的新野望

1. 硬件首秀:Project Gumdrop

OpenAI 终于按捺不住要进军物理世界了。最新的爆料是他们正在搞一个代号 “Project Gumdrop” 的硬件。
* 是啥:传闻是一支智能笔或者便携录音设备。
* 干啥:主打实时把你的手写笔记或语音扔进 ChatGPT 的云端大脑。
* 代工:富士康已经接单了,大概率在越南或美国生产。

这步棋很明显,Sam Altman 不想只活在浏览器里,他想渗透进你手里攥着的每一秒。

2. 也是“真”思考模式

Android 版本终于实装了 “Real Thinking Mode”
这不是之前的生成速度慢一点那么简单,而是真·算力换智商。在 Auto、Instant 和 Thinking 三种模式里,Thinking 模式会调用更多的推理算力。
用户反馈:处理复杂逻辑(比如写正则、改架构)时,它不再是“秒回但在胡扯”,而是“慢吞吞但很靠谱”。这就是咱们要的——为了准确度,我愿意多等几秒。

3. Your Year 2025

虽然是个类似网易云音乐的年度总结功能,但这次能看出 OpenAI 想做“私人助理”的野心。它统计了你这一年聊了什么话题,这其实是在构建你的数字人格画像


三、Google:搜索与身体的双重入侵

1. Gemini 3 Flash 接管搜索

Google 这周悄悄干了件大事:Gemini 3 Flash 成了 Google Search 的默认引擎
你现在搜东西,看到的不再是十个蓝链接,而是一个极其结构化的答案。虽然为了防幻觉保留了原始链接,但这标志着“搜索”这个动作已经被“提问”取代了。

2. Atlas 进厂打工

波士顿动力的 Atlas 机器人(现在归 Hyundai 管,但脑子是 Google/Nvidia 的)开始在现代汽车工厂干活了。
* 任务:分类车顶架。
* 核心:它不是靠写死程序的,而是靠 AI 视觉和强化学习“看懂”了任务。这就是具身智能(Embodied AI)的闭环。


四、DevTools:最好的时代

1. Cursor 的 Debug Mode

Cursor 这周出的新功能直击痛点。以前我们要自己 console.log,现在 Cursor 的 Debug Mode 会:
1. 自动在代码里插桩(插入日志)。
2. 观察运行数据。
3. 定位 Bug。
4. 修复后自动把插桩代码删掉
这简直是“用完即走”的典范,干净利落。

2. Claude 的代理爆发

Claude Code 最近被 Karpathy 大佬点名表扬了。大家发现 Claude 不只是个聊天框,它在终端里跑起来简直就是个初级工程师
* 现象:给他一个 issue 链接,它自己去读代码、复现、修补、跑测试。
* 评价:社区都在说它是“下一代计算机”的雏形。


五、小结

哥,看完这周的新闻,我最大的感触是:AI 的容错率在降低,但上限在指数级拉高。

2025 年我们学会了用 AI,2026 年我们可能要学会“管理” AI。既然它能自己干活了,咱们的重点就得放在Code Review架构设计上。

别被“泡沫论”吓到了,把手里的工具磨快,才是正经事。

下周见!


参考链接
* Project Gumdrop: Aibase
* Atlas Robot: Boston Dynamics

赞(0)
未经允许不得转载:Toy's Tech Notes » 大模型周刊(第13期):跨年特辑:从工具到代理的进化
免费、开放、可编程的智能路由方案,让你的服务随时随地在线。

评论 抢沙发

十年稳如初 — LocVPS,用时间证明实力

10+ 年老牌云主机服务商,全球机房覆盖,性能稳定、价格厚道。

老品牌,更懂稳定的价值你的第一台云服务器,从 LocVPS 开始