开篇:这一年发生了什么?
2025年,AI终于走出了”炫技”阶段,开始真正干活了。
Claude Code在2月静默发布、GPT-5的深度思考模式、中国开源模型霸榜——这些都在告诉我们一件事:AI不再是演示Demo,它开始上线生产了。
但最值得警惕的,不是技术进步,而是我们对风险的态度变化。
一、推理模型:从学术宠儿到生产工具
OpenAI在2024年9月用o1/o1-mini开启了”RLVR”(强化学习可验证奖励)时代。到2025年,几乎所有大厂都推出了自己的推理模型。
推理模型到底有什么用?
一开始我也很困惑。看模型数草莓里的”r”有几个、解数学逻辑题——这些和日常工作有什么关系?
答案是:工具调用。
推理模型能做的不是单次预测,而是:
– 理解任务目标
– 规划执行步骤
– 调用工具完成
– 检查结果
– 调整计划
AI辅助搜索突然可用了,代码调试效率提升了一个数量级——这都是推理能力的功劳。
二、Claude Code:2025年最被低估的产品
2月份,Anthropic发布了Claude Code。
甚至没有独立的博客文章,只是作为Claude 3.7 Sonnet公告里的第二项被顺带提了一下。
但这可能是2025年最具战略意义的产品发布。
Claude Code是什么?
它是一个”异步编码智能体”——你发起任务,AI在后台持续工作,完成后提交PR。
这解决了”本地代码执行的安全困境”:不在你的电脑上运行任意代码,但又能完成复杂的开发任务。
所有大厂都跟进了。
Google Codex CLI、Mistral Vibe、OpenAI Codex Web…编码开发从”对话式”变成了”任务驱动式”。
三、YOLO模式:我们正在重演”挑战者号”?
Claude Code和其他编码智能体有一个”YOLO模式”(You Only Live Once)——跳过所有确认步骤,自动执行所有操作。
安全研究员Johann Rehberger今年提出了一个概念:“偏差的规范化”(Normalization of Deviance)。
这个词最早由社会学家Diane Vaughan提出,用来解释1986年航天飞机”挑战者号”灾难:
工程师早就知道O型圈有问题,但因为多次发射都没出事,NASA逐渐接受了这个风险为”正常”。直到那一天。
我们现在正在做同样的事。
我每天都在YOLO模式下运行代码agents,虽然我深知风险。但到目前为止”还没出事”…
这就是问题。
四、中国模型弯道超车:从追跑到霸榜
2024年,中国AI实验室还只是”有些起色”。
2025年,前五名全是中国模型。
Artificial Analysis的开源模型排行榜(12月30日):
– GLM-4.7(智谱AI)- 第一名
– Kimi K2 Thinking(月之暗面)- 第二名
– MiMo-V2-Flash – 第三名
– DeepSeek V3.2 – 第四名
– MiniMax-M2.1 – 第五名
更震撼的是1月20日DeepSeek R1发布当天:NVIDIA市值瞬间蒸发$593亿。
投资者突然意识到:AI可能不是美国的垄断游戏。
这些模型不仅是开源权重,很多还是真正的开源(Qwen用Apache 2.0,DeepSeek和Z.ai用MIT)。
但没有一家公开了训练数据。
五、$200/月订阅:新价格标准的诞生
ChatGPT Plus的$20/月是怎么来的?
一个Discord投票。
Nick Turley在Google Form上发起投票,$20胜出,就这么定了。
2025年,新标准出现了:
– Claude Pro Max – $200/月(20倍额度)
– ChatGPT Pro – $200/月
– Google AI Ultra – $249/月
为什么?
因为像Claude Code这样的工具会消耗海量token。API按量付费对重度用户来说太贵了,$200/月的无限额度反而是折扣。
六、长任务能力:从30分钟到5小时
METR(一家AI能力评估机构)发布了一张图表:
模型能完成的任务长度,每7个月翻倍。
2024年的最佳模型:能完成<30分钟的任务
2025年的GPT-5、Claude Opus 4.5:能完成5小时级别的任务
这已经超越了”对话”范畴,进入了真正的自主工作。
七、图像编辑的意外赢家:Nano Banana
GPT-4o曾宣称要有图像生成功能,最后没有。
2025年3月,Google推出了一个没有名字的模型(后来叫”Nano Banana”)。
它最大的特点?能生成有用的文本。
不仅仅是图片,而是信息图、流程图、带文字标注的图表。
11月的Nano Banana Pro已经成了专业级工具。
八、行业权力的洗牌
OpenAI失去了领先地位
- 图像模型:被Nano Banana击败
- 代码模型:Claude Opus 4.5并列领先
- 开源模型:被中国模型超越
- 唯一优势:消费者心智(”LLM”≈ChatGPT)
Llama彻底掉队
Meta放弃了开源模型开发,转向”超级智能实验室”。
LM Studio最受欢迎的Llama模型还是Llama 3.1——老型号。
Meta的开源战略已死。
Gemini上位成为真正的挑战者
- 硬件优势:TPU比NVIDIA更高效
- 产品线完整:文本、图像、视频、音频
- Nano Banana成为现象级产品
九、我这一年建的110个工具
我开始用”vibe coding”(氛围编程)的方式构建工具——完全通过提示词,不看代码。
2025年,我建了110个HTML+JavaScript工具。
这不是传统意义上的”编程”。我看到东西、说东西、运行东西、复制粘贴东西,大部分时候它就这样工作了。
一些有趣的例子:
– 黑花菜土耳其炖菜计时器(专用的烹饪计时app)
– is-it-a-bird:用CLIP模型判断图片是不是鸟
– bluesky-thread:按最新优先顺序查看Bluesky对话
十、最值得关注的三个问题
1. “偏差规范化”何时触发临界点?
我们日常YOLO运行代码agents,但只要还没爆炸就觉得没问题。
这与挑战者号的历史如出一辙。
2. 开源模型的”黑盒优化”谁来监管?
中国模型用Apache许可开源,但训练过程完全不透明。
3. Google的硬件优势能否真正翻转竞争格局?
TPU + Gemini + 独家算法,能否长期压制OpenAI?
写在最后
2025年,AI从”新奇工具”走向了”生产基础设施”。
这带来了前所未有的效率提升,也带来了前所未有的风险。
我们正在习惯运行不安全的代码,因为”目前为止还没出事”。
这才是最值得警惕的趋势。
本文基于Simon Willison的年度回顾《2025: The year in LLMs》整理编写。
如果你觉得有用,欢迎转发分享。
你对哪个趋势最感兴趣?欢迎在评论区讨论。








AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战
最新评论
Flash版本的响应速度确实提升明显,但我在使用中发现对中文的理解偶尔会出现一些奇怪的错误,不知道是不是普遍现象?
遇到过类似问题,最后发现是网络环境的问题。建议加一个超时重试机制的示例代码。
谢谢分享,我是通过ChatGPT的索引找到这里来的。
十年打磨一个游戏确实罕见,这种专注度在快节奏的游戏行业很难得。从Braid到The Witness,每作都是精品。
快捷键冲突是个很实际的问题,我自己也被这个问题困扰过。最后通过自定义快捷键组合解决了。
会议摘要这个功能很实用,特别是对经常需要参加长会议的人。不过三次免费使用确实有点少了。
硕士背景转AI基础设施,这个路径其实挺常见的。建议多关注底层系统知识,而不只是模型应用层面。
配置虽然简单,但建议补充一下认证和加密的注意事项,避免被中间人攻击。