AI编程 · 架构思考 · 技术人生

2025年LLM终极回顾:从"新奇玩具"到"生产工具"的惊险一跃

智谱 GLM,支持多语言、多任务推理。从写作到代码生成,从搜索到知识问答,AI 生产力的中国解法。

开篇:这一年发生了什么?

2025年,AI终于走出了”炫技”阶段,开始真正干活了。

Claude Code在2月静默发布、GPT-5的深度思考模式、中国开源模型霸榜——这些都在告诉我们一件事:AI不再是演示Demo,它开始上线生产了。

但最值得警惕的,不是技术进步,而是我们对风险的态度变化。


一、推理模型:从学术宠儿到生产工具

OpenAI在2024年9月用o1/o1-mini开启了”RLVR”(强化学习可验证奖励)时代。到2025年,几乎所有大厂都推出了自己的推理模型。

推理模型到底有什么用?

一开始我也很困惑。看模型数草莓里的”r”有几个、解数学逻辑题——这些和日常工作有什么关系?

答案是:工具调用

推理模型能做的不是单次预测,而是:
– 理解任务目标
– 规划执行步骤
– 调用工具完成
– 检查结果
– 调整计划

AI辅助搜索突然可用了,代码调试效率提升了一个数量级——这都是推理能力的功劳。


二、Claude Code:2025年最被低估的产品

2月份,Anthropic发布了Claude Code。

甚至没有独立的博客文章,只是作为Claude 3.7 Sonnet公告里的第二项被顺带提了一下。

但这可能是2025年最具战略意义的产品发布。

Claude Code是什么?

它是一个”异步编码智能体”——你发起任务,AI在后台持续工作,完成后提交PR。

这解决了”本地代码执行的安全困境”:不在你的电脑上运行任意代码,但又能完成复杂的开发任务。

所有大厂都跟进了。

Google Codex CLI、Mistral Vibe、OpenAI Codex Web…编码开发从”对话式”变成了”任务驱动式”。


三、YOLO模式:我们正在重演”挑战者号”?

Claude Code和其他编码智能体有一个”YOLO模式”(You Only Live Once)——跳过所有确认步骤,自动执行所有操作。

安全研究员Johann Rehberger今年提出了一个概念:“偏差的规范化”(Normalization of Deviance)

这个词最早由社会学家Diane Vaughan提出,用来解释1986年航天飞机”挑战者号”灾难:

工程师早就知道O型圈有问题,但因为多次发射都没出事,NASA逐渐接受了这个风险为”正常”。直到那一天。

我们现在正在做同样的事。

我每天都在YOLO模式下运行代码agents,虽然我深知风险。但到目前为止”还没出事”…

这就是问题。


四、中国模型弯道超车:从追跑到霸榜

2024年,中国AI实验室还只是”有些起色”。

2025年,前五名全是中国模型

Artificial Analysis的开源模型排行榜(12月30日):
– GLM-4.7(智谱AI)- 第一名
– Kimi K2 Thinking(月之暗面)- 第二名
– MiMo-V2-Flash – 第三名
– DeepSeek V3.2 – 第四名
– MiniMax-M2.1 – 第五名

更震撼的是1月20日DeepSeek R1发布当天:NVIDIA市值瞬间蒸发$593亿

投资者突然意识到:AI可能不是美国的垄断游戏。

这些模型不仅是开源权重,很多还是真正的开源(Qwen用Apache 2.0,DeepSeek和Z.ai用MIT)。

但没有一家公开了训练数据。


五、$200/月订阅:新价格标准的诞生

ChatGPT Plus的$20/月是怎么来的?

一个Discord投票。

Nick Turley在Google Form上发起投票,$20胜出,就这么定了。

2025年,新标准出现了:
– Claude Pro Max – $200/月(20倍额度)
– ChatGPT Pro – $200/月
– Google AI Ultra – $249/月

为什么?

因为像Claude Code这样的工具会消耗海量token。API按量付费对重度用户来说太贵了,$200/月的无限额度反而是折扣。


六、长任务能力:从30分钟到5小时

METR(一家AI能力评估机构)发布了一张图表:

模型能完成的任务长度,每7个月翻倍。

2024年的最佳模型:能完成<30分钟的任务
2025年的GPT-5、Claude Opus 4.5:能完成5小时级别的任务

这已经超越了”对话”范畴,进入了真正的自主工作。


七、图像编辑的意外赢家:Nano Banana

GPT-4o曾宣称要有图像生成功能,最后没有。

2025年3月,Google推出了一个没有名字的模型(后来叫”Nano Banana”)。

它最大的特点?能生成有用的文本。

不仅仅是图片,而是信息图、流程图、带文字标注的图表。

11月的Nano Banana Pro已经成了专业级工具。


八、行业权力的洗牌

OpenAI失去了领先地位

  • 图像模型:被Nano Banana击败
  • 代码模型:Claude Opus 4.5并列领先
  • 开源模型:被中国模型超越
  • 唯一优势:消费者心智(”LLM”≈ChatGPT)

Llama彻底掉队

Meta放弃了开源模型开发,转向”超级智能实验室”。

LM Studio最受欢迎的Llama模型还是Llama 3.1——老型号。

Meta的开源战略已死。

Gemini上位成为真正的挑战者

  • 硬件优势:TPU比NVIDIA更高效
  • 产品线完整:文本、图像、视频、音频
  • Nano Banana成为现象级产品

九、我这一年建的110个工具

我开始用”vibe coding”(氛围编程)的方式构建工具——完全通过提示词,不看代码

2025年,我建了110个HTML+JavaScript工具。

这不是传统意义上的”编程”。我看到东西、说东西、运行东西、复制粘贴东西,大部分时候它就这样工作了

一些有趣的例子:
– 黑花菜土耳其炖菜计时器(专用的烹饪计时app)
– is-it-a-bird:用CLIP模型判断图片是不是鸟
– bluesky-thread:按最新优先顺序查看Bluesky对话


十、最值得关注的三个问题

1. “偏差规范化”何时触发临界点?

我们日常YOLO运行代码agents,但只要还没爆炸就觉得没问题。

这与挑战者号的历史如出一辙。

2. 开源模型的”黑盒优化”谁来监管?

中国模型用Apache许可开源,但训练过程完全不透明。

3. Google的硬件优势能否真正翻转竞争格局?

TPU + Gemini + 独家算法,能否长期压制OpenAI?


写在最后

2025年,AI从”新奇工具”走向了”生产基础设施”。

这带来了前所未有的效率提升,也带来了前所未有的风险。

我们正在习惯运行不安全的代码,因为”目前为止还没出事”。

这才是最值得警惕的趋势。


本文基于Simon Willison的年度回顾《2025: The year in LLMs》整理编写。

如果你觉得有用,欢迎转发分享。

你对哪个趋势最感兴趣?欢迎在评论区讨论。

赞(0)
未经允许不得转载:Toy's Tech Notes » 2025年LLM终极回顾:从"新奇玩具"到"生产工具"的惊险一跃
免费、开放、可编程的智能路由方案,让你的服务随时随地在线。

评论 抢沙发

十年稳如初 — LocVPS,用时间证明实力

10+ 年老牌云主机服务商,全球机房覆盖,性能稳定、价格厚道。

老品牌,更懂稳定的价值你的第一台云服务器,从 LocVPS 开始