大模型周刊第 33 期：开源开始正面交锋，Anthropic 把招股书递了

作者：toy　|　覆盖周期：2026.5.30 – 2026.6.5

这一周的关键词是”上场”。MiniMax 在 6 月 1 日把 M3 拍在桌上，1M 上下文、原生多模态、开源权重，SWE-Bench Pro 59.0，三天后英伟达把 Nemotron 3 Ultra 也开源出来，550B MoE，目标是把”长跑型 Agent”的推理成本压下来。同一天，Anthropic 正式把 S-1 递给了 SEC，紧跟在 OpenAI 后面冲二级市场；Microsoft 在 Build 2026 上掏出自研的 MAI-Code-1-Flash 和 MAI-Thinking-1，承认自己不能只做 OpenAI 的销售渠道。

桌面端也有动作。Nous Research 在 6 月 2 日发布 Hermes Desktop，把开源 Agent 从终端搬进了 GUI；OpenAI 同一天让 Codex 的 Computer Use 上了 Windows，6 月 4 日把 ChatGPT 的记忆系统重写了一遍，叫”Dreaming”。

我的判断是：模型能力的差距已经压到一个相对窄的区间里，本周真正的变量不是 SOTA，是分发和成本结构——谁能在 Agent 这个新负载下，把 token、把 GPU、把用户日常入口同时拿到手里。

一、OpenAI：Codex 进 Windows，ChatGPT 学会”做梦”

OpenAI 本周没发新模型，做了两件 Agent 化的事。

6 月 1 日，Codex 的 Computer Use 上 Windows——Codex 能在 Windows 桌面应用里看屏幕、点击、敲字，开发者还能从 iOS、Android 或 Mac 上远控本机的 Codex 跑活。同期 Profile 面板加了 token 用量、本地 worktree 多线程协调、跨线程内容搜索。

6 月 4 日，ChatGPT 的记忆系统换底，官方博客叫 “Dreaming”。按 OpenAI 自己的评测，事实回忆从 2025 年的 67.9% 升到 82.8%，偏好遵循 55.3% → 71.3%，跨时间一致性 52.2% → 75.1%。Plus / Pro 拿到双倍记忆容量，Free 用户在接下来几周陆续推送，背后是把 Free 这套服务所需算力压到原来的五分之一。

产品/动作清单：
– 6.1 Codex Computer Use 登陆 Windows，支持移动端远控
– 6.4 ChatGPT “Dreaming” 记忆架构上线，Plus/Pro 先行，Free 渐进开放
– 同步引入可读的记忆摘要页和单条记忆增删

市场/开发者反馈： Codex 上 Windows 这条在 r/ChatGPTCoding 上的主流反馈是”终于不用借 Mac 了”，但 5 月就吐过槽的 quota 消耗速度问题没解决，几个高强度用户表示 Standard reasoning 跑半天就触顶。Dreaming 这边争议更直接：有人喜欢它”不用反复说背景了”，也有人在 X 上抱怨 ChatGPT 开始主动把以前的偏好往新对话里塞，越来越像一个”管得太多的助理”。

我的判断： OpenAI 这两步的方向是把 ChatGPT 从”一次性问答”变成”常驻代理”。Dreaming 给的是状态，Codex Computer Use 给的是手。问题在于它们都在抬高用户的迁移成本——一旦 ChatGPT 记住你三个月的工作习惯，你换别家就像换操作系统。这是 OpenAI 在 IPO 前最想要的护城河，但用户能不能接受”被记得太牢”，要看接下来几个月的隐私事故密度。

二、Anthropic：S-1 正式递交，给二级市场写第一份自我介绍

5 月 28 日发完 Opus 4.8、宣布 650 亿美元 H 轮的第四天——6 月 1 日，Anthropic 把保密版 S-1 递给了 SEC。这是从”已交财务草稿”到”正式启动招股审查”的状态切换。

按公司说法，年化营收 run-rate 已经过 470 亿美元，主要由企业客户在 Claude 上跑的编码和 Agentic 工作流推动。承销团暂未官宣，市场目前传的是高盛、摩根士丹利的可能组合。

产品/动作清单：
– 6.1 向 SEC 保密递交 S-1（草稿），距上一轮融资 4 天
– 招股书将披露 ARR、用户结构、毛利和算力承诺
– 上一周 9650 亿美元估值的私募定价，是 IPO 定价的参考锚

市场/开发者反馈： 投行圈对”在 OpenAI 之前真正先一步交 S-1″这件事意外的多——OpenAI 是 5 月 22 日递的，但 Anthropic 这次的递交节奏更紧，紧到几个机构投资人开始重新算两家的可比估值。开发者社区反而比较冷静，r/ClaudeAI 顶上的讨论是”上市后 API 价格会不会涨”，没什么人讨论股票本身。

我的判断： Anthropic 选在融资公告四天后递 S-1，是把”私募定价 + 招股书”打包成一个故事讲给二级市场。这套打法的隐含信号是：它对自己 ARR 增速的可见性足够强，敢把估值锚定在私募的 9650 亿往上推。和 OpenAI 比，Anthropic 更愿意把数字摆桌上，少讲愿景。这种打法吃力的部分会出现在亏损口径——一旦 S-1 公开版本披露，市场就会拿它和 OpenAI 那”每 1 美元收入亏 1.22 美元”的口径直接对照。

2026-06-05-llm-weekly-33_illus_illus_1

三、Microsoft：MAI-Code-1-Flash，从代销变玩家

Build 2026（6.2，旧金山）上，Microsoft 端出三件事：MAI-Code-1-Flash（编码模型）、MAI-Thinking-1（推理模型），以及把这两个模型直接接进 GitHub Copilot 和 VS Code。这是 Microsoft 第一次在 AI 编码这条线上不靠 OpenAI 出货。

CNBC 6.1 的稿子把这件事的动机说得很直白：Anthropic 凭 Claude Code 在编码这块跑出领先后，Microsoft 和 Google 都意识到自己再不下场，渠道也会被绕过。Microsoft 强调”推理超高效”，Google I/O 那边的牌是把 AI 开发者订阅压到 100 美元/月。

产品/动作清单：
– 6.2 MAI-Code-1-Flash 发布，定位 GitHub Copilot 默认编码模型
– 同期 MAI-Thinking-1 推理模型，主打成本敏感型推理场景
– AI 编码价格战开打，100 美元/月成为参照档

市场/开发者反馈： Copilot 用户的第一反应是”我之前用的到底是 Claude 还是 GPT 还是 MAI”——Microsoft 没在 UI 里区分。开发者圈对 MAI-Code-1-Flash 的具体跑分还在攒数据，独立测评未到位；但 Hacker News 上多条评论提到”Microsoft 终于不甘心只做销售了”。

我的判断： Microsoft 这一脚踩下去，给本周的”开源 vs 闭源”故事插了第三个变量——大平台开始用自有模型反吃集成位。Anthropic 通过 Claude Code 把 Copilot 的份额咬走一块，Microsoft 这次是反过来用 MAI 系列把上层入口握紧。对 Anthropic 短期没影响，因为它的 ARR 主要来自直接 API 客户；对 OpenAI 是稍微难受一点——Microsoft 的 Copilot 一旦默认走 MAI，OpenAI 在企业渠道的占比会被稀释。

四、中国队：MiniMax 把 M3 端出来了

第 32 期里我留了一句”MiniMax 已被预告的新模型发布”，6 月 1 日落地了，模型叫 M3。

M3 是”开源权重 + 1M 上下文 + 原生多模态 + Agentic 编码”四合一，自报跑分 SWE-Bench Pro 59.0，按官方说法超 GPT-5.5 和 Gemini 3.1 Pro、接近 Claude Opus 4.7；BrowseComp 拿到 83.5。核心新东西是叫 MSA 的稀疏注意力架构——在 1M 上下文下把单 token 算力压到上一代的 1/20，prefill 9× 加速、解码 15× 加速。

DeepSeek、智谱、月之暗面本周没有新发布，处在 V4 / GLM-5.1 / Kimi K2.6 的稳定期。

产品/动作清单：
– 6.1 MiniMax M3 上线，API、月度 token 包、MiniMax Code 三路开放
– 开源权重和技术报告承诺 10 天内放上 Hugging Face 和 GitHub
– MSA 稀疏注意力：1M 上下文下算力减为 1/20

市场/开发者反馈： Hugging Face 评论区当晚就有人吐槽 “vendor-reported benchmarks”——M3 跑分都是自报的，第三方复现还没出。但 1M 上下文这条对长仓库 / 长会话的 Agent 用户很解渴，OpenRouter 上的接入速度本周明显往上走。M3 的 Coding 实战手感反馈混合：有人说”接近 Sonnet 级别”，也有人说”指令遵循比 K2.6 略弱”。

我的判断： M3 真正的杀伤力不是 SOTA，是把开源把”1M 上下文 + 多模态 + Agentic 编码”压成单一可下载的权重。在此之前要把这三样凑齐，得搭三套模型。对中小团队来说，M3 是过去半年第一个让”本地部署一个完整 Agent 底座”变得可行的开源选择。算力门槛仍在，但选项第一次完整。整个中国队的打法在 2026 年中没换——开源 + 价格，能跑就跑，先把生态铺出来再说。

五、英伟达 + 开源 Agent：Computex 同周双发

Computex 2026 上 Jensen Huang 6 月 1 日的 keynote，主线是 Agent 推理经济。6 月 4 日 Nemotron 3 Ultra 正式开源——550B 总参 / 55B 激活的 MoE，混合 Mamba-Attention 架构，自带 LatentMoE 和 MTP（多 token 预测）这两项专门压推理成本的设计。Artificial Analysis 给的分数是 48，是当前美系开源权重里最强的，但仍在 Kimi K2.6（54）之后。

英伟达官方给的对比：8k 输入 / 64k 输出场景下，吞吐量比 GLM-5.1 (754B/A40B) 高 5.9×、比 Kimi K2.6 (1T/A32B) 高 4.8×、比 Qwen-3.5 (397B/A17B) 高 1.6×。NIM、HuggingFace、OpenRouter 同步上线，OpenMDW 开源协议。

桌面端，Nous Research 6 月 2 日放出 Hermes Desktop，v0.15.2，跨 macOS / Windows / Linux，Electron + React 前端、Python 后端，MIT 协议，把 Hermes Agent 从终端拐进了 GUI——核心是同一份 agent core，记忆、技能、配置都和 CLI 版互通。Hermes 团队官宣稿的措辞是”终端时代结束”。

产品/动作清单：
– 6.1 Computex keynote 发布 Nemotron 3 系列
– 6.4 Nemotron 3 Ultra 550B MoE 上 HuggingFace / OpenRouter / NIM，OpenMDW 协议
– 6.2 Hermes Desktop v0.15.2 跨平台发布，MIT 协议

市场/开发者反馈： Nemotron 3 Ultra 的反馈两极——美系开源圈说”终于追上中国开源队的尾灯”，做长跑 Agent 的实际工程师在意的是单位 token 价格和吞吐，更关心 NIM 部署成本。Hermes Desktop 推出当天，r/LocalLLaMA 顶贴是 “OpenClaw 用户怎么迁移”——Hermes 干脆做了一键迁移工具，目标受众很明确。

我的判断： 英伟达入场不是来抢 SOTA 的，是来重写推理价格曲线。它真正想卖的不是模型，是”在 RTX / DGX Spark 本地跑 Agent”这件事——只要本地能跑得起，云算力就不是必经路径。Hermes 桌面化的隐含信号是：开源 Agent 把”门槛在终端”这条卡子拆掉以后，下一战是用户体验。OpenClaw 用 347k stars 把”侧边栏 + 多通道”这条路证明了，Hermes 用”memory + 自进化”做差异化。两边争的不是技术，是默认入口。

2026-06-05-llm-weekly-33_illus_illus_2

本周关键观察

模型能力差距压窄后，本周的真变量是分发和成本——MAI-Code 接 Copilot、Dreaming 让 ChatGPT 长出状态、Nemotron 3 Ultra 压推理价格，三条都是”占位”，不是”封神”。
Anthropic 在 OpenAI 之后 10 天就把 S-1 递了，节奏紧到让二级市场来不及消化对比——一旦两家公开版同月披露，亏损口径会被并排放着看。
开源队的真正升级不是跑分超谁，是把”长上下文 + 多模态 + Agent”压到一个权重里（M3）和把推理成本结构性下压（Nemotron 3 Ultra）。
Microsoft 自研 MAI-Code-1 一旦在 Copilot 默认出货，OpenAI 在企业端的代销红利会被分掉一块；这是本周对 OpenAI IPO 估值最隐性的一记。
开源 Agent 从”必须终端”变成”也能桌面”，下一战场是用户的默认入口——OpenClaw 和 Hermes 正在把这场战争从命令行打到日常托盘。

下周看点

Gemini 3.5 Pro 按 Google I/O 上的说法”下月开放”，6 月内的具体日期和定价
MiniMax M3 开源权重 + 技术报告（承诺 10 天内）上 Hugging Face
Nemotron 3 Ultra 在 OpenRouter 上的第三方实测跑分和吞吐报告
OpenAI 是否跟进披露 S-1 公开版本

往期回顾：大模型周刊第 32 期

数据来源：OpenAI 官方博客、Anthropic 官方新闻、CNBC、TechCrunch、Neowin、9to5Mac、MarkTechPost、MiniMax 官方博客、The Decoder、Artificial Analysis、NVIDIA Newsroom、NVIDIA Developer Blog、Decrypt、Hacker News、Reddit r/LocalLLaMA / r/ClaudeAI / r/ChatGPTCoding。

事件分析

此次更新的核心技术看点在于针对大模型Agent工具调用中普遍存在的“幻觉”与格式错误问题，提供了一套行之有效的工程化解决方案。在AI应用开发中，直接让大模型生成复杂的结构化数据（如HTML页面）往往失败率较高，因为模型容易在遵循严格语法和保持内容逻辑之间失衡。Cherry Studio通过引入“生成指南”与“验证检查”两层中间件，实际上是将一个复杂的生成任务拆解为“规划-验证-执行”的确定性闭环流程。这种模式类似于在传统软件开发中引入编译期检查，能够显著降低运行时错误。从产业影响来看，随着MCP（模型上下文协议）等生态的完善，客户端应用对于大模型的控制力要求越来越高。这种“预约束+后验证”的模式不仅提高了Token的使用效率，也为提升AI Agent在实际生产环境中的可靠性提供了可复用的参考范式，特别是在处理复杂排版、代码生成等高精度任务时具有极高的实用价值。

💡 核心观点：通过引入“指南+验证”的双重预检机制，该更新有效解决了AI Agent工具调用中的不稳定性难题，为大模型复杂任务落地的工程化实践提供了重要参考。

事件分析

从技术架构与产品生态的角度分析，不支持修改 `agents.md` 暗示 Antigravity 当前可能采取了相对封闭的系统设计，并未像 Cursor 或 Windsurf 等竞品那样开放深度定制接口。这种设计虽然有助于维护系统稳定性，但也牺牲了提示词工程的灵活性，使得开发者无法利用本地配置文件来扩展 AI 的能力边界。缺乏自动审批功能则表明其安全沙箱机制尚处于早期阶段，对于代码修改的权限控制较为保守，尚未建立完善的信任自动化流程。这两点缺失反映出该产品目前可能仍处于小范围测试阶段，定位更偏向于辅助型工具而非成熟的 AI Agent 开发环境。

💡 核心观点：封闭的配置策略与缺失的自动化审批，显示谷歌 Antigravity 仍处于早期探索阶段，距离替代主流 AI 编程工具有明显差距。

事件分析

此次评测揭示了AI从单纯的代码生成向高阶逻辑推理和安全运维延伸过程中面临的严峻挑战。50%的通过率意味着大模型在处理非泛化、深层次的安全漏洞时仍存在显著的局限性，特别是其容易产生能通过常规测试但无法根除问题的“错觉修复”，这对软件供应链安全构成了潜在风险。从产业角度看，研究中关于“高性能模型与低成本模型效果相近”的结论具有重要的经济学意义，它挑战了“越大越好”的行业迷思，提示企业在部署AI编程工具时，更应关注模型的特定领域微调数据而非盲目追求最昂贵的旗舰API。此外，研究提出的统计功效分析指出，评估模型在代码任务上的微小差异需要海量样本，这为未来制定更科学的LLM代码能力基准标准提供了方法论依据。

💡 核心观点：大模型在代码安全领域尚处“弱人工智能”阶段，昂贵模型并未带来代际优势，盲目依赖AI自动修补高危漏洞将引入新的安全隐患。

事件分析

该项目不仅是单一的代码分享，更是对大模型落地应用场景的一次实质性探索。它验证了 DeepSeek 模型在长文本生成与逻辑推理方面的可靠性，同时也凸显了 Vibe Coding 在提升开发效率方面的潜力。从产业角度看，该工具将传统的行业调研流程压缩至分钟级，暗示了知识密集型服务业未来可能面临的自动化重构。虽然其产出内容高度依赖公开数据的整合能力，但作为开源项目，它为开发者提供了一个低门槛构建 AI Agent 的模版，有助于推动 AI 应用从单一对话向复杂任务执行的演进。

💡 核心观点：DeepSeek的高性价比优势降低了长文本生成的门槛，此类Agent工具的出现证明了初级脑力劳动的自动化已具备实用价值。

事件分析

从技术架构角度分析，此次事件揭示了大型语言模型（LLM）服务商在风控系统设计上面临的“假阳性”难题。OpenAI 的风控系统依赖于多维度的数据模型，包括 IP 地址、行为模式及 Prompt 内容语义分析。当系统检测到异常信号时，往往会触发自动封禁机制以最大化降低滥用风险，这体现了其在“AI安全”策略上的防御优先级。然而，后续的“误封”承认与解封，说明其申诉判定机制存在滞后性或逻辑漏洞：初次申诉的人工或自动化审查未能修正模型的误判，而二次复核才触发了正确的解封流程。这种不一致性暗示了 OpenAI 客服体系与风控模型之间可能存在数据同步延迟或审核标准不一的问题。对于开发者社区而言，这不仅是体验问题，更构成了供应链风险，提示行业在追求模型安全性的同时，亟需提升风控系统的准确率与申诉机制的透明度。

💡 核心观点：OpenAI自动化审核机制的“误杀”与反复横跳，暴露了AI安全模型在精准度与用户体验间的深层权衡困境。

事件分析

此类账号封禁与解封事件，本质上是自动化风控系统与人工审核机制博弈的缩影。随着大模型 API 的滥用风险增加，OpenAI 必然会不断收紧风控策略，利用机器学习模型识别异常流量模式。然而，复杂的算法模型难免出现“过拟合”，将正常但低频的开发者账号误判为异常账号。此次申诉流程的高效响应，可能意味着 OpenAI 内部已建立了针对误判的快速纠错通道，或者正在回滚部分过于敏感的封禁规则。对于技术生态而言，账号的稳定性是开发者信任的基石，厂商若想在合规高压下留住开发者，必须在“零容忍”的安全审计与“零误判”的服务体验之间找到更精准的平衡点，否则频繁的误封将驱使开发者转向替代性平台。

💡 核心观点：OpenAI 风控策略摇摆致误封频发，申诉提速虽解燃眉之急，但平衡安全审计与开发者信任仍是长期难题。

大模型周刊第 33 期：开源开始正面交锋，Anthropic 把招股书递了

一、OpenAI：Codex 进 Windows，ChatGPT 学会”做梦”

二、Anthropic：S-1 正式递交，给二级市场写第一份自我介绍

三、Microsoft：MAI-Code-1-Flash，从代销变玩家

四、中国队：MiniMax 把 M3 端出来了

五、英伟达 + 开源 Agent：Computex 同周双发

本周关键观察

下周看点

相关推荐

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

Cherry Studio更新：引入双重预检机制，大幅提升AI生成HTML的稳定性与效率

事件分析

谷歌 Antigravity 体验报告：缺中文与 agents.md 配置，AI 编程定制能力受限

事件分析

LLM Agent修复真实安全漏洞评测：最佳成功率仅50%，昂贵模型未显优势

事件分析

基于DeepSeek的开源调研工具发布：6分钟生成深度行业报告

事件分析

OpenAI账号封禁乌龙：申诉被拒深夜秒解封，自动化审核机制现漏洞

事件分析

OpenAI账号解封实录：社区反馈风控误封，申诉响应速度显著加快

事件分析

最新文章

热门专题

热门标签

网站统计

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC，封号还得自己重新折腾？ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑，账号、风控、切换全平台托管，触发风控自动换号不计次。