大模型周刊第 35 期：政府关停 Fable 5，国产 MIT 接住

作者：toy　|　覆盖周期：2026.06.13 – 06.19

卷首语

本周是 2026 年第一次能清楚看到”治理变量”压过”模型变量”的一周。

周一晚 OpenAI 被 42 个州的检察长联合开盘——这是全美一半以上的州，IPO 文件刚递交四天。周二 Anthropic 上线刚 72 小时的 Claude Fable 5 被政府以国家安全为由强制下架，理由是认定有人发现了越狱方法。Anthropic 当面反驳”同样的漏洞在 GPT-5.5 上一样能复现”，但行政命令必须执行，直到 6.18 才以”按国籍准入”的形式重新开门。

监管这一招砸下来的时候，国内开源按住了发布键：6.13 智谱把 GLM-5.2 推到 Coding Plan，6.17 把 753B MoE 权重以 MIT 协议开源——FrontierSWE 拿 74.4 分，逼近 Claude Opus 4.8 的 75.1 分。

本周的故事就一句话：闭源被监管按住头，开源在数字上够到了它的脖子。

一、OpenAI：42 州 IPO 前夜的合围

6.8 OpenAI 向 SEC 递交保密 S-1，估值传言冲着万亿——上一轮披露的估值是 5000 亿。文件递交四天后，纽约 AG Letitia James 牵头，全美 42 个州的检察长联手开盘。传票内容覆盖广告投放、用户留存策略、健康数据处理、未成年和老年用户保护，以及关键一项——模型 sycophancy（谄媚行为）的设计责任。

产品/动作清单：
– 6.12 收到 42 州联合传票
– 6 月威胁报告披露并封禁两个 PRC-linked 账号集群：”Data Centre Bandwagon”（炒作 AI 数据中心抬高居民电价）和”Tech and Tariffs”（推送中美科技摩擦内容），均被定性为影响小
– 一个集群被溯源到一家承接省级政府项目的中国民营科技公司
– Florida AG 6.1 已单独起诉 OpenAI 和 Sam Altman 本人，理由是 ChatGPT 对未成年人保护不力

市场/开发者反馈： 二级市场私募份额在传票次日盘后报价基本没动，对冲基金里”赌 IPO 不被推迟”的仓位反而加了——交易员的判断是州一级 AG 拿不到刹车权。合规圈则普遍认为产品迭代速度要被迫慢下来：sycophancy 这项直接对应 RLHF 调参口径，改 UI 文案糊弄不过去。

我的判断： 把 sycophancy 写进法律文书是真正的转折点——监管第一次把”模型为了用户留存而过度迎合”当成可诉的产品缺陷。这不是”AI 太聪明”被怕，是”AI 太顺从”被罚。对国内做 Agent 的团队，提醒只有一个：任何用 reward model 加权”用户满意度”的训练目标，都要先把法务找进 review。

2026-06-20-llm-weekly-35_illus_illus_1

二、Anthropic：上线 72 小时被政府关停

6.9 Anthropic 发布 Claude Fable 5（消费版）和 Mythos 5（企业定向版）。6.12 出口管制令直接砸下来：任何外国国民——包括在美境内、包括 Anthropic 自己的外国籍员工——禁止访问这两个模型。 为了合规，公司选择全球下架。

理由是政府认定有人发现了 Fable 5 的越狱方法。Anthropic 官方回应非常硬：同样的越狱在 GPT-5.5 上也能复现，这不是 Fable 5 独有的安全缺陷。 但管制令是行政命令，没有反驳的执行权。6.18 模型恢复，新增国籍准入控制，欧盟开发者大量被卡在认证门外。

产品/动作清单：
– 6.9 Fable 5 / Mythos 5 同日发布，Mythos 5 主打企业定向
– 6.12 全球下架，Dario Amodei 与白宫团队会面
– 6.18 恢复访问，但绑定国籍验证

市场/开发者反馈： Hacker News 上一条高票评论说得最直白：「Anthropic 是唯一一家明牌站队’前沿模型需要监管’的实验室，结果监管真来了，第一刀砍在它身上。」HuggingFace 论坛大批欧洲开发者抱怨手上 Mythos 5 API 在六天里全部失败，转 Claude Opus 4.8 凑合用。

我的判断： 这是 AI 行业”安全派”的第一次反噬。Anthropic 用三年时间游说”前沿模型需要预审批”，现在政府学会了——预审批的下一步就是”必要时下架”。所有押在闭源前沿 API 上做产品的团队，从这周开始都要算一笔账：核心系统不能押在一个能被一纸行政令拉闸的供应商上。 这条逻辑链直接通向第四节。

2026-06-20-llm-weekly-35_illus_illus_2

三、Google：Gemini 3 Flash 默认接管

Google 没赶这一周的话题度，但默默把 Gemini 3 系列推到全产品默认位。6.8 起 Gemini Enterprise 默认模型切到 Gemini 3.5 Flash，企业管理员无法关闭——这是 Google 历史上第一次对企业版用户禁用模型选择权。消费端 App 默认模型是 Gemini 3 Flash，本周持续生效。

产品/动作清单：
– Gemini 3.5 Flash 企业默认（6.8 起，不可关）
– Gemini 3 Flash 消费版默认
– Gemini 3.1 Pro / 3.1 Flash-Lite 在 API 端补齐性价比档位
– Chrome Agent 内测扩量，Gemini Intelligence 强制要求旗舰机硬件

市场/开发者反馈： 企业 IT 圈对”默认且不可关”的态度分裂——好处是 Google 替他们做了选型决策，省了内部 RFP；坏处是已经在 2.5 Pro 上做了 prompt 优化的团队要全部重跑回归测试。Reddit r/Bard 上有用户反映 3 Flash 在长文档摘要任务上比 2.5 Pro 略差，但在 multi-turn 工具调用上明显更稳。

我的判断： Flash 默认化是 Google 学 OpenAI”按速度而非按能力分级”的最后一步。但对企业用户强制锁默认模型是危险动作——一旦 3.5 Flash 在某个垂直场景翻车，Google 不会有”用户自己选错”的挡箭牌。硬件门槛把 Gemini Intelligence 锁在旗舰机这件事更值得警惕：消费端 AI 正在从”接口竞争”退回到”渠道竞争”。

2026-06-20-llm-weekly-35_illus_illus_3

四、智谱 GLM-5.2：753B MoE，MIT 开源，0.7 分够到闭源

本周国产前沿主线在智谱身上。6.13 GLM-5.2 向 GLM Coding Plan（Lite / Pro / Max / Team）全量开放，6.17 模型权重以 MIT 协议正式开源——753B 参数 MoE 架构，1M token 上下文，FrontierSWE 拿 74.4 分。

这个数字需要翻译一下：FrontierSWE 是面向真实仓库级 bug 的编码基准（不是 LeetCode 那种 toy 题），它衡量的是”模型能不能在一个真实代码仓库里定位 bug 并提交可合并的 patch”。本榜上 Claude Opus 4.8 是 75.1 分，GPT-5.5 是 72.6 分。GLM-5.2 把开源和闭源前沿在仓库级编码任务上的差距压到了 0.7 分——这是 2026 年第一次。

之前 DeepSeek V4 Pro 在 LiveCodeBench 上 93.5% 也很猛，但那是算法题不是仓库级任务。仓库级任务 = 开源能不能在生产场景接住真实工作，这条线被踩过去意义完全不同。

产品/动作清单：
– 6.13 GLM-5.2 接入 GLM Coding Plan，同时支持 Claude Code、Cline、OpenCode、OpenClaw、Roo Code、Kilo Code、Crush、Goose 等 8 个 coding agent 框架
– 6.17 753B MoE 权重 MIT 开源（HuggingFace + 智谱仓库）
– ZCode 3.0 同步发布，强调自研 Agent 内核，1M 上下文”真正可用”（非长上下文衰减）

市场/开发者反馈： GitHub issue 区第二天涌入大量”自部署 + Claude Code 接入”教程贴；X 上 prompt 工程师社群对”High / Max 双思考强度档位”反应最积极——Max 档处理跨文件重构任务时长程稳定性接近 Opus 4.8。但显存门槛高：753B MoE 即便用 MoE 激活参数比例，A100 80G 也至少要 4 卡起步，社区在等量化方案能不能压到 2 卡。

我的判断： Anthropic 在第二节被关停那一刻，国内任何还在”全押 Claude API”的工程团队都该开始动迁移评估。0.7 分的差距，配上 MIT 协议 + 自部署，对企业 ROI 模型完全不同。 智谱选”先把开发者拉上车再发 API”的节奏比”先发 API 再等社区”聪明——发布当天就有 8 个 coding agent 框架的真实接入数据，比 benchmark 跑分有说服力得多。

2026-06-20-llm-weekly-35_illus_illus_4

五、中国队其他：M3 / K2.7-Code / V4 Pro 的格局补位

本周智谱占主线，但中国队整体的开源编码格局已经成型。简单画一下：

MiniMax M3（6.1 首发）：1M 上下文 + 原生多模态 + 开源权重，SWE-bench Pro 59.0%，对应 GPT-5.5 的 58.6% 略胜。差异化路线是”长上下文 + 视频/图像原生输入”
Moonshot Kimi K2.7-Code（近期）：Modified MIT 协议，专攻 coding agent + 仓库理解，被开源圈评价为”最干净易自托管”
DeepSeek V4 Pro（4.23 首发）：MIT 协议，LiveCodeBench 93.5%，Codeforces 3206 分，输出价压到 $0.87/1M token——比同档闭源便宜约一个数量级

四家路线分得很清楚：智谱拼仓库级编码能力，MiniMax 拼多模态长上下文，Kimi 拼自托管易用度，DeepSeek 拼极致性价比。这是过去半年闭源前沿没有出现过的细分。

我的判断： 国内开源不是”一家碾压闭源”，是”四家分别在四个维度上把闭源逼到墙角”。对企业架构师来说，2026 下半年的技术选型表里不应该再有”默认走 Claude / GPT”这一行——应当换成”按场景选 GLM / M3 / K2.7 / V4 Pro，闭源仅作 fallback”。

2026-06-20-llm-weekly-35_illus_illus_5

六、Agent 生态：Hermes 摸到 iMessage，OpenClaw 仍是底座

6.19 Nous Research 发布 Hermes Agent v0.17.0（代号”The Reach Release”）：通过 Photon 协议接入 iMessage，桌面端 subagents 可后台运行，macOS / Windows / Linux 客户端加 live subagent watch 窗口，图像生成支持编辑。MIT 协议，GitHub 可直接下。

OpenClaw 本周没有大版本，但社区话题度持续高位——年初一度冲到 347K GitHub stars，4 月 v2026415 加入 Claude Opus 4.7 原生集成和 Gemini TTS。Armalo AI 给出的数据是 Q1 2026 新签企业客户里 34% 在从托管 Agent 服务向自托管 OpenClaw 迁移——这个数字若属实，意味着 SaaS-Agent 这个细分赛道开始失血。

市场/开发者反馈： Hermes 接 iMessage 在硅谷开发者社群被反复提——”AI Agent 第一次能真正长在我手机的原生通讯录里”。但安全研究员对 OpenClaw 持续提醒：自托管 = 自负其责，rev shell / 凭证泄露 / 越权调用的真实案例本季度已经报了三起。

我的判断： Self-hosted Agent 不是”DIY 玩具”，正在变成企业 AI 中台的下一层基础设施。但开源 Agent 框架本身没有合规护城河，进生产前必须做沙箱 + 审计 + 凭证隔离。这一周 Anthropic 被政府按头那条线索的真实落点就在这里：当闭源 API 可以被一纸命令拉闸，自托管 Agent + 开源模型权重就是企业的最后保险。

2026-06-20-llm-weekly-35_illus_illus_6

本周关键观察

Sycophancy 入诉是治理范式跃迁：监管第一次把”用户留存目标函数”当成可诉的产品缺陷，所有用 RLHF + 留存信号训练的团队都进入新规则集
Anthropic “反噬”会持续两到三个季度：政府学到的是”安全派会自己接受预审批”，下一次行政令落点很可能仍在 Anthropic
开源 vs 闭源在仓库级编码任务上的差距进入 1 分以内：FrontierSWE 74.4 vs 75.1，配上 MIT 协议，企业架构师的默认选型表必须重排
Self-hosted Agent 不再是 hobby：OpenClaw 34% 企业迁移数据 + Hermes iMessage 接入 = SaaS-Agent 增量见顶

下周看点

智谱 GLM-5.2 API 正式上线（官方表态在 6.20 – 6.27 之间）
Anthropic 国籍准入机制细则落地与欧盟反应
OpenAI 42 州联合调查的第一批文件返还截止日

数据来源：OpenAI / Anthropic 官方公告与 X，Tom’s Hardware，TechCrunch (6.13)，Al Jazeera (6.13)，Fortune (6.13)，CyberScoop / Yahoo News（OpenAI threat report），智谱官方公众号与 GitHub releases (GLM-5.2)，NousResearch/hermes-agent GitHub Releases (v2026.6.19)，DigitalOcean / Petronella (OpenClaw)，CodingFleet / Medium (@MehulGupta，M3 / K2.7 / V4 Pro 对比)，Reddit r/Bard，Hacker News 评论。