近日,围绕 OpenAI 是否对第三方客户端发出的请求进行“降智”处理引发了开发者社区的广泛讨论与复现热潮。继此前关于 Codex 出现疑似输出质量下降(即“降智”)的讨论之后,一位名为 haowang02 的开发者为了便于社区成员验证这一现象,专门整理并开源了一款 Python 测试脚本 `codex-candy-eval`。该项目已托管至 GitHub 平台,承诺完全开源且无任何第三方依赖,旨在为技术验证提供标准化的测试手段。
该脚本专为已安装 Codex CLI 的用户设计,允许用户通过命令行精确控制测试参数。具体指令格式为 `python codex_candy_eval.py -m [模型名] -r [推理强度] -n [测试次数]`。工具支持自定义 Codex 模型名称,并提供了 low、medium、high、xhigh 四档推理强度设置,通过多次采样测试来量化评估模型在不同配置下的表现差异。根据项目介绍,该脚本能够直观地展示在所谓“降智”状态下的测试结果对比,有效降低了技术复现的门槛。这一开源项目的发布,不仅为此前热议的“516 降智现象”提供了可复用的验证工具,也体现了开发者社区对 AI 服务 API 一致性与透明度的持续关注。
事件分析
💡 核心观点:开源量化脚本将 AI 服务“降智”争议带入实证阶段,凸显了第三方生态对底层 API 一致性与透明度的刚性需求。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪