科技社区 Linux.do 发布了关于 Qwen3.7-Plus 模型在 SNSE Bench 基准测试中的最新评测数据。测试结果显示,该模型在推理行为上表现出与 DeepSeek-V4-Flash 类似的“过度思考”特征,但其症状相对较轻,仅在 T6 和 T7 两个测试题目的解题过程中出现了思维链长度超限的情况。然而,该模型在代码生成质量上暴露出了显著短板。评测报告明确指出,Qwen3.7-Plus 是当前所有受测模型中编译错误最严重的模型,其提交的十份代码样本中竟有四份无法通过编译。具体分析显示,模型在基础代码规范性上存在明显缺陷:在 T1 和 T12 题目中出现了头文件缺失的低级错误,而在 T3 和 T8 题目中,模型“自作聪明”地添加了几行 `#pragma` 指令,结果导致莫名其妙的编译失败。这一数据表明,尽管模型具备一定的推理深度,但在确保代码可编译、可运行的工程实用性方面仍有很大缺陷。
事件分析
💡 核心观点:AI编程模型不应止步于模拟推理的“聪明”,更需严守代码可编译的工程底线,否则过度思考只会沦为错误的叠加。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪