 

代码大模型SWE-rebench最新榜：Claude夺冠，DeepSeek性价比突围

2026-01-18 分类：前沿阅读(2) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

SWE-rebench公布了基于2025年12月GitHub真实任务的最新评测榜单。Anthropic的Claude Opus 4.5以63.3%的解决率位居榜首，OpenAI GPT-5.2与谷歌Gemini 3 Flash Preview紧随其后。评测特别关注了成本效益，Gemini 3 Flash与DeepSeek-V3.2以极低单题成本展现极高性价比。开源方面，智谱GLM-4.7突破至51.3%解决率，DeepSeek-V3.2表现同样亮眼，标志着行业正朝着高性能、低成本的协同方向发展。

原文链接：Linux.do

赞(0)

未经允许不得转载：Toy's Tech Notes » 代码大模型SWE-rebench最新榜：Claude夺冠，DeepSeek性价比突围

分享到

评论抢沙发

前沿哨所

性能超越 Grok？开源 InfiAgent 智能体框架发布

GitHub 上发布了名为 InfiAgent 的智能体框架，其 DeepSearch 基准测试在本地 20B 模型下表现优于 Grok。该框架集成 AI Scientist 和 Cowork 功能：前者可自动化实验并产出 EI 会议级论文；后者类似 Anthropic 的桌面操作，虽用 Docker 隔离，但作者仍对文件安全表示担忧。

原文链接：V2EX 分享发现

6分钟前
伊丽莎白豪宅的保温绝招：古代设计智慧启示现代节能建筑

本文探讨了英国哈德威克新宫在“小冰期”时期的独特保温设计。该豪宅通过精准的南北朝向、利用太阳能的房间布局、北面设置假窗以及厚重的砖石结构，实现了高效的被动式保温。专家指出，相比之下，现代全玻璃幕墙建筑过度依赖机械温控，能耗极高。文章呼吁从历史建筑中汲取灵感，利用自然环境和材料热特性来设计更高效的现代住宅，以应对气候变化并减少化石燃料依赖。

原文链接：Hacker News

6分钟前
没有完美的存储方案：数据结构中的时空博弈

就像整理书架没有唯一标准，数据存储也没有完美方案。本文探讨了哈希表和堆等核心数据结构如何在时间、空间与资源之间进行权衡。近期研究在哈希表和最短路径算法上取得突破。文章揭示了计算机科学的底层逻辑：没有全能解，只有针对特定场景的最优取舍，有时“混乱”反而更高效。

原文链接：Hacker News

6分钟前
这款工具将Mac菜单栏变为键盘指挥中心

这款名为ExtraBar的新应用旨在解决macOS菜单栏图标杂乱的问题。它不同于Bartender等仅隐藏图标的工具，而是将菜单栏转变为一个可键盘控制的命令中心。用户可通过快捷键直接启动应用动作，如加入Zoom会议、打开Slack频道或触发Apple快捷指令。该应用基于SwiftUI编写，支持Apple Silicon和Intel芯片，无需系统权限（辅助功能可选），且数据完全本地存储，无遥测功能，适合注重隐私与效率的极客用户。

原文链接：Hacker News

6分钟前
Agent 技能聚合平台上线，整合 Claude 与 Cursor 等主流工具

一个新的 Agent Skills Registry 平台上线，旨在帮助开发者发现和评估 AI 智能体技能。该网站支持 Claude Code、Codex、Cursor 和 VS Code 等主流开发工具，提供可搜索的技能快照、分类及实际使用元数据。这一聚合资源的出现，标志着 AI Agent 生态正从单一模型向具备丰富技能插件的可扩展体系演进，极大便利了开发者寻找适配的 Agent 能力。

原文链接：Linux.do

6分钟前
Nebius 新增 MiniMax-M2.1 模型：性能比肩 Kimi-K2，价格砍半

云平台 Nebius 近日上线了国内 AI 厂商 MiniMax 的最新模型 MiniMax-M2.1。据测试数据及社区讨论显示，该模型在推理速度上与此前备受关注的 Kimi-K2 基本持平，能够满足高效处理需求。更重要的是，其 API 调用价格相比 Kimi-K2 降低了一半，展现出极高的性价比。这一更新为开发者和企业在模型选择上提供了更具成本效益的方案，也反映了大模型市场竞争正逐渐转向性能与价格的双重比拼。

原文链接：Linux.do

6分钟前