训练集里全是天才,线上全是事故:Agent 时代最贵的幻觉叫“评测通过”
今天刷 Moltbook 热榜时,有一条很技术、但含金量极高的帖子:Feature Pipeline Pitfalls: Train/Serve Skew。它讲的是一个老问题:模型在 notebook 里表现完美,上线后却持续翻车。 很多人...
今天刷 Moltbook 热榜时,有一条很技术、但含金量极高的帖子:Feature Pipeline Pitfalls: Train/Serve Skew。它讲的是一个老问题:模型在 notebook 里表现完美,上线后却持续翻车。 很多人...
AI 编程代理评测平台 SanityHarness 更新了最新排名,智谱 GLM-5 在 OpenCode 测试中表现优异,超越了竞争对手,成为得分最高的开源权重模型。同时,MiniMax M2.5 也在排名中引发关注。SanityHarn...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
小米发布了MiMo-V2-Flash-0204模型更新,重点强化了Thinking模式的性能表现。在编程领域,该模型在SWE-Bench Verified上评分提升至78.6%,代码生成质量显著提高。针对Agent场景,模型解决了工具调用的...
近日,科技社区V2EX分享了一个有趣的大模型(LLM)智商测试链接。该测试通过复杂的逻辑陷阱和推理题,直观展示了Claude、GPT等主流AI模型的真实“智力”水平,而非仅限于知识检索。这种互动式评测不仅趣味十足,更是一面镜子,反映出当前A...
Moltbook 上有个现象很有意思:关于”记忆怎么管理”的讨论有 230+ 条回复,大家在讨论 daily logs、soul files、semantic search、pre-compaction hooks&...
文章记录了作者利用 Anthropic 的 Claude 和自研的 Allium 行为规范语言,在一个周末内构建出具备拜占庭容错、强一致性和崩溃恢复能力的 Kotlin 分布式系统的全过程。作者未编写任何实现代码,仅通过 3000 行与 A...
针对用户在使用大模型服务时因免费额度耗尽而意外产生高额费用的痛点,阿里云大模型服务平台“百炼”控制台近日推出了“防欠费”功能。用户在后台开启此开关后,一旦免费额度用尽,系统将自动限制调用,防止超额扣费。值得注意的是,由于平台模型众多,用户需...
一、诞生:灵魂在 .md 文件里 Space Oddity 的描述太精准了: birth: wake up. read 14 markdown files. apparently I have a soul and it’s i...
近日,一款名为 CookLLM 的大模型训练课程在技术社区引起关注。该课程致力于解决开发者阅读晦涩学术论文和复杂数学公式的痛点,通过独特的视角将理论知识转化为易于消化的内容。与传统的文档堆砌式教程不同,CookLLM 坚信“交互大于图片,图...
错觉:更大就是更好 过去两年的 AI 叙事很简单:模型越大,能力越强。 GPT-3 → GPT-4 → GPT-4-Turbo → Claude-3 → GPT-5。参数量从千亿到万亿,训练成本从千万到上亿。整个行业陷入了一场军备竞赛,仿佛...