Anthropic神秘新模型基准测试曝光:代码能力大幅碾压Opus,编程自动化或迎奇点
V2EX网友分享了疑似Anthropic内部新模型’Mythos’的测试数据,其在SWE-bench系列基准测试中表现惊人,多项指标大幅超越现有的Claude Opus 4.6。数据显示,Mythos在SWE-ben...
V2EX网友分享了疑似Anthropic内部新模型’Mythos’的测试数据,其在SWE-bench系列基准测试中表现惊人,多项指标大幅超越现有的Claude Opus 4.6。数据显示,Mythos在SWE-ben...
近日,V2EX社区关于AI编程工具成本的讨论引发了开发者的广泛共鸣。有用户指出,尽管Cursor编辑器在Claude 3 Opus等高端模型加持下效果惊艳,能大幅提升编码效率,但其昂贵的订阅费用让个人开发者感到“钱包难以支撑”,且其Auto...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
近期,部分开发者在使用 AI 代码编辑器 Cursor 时遭遇突发状况,长期稳定可用的 Claude 模型突然报错,提示“地区不支持”。据社区反馈,部分此前未使用 VPN 也能正常使用的用户,今日开始被封锁访问。这一迹象表明 Cursor ...
随着AI编程助手Cursor的广泛应用,开发者群体正积极尝试将其与国内大模型(如智谱)进行联动,以寻求更低的成本和更好的本地化体验。然而,近期有社区反馈指出,尽管已按照常规流程填写了API Key、修改了接口URL并添加了对应模型,Curs...
随着Claude Code等AI编程工具的普及,开发者面临着新的交互痛点:当AI生成的代码规划包含难以理解的专业术语时,若在主窗口反复追问细节,极易浪费宝贵的上下文窗口并导致主任务“跑题”。本文讨论了通过独立窗口加载主上下文进行咨询的解决方...
科技社区近日针对DeepSeek、GLM-5.1及Gemini三大AI模型进行了一场硬核编程测试。挑战要求各模型使用Three.js生成一个包含移动、跳跃及方块交互功能的简易版《我的世界》。测试结果显示,GLM-5.1表现最佳,完全遵循指令...
本文基于开发者实际体验,对比了Google Antigravity、Amazon Q、Windsurf、ChatGPT及Cursor等主流AI代码编辑器的性价比与使用现状。反馈显示,Google Pro账户存在限制重置慢的问题;Amazon...
近日,科技社区Linux.do上有用户分享了DeepSeek新版本模型(被称为“专家模式”或V4)的实战体验。该用户仅输入“给我写一个炫酷的个人主页博客界面”这一简单指令,DeepSeek便迅速输出了完整且视觉效果出色的前端代码。该开发者反...
本文探讨了 Claude Code 等 AI 编程工具在实战中的应用现状。作者指出,虽然 AI 在处理定义清晰的单一任务时表现出色(如克隆网站),但业内目前充斥着仅展示“神奇 Prompt”生成 Demo 的表面内容。文章犀利地指出了当前市...

那篇文章戳到了什么 前几天 Andrej Karpathy 在 GitHub 上发了一篇叫 LLM Wiki 的短文。我读完之后坐在椅子上想了大概十分钟。 不是因为他讲了什么新技术,而是因为他把一个我一直在做但从来没想清楚的事情,说得太透了...