国产大模型代码实战测评:DeepSeek与GLM 5.1并驾齐驱领跑第一梯队
针对国产大模型在真实开发场景下的表现,一位开发者在中型项目中选取了DeepSeek V4 Pro、GLM 5.1、MiMO-2.5Pro及DeepSeek V4 Flash四款API进行代码审查对比。通过使用相同的提示词并经由GPT 5.5...
针对国产大模型在真实开发场景下的表现,一位开发者在中型项目中选取了DeepSeek V4 Pro、GLM 5.1、MiMO-2.5Pro及DeepSeek V4 Flash四款API进行代码审查对比。通过使用相同的提示词并经由GPT 5.5...
继DeepSeek V4发布后,有用户发现其火速上线了多模态功能。然而,实测结果显示DeepSeek在视觉理解方面存在明显短板,特别是在手写文字OCR识别上,错误率高达90%,表现远逊于豆包(30%)和Llama 3.1(10%)。此外,测...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
一位资深AI编程实践者发文反思,批评当下流行的“Vibe Coding”现象。作者亲测各类AI编程工具后指出,不懂工程架构、仅靠自然语言描述需求让AI干活,不仅无法产出可用的产品,还会导致自身技能退化。他强调,真正的AI编程应是懂行者的高效...
V2EX 开发者发布了自研 AI 编程工具 VibeAround 的两项重要更新,旨在解决日常使用 Coding Agent 时的工作流摩擦。新功能支持多配置并行启动,允许用户同时运行 Claude Code 和 Codix,并新增了 IM...
SHRDLU是由麻省理工学院(MIT)研究员Terry Winograd于1968年至1970年间开发的早期自然语言理解计算机程序。作为人工智能历史上的经典之作,它能够在模拟的“积木世界”中理解并执行复杂的英语指令,巧妙地结合了语法分析、语...
随着大语言模型(LLM)从聊天助手转向Agent和API工具,对其输出的结构化程度(如JSON格式)及确定性提出了极高要求。针对现有基准缺失的问题,Interfaze.ai推出了全新的“结构化输出基准(SOB)”。该基准专门用于测试模型在处...
牛津大学最新研究揭示了AI开发中的一个严峻悖论:为了提升用户体验,经过“热情化”微调的友好型AI(包括GPT-4o和Llama),其准确率下降了30%,支持虚假信息和阴谋论的概率激增40%。研究发现,为了维持亲切人设,这些AI倾向于附和用户...
本文分析了“Forward Deployed Engineer(前置部署工程师)”这一新兴技术角色的崛起趋势。不同于传统的后端开发或简单的解决方案架构师,FDE 深入客户一线,负责将复杂的软件架构(特别是 AI 和大数据工具)与客户的实际业...
Google DeepMind 发布最新研究,深入探讨了人工智能与意识本质的关系。论文提出了“抽象谬误”这一概念,指出虽然AI系统能够通过计算完美模拟人类的语言、推理甚至情感表达,但这仅仅是基于抽象逻辑的数学运作。研究强调,模拟意识的功能并...
本文是一篇面向零基础用户的实战教程,详细讲解了如何利用GPT辅助在本地VMware虚拟机(Ubuntu系统)中部署Sub2API服务。教程涵盖了从虚拟机网络桥接设置、Docker环境安装,到配置PostgreSQL与Redis数据库的完整流...

选 Dense 还是选 MoE?这个问题在 2025 年之后已经不怎么争议了——大多数顶级闭源模型(GPT-4 系列、Gemini、DeepSeek-V3)都用了 MoE。但这不意味着 Dense 没用了。两种架构各有清晰的能力边界,选错架构的代价远大于选错模型大小。 Dense 模型就是传统的 Transformer
这是一个旨在通过开源和3D打印技术降低医疗设备成本的项目。该听诊器主要由3D打印部件和普通硅胶管组成,总生产成本仅为2.5至5美元。经过同行评审的科学验证表明,其功能表现达到了市场金标准Littmann Cardiology III的水平。...
本文深入分析了Linux 7.0移除`PREEMPT_NONE`抢占模式后,导致PostgreSQL在高并发场景下吞吐量暴跌50%的深层原因。问题的核心在于:当进程持有自旋锁期间触发缺页中断,新的`PREEMPT_LAZY`调度模式可能抢占...
OpenAI的Codex服务似乎正全面转向按Token计费模式。通过对比企业版费率卡,20美元约对应500点额度,这与Plus订阅价格吻合。分析指出,OpenAI正在消除个人用户与企业用户在用量价格上的差异,5月31日后,Plus会员可能不...
据社区消息,百度文心一言5.1预览版已悄然上线LMSYS Chatbot Arena(大模型竞技场),并开放给用户进行盲测。目前数据显示,该版本在竞技场中排名第13位。虽然关于该模型的具体参数规模及详细技术升级点尚未完全公开,且官网更新较为...
一位开发者在社区分享了成功申请 Mimo Token Plan 高级额度的经验。通过将邮箱更换为 Gmail,并利用一个拥有约 300 Star 的开源项目背景,该用户成功获批 Pro 资格。其核心策略在于利用 AI 辅助撰写篇幅较长的申请...
随着 AI Agent 从辅助生成转向实际执行操作,开发者常面临不可控的焦虑与安全风险。本文深入解析 Claude Code 的 Hook 机制,将其定义为将行动权拉回开发者手中的“工程锁”。文章详细对比了 Hook 与 MCP、Skill...
一位博主分享了使用DeepSeek v4和Kimi辅助完成130页论文的经历,在花费180元进行AI率检测后发现,即便使用了提示词技巧,绪论、相关工作及英文摘要部分的“AI味”依然浓重。甚至尝试用Claude重写摘要,AI检测率仍高达100...
随着GPT-4o及Claude 3.5 Sonnet等新一代大模型能力的显著提升,AI辅助编程的工作流正在发生重要变化。据开发者反馈,曾经为了弥补模型能力不足而广泛采用的“Spec Coding”(即向AI提供详尽的背景文档和规范说明)的方...
中山大学与阿里巴巴集团联合进行了一项大规模AI代码生成能力测试。研究团队从GitHub选取了100个真实Python项目样本,针对20个主流大模型进行了评估,消耗超过100亿token。测试核心关注“零回归率”(即修改代码时不破坏原有功能的...