一篇来自开发者社区V2EX的帖子揭示了当前大模型在辅助编程(AI编程)场景下的显著痛点。虽然DeepSeek、Kimi等模型具备深度思考与代码生成能力,但在实际工作流中仍面临诸多可靠性问题。首先是效率与成本的失衡,所谓的“深度思考”模式往往消耗大量Token(例如单次消耗250k),却仅能输出原错误的修复方案或直接拒绝回答,导致“一顿操作猛如虎,一看效果0.5”的尴尬局面。其次是检索与上下文理解的偏差,在分析协议日志时,模型常出现“幻觉”行为,忽略在线搜索指令而盲目翻阅本地代码库,不仅造成资源浪费,还可能引入错误信息。更严重的是自主性的不可控,表现为“摆烂”或“过度修改”:在未接收到明确指令时,模型擅自更改验证逻辑或添加返回值判断;或者为了修复一个错误,无中生有地大范围修改代码。此外,无限循环搜索、重复分析单一文件以及过度依赖本地代码规范而忽视通用协议定义的现象,也暴露了当前AI Agent在任务规划和执行逻辑上的缺陷。这些现象表明,尽管大模型在代码生成上取得了进步,但在解决复杂、具体的工程问题时,仍缺乏精准的判断力和高效的资源利用率。
事件分析
💡 核心观点:大模型的“推理能力”目前在编码场景中常沦为无效的“Token燃烧”,智能体在复杂任务中的不可控性仍是阻碍其成为生产力工具的核心痛点。
原文链接:V2EX 分享发现






