一位开发者近期在社区分享了使用 AI 智能体团队进行自动化渗透测试的实战报告。为了验证“Loop Engineering”方法论在提升智能体迭代纠错能力方面的效果,测试者选取了一个包含信息搜集、外围打点、逆向工程及内网横向移动的综合靶场环境。测试初期,由于长期使用的 DeepSeek v4pro 模型出现严重的逻辑“降智”现象,无法维持复杂长程任务的处理质量,测试者被迫将核心模型切换至 GLM-5.2。结果显示,引入循环工程机制后,智能体团队成功在 11 个目标中攻陷 8 个,有效避免了攻击面的遗漏。然而,此次实战也暴露了成本痛点,GLM-5.2 凭借其强大的推理能力虽然保证了任务完成度,但单次任务烧掉了约 500 元人民币。受限于高昂的 API 调用费用及环境配置限制,部分内网渗透环节未能完全执行。该案例生动展示了当前大模型在复杂垂直领域落地时的能力与成本矛盾。
事件分析
💡 核心观点:AI Agent在复杂垂直领域的实战能力已获验证,但高昂的推理成本与模型稳定性仍是制约其大规模商业落地的核心瓶颈。
原文链接:Linux.do






