在当前人工智能应用从对话交互向自主任务执行转型的关键阶段,浏览器自动化能力成为衡量 AI Agent 实战水平的重要指标。近期,在 Linux.do 技术社区的一次开发者实践中,多位技术爱好者对 Workbuddy、Hermes、Codex、Hanako、Marvis 以及 GenericAgent 共六款智能体工具进行了横向对比测评。本次测试场景设定为模拟自动注册账号,旨在检验各工具在处理网页元素识别、表单填写及流程控制等复杂交互时的真实表现。实测结果显示,GenericAgent 在处理速度与操作便捷性上表现显著优于其他竞品,能够高效完成预定任务;Marvis 虽然具备任务处理能力,但执行效率相对较低。值得注意的是,Codex 结合 GPT 5.5 的组合在测试中表现不佳,不仅响应迟缓,且难以应对各种突发问题,显示出通用大模型在特定垂直任务落地时的局限性。此次测试结果引发了社区对于“通用大模型”与“专用智能体”技术路线的深入探讨。
事件分析
💡 核心观点:通用大模型在复杂任务执行中仍显笨拙,针对特定场景优化的专用 Agent 展现出更强的落地能力。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战