一位来自 Linux.do 社区的科技用户分享了一项关于大语言模型实际应用能力的对比测试。该测试旨在解决一个具体的硬件问题——关闭惠普机械键盘的背光功能。用户通过 LobeHub 平台构建了相同的测试环境,向 Gemini、DSV4Pro(推测指代 DeepSeek 某版本)以及 GPT-5.5 High 输入了完全一致的提示词,并赋予它们使用工具联网检索信息的权限。测试结果显示,Gemini 在处理该任务时表现最佳。它并未直接给出模糊答案,而是展现出了更强的任务拆解能力,将用户的问题分解为多个关键词进行独立搜索,并对获取的信息进行了有效的汇总与验证,最终提供了正确的解决方案。相比之下,GPT-5.5 High 表现得较为敷衍,倾向于草草结束对话;而 DSV4Pro 则未能一次性给出正确答案,需要用户在后续轮次中补充键盘的具体型号等上下文信息才能完成任务。这一对比虽然仅为单次用户侧的实测体验,但直观地反映了不同顶级大模型在工具调用、任务规划及信息检索逻辑上的显著差异。
事件分析
💡 核心观点:具备联网能力的模型中,精准的搜索策略规划与任务拆解能力,比模型参数量更能决定解决实际问题的成败。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战