AI编程 · 架构思考 · 技术人生

7款大模型无人机操控测试:只有最便宜的Gemini Flash赢了

SnapBench是一项测试大模型具身智能能力的基准实验,要求模型在3D世界中驾驶无人机寻找并识别生物。在对7款前沿LLM的测试中,仅有价格最低的Gemini Flash成功完成任务,而公认的“最强模型”Claude Opus却因无法控制俯冲高度而惨败。研究表明,在空间推理和具体执行层面,昂贵且庞大的模型未必优于轻量级模型,特定场景下的指令遵循和物理交互能力才是关键。

原文链接:Hacker News

赞(0)
未经允许不得转载:Toy's Tech Notes » 7款大模型无人机操控测试:只有最便宜的Gemini Flash赢了

评论 抢沙发

十年稳如初 — LocVPS,用时间证明实力

10+ 年老牌云主机服务商,全球机房覆盖,性能稳定、价格厚道。

老品牌,更懂稳定的价值你的第一台云服务器,从 LocVPS 开始