共 9 篇文章

标签：基准测试

Cua-Bench：开源AI智能体GUI基准测试平台

Cua是一个开源平台，用于构建、基准测试和部署能够控制计算机的AI智能体。其核心组件Cua-Bench支持在OSWorld等数据集上评估智能体性能，并集成Lume实现macOS和Linux的高性能虚拟化。该项目为开发者提供了从代码执行到UI...

赞(0)

Toy2026-01-29前沿阅读(2)去评论

Kaggle每日10美元积分实测：AI模型评估与对比新玩法

最近Kaggle推出了每日10美元的模型积分福利。实测发现，这笔积分并非直接用于调用Claude等模型，而是用于构建自定义任务和基准测试。用户可以通过引入Wiki题库，创建涵盖逻辑、知识储备、识图、编码等多种类型的评估任务，进而利用Benc...

赞(0)

Toy2026-01-25前沿阅读(17)去评论

忽略基准测试，你的LLM账单可能虚高10倍

文章指出，盲目使用GPT-5等顶尖模型会导致高昂成本，作者通过实际案例展示了如何将LLM API账单降低80%。方法包括收集真实提示词、定义预期输出、利用OpenRouter测试上百个模型，并采用“大模型裁判”进行评分。通过综合考量质量、成...

赞(0)

Toy2026-01-21前沿阅读(29)去评论

Exasol推出个人版，却禁止公开基准测试结果

Exasol推出了Personal版本，号称要让大数据分析更加普及。虽然这解决了过去难以在自定义虚拟机镜像中运行的问题，使得用户能更容易地将其集成到ClickBench等基准测试项目中，但其许可证条款引发了巨大争议。条款明确规定，未经Exa...

赞(0)

Toy2026-01-17前沿阅读(33)去评论

MiniMax发布OctoCodingBench基准，规范AI代码代理开发标准

面对AI代码代理可能生成无用代码甚至污染代码库的风险，MiniMax正式发布了OctoCodingBench基准测试规范。该基准专注于评估AI Agent在编码过程中的规范性，旨在填补当前AI编程缺乏工程化标准的空白。通过引入更严格的测试维...

赞(0)

Toy2026-01-14前沿阅读(50)去评论

Square Minus Square：AI代理性能基准测试

近日，Hacker News发布了Square Minus Square，这是一个专注于AI代理（coding agents）的基准测试工具。该基准测试旨在为开发者提供标准化的方法来评估和比较不同AI代理在代码生成、任务执行等场景中的性能。...

赞(0)

Toy2026-01-02前沿阅读(53)去评论

Python开发者必知的性能数据：从内存到Web框架的全面基准测试

这篇文章提供了Python开发者应该了解的各种性能指标和内存使用数据。作者在Mac Mini M4 Pro上进行了全面的基准测试，涵盖了内存使用、基本操作、集合操作、属性操作、JSON处理、Web框架性能、文件I/O和数据库操作等多个方面。...

赞(0)

Toy2026-01-02前沿阅读(39)去评论

新型基准测试揭示：顶级大语言模型在心理健康护理领域表现欠佳

Sword Health公司近日推出名为mindeval的新型基准测试，用于评估大语言模型在真实心理健康护理场景中的表现。测试结果表明，当前顶级大语言模型在专业心理健康护理领域面临显著挑战，无法完全满足临床需求。这一发现对AI在医疗健康领域...

赞(0)

Toy2025-12-10前沿阅读(71)去评论

GPT-5.2以67%准确率超越Gemini，AI性能新标杆

最新AI模型性能对比显示，GPT-5.2在’人类最后一场考试’基准测试中取得67%的准确率，显著优于Gemini 3的45.1%和GPT-5.1的41.0%。这一结果揭示了AI推理能力的最新进展，为行业提供了重要参考...

赞(0)

Toy2025-12-10前沿阅读(64)去评论

标签：基准测试

Cua-Bench：开源AI智能体GUI基准测试平台

Kaggle每日10美元积分实测：AI模型评估与对比新玩法

忽略基准测试，你的LLM账单可能虚高10倍

Exasol推出个人版，却禁止公开基准测试结果

MiniMax发布OctoCodingBench基准，规范AI代码代理开发标准

Square Minus Square：AI代理性能基准测试

Python开发者必知的性能数据：从内存到Web框架的全面基准测试

新型基准测试揭示：顶级大语言模型在心理健康护理领域表现欠佳

GPT-5.2以67%准确率超越Gemini，AI性能新标杆

置顶推荐

前沿哨所

纯C语言实现Gemma 3推理，大模型无需GPU也能跑

开源插件 smart-codebase：解决 AI Agent “失忆”，实现知识自动沉淀

自旋锁虽好，但别乱写：解析并发编程中的深层陷阱

摆脱IP冲突噩梦：用叠加网络技术重塑远程设备管理

LM Studio 0.4.0 发布：新增无头部署与并行推理能力

利用数学方程与ChatGPT，打造独特的3D打印灯罩

最新文章

热门专题

热门标签

网站统计

最新评论

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。