共 5 篇文章

标签：模型对比

Gemini模型论文阅读实测：2.5Pro领先，3Pro解析待优化

作者通过实际测试对比了Gemini 2.5 Flash、2.5 Pro、3 Flash和3 Pro在阅读机械工程论文时的表现。结果显示，2.5 Pro在解释详略程度上最满意，输出内容全面且无显著错误；2.5 Flash虽输出长但存在幻觉；3...

Toy2026-01-08前沿阅读(35)去评论

近期，Linux.do社区用户对Qwen-Image-2512和Z-Image Turbo进行了A/B测试，评估其指令遵循和画面丰富度表现。测试使用zimage.run平台，支持免费生成三种尺寸图像。通过六个详细提示词，包括Joker肖像、...

Toy2026-01-02前沿阅读(88)去评论

本文探讨了minimax m2、GLM4.6和KIMI k2 thinking三个AI模型在开发工作中的表现对比。作者希望了解这些模型在日常配合CC进行基础开发时的优劣，以决定哪个更值得付费订阅月会员。该讨论帖已有18个回复和13位参与者，...

Toy2025-12-19前沿阅读(95)去评论

近日，有用户对不同AI模型的回答能力进行了实测对比，重点关注了Gemini 3 Pro、DeepSeek和GPT-5.2/GPT-5.1的表现。测试发现，GPT-5.2在回答问题时仅提供’数学期望下是大概率亏的’的简...

Toy2025-12-15前沿阅读(55)去评论

当前AI模型训练面临数据污染的挑战，一位开发者正在寻找未被大型语言模型学习过的50页PDF素材，用于对比测试半开源项目pageindex与text-embedding-3-small的性能。pageindex项目通过LLM创建索引以提高召回...

Toy2025-12-09前沿阅读(67)去评论