 

Gemini 3 Flash 捞针测试：70K上下100%准确率

2025-12-08 分类：前沿阅读(98) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

本文报道了谷歌Gemini 3 Flash模型在大模型竞技场上的捞针测试结果。测试显示，在70K输入范围内，模型准确率达到100%，相比Gemini 3 Pro有显著进步。然而，整体性能趋势与Gemini 2.5 Pro高度相似，推测3 Flash可能是2.5 Pro家族的后续版本。具体数据包括：70K上下100%，80K 95%，90K 87%，100K 60%，110K 42%。社区实际使用体验与Wolfstride模型相近。测试因反代渠道受限，作者手动捕捉数据。这些发现为AI从业者提供了模型性能的实用洞察。

原文链接：Linux.do

赞(0)

未经允许不得转载：Toy's Tech Notes » Gemini 3 Flash 捞针测试：70K上下100%准确率

分享到

Gemini 大模型捞针测试

评论抢沙发

前沿哨所

探索迷宫生成算法：经典算法详解与开源代码资源

本文汇集了多种经典的迷宫生成算法，如递归回溯、Prim算法、Kruskal算法及Wilson算法等。作者不仅详细阐述了各种算法的原理和特性，还通过GitHub提供了完整的开源演示代码。作为算法学习的优质资源，它能帮助开发者深入理解图论与程序化生成逻辑，是提升编程基础与算法思维的重要参考。

原文链接：Hacker News

6分钟前
Cursor终结Grok Code免费试用，用户失去低成本选项

AI代码编辑器Cursor结束了长达数月的Grok Code免费试用活动。此前，开发者常利用该模型作为免费的“Auto”模式替代品以节省额度。随着此次促销终止，该模型将恢复正常计费。鉴于市场普遍认为Grok Code的生成能力相对较弱，此次调整意味着其在失去免费护城河后，对用户的吸引力将大幅下降。开发者需及时调整设置，以免造成不必要的额度浪费。

原文链接：Linux.do

6分钟前
逆向操作：VibeMark一键为照片添加主流AI水印

开发者推出了开源网页工具VibeMark，支持一键为真实照片添加谷歌、字节豆包、百度文心、腾讯混元等多家主流大模型的AI生成水印。该工具完全基于本地处理，保障数据安全，支持批量导入、尺寸裁切及自定义水印。除娱乐性质的“伪装AI生成”外，它也具备实用的图片批量处理功能。

原文链接：Linux.do

6分钟前
开源量化平台QuantDinger发布：主打AI驱动与本地隐私保护

开源量化交易平台QuantDinger近日在社区引发热议，其倡导的“AI驱动、本地优先”理念获得大量关注。该项目基于Python构建，专注于提供研究、回测及实盘交易的全流程解决方案，特别强调数据的隐私保护和开源精神。开发者表示，希望打造一个让每个人都拥有自主控制权的AI分析量化平台，目前项目正在积极吸纳社区建议以进行功能迭代。

原文链接：Linux.do

6分钟前
为何AI无法访问抖音和小红书？封闭生态的数据壁垒

用户反馈GPT、Gemini等主流AI无法直接读取抖音、小红书的内容链接，限制了深度交互体验。这一现象暴露了封闭互联网生态与开放AI模型之间的深层矛盾。由于平台严格的反爬虫机制和登录验证，AI难以触达这些高价值数据源。目前尚无通用完美解决方案，只能依赖第三方插件或手动转录。这不仅是技术限制，更揭示了数据孤岛对AI全域认知发展的阻碍。

原文链接：Linux.do

6分钟前
Chrome上线“代你浏览”AI功能，直面挑战Claude与GPT

谷歌 Chrome 浏览器近日被曝出正在测试名为“Let Chrome browse for you”的 AI 功能，旨在利用 Agent 模式替用户自动浏览网页。目前有用户反馈该选项处于灰色禁用状态，疑似需要特定权限或处于灰度测试阶段。用户希望将该功能与 Anthropic Claude 浏览器插件、OpenAI GPT Agent 模式以及 Manus 进行对比。这表明谷歌正加速将 AI Agent 深度集成到浏览器生态中，以应对日益激烈的 AI 浏览助手竞争。

原文链接：Linux.do

6分钟前