 

Gemini 3 Pro新模型横扫推理榜单，却被指“降智”

2026-01-22 分类：前沿阅读(2) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

据爆料，代号为“Snowbunny”的谷歌Gemini 3 Pro新检查点在横向推理基准测试Heiroglyph中取得碾压式领先，展现出极强的逻辑推理能力。然而，社区反馈显示，受谷歌新一轮量化策略影响，该模型实际代码能力回落至Preview水平，审美能力也明显退化。这一现象引发了业界对AI模型基准测试高分与实际通用能力之间“剪刀差”的广泛关注。

原文链接：Linux.do

赞(0)

未经允许不得转载：Toy's Tech Notes » Gemini 3 Pro新模型横扫推理榜单，却被指“降智”

分享到

Gemini 人工智能推理模型谷歌

评论抢沙发

前沿哨所

开源新秀ThinkFlow AI：将大模型思维可视化的本地脑图工具

开源项目ThinkFlow AI正式亮相，这是一款主打本地优先的AI思维导图工具。它致力于将大模型的发散性思维转化为可视化的结构化思维树，适用于选题拆解、方案推演及写作大纲等场景。该工具不仅能通过自动生成子分支解决“白纸焦虑”，还支持基于路径上下文的深度追问、Markdown渲染及一键导出。隐私与兼容性方面，用户可自定义OpenAI兼容接口，配置仅保存在本地，兼顾了数据安全与使用灵活性。

原文链接：V2EX 分享发现

22分钟前
复刻微信UI，好友全是AI：打造本地虚拟社交沙盒

开发者推出了 WeAgentChat，这是一个高度还原微信 UI 的 AI 社交应用。它不仅复刻了经典交互，更内置了具备独特性格和长期记忆的 AI 好友。应用采用本地优先架构，利用 RAG 和双轨记忆系统实现深度对话，支持按话题匹配角色及接入无审查模型。所有数据存储在本地，确保隐私安全，为用户打造了一个自由且有温度的虚拟社交圈。

原文链接：V2EX 分享发现

22分钟前
用验证层提升Agent可靠性：亚马逊购物实测

本文探讨了通过验证层提升浏览器Agent可靠性的方法。在亚马逊购物案例中，系统采用DeepSeek-R1作为规划器，结合小模型执行器和Sentience验证层，成功实现了端到端的自主操作。相比纯视觉方案，结构化快照与显式断言不仅将Token消耗降低约43%，更使得本地小模型具备高可靠性。文章强调，在Agent开发中，严格的验证机制比单纯追求大模型参数更重要。

原文链接：Hacker News

22分钟前
SnapMind：快捷键一键唤醒大模型，实现隐形高效办公

SnapMind是一款针对Windows和macOS开发的效率工具，允许用户通过快捷键直接调用大语言模型处理选中文本。与传统的复制粘贴或划词弹窗不同，该应用主打“隐形”操作与极简界面，有效解决了共享屏幕时弹窗干扰的痛点。工具适用于文档总结、多语言翻译及语法纠错，能显著提升工作流的效率。

原文链接：Linux.do

22分钟前
官方加强检测致中转失效，Claude Code 2.1.15建议暂缓升级

Claude Code最新版2.1.15升级后，由于官方调整了客户端检测机制，导致大量使用中转服务及非官方API的用户出现403错误。目前建议用户回退至2.1.14版本，或在配置文件中添加特定参数以禁用自动更新。此次事件表明Anthropic正在收紧对API调用的管控，未来非官方渠道的使用门槛或将进一步提高。

原文链接：Linux.do

22分钟前
二进制熔断过滤器：比 XOR 过滤器更优，存储效率逼近理论极限

布隆和布谷鸟过滤器常用于减少昂贵的磁盘和网络访问，而 XOR 过滤器已表现出色。最新研究提出了二进制熔断过滤器，不仅将存储空间压缩至距理论下限仅 13%，且构建速度比 XOR 过滤器快两倍以上。在保持查询速度的同时，其性能全面优于布隆、 cuckoo 及 ribbon 等多种过滤器，为高效数据检索提供了更优的解决方案。

原文链接：Hacker News

2小时前