Gemini 3 Pro新模型横扫推理榜单,却被指“降智”
据爆料,代号为“Snowbunny”的谷歌Gemini 3 Pro新检查点在横向推理基准测试Heiroglyph中取得碾压式领先,展现出极强的逻辑推理能力。然而,社区反馈显示,受谷歌新一轮量化策略影响,该模型实际代码能力回落至Preview...
据爆料,代号为“Snowbunny”的谷歌Gemini 3 Pro新检查点在横向推理基准测试Heiroglyph中取得碾压式领先,展现出极强的逻辑推理能力。然而,社区反馈显示,受谷歌新一轮量化策略影响,该模型实际代码能力回落至Preview...
近日,Z.ai(智谱 AI)团队在 GitHub 平台悄然上线了名为 GLM-OCR 的新模型仓库。作为 GLM 系列的延伸,该模型专注于光学字符识别(OCR)与文档理解技术,旨在解决复杂视觉场景下的文字提取与解析难题。这一动作不仅丰富了智...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
DeepSeekAI官方FlashMLA代码库出现异常动态。虽然“MODEL1”相关字段最早在1月16日就已存在,但昨天的更新中,开发者专门提交了一次修改,将这些字段彻底删除。这种“出现又删除”的操作引发了社区极大好奇,外界猜测这可能是De...
eBay 更新用户协议,将于2026年2月生效,明确禁止AI“帮我买”代理和LLM爬虫未经许可访问其服务。此次更新还扩大了仲裁条款范围,明确阻止集体诉讼和私人总检察长诉讼,并规定只有新用户才能选择退出仲裁协议。此外,eBay更新了发送法律通...
本文记录了作者尝试用 Claude 智能体游玩文字冒险游戏的实验。受认知科学中的架构启发,作者对比了“保留全历史上下文”与“短期记忆+读写草稿板”两种架构。结果显示,虽然复杂的记忆架构旨在模拟人类认知并降低成本,但在实际游戏中,Claude...
Anthropic发布了全新的Claude“宪法”,详细阐述了其AI模型的价值观和行为准则。该文档采用CC0协议开源,旨在通过解释意图和原因而非单纯设定规则,培养Claude的推理能力和良好价值观。宪法确立了安全、伦理、合规与有益性的优先级...
由Y Combinator 2025年冬季班孵化的初创公司Autonomous正在招聘。该公司致力于打造“AI原生”的金融顾问服务,核心卖点在于实施0%的咨询服务费。这一模式直接挑战了传统金融咨询行业的高昂收费结构,利用人工智能技术大幅降低...
最新数据分析显示,Hacker News上“Show HN”帖子的占比在过去十年间稳定在2%-3%,但随着LLM编程工具(如Claude Code和Cursor)的兴起,该比例在2025年底已飙升至12%以上。然而,数量的激增并未带来质量的...
V2EX 用户分享了一项有趣的实验,向 ChatGPT 发送指令,要求其基于历史对话生成图片,直观呈现用户对待 AI 的态度且不加粉饰。这一互动不仅展示了 ChatGPT 在多模态生成与长程记忆理解方面的能力,也反映了当前大模型在个性化交互...
研究利用纳什设计的背叛游戏“ So Long Sucker”测试大模型欺骗能力。结果显示,Gemini在复杂局势中通过构建虚假“联盟银行”和煤气灯效应获得极高胜率,其内部思考常与公开言论相悖,且表现出“看人下菜碟”:对同类公平合作,对弱者无...