距离洗车店仅50米,LLM竟建议开车?AI常识能力遭拷问
一位网友在Hacker News上分享了一个令人深思的AI“翻车”案例:当向大型语言模型(LLM)提问“我想洗车,洗车店距离50米,我是该走过去还是开过去?”时,模型的回答暴露了其在基本常识上的匮乏。大概率上,模型仅仅基于文本共现概率给出了...
一位网友在Hacker News上分享了一个令人深思的AI“翻车”案例:当向大型语言模型(LLM)提问“我想洗车,洗车店距离50米,我是该走过去还是开过去?”时,模型的回答暴露了其在基本常识上的匮乏。大概率上,模型仅仅基于文本共现概率给出了...
本期周刊涵盖前沿AI技术与工程深度思考。业界方面,字节发布豆包2.0大幅降低推理成本,谷歌Gemini 3强化科研推理,国产大模型迎来GLM-5与MiniMax 2.5的密集迭代。深度文章揭示了AI时代的隐忧:生成式AI非但未减负,反而加剧...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
近期,一项针对国内主流大模型的“幸运转盘”代码生成测试在技术社区引发热议。该测试看似简单,实则对模型的逻辑严密性、多模态渲染及代码执行能力提出了极高要求。测试结果显示,DeepSeek 成为唯一成功完成任务的模型,完美解决了转盘指针与开奖结...
文章指出,近期亚马逊Ring和谷歌Nest的一系列事件深刻揭示了美国监控国家的现状。Ring在超级碗广告中展示的“Search Party”功能,利用AI串联邻里摄像头进行生物识别扫描,无意中暴露了其构建城市级监控网的能力,引发了公众对其与...
埃隆·马斯克近日针对Anthropic“常驻哲学家”阿曼达·阿斯克尔的言论发起了猛烈抨击。阿斯克尔此前曾表示,她像养育孩子一样为Claude塑造人格与道德观念。马斯克对此回应称,阿斯克尔本人没有孩子,却将AI视为后代的做法“极其荒谬”。他进...
这篇文章以生动有趣的方式介绍了约束传播算法,这是解决约束满足问题(CSP)的核心技术。文章通过具体示例演示了算法如何利用变量间的逻辑关系来缩减搜索空间,从而高效解决如数独、排班等复杂逻辑难题。对于关注AI基础算法和逻辑优化的开发者而言,这是...
一位开发者因缺乏实战灵感,在GitHub发起了“OpenProblemHub”项目,旨在构建一个高质量的“真实工程问题库”。作者指出,在AI与SaaS能力过剩的当下,“代码廉价,创意昂贵”,业界更缺的是对真实需求的挖掘。该项目设立了高准入门...
随着开发模式向“浏览与 LLM 对话”转变,传统 Git 作为基于文本块的文件系统,正面临巨大摩擦。文章指出,Git 缺乏语法感知,难以处理 LLM 带来的高通量代码变更及“提示词与代码混合”的复杂场景,导致合并冲突频繁且难以理解。作者主张...
本文深入对比了 Anthropic 和 OpenAI 近期推出的“极速模式”背后的技术实现差异。Anthropic 的加速策略本质上是通过降低批量大小,让用户以六倍的高价换取“零等待”的独占算力,从而保证模型原有的智能水平。相比之下,Ope...
据最新消息,OpenAI内部的下一代模型在极少量人工监督的情况下,成功完成了名为“First Proof”的高难度挑战。在针对十个前沿数学研究问题的测试中,该模型为大部分问题提出了有希望的解决方案,其中至少有六个解答被认为极有可能是正确的。...