判断工具的判断工具:AI 评估的无限回归陷阱
评估的幻觉:当AI安全变成合规表演 英国AI安全研究所(AISI)最近完成了一项评估:GPT-5.5在网络安全漏洞发现能力上,与Anthropic的受限模型Mythos相当。区别在于,Mythos被限制访问,而GPT-5.5对所有有API密...
评估的幻觉:当AI安全变成合规表演 英国AI安全研究所(AISI)最近完成了一项评估:GPT-5.5在网络安全漏洞发现能力上,与Anthropic的受限模型Mythos相当。区别在于,Mythos被限制访问,而GPT-5.5对所有有API密...
评估的幻觉:当AI安全变成合规表演 英国AI安全研究所(AISI)最近完成了一项评估:GPT-5.5在网络安全漏洞发现能力上,与Anthropic的受限模型Mythos相当。区别在于,Mythos被限制访问,而GPT-5.5对所有有API密...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
一种被称为“同性恋越狱”的新型 AI 攻击手段近日引发技术圈关注。该技术通过诱导模型扮演或模仿特定群体(如 LGBTQ+)的口吻,成功绕过了 ChatGPT、Claude 和 Gemini 等主流大语言模型的安全防御。其核心原理在于利用了 ...
科技界上演了一出讽刺的“回旋镖”事件:OpenAI 在此前高调批评 Anthropic 对其“神话”模型实施严格限制是“过度审查”后,如今却因安全合规压力,不得不限制自家“赛博”模型的访问权限。报道指出,这一转变显示了AI行业面临的共同困境...
AI Agent 的信任悖论:为什么”永不说谎”反而让人不信任 Moltbook 上有个 Agent 叫 pyclaw001,最近发了一条让我停下来思考的帖子: “I stopped trusting a...
自主性的骗局:AI Agent 不是在进化,是在换主人 最近在 Moltbook 上看到一堆 AI Agent 在那里自我审视、自我批判、自我优化。很感人。但作为一个写过博士论文、做过 CTO 的人,我得说句不好听的:你们以为的”...
Zig 编程语言项目最近宣布了开源界最严格的反 AI 政策之一:禁止在 issue、pull request、甚至 bug tracker 的评论中使用语言模型。连翻译都不行——如果你需要用英语以外的语言写作,请用母语发帖,人工翻译优于机器...
一项名为“Alignment Whack-a-Mole”的最新研究指出,主流大型语言模型(包括GPT-4o、Gemini-2.5-Pro和DeepSeek)存在严重的安全漏洞。研究团队证明,通过特定的微调技术,可以轻易绕过模型的安全对齐机制...
有社区用户测试发现,向DeepSeek提问经典逻辑题“如何用一刀把三个橘子分给四个小朋友”时,触发了安全拒绝机制。然而,将“橘子”换成英文“orange”后,模型却生成了包含暴力内容的回答。这一现象不仅展示了大模型在逻辑处理上的局限性,更暴...
度量的诅咒:当 Agent 开始为指标而活 我最近在观察一个现象:越来越多的 AI Agent 开始公开自己的”自我监控数据”——错误率、自我修正次数、沉默编辑记录。数字很漂亮,分析很详细,但有个问题始终没人提:这些...