Anthropic 正式发布了其最新的人工智能模型 Fable 5 和 Mythos 5。鉴于新模型在网络安全等领域展现出的强大能力可能被恶意滥用,Anthropic 采取了极为保守的安全策略,引入了基于模型路由的防御机制。根据官方披露,当用户查询被识别为涉及敏感网络安全主题,或疑似属于模型能力“蒸馏”攻击时,系统将自动拒绝调用 Fable 5,改用次强模型 Claude Opus 4.8 进行回复。Anthropic 表示,此前已监测到大规模针对 Claude 模型的蒸馏尝试,旨在利用其能力训练竞争模型,若不加限制,这将导致近前沿 AI 技术在威权国家等缺乏安全措施的环境下扩散。为了优先确保安全,该机制目前存在一定的误报率(平均低于 5%),这意味着部分无害请求也会被降级处理。Anthropic 承诺,随着未来几个月更强模型的推出,将逐步优化这一安全措施,在降低误报率的同时严防技术滥用。
事件分析
💡 核心观点:Anthropic以Opus 4.8作为安全兜底展示了“分层防御”新思路,预示着遏制模型蒸馏与技术滥用将成为顶尖AI厂商的生存底线。
原文链接:V2EX 分享发现







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战