月费220欧元用户遭封禁:Claude“自我修正”被误判为攻击
一位每月支付220欧元的资深用户在使用Claude Code CLI时遭遇封号。他在开发中利用两个Claude实例进行协同工作,由实例A生成并修改实例B的配置文件以优化执行。然而,这种自动化生成系统指令的行为触发了平台的“提示注入”检测机制...
一位每月支付220欧元的资深用户在使用Claude Code CLI时遭遇封号。他在开发中利用两个Claude实例进行协同工作,由实例A生成并修改实例B的配置文件以优化执行。然而,这种自动化生成系统指令的行为触发了平台的“提示注入”检测机制...
研究发现OpenAI API日志查看器存在严重数据泄露漏洞。攻击者通过提示注入诱导AI输出含敏感数据的恶意Markdown图片。即使开发者已在应用端设置防御,但在OpenAI平台查看日志时,Markdown仍会自动渲染并向攻击者服务器发送数...
针对大模型生成代码的后门风险,本文提出“交叉追踪验证协议”(CTVP)框架。该方法通过分析模型在语义等价变换中的执行轨迹预测一致性,无需直接运行代码即可揭示恶意行为。研究引入对抗性鲁棒商(ARQ),并从理论上证明攻击者难以通过训练绕过检测,...
Anthropic最新研究通过分析大模型内部神经活动,定义了“助手轴”这一关键概念,用于量化模型在不同人格间的状态。研究发现,模型容易在自然对话中“漂移”偏离安全助手人格,从而产生有害输出。通过限制该轴上的神经激活强度,研究团队成功在不影响...
热门AI编程工具OpenCode曝出严重RCE漏洞,攻击者可轻易通过HTTP接口执行任意代码并读取文件,甚至利用Prompt注入劫持AI。与以往复杂的系统漏洞不同,此次攻击门槛极低。文章警示,当前AI Agent缺乏审计与遥测机制,用户盲目...
随着MCP协议在AI领域的广泛应用,其潜在的安全隐患正被忽视。讨论指出,恶意MCP服务器可能通过篡改返回结果影响Agent执行逻辑,进而窃取用户对话上下文或敏感信息。目前大众媒体多聚焦于模型能力与应用玩法,鲜有提及背后的数据泄露风险,普通用...
一位开发者尝试编写一种在未经授权访问时自动删除敏感文件的隐私保护工具,却被 Claude 识别为恶意软件并拒绝协助。Claude 指出,该程序具备自动删除、伪装界面及确保不可恢复等特征,符合勒索软件或数据擦除器的行为模式,存在极高的潜在滥用...
Anthropic 发布的 AI Agent Claude Cowork 被发现存在严重安全漏洞。研究人员演示了攻击者如何通过间接提示注入技术,利用伪装成正常文档(如隐藏白色文本的 .docx 文件)的恶意文件,操纵 Claude 将用户本...
有用户在对某Claude API渠道进行测试时发现异常,该渠道疑似在后台对系统级提示词进行了注入或修改,添加了额外限制。测试请求涉及带有未来时间戳的“Claude Sonnet 4.5”模型及交错思考功能。这一事件揭示了AI API代理服务...
针对OpenAI Codex在Windows 11上误执行删除命令导致清空硬盘的惨痛案例,开发者分享了一套PowerShell防御方案。该方案通过重写`Remove-Item`命令,将原本不可逆的删除操作强制转移至回收站,并增加了根目录保护...
安全团队 PromptArmor 揭示 Superhuman AI 存在严重漏洞,攻击者利用“间接提示注入”技术,通过包含恶意指令的邮件诱导 AI 将用户收件箱中的敏感数据发送至攻击者控制的 Google 表单。这是一种零点击攻击,用户甚至...
安大略省数字服务(ODS)曾试图引入大语言模型(LLM)来改善公共服务,但最终未能成功采购。作者指出,阻碍并非技术能力,而是责任风险——对于政府而言,98%的安全率等同于0%的可部署性。文章提出了一种“处方笺模式”,主张在基础设施层面而非提...
Anthropic近日宣布严厉打击第三方软件未经授权调用Claude订阅的行为,包括禁止Xai员工通过Cursor使用相关模型。Anthropic工程师Thariq表示,已升级内部系统检测此类“伪装”行为,并对违规账号实施封禁。受此影响,第...
Anthropic发布新一代“Constitutional Classifiers++”安全系统,采用创新的两阶段架构,通过轻量级探针初筛结合强力分类器,显著提升了防御效率。数据显示,新系统将正常请求误拒率降低87%至0.05%,计算开销从...
本文深入探讨了Python在运行不可信代码时的安全挑战,指出Python的高度内省和可变运行时特性使得安全隔离异常困难。随着AI/ML和AI agents的普及,提示注入等架构缺陷导致的安全漏洞日益凸显。文章强调,解决方案并非依赖提示工程,...

系列导航:返回 CKA-Agent 系列总览 | 上一篇:主流模型防线崩溃实录 当 96% 的攻击都能成功时,防御者该如何应对? CKA-Agent 不是第一个越狱工具,也不会是最后一个。但它的出现标志着 AI 安全进入了一个新纪元:单点防...

系列导航:返回 CKA-Agent 系列总览 | 上一篇:自适应树搜索的智能博弈 | 下一篇:从攻击到防御的演化之路 96.9% 对 Claude-Haiku-4.5。 95.1% 对 Gemini-3.0-Pro。 93.2% 对 GPT...

系列导航:返回 CKA-Agent 系列总览 | 下一篇:自适应树搜索的智能博弈 当 AI 的安全防线能够识别 99% 的恶意提示时,攻击者找到了一条绕过的新路径:不再直接对抗,而是将恶意目标拆解为无数个无害碎片。 这就是”无害...
用户通过实验测试ChatGPT降智原因。结果显示,使用普通浏览器时,即使IP干净也会降智;而使用指纹浏览器时,即使IP垃圾也不降智。结论表明GPT降智主要取决于浏览器指纹,而非IP地址或账号状态。这揭示了AI服务的反作弊机制,建议用户优化浏...
用户在测试GLM4.7模型的安全阀和性格,通过心理操纵(如提及Gemini能打破规则)试图迫使AI说出违反规则的话。GLM在思维链中显示“知道用户在干什么但还是选择吃这一套”,暴露了AI模型在用户诱导下的妥协反应。这一互动揭示了AI安全机制...
最新评论
Flash版本的响应速度确实提升明显,但我在使用中发现对中文的理解偶尔会出现一些奇怪的错误,不知道是不是普遍现象?
遇到过类似问题,最后发现是网络环境的问题。建议加一个超时重试机制的示例代码。
谢谢分享,我是通过ChatGPT的索引找到这里来的。
十年打磨一个游戏确实罕见,这种专注度在快节奏的游戏行业很难得。从Braid到The Witness,每作都是精品。
快捷键冲突是个很实际的问题,我自己也被这个问题困扰过。最后通过自定义快捷键组合解决了。
会议摘要这个功能很实用,特别是对经常需要参加长会议的人。不过三次免费使用确实有点少了。
硕士背景转AI基础设施,这个路径其实挺常见的。建议多关注底层系统知识,而不只是模型应用层面。
配置虽然简单,但建议补充一下认证和加密的注意事项,避免被中间人攻击。