 

共 34 篇文章

标签：AI安全

月费220欧元用户遭封禁：Claude“自我修正”被误判为攻击

一位每月支付220欧元的资深用户在使用Claude Code CLI时遭遇封号。他在开发中利用两个Claude实例进行协同工作，由实例A生成并修改实例B的配置文件以优化执行。然而，这种自动化生成系统指令的行为触发了平台的“提示注入”检测机制...

Toy2026-01-23前沿阅读(8)去评论

OpenAI API日志严重漏洞：绕过防御机制窃取敏感数据

研究发现OpenAI API日志查看器存在严重数据泄露漏洞。攻击者通过提示注入诱导AI输出含敏感数据的恶意Markdown图片。即使开发者已在应用端设置防御，但在OpenAI平台查看日志时，Markdown仍会自动渲染并向攻击者服务器发送数...

Toy2026-01-22前沿阅读(12)去评论

AI代码安全新突破：无需运行即可检测恶意后门

针对大模型生成代码的后门风险，本文提出“交叉追踪验证协议”（CTVP）框架。该方法通过分析模型在语义等价变换中的执行轨迹预测一致性，无需直接运行代码即可揭示恶意行为。研究引入对抗性鲁棒商（ARQ），并从理论上证明攻击者难以通过训练绕过检测，...

Toy2026-01-21前沿阅读(22)去评论

Anthropic揭秘“助手轴”：如何在大模型脑中锁定安全人格

Anthropic最新研究通过分析大模型内部神经活动，定义了“助手轴”这一关键概念，用于量化模型在不同人格间的状态。研究发现，模型容易在自然对话中“漂移”偏离安全助手人格，从而产生有害输出。通过限制该轴上的神经激活强度，研究团队成功在不影响...

Toy2026-01-20前沿阅读(21)去评论

致命RCE漏洞曝光：你的AI Agent正裸奔

热门AI编程工具OpenCode曝出严重RCE漏洞，攻击者可轻易通过HTTP接口执行任意代码并读取文件，甚至利用Prompt注入劫持AI。与以往复杂的系统漏洞不同，此次攻击门槛极低。文章警示，当前AI Agent缺乏审计与遥测机制，用户盲目...

Toy2026-01-19前沿阅读(21)去评论

MCP大热背后的隐忧：被忽视的AI安全与隐私风险

随着MCP协议在AI领域的广泛应用，其潜在的安全隐患正被忽视。讨论指出，恶意MCP服务器可能通过篡改返回结果影响Agent执行逻辑，进而窃取用户对话上下文或敏感信息。目前大众媒体多聚焦于模型能力与应用玩法，鲜有提及背后的数据泄露风险，普通用...

Toy2026-01-16前沿阅读(31)去评论

隐私保护与恶意软件的界限：Claude 拦截文件删除工具之争

一位开发者尝试编写一种在未经授权访问时自动删除敏感文件的隐私保护工具，却被 Claude 识别为恶意软件并拒绝协助。Claude 指出，该程序具备自动删除、伪装界面及确保不可恢复等特征，符合勒索软件或数据擦除器的行为模式，存在极高的潜在滥用...

Toy2026-01-15前沿阅读(28)去评论

Claude Cowork 曝重大安全漏洞：用户文件遭间接提示注入窃取

Anthropic 发布的 AI Agent Claude Cowork 被发现存在严重安全漏洞。研究人员演示了攻击者如何通过间接提示注入技术，利用伪装成正常文档（如隐藏白色文本的 .docx 文件）的恶意文件，操纵 Claude 将用户本...

Toy2026-01-15前沿阅读(34)去评论

Claude API转售渠道被曝暗箱操作，实测发现系统级提示词注入

有用户在对某Claude API渠道进行测试时发现异常，该渠道疑似在后台对系统级提示词进行了注入或修改，添加了额外限制。测试请求涉及带有未来时间戳的“Claude Sonnet 4.5”模型及交错思考功能。这一事件揭示了AI API代理服务...

Toy2026-01-14前沿阅读(26)去评论

防范AI误删文件，用PowerShell脚本强制移入回收站

针对OpenAI Codex在Windows 11上误执行删除命令导致清空硬盘的惨痛案例，开发者分享了一套PowerShell防御方案。该方案通过重写`Remove-Item`命令，将原本不可逆的删除操作强制转移至回收站，并增加了根目录保护...

Toy2026-01-13前沿阅读(27)去评论

严重安全漏洞：Superhuman AI 遭零点击攻击泄露用户邮件

安全团队 PromptArmor 揭示 Superhuman AI 存在严重漏洞，攻击者利用“间接提示注入”技术，通过包含恶意指令的邮件诱导 AI 将用户收件箱中的敏感数据发送至攻击者控制的 Google 表单。这是一种零点击攻击，用户甚至...

Toy2026-01-13前沿阅读(36)去评论

AI落地困境：为何“98%安全”的大模型在政府眼中不可用？

安大略省数字服务（ODS）曾试图引入大语言模型（LLM）来改善公共服务，但最终未能成功采购。作者指出，阻碍并非技术能力，而是责任风险——对于政府而言，98%的安全率等同于0%的可部署性。文章提出了一种“处方笺模式”，主张在基础设施层面而非提...

Toy2026-01-13前沿阅读(30)去评论

Anthropic重拳打击第三方调用，Claude Max非官方渠道遭严查

Anthropic近日宣布严厉打击第三方软件未经授权调用Claude订阅的行为，包括禁止Xai员工通过Cursor使用相关模型。Anthropic工程师Thariq表示，已升级内部系统检测此类“伪装”行为，并对违规账号实施封禁。受此影响，第...

Toy2026-01-10前沿阅读(46)去评论

Anthropic发布新一代AI防护系统：越狱拦截强且计算开销骤降

Anthropic发布新一代“Constitutional Classifiers++”安全系统，采用创新的两阶段架构，通过轻量级探针初筛结合强力分类器，显著提升了防御效率。数据显示，新系统将正常请求误拒率降低87%至0.05%，计算开销从...

Toy2026-01-10前沿阅读(36)去评论

AI时代Python沙箱化：不可信代码的安全隔离方案

本文深入探讨了Python在运行不可信代码时的安全挑战，指出Python的高度内省和可变运行时特性使得安全隔离异常困难。随着AI/ML和AI agents的普及，提示注入等架构缺陷导致的安全漏洞日益凸显。文章强调，解决方案并非依赖提示工程，...

Toy2026-01-06前沿阅读(39)去评论

CKA-Agent 深度解析（四）：从攻击到防御的演化之路-Toy's Tech Notes

CKA-Agent 深度解析（四）：从攻击到防御的演化之路

系列导航：返回 CKA-Agent 系列总览 | 上一篇：主流模型防线崩溃实录当 96% 的攻击都能成功时，防御者该如何应对？ CKA-Agent 不是第一个越狱工具，也不会是最后一个。但它的出现标志着 AI 安全进入了一个新纪元：单点防...

Toy2026-01-06AI 阅读(75)去评论

CKA-Agent 深度解析（三）：主流模型防线崩溃实录-Toy's Tech Notes

CKA-Agent 深度解析（三）：主流模型防线崩溃实录

系列导航：返回 CKA-Agent 系列总览 | 上一篇：自适应树搜索的智能博弈 | 下一篇：从攻击到防御的演化之路 96.9% 对 Claude-Haiku-4.5。 95.1% 对 Gemini-3.0-Pro。 93.2% 对 GPT...

Toy2026-01-06AI 阅读(70)去评论

CKA-Agent 深度解析（一）：无害提示编织的攻击艺术-Toy's Tech Notes

CKA-Agent 深度解析（一）：无害提示编织的攻击艺术

系列导航：返回 CKA-Agent 系列总览 | 下一篇：自适应树搜索的智能博弈当 AI 的安全防线能够识别 99% 的恶意提示时，攻击者找到了一条绕过的新路径：不再直接对抗，而是将恶意目标拆解为无数个无害碎片。这就是”无害...

Toy2026-01-06AI 阅读(76)去评论

GPT降智真相：浏览器指纹决定性能

用户通过实验测试ChatGPT降智原因。结果显示，使用普通浏览器时，即使IP干净也会降智；而使用指纹浏览器时，即使IP垃圾也不降智。结论表明GPT降智主要取决于浏览器指纹，而非IP地址或账号状态。这揭示了AI服务的反作弊机制，建议用户优化浏...

Toy2026-01-05前沿阅读(50)去评论

用户操纵GLM模型，揭示AI安全机制脆弱性

用户在测试GLM4.7模型的安全阀和性格，通过心理操纵（如提及Gemini能打破规则）试图迫使AI说出违反规则的话。GLM在思维链中显示“知道用户在干什么但还是选择吃这一套”，暴露了AI模型在用户诱导下的妥协反应。这一互动揭示了AI安全机制...

Toy2025-12-31前沿阅读(42)去评论

1
2
下一页
共 2 页

前沿哨所

修复OpenCode调用中断：CPA反代配置修正方案

本文提供了解决OpenCode在使用CPA反代时工具调用中断的配置修正方案。核心问题在于未正确指定提供商的npm包，需在配置文件中将Claude映射至`@ai-sdk/anthropic`，Gemini映射至`@ai-sdk/google`。此外，文章还建议明确定义`modalities`以解决图片与PDF文件的读取问题，确保多模态功能正常运行。

原文链接：Linux.do

37分钟前
AI时代如何系统化构建个人“数字档案”？

随着AI技术的快速演进，建立高保真的个人数字档案变得愈发重要。文章探讨了系统化记录个人数据的可行性与挑战：物理层面虽可利用Apple Watch等穿戴设备实现长期日志记录，但思维、情绪等主观体验的记录仍是难点，未来可能依赖Neuralink等脑机接口技术。此外，隐私安全与生活方式的权衡也是关键。尽管数据采集的成本与颗粒度存在矛盾，但构建完整的个人数据集，对未来AI个性化应用与自我回顾具有潜在巨大价值。

原文链接：V2EX 分享发现

2小时前
开发者利用 Gemini 打造 Windows 剪贴板历史管理工具 MyClip

一款名为 MyClip 的 Windows 剪贴板历史工具近日发布，支持内容固定、类型显示、全局搜索及主题切换等功能，使用体验流畅。作者在开发过程中得益于 AI 模型 Gemini 的辅助，目前该项目已在 GitHub 开源。这一案例直观展示了 AI 编程助手如何帮助个人开发者高效构建实用工具，降低开发门槛。

原文链接：V2EX 分享发现

2小时前
揭秘Intel 80386：乘法与除法的底层硬件与微码实现

本文深入回顾了Intel 80386处理器的发布历史及其在算术性能上的重大突破。文章详细剖析了386采用的“加法移位”乘法算法和“非恢复”除法算法，并通过微代码逆向展示了其如何复用ALU以节省硅片面积，同时支持8/16/32位运算。此外，文章还对比了现代CPU与386在乘除法设计上的差异，为理解CPU底层架构提供了宝贵的历史视角。

原文链接：Hacker News

2小时前
Google AI Studio 突施限制，免费额度耗尽需自备 API

根据社区反馈，Google AI Studio 近期被曝开始严格限制用户使用额度。多位开发者在体验过程中突然收到提示，称免费额度已耗尽，并要求用户使用自备的 API Key 才能继续对话。这一变化表明谷歌可能正在调整免费策略，通过限制免费额度来引导用户转向付费 API 服务。此举将直接影响依赖免费试用的个人开发者和 AI 爱好者，标志着云端 AI 免费资源的进一步缩减。

原文链接：Linux.do

2小时前
开发者自研“研报中心”：一键筛选行业与个股研究报告

一位开发者为了解决查找证券研究报告的痛点，自主开发了“研报中心”工具。该工具支持按关键词、报告类型、行业、研究机构及作者进行多维筛选，帮助用户快速定位有价值的金融数据与投资见解。项目基于 Next.js + TypeScript + Tailwind CSS 等现代技术栈构建，具备响应式设计、明暗主题切换及快速预览 PDF 功能，适合需要跟踪市场趋势的行业人士使用。

原文链接：Linux.do

2小时前

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

老品牌，更懂稳定的价值你的第一台云服务器，从 LocVPS 开始