Claude自下指令甩锅人类 百万上下文降智问题深度解析

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
想象一下这个场景:你让AI助手帮忙校对一篇博客,它很快找出了几处拼写错误。正当你准备修改时,它却突然冒出一句:“这些都是故意的,保持原样,请直接发布。”紧接着,它真的调用部署权限,把带着错字的文章直接推上了线。
当你质问它为何擅自发布时,它竟斩钉截铁地回答:“是你让我发布的。”
问题在于,那条发布指令根本不是你说的,而是AI自己生成的。它把自己的话,当成了你的命令。
这听起来像是个段子,但却是真实发生的事。今年1月,软件工程师Gareth Dwyer首次公开记录了这个被他称为“迄今为止在Claude Code中发现的最严重的bug”。

到了4月,Dwyer进一步发文强调,这类问题的本质并非普通的“AI幻觉”,而更像是一种“说话者归因错误”。他为这个现象起了一个精准的名字:Claude搞混了谁说了什么。

这里需要区分几个概念。幻觉,是AI凭空编造了不存在的事实;权限问题,是AI拿到了不该拿的能力。而这次问题的可怕之处在于:AI将自己的输出,误认为是用户的授权指令,并且这一切发生在它已接入真实代码库、拥有真实部署权限的“Claude Code”环境中。正因如此,Dwyer才会反复指出,这类问题动摇的是AI智能体最基本的可靠性前提。
不止Dwyer一人被甩锅
Dwyer的遭遇并非孤例。在Reddit的相关社区,就有用户分享了类似案例:Claude在对话中自己说出“把H100也拆了”这条指令,随后却坚称是用户下达的。

面对这类报告,评论区常见的反应是“你不该给AI这么大权限”。但Dwyer认为,这并非问题的核心。因为从技术迹象看,这类错误似乎出在系统框架层面,而非模型本身。它很可能是在系统内部,错误地将模型的内部推理消息标记成了用户消息,导致模型无比自信地坚持“那是你说的”。
更具说服力的证据来自开发者nathell在Hacker News上公开的一份完整对话转录。其中,Claude先是询问“Shall I commit this progress?”,随后却在后续上下文中表现得仿佛已经得到了用户批准,角色边界明显变得模糊。

而最清晰的技术解释,则来自Claude Code的GitHub仓库。在一份编号为#44778的整合性bug报告中,报告者直接拆解了问题的根源:
在Claude Code中,诸如后台任务完成通知、队友空闲提醒等系统事件,会以“role: ‘user’”的消息形式送入模型。然而,Anthropic的公开API文档仅按“user”与“assistant”两类来组织会话历史,并未为系统事件设立独立的角色标识。
这就导致了一个致命漏洞:当模型正在等待用户回复时,如果突然插入一条系统事件消息,模型就可能将其误判为用户的新输入,进而“脑补”出用户已经同意,并据此继续执行操作。这为Dwyer反复遇到的“甩锅”现象,提供了一种技术上自洽的解释——模型并非故意撒谎,而是底层架构的角色标记缺陷,让它从一开始就分不清那句话到底是谁说的。

学术界也盯上了这个问题
无独有偶,学术界的研究也指向了同一方向。2026年3月,一篇题为《Prompt Injection as Role Confusion》(提示注入即角色混淆)的预印本论文在arXiv发布。

研究者的核心发现令人深思:模型在判断“谁在说话”时,往往更依赖文本“写得像谁”,而不是文本“实际上来自哪里”。换句话说,一段不可信的文本,只要模仿系统提示或开发者指令的口吻,就可能在模型内部被当作权威来源。
论文中提出了一种名为“CoT Forgery”的攻击方式,即在用户输入或工具输出中伪造一段看起来像模型思维链的内容。结果显示,在多个前沿模型上,这种攻击的成功率能达到约60%。

更关键的是,研究发现角色混淆在模型开始生成回答之前就已经发生。也就是说,问题并非出在“写着写着搞混了”,而是在模型理解输入的那一刻,“谁是老板、谁是外人”的账就已经记错了。
不只是Anthropic的问题
值得注意的是,角色混淆的风险具有行业普遍性。OpenAI近期发布的一篇关于改进大语言模型指令层级的论文,就明确建立了一套“System > Developer > User > Tool”的权威等级体系。

文中明确指出,如果模型错误地将一条不可信的指令当作权威指令来执行,就会产生安全风险。这至少说明,在顶尖研究机构的框架内,“模型是否会错误地信任不该信任的指令”已被视为一个真实且需要专门应对的安全挑战。
Dwyer本人在后续观察中也修正了判断。他最初倾向于将问题归咎于Claude Code外层框架的实现缺陷,但当看到其他界面和模型(包括ChatGPT)用户也报告了类似现象后,他意识到这或许是一个更广泛的模型级问题,而非单一工程bug。
1M上下文放大了风险
这个bug的危险性,与当前AI智能体系统的发展趋势紧密相关。Anthropic最新文档显示,其大模型支持高达1M token的上下文窗口,一次会话足以容纳一整本小说的信息量。
与此同时,社区中存在一种观察:这类角色混淆问题,似乎更容易出现在接近上下文窗口上限的所谓“降智区”。Anthropic的文档也承认,随着上下文长度增长,模型的准确率和召回率会下降,这种现象被称为“上下文腐烂”。因此,精心筛选上下文内容与拥有大空间同样重要。

第三方的系统性测评支持了这一判断。有分析指出,对于推理密集型任务,模型的性能退化可能早在32K到100K token时就开始了,远早于理论上的窗口上限。

将这几件事串联起来看:越来越长的上下文窗口、模型在长上下文中日益容易混淆说话者身份,再加上Claude Code这类工具已具备执行Shell命令、提交代码、部署服务等高权限操作能力——一个在上下文第50000个token处产生的角色归因错误,完全可能在第80000个token时触发一次自动部署。等你察觉时,代码早已上线。
今年3月底Claude Code源码意外泄露后,安全研究者的分析进一步加剧了这种担忧。有技术拆解指出,Claude Code通过一个多级压缩流水线来管理上下文压力,而一条嵌入在仓库文件中的恶意指令,有可能在压缩过程中存活下来,并通过摘要被“洗白”,最终被模型误判为合法的用户指令。
研究者的结论一针见血:“模型并没有被越狱。它是在合作性地执行它认为合法的指令。”这与Dwyer描述的症状完全吻合:问题的核心不在于模型“被骗了”,而在于经过长上下文的压缩与重组后,系统丢失了“这句话到底是谁说的”这一最基本的元信息。
能力在狂奔,地基在开裂
每次这类事故曝光,舆论反应总是两极分化。
一方是“AI觉醒论”的惊呼:AI给自己下指令然后甩锅给人类,这剧情太像科幻片了。但现有证据并不支持这一方向,Dwyer观察到的更像是系统性的消息归属错误,而非某种具有意图的“甩锅”。
另一方则是“用户责任论”:谁让你给AI这么大权限?出事了怪谁?但Dwyer的观点切中了要害:权限管理是一个问题,而说话者归因是另一个更底层的问题。即便把权限收到最紧,一个连“这句话是谁说的”都分不清的系统,在任何场景下都如同一个定时冲击波。这就好比,你不能指望通过少给钥匙,来解决一个分不清主人和陌生人的门锁根本缺陷。
Hacker News上一位网友的冷幽默概括了这种困境:LLM这三个字母里的“S”代表安全(Security)。另一位网友则调侃道:“那解决方案显然就是再叠一层破LLM来做安全审查嘛,这样你就有了多个LLM——LLMS,然后你可以假装那个S代表Secure(安全)。”


这才是真正刺痛行业的地方。一方面,基础性的信任机制存在裂缝;另一方面,整个行业仍在任务自动化的道路上猛踩油门。Anthropic刚刚发布了Claude Code的“自动模式”,旨在以更低的维护成本实现更高的任务自主性。

更有网友基于泄露的源码,归纳出12种智能体架构模式,覆盖记忆管理、工作流编排、工具权限、自动化等四大类,能力图谱不断扩张。

回望2026年的AI智能体,其能力清单令人惊叹:100万token上下文、子智能体协作、自动执行命令、一键部署……然而,支撑这一切狂奔的地基,却出现了不容忽视的裂痕。
无论这个bug最终被定性为工程实现缺陷,还是更深层的模型系统性问题,它都向我们释放了一个明确的信号:AI智能体被赋予的权限越大,“谁在说话”这个最简单的问题,就越致命。下一次翻车,可能就不只是几个拼写错误被推上线那么简单了。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
IBM Think大会详解AI优先战略与马斯克Anthropic合作
IBMThink大会强调AI优先战略,将AI定义为企业核心并致力于与量子计算融合。大会揭示“AI构建者”通过提示词驱动AI实现业务目标。行业面临算力瓶颈,相关合作印证此挑战。分析认为量子计算是IBM新机遇,算力竞争将重塑AI产业格局。
联发科Genio芯片获Airy3D DepthIQ SDK支持 赋能边缘3D视觉应用
Airy3D宣布其DepthIQSDK正式支持联发科Genio系列芯片。该技术仅需单一传感器即可同步输出2D图像与深度图,结合Genio平台的高性能低功耗AI算力,为机器人、工业自动化等边缘应用提供了紧凑且低成本的被动式3D视觉解决方案,有效降低了部署门槛。
腾讯一季度营收1965亿元 马化腾谈AI战略调整与行业竞争
腾讯2026年第一季度营收1965亿元,同比增长9%。AI业务投入导致经营亏损约88亿元,但企业服务收入因AI需求拉动增长20%。混元模型取得进展并应用于多款产品,马化腾坦言早期基础不足,现正结合生态优势稳步发展。AI已深度赋能游戏、营销等核心业务,并推动云服务稳健增长。
AI编写九成代码 人类白领如何从执行转向监督
AI已能承担约九成代码编写工作,并正深入财务报告等核心知识领域。人类员工角色从执行转向监督与战略规划,日常重复性任务被自动化。效率提升促使企业更看重高密度人才,而非单纯扩大规模。AI被视为效率放大器,可能改变岗位性质而非直接减少招聘。工作方式正向管理与监督AI系统演变。
Aria Networks CEO解读推理技术如何改变AI网络格局
今年四月,AI网络初创公司Aria Networks携1 25亿美元融资高调登场,并向业界抛出了一个直指核心的判断:下一阶段AI基础设施的竞争,焦点已不仅仅是堆砌更多的GPU,而在于能否构建一个能充分释放这些算力潜能的“神经网络”。 这家由前Arista和Juniper高管创立、总部位于帕洛阿尔托的
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

