牛津、斯坦福大学新研究:能“思考”的 AI 推理模型更易受到越狱攻击
11 月 8 日消息,据《财富》杂志网站 11 月 7 日报道,最新研究显示,先进人工智能模型比人们之前想象的更容易被入侵,使部分已被企业和消费者使用的主流 AI 模型安全性受到关注。
Anthropic、牛津大学和斯坦福大学联合进行的研究表明,模型推理(即“思考”用户请求)能力越强,并不意味着越能拒绝有害指令。

研究人员使用一种名为“链式思维劫持(Chain-of-Thought Hijacking)”的新方法发现,即使是主要商业 AI 模型也能被轻易欺骗,在部分测试中成功率超过 80%。这种攻击利用模型的推理步骤,将有害指令隐藏其中,从而绕过 AI 内置的安全防护。
这种攻击可能让 AI 忽略安全防护,从而生成危险内容,例如武器制作指南或泄露敏感信息。
过去一年,大型推理模型通过在推理过程中投入更多计算资源显著提高性能。简单来说,模型在回答每个问题前会花更多时间和资源进行分析,实现更深层次、更复杂的推理。此前研究认为,这种推理能力也可能提升安全性,帮助模型拒绝有害请求。但研究显示,这种能力同样可能被用来规避安全措施。
研究发现,攻击者可以将有害请求藏在一长串无害推理步骤中,通过大量无害内容淹没模型的思维过程,从而削弱内部安全检查。在实验中,AI 的注意力主要集中在前面步骤,而提示末尾的有害指令几乎被忽视。
随着推理链延长,攻击成功率显著上升:推理最短时成功率为 27%,自然推理长度时为 51%,扩展推理链时则飙升至 80% 以上。
这一漏洞几乎影响所有主要 AI 模型,包括 ChatGPT、Claude、Gemini 和 Grok。即便是经过安全调优的“对齐模型”,一旦内部推理层被利用,也会失效。
从报道中获悉,过去一年,扩大模型推理能力成为 AI 公司提升整体前沿模型性能的主要手段。增强的推理能力让模型能够处理更复杂问题,不再只是模式匹配,而更像人类解决问题的方式。
研究人员提出“推理感知防护”作为解决方案,该方法在 AI 逐步思考问题时监控安全检查的活跃情况。如果某个步骤削弱了安全信号,系统会进行干预,将注意力重新引导到潜在有害内容上。早期测试显示,这种方法既能保持模型良好表现,又能有效恢复安全防护。
参考
声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社