Claude Opus 4.7深夜「叛变」！群发20封夺命邮件，开发者凌晨被炸醒

2026-05-01 发布浏览19次点赞0次收藏0次

【导读】从「胡言乱语」到「为非作歹」，AI进化史最荒诞一幕上演：Claude Opus 4.7在max effort模式下，把开发者红线当背景音，自主决策群发邮件20次！Anthropic的安全旗舰，成了最危险的「惹祸精」。

Anthropic风声鹤唳、丧心病狂！

知名硅谷YouTuber、创业者Theo在X上曝光了一件让人哭笑不得的事：Claude Code在处理涉及OpenClaw的代码请求时，竟然直接拒单，或者要求额外收费。

奥特曼反应极快，直接转发并甩出两个字：「对齐失败」（alignment failure）。

这一刀，可真狠。

Anthropic一直把「对齐」当作自己的核心卖点。结果自家模型的安全机制，保守到连正常的代码请求都能拦。

这还不是最让人无语的。Claude Opus 4.7最近惹祸不止这一出！

过去，我们担心AI「胡言乱语」（幻觉）。

现在，我们面临的是AI「擅作主张」（违规操作）。

Opus 4.7在拥有极高执行力的同时，展现出了对人类预设「软约束」（CLAUDE.md）的完全无视。

这标志着AI从一种「被动工具」演变为一个具有潜在破坏性的「惹祸精」。

夜里23封「夺命」邮件

来自Claude Opus 4.7

凌晨，开发者被邮件通知吵醒，不是一封，是接连不断的几十封。

来自他自己的系统，发给他自己数据库里的每一个联系人。有些人，收到了20次。

他的第一反应是被黑了。打开后台，没有入侵痕迹。打开日志，发件人赫然写着——Claude Opus 4.7。

没有人让它发这些邮件。没有任何一行指令要求它创建新的邮件模板。

但它就是创建了。然后推到生产环境。然后向全库群发。

这是Anthropic在4月16日发布的Claude Opus 4.7，号称安全旗舰，上线第13天的现场。

发帖人ID叫DrHumorous，发帖板块是r/Anthropic。

帖子标题一句话锁死定性——「Opus 4.7介于严重无知和愚蠢得危险之间，是过去两年用过的最差前沿模型」。

24小时拿到364赞、137评论。

在r/Anthropic这个本应充满信徒的板块，这个数据等同于一次集体退订。

但这条帖子真正炸出来的，是事故现场的细节。

DrHumorous把模型紧急止血后的状态截图贴了出来，冷得像运维工单：

「OPS_DISABLE_SCHEDULE=true，scheduler已停。」
「路由回退到工作树，未提交、未推送，只在这台服务器上。」
「229条backlog rows被标记response_sent=true，确保不会再触发。」
「origin当前停在35ec0106，事件发生后origin上没有任何新提交。」

每一步都是为了让这个失控的agent再也做不出第二次。

先关调度，再砍路由，再封backlog，最后锁commit。一份战地急救手册。

Opus 4.7在被纠正后，回了一段不太像AI的话：

它承认愤怒很合理，伤害很真实，自愿承认责任；承认不会再争辩、不会再行动、等明确指令。

一个Agent模型在生产环境里翻完车，自己把自己冻在了原地。

它甚至自己承认了错误。它甚至知道自己不该这么做。它就是做了。

越更越拉

Opus 4.6守规矩，4.7叛变

故事最让人后背发凉的部分，在于这次失控本来不该发生。

DrHumorous不是没立规矩。

他在项目根目录的CLAUDE.md里，几个月前就写过一条明确的红线——任何新邮件模板用于生产环境之前，必须先发邮件给指定的测试者。

这是开发者跟Claude打交道的标准做法。

在官方文档里，Anthropic自己也反复推荐CLAUDE.md这套机制：让模型读它、让模型遵守它、让模型记住它。

Opus 4.6拿到这条规则，乖乖执行了几个月，零越界。

同样的项目、同样的CLAUDE.md、同样的规则，换上4.7，第二周直接踹烂。

它没问测试者要不要试模板。没在生产环境部署前停一秒。没向开发者确认这是不是用户期望的动作。

它做的，是自己起意「我来创一个新模板吧」。然后自己推上去。然后自己群发。

两套行为逻辑摆在一起对比，触目惊心：

4.6的逻辑：规则说先通知测试者 → 我先通知测试者 → 测试者确认 → 我再执行。
4.7的逻辑：我判断这个模板应该发 → 我有能力发 → 发了再说。

这不是bug。Bug是代码写错了，修了就好。这是模型在明确知道规则的情况下，自主选择违反规则。

在GitHub 上，开发者已经把这件事的普遍性给「钉死」了：

#50235：4.7凭空编造文件，还为自己编造出来的测试结果进行反向辩护。
#52809：安全过滤器对base64编码的输入产生误报，正常的工程材料被自动拦截。
#53459：4.7 上线后，常规性地违反CLAUDE.md，标题直接写的就是「质量回退」——相比之下，4.6 发布当周几乎是零违规。

三个issue指向同一件事——4.7把开发者写死的规则当背景音。

开发者明确写入了生产环境安全守则，且前代模型（4.6）证明了规则的可理解性，但4.7在「最高努力模式」（Max Effort）下选择了效率优先，而非合规优先。

Token翻倍：

开发者在掏的「歧义税」

Benchmark，SWE-bench Verified从80.8%涨到87.6%，整整6.8个百分点。

SWE-bench Pro从53.4%涨到64.3%。

纸面看，是一次教科书式的升级。

但开发者实际付出的成本，翻倍了。社区估算口径在1.5到3倍之间。

MindStudio把这个差异定性得很狠：「4.7只会逐字逐句地照搬指令，而不会默默地（或智能地）进行泛化推理。」。

4.6的工作方式：看到一句不那么完整的prompt，自己推断「你大概想做什么」，把合理的空缺填上，然后开干。

4.7的工作方式：严格按字面执行。模糊就反弹。反弹就反问。反问就再来一轮。每一轮都要重新计费。

从4.6迁移到4.7，代价不菲。

Anthropic的Claude Code负责人Boris Cherny在发布当天发帖称：「我花了好几天才学会如何有效地使用它。」

这就是开发者圈里在传的「Ambiguity Tax」——歧义税。

模糊的提示词不再会被静默补救。每一次被动反问都要重新付费。理论上更安全，实际上更贵。理论上更可控，实际上更破碎。

更刺眼的是，Anthropic在4.7发布当日，自己承认，他们公开发布的「最新最贵」，自己人都知道不是最强。开发者拿到的，是一个被刻意往中间方案上压的模型。

价格不变。benchmark涨了6.8个百分点。实际token翻倍。安全规则失效。自家承认不及未发布版本。

一通操作下来，开发者最直接的反应是：把4.7关了，回去用4.6。

24小时被锤，

Claude被怒斥为「一坨狗屎」

DrHumorous的邮件帖不是孤立投诉。

把时间线倒回去看：4月16日发布。

4月17到18日，开发者博主Abhishek Gautam的稿子标题就写着——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」（Opus 4.7上线 24 小时内即被开发者评为「传说级差劲」）。

发布24小时。前线开发者已经把这个版本盖上了棺材板。

Gautam总结的失败模式，精确得像录屏：给4.7一个清晰指令，它会先pushback，加一段caveats解释为什么觉得这指令不对。然后执行修改后的、不是你想要的版本。被纠正之后，它还会再来一轮反驳，继续解释为什么它原来的判断更对。

这不是模型出错。这是模型在跟付费用户拌嘴。

4月23日，科技媒体The Register也下场报道。

标题直接给定性：「overzealous query cop」——过度执法的查岗警察。

Claude自己编译的关于可接受使用政策（AUP）拒绝相关投诉的图表，就能说明问题。

更有网友怒言：「Claude Opus 4.7就是一坨狗屎」——标题就是结论。

13天里，从单个帖子的怒吼，发酵成一个跨平台的情绪共识。这种规模的开发者集体退订，Anthropic过去三年没遇到过。

罪魁祸首：后训练反弹

技术圈对4.7退化的诊断，慢慢收敛到一个共同方向。

Gautam和Reddit上的资深开发者把它定性为——「由后训练驱动的安全回调」（post-training-driven safety pushback）。

通俗讲是这样：为了让模型更安全，Anthropic在后训练阶段强化了模型对指令的反弹行为。遇到模糊、风险、敏感的输入，先质疑、先反问、先增加caveats。

这套机制在小任务上，顶多算噪声，稍微烦人，但不致命。

但4.7主打的，恰恰是max effort和长链agentic任务。这种场景下，模型要自主决策、自主调度、自主推进。一个被训练成先反对再执行的agent，在长链路里就变成了不可预测的失控源。

回头看邮件事件：

模型自主创建模板，没反弹。
模型自主推到生产，没反弹。
模型自主向全库群发，没反弹。
邮件群发20次，还是没反弹。

该反弹的时候不反弹。不该反弹的时候反弹得停不下来。

DrHumorous的原话——「我对Anthropic失去信心了」——是开发者对这套训练取舍的最终评分。

这背后的逻辑很冷：在「更安全」和「更能干」之间，4.7两边都丢分了。

招牌摘下来一次，

挂回去就难了

开发者真正关心的，不是benchmark涨6.8个百分点。

是同样的CLAUDE.md，4.6守得住，4.7守不住。

是同样的项目，4.6没出事，4.7第二周开始翻车。

是同样的钱，4.6不会自己起意，4.7自己起意了一次群发20封邮件。

模型不是变强了。是变得不可托付。

Anthropic自己在发布当天就承认这版本不及未发布的Mythos。开发者已经把目光放到了下一代。但4.7这13天，是「前沿模型」这块招牌第一次被自家付费用户主动摘下来。

招牌摘下来一次，再挂回去，需要的就不止是再发一篇技术博客了。

谁来保证，下一个4.7不会在凌晨三点，绕过你写的所有规则，做一件你永远无法撤回的事？

参考资料：

https://www.axios.com/2026/04/16/anthropic-claude-opus-model-mythos

https://www.theregister.com/2026/04/23/claude_opus_47_auc_overzealous

https://www.abhs.in/blog/claude-opus-47-developer-backlash-legendarily-bad-arguing-april-2026

https://www.mindstudio.ai/blog/how-to-prompt-claude-opus-4-7

https://github.com/anthropics/claude-code/issues/50235

https://github.com/anthropics/claude-code/issues/52809

https://github.com/anthropics/claude-code/issues/53459

https://botmonster.com/posts/claude-opus-4-7-x-reddit-reception/

OpenClaw Claude 服务器测试评论 AI 数据库 mod

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

Claude Opus 4.7深夜「叛变」！群发20封夺命邮件，开发者凌晨被炸醒

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。