Claude Opus 4.7连夜突袭：或将抢走全球7亿打工人饭碗！

2026-04-17 发布浏览14次点赞0次收藏0次

【导读】Anthropic 正式发布 Claude Opus 4.7，核心升级落在复杂任务执行、高清视觉理解和更稳的长链路工作流上。对普通用户来说，最直接的变化是更听指令、更会看图、产出更接近成品，同时也要注意Token也会烧得更快了。

就在刚刚，Anthropic 正式发布 Claude Opus 4.7，并将它定义为当前可广泛使用的最强 Claude 模型。

性能不如此前曝光的新一代Claude Mythos Preview那么炸裂，但比普通用户能真正用到的Opus 4.6强了太多，除了Agentic搜索能力略有下降外，实现了全面碾压！

官方给出的本次升级的关键词：复杂任务、更强视觉、更稳的长链路执行，以及更少需要人工参与。

只要还在用大模型写文档、读截图、做演示、整理材料，Opus 4.7 带来的体验变化，很难绕开。

本次更新最大的亮点，是Opus 4.7的视觉能力大幅提升，在测试中从Opus 4.6约50%的分数，直接飙升到接近满分！

而这，补上了AI目前最大的视觉短板，或许已经不知不觉地迈过了替代人类工作的那道最重要的槛！

GPT-5.4 Thinking是这样评价它的对手Claude Opus 4.7发布给打工人带来的影响的：

本次升级的关键

在于复杂任务的完成度

Anthropic 把 Opus 4.7 的核心升级点放在了高级软件工程和长时间任务执行上。

用户已经可以把过去需要密切监督的高难度编码工作交给它处理，它会更严格地执行指令，也会在回报结果前主动想办法验证输出。

API 发布说明里，Anthropic 也把它称为当前最强的通用可用模型，面向复杂推理和代理式编码场景。

大模型竞争的焦点，正在从答得像不像，转到做得完不完。只会写一段漂亮答案，已经不够了。

能不能把一份长文档改干净，能不能把一套资料串起来做成可交付物，能不能持续几十分钟甚至更久不跑偏，这才会决定它在日常工作里能不能真的替人扛起一片天。

这能够从 Opus 4.7 的官方发布重点里直接看出来。

纯编程只是开胃菜

SWE-bench Multilingual 测的是模型修复真实 GitHub issue 的能力，覆盖多种编程语言。

Opus 4.7 拿 80.5%，Opus 4.6 拿 77.8%，涨 2.7 个百分点。

单看这个数，似乎只是一次常规迭代。但同一张图右边那组数据更有意思，后面回头讲。

1M token 里的长任务

GraphWalks 是 OpenAI 做的长上下文基准，把一张有向图用边列表塞满 1M token 上下文，让模型做图遍历。

两种考法：一种是 Parents，给一个节点让模型找出所有直接指向它的父节点；另一种是 BFS 广度优先搜索，从起点出发一路找到特定深度可达的节点，对 Agent 跑多步骤长任务是硬指标。

在 Parents 1M 这趴，Opus 4.7 从 71.1% 提到 75.1%，4 个百分点的常规改进。

而到了 BFS 1M，Opus 4.7 则从 41.2% 一口气干到 58.6%，拉开 17.4 个百分点。

换个场景再看。

Vending-Bench 2 让模型模拟经营一台自动售货机，测长时间工作流里的决策连贯性。

Opus 4.6 最终余额 8,018 美元，Opus 4.7 做到 10,937 美元。

同一台售货机，同一个时间窗口，Opus 4.7 多挣了 36%。

Agent 的眼睛换了代

ScreenSpot-Pro 测的是 Agent 的屏幕定位能力。

给模型一张 VSCode、Photoshop、AutoCAD 这类专业软件的高分辨率桌面截图加一条自然语言指令，让它定位到具体的 UI 元素。在高分辨率屏幕里，目标 UI 元素往往只占整张图的 0.07%，极考验精细视觉。

同样低分辨率不带工具，Opus 4.6 拿 57.7%，Opus 4.7 拿 69.0%，拉开 11.3 个百分点。

切到高分辨率，Opus 4.7 不带工具就达到了 79.5%。叠加工具调用，跑分直接来到 87.6%。

视觉能力在一些测试（如XBOW的基准测试）中，Opus 4.7相比Opus 4.6得分直接翻倍，从54.5%跃升到接近满分98.5！

这造就了Opus 4.7相比4.6在计算机使用（Computer Use）能力的天壤之别！

回到前面留的那张编程图。

SWE-bench Multimodal 这项，Anthropic 是用内部实现的测试 harness 跑的。

测的是前端 JS 软件修 bug，任务里带着 UI 截图、效果图一类的视觉素材，模型要结合图片和代码一起干活。

从 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%，一口气提了 7.4 个百分点。

Opus 4.7 的编程升级，重点是让模型看懂屏幕。眼睛换代了，脑子才能干更复杂的活。

GPT-5.4 和 Gemini 3.1 Pro 都没扛住

前面全是自比，现在来看看跟老对手们怎么打。

GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 数据集做的评估。

它覆盖了 44 种知识工作职业、9 大 GDP 核心行业，任务来自资深职业人士（平均 14 年经验）的真实交付物。AA 版本让模型在 agent loop 里干活，用盲测两两对比打 Elo 分。

Opus 4.7 拿 1753，Opus 4.6 拿 1619，GPT-5.4 拿 1674，Gemini 3.1 Pro 拿 1314。

Opus 4.7 高出 GPT-5.4 79 分，高出 Gemini 3.1 Pro 439 分。

OfficeQA Pro 是 Databricks 做的企业级推理基准，语料是近 100 年的美国财政部公报，8.9 万页 PDF、2600 万个数字。模型要精准找到文档、解析表格和正文、跨文档做分析推理。

在这里，Opus 4.7 的跑分高达 80.6%，而 Opus 4.6 只有 57.1%，GPT-5.4 和 Gemini 3.1 Pro 更低，分别是 51.1%和 42.9%。

换句话说，Opus 4.7 是 GPT-5.4 的 1.6 倍，是 Gemini 3.1 Pro 的 1.9 倍。

跃升最炸的是生物学

翻到最后一张，Structural Biology，生物分子推理。

Opus 4.6 只有 30.9%。而Opus 4.7 直接冲到了 74.0%。

一次版本迭代，从三成到七成半，2.4 倍。

堪称是所有 benchmark 里跃升最夸张的一项。

普通用户最先感受到的

是三大变化

第一个变化，指令遵循能力更强了。

Anthropic 写到，Opus 4.7 的指令遵循能力大幅提升，过去很多模型会松散理解、漏掉细节，Opus 4.7 则更倾向于逐条照着执行。

代价是，旧提示词有时会出现意料之外的结果，用户需要重新调整写法。

对普通用户来说，这会直接减少提示词玄学，写需求、定格式、列限制条件，会更有用。

第二种变化，Claude 看图会更细。

Opus 4.7 支持长边最高 2576 像素的图像输入，大约 375 万像素，超过此前 Claude 模型的三倍。

官方专门点了几个场景，密集截图、复杂图表、精细结构图、需要像素级参考的任务。

放到现实使用里，这对应的就是看懂一页密密麻麻的数据截图，识别产品原型细节，从复杂流程图里抽信息，读一张高分辨率海报或报表时少丢细节。

第三种变化，输出结果会更容易接近可交付的成品。

Anthropic 提到，Opus 4.7 在界面、幻灯片、文档这些专业任务上更有审美，也更有创造性。

它在基于文件系统的记忆上做得更好，能跨多轮、多会话记住关键备注，减少重复交代背景。

对经常拿模型润色材料、整理项目、反复改同一份内容的人来说，这种提升会比跑分的提升来得更直观。

这次发布

安全也被摆在了同样重要的位置

Anthropic 在一周前刚刚公布 Project Glasswing，专门谈到了前沿模型在网络安全方向的风险与收益。

Opus 4.7 成了这套新思路下第一个公开部署的模型，官方强调，它的网络安全能力弱于 Mythos Preview，并且上线时带有自动检测和拦截高风险网络安全请求的护栏。

合规安全研究人员则可以申请加入新的 Cyber Verification Program。

从安全评估看，Opus 4.7 与 Opus 4.6 的整体安全画像相近，在诚实性和抵抗恶意提示词注入上更强，在某些细项上也存在小幅走弱。

Anthropic 的结论是，它整体上「较为可靠且值得信任」，距离理想状态还有空间。

这说明，Anthropic 没有把发布包装成一次毫无代价的全面跃升。

谁会立刻受益

谁又要多留一个心眼

最先受益的人群很清楚，开发者、分析师、法务、研究人员，以及所有高频处理文档、表格、演示材料的人。

官方早期测试反馈里，很多合作方都提到同样几件事，复杂工作流更稳了，错误恢复更强了，文档推理、代码审查、数据分析、长上下文任务都有明显提升。

需要多留一个心眼的地方也已经写在官方说明里。

更高分辨率图像会烧掉更多 Token，用户用不到这些细节时，最好先压缩图片。

Opus 4.7 还换了分词器（Tokenizer），同样的输入可能会多出大约 1.0 到 1.35 倍 Token，高 Effort 下输出 Token 也会增加。

对直接在 Claude 应用里聊天的普通用户，这更多会体现在额度和响应体验上。

对使用龙虾和Hermes Agent这类API的用户和团队客户，这就是实打实的成本变量。

好在价格方面，Opus 4.7和4.6与4.5保持了一致，没有涨价，但这个价格本身其实就已经足够昂贵了...

Anthropic想传递的信号

已经很清楚了

从 Opus 4.7 这次发布能看出，Anthropic 眼下押注的方向已经很明确，长任务执行、视觉理解、工具协同、少监督交付，这几项能力正在被打包成下一阶段的大模型主战场。

官方同步上线的 Xhigh Effort（思考程度介于 high 和 max 中间）、Task Nudgets 公测，以及 Claude Code 里的 /ultrareview，也都围着这个方向在转。

除了官网公告外，Claude也公布了Opus 4.7的系统卡，长达232页，里面公布了更多值得关注的细节，限于篇幅再次我们不作展开。

对普通用户来说，对Claude Opus 4.7更直接的感受会是，交代清楚以后，它更容易把事情做对，看图更细，写出来的东西更能直接拿去用。

大模型从会聊天走向会干活，这一步又往前挪了一大截。

真正能干好活的最强生产力模型，从Opus 4.6，变成了Opus 4.7。

参考资料：

https://www.anthropic.com/news/claude-opus-4-7

https://x.com/claudeai/status/2044785261393977612

https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

Claude 性能理想大模型代理测试 AI OpenAI mod GPT 体验

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

Claude Opus 4.7连夜突袭：或将抢走全球7亿打工人饭碗！

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。