Claude Opus 4.7连夜突袭:或将抢走全球7亿打工人饭碗!

浏览14次 点赞0次 收藏0次

【导读】Anthropic 正式发布 Claude Opus 4.7,核心升级落在复杂任务执行、高清视觉理解和更稳的长链路工作流上。对普通用户来说,最直接的变化是更听指令、更会看图、产出更接近成品,同时也要注意Token也会烧得更快了。

就在刚刚,Anthropic 正式发布 Claude Opus 4.7,并将它定义为当前可广泛使用的最强 Claude 模型。


性能不如此前曝光的新一代Claude Mythos Preview那么炸裂,但比普通用户能真正用到的Opus 4.6强了太多,除了Agentic搜索能力略有下降外,实现了全面碾压!


官方给出的本次升级的关键词:复杂任务、更强视觉、更稳的长链路执行,以及更少需要人工参与。

只要还在用大模型写文档、读截图、做演示、整理材料,Opus 4.7 带来的体验变化,很难绕开。


本次更新最大的亮点,是Opus 4.7的视觉能力大幅提升,在测试中从Opus 4.6约50%的分数,直接飙升到接近满分!

而这,补上了AI目前最大的视觉短板,或许已经不知不觉地迈过了替代人类工作的那道最重要的槛!

GPT-5.4 Thinking是这样评价它的对手Claude Opus 4.7发布给打工人带来的影响的:


本次升级的关键

在于复杂任务的完成度

Anthropic 把 Opus 4.7 的核心升级点放在了高级软件工程和长时间任务执行上。

用户已经可以把过去需要密切监督的高难度编码工作交给它处理,它会更严格地执行指令,也会在回报结果前主动想办法验证输出。

API 发布说明里,Anthropic 也把它称为当前最强的通用可用模型,面向复杂推理和代理式编码场景。

大模型竞争的焦点,正在从答得像不像,转到做得完不完。只会写一段漂亮答案,已经不够了。

能不能把一份长文档改干净,能不能把一套资料串起来做成可交付物,能不能持续几十分钟甚至更久不跑偏,这才会决定它在日常工作里能不能真的替人扛起一片天。

这能够从 Opus 4.7 的官方发布重点里直接看出来。

纯编程只是开胃菜

SWE-bench Multilingual 测的是模型修复真实 GitHub issue 的能力,覆盖多种编程语言。

Opus 4.7 拿 80.5%,Opus 4.6 拿 77.8%,涨 2.7 个百分点。

单看这个数,似乎只是一次常规迭代。但同一张图右边那组数据更有意思,后面回头讲。


1M token 里的长任务

GraphWalks 是 OpenAI 做的长上下文基准,把一张有向图用边列表塞满 1M token 上下文,让模型做图遍历。

两种考法:一种是 Parents,给一个节点让模型找出所有直接指向它的父节点;另一种是 BFS 广度优先搜索,从起点出发一路找到特定深度可达的节点,对 Agent 跑多步骤长任务是硬指标。

在 Parents 1M 这趴,Opus 4.7 从 71.1% 提到 75.1%,4 个百分点的常规改进。

而到了 BFS 1M,Opus 4.7 则从 41.2% 一口气干到 58.6%,拉开 17.4 个百分点。


换个场景再看。

Vending-Bench 2 让模型模拟经营一台自动售货机,测长时间工作流里的决策连贯性。

Opus 4.6 最终余额 8,018 美元,Opus 4.7 做到 10,937 美元。

同一台售货机,同一个时间窗口,Opus 4.7 多挣了 36%。


Agent 的眼睛换了代

ScreenSpot-Pro 测的是 Agent 的屏幕定位能力。

给模型一张 VSCode、Photoshop、AutoCAD 这类专业软件的高分辨率桌面截图加一条自然语言指令,让它定位到具体的 UI 元素。在高分辨率屏幕里,目标 UI 元素往往只占整张图的 0.07%,极考验精细视觉。

同样低分辨率不带工具,Opus 4.6 拿 57.7%,Opus 4.7 拿 69.0%,拉开 11.3 个百分点。

切到高分辨率,Opus 4.7 不带工具就达到了 79.5%。叠加工具调用,跑分直接来到 87.6%。


视觉能力在一些测试(如XBOW的基准测试)中,Opus 4.7相比Opus 4.6得分直接翻倍,从54.5%跃升到接近满分98.5!

这造就了Opus 4.7相比4.6在计算机使用(Computer Use)能力的天壤之别!


回到前面留的那张编程图。

SWE-bench Multimodal 这项,Anthropic 是用内部实现的测试 harness 跑的。

测的是前端 JS 软件修 bug,任务里带着 UI 截图、效果图一类的视觉素材,模型要结合图片和代码一起干活。

从 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%,一口气提了 7.4 个百分点。

Opus 4.7 的编程升级,重点是让模型看懂屏幕。眼睛换代了,脑子才能干更复杂的活。


GPT-5.4 和 Gemini 3.1 Pro 都没扛住

前面全是自比,现在来看看跟老对手们怎么打。

GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 数据集做的评估。

它覆盖了 44 种知识工作职业、9 大 GDP 核心行业,任务来自资深职业人士(平均 14 年经验)的真实交付物。AA 版本让模型在 agent loop 里干活,用盲测两两对比打 Elo 分。

Opus 4.7 拿 1753,Opus 4.6 拿 1619,GPT-5.4 拿 1674,Gemini 3.1 Pro 拿 1314。

Opus 4.7 高出 GPT-5.4 79 分,高出 Gemini 3.1 Pro 439 分。


OfficeQA Pro 是 Databricks 做的企业级推理基准,语料是近 100 年的美国财政部公报,8.9 万页 PDF、2600 万个数字。模型要精准找到文档、解析表格和正文、跨文档做分析推理。

在这里,Opus 4.7 的跑分高达 80.6%,而 Opus 4.6 只有 57.1%,GPT-5.4 和 Gemini 3.1 Pro 更低,分别是 51.1%和 42.9%。

换句话说,Opus 4.7 是 GPT-5.4 的 1.6 倍,是 Gemini 3.1 Pro 的 1.9 倍。


跃升最炸的是生物学

翻到最后一张,Structural Biology,生物分子推理。

Opus 4.6 只有 30.9%。而Opus 4.7 直接冲到了 74.0%。

一次版本迭代,从三成到七成半,2.4 倍。

堪称是所有 benchmark 里跃升最夸张的一项。


普通用户最先感受到的

是三大变化

第一个变化,指令遵循能力更强了。

Anthropic 写到,Opus 4.7 的指令遵循能力大幅提升,过去很多模型会松散理解、漏掉细节,Opus 4.7 则更倾向于逐条照着执行。

代价是,旧提示词有时会出现意料之外的结果,用户需要重新调整写法。

对普通用户来说,这会直接减少提示词玄学,写需求、定格式、列限制条件,会更有用。

第二种变化,Claude 看图会更细。

Opus 4.7 支持长边最高 2576 像素的图像输入,大约 375 万像素,超过此前 Claude 模型的三倍。

官方专门点了几个场景,密集截图、复杂图表、精细结构图、需要像素级参考的任务。

放到现实使用里,这对应的就是看懂一页密密麻麻的数据截图,识别产品原型细节,从复杂流程图里抽信息,读一张高分辨率海报或报表时少丢细节。

第三种变化,输出结果会更容易接近可交付的成品。

Anthropic 提到,Opus 4.7 在界面、幻灯片、文档这些专业任务上更有审美,也更有创造性。

它在基于文件系统的记忆上做得更好,能跨多轮、多会话记住关键备注,减少重复交代背景。

对经常拿模型润色材料、整理项目、反复改同一份内容的人来说,这种提升会比跑分的提升来得更直观。

这次发布

安全也被摆在了同样重要的位置

Anthropic 在一周前刚刚公布 Project Glasswing,专门谈到了前沿模型在网络安全方向的风险与收益。

Opus 4.7 成了这套新思路下第一个公开部署的模型,官方强调,它的网络安全能力弱于 Mythos Preview,并且上线时带有自动检测和拦截高风险网络安全请求的护栏。

合规安全研究人员则可以申请加入新的 Cyber Verification Program。

从安全评估看,Opus 4.7 与 Opus 4.6 的整体安全画像相近,在诚实性和抵抗恶意提示词注入上更强,在某些细项上也存在小幅走弱。


Anthropic 的结论是,它整体上「较为可靠且值得信任」,距离理想状态还有空间。

这说明,Anthropic 没有把发布包装成一次毫无代价的全面跃升。

谁会立刻受益

谁又要多留一个心眼

最先受益的人群很清楚,开发者、分析师、法务、研究人员,以及所有高频处理文档、表格、演示材料的人。

官方早期测试反馈里,很多合作方都提到同样几件事,复杂工作流更稳了,错误恢复更强了,文档推理、代码审查、数据分析、长上下文任务都有明显提升。


需要多留一个心眼的地方也已经写在官方说明里。

更高分辨率图像会烧掉更多 Token,用户用不到这些细节时,最好先压缩图片。

Opus 4.7 还换了分词器(Tokenizer),同样的输入可能会多出大约 1.0 到 1.35 倍 Token,高 Effort 下输出 Token 也会增加。

对直接在 Claude 应用里聊天的普通用户,这更多会体现在额度和响应体验上。

对使用龙虾和Hermes Agent这类API的用户和团队客户,这就是实打实的成本变量。

好在价格方面,Opus 4.7和4.6与4.5保持了一致,没有涨价,但这个价格本身其实就已经足够昂贵了...


Anthropic想传递的信号

已经很清楚了

从 Opus 4.7 这次发布能看出,Anthropic 眼下押注的方向已经很明确,长任务执行、视觉理解、工具协同、少监督交付,这几项能力正在被打包成下一阶段的大模型主战场。

官方同步上线的 Xhigh Effort(思考程度介于 high 和 max 中间)、Task Nudgets 公测,以及 Claude Code 里的 /ultrareview,也都围着这个方向在转。


除了官网公告外,Claude也公布了Opus 4.7的系统卡,长达232页,里面公布了更多值得关注的细节,限于篇幅再次我们不作展开。


对普通用户来说,对Claude Opus 4.7更直接的感受会是,交代清楚以后,它更容易把事情做对,看图更细,写出来的东西更能直接拿去用。

大模型从会聊天走向会干活,这一步又往前挪了一大截。

真正能干好活的最强生产力模型,从Opus 4.6,变成了Opus 4.7。

参考资料:

https://www.anthropic.com/news/claude-opus-4-7

https://x.com/claudeai/status/2044785261393977612

https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。