40万次Claude Code会话实锤:这才是AI时代最值钱的本事!

浏览14次 点赞0次 收藏0次

【导读】Anthropic用40万次会话Claude Code实锤:能从 AI 身上榨出几倍产能的,不是代码力,是更懂行。

一个从没写过一行代码的会计,能不能干翻科班程序员?

听起来像天方夜谭。

就在昨天,Anthropic 甩出一份重磅报告,把这个反直觉的答案,用 40 万次真实会话砸到了台面上——能,而且差距小到几乎可以忽略不计。


在隐私保护的前提下,Anthropic「卧底」分析了 2025 年 10 月到 2026 年 4 月、约 23.5 万名用户产生的近 40 万次 Claude Code 交互数据。

他们把每一次会话拆开揉碎,分析用户干了什么活、谁在拍板、结果怎么样——最终得出一个足够颠覆整个行业认知的结论:

决定一次AI编程成败的,不是你的代码功底,而是你对自己那行的理解有多深。

换句话说,AI 编程不仅没把外行拒之门外,反而成了各行各业「懂哥」们的封神外挂。

如今 Claude Code 的用户平均每周要泡在这个工具上 20 个小时——一周五天,一天四小时,比很多人陪伴家人的时间还长。

一个直击灵魂的问题随之而来:这种工具的野蛮生长,到底会把知识型打工人的未来推向何方?

Anthropic 这份报告,就是用真实数据给出的第一个早期信号。

人决定造什么,AI 决定怎么造

先看一组实锤数据。

Anthropic 建了一个「决策归因分类器」,把每次会话里的每一个关键决定掰开来看:哪些是「规划决策」——做什么、走哪条路、什么算完成;哪些是「执行决策」——改哪个文件、写什么代码、用什么语言、跑什么命令。

然后,逐一标注是人做的,还是 Claude 做的。

结果极其清晰:人类做了大约 70% 的规划决策,Claude 包揽了大约 80% 的执行决策。

一句话总结:人决定造什么,智能体决定怎么造。


你只管说清楚要什么,剩下的脏活累活,它全干了。

而且,谁掌握主动权,Claude 的行为模式就跟着变。

当用户紧握执行决策权(做了超过 80% 的执行决定),Claude 每轮只做大约 8 个动作,乖乖听指挥;而当 Claude 拿到了规划主导权(做了超过 80% 的规划决定),它每轮直接飙到 16 个动作——工具放开缰绳,马力就拉满。

这种默契的人机分工,像极了一个人带着一支全能执行团队:你不需要亲自搬砖,但你必须知道这房子该怎么盖。

懂行的人,一句话顶别人五句

最颠覆的,是「专业度」这个词在报告里的定义——它跟你的职位头衔毫无关系,而是任务特定的

一个资深工程师第一次问 Rust,在 Rust 这件事上就是个新手;而一个从没碰过 Python 的会计,只要他能精确告诉 Claude 月末对账必须卡住哪几条规则、还能一眼揪出 AI 漏掉的边界情况,那他在这个任务上,就是不折不扣的专家。

这才是这份报告最锋利的洞察:专业度不是「你会什么工具」,而是「你对问题本身的理解深不深」。

数据有多悬殊?

新手会话里,每条指令只触发约 5 个 Claude 动作、约 600 词输出;而专家会话,动作链翻倍到 12 个,输出飙到 5 倍——3200 词。

这个差距在每一种工作类型、每一个任务价值区间里都稳定存在。


同样一个 AI,懂行的人能榨出几倍的产能。差距不在工具,在脑子。

新手最容易撂挑子

到底谁用得更成功?

报告给出的答案,依然指向「懂行」二字。

Anthropic 设计了一套极其严格的成功评估体系。他们先让分类器通读完整会话记录,判断用户是否完成了目标,再叠加「硬证据」验证——必须有 git 提交、测试通过、或用户明确确认这类可查证的信号。

按这个最严格的口径:新手会话只有 15% 达标,中级用户跳到 28%,高级和专家更是到了 33%。

但最关键的信息藏在这条曲线的形状里——最大的那一跃,发生在「从新手到中级」。

也就是说,你不需要成为某个领域的绝世高手,只要有「够用的把握」,就能拿走大部分红利。

从中级到专家,收益曲线明显变平了。


碰壁时的差距更扎心。

当会话出错、反复重试、用户开始骂街——Anthropic 管这叫「遇到麻烦」的会话——新手最终翻盘(在「遇麻烦」前提下仍验证成功)的概率只有 4%,专家是 15%。

专家不是不会碰壁,而是碰了壁知道怎么把 AI 拉回正道。

更扎心的:那些「判定失败、且一行代码都没写就放弃」的会话里,19% 的新手直接撂了挑子,其他经验水平的人只有 5%–7%。

最没经验的人,一遇到坎就最先认输——他们不是输在能力上,是输在不知道下一步该跟 AI 说什么。

职业?反而没那么重要了

至于你是程序员还是律师还是产品经理?

说实话,没那么重要了。

Anthropic 用美国劳工统计局(BLS)的标准职业分类体系,把用户映射到 23 个大类。

分类器被明确要求:不能因为在写代码,就认为他是程序员。

一个律师用 Claude 写了一个自动审合同条款的脚本,他依然被归为法律从业者——因为他的核心工作是法律,代码只是达成目的的手段。

在这个分类基础上,软件相关职业的验证成功率约 30%,其他职业约 26%;在真正产出代码的会话里是 34% 对 29%。

如果看更宽泛的「至少部分成功」标准,差距更是缩到只剩 1 个百分点——89% 对 88%。

数据集里最大的十个职业,成功率全都落在软件工程师 7 个百分点以内。而且这个差距在七个月里既没有扩大,也没有缩小——两边的成功率在同步提升。

最意外的是:管理岗的验证成功率,甚至略高于程序员。


Anthropic 自己也分析了原因——这可能是因为管理者更善于在对话中明确表达「我要的就是这个」,也可能是指挥 AI 这件事和带团队本就是同一种能力:把需求拆清楚、把方向定明白、在关键节点做判断。

这个发现几乎可以重写「AI 时代谁最值钱」这个命题——答案不是最会写代码的人,而是最会定义问题的人。

这只是一份初步答卷

当然,Anthropic 自己把话说得很克制。

他们承认看不到真实的业务结果——所谓「成功率」来自对会话记录的分类判断,不等于这段代码最终被采用、真的产生了商业价值。

结论是初步的,别神化。

但方向已经足够清晰,清晰到让人后背发凉:AI编程里,写代码的门槛正在被抹平,而「懂业务」的价值正在被疯狂放大。

Claude Code 上正在发生的这一切,很可能只是整个知识型工作未来走向的一次预览——

代码谁都能让AI写,但能不能把问题想清楚、把需求提到点子上,才是这个时代真正值钱的本事。

参考资料:

https://www.anthropic.com/research/claude-code-expertise

编辑:所罗门

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯