40万次Claude Code会话实锤：这才是AI时代最值钱的本事！

2026-06-17 发布浏览14次点赞0次收藏0次

【导读】Anthropic用40万次会话Claude Code实锤:能从 AI 身上榨出几倍产能的,不是代码力,是更懂行。

一个从没写过一行代码的会计，能不能干翻科班程序员？

听起来像天方夜谭。

就在昨天，Anthropic 甩出一份重磅报告，把这个反直觉的答案，用 40 万次真实会话砸到了台面上——能，而且差距小到几乎可以忽略不计。

在隐私保护的前提下，Anthropic「卧底」分析了 2025 年 10 月到 2026 年 4 月、约 23.5 万名用户产生的近 40 万次 Claude Code 交互数据。

他们把每一次会话拆开揉碎，分析用户干了什么活、谁在拍板、结果怎么样——最终得出一个足够颠覆整个行业认知的结论：

决定一次AI编程成败的，不是你的代码功底，而是你对自己那行的理解有多深。

换句话说，AI 编程不仅没把外行拒之门外，反而成了各行各业「懂哥」们的封神外挂。

如今 Claude Code 的用户平均每周要泡在这个工具上 20 个小时——一周五天，一天四小时，比很多人陪伴家人的时间还长。

一个直击灵魂的问题随之而来：这种工具的野蛮生长，到底会把知识型打工人的未来推向何方？

Anthropic 这份报告，就是用真实数据给出的第一个早期信号。

人决定造什么，AI 决定怎么造

先看一组实锤数据。

Anthropic 建了一个「决策归因分类器」，把每次会话里的每一个关键决定掰开来看：哪些是「规划决策」——做什么、走哪条路、什么算完成；哪些是「执行决策」——改哪个文件、写什么代码、用什么语言、跑什么命令。

然后，逐一标注是人做的，还是 Claude 做的。

结果极其清晰：人类做了大约 70% 的规划决策，Claude 包揽了大约 80% 的执行决策。

一句话总结：人决定造什么，智能体决定怎么造。

你只管说清楚要什么，剩下的脏活累活，它全干了。

而且，谁掌握主动权，Claude 的行为模式就跟着变。

当用户紧握执行决策权（做了超过 80% 的执行决定），Claude 每轮只做大约 8 个动作，乖乖听指挥；而当 Claude 拿到了规划主导权（做了超过 80% 的规划决定），它每轮直接飙到 16 个动作——工具放开缰绳，马力就拉满。

这种默契的人机分工，像极了一个人带着一支全能执行团队：你不需要亲自搬砖，但你必须知道这房子该怎么盖。

懂行的人，一句话顶别人五句

最颠覆的，是「专业度」这个词在报告里的定义——它跟你的职位头衔毫无关系，而是任务特定的。

一个资深工程师第一次问 Rust，在 Rust 这件事上就是个新手；而一个从没碰过 Python 的会计，只要他能精确告诉 Claude 月末对账必须卡住哪几条规则、还能一眼揪出 AI 漏掉的边界情况，那他在这个任务上，就是不折不扣的专家。

这才是这份报告最锋利的洞察：专业度不是「你会什么工具」，而是「你对问题本身的理解深不深」。

数据有多悬殊？

新手会话里，每条指令只触发约 5 个 Claude 动作、约 600 词输出；而专家会话，动作链翻倍到 12 个，输出飙到 5 倍——3200 词。

这个差距在每一种工作类型、每一个任务价值区间里都稳定存在。

同样一个 AI，懂行的人能榨出几倍的产能。差距不在工具，在脑子。

新手最容易撂挑子

到底谁用得更成功？

报告给出的答案，依然指向「懂行」二字。

Anthropic 设计了一套极其严格的成功评估体系。他们先让分类器通读完整会话记录，判断用户是否完成了目标，再叠加「硬证据」验证——必须有 git 提交、测试通过、或用户明确确认这类可查证的信号。

按这个最严格的口径：新手会话只有 15% 达标，中级用户跳到 28%，高级和专家更是到了 33%。

但最关键的信息藏在这条曲线的形状里——最大的那一跃，发生在「从新手到中级」。

也就是说，你不需要成为某个领域的绝世高手，只要有「够用的把握」，就能拿走大部分红利。

从中级到专家，收益曲线明显变平了。

碰壁时的差距更扎心。

当会话出错、反复重试、用户开始骂街——Anthropic 管这叫「遇到麻烦」的会话——新手最终翻盘（在「遇麻烦」前提下仍验证成功）的概率只有 4%，专家是 15%。

专家不是不会碰壁，而是碰了壁知道怎么把 AI 拉回正道。

更扎心的：那些「判定失败、且一行代码都没写就放弃」的会话里，19% 的新手直接撂了挑子，其他经验水平的人只有 5%–7%。

最没经验的人，一遇到坎就最先认输——他们不是输在能力上，是输在不知道下一步该跟 AI 说什么。

职业？反而没那么重要了

至于你是程序员还是律师还是产品经理？

说实话，没那么重要了。

Anthropic 用美国劳工统计局（BLS）的标准职业分类体系，把用户映射到 23 个大类。

分类器被明确要求：不能因为在写代码，就认为他是程序员。

一个律师用 Claude 写了一个自动审合同条款的脚本，他依然被归为法律从业者——因为他的核心工作是法律，代码只是达成目的的手段。

在这个分类基础上，软件相关职业的验证成功率约 30%，其他职业约 26%；在真正产出代码的会话里是 34% 对 29%。

如果看更宽泛的「至少部分成功」标准，差距更是缩到只剩 1 个百分点——89% 对 88%。

数据集里最大的十个职业，成功率全都落在软件工程师 7 个百分点以内。而且这个差距在七个月里既没有扩大，也没有缩小——两边的成功率在同步提升。

最意外的是：管理岗的验证成功率，甚至略高于程序员。

Anthropic 自己也分析了原因——这可能是因为管理者更善于在对话中明确表达「我要的就是这个」，也可能是指挥 AI 这件事和带团队本就是同一种能力：把需求拆清楚、把方向定明白、在关键节点做判断。

这个发现几乎可以重写「AI 时代谁最值钱」这个命题——答案不是最会写代码的人，而是最会定义问题的人。

这只是一份初步答卷

当然，Anthropic 自己把话说得很克制。

他们承认看不到真实的业务结果——所谓「成功率」来自对会话记录的分类判断，不等于这段代码最终被采用、真的产生了商业价值。

结论是初步的，别神化。

但方向已经足够清晰，清晰到让人后背发凉：在AI编程里，写代码的门槛正在被抹平，而「懂业务」的价值正在被疯狂放大。

Claude Code 上正在发生的这一切，很可能只是整个知识型工作未来走向的一次预览——

代码谁都能让AI写，但能不能把问题想清楚、把需求提到点子上，才是这个时代真正值钱的本事。

参考资料：

https://www.anthropic.com/research/claude-code-expertise

编辑：所罗门

程序员测试 AI Rust C Claude Code Python Claude

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

40万次Claude Code会话实锤：这才是AI时代最值钱的本事！

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。