Fable 5一天干完两个月,这类工程师更值钱了

浏览18次 点赞0次 收藏0次

【导读】Fable 5发布后,Claude Code团队说,他们不再验证Claude有没有把活干对,而是开始验证它有没有在干对的事。开发者开始从盯代码输出的监工,转变为定标准的产品经理,衡量优秀工程师的标准也随之变了。

一夜之间,全网被一张由飞舞蝴蝶拼成的「5」字刷屏了。

这张图的主角,正是Anthropic刚端出的最强模型——Claude Fable 5。


https://www.anthropic.com/news/claude-fable-5-mythos-5

Anthropic官宣,这是他们第一款为通用场景做好安全处理的Mythos级模型,能力超过此前公开发布的任何一款。


紧接着,官方又公布了将所有用户的5小时和每周速率限制全部清零,让大家「尽情享受Fable 5」。

开发者这边,也一夜变天。

用Claude Code团队自己的话说:过去,他们盯的是Claude有没有正确完成工作;现在,他们盯的是Claude有没有在做正确的事。

Claude Code团队成员Thariq Shihipar认为,Fable是模型领域的一次重大突破,将改变人们与Claude的协作方式,有了这样的利器加持,「是时候更有雄心了」。


Thariq是AskUserQuestion工具的作者。这个工具的功能,就是让AI反过来采访你:动手写代码前,先抛一串选择题,把实现细节、边界情况、取舍问清楚。模型能自己跑得越久,这种事先问清楚的能力就越重要。

Thariq也分享了团队总结的Fable 5所带来的变化——

三件事被改写了:你怎么给它交代任务、你怎么验收它、你一个人能同时指挥多少个它。

先看Anthropic发布文中的Stripe案例:5000万行Ruby代码库全库迁移,人工需两个多月,Fable 5一天完成。


一个5000万行的Ruby代码库,要做全库迁移,按人手算,一个团队得干两个多月,Fable 5用了一天

把两个多月压成一天,这已经不是提速那么简单,人与AI的分工又一次被重新定义了。

从盯过程的监工

到定标准的产品经理

这轮升级的焦点,并不是跑分。

Anthropic给Claude Code的定位是「智能体编程环境(agentic coding environment)」。

它能读文件、跑命令、改代码,在你盯着、打断、或者干脆离开的时候,自己把问题推进下去。

这才是关键:它能自己干活了你还盯什么?Claude Code官方最佳实践里提到这样一句话:

如果你不给Claude一个能跑的检查项,那你自己就会变成那个验证循环。每一个错误,都得等你亲眼发现。


Claude Code官方最佳实践:给Claude一个能跑的检查,测试、构建或截图对比,否则你自己就成了验证循环

意思是说,过去你是监工,蹲在屏幕前看它一步步写,写错一行改一行。现在不一样了。你的活,从「逐步指挥」变成了「定义目标、给够上下文、立好验收标准」。

「给目标、给上下文」听起来不复杂,落地却不容易,官方最佳实践也给出了方向。

别一上来就让它写代码,先让它探索、再让它计划、最后才动手,免得它埋头解决了一个错的问题。

还有关键一点:用刚才提到的AskUserQuestion,让Claude先反过来采访你,把你没想清楚的实现细节、边界情况、取舍一条条问出来,最后落成一份SPEC.md。

不要担心这些准备工作浪费时间。当模型能力足够强,能够自主干活,把需求说清楚,比你盯着它写代码就要值钱得多了。

这正是Claude Code团队身上发生的事:从以前验证Claude有没有做对事情,到现在验证它有没有在做对的事情。

放手很爽

如何才能信任

放手听起来很爽,但凭什么信任Claude?

它最让人头疼的一点,是错了还一脸笃定。而且模型越强,输出越像模像样,错起来越难被一眼看穿。

Claude会在「看起来做完了」的时候停下来,可这恰恰是最危险的信号。

没有一个能跑的检查,「看起来完成」就成了Claude唯一的判断依据,到头来可能就成了你的麻烦。

官方的解法是:给它一个能判断「通过」或「失败」的东西。

比如一套测试、一个构建的退出码、一段把结果和设计稿做对比的截图。它干活、跑检查、读结果、再改,直到检查通过。这个循环自己就闭环了。

更进一步,是Claude Code里的/goal。你设一个完成条件,它就跨轮次一直干,不用你一轮轮去催。

每干完一轮,会有另一个小模型出来打分:它不是干活那个Claude,而是一个更小更快、更便宜的模型(默认是Haiku),专门读一遍完成条件和这轮对话,判一句「达成」还是「没达成」,再附一句理由。没达成就接着干,达成了自动收工。


Claude Code的/goal命令:设好完成条件,每轮由一个小模型判断是否达成,没达成就继续干

看上去像无人驾驶。但有一点必须讲清楚:那个打分的小模型,不会自己去跑命令,也不会自己去读文件,它只能看Claude在对话里摆出来的证据。

也就是说,这套循环转得顺不顺,全看Claude有没有把真东西摆出来。条件写得松一点,或者Claude只是嘴上说「跑过了」,评估器照样可能通过。

所以自检交付不等于无人审稿。

敢放手,靠的是随时能看到证据,不是赌模型聪明。

一个人

开始指挥上百个智能体

如果说/goal是让一个Claude干得更久,那Dynamic workflows是让一群Claude一起干。

它的玩法是,Claude替你写一段JavaScript脚本,这段脚本去编排大量子智能体在后台跑。

官方给的适用场景有全库的代码审计、500个文件的大迁移、需要交叉验证的研究问题等。

运行规模有多大?一次运行最多能调动1000个智能体,同时并发最多16个。


Claude Code官方文档的workflows约束表,高亮处显示单次运行最多1000个智能体

Claude Code甚至内置了一个叫/deep-research的workflow,专门把一个问题拆成多个角度去搜、去交叉核验、再投票筛掉站不住的说法,最后给你一份带引用的报告。

这意味着什么?Claude Code已经不只是终端里那个陪你聊天的对话框了,它在向一个能持续运行、能编排、能复用的工程代理系统靠拢。

一个人指挥一支AI军团,现在只用/workflows里的一行命令就能办到。

自主不等于替代

Fable 5确实更强。

官方说它能比此前任何Claude模型更长时间自主工作,任务越长越复杂,它领先得越多,但这不等于程序员完全可以撒手不管了。

恰恰相反,官方最佳实践通篇在强调四件必须要交给人去干的活:定验证标准、管权限、控上下文、审证据。


它甚至专门列出了一些应当避免的常见失败模式,其中一类错误叫「信任但不验证的缺口」(The trust-then-verify gap),说的正是Claude给出一份看着像模像样、实则没处理边界的情况。

解法只有一个:你能验证它,才能发布它;验证不了,就别发布。

成本和门槛,也绕不过去。

Fable 5的价格是每百万输入token 10美元、每百万输出token 50美元。能力更猛的「孪生兄弟」Mythos 5,底层是同一个模型,只是放宽了部分安全保护,眼下只开放给一小部分网络防御者和基础设施提供方。

Fable 5本身还带着一层分类器护栏。

碰到网络安全、生物化学这类敏感话题,它会自动把回答交给Opus 4.8接管。官方说超过95.0%的会话不会触发这种回退,但护栏调得偏保守,偶尔也可能误伤正常请求。

敢接长任务,不等于敢完全撒手。越自主,越要会验收。

回到Thariq那句话:是时候更有雄心了。

这个雄心背后的潜台词是让你敢把更大的问题交出去。但放手的过程还要有掌控,这更像是一种融合了经验与直觉的艺术。

规则是起点

不是教条

说了这么多规则和方法后,Anthropic官方补了一条:它们全是起点,不是教条。

也就是说,这套最佳实践在多数情况下好用,却未必适合每个场景。

有时候,你该让上下文一直攒着,因为你正啃一个复杂问题,那段历史很重要;有时候,你该跳过计划直接让Claude上,因为任务本就是探索性的;有时候,一句含糊的提示恰恰是对的,因为你想先看看它怎么理解,再决定要不要框住它。

诀窍是留心什么管用,没有一定之规。

Claude干得漂亮时,回想你做了什么:提示怎么写的、给了哪些上下文、用的哪个模式;它卡壳时,反思一下:提示太空、任务一口吃不下?

慢慢地,你会长出一种没有任何指南可以教的直觉:什么时候该说细、什么时候该留白;什么时候该计划、什么时候该放它去探索——

到了那一步,你才算真懂了怎么和它一起干活。

当Fable 5能把两个多月的活一天干完之后,程序员最稀缺的能力已经变了:不再是把代码写好,而是定义什么才是好代码,「会编程」这件事的定义,也在被悄悄改写。

未来最值钱的工程师,不再是代码监工,而是那个最会提问、定标准、验收的人。

参考资料:

https://www.anthropic.com/news/claude-fable-5-mythos-5%20%20

https://code.claude.com/docs/en/best-practices%20

https://code.claude.com/docs/en/common-workflows%20

https://x.com/ClaudeDevs/status/2064399512664526853

编辑:元宇

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯