阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源

2026-01-31 发布 · 浏览19次 · 点赞0次 · 收藏0次
感谢网友 Nuc_F 的线索投递!

1 月 30 日消息,阿里千问今天在公众号平台发文,宣布推出新一代 Agent 基准测试 DeepPlanning。

据介绍,DeepPlanning 与传统的推理任务截然不同,要求 AI 在面对现实世界的复杂规划时通盘考虑不能只专注于局部

例如:多日旅行规划要精确到分钟级排期,同时守住时间、预算的硬上限;复杂购物场景要懂得叠加优惠券、知道如何动态组合商品才能满减,以实现整体价格最优。而且这些“硬要求”不只是让 AI 单纯在哪一步完成就好,必须贯穿整个计划始终。

最终实测结果表明,即使是目前顶尖的 GPT-5.2、Claude 4.5、Gemini 以及 Qwen 3 模型,在全局优化以及长周期一致性上仍存在部分短板,距离真正成为拥有 100% 自主决策能力的“行动派”还有一定距离。

值得注意的是,阿里千问还在 Hugging Face 和 ModelScope 平台开源了这款基准,附上链接如下:

阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。