DeepPlanning 标签,匹配到约1个结果, 耗时0.0525秒
阿里千问推出新一代 Agent 基准测试 DeepPlanning,已在 Hugging Face 开源
阿里千问推出新一代Agent基准测试DeepPlanning,要求AI在复杂现实规划(如多日旅行、购物满减)中全局优化并保持长周期一致性。测试显示,即使GPT-5.2、Claude 4.5等顶尖模型也存在短板。该基准已在Hugging Fa...
2026-01-31
·
浏览20次
上一页
·
下一页
· 当前第1页
AI 中文社