VitaBench 标签,匹配到约1个结果, 耗时0.0845秒

美团 LongCat 团队发布 Agent 评测基准“VitaBench”,号称“高度贴近真实生活场景”

美团LongCat团队发布VitaBench评测基准,以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体,构建了66个工具的交互式评测环境。现有领先推理模型在主榜中的成功率仅30%,揭示了智能体与真实生活场景应用需求之间的差距。#智能体评测#...
2025-10-20
·
浏览24次
上一页
·
下一页
· 当前第1页