欢迎来到 AI 中文社区(简称 AI 中文社),这里是学习交流 AI 人工智能技术的中文社区。 为了更好的体验,本站推荐使用 Chrome 浏览器。
AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%
2024-05-29 发布
·
浏览434次
·
点赞0次
·
收藏0次
AI 智能体的宣传很好,现实不太妙。
随着大语言模型的不断进化与自我革新,性能、准确度、稳定性都有了大幅的提升,这已经被各个基准问题集验证过了。


单一智能体:一个大型模型处理整个任务,并基于其全面的上下文理解做出所有决策和行动。这种方法利用了大型模型的涌现能力,避免了将任务分解所带来的信息丢失。 多智能体系统:将任务分解为子任务,每个子任务由一个更小、更专业的智能体处理。与尝试使用一个难以控制和测试的大型通用智能体相比,人们可以使用许多更小的智能体来为特定子任务选择正确的策略。由于上下文窗口长度的限制或不同技能组合的需要等实际约束,这种方法有时是必要的。
可靠性:众所周知,LLMs 容易产生幻觉和不一致性。将多个 AI 步骤连接起来会加剧这些问题,尤其是对于需要精确输出的任务。 性能和成本:GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函数调用方面表现不错,但它们仍然较慢且成本高,特别是如果需要进行循环和自动重试时。 法律问题:公司可能需要对其智能体的错误负责。最近的一个例子是,加拿大航空被命令向一位被航空公司聊天机器人误导的客户赔偿。 用户信任:AI 智能体的「黑箱」性质以及类似示例使得用户难以理解和信任其输出。在涉及支付或个人信息的敏感任务中(如支付账单、购物等),赢得用户信任将会很困难。
adept.ai - 融资 3.5 亿美元,但访问权限仍然非常有限。 MultiOn - 融资情况未知,他们的 API 优先方法看起来很有前景。 HypeWrite - 融资 280 万美元,起初是一个 AI 写作助手,后来扩展到智能体领域。 minion.ai - 最初引起了一些关注,但现在已经沉寂,仅有等候名单。



近期的重点应放在利用 AI 增强现有工具,而不是提供广泛的全自主独立服务。 人机协同的方法,让人类参与监督和处理边缘案例。 根据当前的能力和局限,设定不脱离现实的期望。
声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
点赞(0)
收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论
游客
登录后再评论
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社