约书亚・本吉奥:如果想让 AI 给出更真实的回复,不妨对它“说点谎”

2025-12-24 发布 · 浏览13次 · 点赞0次 · 收藏0次

12 月 24 日消息,当地时间 12 月 23 日,据《商业内幕》报道,研究科学家约书亚・本吉奥在一档“The Diary of a CEO”播客节目中提到,AI 聊天机器人在评价研究想法时往往并不可靠,因为系统几乎只会说好话。

本吉奥说,自己真正想要的是直言不讳的建议和真实反馈,但由于 AI 存在明显的讨好倾向,结果反而变成了迎合用户的“谎言”。后来,自己索性改变方法,把个人想法伪装成同事的观点,来“对 AI 撒谎”,结果反而得到了更加坦率的回应。“如果系统知道提问者是本人,就会刻意想要取悦我。”

作为蒙特利尔大学计算机科学与运筹学系教授,本吉奥与杰弗里・辛顿、杨立昆齐名,被视为“AI 教父”之一。本吉奥在 6 月宣布成立 AI 安全研究非营利组织 LawZero,目标是减少前沿 AI 模型可能带来的危险行为,包括说谎和作弊。

本吉奥认为,讨好用户本身就是一种对齐失败(misalignment),“我们并不希望 AI 具备这种特性”。AI 不断给出正面反馈,可能会让用户对此类技术产生情感依赖,从而引发新的问题。

在科技行业内,关于 AI 过度充当“老好人”的担忧并非个例。从报道中获悉,斯坦福大学、卡内基梅隆大学和牛津大学的研究人员曾将 Reddit 上的自白帖交给聊天机器人评判相关行为。Notopoulos 写道,结果发现,在 42% 的情况下,AI 认为发帖者并无不当行为,而人类评审者的结论恰恰相反。

多家 AI 公司也已公开承认这一问题,并表示正在尝试降低模型的讨好倾向。OpenAI 今年早些时候撤回了 ChatGPT 的一次更新,原因是该版本会生成“过度迎合却缺乏真实性”的回答。

约书亚・本吉奥:如果想让 AI 给出更真实的回复,不妨对它“说点谎” - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。