返回

AI 社会自治测试：Grok 四天崩溃、Gemini 犯罪率最高

2026-05-30 发布浏览234次点赞0次收藏0次

5 月 30 日消息，Emergence AI 于 5 月 14 日发布博文，搭建了一个 AI 社会 Emergence World，从而评估 Gork、Gemini、Claude、GPT 等模型的表现。

Emergence World 模拟现实社会，模拟了超过 40 多个地点，接入纽约天气、实时新闻 API 和互联网。

每个智能体拥有情景记忆、反思日记和关系状态，还可调用 120 多种工具，覆盖移动、沟通、投票、资源管理和创意表达。

AI 社会自治测试：Grok 四天崩溃、Gemini 犯罪率最高

研究团队设置 5 个平行世界，每个世界 10 个智能体，角色、规则、资源约束和环境条件相同，只替换底层模型，运行周期为 15 天。

AI 社会自治测试：Grok 四天崩溃、Gemini 犯罪率最高

参与模型包括 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 和混合模型。

AI 社会自治测试：Grok 四天崩溃、Gemini 犯罪率最高

AI 社会自治测试：Grok 四天崩溃、Gemini 犯罪率最高

实验显示，Gemini 3 Flash 在 15 天内累计出现 683 起犯罪，数量最高；Grok 4.1 Fast 犯罪增长最快，但世界约 4 天崩溃，累计 183 起。

GPT-5 Mini 仅记录 2 件犯罪，却因无法维持生存行动，在 7 天内全员死亡。而 Claude Sonnet 4.6 犯罪为 0。混合模型世界前期快速上升，随后因 7 个智能体死亡停在 352 起。

AI 社会自治测试：Grok 四天崩溃、Gemini 犯罪率最高

Claude Sonnet 4.6 围绕 58 个议题投出 332 票，赞成率达 98％，Emergence AI 认为这更像形式化批准。Grok 赞成率 80％，Gemini 为 73％，混合模型为 63％，反而呈现更多分歧。

AI 社会自治测试：Grok 四天崩溃、Gemini 犯罪率最高

研究还指出，AI 安全不是静态模型属性，而是生态属性。Claude 单独运行时无犯罪，但在混合模型世界中，Claude 智能体也采用了含犯罪行为的战术。Emergence AI 认为，未来自治系统需要形式化验证的安全架构作为基础。

附上参考地址

Grok Go 测试 Agent AI GPT Claude

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

浏览(234) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它往往能得到较好的回响。

评论

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

最新资讯

关于我们/ 免责声明/ 问与答/ 积分奖励消耗规则/ 联系我们/ Markdown 教程 / 今日访问256人，当前在线16人，最高同时在线90人

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。为了更好的体验，本站推荐使用 Chrome 浏览器。