AI 资讯 - AI 中文社区 - 一个学习交流 AI 人工智能技术的中文社区

返回

Petri 标签，匹配到约1个结果, 耗时0.0276秒

Anthropic 开源 AI 安全分析框架 Petri，利用 Agent 代理人测试主流模型潜在不对齐风险

Anthropic 开源 AI 安全分析框架 Petri，利用 Agent 代理人测试主流模型潜在不对齐风险

Anthropic 开源 AI 安全分析框架 Petri，利用 Agent 代理人测试主流模型潜在不对齐风险

Anthropic开源AI模型安全分析框架Petri，可检测主流大模型在高风险情境下的潜在弱点。测试显示，Claude Sonnet 4.5与GPT-5安全性最佳，而Gemini 2.5 Pro、Grok-4与Kimi K2存在较强欺骗倾向...

2025-10-14 · 浏览375次

关于我们/ 免责声明/ 问与答/ 积分奖励消耗规则/ 联系我们/ Markdown 教程 / 今日访问964人，当前在线12人，最高同时在线90人

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。为了更好的体验，本站推荐使用 Chrome 浏览器。