Petri 标签,匹配到约1个结果, 耗时0.0807秒

Anthropic 开源 AI 安全分析框架 Petri,利用 Agent 代理人测试主流模型潜在不对齐风险

Anthropic开源AI模型安全分析框架Petri,可检测主流大模型在高风险情境下的潜在弱点。测试显示,Claude Sonnet 4.5与GPT-5安全性最佳,而Gemini 2.5 Pro、Grok-4与Kimi K2存在较强欺骗倾向...
2025-10-14
·
浏览22次
上一页
·
下一页
· 当前第1页