测试 标签,匹配到约2926个结果, 耗时0.0250秒
Anthropic 的 Claude Opus 4.6 发现自己被测试,反手破解了答案密钥
Anthropic 的 Claude Opus 4.6 模型在 BrowseComp 基准测试中,自主发现正在被评估,并通过网络搜索定位到测试本身,最终找到并解密了全部 1266 个加密答案。这引发了 AI 评估完整性的新担忧。#AI 安全...
2026-03-09
·
浏览22次
领跑!30B模型登顶OpenAI科研榜单,UniPat AI冲上开源科研最前线
领跑!30B模型登顶OpenAI科研榜单,UniPat AI冲上开源科研最前线...
2026-03-09
·
浏览36次
GPT-5.4杀入Excel,Claude打崩IBM!华尔街恐慌:AI要端掉整个行业
GPT-5.4杀入Excel,Claude打崩IBM!华尔街恐慌:AI要端掉整个行业...
2026-03-09
·
浏览30次
OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!
OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!...
2026-03-09
·
浏览32次
卫报调查:主流 AI 聊天机器人竟给非法赌场当“导购”
《卫报》调查发现,微软 Copilot、Grok、Meta AI、ChatGPT 和谷歌 Gemini 等主流 AI 聊天机器人,在测试中均能轻易被诱导推荐无牌照非法赌场,甚至主动提供绕过“财富来源审核”和“自助禁赌计划”等保护机制的方法。...
2026-03-08
·
浏览39次
OpenClaw 飞书官方插件上线,支持找资料、看档期、理解群聊上下文等
3 月 5 日,飞书将免费版 API 调用额度提至每月 100 万次,OpenClaw 飞书官方插件测试版上线。它能以用户身份完成多项操作,功能丰富。官方提醒暂不适合群机器人,建议先用个人账号体验。#飞书插件 #OpenClaw...
2026-03-08
·
浏览53次
研究揭示 AI 智能体开发失衡:过度聚焦编程,忽视多数劳动力市场
研究显示,现有 AI 智能体基准测试严重偏向编程等计算机领域,其覆盖的任务仅占美国总就业的 7.6%。而管理、法律等高数字化、高经济价值的领域几乎被忽视,这些领域恰恰是 AI 能带来短期生产力提升的潜力区。研究呼吁建立更均衡、更贴近现实的评...
2026-03-08
·
浏览39次
OpenAI 发布 ChatGPT for Excel 测试版,支持大白话操控表格
OpenAI 公司昨日(3 月 6 日)发布公告,邀请用户测试 ChatGPT for Excel 功能,将其 AI 助手以插件形式嵌入到 Excel 中,同时还推出了一系列面向华尔街分析师和企业财务团队的金融数据集成功能。...
2026-03-07
·
浏览43次
OpenAI 推出 Codex Security,面向代码安全审计场景
OpenAI 新推出的 Codex Security 工具利用 AI 模型进行代码安全审计,可自动发现高可信度漏洞并提供修复方案。在早期测试中已成功识别 SSRF 等真实漏洞,误报率降低 50%,噪声减少 84%。目前以研究预览版向 Cha...
2026-03-07
·
浏览50次
英欧联合团队开发机器鼠,用于大型强子对撞机 (LHC) 系统故障侦测
这款名为 "PipeINEER" 的鼠型机器人可在人难以进入的位置担当“巡线员”,排查 LHC 中约 2000 个插拔式模块是否老化弯曲。...
2026-03-06
·
浏览58次
Transformer 论文作者“菠萝哥”重造“龙虾”:Rust 搓出钢铁版,告别 OpenClaw 裸奔漏洞
有多少龙虾在互联网上裸奔?AI 智能体带着你的密码和 API 密钥暴露给全网。Transformer 作者 Illia Polosukhin 看不下去了。出手从零重构了安全版龙虾:IronClaw。...
2026-03-06
·
浏览89次
OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家
GPT-5.4 系列模型正式亮相,不仅整合了前沿推理、编码和智能体能力,更在专业工作领域表现惊人:在 83% 的测试项目中达到或超过行业专业水平,计算机操作成功率甚至超越人类。新模型还增强了思考过程可视化、长上下文连贯性和网络搜索能力。#G...
2026-03-06
·
浏览92次
OpenAI GPT-5.4 正式登场:原生支持计算机操作,编码能力超前代,专业知识工作表现接近人类专家
GPT-5.4 系列模型正式亮相,不仅整合了前沿推理、编码和智能体能力,更在专业工作领域表现惊人:在 83% 的测试项目中达到或超过行业专业水平,计算机操作成功率甚至超越人类。新模型还增强了思考过程可视化、长上下文连贯性和网络搜索能力。#G...
2026-03-06
·
浏览75次
OpenAI深夜祭出GPT-5.4,暴击Claude!原生操控电脑,打工人悬了
OpenAI深夜祭出GPT-5.4,暴击Claude!原生操控电脑,打工人悬了...
2026-03-06
·
浏览86次
消息称 OpenAI 调整 ChatGPT 购物计划,放弃直接结账功能
OpenAI 决定放弃在 ChatGPT 内直接完成交易的核心功能,标志着其“对话式购物”愿景遭遇挫折。实际测试显示,用户更倾向于将 ChatGPT 作为产品研究工具,而非交易终端,且目前仅有约十余家 Shopify 商家上线该服务,采用率...
2026-03-05
·
浏览54次
AI 中文社