测试 标签,匹配到约2730个结果, 耗时0.0284秒
新测试表明 AI 实际办公准确率不足 25%,但进展比想象更快
一项由训练数据公司 Mercor 发布的研究报告指出,当前主流人工智能模型在处理实际办公室任务时表现不佳,最高准确率未超过 25%,研究表明 AI 在短期内难以替代人类知识工作者。...
2026-01-26
·
浏览23次
测试发现主流 AI 聊天机器人难辨伪造视频,ChatGPT 对自家 Sora 内容识别准确率不足 8%
Newsguard测试显示,主流聊天机器人难以识别Sora等生成的AI伪造视频。Grok错误率95%,ChatGPT达92.5%,即使面对自家生成的视频也束手无策。虚假信息借助AI“背书”传播的风险激增。#AI安全# #虚假信息#...
2026-01-26
·
浏览21次
引用有争议的 Grokipedia 内容,外媒质疑 OpenAI GPT - 5.2 的可信度
OpenAI的GPT-5.2模型在回答伊朗、大屠杀等争议话题时,被《卫报》发现引用了由xAI公司开发、曾卷入争议的AI在线百科全书Grokipedia。而其他话题则未出现此情况。OpenAI回应称会检索各类公开信息并应用安全过滤。#AI争议...
2026-01-25
·
浏览27次
谷歌、OpenAI 争相让旗下 AI 玩经典《精灵宝可梦》游戏,衡量 GPT、Gemini 的真正实力
谷歌、OpenAI和Anthropic正让自家AI模型游玩经典《精灵宝可梦》游戏,以此评估其逻辑推理、风险评估和长期规划等综合能力。研究人员通过观察AI在非线性游戏流程中的决策,深入理解模型能力边界。这一独特测试方法已引发AI社区关注。#A...
2026-01-25
·
浏览30次
eBay 将向未经授权的 AI 购物智能体说“不”
eBay 在发给用户的邮件中表示,新版协议将强化反爬虫条款,直接禁止 AI、大语言模型等自动化机器人在无人干预的情况下提交订单。任何 AI 系统如果希望在 eBay 平台运行,必须事先获得官方批准。...
2026-01-24
·
浏览35次
消息称微软内部大规模推广 Claude Code,鼓励非技术员工使用 AI 编程
据The Verge报道,微软内部越来越多员工使用Claude Code AI编程工具。微软鼓励多团队员工用它编程,还让无编程基础员工尝试。软件工程师需同时用Claude Code和GitHub Copilot并提交反馈。##微软推广Cla...
2026-01-23
·
浏览48次
OpenAI 编程工具 Codex 上线 JetBrains 旗下 IDE,适配 IDEA、PyCharm 等
OpenAI编程工具Codex现已登陆JetBrains全家桶(Rider/IDEA/PyCharm等),开发者无需离开编辑器即可完成规划、编码、测试等全流程。支持ChatGPT账号、API Key等多种方式接入,目前限时免费。 #AI编程...
2026-01-23
·
浏览51次
硅谷印钞机:奥尔特曼宣布 OpenAI API 业务上月新增 10 亿美元年度经常性收入
OpenAI 首席执行官山姆 · 奥尔特曼(Sam Altman)今天(1 月 23 日)在 X 平台发布推文,指出公司 API 业务上月(2025 年 12 月)表现强劲,新增年度经常性收入(ARR)超过 10 亿美元。...
2026-01-23
·
浏览38次
消息称 OpenAI 低调布局人形机器人:旧金山实验室百人团队训练机械臂做家务
据《Business Insider》报道,OpenAI已在旧金山秘密建立人形机器人实验室,配备约100名数据采集员,正通过GELLO控制器训练机械臂完成放面包、叠衣服等家务。与特斯拉等公司不同,OpenAI采用低成本、可规模化的数据采集路...
2026-01-22
·
浏览49次
微软发布 Rho-alpha 模型,让 AI 机器人听懂语言指令并完成复杂操作
微软发布机器人AI模型Rho-alpha,可将自然语言指令直接转化为机器人控制信号,完成复杂的双手协同操作任务。模型引入触觉感知能力,可实时调整动作,并支持人类干预和持续学习。目标是推动机器人在非结构化环境中自主运行。#机器人AI# #微软...
2026-01-22
·
浏览57次
AI 中文社