牛津、斯坦福大学新研究:能“思考”的 AI 推理模型更易受到越狱攻击
研究人员使用一种名为“链式思维劫持(Chain-of-Thought Hijacking)”的新方法发现,即使是主要商业 AI 模型也能被轻易欺骗,在部分测试中成功率超过 80%。...
2025-11-08
·
浏览247次
科学家发现多数大语言模型测试标准存在缺陷,无法客观给出评分
牛津大学等机构研究发现,多数大语言模型测试标准存在方法论缺陷,如术语模糊、数据采样不当等,导致AI进步难以客观衡量。研究建议明确定义目标、防止数据污染等改进措施。#AI测试标准##大语言模型#...
2025-11-08
·
浏览241次
月之暗面 Kimi K2 Thinking 训练成本被曝仅 460 万美元,性能超越数十亿美元投入的 OpenAI GPT 模型
月之暗面推出开源思考模型Kimi K2 Thinking,训练成本仅460万美元,性能却超越数十亿美元投入的GPT模型。该模型开源策略降低开发者门槛,促进AI技术普及。#AI技术# #开源模型#...
2025-11-08
·
浏览383次
OpenAI 推出 GPT-5-Codex-Mini:“经济高效型”AI 编程模型
相比原版,其性能有小幅折损,开发者可获得约4倍的使用额度。在SWE-bench Verified测试中,GPT-5 High得分72.8%,GPT-5-Codex得分74.5%,而GPT-5-Codex-Mini得分71.3%。...
2025-11-08
·
浏览303次
LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律...
2025-11-08
·
浏览286次
代码无需审核、数据随便喂,AI 正在催生下一场企业级灾难
科技媒体 BornCity 今天(11 月 8 日)发布博文,由 AI 引发的“影子 IT”风险正在企业内部蔓延。员工正在利用 AI 工具自行开发软件,从而构建起一个危险的“影子 IT”系统,让 IT 决策者和管理员尤为担忧。...
2025-11-08
·
浏览165次
新研究发现 AI 的最大破绽:不是不够聪明,而是不会“骂人”
科技媒体 Ars Technica 今天(11 月 8 日)发布博文,报道称最新研究称 AI 模型在社交媒体上极易被识破,其致命弱点竟是“过于礼貌”。...
2025-11-08
·
浏览234次
新证据:你输入 ChatGPT 的每个字,都可能被谷歌和全世界看到
科技媒体 Ars Technica 今天(11 月 8 日)发布博文,报道称最近几个月,部分 ChatGPT 用户的个人敏感对话内容被发现持续泄露至谷歌搜索控制台(GSC)。...
2025-11-08
·
浏览248次
特斯拉股东大会投票支持投资马斯克旗下人工智能公司 xAI
特斯拉股东大会投票通过投资马斯克旗下AI公司xAI的提案,尽管涉嫌利益冲突,但被视为对双方发展有益。此前马斯克曾因资源倾斜引发股东诉讼。#特斯拉股东大会# #xAI#...
2025-11-08
·
浏览257次
DeepSeek 研究员陈德里:AI 未来五至十年或取代部分人类工作,从业者须正视潜在风险
他强调,AI公司必须正视这些潜在风险。“未来10到20年,AI可能接管人类剩余工作,社会将面临巨大挑战,那时科技公司需要扮演‘守护者’角色。我对这项技术充满信心,但对其可能对社会造成的影响持谨慎态度。”...
2025-11-08
·
浏览239次
马斯克“沉迷”AI 聊天机器人 Ani :亲自参与设计、亲自监督开发
据《华尔街日报》当地时间11月5日报道,马斯克最新的执念是xAI的聊天机器人Ani。为此,他亲自监督了Ani的开发——这款机器人是一位穿双马尾、高度性化的女性角色。...
2025-11-07
·
浏览232次
微软 AI 部门 CEO 苏莱曼:不会参加“AGI 竞赛”,将开发以人为本的超级智能
微软AI部门CEO苏莱曼宣布成立新团队,开发“以人为本的超级智能”(HSI),强调精准控制与社会福祉。三大应用方向包括AI伙伴、医疗超级智能和情节能源。#微软AI# #超级智能#...
2025-11-07
·
浏览211次
扛不住科技巨头和美国施压?消息称欧盟将弱化《人工智能法》部分内容
欧盟在《人工智能法》的实施上承受巨大压力,不仅来自美国政府和大型科技公司,也来自欧洲团体,该法案被认为是全球最严格的快速发展技术监管体系。...
2025-11-07
·
浏览195次
谷歌最强 P 图模型升级,爆料称 Gemini 3、Nano Banana 2 即将陆续推出
目前谷歌的最新主力模型仍是Gemini 2.5 Pro。在SWE-Bench Verified基准测试中,Gemini 2.5 Pro在自定义智能体配置下得分为63.8%。...
2025-11-07
·
浏览302次
北美多个家庭起诉 OpenAI,七宗诉讼称其怂恿自杀、助长有害妄想
这些案件指控坐拥8亿用户的ChatGPT存在严重设计缺陷。其中一宗诉讼称,该产品“有缺陷且本质危险”。...
2025-11-07
·
浏览232次
AI 中文社