微软研究:AI 编程助手软件调试能力堪忧
微软最新研究表明,包括Claude 3.7 Sonnet和OpenAI o3-mini在内的多款AI模型在软件调试任务中表现不佳,最高成功率不足50%。研究指出,缺乏足够的调试...
2025-04-14
·
浏览230次
AI“推理”模型兴起,基准测试成本飙升
AI推理模型测试成本高昂,OpenAI的o1模型测试费用高达2767美元,是普通模型的数倍。专家指出,高昂成本源于token生成量大,且基准测试复杂度提升。#AI测试成本# #...
2025-04-14
·
浏览250次
OPPO 小布助手网页版上线,接入满血版 DeepSeek
据IT之家网友反馈,OPPO 的小布助手已推出网页版,点击 xiaobu.coloros.com 即可体验,登录 OPPO 账号还可以同步手机端的历史对话记录。...
2025-04-14
·
浏览228次
扬州海关测试应用“机器狗”,搭载全景摄像头与实时通信系统
据“海关发布”消息,4 月 8 日,南京海关所属扬州海关联合科技公司探索四足式、轮足式机器人(网称“机器狗”)技术在海关远程口岸监管领域的创新应用,并开展了多场景测试。...
2025-04-14
·
浏览237次
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
「推理」已成为语言模型的下一个主要前沿领域,近期学术界和工业界都取得了突飞猛进的进展。...
2025-04-14
·
浏览211次
因用欧洲用户数据训练 Grok,马斯克的 X 公司遭爱尔兰调查
爱尔兰数据保护委员会(DPC)宣布对X公司展开调查,因其涉嫌使用欧洲用户个人数据训练AI聊天机器人Grok。此前DPC曾对Meta等公司开出高额罚单。#数据隐私##人工智能#...
2025-04-13
·
浏览256次
面对杂乱场景,灵巧手也能从容应对!NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一策略
在物流仓库、生产线或家庭场景中,机器人常常需要在大量杂乱摆放的物体中高效地抓取目标。...
2025-04-13
·
浏览238次
Science子刊 | 基于公平贝叶斯扰动,首个面向医学图像生成公平性的方法FairDiffusion来了
来自哈佛大学和纽约大学等机构的研究者首次探讨了医学影像生成中的公平性问题。...
2025-04-13
·
浏览230次
3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布
在大模型迈向推理时代的当下,数学推理能力已成为衡量语言模型智能上限的关键指标。...
2025-04-13
·
浏览218次
只因论文「碰瓷」,ICLR 2025区域主席直接拒稿!最强rebuttal,赢回荣耀
只因论文「碰瓷」,ICLR 2025区域主席直接拒稿!最强rebuttal,赢回荣耀...
2025-04-13
·
浏览252次
奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek
奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek...
2025-04-13
·
浏览233次
苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型
让大模型进入多模态模式,从而能够有效感知世界,是最近 AI 领域里人们一直的探索目标。...
2025-04-12
·
浏览281次
数月 → 几天:OpenAI 被曝缩水模型安全测试,AI 竞赛埋下隐患
金融时报(FT)昨日(4 月 11 日)发布博文,报道称 OpenAI 大幅压缩最新大型语言模型(LLM)安全测试时间,此前需要数月时间,而最新 o3 模型仅有几天时间。...
2025-04-12
·
浏览193次
英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推动 AI 高效部署
英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1,这款 2530 亿参数的大型语言模型在推理能力、架构效率和生产准备度上实现重大突破。...
2025-04-12
·
浏览205次
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新任务成功率记录
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新任务成功率记录...
2025-04-12
·
浏览276次
AI 中文社