刚刚!DeepSeek梁文锋亲自挂名,公开新注意力架构NSA
DeepSeek 新论文来了!相关消息刚刚发布到 𝕏 就吸引了大量用户点赞、转发、评论三连。...
2025-02-19
·
浏览428次
前OpenAI CTO另立门户,2/3 ChatGPT骨干被挖!北大校友Lilian Weng加盟
前OpenAI CTO另立门户,2/3 ChatGPT骨干被挖!北大校友Lilian Weng加盟...
2025-02-19
·
浏览280次
马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI
马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI...
2025-02-18
·
浏览395次
超强DNA大模型「GENERator」问世!解锁生命密码设计新范式
近日,阿里云飞天实验室的 AI for Science 团队提出了一个全新的生成式 DNA 大模型——GENERator...
2025-02-18
·
浏览395次
首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight
Transformer 架构在过去几年中通过注意力机制在多个领域(如计算机视觉、自然语言处理和长序列任务)中取得了非凡的成就。...
2025-02-18
·
浏览322次
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3
近年来,大语言模型(LLMs)取得了突破性进展,展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。...
2025-02-18
·
浏览443次
2024 IBM博士生奖学金出炉:韩迟、卓越、张逸骅、冯尚彬等AI研究者入选
清华、浙大、西南大学、西安交大、华中科技大学、台湾大学…… 多位 2024 IBM 博士生奖学金获得者毕业于国内高校。其中有你的校友吗?...
2025-02-18
·
浏览396次
打破AI遗忘诅咒的学习算法,慕尼黑-南大团队打造会自主积累知识的学习框架
慕尼黑大学与南京大学的研究团队联手打造了一款机器人终身强化学习框架,它通过开发一个受贝叶斯非参数域启发的知识空间来解决这一差距。...
2025-02-18
·
浏览399次
哈佛、英特尔等60+顶尖机构联手打造:NeuroBench定义神经形态计算评测新范式
由哈佛大学领导,来自全球多个顶尖大学、研究机构和公司的研究人员组成的研究团队提出了首个面向神经形态计算的统一评测框架 NeuroBench,该框架通过算法和系统双轨并行评测,为...
2025-02-18
·
浏览292次
超过o1-mini、逼近o3-mini,DeepSeek-R1在新的贪吃蛇基准上拿下1801分
ARC Prize,曾在去年底 OpenAI 12 天连发的最后一天赚尽了眼球,其发布已经 5 年的基准 ARC-AGI 首次迎来了得分达到优良等级的挑战者:o3 系列模型。...
2025-02-18
·
浏览376次
迅雷宣布为 AI 开发者提供大模型批量下载加速服务,当前可免费使用
迅雷今日宣布,将针对下载AI大模型及数据集文件的迅雷用户提供批量下载服务,以解决长期困扰AI开发者的“下载慢、耗时长”问题。...
2025-02-18
·
浏览283次
人工智能助力酶设计突破:成功设计可催化复杂反应的全新酶
据GeekWire报道,由诺贝尔奖得主大卫·贝克尔领导的华盛顿大学研究团队正在利用AI从零开始设计有效的酶,这项成就被研究人员视为“科学中的一项巨大挑战”。...
2025-02-18
·
浏览251次
DeepSeek 冲击之下,大模型六小强如何「回应」?
中外大厂、初创公司都头好秃,全被追着问:你们对 DeepSeek 怎么看?DeepSeek 出来你们怎么办?...
2025-02-18
·
浏览326次
树莓派 Zero“硬核改造”:8 年老设备实现本地运行大语言模型
越南开发者 Binh Pham 最近尝试使用树莓派 Zero(Raspberry Pi Zero)进行了一项创新实验。他成功地将这款设备改造为一个小型 USB 驱动器,使其能够...
2025-02-18
·
浏览529次
秘塔 AI 搜索上线“先想后搜”研究模式:采用“小模型 + 大模型”协同架构
秘塔科技宣布秘塔 AI 搜索上线新的研究模式 —— 先想后搜,可以让模型先提出思考框架与路径,再进一步进行资料的整合与分析。...
2025-02-18
·
浏览456次
LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞
LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞...
2025-02-17
·
浏览296次
DeepSeek掀低成本革命,中科院系黑马闯入全球TOP 10!破解高精度-低能耗困局
DeepSeek掀低成本革命,中科院系黑马闯入全球TOP 10!破解高精度-低能耗困局...
2025-02-17
·
浏览315次
从想太多到想不透?DeepSeek-R1等长推理模型也存在「思考不足」问题
长推理模型(Long Reasoning Models),如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和...
2025-02-17
·
浏览564次
比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架
近年来,大型语言模型(LLMs)的进展彻底改变了自然语言处理领域,并因此成为各种现实应用中的核心技术,例如代码助手、搜索引擎和个人 AI 助手。...
2025-02-17
·
浏览282次
AI 中文社