DeepSeek-R1登顶Nature,8位专家严审通过, 大模型「交卷时刻」来了

2025-09-19 发布 · 浏览12次 · 点赞0次 · 收藏0次

【导读】DeepSeek-R1亮相Nature,在此之前,几乎没有一个主流大模型在科研期刊中经过独立同行评审。在评审过程中,DeepSeek-R1对论文进行了重要修订,增加了对R1的安全性评估等内容。此次同行评审,被视作AI行业迈向更高透明度和可复现性的关键一步。

近日,DeepSeek-R1登上Nature封面,标志着中国AI技术获得了来自国际的顶级认证。


Nature高度赞扬了DeepSeek-R1,表示它已通过同行评审,打破了主流大模型未经过独立同行评审这一国际惯例。


同时Nature也在社论中鼓励其他公司,把大模型送来进行同行评审。

AI行业亟需重视同行评审

Nature认为,除了DeepSeek-R1之外,当前主流的大模型,几乎没有一个是在科研期刊中经过独立同行评审的。

这种缺位,目前在AI行业已经十分明显。

「同行评审,能够帮助理清这些模型的工作机制,也有助于判断它们是否真的如宣传中所说那样有效。」

DeepSeek正在改变着一切,它已将R1模型细节正式发表在Nature上。

作为开放权重模型,用户无法获得R1的全部源代码和训练数据,但可以自由下载、使用、测试甚至基于它进行再开发。

自今年1月在Hugging Face上发布以来,R1在平台上深受用户关注和喜爱。最新数据显示,近30天R1下载量接近42万。


如今,该模型已经通过了8位专家的评审,评估内容涵盖其创新性、方法和稳健性。

这些评审意见,与作者的回复一并发表,这是AI行业迈向更高透明度和可复现性的关键一步。

对于当前充斥着未经验证的炒作的行业现状,这种实践尤为可贵。

DeepSeek-R1论文,与今年早些时候发布的初版相比,进行了重大的修订。

包括首次披露了R1的训练成本、训练技术细节,增加了对R1的安全性评估,以及回应初始发布阶段,外部关于「蒸馏方法」的质疑。

让AI创新更容易被接受

同行评审,是一种更开放的推广方式。

它营造了更透明、更客观也更具公信力的一种研讨与推广方式,在推动行业交流和进步的同时,也让企业的创新成果更容易为更多人所接受。

比如,在R1这篇论文中,DeepSeek重点介绍了他们是如何训练R1学会「推理」的。

研究团队采用了一种高效自动化的强化学习方法:「试错加奖励」的流程。

在这一过程中,模型会学习诸如「自我验证思路」的推理策略,且不依赖人类既有的方法论。

此前,DeepSeek发布了一篇预印本论文,介绍了他们的训练方法及模型在各类评测基准上的表现。

大模型厂商,经常会通过官方技术博客、评测报告、模型卡(system card)等方式介绍大模型训练方法及模型在各类评测基准上的表现,但这类技术文档的信息量和透明度常常参差不齐。

同行评审,很好地弥补了这方面的缺点,它不是一个单方面输出的信息披露行为,而是一个公开的互动过程。

它是一个由独立第三方(如期刊编辑、研究者等)组织的互动过程。

在这个过程中,第三方的外部专家,可以向作者(开发者)提出质疑、要求补充信息,从而促使对方进一步论证自己的观点或补充内容。

这一过程,将大大提升论文的清晰度和可信度。

这也意味着,AI开发者的成果能更好地被各界所接纳。

向「刷榜」和「自评」说不

同行评审,避免了开发者「刷榜」「自己打分」等主观夸大的倾向,比如专门挑选有利于自家模型的基准进行展示等。

更有甚者,一些评测还可以被「训练数据污染」——比如,让模型接触到测试题目,从而影响其真实能力评估。这无异于作弊。

在R1的评审过程中,同样也有评审专家质疑,R1是否存在「训练数据污染」问题。

对此,DeepSeek提供了相应的防范措施说明,还补充了模型发布后才公开的基准测试的额外评估。

此外,同行评审也促成了DeepSeek-R1论文的一些关键修订。其中,一个重要修改,就是补充了关于模型安全性的说明。

R1的审稿人指出,原论文缺乏关于安全测试的信息,例如并未评估模型被滥用的难易程度。

针对这一问题,DeepSeek补充了详细内容,包括一节专门说明模型安全性评估,并将其与其他模型进行了对比。

此外,针对同行评审意见,DeepSeek还减少了描述中的个性化表述,并增加了对技术细节的澄清,包括模型训练所使用的数据类型及其安全性。

为AI增加「透明度」

外部审查,为AI行业增加了「透明度」,也为行业的发展,提供了更健康的环境。

这一点,正逐渐成为越来越多AI公司的共识。

上个月,OpenAI与Anthropic就互测了对方的大模型,并因此发现了原团队未曾察觉的问题。

今年7月,Mistral AI也联合外部顾问机构,对其模型的环境影响进行了评估,希望以此来提升行业的报告透明度。

在AI迅猛发展,影响日益广泛的当下,这种积极的行业转变,无疑是十分重要的。

Nature表示,目前的大部分做法,仍缺乏同行评审的独立性,同行评审仍是当前最可信赖的验证机制。

Hugging Face的Lewis Tunstall,是DeepSeek-R1论文的评审者之一,他认为DeepSeek-R1是最早经历同行评审流程的大型LLM,这是一个非常好的先例:

「若不公开大部分研发过程,就很难评估这些系统是否构成风险。」

俄亥俄州立大学AI研究员Huan Sun表示,经历严格的同行评审过程,有助于验证模型的有效性和实用性,并呼吁其他公司也应该这样做。

同行评审≠泄露商业机密

同行评审,会不会泄露商业机密?

大模型训练投入极高,很多AI公司都担心,如果商业机密被竞争对手抄了去,自己将处于不利的竞争地位。

但以发布在Nature上的谷歌Med-PaLM模型为例,即使是闭源模型,也完全可以接受同行评审。

而且,同行评审,是推动AI行业回归理性、抵御炒作的有效手段。

Nature认为,无法验证的夸大宣传,才是对社会的真实风险。因此,Nature主张未来会有更多AI公司勇于将自家模型提交至学术发表流程中进行审核。

同行评审不等于泄露公司机密,它是验证公司创新成果的一道必要的程序。

它让我们的所有主张,都必须经过实证的洗礼,而不是依靠单纯的主观臆想。

参考资料:

https://www.nature.com/articles/d41586-025-02979-9

DeepSeek-R1登顶Nature,8位专家严审通过, 大模型「交卷时刻」来了 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。