AI 中文社/资讯/详情

DeepSeek-R1登顶Nature，8位专家严审通过，大模型「交卷时刻」来了

2025-09-19 发布 · 浏览12次 · 点赞0次 · 收藏0次

【导读】DeepSeek-R1亮相Nature，在此之前，几乎没有一个主流大模型在科研期刊中经过独立同行评审。在评审过程中，DeepSeek-R1对论文进行了重要修订，增加了对R1的安全性评估等内容。此次同行评审，被视作AI行业迈向更高透明度和可复现性的关键一步。

近日，DeepSeek-R1登上Nature封面，标志着中国AI技术获得了来自国际的顶级认证。

Nature高度赞扬了DeepSeek-R1，表示它已通过同行评审，打破了主流大模型未经过独立同行评审这一国际惯例。

同时Nature也在社论中鼓励其他公司，把大模型送来进行同行评审。

AI行业亟需重视同行评审

Nature认为，除了DeepSeek-R1之外，当前主流的大模型，几乎没有一个是在科研期刊中经过独立同行评审的。

这种缺位，目前在AI行业已经十分明显。

「同行评审，能够帮助理清这些模型的工作机制，也有助于判断它们是否真的如宣传中所说那样有效。」

DeepSeek正在改变着一切，它已将R1模型细节正式发表在Nature上。

作为开放权重模型，用户无法获得R1的全部源代码和训练数据，但可以自由下载、使用、测试甚至基于它进行再开发。

自今年1月在Hugging Face上发布以来，R1在平台上深受用户关注和喜爱。最新数据显示，近30天R1下载量接近42万。

如今，该模型已经通过了8位专家的评审，评估内容涵盖其创新性、方法和稳健性。

这些评审意见，与作者的回复一并发表，这是AI行业迈向更高透明度和可复现性的关键一步。

对于当前充斥着未经验证的炒作的行业现状，这种实践尤为可贵。

DeepSeek-R1论文，与今年早些时候发布的初版相比，进行了重大的修订。

包括首次披露了R1的训练成本、训练技术细节，增加了对R1的安全性评估，以及回应初始发布阶段，外部关于「蒸馏方法」的质疑。

让AI创新更容易被接受

同行评审，是一种更开放的推广方式。

它营造了更透明、更客观也更具公信力的一种研讨与推广方式，在推动行业交流和进步的同时，也让企业的创新成果更容易为更多人所接受。

比如，在R1这篇论文中，DeepSeek重点介绍了他们是如何训练R1学会「推理」的。

研究团队采用了一种高效自动化的强化学习方法：「试错加奖励」的流程。

在这一过程中，模型会学习诸如「自我验证思路」的推理策略，且不依赖人类既有的方法论。

此前，DeepSeek发布了一篇预印本论文，介绍了他们的训练方法及模型在各类评测基准上的表现。

大模型厂商，经常会通过官方技术博客、评测报告、模型卡（system card）等方式介绍大模型训练方法及模型在各类评测基准上的表现，但这类技术文档的信息量和透明度常常参差不齐。

同行评审，很好地弥补了这方面的缺点，它不是一个单方面输出的信息披露行为，而是一个公开的互动过程。

它是一个由独立第三方（如期刊编辑、研究者等）组织的互动过程。

在这个过程中，第三方的外部专家，可以向作者（开发者）提出质疑、要求补充信息，从而促使对方进一步论证自己的观点或补充内容。

这一过程，将大大提升论文的清晰度和可信度。

这也意味着，AI开发者的成果能更好地被各界所接纳。

向「刷榜」和「自评」说不

同行评审，避免了开发者「刷榜」「自己打分」等主观夸大的倾向，比如专门挑选有利于自家模型的基准进行展示等。

更有甚者，一些评测还可以被「训练数据污染」——比如，让模型接触到测试题目，从而影响其真实能力评估。这无异于作弊。

在R1的评审过程中，同样也有评审专家质疑，R1是否存在「训练数据污染」问题。

对此，DeepSeek提供了相应的防范措施说明，还补充了模型发布后才公开的基准测试的额外评估。

此外，同行评审也促成了DeepSeek-R1论文的一些关键修订。其中，一个重要修改，就是补充了关于模型安全性的说明。

R1的审稿人指出，原论文缺乏关于安全测试的信息，例如并未评估模型被滥用的难易程度。

针对这一问题，DeepSeek补充了详细内容，包括一节专门说明模型安全性评估，并将其与其他模型进行了对比。

此外，针对同行评审意见，DeepSeek还减少了描述中的个性化表述，并增加了对技术细节的澄清，包括模型训练所使用的数据类型及其安全性。

为AI增加「透明度」

外部审查，为AI行业增加了「透明度」，也为行业的发展，提供了更健康的环境。

这一点，正逐渐成为越来越多AI公司的共识。

上个月，OpenAI与Anthropic就互测了对方的大模型，并因此发现了原团队未曾察觉的问题。

今年7月，Mistral AI也联合外部顾问机构，对其模型的环境影响进行了评估，希望以此来提升行业的报告透明度。

在AI迅猛发展，影响日益广泛的当下，这种积极的行业转变，无疑是十分重要的。

Nature表示，目前的大部分做法，仍缺乏同行评审的独立性，同行评审仍是当前最可信赖的验证机制。

Hugging Face的Lewis Tunstall，是DeepSeek-R1论文的评审者之一，他认为DeepSeek-R1是最早经历同行评审流程的大型LLM，这是一个非常好的先例：

「若不公开大部分研发过程，就很难评估这些系统是否构成风险。」

俄亥俄州立大学AI研究员Huan Sun表示，经历严格的同行评审过程，有助于验证模型的有效性和实用性，并呼吁其他公司也应该这样做。

同行评审≠泄露商业机密

同行评审，会不会泄露商业机密？

大模型训练投入极高，很多AI公司都担心，如果商业机密被竞争对手抄了去，自己将处于不利的竞争地位。

但以发布在Nature上的谷歌Med-PaLM模型为例，即使是闭源模型，也完全可以接受同行评审。

而且，同行评审，是推动AI行业回归理性、抵御炒作的有效手段。

Nature认为，无法验证的夸大宣传，才是对社会的真实风险。因此，Nature主张未来会有更多AI公司勇于将自家模型提交至学术发表流程中进行审核。

同行评审不等于泄露公司机密，它是验证公司创新成果的一道必要的程序。

它让我们的所有主张，都必须经过实证的洗礼，而不是依靠单纯的主观臆想。

参考资料：

https://www.nature.com/articles/d41586-025-02979-9

大模型 OpenAI 测试 AI 谷歌 AI技术 4

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(12) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

DeepSeek-R1登顶Nature，8位专家严审通过，大模型「交卷时刻」来了

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

DeepSeek-R1登顶Nature，8位专家严审通过， 大模型「交卷时刻」来了

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

DeepSeek-R1登顶Nature，8位专家严审通过，大模型「交卷时刻」来了

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。