华裔00后戳破顶会泡沫!NeurIPS 53篇论文曝AI造假,LeCun躺枪

2026-01-24 发布 · 浏览15次 · 点赞0次 · 收藏0次

【导读】用AI检测AI幻觉,用魔法打败魔法!刚刚,NeurIPS已收录论文被曝出数百条AI幻觉引用,至少53篇论文中招。为了对抗AI幻觉、造假所带来的学术「污染」,首先拿起AI武器的,也应当是AI顶会。

数百项虚假引用,53篇顶会论文被抓包!

刚刚,NeurIPS顶会暴雷,全球AI圈的「奥斯卡」盛会,被一家华人00后的AI初创公司「打假」了。

这家名为GPTZero的公司在扫描了NeurIPS 2025年所接收的4841篇论文后,发现了数百条由AI「编造」出来的引用,至少53篇论文「证据确凿」。

GPTZero CEO Edward Tian将其称作一个重要的节点时刻:

这是首次有记录显示,幻觉引用进入了顶级机器学习会议的官方文献。


GPTZero联合创始人兼CEO Edward Tian(左)与联合创始人兼CTO Alex Cui(右)。

当「John Smith」这种占位符名字(类似中国的张三、李四),堂而皇之地出现在顶会参考文献中,这意味着学术研究的基石已经被AI幻觉「侵蚀」了。

更离谱的是,在GPTZero展示的例子中,图灵奖得主Yann LeCun的名字,以「Samuel LeCun Jackson」的虚构引用形式,出现在了另一篇有关深度学习的论文中。


学术引用的严谨性对于科研的意义不言而喻。

当谎言被引用了一千次,它在数据集中就变成了真理

如果不加干预,未来的研究者在引用这些「经典」时,就像是在虚无缥缈的云端建造空中楼阁。

以前科学家们的研究是站在了巨人的肩膀上,今后很可能是站在AI的幻觉之上了。

53篇论文惊现AI幻觉引用

顶会滤镜破碎

在AI学术圈,NeurIPS长期以来被视为一座「圣殿」。

在这里发表论文,几乎等同于拿到了进入Google DeepMind或OpenAI等顶级实验室的入场券。

然而,这层看上去高大上的「神圣滤镜」,却被GPTZero击碎了。

他们对NeurIPS 2025已正式发表的4841篇论文进行了一次「地毯式扫描」,结果犹如一记重磅炸弹:

至少53篇论文,被检测出包含数百条由大模型凭空捏造的引用。

最令人震惊的是,这些连链接都可能指向404的低级错误,竟悉数「骗」过了每篇论文至少三名专家的同行评审防线。


NeurIPS 2025现场


顶会的尊严,在AI幻觉面前,显得不堪一击。


https://gptzero.me/news/neurips/

如上图,在GPTZero的官方博客中,公布了53篇NeurIPS论文中发表的100条虚构引用列表。

在上图所显示的这篇论文中,GPTZero检测到存在一篇标题相同的文章,作者显然是伪造的。


在上面这篇关于深度学习技术的论文中,显示无作者或标题匹配,说明该文章不存在于出版物中,其URL和DOI均为伪造。

GPTZero曾尝试通过多种名称来描述AI生成的幻觉引用。

「幻觉引用」(hallucinated citations)太长,「虚假引用」(fake citations)则带有过强的道德评判色彩。


Alex Adams

最终,GPTZero机器学习主管Alex Adams提出了「氛围引用」(vibe citing)一词,用来描述大模型将真实来源进行推导或拼凑,从而生成看似逼真却是虚假信息的倾向。

「氛围引用」与「氛围写作」(vibe writing)或「氛围编码」(vibe coding)类似,其生成的引用乍看之下似乎准确无误,但经不起仔细推敲。


利用AI撰写研究论文迅速流行,体现了「氛围引用」(vibe-citing)的快速增长

从上图中可以看出,2025年4月和9月的峰值分别对应NeurIPS和ICLR 2025的论文提交截止日期。

AI幻觉的进化

Edward Tian认为,NeurIPS的情况更令人担忧,因为问题出现在已经被正式接收并发表的论文中

根据传统的学术规范,即便只有一条伪造引用,也足以构成拒稿理由。

NeurIPS 2025主赛道论文的接收率为24.52%,这意味着这些存在幻觉引用的论文击败了约15000篇竞争对手。

这些「AI幻觉」造成的引用问题,通过了同行评审,并被收录进最终的会议论文集。

因此,Edward Tian认为这次问题,相比以往是一次明显的升级,也是首次有记录显示幻觉引用进入了顶级机器学习会议的官方文献。

在GPTZero曝光的部分案例中,我们看到了AI幻觉的惊人进化。

最初级错误

最初级错误,是论文参考文献中出现了「John Smith」和「Jane Doe」这样的占位姓名,甚至还有引用链接直接指向404空页面。

而且,这种初级错误竟然逃过了世界顶级专家的法眼。

「半真半假」的隐蔽伪造

这是一种更危险、更深度,也更隐蔽的一种伪造。

AI可能会把多篇真实论文的内容拼接或改写,生成看起来十分可信的标题和作者列表。

它还会把一篇题为「深度学习的优化」的论文,改写成「深度学习中的优化策略」。

乍看上去作者和关键词都对,格式也是BibTeX的标准格式。

审稿人在快速浏览时,大脑会自动补全这些信息,觉得这篇文献很眼熟,于是就通过了。

GPTZero之所以能发现「AI幻觉」,是因为它的结果是基于事实的对照

据Alex Cui介绍,GPTZero的幻觉检测工具会读取论文全文,通过搜索开放网络和学术数据库,逐条核实引用的作者、标题、发表渠道和链接。

如果一条引用在现实世界找不到对应,或者只与真实论文部分匹配,系统就会拉响警报。

失守的防线

「投稿海啸」与审稿过载困境

如此低级的错误,为什么会绕过层层把关的审稿系统?

答案很现实:由于内卷,学术界的「算力」已经跟不上了

ICLR、NeurIPS、ICML和AAAI这些全球AI顶会,每年吸引数千篇投稿和大量参与者。

由于AI、论文工厂以及发表压力所引发的「投稿海啸」,已使所有这些会议的审稿流程不堪重负,濒临崩溃。

比如,2020年至2025年间,NeurIPS的投稿量从9467篇激增超过220%,达到21575篇,远高于2024年的15671篇和2023年的12343篇。

即便会议组织者动员了成千上万名志愿评审,但对于每篇论文及其参考文献进行深入审查也变得越来越难。

这就为AI幻觉的出现留下了可乘之机。

对此,NeurIPS理事会的官方回应显然有些苍白:

1.1%的论文因使用大模型而包含一个或多个错误引用,也并不意味着论文内容本身一定无效。例如,作者可能只是向大模型提供了不完整的引用信息,并让模型生成BibTeX(格式化参考文献)。

但是,这种说法在学术态度上也无法站住脚。

如果一位作者连自己的参考文献都懒得核实,直接甩给AI去生成,且不进行复查,我们又怎能相信他在复杂的实验数据上保持了严谨?


就像Hacker News中一位网友说的那样,看到这些被标注错误的论文,会让自己停下来思考:这篇论文的其它部分有多少是借助了AI辅助完成的。


「如果这些是仅有的错误,我们并不担忧,但无法确定这些就已经是全部的错误。这些错误表明该论文在提交时未经过彻底的幻觉检查,作者在使用AI时也缺乏应有的谨慎。」

用魔法打败魔法

NeurIPS「翻车」不止是「氛围引用」那么简单,它动摇的是科研诚信的基石。

科研就像一场接力赛。以AI研究为例,它高度依赖「可复现性」和「溯源」。

就像Edward Tian所说的:「AI研究结果向来难以复现,因此引用至关重要。」

真实准确的引用,能帮助研究者判断某个结果是否可复现,并让他人追溯到具体、可验证的来源进行测试。

因此,如果「氛围引用」的现象不加以遏制,我们将面临一种可怕的「近亲繁殖」效应:

AI生成了包含幻觉的论文,这些论文被收录进数据库,下一代AI模型又拿这些数据进行训练。

最终,AI开始从自己的幻觉中学习知识,导致模型的崩塌。

GPTZero的曝光旨在警示行业漏洞:旧有的「评审体系」,已难以应对投稿量激增和AI使用所带来的问题。

如何捍卫同行评审的尊严?

另一大顶会ICLR(国际表征学习大会)已经觉醒并开始行动。

ICLR将于今年4月举办,吸取了NeurIPS的教训后,它迅速联手GPTZero,已启动了严格的「排雷」行动。

此前,在GPTZero针对ICLR的一项投稿调研中,已经发现了50条成功躲过评审的虚假引用。

去年11月,ICLR还发布了关于大模型生成论文及评审的应对策略。


https://blog.iclr.cc/2025/11/19/iclr-2026-response-to-llm-generated-papers-and-reviews/

ICLR发出的信号非常明确:不封杀AI,但必须透明

幻觉引用被定性为违反「道德准则」(Code of Ethics),一旦发现大量使用AI未披露或存在虚假内容,将直接拒稿/桌拒(Desk Reject)。

更狠的是,审稿人乱用AI,自己的投稿也将面临被拒的连带惩罚

此外,ICLR还提到为了避免误判,会结合工具筛选和人工复核,试图通过「人机共治」,筑起抵御虚假内容的新防线。

在AI时代,同行评审机制正被迫进行一场自我进化。

用AI检测AI幻觉,用魔法打败魔法

为了应对AI幻觉或造假带来的学术「污染」,首先拿起AI武器的,也应当是这些AI顶会。

GPTZero背后的两位年轻创始人

GPTZero之所以能在AI检测领域迅速崭露头角,离不开它两位年轻创始人的完美互补。

Edward Tian


Edward Tian

Edward Tian是GPTZero的CEO ,也是一位拥有华人背景的00后创业者。

就读普林斯顿大学期间,他主修计算机科学,并辅修新闻方向;在创立GPTZero之前,他曾在Microsoft AI从事过研究工作,也做过BBC调查报道相关实践。

这些经历让他更早意识到:当生成式AI大规模普及后,「内容真实性」与「学术诚信」将面临新的挑战。

2022年底ChatGPT上线引爆关注之后,Edward Tian在寒假期间快速做出了GPTZero的产品原型,并将困惑度(perplexity)与突发性(burstiness)等统计特征作为检测的重要指标。


他认为人类写作在这两项指标上通常表现出更强的随机性和结构波动,据此能够推测出一段文字是人工撰写还是AI生成的。

AlexCui


Alex Cui

Alex Cui是GPTZero的联合创始人兼CTO。

他在多伦多大学完成计算机科学硕士学位。在加入GPTZero之前,曾在自动驾驶公司Waabi担任研究科学家。

作为GPTZero的CTO,Alex负责推进包括为微软和谷歌产品开发的插件,帮助用户在任何文档或网站上检测AI生成的文本。

二人并非临时组队,而是高中时期的好友。GPTZero早期团队组建时,Edward便邀请Alex加入并负责技术推进。

参考资料:

https://fortune.com/2026/01/21/neurips-ai-conferences-research-papers-hallucinations/

华裔00后戳破顶会泡沫!NeurIPS 53篇论文曝AI造假,LeCun躺枪 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。