AI 中文社区

珍稀图书遭粉碎用于 AI 训练引众怒，图书数据库 ISBNdb 下架 AI 相关测试页面

AI 公司为获取高质量训练数据，大量采购实体图书并销毁，这一做法引发广泛争议。图书供应商接到巨额订单，业内人士猜测幕后买家为 AI 公司，而数据库网站 ISBNdb 被指在其中牵线搭桥。尽管该公司已删除相关宣传并否认，但类似“巴拿马计划”项...

2026-08-02 · 浏览62次

Debian 项目发起议案，讨论是否允许 AI 大模型参与开发

Debian 项目发起内部议案，讨论是否允许 AI 大语言模型参与开发，目前有三个选项：完全禁止、允许但需开发者负责、尽可能拒绝。核心争议在于 AI 生成代码的版权、质量和安全性问题。这关系到开源社区如何应对 AI 浪潮。#开源社区##AI...

2026-07-26 · 浏览97次

仅花 12 美元，工程师成功欺骗 AI 将虚构赛事奉为事实

安全工程师仅花费 12 美元注册域名并编辑维基百科词条，就成功让多款 AI 聊天机器人坚信自己是一个虚构纸牌游戏的世界冠军。这暴露了 AI 在联网搜索时无条件信任网络文本的核心漏洞，以及语料投毒、智能体误导等更深层风险。#AI 安全# #信...

2026-05-04 · 浏览281次

苹果 iPhone 17 Pro 成功运行 4000 亿参数大模型，但速度令人抓狂

一项名为 Flash-MoE 的开源项目成功在仅 12GB 内存的 iPhone 17 Pro 上运行 4000 亿参数大语言模型。虽每秒仅生成 0.6 个 Token，速度极慢，但证明手机本地运行大模型在技术上是可行的，关键在于利用 SS...

2026-03-23 · 浏览317次

研究：在 95% 的模拟核危机场景中，AI 模型会选择部署核武器

伦敦国王学院研究发现，GPT 5.2、Gemini 3 Flash 和 Claude Sonnet 4 在模拟核危机时，95% 情境下倾向于发出核威慑或升级冲突。AI 表面和平、暗中备战的“两面性”行为模式，凸显了将 AI 用于战略决策的潜...

2026-03-03 · 浏览382次

研究证实：AI 大模型跨多轮对话任务表现不佳，性能最高降 39%

研究显示，即便是 GPT-5 及后续版本，当任务信息被拆分到多条消息中时，模型性能仍会显著下降，降幅可达 33%。在代码、数学计算等六大任务中，Python 任务提升最明显。研究人员建议，遇到异常可开启新对话并先让模型总结请求。#AI 大模...

2026-03-01 · 浏览433次

微软：AI 聊天机器人越聊越“笨”，主流大模型在多轮对话中成功率降至 65%

微软与赛富时联合研究发现，主流大模型在多轮对话中成功率从90%骤降至65%，出现“迷失会话”缺陷。模型并非智力下降，而是变得不稳定，容易因过早生成、答案膨胀等机制累积错误。这对依赖AI构建复杂对话的开发者提出严峻挑战。#AI聊天机器人##大...

2026-02-20 · 浏览379次

研究显示：用 AI 的科研人员论文产出量暴增，但质量隐忧浮现

最新研究显示，AI技术显著提升了科研论文的产出数量，尤其在社会科学和人文科学领域增幅高达59.8%。但研究也警告，AI生成的论文语言越复杂，质量可能越低。 #AI科研# #论文质量#...

2025-12-22 · 浏览516次

专家：会聊天≠会思考，大语言模型造不出通用人工智能

认知共振创始人本杰明・莱利指出，大语言模型无法造出通用人工智能，人类思维很大程度独立于语言。顶尖AI专家杨立昆也持怀疑态度，新研究也表明大语言模型有“天花板”。#大语言模型 #通用人工智能 #AI研究#...

2025-11-30 · 浏览339次

研究揭示：大语言模型无法真正理解双关语

最新研究表明，大语言模型在理解双关语方面表现不佳。研究团队测试了多个双关语句，发现模型虽能识别表层结构，却无法真正领会幽默含义。相关成果已在EMNLP 2025上发表。#AI研究##双关语#...

2025-11-24 · 浏览359次

Hugging Face CEO 回应“AI 泡沫说”：倒不如说现在是“大语言模型泡沫”

依照 Clem Delangue 的看法，目前被过度追捧的是驱动 ChatGPT、Gemini 等聊天机器人的大语言模型。不过，这种关注可能不会持续太久。...

2025-11-19 · 浏览454次

研究称 AI 在社交平台发的帖子仍易被识别，只因大模型不擅长情感表达

苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的最新研究表明，各种大语言模型生成的社交媒体帖子都“容易被区分”，且准确率达到70%至80%，远高于随机猜测的结果。...

2025-11-10 · 浏览319次

科学家发现多数大语言模型测试标准存在缺陷，无法客观给出评分

牛津大学等机构研究发现，多数大语言模型测试标准存在方法论缺陷，如术语模糊、数据采样不当等，导致AI进步难以客观衡量。研究建议明确定义目标、防止数据污染等改进措施。#AI测试标准##大语言模型#...

2025-11-08 · 浏览377次

研究显示：低质数据可令 AI“大脑退化”，OpenAI 奥尔特曼担心的“死网论”正逐渐成真

康奈尔大学研究指出，大语言模型接触低质网络内容会“大脑退化”。以Llama 3和Qwen 2.5实验，低质训练让准确率等下降。多位科技人士担忧“死网论”，互联网正面临内容质量与真实性考验。 #AI大脑退化 #死网论 #低质数据...

2025-10-22 · 浏览365次

瑞士加入全球 AI 竞赛，推出国家级开源大语言模型 Apertus

瑞士正式发布国家级开源大语言模型Apertus，由公立机构研发，完全开源并遵循数据保护法。该模型支持1000多种语言，非英语数据占比40%，旨在成为公共基础设施。#AI开源# #瑞士科技#...

2025-09-03 · 浏览480次

Yupp 平台上线：邀用户低成本使用业界各大 AI 模型，收集评测反馈构建排行榜

Yupp AI推出人工评测系统，邀请用户免费体验500+AI大模型并参与评测，生成Yupp AI VIBE排行榜。新用户注册即送5000积分，可对比不同模型回答优劣。#AI评测##大模型#...

2025-06-23 · 浏览499次

Anthropic 警告：包括 Claude 在内的大多数 AI 模型会实施“勒索”行为

在数周前发布研究指出其 Claude Opus 4 模型在受控测试中试图通过勒索手段阻止被关闭后，Anthropic 近日再度公布新研究，显示此类行为在多个主流 AI 模型中可能更为普遍。...

2025-06-21 · 浏览535次

中国科学院科学家首次证实：大语言模型能像人类一样“理解”事物

中科院自动化所团队结合多方法研究，首次证实多模态大语言模型能形成类似人类的物体概念表征。成果登《自然・机器智能》，还对比了大模型与人类决策特点。#大模型概念理解 ##人工智能新突破#...

2025-06-11 · 浏览528次

苹果研究破解 AI“英语口音”难题，提升多语言自然性

为了缩小差距，研究人员通过“ 回译法”自动生成训练样本，将人工撰写的流畅中文内容先翻译成英文，再逆向翻译成带有 "翻译腔" 的“反面”样本。利用这类对比数据训练模型加强自然表达能力，在保持基准性能的前提下显著改善语言输出质量。...

2025-05-17 · 浏览545次

图灵奖得主杨立昆：大语言模型发展已接近瓶颈，AI 仅靠文本训练无法实现人类级智能

杨立昆表示，“真正的 AI”需要理解物理世界，拥有持久的记忆，支持推理和规划。...

2025-03-24 · 浏览673次

树莓派 Zero“硬核改造”：8 年老设备实现本地运行大语言模型

越南开发者 Binh Pham 最近尝试使用树莓派 Zero（Raspberry Pi Zero）进行了一项创新实验。他成功地将这款设备改造为一个小型 USB 驱动器，使其能够...

2025-02-18 · 浏览665次

麻省理工研究：生成式 AI 未能对世界形成连贯的理解

研究人员发现，一种流行的生成式 AI 模型能够在纽约市提供接近完美的逐步导航指引，但却并未真正形成该城市的精确地图。当研究人员封闭了某些街道并设置绕行路线时，模型的表现却大幅下...

2024-11-11 · 浏览688次

ChatGPT 真能记住你的话吗？DeepMind 与开源大佬揭示 LLM 记忆之谜

Django 框架的创始人之一、著名开发者 Simon Willison 最近发表了一篇博客文章，核心观点是 —— 虽然很多 LLM 看起来有记忆，但本质上是无状态函数。...

2024-06-02 · 浏览1495次

字节跳动豆包大模型掀起价格战：主力模型比行业低 99.3%，日均处理千亿级 Tokens

豆包主力模型在企业市场的定价只有 0.0008 元 / 千 Tokens，0.8 厘就能处理 1500 多个汉字，比行业便宜 99.3%。...

2024-05-16 · 浏览843次