Claude 标签,匹配到约635个结果, 耗时0.0491秒

程序员自制开源 AI 评分工具,衡量大模型“愚蠢程度”

程序员ionutvi发布开源工具AI Benchmark Tool,可量化评估ChatGPT、Grok等AI模型的“愚蠢程度”,通过140项任务测试准确性、稳定性等指标,并综合价格给出性价比排名。#AI工具##开源项目#...
2025-09-18
·
浏览30次

Claude 公司 CEO 示警称 AI 加速取代人类,近半白领岗位未来 5 年恐被淘汰

在本周三召开的 Axios AI+ DC 峰会上,Anthropic 首席执行官达里奥・阿莫迪(Dario Amodei)表示,人工智能(AI)正加速发展,在很多领域能取代人类完成各类任务,最多 50% 的白领岗位在未来 5 年内可能被淘汰...
2025-09-18
·
浏览29次


最新实测GPT-5-Codex:前端能力碾压,复杂项目轻松搞定,Claude可以扔了!

最新实测GPT-5-Codex:前端能力碾压,复杂项目轻松搞定,Claude可以扔了!...
2025-09-17
·
浏览39次

微软 VS Code 新增 AI 模型自动选择功能:付费用户主推 Claude Sonnet 4

微软为VS Code新增AI模型自动选择功能,GitHub Copilot免费用户将自动选择最佳模型,付费用户主要依赖Claude Sonnet 4。微软内部测试显示Claude Sonnet 4表现优异,未来或将其应用于Microsoft...
2025-09-16
·
浏览44次

OpenAI ChatGPT 报告:周活跃数超 7 亿、女性用户比例首超男性、73% AI 话题和工作无关

OpenAI 昨日(9 月 15 日)发布了首份 ChatGPT 详细使用情况调查,涵盖性别、年龄、地域及用途等多维度数据。其中在 2025 年 6 月,女性用户比例首次超过男性,标志着性别方面的差距大幅缩小。...
2025-09-16
·
浏览56次


研究发现:主流 AI 聊天机器人传播虚假信息的概率较去年翻倍

研究显示,十大生成式AI工具在处理实时新闻时,35%的情况会传播虚假信息。Inflection表现最差,虚假信息传播率高达56.67%。#AI虚假信息# #科技新闻#...
2025-09-15
·
浏览79次

新研究:人类读指针式时钟准确率达 89.1%,顶尖 AI 仅 13.3%

最新研究显示,人类读取指针式时钟的准确率高达89.1%,而最优秀AI模型仅13.3%。ClockBench测试揭示AI在视觉推理能力上的巨大短板,尤其在罗马数字、彩色背景等复杂钟面设计前表现更差。#AI视觉推理# #人机差距#...
2025-09-14
·
浏览68次

有没有海马 emoji?ChatGPT 等 AI 模型被问得语无伦次

目前统一码联盟未将海马纳入官方emoji词典,但很多人以为存在,这是“曼德拉效应”。向ChatGPT、Claude Sonnet 4询问时它们陷入混乱,谷歌搜索“AI模式”正确回应。#AI幻觉# #曼德拉效应#...
2025-09-14
·
浏览85次


老程序员爱用 AI 写代码:调查显示超三成资深工程师一半代码靠 AI 生成

调查显示,资深开发者比初级开发者更频繁使用AI生成代码,且对AI代码的信任度更高。尽管AI工具能提升工作速度,但修正AI代码的时间可能抵消其优势。有趣的是,80%的开发者认为使用AI让工作更有趣。#AI编程# #开发者调查#...
2025-09-08
·
浏览86次

谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢

谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢...
2025-09-06
·
浏览85次

OpenAI 研究人员宣称已破解模型“幻觉”难题:现有评估方式在鼓励 AI“瞎蒙”

“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”...
2025-09-06
·
浏览109次

刚刚,阿里首个超万亿参数新王登基!Qwen3-Max屠榜全SOTA,碾压DeepSeek V3.1

刚刚,阿里首个超万亿参数新王登基!Qwen3-Max屠榜全SOTA,碾压DeepSeek V3.1...
2025-09-06
·
浏览196次

智谱推出“Claude API 用户特别搬家计划”:替换 API URL 即可无缝切换

智谱 AI 今天傍晚宣布,为帮助开发者平稳过渡、持续享有顶级 AI 编码能力,智谱正式推出「Claude API 用户特别搬家计划」。...
2025-09-05
·
浏览125次

月之暗面 Kimi K2 宣布更新:上下文长度扩展至 256K,带来更快的 API

9 月 5 日月之暗面官宣 Kimi K2 模型新版(0905),Agentic Coding 能力、前端编程体验提升,上下文扩至 256K,有高速 API。kimi - k2 - 0905 - preview 已上架。#月之暗面KimiK...
2025-09-05
·
浏览294次

「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台

「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台...
2025-09-04
·
浏览135次

83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI

83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI...
2025-09-04
·
浏览91次


投后估值增至 1830 亿美元,AI 企业 Anthropic 完成 130 亿美元 F 轮融资

Anthropic 在 2025 年 8 月的营收规模已超过 50 亿美元,是今年初水平的五倍;该公司目前为超过 30 万家企业客户提供服务。...
2025-09-03
·
浏览83次

微软宣布免费为美国政府提供 Microsoft 365 Copilot 服务,首年就能为其节省超 30 亿美元

美国总务管理局(GSA)推动科技巨头为政府提供大幅折扣服务,包括OpenAI、谷歌、微软等。OpenAI的ChatGPT企业版和Anthropic的Claude政府版每个机构仅需1美元,谷歌的政府版Gemini成本不足0.5美元。微软的优惠...
2025-09-03
·
浏览100次


智谱宣布推出 GLM-4.5 编码套餐:20 元每月,能力接近 Claude Sonnet 4

目前,GLM-4.5 已接入包括 Claude Code、Cline、Gemini CLI、Grok CLI、CodeGeeX、Kilo Code、Roo Code、Trae 在内的多款主流编程工具。...
2025-09-02
·
浏览236次