不满现有工具，三星推出自研 AI 性能基准测试工具 TRUEBench

2025-09-25 发布浏览395次点赞0次收藏0次

9 月 25 日消息，三星是首个在智能手机上引入全面的 AI 功能套件的品牌。自那时起，该公司始终保持每六个月推出全新及升级版 AI 功能的节奏。如今，三星推出了自己的人工智能性能基准测试工具，名为 TRUEBench。

今日早些时候，三星宣布已开发出名为“可信真实场景使用评估基准”（Trustworthy Real-world Usage Evaluation Benchmark，简称 TRUEBench）的自研 AI 基准测试工具。这是一款专有基准工具，由三星研究院（Samsung Research）开发。此前，三星发现现有 AI 基准测试工具存在诸多不足，遂启动了该工具的研发工作。三星表示，大多数现有工具只关注英语，且仅限于单轮问答结构。

不满现有工具，三星推出自研 AI 性能基准测试工具 TRUEBench

三星指出，TRUEBench 的测试涵盖了多样化对话场景与多语言环境。基于企业内部将 AI 用于生产力提升的实践经验，该基准工具围绕 10 项最常用的企业任务评估 AI 性能，例如内容生成、数据分析、文本摘要及翻译等。

据了解，TRUEBench 包含 2485 组测试集，覆盖 10 个大类、46 个子类以及 12 种语言。其测试旨在检验 AI 模型的实际问题解决能力，测试集的长度从 8 个字符到 20000 多个字符不等，涵盖了从简单任务到长文档总结等各类任务。

三星称，TRUEBench 拥有可靠的评分体系，这得益于一套由 AI 与人类协作设计并完善的 AI 自动评估系统。该工具的数据样本与排行榜已在开源平台 Hugging Face 上线，用户可通过其测试最多 5 个 AI 模型，并对它们的性能与效率进行对比。

三星电子 DX 部门首席技术官兼三星研究院院长 Paul (Kyungwhoon) Cheun 表示：“凭借在真实场景中积累的 AI 实践经验，三星研究院具备深厚的专业知识与竞争优势。我们期望 TRUEBench 能够确立生产力领域的评估标准，并巩固三星在技术领域的领先地位。”

4 rust 三星 AI 人工智能测试性能智能手机

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

不满现有工具，三星推出自研 AI 性能基准测试工具 TRUEBench

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。