vanessaa

TRUEBench

互联网 2025-10-05 09:39:12

TRUEBench(Trustworthy Real-world Usage Evaluation Benchmark)是三星电子推出的 AI 基准测试工具,用在评估人工智能在实际工作场景中的生产力,解决现有AI基准测试的局限性,如主要以英语为中心、仅限于单轮问答结构等。TRUEBench包含2485个测试集,涵盖10个类别和12种语言,支持跨语言场景。TRUEBench通过人机协作设计和优化评估标准,确保评估的准确性和一致性。TRUEBench的数据样本和排行榜已在Hugging Face平台上发布,用户能比较最多五个模型的性能和效率。