HELM

互联网 2025-08-19 00:33:35

HELM全称Holistic Evaluation of Language Models（语言模型整体评估）是斯坦福大学推出的大模型评测体系，评测方法主要包括场景、适配、指标三大模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多个指标。它评测主要覆盖的是英语，通过准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率综合评测模型表现，适用问答、信息检索、文本分类等任务，为语言模型提供更全面、系统的评估方法，帮助研究人员和开发者更好地理解和优化模型性能。

*文章为作者独立观点，不代表爱思词典立场