General365

互联网 2026-05-18 23:51:38

General365 是美团 LongCat 团队开源的通用推理评测基准，包含 365 道原创种子题及 1095 个扩展变体，覆盖八大推理挑战维度。基准将知识范围严格限定在 K-12 水平，解耦大模型的推理能力与专业知识依赖，真实评估模型在日常场景下的通用逻辑推理水平。实测显示，26 款主流大模型中仅 Gemini 3 Pro 达到 62.8% 的准确率，绝大多数模型未过 60% 及格线。

*文章为作者独立观点，不代表爱思词典立场

本文由晴子兔呢发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/13725.html

General365 美团 LongCat