晴子兔呢

General365

互联网 2026-05-18 23:51:38

General365 是美团 LongCat 团队开源的通用推理评测基准,包含 365 道原创种子题及 1095 个扩展变体,覆盖八大推理挑战维度。基准将知识范围严格限定在 K-12 水平,解耦大模型的推理能力与专业知识依赖,真实评估模型在日常场景下的通用逻辑推理水平。实测显示,26 款主流大模型中仅 Gemini 3 Pro 达到 62.8% 的准确率,绝大多数模型未过 60% 及格线。