Toktik Benchmark Suite

评测数据来源于各厂商官方技术报告及第三方公开评测集

拒绝过拟合

来源可查

每日更新

13 个工具 · 10 个评测集

评测排行可信度说明：

排名规则 — 仅收录至少 2 个评测类别（或 3 条以上结果）的模型。1-2 条数据的模型不参与排名以避免信息不足的误判。综合分采用加权算法：覆盖率越高分越高。

T1 权威评测 — SWE-bench Verified、Aider Polyglot、LiveCodeBench、Chatbot Arena。
独立第三方实测，题库不会进入训练集，与真实使用体验最一致。
T2 辅助参考 — MMLU-Pro、MATH-500、BigCodeBench 等学术测试集。
不完全反映编程能力，分数普遍虚高，可作参考但不能作为选型依据。

「厂商自报」 — 厂商技术报告自己宣称的分数，可能精选 prompt、多次采样取最高
「第三方实测」 — 独立评测平台实际运行，可信度高于厂商自报
详情页中已按评测权威性分组展示，帮助做更精准的选型判断。