Toktik Benchmark Suite
评测数据来源于各厂商官方技术报告及第三方公开评测集
拒绝过拟合
来源可查
每日更新
13 个工具 · 10 个评测集
评测排行可信度说明:
排名规则 — 仅收录至少 2 个评测类别(或 3 条以上结果)的模型。1-2 条数据的模型不参与排名以避免信息不足的误判。综合分采用加权算法:覆盖率越高分越高。
T1 权威评测 — SWE-bench Verified、Aider Polyglot、LiveCodeBench、Chatbot Arena。
独立第三方实测,题库不会进入训练集,与真实使用体验最一致。
T2 辅助参考 — MMLU-Pro、MATH-500、BigCodeBench 等学术测试集。
不完全反映编程能力,分数普遍虚高,可作参考但不能作为选型依据。
「厂商自报」 — 厂商技术报告自己宣称的分数,可能精选 prompt、多次采样取最高
「第三方实测」 — 独立评测平台实际运行,可信度高于厂商自报
详情页中已按评测权威性分组展示,帮助做更精准的选型判断。
排名规则 — 仅收录至少 2 个评测类别(或 3 条以上结果)的模型。1-2 条数据的模型不参与排名以避免信息不足的误判。综合分采用加权算法:覆盖率越高分越高。
T1 权威评测 — SWE-bench Verified、Aider Polyglot、LiveCodeBench、Chatbot Arena。
独立第三方实测,题库不会进入训练集,与真实使用体验最一致。
T2 辅助参考 — MMLU-Pro、MATH-500、BigCodeBench 等学术测试集。
不完全反映编程能力,分数普遍虚高,可作参考但不能作为选型依据。
「厂商自报」 — 厂商技术报告自己宣称的分数,可能精选 prompt、多次采样取最高
「第三方实测」 — 独立评测平台实际运行,可信度高于厂商自报
详情页中已按评测权威性分组展示,帮助做更精准的选型判断。