Toktik Benchmark Suite
自建行业级编程评测题库
我们拒绝使用在公开数据集(如 HumanEval)上刷过榜的题目。题库包含 140+ 真实开发场景题目,每天全自动触发运行,防止任何形式的代码过拟合。
算法与核心数据结构20 题
覆盖 LeetCode 中/高难度算法、位运算、递归与动态规划。侧重代码的运行正确性与时空效率。
前端组件与状态管理20 题
涉及 React/Vue 组件生命周期、状态共享、防抖节流以及 DOM 高效交互。侧重样式渲染与工程兼容性。
后端 API 与高并发业务20 题
包含 RESTful/GraphQL 接口设计、权限拦截、速率限制与后台任务异步队列。侧重处理多层逻辑集成与稳定性。
数据库索引与复杂 SQL20 题
编写高性能 SQL 查询,包括窗口函数、多表复杂连接和多级索引建模。侧重查询计划优化。
Agent 跨多文件重构50 题
要求 AI 自动分析多文件依赖,进行架构重构并修复编译错误,确保整个本地单元测试套件全部通过。
真实大型开源项目贡献10 题
在 5000+ stars 的开源项目中定位真实 issue,撰写补丁,检验工具对未知复杂大项目的索引分析和上下文推理上限。
所有题目及测试套件存储在独立的闭源 Git 仓库中。我们在沙盒运行完 AI 工具的生成代码后,将清除全部缓存卷,保证零数据遗留。企业用户如需自定内部测试用例,欢迎联系商务开通专属评测通道。