已支持的 Benchmarks
LexBench-Browser
推荐 - 专为中文网站设计的评测基准,386 个任务(v2.1)。L1 为无需登录子集,适合快速评测。
Online-Mind2Web
基于 Mind2Web 数据集的在线评测,测试 Agent 在真实网站上的导航和交互能力。
BrowseComp
浏览器操作竞赛任务,评估 Agent 的综合浏览器操作能力。
功能对比
| Benchmark | 任务数 | 语言 | 评估方式 | 需要登录 |
|---|---|---|---|---|
| LexBench-Browser | 386 | zh/en | LLM 视觉评估 | 部分需要 |
| Online-Mind2Web | 300 | 英文 | WebJudge | 否 |
| BrowseComp | 1266 | 英文 | Grader | 否 |
快速对比运行
数据位置
所有 Benchmark 数据存放在benchmarks/ 目录中:
| Benchmark | 数据文件路径 |
|---|---|
| LexBench-Browser | benchmarks/LexBench-Browser/data/ |
| Online-Mind2Web | benchmarks/Online-Mind2Web/data/ |
| BrowseComp | benchmarks/BrowseComp/data/ |
计划支持
- 更多 Benchmark
如果你希望添加新的 Benchmark,请参考自定义 Benchmark 指南。