已支持的 Benchmarks
LexBench-Browser
推荐 - 专为中文网站设计的评测基准,340 个任务覆盖 50+ 主流网站。支持无需登录子集,适合自动化评测。
Online-Mind2Web
基于 Mind2Web 数据集的在线评测,测试 Agent 在真实网站上的导航和交互能力。
BrowseComp
浏览器操作竞赛任务,评估 Agent 的综合浏览器操作能力。
功能对比
| Benchmark | 任务数 | 语言 | 评估方式 | 需要登录 |
|---|---|---|---|---|
| LexBench-Browser | 340 | 中文 | WebJudge | 部分需要 |
| Online-Mind2Web | ~100 | 英文 | WebJudge | 否 |
| BrowseComp | ~50 | 英文 | Grader | 否 |
快速对比运行
计划支持
- 更多 Benchmark
如果你希望添加新的 Benchmark,请参考自定义 Benchmark 指南。