browseruse-bench 集成了多个主流的浏览器评测基准,覆盖不同类型的 Web 交互任务。Documentation Index
Fetch the complete documentation index at: https://docs.bubench.lexmount.io/llms.txt
Use this file to discover all available pages before exploring further.
已支持的 Benchmarks
LexBench-Browser
推荐 - 真实场景驱动的浏览器 Agent 评测基准,包含 210 个任务,覆盖 107 个中英文网站,无需登录。
Online-Mind2Web
基于 Mind2Web 数据集的在线评测,测试 Agent 在真实网站上的导航和交互能力。
BrowseComp
浏览器操作竞赛任务,评估 Agent 的综合浏览器操作能力。
功能对比
| Benchmark | 任务数 | 语言 | 评估方式 | 需要登录 |
|---|---|---|---|---|
| LexBench-Browser | 210 | zh/en | LLM 视觉评估 | 否 |
| Online-Mind2Web | 300 | 英文 | WebJudge | 否 |
| BrowseComp | 1266 | 英文 | Grader | 否 |
快速对比运行
数据位置
所有 Benchmark 数据存放在benchmarks/ 目录中:
| Benchmark | 数据文件路径 |
|---|---|
| LexBench-Browser | benchmarks/LexBench-Browser/data/ |
| Online-Mind2Web | benchmarks/Online-Mind2Web/data/ |
| BrowseComp | benchmarks/BrowseComp/data/ |
计划支持
- 更多 Benchmark
如果你希望添加新的 Benchmark,请参考自定义 Benchmark 指南。