跳转到主要内容
browseruse-bench 集成了多个主流的浏览器评测基准,覆盖不同类型的 Web 交互任务。

已支持的 Benchmarks

LexBench-Browser

推荐 - 专为中文网站设计的评测基准,386 个任务(v2.1)。L1 为无需登录子集,适合快速评测。

Online-Mind2Web

基于 Mind2Web 数据集的在线评测,测试 Agent 在真实网站上的导航和交互能力。

BrowseComp

浏览器操作竞赛任务,评估 Agent 的综合浏览器操作能力。

功能对比

Benchmark任务数语言评估方式需要登录
LexBench-Browser386zh/enLLM 视觉评估部分需要
Online-Mind2Web300英文WebJudge
BrowseComp1266英文Grader

快速对比运行

# LexBench-Browser(推荐,L1 无需登录子集)
bubench run --agent browser-use --benchmark LexBench-Browser --split L1 --mode first_n --count 5

# Online-Mind2Web
bubench run --agent browser-use --benchmark Online-Mind2Web --mode first_n --count 5

# BrowseComp
bubench run --agent browser-use --benchmark BrowseComp --mode first_n --count 5

数据位置

所有 Benchmark 数据存放在 benchmarks/ 目录中:
Benchmark数据文件路径
LexBench-Browserbenchmarks/LexBench-Browser/data/
Online-Mind2Webbenchmarks/Online-Mind2Web/data/
BrowseCompbenchmarks/BrowseComp/data/
关于数据加载配置的更多详情(包括 HuggingFace 支持和私有数据集),请参考 数据加载 指南。

计划支持

  • 更多 Benchmark
如果你希望添加新的 Benchmark,请参考自定义 Benchmark 指南。