跳转到主要内容
本页展示如何使用 browser-use Agent 运行各类 Benchmark 任务。

安装

pip install browseruse-bench[browser-use]

基础用法

uv run scripts/run.py \
  --agent browser-use \
  --benchmark <benchmark_name> \
  --mode <run_mode> \
  [其他参数]

运行 LexBench-Browser

# 运行前 5 个任务
uv run scripts/run.py \
  --agent browser-use \
  --benchmark LexBench-Browser \
  --mode first_n --count 5

# 使用无需登录子集
uv run scripts/run.py \
  --agent browser-use \
  --benchmark LexBench-Browser \
  --split no_login \
  --mode first_n --count 5

运行 Online-Mind2Web

# 运行前 5 个任务
uv run scripts/run.py \
  --agent browser-use \
  --benchmark Online-Mind2Web \
  --mode first_n --count 5

# 使用 Hard30 子集
uv run scripts/run.py \
  --agent browser-use \
  --benchmark Online-Mind2Web \
  --version 20251214 \
  --split Hard30 \
  --mode all

运行 BrowseComp

uv run scripts/run.py \
  --agent browser-use \
  --benchmark BrowseComp \
  --mode first_n --count 5

常用参数

参数说明默认值
--mode运行模式 (all, first_n, sample_n, specific)all
--count任务数量1
--split数据子集All
--timeout超时时间(秒)从配置读取
--skip-completed跳过已完成任务False
--debug调试模式False