前置要求
- Python 3.11+
- Node.js 18+(仅 Agent-TARS 需要)
- uv(推荐的 Python 包管理器)
安装
安装 Python 依赖
bubench 可用:bubench run 会在首次运行时创建 config.yaml 中指定的 venv(内置默认:
.venvs/browser_use、.venvs/skyvern、.venvs/agent_tars),并自动安装对应 Agent 的依赖。
Agent 的 venv 必须显式配置(不会回退到 .venv)。
如果未安装 uv,创建/安装会退回到 python -m venv 与 pip。配置环境变量 (.env)
.env,填写评估与可选云端配置:
提示: 国内用户可以设置 HF_ENDPOINT=https://hf-mirror.com 以加速 HuggingFace 下载。
配置 Agent 凭据
configs/agents/browser-use/config.yaml需要填写MODEL_TYPE、MODEL_ID,以及对应的 API Key(BROWSER_USE_API_KEY/OPENAI_API_KEY/GEMINI_API_KEY)。- 当
BROWSER_ID=agentbay时,AGENTBAY_API_KEY需要放在.env中(不要写入config.yaml)。 configs/agents/Agent-TARS/config.yaml需要填写MODEL_PROVIDER、MODEL_ID、MODEL_APIKEY(必要时再填MODEL_BASEURL)。- Agent 配置文件为纯 YAML,不会自动读取环境变量占位符。
快速运行
运行你的第一个 Benchmark
快速自检(推荐)
加上--dry-run 可在不执行任务的情况下检查配置:
评估结果
日志: 脚本执行日志保存在output/logs/目录下。
run.py:output/logs/run/eval.py:output/logs/eval/leaderboard:output/logs/leaderboard/
生成排行榜
运行模式
| 模式 | 说明 | 示例 |
|---|---|---|
single | 运行第一个任务(快速自检) | --mode single |
first_n | 运行前 N 个任务 | --mode first_n --count 5 |
sample_n | 随机抽样 N 个任务 | --mode sample_n --count 10 |
specific | 运行指定 ID 的任务 | --mode specific --task-ids id1 id2 |
by_id | 按数值 ID 运行单个任务 | --mode by_id --id 123 |
all | 运行所有任务 | --mode all |
注意: --task-ids 需要以空格分隔多个 ID。
常用参数
--data-source:local或huggingface。--force-download: HuggingFace 模式下强制重新下载。--agent-config: 自定义 Agent 配置文件路径(默认configs/agents/<agent>/config.yaml)。--timestamp: 指定运行/恢复的目录(格式YYYYMMDD_HHmmss)。
--timeout 会覆盖 Agent 配置中的 TIMEOUT。
并行运行多个 Agents
bubench run 使用 config.yaml 中为 agent 指定的 venv,并在首次运行时自动创建/安装依赖。
内置 agent 默认使用独立 venv:
browser-use->.venvs/browser_useskyvern->.venvs/skyvernAgent-TARS->.venvs/agent_tars
venv,bubench run 会直接报错,不会回退到 .venv。
如果需要同时运行互斥的 Agent,可以在两个终端中分别运行各自的 Agent,确保使用不同的 venv。
Node.js Agents(无冲突)
Agent-TARS 通过 Node.js CLI 运行,不与 Python 依赖冲突。 安装 CLI 后可在任意终端运行:下一步
支持的 Agents
了解可用的浏览器代理
Benchmarks 详解
深入了解各个基准测试
云浏览器配置
使用 Lexmount 云浏览器
查看排行榜
对比不同 Agent 的性能