Documentation Index
Fetch the complete documentation index at: https://docs.bubench.lexmount.io/llms.txt
Use this file to discover all available pages before exploring further.
browseruse-bench 提供自动化的排行榜生成功能,帮助你对比不同 Agent 在各个 Benchmark 上的表现。
功能特性
快速开始
生成排行榜
# 自动收集所有评估结果,生成 HTML 排行榜
bubench leaderboard
启动服务器
# 前台运行,适合开发调试
bubench server
# 访问 http://localhost:8000
服务配置说明
bubench service 会从 config.yaml 读取 systemd 配置:
service:
name: benchmark-server
description: BrowserUse Bench Leaderboard Server
user: ubuntu
group: ubuntu
host: 0.0.0.0
port: 8000
log_path: /var/log/browseruse_bench/benchmark_server.log
restart_sec: 10
limit_nofile: 65535
可选的环境变量覆盖:
BU_SERVICE_NAME
BU_SERVICE_DESCRIPTION
BU_SERVICE_USER
BU_SERVICE_GROUP
BU_SERVICE_HOST
BU_SERVICE_PORT
BU_SERVICE_LOG_PATH
BU_SERVICE_RESTART_SEC
BU_SERVICE_LIMIT_NOFILE
界面预览
排行榜概览
展示所有 Agent × Benchmark 组合的成功率、步骤数、耗时等指标:
- 支持勾选多个 Agent 进行对比
- 点击行可跳转到任务详情
- 错误类别柱状图可点击筛选
任务详情
每个任务展示:
- 任务 ID 和描述
- 操作历史(可展开)
- 轨迹截图(可翻页)
- 时间和 Token 统计
- 评估结果和错误分析
用户提交格式
如果你想提交自己的评测结果,需要按以下格式组织:
目录结构
experiments/
└── <BenchmarkName>/
└── <AgentName>/
└── <Timestamp>/ # 例如 20251208_114207
└── tasks/
└── <task_id>/
├── result.json # 必需:任务运行结果
└── trajectory/ # 可选:截图序列
├── 0_screenshot.png
└── ...
result.json 格式
{
"task_id": "005be9dd91c95669d6ddde9ae667125c",
"task": "在淘宝上搜索 iPhone 15",
"action_history": ["打开淘宝", "输入 iPhone 15", "点击搜索"],
"model_id": "gpt-4o",
"browser_id": "Chrome-Local",
"metrics": {
"steps": 5,
"end_to_end_ms": 9879,
"usage": {
"total_tokens": 1234,
"total_cost": 0.0123
}
},
"config": {
"timeout_seconds": 300
}
}
成本说明
如需查看 token 与 cost 的详细统计逻辑(token 来源、价格表来源、计算公式),请参考:
评估后的数据
提交后系统会自动评估,生成:
experiments/
└── <BenchmarkName>/
└── <AgentName>/
└── <Timestamp>/
├── tasks/ # 原始数据
└── tasks_eval_result/ # 自动生成
└── <EvalName>_results.json
评估添加的字段:
predicted_label:1 = 成功,0 = 失败
evaluation_details:得分、评估响应、失败类别
服务管理命令
# 查看服务状态
sudo bubench service status
# 查看日志
sudo bubench service logs
# 重启服务
sudo bubench service restart
# 停止服务
sudo bubench service stop