跳转到主要内容
browseruse-bench 提供自动化的排行榜生成功能,帮助你对比不同 Agent 在各个 Benchmark 上的表现。

功能特性

多维度对比

成功率、步骤数、耗时、Token 消耗

交互式界面

支持筛选、排序、详情查看

任务级分析

查看每个任务的执行详情和轨迹

错误分析

失败任务分类统计和可视化

快速开始

生成排行榜

# 自动收集所有评估结果,生成 HTML 排行榜
uv run scripts/generate_leaderboard.py

启动服务器

# 前台运行,适合开发调试
uv run scripts/benchmark_server.py
# 访问 http://localhost:8000

界面预览

排行榜概览

展示所有 Agent × Benchmark 组合的成功率、步骤数、耗时等指标:
  • 支持勾选多个 Agent 进行对比
  • 点击行可跳转到任务详情
  • 错误类别柱状图可点击筛选

任务详情

每个任务展示:
  • 任务 ID 和描述
  • 操作历史(可展开)
  • 轨迹截图(可翻页)
  • 时间和 Token 统计
  • 评估结果和错误分析

用户提交格式

如果你想提交自己的评测结果,需要按以下格式组织:

目录结构

experiments/
└── <BenchmarkName>/
    └── <AgentName>/
        └── <Timestamp>/           # 例如 20251208_114207
            └── tasks/
                └── <task_id>/
                    ├── result.json     # 必需:任务运行结果
                    └── trajectory/     # 可选:截图序列
                        ├── 0_screenshot.png
                        └── ...

result.json 格式

{
  "task_id": "005be9dd91c95669d6ddde9ae667125c",
  "task": "在淘宝上搜索 iPhone 15",
  "action_history": ["打开淘宝", "输入 iPhone 15", "点击搜索"],
  "model_id": "gpt-4o",
  "browser_id": "Chrome-Local",
  "metrics": {
    "steps": 5,
    "end_to_end_ms": 9879,
    "usage": {
      "total_tokens": 1234,
      "total_cost": 0.0123
    }
  },
  "config": {
    "timeout_seconds": 300
  }
}

评估后的数据

提交后系统会自动评估,生成:
experiments/
└── <BenchmarkName>/
    └── <AgentName>/
        └── <Timestamp>/
            ├── tasks/                    # 原始数据
            └── tasks_eval_result/        # 自动生成
                └── <EvalName>_results.json
评估添加的字段:
  • predicted_label:1 = 成功,0 = 失败
  • evaluation_details:得分、评估响应、失败类别

服务管理命令

# 查看服务状态
sudo bash scripts/manage_benchmark_service.sh status

# 查看日志
sudo bash scripts/manage_benchmark_service.sh logs

# 重启服务
sudo bash scripts/manage_benchmark_service.sh restart

# 停止服务
sudo bash scripts/manage_benchmark_service.sh stop