排行榜 - browseruse-bench

browseruse-bench 提供自动化的排行榜生成功能，帮助你对比不同 Agent 在各个 Benchmark 上的表现。

功能特性

多维度对比

成功率、步骤数、耗时、Token 消耗

交互式界面

支持筛选、排序、详情查看

任务级分析

查看每个任务的执行详情和轨迹

错误分析

失败任务分类统计和可视化

快速开始

生成排行榜

# 自动收集所有评估结果，生成 HTML 排行榜
uv run scripts/generate_leaderboard.py

启动服务器

# 前台运行，适合开发调试
uv run scripts/benchmark_server.py
# 访问 http://localhost:8000

界面预览

排行榜概览

展示所有 Agent × Benchmark 组合的成功率、步骤数、耗时等指标：

支持勾选多个 Agent 进行对比
点击行可跳转到任务详情
错误类别柱状图可点击筛选

任务详情

每个任务展示：

任务 ID 和描述
操作历史（可展开）
轨迹截图（可翻页）
时间和 Token 统计
评估结果和错误分析

用户提交格式

如果你想提交自己的评测结果，需要按以下格式组织：

目录结构

experiments/
└── <BenchmarkName>/
    └── <AgentName>/
        └── <Timestamp>/           # 例如 20251208_114207
            └── tasks/
                └── <task_id>/
                    ├── result.json     # 必需：任务运行结果
                    └── trajectory/     # 可选：截图序列
                        ├── 0_screenshot.png
                        └── ...

result.json 格式

{
  "task_id": "005be9dd91c95669d6ddde9ae667125c",
  "task": "在淘宝上搜索 iPhone 15",
  "action_history": ["打开淘宝", "输入 iPhone 15", "点击搜索"],
  "model_id": "gpt-4o",
  "browser_id": "Chrome-Local",
  "metrics": {
    "steps": 5,
    "end_to_end_ms": 9879,
    "usage": {
      "total_tokens": 1234,
      "total_cost": 0.0123
    }
  },
  "config": {
    "timeout_seconds": 300
  }
}

评估后的数据

提交后系统会自动评估，生成：

experiments/
└── <BenchmarkName>/
    └── <AgentName>/
        └── <Timestamp>/
            ├── tasks/                    # 原始数据
            └── tasks_eval_result/        # 自动生成
                └── <EvalName>_results.json

评估添加的字段：

predicted_label：1 = 成功，0 = 失败
evaluation_details：得分、评估响应、失败类别

服务管理命令

# 查看服务状态
sudo bash scripts/manage_benchmark_service.sh status

# 查看日志
sudo bash scripts/manage_benchmark_service.sh logs

# 重启服务
sudo bash scripts/manage_benchmark_service.sh restart

# 停止服务
sudo bash scripts/manage_benchmark_service.sh stop

开始

功能

示例

开发

​功能特性

多维度对比

交互式界面

任务级分析

错误分析

​快速开始

​生成排行榜

​启动服务器

​界面预览

​排行榜概览

​任务详情

​用户提交格式

​目录结构

​result.json 格式

​评估后的数据

​服务管理命令