功能特性
多维度对比
成功率、步骤数、耗时、Token 消耗
交互式界面
支持筛选、排序、详情查看
任务级分析
查看每个任务的执行详情和轨迹
错误分析
失败任务分类统计和可视化
快速开始
生成排行榜
启动服务器
服务配置说明
bubench service 会从 config.yaml 读取 systemd 配置:
BU_SERVICE_NAMEBU_SERVICE_DESCRIPTIONBU_SERVICE_USERBU_SERVICE_GROUPBU_SERVICE_HOSTBU_SERVICE_PORTBU_SERVICE_LOG_PATHBU_SERVICE_RESTART_SECBU_SERVICE_LIMIT_NOFILE
界面预览
排行榜概览
展示所有 Agent × Benchmark 组合的成功率、步骤数、耗时等指标:- 支持勾选多个 Agent 进行对比
- 点击行可跳转到任务详情
- 错误类别柱状图可点击筛选
任务详情
每个任务展示:- 任务 ID 和描述
- 操作历史(可展开)
- 轨迹截图(可翻页)
- 时间和 Token 统计
- 评估结果和错误分析
用户提交格式
如果你想提交自己的评测结果,需要按以下格式组织:目录结构
result.json 格式
成本说明
如需查看 token 与 cost 的详细统计逻辑(token 来源、价格表来源、计算公式),请参考:评估后的数据
提交后系统会自动评估,生成:predicted_label:1 = 成功,0 = 失败evaluation_details:得分、评估响应、失败类别