功能特性
多维度对比
成功率、步骤数、耗时、Token 消耗
交互式界面
支持筛选、排序、详情查看
任务级分析
查看每个任务的执行详情和轨迹
错误分析
失败任务分类统计和可视化
快速开始
生成排行榜
启动服务器
界面预览
排行榜概览
展示所有 Agent × Benchmark 组合的成功率、步骤数、耗时等指标:- 支持勾选多个 Agent 进行对比
- 点击行可跳转到任务详情
- 错误类别柱状图可点击筛选
任务详情
每个任务展示:- 任务 ID 和描述
- 操作历史(可展开)
- 轨迹截图(可翻页)
- 时间和 Token 统计
- 评估结果和错误分析
用户提交格式
如果你想提交自己的评测结果,需要按以下格式组织:目录结构
result.json 格式
评估后的数据
提交后系统会自动评估,生成:predicted_label:1 = 成功,0 = 失败evaluation_details:得分、评估响应、失败类别