概述
使用场景:- 您有自定义 Agent 实现的结果
- 您希望使用标准化评估指标
- 您准备提交到排行榜
- 针对每个 Benchmark 的标准化评估流程
- 统一的评分指标
- 详细的性能报告
通用数据要求
目录结构
所有 Benchmark 都需要这个基本结构:通用 result.json 格式
所有 Benchmark 都需要这些基础字段:task_id: 与 Benchmark 匹配的唯一任务标识符task: 人类可读的任务描述answer: Agent 的最终响应或答案model_id: 使用的 LLM 模型(例如 “gpt-4o”, “claude-3.5”)browser_id: 浏览器配置(例如 “Chrome-Local”)metrics: 可选的性能指标
各 Benchmark 特定要求
LexBench-Browser
评估方式: 使用截图序列进行视觉评估评分标准: 0-100 分,默认阈值: 60
额外要求
✅ 必需:trajectory/ 目录下的截图文件✅ 格式: PNG 或 JPG 图像
✅ 命名: 顺序编号(例如
0.png, 1.png, …)
result.json 示例
必需的目录结构
评估命令
Online-Mind2Web
评估方式: WebJudge 多轮评估评分标准: 3 分制,默认阈值: 3
额外要求
✅ 必需: result.json 中的action_history 字段✅ 必需:
trajectory/ 目录下的截图文件✅ 格式: 动作历史为字符串数组
result.json 示例
必需的目录结构
评估命令
BrowseComp
评估方式: 文本答案准确性比较评分标准: 二分类(正确/错误)
额外要求
❌ 不需要: 截图(仅文本评估)✅ 必需: 完整的
answer 字段和完整响应
result.json 示例
最小目录结构
评估命令
评估流程
步骤 1: 准备数据
- 整理结果: 根据上述要求组织您的数据
- 放置在标准位置: 复制到相应的实验目录
- 验证格式: 确保所有必需字段都存在
步骤 2: 运行评估
执行评估命令:--model: 评估 LLM(默认:EVAL_MODEL_NAME,缺省回退gpt-4o)--score-threshold: 自定义成功阈值--force-reeval: 强制重新评估现有结果
步骤 3: 查看结果
评估在tasks_eval_result/ 目录中生成两个输出文件:
1. 详细结果 (*_eval_results.json):
*_summary.json):
对比表格
| 特性 | LexBench-Browser | Online-Mind2Web | BrowseComp |
|---|---|---|---|
| 需要截图 | ✅ 是 | ✅ 是 | ❌ 否 |
| 需要动作历史 | ❌ 否 | ✅ 是 | ❌ 否 |
| 评估类型 | 视觉(LLM) | 多轮(LLM) | 文本比较(LLM) |
| 评分范围 | 0-100 | 1-3 | 二分类 |
| 默认阈值 | 60 | 3 | 无 |
与排行榜的区别
| 功能 | 评估服务 | 排行榜 |
|---|---|---|
| 目的 | 评估工具 | 结果展示 |
| 功能 | 处理数据 → 生成指标 | 浏览和比较结果 |
| 交互 | 提交数据以进行评估 | 只读查看 |
| 输出 | 详细评估报告 | 排名和趋势 |
💡 提示: 评估后,您可以将结果提交到排行榜与其他模型进行公开比较。
最佳实践
✅ 应该做的
- 验证格式: 评估前仔细检查所有必需字段
- 使用一致的 ID: 确保
task_id与 Benchmark 任务完全匹配 - 包含指标: 添加性能指标以进行更丰富的分析
- 记录模型: 指定
model_id和browser_id以确保可重现性
❌ 不应该做的
- 不要混合格式: 每个 Benchmark 都有特定要求
- 不要跳过截图: LexBench-Browser 和 Online-Mind2Web 需要它们
- 不要修改 Benchmark 数据: 使用原始任务定义
- 不要忽略错误: 在继续之前解决验证错误
故障排除
”Task ID not found in benchmark”
原因: 您的task_id 与任何 Benchmark 任务都不匹配解决: 使用 Benchmark 的
tasks.json 中的确切任务 ID
”Missing action_history field”
原因: Online-Mind2Web 需要动作历史解决: 将
action_history 数组添加到您的 result.json
”No screenshots found”
原因: trajectory/ 目录丢失或为空解决: 确保截图在
task_dir/trajectory/*.png 中
”Evaluation failed with API error”
原因: 评估 LLM API 问题解决: 检查
OPENAI_API_KEY 和网络连接