概览
- 选择 Agent
- 配置 Agent
- 选择 Benchmark
- 运行任务
- 评估结果
- 查看输出
1. 选择 Agent
browseruse-bench 支持多个 Agent,可按需求选择:2. 配置 Agent
复制示例配置并编辑:configs/agents/browser-use/config.yaml:
configs/agents/browser-use/config.yaml.exampleconfigs/agents/Agent-TARS/config.yaml.example
Agent 配置文件为纯 YAML,不会自动读取环境变量占位符。
3. 选择 Benchmark
根据评估需求选择 Benchmark:LexBench-Browser
- 评估方式:视觉评估(截图序列)
- 评分:0-100,默认阈值 60
- 适用场景:视觉理解、多步推理
Online-Mind2Web
- 评估方式:WebJudge 多轮评估
- 评分:3 分制,默认阈值 3
- 适用场景:网页导航与任务完成
BrowseComp
- 评估方式:文本答案正确性
- 评分:二值(正确/错误)
- 适用场景:事实检索与信息抽取
4. 运行任务
基本命令
所有参数
| 参数 | 说明 | 备注 |
|---|---|---|
--agent | Agent 名称 | 默认取 config.yaml 中的 default.agent(兜底 Agent-TARS) |
--benchmark | Benchmark 名称 | 默认取 config.yaml 中的 default.benchmark(兜底 Online-Mind2Web) |
--split | 数据划分 | 默认 All |
--data-source | 数据源 | local(默认)或 huggingface |
--force-download | 重新下载数据 | 仅 huggingface |
--mode | 任务选择模式 | single、first_n、sample_n、specific、by_id、all |
--count | first_n/sample_n 的任务数 | 默认 1 |
--task-ids | specific 模式的任务 ID | 空格分隔多个 ID |
--id | by_id 模式的单个任务 ID | 数值 ID 字段 |
--timeout | 单任务超时(秒) | 覆盖配置中的 TIMEOUT |
--skip-completed | 跳过已完成任务 | 适合断点续跑 |
--agent-config | 自定义 Agent 配置路径 | 默认 configs/agents/<agent>/config.yaml |
--timestamp | 指定运行/恢复目录 | YYYYMMDD_HHmmss |
--dry-run | 仅打印命令不执行 | 用于检查配置 |
输出结构
结果会保存到:进度查看
日志位于output/logs/run/:
5. 评估结果
执行评估
评估参数
| 参数 | 说明 | 默认值 |
|---|---|---|
--model | 评估用 LLM 模型 | EVAL_MODEL_NAME 或 gpt-4o |
--score-threshold | 成功阈值 | LexBench 60,其他 3 |
--force-reeval | 强制重评估 | false |
--timestamp | 指定评估目录 | 最新(自动识别) |
--data-source | 数据源(仅 LexBench) | local |
--force-download | 重新下载数据(仅 LexBench) | false |
输出文件
评估结果保存在tasks_eval_result/:
- 详细结果:
*_eval_results.json - 统计汇总:
*_summary.json
查看结果
完整示例
常见问题
超时错误
问题:任务超出配置的超时时间 解决:提高 Agent 配置中的TIMEOUT,或使用 --timeout。
缺少截图(LexBench-Browser)
问题:评估因缺少截图而失败 解决:确认tasks/<task_id>/trajectory/ 下有截图,并查看运行日志定位失败原因。
模型 API 报错
问题:LLM API 调用失败 解决:检查 Agent 配置中的 API Key;评估阶段请确认.env。