跳转到主要内容
BrowseComp 是一个浏览器操作竞赛任务的基准测试,评估 Agent 的综合浏览器操作能力。

概览

属性
任务类型浏览器操作
评估方式Grader 评分
难度中高

任务特点

竞赛级任务

源自浏览器操作竞赛,任务难度较高

综合能力

考察多种浏览器操作技能的综合运用

快速开始

运行任务

# 运行前 3 个任务
uv run scripts/run.py \
  --agent browser-use \
  --benchmark BrowseComp \
  --mode first_n \
  --count 3

# 使用 Agent-TARS 运行
uv run scripts/run.py \
  --agent Agent-TARS \
  --benchmark BrowseComp \
  --mode first_n \
  --count 3

评估结果

uv run scripts/eval.py --agent browser-use --benchmark BrowseComp

评估指标

指标说明
Task Completion任务完成率
Accuracy结果准确率

数据格式

任务数据存储在 benchmarks/BrowseComp/data/
{
  "task_id": "browsecomp_001",
  "task": "Navigate to the website and complete the registration form",
  "expected_result": "Registration successful"
}

相关链接