前置要求
- Python 3.11+
- Node.js 18+(Agent-TARS 需要)
- uv(推荐的 Python 包管理器)
安装
1
克隆仓库
2
安装依赖 (Python≥3.11)
3
配置 API Keys
4
安装 Agent-TARS(可选)
5
配置 Agent
快速运行
运行你的第一个 Benchmark
评估结果
日志: 脚本执行日志保存在output/logs/目录下。
run.py:output/logs/run/eval.py:output/logs/eval/generate_leaderboard.py:output/logs/leaderboard/
生成排行榜
运行模式
| 模式 | 说明 | 示例 |
|---|---|---|
first_n | 运行前 N 个任务 | --mode first_n --count 5 |
sample_n | 随机抽样 N 个任务 | --mode sample_n --count 10 |
specific | 运行指定 ID 的任务 | --mode specific --task-ids id1,id2 |
all | 运行所有任务 | --mode all |
single | 运行单个任务 | --mode single --task-ids id1 |