说明
在 LexBench Server 上跑评测(例如由 Kestra 执行),而不是在本机逐任务执行时使用本文档。独立 CLI 入口
提交 LexBench Job 使用bubench submit。它与 bubench run 是两个明确分开的动作:
bubench run:在你的机器上本地执行任务bubench submit:在 LexBench Server(量道测评)上创建 Job
bubench 会组装请求体并调用官方 Python SDK(lexbench-sdk)的 LexbenchClient.submit_eval_run()。
何时直接用 SDK
若你在自己的 Python 服务、脚本或 CI 里对接 LexBench,且不需要bubench 的任务筛选与 agent YAML 映射,可以直接调用 submit_eval_run();该路径不经过 bubench submit。
前置条件
- 可访问的 LexBench Server
- API Token(建议用 Node CLI)
lexbench login 后,bubench submit 会自动复用
~/.config/lexbench/credentials.json,这样通常不需要再把服务地址和 token 重复写进 .env。
环境变量
建议在.env 中配置(模板见仓库根目录 .env.example)。对于 bubench submit,会优先读取当前工作目录 .env,仓库根目录 .env 仅作为 fallback。常用变量:
| 变量 | 说明 |
|---|---|
LEXBENCH_BASE_URL | 服务地址(若已 lexbench login 可不填) |
LEXBENCH_API_TOKEN | API Token(若已 lexbench login 可不填) |
LEXBENCH_EVAL_API_KEY | 评测模型 API Key(普通用户通常需要) |
LEXBENCH_PROJECT_ID | 可选:目标项目 |
LEXBENCH_PROJECT_BENCHMARK_ID | 可选:Project Benchmark |
LEXBENCH_UI_LANGUAGE | 可选:界面语言 zh / en |
LEXBENCH_RESUME_TIMESTAMP | 可选:恢复用时间戳 |
LEXBENCH_FORCE_RERUN | true / false |
LEXBENCH_DEBUG | true / false |
LEXBENCH_BATCH_SEQUENTIAL | true / false |
LEXBENCH_CAPTCHA_SOLVER_SERVICE | 可选:验证码服务 |
LEXBENCH_CAPTCHA_SOLVER_API_KEY | 可选:验证码 Key |
.env,避免用户同时维护命令行和环境变量两份配置。bubench submit 保留的主要一次性 CLI 覆盖项是 --run-name 与 --version。当前平台支持的提交模式为 all、first_n、sample_n。LEXBENCH_EVAL_API_KEY 也会回退到 OPENAI_API_KEY。
对于 browser-use,当前平台即使在 --dry-run 下也会校验:
- 模型 API Key(如
OPENAI_API_KEY) LEXMOUNT_API_KEYLEXMOUNT_PROJECT_ID- 评估 API Key(
LEXBENCH_EVAL_API_KEY,或回退OPENAI_API_KEY)
示例
量道测评正式环境默认地址:- LexBench 平台:
https://bench.lexmount.com - 模型网关:
https://llmapi.hk.lexmount.net - Lexmount 浏览器 API:
https://api.lexmount.com
说明
bubench submit会优先读取当前工作目录的config.yaml;如果当前目录没有,再回退到仓库根目录config.yaml。bubench submit会把根config.yaml以及相关 env 回退映射为服务端识别的配置结构,而不是原样透传。--dry-run适合联通与参数检查;服务端仍可能创建 run 并做校验。