LexBench Job 提交

说明

在 LexBench Server 上跑评测（例如由 Kestra 执行），而不是在本机逐任务执行时使用本文档。

独立 CLI 入口

提交 LexBench Job 使用 bubench submit。它与 bubench run 是两个明确分开的动作：

bubench run：在你的机器上本地执行任务
bubench submit：在 LexBench Server（量道测评）上创建 Job

实现上，bubench 会组装请求体并调用官方 Python SDK（lexbench-sdk）的 LexbenchClient.submit_eval_run()。

何时直接用 SDK

若你在自己的 Python 服务、脚本或 CI 里对接 LexBench，且不需要 bubench 的任务筛选与 agent YAML 映射，可以直接调用 submit_eval_run()；该路径不经过 bubench submit。

前置条件

可访问的 LexBench Server
API Token（建议用 Node CLI）

npm install -g @lexbench/sdk
lexbench login --base-url "https://bench.lexmount.com"

执行过 lexbench login 后，bubench submit 会自动复用 ~/.config/lexbench/credentials.json，这样通常不需要再把服务地址和 token 重复写进 .env。

环境变量

建议在 .env 中配置（模板见仓库根目录 .env.example）。对于 bubench submit，会优先读取当前工作目录 .env，仓库根目录 .env 仅作为 fallback。常用变量：

变量	说明
`LEXBENCH_BASE_URL`	服务地址（若已 `lexbench login` 可不填）
`LEXBENCH_API_TOKEN`	API Token（若已 `lexbench login` 可不填）
`LEXBENCH_EVAL_API_KEY`	评测模型 API Key（普通用户通常需要）
`LEXBENCH_PROJECT_ID`	可选：目标项目
`LEXBENCH_PROJECT_BENCHMARK_ID`	可选：Project Benchmark
`LEXBENCH_UI_LANGUAGE`	可选：界面语言 `zh` / `en`
`LEXBENCH_RESUME_TIMESTAMP`	可选：恢复用时间戳
`LEXBENCH_FORCE_RERUN`	`true` / `false`
`LEXBENCH_DEBUG`	`true` / `false`
`LEXBENCH_BATCH_SEQUENTIAL`	`true` / `false`
`LEXBENCH_CAPTCHA_SOLVER_SERVICE`	可选：验证码服务
`LEXBENCH_CAPTCHA_SOLVER_API_KEY`	可选：验证码 Key

大多数平台配置刻意只走 env / .env，避免用户同时维护命令行和环境变量两份配置。bubench submit 保留的主要一次性 CLI 覆盖项是 --run-name 与 --version。当前平台支持的提交模式为 all、first_n、sample_n。LEXBENCH_EVAL_API_KEY 也会回退到 OPENAI_API_KEY。对于 browser-use，当前平台即使在 --dry-run 下也会校验：

模型 API Key（如 OPENAI_API_KEY）
LEXMOUNT_API_KEY
LEXMOUNT_PROJECT_ID
评估 API Key（LEXBENCH_EVAL_API_KEY，或回退 OPENAI_API_KEY）

示例

量道测评正式环境默认地址：

LexBench 平台：https://bench.lexmount.com
模型网关：https://llmapi.hk.lexmount.net
Lexmount 浏览器 API：https://api.lexmount.com

export LEXBENCH_BASE_URL="https://bench.lexmount.com"
export LEXBENCH_API_TOKEN="<api_token>"
export OPENAI_API_KEY="<model_api_key>"
export LEXBENCH_EVAL_API_KEY="<eval_api_key>"
export LEXMOUNT_API_KEY="<lexmount_api_key>"
export LEXMOUNT_PROJECT_ID="<lexmount_project_id>"
export LEXMOUNT_BASE_URL="https://api.lexmount.com"
export OPENAI_BASE_URL="https://llmapi.hk.lexmount.net"

cp config.example.yaml config.yaml

uv run bubench submit \
  --agent browser-use \
  --benchmark LexBench-Browser \
  --mode sample_n \
  --count 1 \
  --split L1 \
  --dry-run \
  --run-name nightly-smoke

说明

bubench submit 会优先读取当前工作目录的 config.yaml；如果当前目录没有，再回退到仓库根目录 config.yaml。
bubench submit 会把根 config.yaml 以及相关 env 回退映射为服务端识别的配置结构，而不是原样透传。
--dry-run 适合联通与参数检查；服务端仍可能创建 run 并做校验。

开始

功能

示例

开发

说明

独立 CLI 入口

何时直接用 SDK

前置条件

环境变量

示例

说明

开始

功能

示例

开发

​说明

​独立 CLI 入口

​何时直接用 SDK

​前置条件

​环境变量

​示例

​说明

说明

独立 CLI 入口

何时直接用 SDK

前置条件

环境变量

示例

说明