跳转到主要内容

说明

在 LexBench Server 上跑评测(例如由 Kestra 执行),而不是在本机逐任务执行时使用本文档。

独立 CLI 入口

提交 LexBench Job 使用 bubench submit。它与 bubench run 是两个明确分开的动作:
  • bubench run:在你的机器上本地执行任务
  • bubench submit:在 LexBench Server(量道测评)上创建 Job
实现上,bubench 会组装请求体并调用官方 Python SDK(lexbench-sdk)的 LexbenchClient.submit_eval_run()

何时直接用 SDK

若你在自己的 Python 服务、脚本或 CI 里对接 LexBench,且不需要 bubench 的任务筛选与 agent YAML 映射,可以直接调用 submit_eval_run();该路径不经过 bubench submit

前置条件

  • 可访问的 LexBench Server
  • API Token(建议用 Node CLI)
npm install -g @lexbench/sdk
lexbench login --base-url "https://bench.lexmount.com"
执行过 lexbench login 后,bubench submit 会自动复用 ~/.config/lexbench/credentials.json,这样通常不需要再把服务地址和 token 重复写进 .env

环境变量

建议在 .env 中配置(模板见仓库根目录 .env.example)。对于 bubench submit,会优先读取当前工作目录 .env,仓库根目录 .env 仅作为 fallback。常用变量:
变量说明
LEXBENCH_BASE_URL服务地址(若已 lexbench login 可不填)
LEXBENCH_API_TOKENAPI Token(若已 lexbench login 可不填)
LEXBENCH_EVAL_API_KEY评测模型 API Key(普通用户通常需要)
LEXBENCH_PROJECT_ID可选:目标项目
LEXBENCH_PROJECT_BENCHMARK_ID可选:Project Benchmark
LEXBENCH_UI_LANGUAGE可选:界面语言 zh / en
LEXBENCH_RESUME_TIMESTAMP可选:恢复用时间戳
LEXBENCH_FORCE_RERUNtrue / false
LEXBENCH_DEBUGtrue / false
LEXBENCH_BATCH_SEQUENTIALtrue / false
LEXBENCH_CAPTCHA_SOLVER_SERVICE可选:验证码服务
LEXBENCH_CAPTCHA_SOLVER_API_KEY可选:验证码 Key
大多数平台配置刻意只走 env / .env,避免用户同时维护命令行和环境变量两份配置。bubench submit 保留的主要一次性 CLI 覆盖项是 --run-name--version。当前平台支持的提交模式为 allfirst_nsample_nLEXBENCH_EVAL_API_KEY 也会回退到 OPENAI_API_KEY 对于 browser-use,当前平台即使在 --dry-run 下也会校验:
  • 模型 API Key(如 OPENAI_API_KEY
  • LEXMOUNT_API_KEY
  • LEXMOUNT_PROJECT_ID
  • 评估 API Key(LEXBENCH_EVAL_API_KEY,或回退 OPENAI_API_KEY

示例

量道测评正式环境默认地址:
  • LexBench 平台:https://bench.lexmount.com
  • 模型网关:https://llmapi.hk.lexmount.net
  • Lexmount 浏览器 API:https://api.lexmount.com
export LEXBENCH_BASE_URL="https://bench.lexmount.com"
export LEXBENCH_API_TOKEN="<api_token>"
export OPENAI_API_KEY="<model_api_key>"
export LEXBENCH_EVAL_API_KEY="<eval_api_key>"
export LEXMOUNT_API_KEY="<lexmount_api_key>"
export LEXMOUNT_PROJECT_ID="<lexmount_project_id>"
export LEXMOUNT_BASE_URL="https://api.lexmount.com"
export OPENAI_BASE_URL="https://llmapi.hk.lexmount.net"

cp config.example.yaml config.yaml

uv run bubench submit \
  --agent browser-use \
  --benchmark LexBench-Browser \
  --mode sample_n \
  --count 1 \
  --split L1 \
  --dry-run \
  --run-name nightly-smoke

说明

  • bubench submit 会优先读取当前工作目录的 config.yaml;如果当前目录没有,再回退到仓库根目录 config.yaml
  • bubench submit 会把根 config.yaml 以及相关 env 回退映射为服务端识别的配置结构,而不是原样透传。
  • --dry-run 适合联通与参数检查;服务端仍可能创建 run 并做校验。