跳转到主要内容
本页展示如何评估 LexBench-Browser 的运行结果。

评估命令

uv run scripts/eval.py \
  --agent <agent_name> \
  --benchmark LexBench-Browser \
  [其他参数]

评估策略

stepwise(逐步评估)

使用所有截图逐步评估,能发现中间步骤的问题:
uv run scripts/eval.py \
  --agent browser-use \
  --benchmark LexBench-Browser \
  --eval_strategy stepwise

final(最终结果评估)

仅评估最终结果截图,效率更高:
uv run scripts/eval.py \
  --agent browser-use \
  --benchmark LexBench-Browser \
  --eval_strategy final

评分阈值

LexBench-Browser 使用 0-100 分制评分:
# 默认阈值 60 分
uv run scripts/eval.py --agent browser-use --benchmark LexBench-Browser

# 使用 70 分阈值(更严格)
uv run scripts/eval.py --agent browser-use --benchmark LexBench-Browser --score-threshold 70

评估数据子集

# 评估无需登录子集
uv run scripts/eval.py \
  --agent browser-use \
  --benchmark LexBench-Browser \
  --split no_login

评估结果

结果保存在 experiments/LexBench-Browser/<Agent>/<Timestamp>/tasks_eval_result/ 目录下。 每个任务的评估结果包含:
  • predicted_label:1 = 成功,0 = 失败
  • score:0-100 分
  • grader_response:评估模型的详细回复
  • failure_category:失败类别(如适用)