LexBench-Browser

本页展示如何评估 LexBench-Browser 的运行结果。

评估命令

uv run scripts/eval.py \
  --agent <agent_name> \
  --benchmark LexBench-Browser \
  [其他参数]

评估策略

stepwise（逐步评估）

使用所有截图逐步评估，能发现中间步骤的问题：

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark LexBench-Browser \
  --eval_strategy stepwise

final（最终结果评估）

仅评估最终结果截图，效率更高：

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark LexBench-Browser \
  --eval_strategy final

评分阈值

LexBench-Browser 使用 0-100 分制评分：

# 默认阈值 60 分
uv run scripts/eval.py --agent browser-use --benchmark LexBench-Browser

# 使用 70 分阈值（更严格）
uv run scripts/eval.py --agent browser-use --benchmark LexBench-Browser --score-threshold 70

评估数据子集

# 评估无需登录子集
uv run scripts/eval.py \
  --agent browser-use \
  --benchmark LexBench-Browser \
  --split no_login

评估结果

结果保存在 experiments/LexBench-Browser/<Agent>/<Timestamp>/tasks_eval_result/ 目录下。每个任务的评估结果包含：

predicted_label：1 = 成功，0 = 失败
score：0-100 分
grader_response：评估模型的详细回复
failure_category：失败类别（如适用）

开始

功能

示例

开发

评估命令

评估策略

stepwise（逐步评估）

final（最终结果评估）

评分阈值

评估数据子集

评估结果

开始

功能

示例

开发

​评估命令

​评估策略

​stepwise（逐步评估）

​final（最终结果评估）

​评分阈值

​评估数据子集

​评估结果

评估命令

评估策略

stepwise（逐步评估）

final（最终结果评估）

评分阈值

评估数据子集

评估结果