跳转到主要内容
本页展示如何评估 Online-Mind2Web 的运行结果。

评估命令

uv run scripts/eval.py \
  --agent <agent_name> \
  --benchmark Online-Mind2Web \
  [其他参数]

基本评估

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark Online-Mind2Web

评估数据子集

# 评估 Hard30 子集
uv run scripts/eval.py \
  --agent browser-use \
  --benchmark Online-Mind2Web \
  --version 20251214 \
  --split Hard30

强制重新评估

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark Online-Mind2Web \
  --force-reeval

评估结果

结果保存在 experiments/Online-Mind2Web/<Agent>/<Timestamp>/tasks_eval_result/ 目录下。