Online-Mind2Web

本页展示如何评估 Online-Mind2Web 的运行结果。

评估命令

uv run scripts/eval.py \
  --agent <agent_name> \
  --benchmark Online-Mind2Web \
  [其他参数]

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark Online-Mind2Web

# 评估 Hard30 子集
uv run scripts/eval.py \
  --agent browser-use \
  --benchmark Online-Mind2Web \
  --version 20251214 \
  --split Hard30

uv run scripts/eval.py \
  --agent browser-use \
  --benchmark Online-Mind2Web \
  --force-reeval

结果保存在 experiments/Online-Mind2Web/<Agent>/<Timestamp>/tasks_eval_result/ 目录下。