Online-Mind2Web 评估指南
uv run scripts/eval.py \ --agent <agent_name> \ --benchmark Online-Mind2Web \ [其他参数]
uv run scripts/eval.py \ --agent browser-use \ --benchmark Online-Mind2Web
# 评估 Hard30 子集 uv run scripts/eval.py \ --agent browser-use \ --benchmark Online-Mind2Web \ --version 20251214 \ --split Hard30
uv run scripts/eval.py \ --agent browser-use \ --benchmark Online-Mind2Web \ --force-reeval
experiments/Online-Mind2Web/<Agent>/<Timestamp>/tasks_eval_result/