评估命令
评估策略
stepwise(逐步评估)
使用所有截图逐步评估,能发现中间步骤的问题:final(最终结果评估)
仅评估最终结果截图,效率更高:评分阈值
LexBench-Browser 使用 0-100 分制评分:评估数据子集
评估结果
结果保存在experiments/LexBench-Browser/<Agent>/<Timestamp>/tasks_eval_result/ 目录下。
每个任务的评估结果包含:
predicted_label:1 = 成功,0 = 失败score:0-100 分grader_response:评估模型的详细回复failure_category:失败类别(如适用)