介绍 - browseruse-bench

browseruse-bench 是一个统一的评测框架，用于在多种基准测试上测试 AI 浏览器代理。它提供了标准化的接口来运行和评估不同的代理在各种 Web 交互任务上的表现。

快速开始

5 分钟内完成环境配置

查看所有支持的浏览器代理

探索可用的基准测试

查看代理性能排名

统一接口支持 Agent-TARS、browser-use 等多种代理

LexBench-Browser、Online-Mind2Web、BrowseComp

集成 Lexmount 云浏览器，支持大规模测试

基于 GPT-4 的自动评估，提供详细指标

安装

按照快速开始指南配置环境

运行 Benchmark

使用任意支持的 Agent 执行你的第一个基准测试

评估

使用评估脚本衡量代理性能

对比

在排行榜上查看结果并对比不同代理