跳转到主要内容
browseruse-bench home page
简体中文
搜索...
⌘K
GitHub
搜索...
Navigation
开始
介绍
指南
API Reference
开始
介绍
快速开始
功能
Agents
Benchmarks
Browser
排行榜
示例
运行
评估
自定义 Benchmark
开发
贡献指南
获取帮助
在此页面
核心特性
下一步
开始
介绍
复制页面
AI 浏览器代理的标准化一站式评测框架
复制页面
browseruse-bench
是一个统一的评测框架,用于在多种基准测试上测试 AI 浏览器代理。它提供了标准化的接口来运行和评估不同的代理在各种 Web 交互任务上的表现。
快速开始
5 分钟内完成环境配置
支持的 Agents
查看所有支持的浏览器代理
Benchmarks
探索可用的基准测试
排行榜
查看代理性能排名
核心特性
多 Agent 支持
统一接口支持 Agent-TARS、browser-use 等多种代理
多 Benchmark
LexBench-Browser、Online-Mind2Web、BrowseComp
云浏览器
集成 Lexmount 云浏览器,支持大规模测试
自动评估
基于 GPT-4 的自动评估,提供详细指标
下一步
1
安装
按照
快速开始
指南配置环境
2
运行 Benchmark
使用任意支持的 Agent 执行你的第一个基准测试
3
评估
使用评估脚本衡量代理性能
4
对比
在排行榜上查看结果并对比不同代理
快速开始
⌘I