Benchmarks 概览 - browseruse-bench

browseruse-bench 集成了多个主流的浏览器评测基准，覆盖不同类型的 Web 交互任务。

已支持的 Benchmarks

LexBench-Browser

推荐 - 真实场景驱动的浏览器 Agent 评测基准，包含 210 个任务，覆盖 107 个中英文网站，无需登录。

Online-Mind2Web

基于 Mind2Web 数据集的在线评测，测试 Agent 在真实网站上的导航和交互能力。

BrowseComp

浏览器操作竞赛任务，评估 Agent 的综合浏览器操作能力。

功能对比

Benchmark	任务数	语言	评估方式	需要登录
LexBench-Browser	210	zh/en	LLM 视觉评估	否
Online-Mind2Web	300	英文	WebJudge	否
BrowseComp	1266	英文	Grader	否

快速对比运行

# LexBench-Browser（推荐，无需登录）
bubench run --agent browser-use --data LexBench-Browser --mode first_n --count 5

# Online-Mind2Web
bubench run --agent browser-use --data Online-Mind2Web --mode first_n --count 5

# BrowseComp
bubench run --agent browser-use --data BrowseComp --mode first_n --count 5

数据位置

所有 Benchmark 数据存放在 benchmarks/ 目录中：

Benchmark	数据文件路径
LexBench-Browser	`benchmarks/LexBench-Browser/data/`
Online-Mind2Web	`benchmarks/Online-Mind2Web/data/`
BrowseComp	`benchmarks/BrowseComp/data/`

关于数据加载配置的更多详情（包括 HuggingFace 支持和私有数据集），请参考数据加载指南。

计划支持

更多 Benchmark

如果你希望添加新的 Benchmark，请参考自定义 Benchmark 指南。

自定义 Agent 数据加载

​已支持的 Benchmarks

LexBench-Browser

Online-Mind2Web

BrowseComp

​功能对比

​快速对比运行

​数据位置

​计划支持

已支持的 Benchmarks

功能对比

快速对比运行

数据位置

计划支持