跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.bubench.lexmount.io/llms.txt

Use this file to discover all available pages before exploring further.

browseruse-bench 集成了多个主流的浏览器评测基准,覆盖不同类型的 Web 交互任务。

已支持的 Benchmarks

LexBench-Browser

推荐 - 真实场景驱动的浏览器 Agent 评测基准,包含 210 个任务,覆盖 107 个中英文网站,无需登录。

Online-Mind2Web

基于 Mind2Web 数据集的在线评测,测试 Agent 在真实网站上的导航和交互能力。

BrowseComp

浏览器操作竞赛任务,评估 Agent 的综合浏览器操作能力。

功能对比

Benchmark任务数语言评估方式需要登录
LexBench-Browser210zh/enLLM 视觉评估
Online-Mind2Web300英文WebJudge
BrowseComp1266英文Grader

快速对比运行

# LexBench-Browser(推荐,无需登录)
bubench run --agent browser-use --data LexBench-Browser --mode first_n --count 5

# Online-Mind2Web
bubench run --agent browser-use --data Online-Mind2Web --mode first_n --count 5

# BrowseComp
bubench run --agent browser-use --data BrowseComp --mode first_n --count 5

数据位置

所有 Benchmark 数据存放在 benchmarks/ 目录中:
Benchmark数据文件路径
LexBench-Browserbenchmarks/LexBench-Browser/data/
Online-Mind2Webbenchmarks/Online-Mind2Web/data/
BrowseCompbenchmarks/BrowseComp/data/
关于数据加载配置的更多详情(包括 HuggingFace 支持和私有数据集),请参考 数据加载 指南。

计划支持

  • 更多 Benchmark
如果你希望添加新的 Benchmark,请参考自定义 Benchmark 指南。