Online-Mind2Web

Online-Mind2Web is a benchmark for evaluating web interaction tasks on real websites.

Overview

Attribute	Value
Source	Mind2Web dataset
Task Type	Web navigation and interaction
Websites	Real-world websites

Quick Start

# Run tasks
uv run scripts/run.py --agent Agent-TARS --benchmark Online-Mind2Web --mode first_n --count 3

# Evaluate results
uv run scripts/eval.py --agent Agent-TARS --benchmark Online-Mind2Web

Evaluation

Uses WebJudge for evaluation with semantic matching of agent actions.

Get Started

Features

Examples

Development

Online mind2web

Online-Mind2Web

Overview

Quick Start

Evaluation

Get Started

Features

Examples

Development

​Online-Mind2Web

​Overview

​Quick Start

​Evaluation

Online-Mind2Web

Overview

Quick Start

Evaluation