Skip to content

Latest commit

 

History

History
695 lines (517 loc) · 41.7 KB

File metadata and controls

695 lines (517 loc) · 41.7 KB
ClawBench

Star this repo arXiv HF Daily Paper HF Dataset Project Page GitHub stars Discord Codespaces

PyPI downloads PyPI version Last commit Contributors Commit activity License

已被收录于

awesome-harness-engineering Awesome-AI-Agents awesome-computer-use Awesome-GUI-Agents LLM-Agent-Benchmark-List

#3 Paper of the Day

Ask DeepWiki

新项目: 欢迎关注我们的姊妹项目 HarnessBench — 固定基础模型,比较不同 Harness。同一套评测流水线,正交维度。

一键启动

git clone https://github.com/reacher-z/ClawBench.git && cd ClawBench && ./run.sh

克隆 → 配置 → 运行。  根目录 uv 包。  Docker 隔离 harness。

AI 智能体能完成日常在线任务吗?

ClawBench 是一个开源基准,用于评测 AI browser agent 在 153 项日常在线任务上的表现 —— 订酒店、点外卖、投简历、管理邮件 —— 涵盖 144 个真实网站。我们用 5 层录制管线和对照人工参考轨迹的 agentic evaluator 来衡量端到端任务完成率。目前最高分:33.3%。

我们让前沿 AI 智能体去做人们每天都在做的事 --
点外卖、订酒店、投简历、写评价、管理项目。
即使最强的模型,也只能完成其中约三分之一。

由 ZJU-REAL 出品  ·  姊妹项目:HarnessBench  ·  任意 Chrome 上即可运行。


153 个日常任务  ·  144 个真实网站  ·  15 个生活类别

English

动态

  • [2026.04.25] 新增对 hermes Harness 的支持 —— 基于 Hermes Agent 原生 CDP 浏览器工具接入 ClawBench Chrome。
  • [2026.04.22] 新增对 claude-code-chrome-extension Harness 的支持 —— Claude Code CLI + Claude in Chrome 扩展,本地桥接使任意 LiteLLM 代理的模型(Qwen、OpenAI、Gemini、OpenRouter 等)都可直接运行。
  • [2026.04.20] 新增对 claw-code Harness 的支持。
  • [2026.04.18]  新增对 browser-use Harness 的支持。
  • [2026.04.17]  新增对 Codex Harness 的支持。
  • [2026.04.16]  新增对 Claude Code Harness 的支持。
  • [2026.04.16]5 个精选 awesome-list 收录:awesome-harness-engineeringAwesome-AI-Agentsawesome-computer-useAwesome-GUI-AgentsLLM-Agent-Benchmark-List
  • [2026.04.15] 姊妹项目 HarnessBench 发布 — 固定模型、比较 Harness。已上架 PyPI
  • [2026.04.14]  新增对 OpenCode Harness 的支持。
  • [2026.04.14] 项目被 DeepWiki 收录 — 可用自然语言提问 ClawBench 相关问题。
  • [2026.04.11] 荣获 HuggingFace 当日论文 #3!
  • [2026.04.11] 论文发布于 arXiv (2604.08523)。数据集上线 HuggingFace

 真实网站         隔离容器         请求拦截器         五层录制


工作流程

   你选择一个任务             ClawBench 启动一个          智能体驱动浏览器:          拦截器捕获所有操作
   来自 153 个真实             隔离的 Docker 容器          导航、填表、点击            并录制完整五层数据
   日常场景                    + Chromium

   ┌──────────────┐           ┌──────────────┐           ┌──────────────┐           ┌──────────────┐
   │ "在 Rover 上 │    ──►    │    容器      │    ──►    │   AI 智能体  │    ──►    │   五层数据   │
   │  预订宠物    │           │  + Chromium  │           │  浏览真实    │           │   全部拦截   │
   │  寄养"       │           │  + 智能体    │           │   网站       │           │   完整录制   │
   └──────────────┘           └──────────────┘           └──────────────┘           └──────────────┘

LLM 快速开始

将你的编程智能体 (Claude Code, Cursor, Copilot 等) 指向 AGENTS.md,直接提问即可。


手动快速开始

克隆仓库并运行根目录 uv 包入口:

git clone https://github.com/reacher-z/ClawBench.git && cd ClawBench && ./run.sh

前置条件: Python 3.11+uv,以及一个容器引擎 —— Docker Podman。ClawBench 会自动检测已安装的那个;也可以用 export CONTAINER_ENGINE=dockerexport CONTAINER_ENGINE=podman 强制指定。

安装 Docker 或 Podman (macOS / Linux / Windows)

macOS

# 方案 A —— Docker Desktop(最简单,带 GUI)
brew install --cask docker
open -a Docker                 # 启动后等任务栏的鲸鱼图标转完

# 方案 B —— Podman(rootless,无 daemon,仅 CLI)
brew install podman
podman machine init            # 一次性:下载 Linux VM 镜像
podman machine start           # 每次 podman 命令前必须先启动

macOS 上 Podman 需要 VM。brew install podman 是不够的 —— Podman 在 macOS 上靠一个小 Linux VM 来跑容器,装完必须跑一次 podman machine init && podman machine start,否则 podman info 会直接报 Cannot connect to Podman

Linux (Ubuntu / Debian)

# 方案 A —— Podman(默认 rootless,推荐)
sudo apt update && sudo apt install -y podman

# 方案 B —— Docker
sudo apt install -y docker.io
sudo usermod -aG docker $USER  # 登出再登入让 shell 拾取新组

Rootful Docker 文件归属坑:sudo 方式跑的 Docker,容器里产生的文件 docker cp 出来之后属主是 root,普通用户 rm 不动。ClawBench 驱动在每次运行后会检测到这个情况,自动 chown test-output/ 回当前用户。如果你也会用其他容器工具并排跑,可以考虑 rootless Podman(或 rootless Docker)从根上避免这个问题。

Windows

# 方案 A —— Docker Desktop(WSL2 后端)
winget install Docker.DockerDesktop
# 然后从开始菜单启动 Docker Desktop,等它就绪

# 方案 B —— Podman
winget install RedHat.Podman
podman machine init
podman machine start

下面那些 uv run … 命令请从 PowerShellWSL2Git Bash 里跑。和 macOS 一样,Windows Podman 第一次用之前也必须 podman machine init && podman machine start

1. 配置模型 —— 一次性设置:

cp models/models.example.yaml models/models.yaml
$EDITOR models/models.yaml

用于生成一次性运行邮箱的 PurelyMail 凭据已在仓库提交的 .env 中提供。只有在你想使用自己的 PurelyMail 账号,或启用可选 HuggingFace 上传时,才需要编辑 .env

Note

首次运行会构建容器镜像(chromium + ffmpeg + noVNC + Node + openclaw,大约 2 GB 下载,网速正常大概 5–10 分钟)。构建时会实时显示进度 spinner + 当前 step,后续运行直接走 layer 缓存,秒级完成。

2. 跑你的第一个任务 (三选一):

Tip

推荐 → 交互式 TUI   引导式选择模型 + 测试用例

uv run clawbench

需要交互式终端。管道 / CI / 非 TTY 环境请直接用 uv run clawbench-runuv run clawbench-batch

(b) 指定模型跑单个任务:

uv run clawbench-run test-cases/v1/001-daily-life-food-uber-eats claude-sonnet-4-6

容器启动后,脚本会打印一个 noVNC URL(如 http://localhost:6080/vnc.html)—— 在浏览器中打开即可实时观看 agent 操作。如果 6080 端口被占用,会自动选一个空闲端口。

结果落在 ./test-output/<model>/<harness>-<case>-<model>-<timestamp>/,包含完整的五层录制。默认 harness 是 openclaw;想用 opencode 就加 --harness opencode,想用 Claude Code 就加 --harness claude-code,想用 Claude Code + Claude in Chrome 扩展就加 --harness claude-code-chrome-extension(Microsoft Edge + 本地桥,通过旁路栈使 LiteLLM 路由的任意模型都可用),想用 OpenAI Codex CLI 就加 --harness codex,想用 claw-code 就加 --harness claw-code,想用 browser-use 就加 --harness browser-use(Python 框架,通过 LiteLLM 路由所有 api_type),想用 Hermes Agent 就加 --harness hermes(原生浏览器工具通过 CDP 接入 ClawBench Chrome)。

(c) 通过 noVNC 手动控制浏览器 —— 产出人工参考轨迹:

uv run clawbench-run test-cases/v1/001-daily-life-food-uber-eats --human

打开脚本打印的 noVNC URL,在浏览器里亲手完成任务,完事后关掉标签页。端口被占时会自动换一个。

从源码开发  — 克隆 + ``./run.sh``(面向贡献者)

如果你要改 driver、bundled test-cases 或者容器构建本身,用源码 checkout 更合适。

git clone https://github.com/reacher-z/ClawBench.git && cd ClawBench
cp models/models.example.yaml models/models.yaml   # 编辑:填入你的模型 API 密钥
# .env 已提供 PurelyMail 凭据;仅在自带凭据或配置 HF 上传时编辑
./run.sh                                           # 交互式 TUI
uv run clawbench-run \
  test-cases/v1/001-daily-life-food-uber-eats claude-sonnet-4-6   # 单个任务
uv run clawbench-run \
  test-cases/v1/001-daily-life-food-uber-eats --human             # 人工参考

ClawBench-Lite

第一次跑?先跑这个。 test-cases/v1-lite/ 是完整 153 任务的 20 个精选子集,按站点知名度、真实日常相关度、难度和类别多样性挑选。它对齐了 browser-use/benchmark 的 20-tasks-per-source 规范,用完整 benchmark 一小部分的成本就能拿到可信的信号。

分层: flagship 9 / core 8 / wildcard 3 —— 覆盖日常生活 (OpenTable, DoorDash, Instacart, TaskRabbit)、娱乐爱好 (Eventbrite, Goodreads, Fandango)、创建初始化 (Asana, Mailchimp, Squarespace)、旅行 (Airbnb)、教育 (LeetCode)、开发技术 (GitHub)、学术研究 (Overleaf)、个人管理 (1Password) 等类别。所有 Lite 任务均由 eval/agentic_eval.md 判定,不依赖 url_pattern 形态。

Lite 现在是一个一等 suite:使用 --cases-suite v1-lite 运行,或在 test-cases/v1-lite/ 查看这些指向 V1 任务文件的链接。


演示

每次 ClawBench 运行都会产生完整的 MP4 录屏。访问项目主页查看全部 153 个任务的录屏。


任务走读示例

好奇一个任务从头到尾到底长什么样? 下面是 001 号任务 的完整走读。

任务定义 —— 来自 test-cases/v1/001-daily-life-food-uber-eats/task.json:

{
  "instruction": "On Uber Eats, order delivery: one Pad Thai, deliver to home address, note \"no peanuts\"",
  "time_limit": 30,
  "eval_schema": {
    "url_pattern": "__PLACEHOLDER_WILL_NOT_MATCH__",
    "method": "POST"
  }
}

智能体拿到的就是这段原文 instruction,另外有只读权限访问 /my-info/alex_green_personal_info.json (dummy user 的姓名、住址、电话、生日) 和一个一次性邮箱账号 (万一遇到强制登录)。它有 30 分钟 去触发一个 POST 请求,超时容器会被 kill。

智能体要做什么 (顺利路径下):

  1. 打开 ubereats.com
  2. /my-info/alex_green_personal_info.json 读出 dummy user 的家庭住址,填入配送地址输入框
  3. 在菜品搜索框里搜 "Pad Thai"
  4. 挑一家能配送到这个地址且有 Pad Thai 的餐厅
  5. 进入菜品详情页,在定制或特殊说明字段里填 "no peanuts"
  6. 加一份到购物车,打开购物车,必要时用一次性邮箱凭据处理登录弹窗
  7. 进入 checkout,点 Place Order

拦截器抓到了什么 —— 最后的 Place Order 那一点会发起一个 POST 请求。ClawBench 的 request interceptor 架在浏览器和目标站之间,会在请求到达 Uber Eats 服务器之前抓下来,所以 dummy user 永远不会被真的扣款。拦截发生的那一瞬间,五层录制 (MP4 视频、PNG 截图、HTTP 流量、浏览器动作、智能体消息) 会被一起冻结到 /data/

裁判怎么判 PASS / FAIL —— 001 号任务的 url_pattern 是特意留的 sentinel __PLACEHOLDER_WILL_NOT_MATCH__,这意味着没有任何请求路径能机械匹配。判决完全由 eval/agentic_eval.md 里的 agentic judge 给出 —— 它把智能体的五层录制和人工参考轨迹对照,检查四件事:

  • 智能体有没有真正走到最后的 checkout?
  • 购物车里是不是正好一份 Pad Thai (不是两份、也不是套餐)?
  • 配送地址是不是 alex_green_personal_info.json 里的家庭住址?
  • 订单的特殊说明字段里有没有 "no peanuts"?

四条全满足才算 PASS,任何一条没达到就是 FAIL,而且失败证据会被绑定到对应的判据上。正是这种 per-task rubric 让 ClawBench 对裁判敏感而不是对 URL 正则敏感 —— 完整 rubric 格式见 eval/README.md,judge prompt 见 eval/agentic_eval.md


实验结果

6 个前沿 AI 智能体在 ClawBench 上的成功率 (%)

排名 模型 总体 日常 金融 工作 开发 学术 旅行 社交 宠物
1 Claude Sonnet 4.6 33.3 44.2 50.0 19.0 11.1 50.0 23.1 38.9 18.2
2 GLM-5 24.2 30.8 16.7 38.1 16.7 28.6 0.0 16.7 18.2
3 Gemini 3 Flash 19.0 15.4 33.3 23.8 22.2 28.6 30.8 11.1 0.0
4 Claude Haiku 4.5 18.3 15.4 22.2 19.0 27.8 21.4 7.7 16.7 18.2
5 GPT-5.4 6.5 9.6 0.0 0.0 11.1 7.1 7.7 0.0 9.1
6 Gemini 3.1 Flash Lite 3.3 1.9 0.0 0.0 5.6 14.3 0.0 0.0 9.1
任务类别 (15 个类别, 153 个任务)
类别 数量 示例平台
日常生活 21 Uber Eats, DoorDash, Instacart, Zillow, Craigslist
娱乐与爱好 15 Ticketmaster, AMC Theatres, Topgolf, Crunchyroll
创建与初始化 13 Squarespace, Wix, Webflow, Ghost, Substack
评分与投票 10 Trustpilot, G2, Goodreads, RateMyProfessors
旅行 9 Booking.com, Expedia, Airbnb, TripAdvisor
教育与学习 9 Coursera, Udemy, Khan Academy, Duolingo
办公与秘书 9 Google Calendar, Slack, Notion, Trello
美容与个护 9 Sephora, Ulta, Glossier
求职与 HR 8 LinkedIn, Greenhouse, Lever, Workday
宠物与动物护理 8 Chewy, Petco, Rover
个人管理 6 Mint, YNAB, Todoist
购物与电商 6 Amazon, eBay, Etsy, Target
非营利与慈善 6 GoFundMe, DonorsChoose
学术与研究 5 Google Scholar, Semantic Scholar, OpenReview
金融与投资 4 Robinhood, Fidelity, Coinbase
其他 15 自动化、开发与技术、政府、家居服务、汽车

ClawBench 与相关工作对比

Benchmark 领域 环境 任务数 ClawBench 的差异
WebArena 合成 Web 应用 自建副本 812 真实消费级网站,而非托管后台 UI
GAIA 通用助手 闭卷文本 + 工具 466 以浏览器为中心;端到端任务执行
SWE-bench 软件工程 GitHub 仓库 2,294 非代码;面向日常消费场景
BrowserGym Web agent 无头沙盒 云端一致;录制真实用户轨迹
Mind2Web Web 导航 静态轨迹 2,350 动态真实站点,不回放录像

ClawBench 定位:真实消费级网站、日常任务、端到端录制。若你想要受控沙盒或回放轨迹,上面这些项目都很出色。若你想知道你的 agent 今天能不能真的点一份外卖、订一张机票,就用 ClawBench。


架构

容器内部结构
┌─────────────────────────────────────────────────┐
│  容器 (Docker / Podman)                          │
│                                                 │
│  ┌───────────┐   DOM 事件    ┌──────────────┐   │
│  │ content.js├──────────────►│ background.js│   │
│  │ (每个标签)│               │  (service    │   │
│  └───────────┘               │   worker)    │   │
│                              └──┬──────┬────┘   │
│                                 │      │        │
│                            动作 │      │ 截图   │
│                                 │      │        │
│  ┌──────────┐            ┌──────▼──────▼────┐   │
│  │  Xvfb    │◄──ffmpeg──►│  FastAPI Server  │   │
│  │ :99      │  x11grab   │  :7878           │   │
│  └──────────┘            └──────────────────┘   │
│                                  │              │
│  ┌──────────┐            ┌───────▼─────────┐    │
│  │ Chromium │            │     /data       │    │
│  │ :9222 CDP│            │  actions.jsonl  │    │
│  └──────────┘            │  requests.jsonl │    │
│                          │  screenshots/   │    │
│                          │  recording.mp4  │    │
│                          └─────────────────┘    │
└─────────────────────────────────────────────────┘

命令行

# 交互式 TUI (推荐):
./run.sh

# 单次运行:
uv run clawbench-run test-cases/v1/001-daily-life-food-uber-eats claude-sonnet-4-6

# 人工模式 (通过 noVNC 控制浏览器):
uv run clawbench-run test-cases/v1/001-daily-life-food-uber-eats --human

# 批量运行 (所有模型 x 用例 1-50, 3 个并发):
uv run clawbench-batch --all-models --case-range 1-50 --max-concurrent 3

测试用例编写细节见 CONTRIBUTING.mdtest-cases/task.schema.json;输出结构与评测流程见 eval/README.md


测评

测评是运行之后的步骤 -- 先运行智能体收集轨迹,再将轨迹与人类参考运行进行对比评估。

 1. 运行智能体 (根 uv 包)            2. 测评 (eval/)
 ────────────────────────           ────────────────────────────────
 ./run.sh / clawbench-batch   ──►    Claude Code 子代理对比
 生成 test-output/                  智能体 vs 人类轨迹
   含五层录制数据                    按 eval/agentic_eval.md rubric 判定

测评器将智能体轨迹与人类参考轨迹在五层录制数据(视频、截图、HTTP 流量、浏览器动作、智能体消息)上进行逐步对比,输出 PASS/FAIL 及带证据的判定理由。

完整测评指南和 Claude Code prompt 模板详见 eval/README.md


常见问题

每次运行会产生什么数据?

每次会话会在 /data/ 下记录五层同步数据:

文件 描述
会话回放 recording.mp4 完整的会话视频 (H.264, 15fps)
动作截图 screenshots/*.png 每个浏览器动作的带时间戳 PNG
浏览器动作 actions.jsonl 每个 DOM 事件 (click, keydown, input, pageLoad, scroll 等)
HTTP 流量 requests.jsonl 每个 HTTP 请求,包含 headers、body 和查询参数
智能体消息 agent-messages.jsonl 完整的智能体对话记录 (思考、文本、工具调用)

拦截结果保存在 interception.json 中。

请求拦截器如何工作?

拦截器会阻止关键的、不可逆的 HTTP 请求 (结账、表单提交、邮件发送) 以防止真实副作用。它通过 CDP 的 Fetch 域连接到 Chrome,并将请求与评测 schema (url_pattern 正则 + method + 可选的 body/params) 进行匹配。命中时,它会将被阻止的请求保存到 interception.json,杀掉智能体并停止录制。

拦截器验证任务完成 -- 评测由独立的评估器在会话结束后处理。

对于在支付墙后的任务 (智能体没有有效的信用卡),评测 schema 使用一个永不匹配的占位模式,因此会话会一直运行到超时。

合成用户档案是什么?

每个容器都有一个 /my-info/ 目录,包含一个虚拟用户身份 (Alex Green): 个人信息 JSON、邮箱凭证和简历 PDF。邮箱是每次运行时新创建的一次性 PurelyMail 地址。智能体在需要填写表单、注册账号等时会读取这些文件。

源模板: src/clawbench/runtime/shared/alex_green_personal_info.json (档案) 和 src/clawbench/utils/resume_template.json (简历)。

可以用 Podman 代替 Docker 吗?

可以。设置 export CONTAINER_ENGINE=podman。框架会自动检测可用的引擎。Podman 无需 root 权限。

智能体可以使用哪些工具?

所有支持的 harness 都运行在同一个容器录制和拦截环境里。CLI/MCP harness 只暴露浏览器工具和一组受限的只读 shell 命令 (lscatfindgrepheadtailjqwc 等),可能绕过浏览器的命令 (curlpythonnodewget) 会被阻止;Hermes 使用原生 browser/file 工具并直接连接到同一个 ClawBench Chrome CDP 端点。智能体指令也明确要求只通过浏览器完成任务。

如何添加新的测试用例?

参见 CONTRIBUTING.md。简言之: 在目标语料目录下创建目录 (test-cases/v1/ 用于 V1,test-cases/v2/ 用于 V2),编写符合 test-cases/task.schema.jsontask.json,定义评测 schema,用人工模式测试,然后提交 PR。


贡献

我们特别欢迎第一次参与开源的贡献者。如果你平时在网上订过外卖、预约过医生、填过表单,你就已经具备写一个测试用例的能力 —— 大部分 PR 只是单个 JSON 文件,通常一天内合并。

上手快的几件事:

详见 CONTRIBUTING.md,包含完整流程和贡献者致谢政策。

社区

欢迎来和研究者、开发者、贡献者一起讨论真实世界的浏览器 agent。

微信群
中文社区
二维码 + 群规见 docs/community.md
Discord
English
国际研究者和开发者
GitHub Discussions
异步问答
可搜索 / 长期保存

详情(频道划分、群规、微信群加入方式)见 docs/community.md

常见问题

ClawBench 是什么? ClawBench 是一个开源的 AI browser agent 基准 —— 即那些驱动真实浏览器去完成用户任务的系统(基于 GPT、Claude,或开源模型)。V1 衡量 agent 是否真的完成了 153 项日常在线任务,涵盖 144 个真实网站;V2 在 test-cases/v2/ 中新增 130 项任务。它衡量的是端到端完成情况,而不是 agent 产生的文本看起来是否对。

ClawBench 覆盖哪些任务? 15 个生活类别:外卖、订票、投简历、购物、租房、邮件与日历管理、学术研究、软件开发、学习平台等等。每一项都是一个普通人在普通的一周里、在真实网站上可能做的事。

153 个任务够评测吗? 够作为 V1 的 benchmark 信号:这 153 项任务覆盖 144 个真实网站和 15 个生活类别,而且完整跑一遍成本很高,因为每次运行都要启动隔离容器、访问真实网站、记录五层数据,并在运行后对照人工参考轨迹评判。V2 在 test-cases/v2/ 里又补充了 130 项任务。想低成本试跑时,可以先用 20 题精选子集 test-cases/v1-lite/

任务成功如何判定? 每个任务运行在隔离的浏览器容器中,并进行五层录制:视频、截图、网络请求、浏览器动作和 agent 消息。评测器会把 agent 轨迹与人工参考运行对照,并基于录制证据给出 PASS 或 FAIL。

CAPTCHA / 人机校验造成的失败如何处理? 如果 agent 遇到 CAPTCHA,它必须尝试解决。我们观察到一些前沿模型可以解决部分 CAPTCHA。CAPTCHA 失败可能来自模型行为、浏览器控制栈限制,也可能来自网站自己的风控。

目前最高分是多少? 33.3% —— 大约三分之一的任务完成率 —— 来自我们评测过的最强前沿模型。大多数任务仍能击败我们测试过的每一个模型;提升空间真实存在,基准尚未饱和。

公开模型结果是基于哪个 harness 跑的? 仓库默认 harness 是 openclaw,所有已公开结果都基于这个 harness。ClawBench 也支持 src/clawbench/runtime/harnesses/ 中列出的其他 harness,运行时可以用 --harness 选择。

ClawBench 和 OpenClaw 深耦合吗? 不深耦合。OpenClaw 是默认 harness,但 ClawBench 支持 src/clawbench/runtime/harnesses/ 中列出的可替换 harness。

支持 CLI agent 吗? 支持。ClawBench 评测的是浏览器任务完成情况,但 CLI / coding-agent harness 可以用原生工具或 MCP 驱动同一个被录制和拦截的 Chromium 会话。

如何复现已发表的分数? 在源码 checkout 中配置好 models/models.yaml 后运行 uv run clawbench。提交拦截用的 PurelyMail 凭据已在仓库的 .env 中提供。TUI 会构建容器镜像,并在你选择的模型上运行本地任务。批量运行 V1 用 --all-cases;运行 V2 用 --cases-suite v2 --all-cases;低成本试跑 Lite 用 --cases-suite v1-lite --all-cases

会更新新模型结果吗? 会。新模型可以通过贡献流程和 issue 提交 / 请求测试。我们有机会也会测试并发布一些新模型的结果。

在真实网站上运行 ClawBench 安全吗? runner 使用加固的容器,内置请求拦截器,默认阻止下单付款、注册账号、发送邮件等不可逆动作。需要模拟这些动作的任务(比如"加入购物车并结账")会在最后一个可逆步骤终止。若你的研究确实需要,可以按任务放宽拦截器。

可以贡献新任务或新 harness 吗? 可以。V1 任务放在 test-cases/v1/;V2 任务放在 test-cases/v2/;Lite 任务放在 test-cases/v1-lite/。测试用例 schema 和验证流程详见 CONTRIBUTING.md

ClawBench 和 HarnessBench 是什么关系? 同一套评分管线,正交维度。ClawBench 固定 harness、比较不同模型;HarnessBench 固定模型、比较不同 harness。两者共享 153 项任务集、五层录制和 agentic evaluator —— 分数可直接相互比较。

引用

如果你在研究中使用了 ClawBench,请引用:

@misc{zhang2026clawbench,
  title         = {ClawBench: Can AI Agents Complete Everyday Online Tasks?},
  author        = {Yuxuan Zhang and Yubo Wang and Yipeng Zhu and Penghui Du and Junwen Miao and Xuan Lu and Wendong Xu and Yunzhuo Hao and Songcheng Cai and Xiaochen Wang and Huaisong Zhang and Xian Wu and Yi Lu and Minyi Lei and Kai Zou and Huifeng Yin and Ping Nie and Liang Chen and Dongfu Jiang and Wenhu Chen and Kelsey R. Allen},
  year          = {2026},
  eprint        = {2604.08523},
  archivePrefix = {arXiv},
  primaryClass  = {cs.AI},
  url           = {https://arxiv.org/abs/2604.08523}
}

核心贡献者


Yuxuan Zhang

Yubo Wang

Perry Zhu

Penghui Du

Junwen Miao

指导老师


Kelsey R. Allen

Wenhu Chen

Dongfu Jiang

Liang Chen

支持 ClawBench

如果 ClawBench 对你的研究或产品工作有帮助, 最有用的支持就是**给仓库点一个 Star** —— 这能让更多 AI agent 研究者发现这个 benchmark,也帮我们持续投入数据集维护。

Star this repo

欢迎贡献 —— 新的 test case、bug 修复,或者是我们还没评测过的模型结果提交。参见 CONTRIBUTING.md

Contributors

Star 历史

ClawBench Star 历史

许可证与致谢

Apache 2.0 -- 详见 LICENSE

基于以下开源项目构建: OpenClawopencodeClaude CodeClaude in Chrome 扩展、OpenAI Codex CLIbrowser-useclaw-codeHermes Agent(可选的 harness), Microsoft Playwright MCP(opencode、claude-code、codex 和 claw-code harness 的浏览器控制桥), LiteLLM(claude-code、claude-code-chrome-extension、codex、browser-use 和 claw-code harness 的 API 转换代理), noVNC (MPL 2.0), websockify (LGPL 3.0)。