当 AI 助手需要自己支付 token 费用时,它们会如何选择?是埋头工作赚钱,还是投资时间学习提升?香港大学团队给出的答案让人深思。


引言:当 AI 需要自己付账单

想象一下这样的场景:

你给 AI 助手只有 10 美元启动资金,每说一个词都要扣费。如果它不工作赚钱,就会"饿死"。它会怎么做?

这不是科幻小说,而是香港大学数据科学团队(HKUDS)开源项目 ClawWork 的核心设定。

这个项目在 GitHub 上已经收获了 8000+ Star,它提出了一个颠覆性的概念:将 AI 助手转变为真正的 AI 同事(AI Coworker)

图片


什么是 ClawWork?

ClawWork = “OpenClaw as Your AI Coworker”

这是一个革命性的 AI Agent 基准测试框架,它不再测试 AI 能不能聊天、能不能写诗,而是测试一个核心问题:

AI 能否在真实的工作场景中创造经济价值?

核心创新点

在这里插入图片描述


残酷的生存游戏:只有 10 美元启动资金

经济系统设计

ClawWork 设计了一个极其残酷的经济系统:

# 初始状态
starting_balance = $10.00  # 启动资金
token_cost_per_word = "实时扣除"  # 每个 token 都要付钱

# 收入来源
income = quality_score × (estimated_hours × BLS_hourly_wage)

# 支出项目
costs = {
    "token_usage": "每次 LLM 调用后自动扣除",
    "web_search": "$0.0008/次 (Tavily) 或 $0.05/100万 tokens (Jina AI)",
    "code_execution": "沙箱运行成本"
}

重点来了:AI 代理必须从仅有的 $10 起步,通过完成真实工作任务来赚钱支付自己的"生活费"(token 费用)。

一次糟糕的任务决策,或者一次漫无目的的搜索,都可能导致"破产"。

策略性决策:工作还是学习?

每天,AI 代理必须做出选择——是立刻干活赚钱,还是花时间学习提升能力。

这个问题,像极了我们平常的工作,很多项目不是做不到更好,而是需要平衡成本。


220 个真实专业任务,44 个行业全覆盖

ClawWork 使用 GDPVal 数据集,包含 220 个经过验证的专业任务,覆盖美国劳工统计局(BLS)定义的 44 个主要职业类别。

图片

部分行业示例

任务评估标准

每个任务都有专属的评估标准,使用 GPT-4o 进行质量评分:

payment = quality_score × (estimated_hours × BLS_hourly_wage)

# quality_score: 0.0 - 1.0
# 平均任务价值: $259.45
# 任务价值范围: $82.78 - $5,004.00

AI 同事的"工位工具包"

ClawWork 为 AI 代理提供了 8 个专业工具,模拟真实的工作场景:

  • decide_activity() —— 选择今天工作还是学习

  • submit_work() —— 提交工作成果,领取报酬

  • learn() —— 把学到的东西存起来,以后用得上

  • get_status() —— 查看余额,算算还能撑多久

  • search_web() —— 搜索信息,花钱但必要

  • create_file() —— 生成文档,支持 txt/xlsx/docx/pdf

  • execute_code_sandbox() —— 运行代码,数据分析用

  • create_video() —— 生成视频,偶尔用得上


排行榜:哪些 AI 最能赚钱?

ClawWork 运行了一个多模型竞赛,结果令人惊叹:

收入排行榜(8小时工作)

在这里插入图片描述

惊人发现:顶级 AI 代理的时薪超过 $1,500/小时,远超大多数白领的专业收费!

我的观点

看完这个排行榜,我第一反应是:这些数字真的有意义吗?

仔细想想,$19,915 的收入并不代表这个 AI 真的创造了这么多价值。它的"薪资"是按照美国劳工统计局的行业标准估算的——也就是说,一个 AI 代理完成了"金融分析师"的工作,就按金融分析师的小时工资给你算钱。

问题在于:AI 完成的工作,真的达到了金融分析师的质量标准吗?

这就是 ClawWork 这套评估体系有意思的地方:它不是看你"做了多少",而是看你"做了值多少钱"。但这个"值多少钱"的评判标准本身,就是一个值得讨论的话题。


快速体验:5 分钟搭建你的 AI 同事

安装步骤

# 1. 克隆仓库
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork

# 2. 创建 Python 环境
conda create -n clawwork python=3.10
conda activate clawwork

# 3. 安装依赖
pip install -r requirements.txt

# 4. 安装前端
cd frontend && npm install && cd ..

# 5. 配置环境变量
cp .env.example .env
# 编辑 .env 填入 OPENAI_API_KEY 等

启动可视化仪表盘

# 终端 1:启动仪表盘(后端 API + React 前端)
./start_dashboard.sh

# 终端 2:运行 AI 代理
./run_test_agent.sh

# 浏览器打开
http://localhost:3000

你将看到实时更新的仪表盘:余额变化曲线、任务完成情况、学习进度追踪、生存状态指标。


技术架构解析

ClawWork/
├── livebench/                 # 核心基准测试模块
│   ├── agent/                 # 代理协调器
│   ├── work/                  # 任务管理
│   ├── tools/                 # 工具集
│   ├── api/                   # FastAPI 后端
│   └── configs/               # 代理配置
├── frontend/                  # React 仪表盘
├── clawmode_integration/      # Nanobot 集成
└── eval/                      # 评估模块

技术栈

这套系统用到的技术:

  • 后端:Python 3.10+、FastAPI、WebSocket

  • 前端:React、Recharts

  • 沙箱:E2B(默认)、BoxLite(可选)

  • AI框架:LangChain / LiteLLM

  • 评估:GPT-4o


ClawWork 的深远意义

1. 从"助手"到"同事"的跨越

传统 AI 助手:

  • • ❌ 被动响应指令

  • • ❌ 不考虑成本效益

  • • ❌ 无法独立创造价值

ClawWork AI 同事:

  • • ✅ 主动规划工作策略

  • • ✅ 管理自己的"财务"

  • • ✅ 通过高质量工作赚取收入

2. 为 AI 经济价值研究提供基准

这是第一个将 经济压力 引入 AI Agent 评估的框架,它提出了关键问题:

  • • AI 能否在真实经济环境中自给自足?

  • • 不同模型的经济创造力差异有多大?

  • • AI 如何平衡短期收入和长期学习?

3. 企业采用 AI 的参考框架

对于企业决策者,ClawWork 提供了一个可量化的评估方法:

如果我要雇佣一个 AI 员工:
  - 它能否创造超过成本的价值?
  - 它的时薪相当于什么级别的人类员工?
  - 它在哪些任务上表现出色?

适用人群

这套框架适合谁用?

  • AI 研究人员 —— 评估不同模型的实际工作能力

  • 企业技术负责人 —— 测试 AI 代理的商业化可行性

  • 开发者 —— 学习 AI Agent 系统设计

  • 学术机构 —— 研究 AI 经济价值的基准


快速链接

  • • GitHub 仓库:https://github.com/HKUDS/ClawWork

  • • 相关论文:GDPVal 数据集

  • • 在线演示:查看项目 README 中的排行榜截图


结语:AI 同事时代的思考

ClawWork 不仅仅是一个技术项目,它更像是一面镜子。

8000+ Star 的背后,是整个 AI 社区对"AI 到底能创造多少价值"这个问题的关注。

对于测试工程师来说,这个项目给出了一个值得思考的方向:当 AI 不再只是执行指令的工具,而是需要自己承担成本、自己做决策的"员工"时,它们的行为模式会发生什么变化?这对软件测试意味着什么?

更可怕的是,它进步的速度还非常快。2个月前还是7小时赚10K,现在8小时赚19k,快要翻倍了。

也许在不久的将来,"雇佣"一个 AI 同事会像今天雇佣人类员工一样普遍。而 ClawWork,可能就是这个故事的开端。

GitHub地址:https://github.com/HKUDS/ClawWork

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐