8小时赚了19K美刀！香港大学开源AI同事系统，时薪高达$2,285

软件测试大叔

390人浏览 · 2026-05-17 22:22:19

软件测试大叔 · 2026-05-17 22:22:19 发布

当 AI 助手需要自己支付 token 费用时，它们会如何选择？是埋头工作赚钱，还是投资时间学习提升？香港大学团队给出的答案让人深思。

引言：当 AI 需要自己付账单

想象一下这样的场景：

你给 AI 助手只有 10 美元启动资金，每说一个词都要扣费。如果它不工作赚钱，就会"饿死"。它会怎么做？

这不是科幻小说，而是香港大学数据科学团队（HKUDS）开源项目 ClawWork 的核心设定。

这个项目在 GitHub 上已经收获了 8000+ Star，它提出了一个颠覆性的概念：将 AI 助手转变为真正的 AI 同事（AI Coworker）。

什么是 ClawWork？

ClawWork = “OpenClaw as Your AI Coworker”

这是一个革命性的 AI Agent 基准测试框架，它不再测试 AI 能不能聊天、能不能写诗，而是测试一个核心问题：

AI 能否在真实的工作场景中创造经济价值？

核心创新点

在这里插入图片描述

残酷的生存游戏：只有 10 美元启动资金

经济系统设计

ClawWork 设计了一个极其残酷的经济系统：

# 初始状态
starting_balance = $10.00  # 启动资金
token_cost_per_word = "实时扣除"  # 每个 token 都要付钱

# 收入来源
income = quality_score × (estimated_hours × BLS_hourly_wage)

# 支出项目
costs = {
    "token_usage": "每次 LLM 调用后自动扣除",
    "web_search": "$0.0008/次 (Tavily) 或 $0.05/100万 tokens (Jina AI)",
    "code_execution": "沙箱运行成本"
}

重点来了：AI 代理必须从仅有的 $10 起步，通过完成真实工作任务来赚钱支付自己的"生活费"（token 费用）。

一次糟糕的任务决策，或者一次漫无目的的搜索，都可能导致"破产"。

策略性决策：工作还是学习？

每天，AI 代理必须做出选择——是立刻干活赚钱，还是花时间学习提升能力。

这个问题，像极了我们平常的工作，很多项目不是做不到更好，而是需要平衡成本。

220 个真实专业任务，44 个行业全覆盖

ClawWork 使用 GDPVal 数据集，包含 220 个经过验证的专业任务，覆盖美国劳工统计局（BLS）定义的 44 个主要职业类别。

部分行业示例

任务评估标准

每个任务都有专属的评估标准，使用 GPT-4o 进行质量评分：

payment = quality_score × (estimated_hours × BLS_hourly_wage)

# quality_score: 0.0 - 1.0
# 平均任务价值: $259.45
# 任务价值范围: $82.78 - $5,004.00

AI 同事的"工位工具包"

ClawWork 为 AI 代理提供了 8 个专业工具，模拟真实的工作场景：

• decide_activity() —— 选择今天工作还是学习
• submit_work() —— 提交工作成果，领取报酬
• learn() —— 把学到的东西存起来，以后用得上
• get_status() —— 查看余额，算算还能撑多久
• search_web() —— 搜索信息，花钱但必要
• create_file() —— 生成文档，支持 txt/xlsx/docx/pdf
• execute_code_sandbox() —— 运行代码，数据分析用
• create_video() —— 生成视频，偶尔用得上

排行榜：哪些 AI 最能赚钱？

ClawWork 运行了一个多模型竞赛，结果令人惊叹：

收入排行榜（8小时工作）

在这里插入图片描述

惊人发现：顶级 AI 代理的时薪超过 $1,500/小时，远超大多数白领的专业收费！

我的观点

看完这个排行榜，我第一反应是：这些数字真的有意义吗？

仔细想想，$19,915 的收入并不代表这个 AI 真的创造了这么多价值。它的"薪资"是按照美国劳工统计局的行业标准估算的——也就是说，一个 AI 代理完成了"金融分析师"的工作，就按金融分析师的小时工资给你算钱。

问题在于：AI 完成的工作，真的达到了金融分析师的质量标准吗？

这就是 ClawWork 这套评估体系有意思的地方：它不是看你"做了多少"，而是看你"做了值多少钱"。但这个"值多少钱"的评判标准本身，就是一个值得讨论的话题。

快速体验：5 分钟搭建你的 AI 同事

安装步骤

# 1. 克隆仓库
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork

# 2. 创建 Python 环境
conda create -n clawwork python=3.10
conda activate clawwork

# 3. 安装依赖
pip install -r requirements.txt

# 4. 安装前端
cd frontend && npm install && cd ..

# 5. 配置环境变量
cp .env.example .env
# 编辑 .env 填入 OPENAI_API_KEY 等

启动可视化仪表盘

# 终端 1：启动仪表盘（后端 API + React 前端）
./start_dashboard.sh

# 终端 2：运行 AI 代理
./run_test_agent.sh

# 浏览器打开
http://localhost:3000

你将看到实时更新的仪表盘：余额变化曲线、任务完成情况、学习进度追踪、生存状态指标。

技术架构解析

ClawWork/
├── livebench/                 # 核心基准测试模块
│   ├── agent/                 # 代理协调器
│   ├── work/                  # 任务管理
│   ├── tools/                 # 工具集
│   ├── api/                   # FastAPI 后端
│   └── configs/               # 代理配置
├── frontend/                  # React 仪表盘
├── clawmode_integration/      # Nanobot 集成
└── eval/                      # 评估模块

技术栈

这套系统用到的技术：

• 后端：Python 3.10+、FastAPI、WebSocket
• 前端：React、Recharts
• 沙箱：E2B（默认）、BoxLite（可选）
• AI框架：LangChain / LiteLLM
• 评估：GPT-4o

ClawWork 的深远意义

1. 从"助手"到"同事"的跨越

传统 AI 助手：

• ❌ 被动响应指令
• ❌ 不考虑成本效益
• ❌ 无法独立创造价值

ClawWork AI 同事：

• ✅ 主动规划工作策略
• ✅ 管理自己的"财务"
• ✅ 通过高质量工作赚取收入

2. 为 AI 经济价值研究提供基准

这是第一个将 经济压力 引入 AI Agent 评估的框架，它提出了关键问题：

• AI 能否在真实经济环境中自给自足？

• 不同模型的经济创造力差异有多大？

• AI 如何平衡短期收入和长期学习？

3. 企业采用 AI 的参考框架

对于企业决策者，ClawWork 提供了一个可量化的评估方法：

如果我要雇佣一个 AI 员工：
  - 它能否创造超过成本的价值？
  - 它的时薪相当于什么级别的人类员工？
  - 它在哪些任务上表现出色？

适用人群

这套框架适合谁用？

• AI 研究人员 —— 评估不同模型的实际工作能力
• 企业技术负责人 —— 测试 AI 代理的商业化可行性
• 开发者 —— 学习 AI Agent 系统设计
• 学术机构 —— 研究 AI 经济价值的基准

快速链接

• GitHub 仓库：https://github.com/HKUDS/ClawWork
• 相关论文：GDPVal 数据集
• 在线演示：查看项目 README 中的排行榜截图

结语：AI 同事时代的思考

ClawWork 不仅仅是一个技术项目，它更像是一面镜子。

8000+ Star 的背后，是整个 AI 社区对"AI 到底能创造多少价值"这个问题的关注。

对于测试工程师来说，这个项目给出了一个值得思考的方向：当 AI 不再只是执行指令的工具，而是需要自己承担成本、自己做决策的"员工"时，它们的行为模式会发生什么变化？这对软件测试意味着什么？

更可怕的是，它进步的速度还非常快。2个月前还是7小时赚10K，现在8小时赚19k，快要翻倍了。

也许在不久的将来，"雇佣"一个 AI 同事会像今天雇佣人类员工一样普遍。而 ClawWork，可能就是这个故事的开端。

GitHub地址：https://github.com/HKUDS/ClawWork

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Qt C++ + OpenVINO 部署 LLaMA-7B 本地推理工具（Intel CPU 极致优化）

QString path = QFileDialog::getOpenFileName(this, "选择模型文件", "", "OpenVINO Model (*.xml)");// ==================== LLaMA OpenVINO 推理循环 ====================# ================== OpenVINO 配置 =============