8小时赚了19K美刀!香港大学开源AI同事系统,时薪高达$2,285
当 AI 助手需要自己支付 token 费用时,它们会如何选择?是埋头工作赚钱,还是投资时间学习提升?香港大学团队给出的答案让人深思。
引言:当 AI 需要自己付账单
想象一下这样的场景:
你给 AI 助手只有 10 美元启动资金,每说一个词都要扣费。如果它不工作赚钱,就会"饿死"。它会怎么做?
这不是科幻小说,而是香港大学数据科学团队(HKUDS)开源项目 ClawWork 的核心设定。
这个项目在 GitHub 上已经收获了 8000+ Star,它提出了一个颠覆性的概念:将 AI 助手转变为真正的 AI 同事(AI Coworker)。

什么是 ClawWork?
ClawWork = “OpenClaw as Your AI Coworker”
这是一个革命性的 AI Agent 基准测试框架,它不再测试 AI 能不能聊天、能不能写诗,而是测试一个核心问题:
AI 能否在真实的工作场景中创造经济价值?
核心创新点

残酷的生存游戏:只有 10 美元启动资金
经济系统设计
ClawWork 设计了一个极其残酷的经济系统:
# 初始状态
starting_balance = $10.00 # 启动资金
token_cost_per_word = "实时扣除" # 每个 token 都要付钱
# 收入来源
income = quality_score × (estimated_hours × BLS_hourly_wage)
# 支出项目
costs = {
"token_usage": "每次 LLM 调用后自动扣除",
"web_search": "$0.0008/次 (Tavily) 或 $0.05/100万 tokens (Jina AI)",
"code_execution": "沙箱运行成本"
}
重点来了:AI 代理必须从仅有的 $10 起步,通过完成真实工作任务来赚钱支付自己的"生活费"(token 费用)。
一次糟糕的任务决策,或者一次漫无目的的搜索,都可能导致"破产"。
策略性决策:工作还是学习?
每天,AI 代理必须做出选择——是立刻干活赚钱,还是花时间学习提升能力。
这个问题,像极了我们平常的工作,很多项目不是做不到更好,而是需要平衡成本。
220 个真实专业任务,44 个行业全覆盖
ClawWork 使用 GDPVal 数据集,包含 220 个经过验证的专业任务,覆盖美国劳工统计局(BLS)定义的 44 个主要职业类别。

部分行业示例
任务评估标准
每个任务都有专属的评估标准,使用 GPT-4o 进行质量评分:
payment = quality_score × (estimated_hours × BLS_hourly_wage)
# quality_score: 0.0 - 1.0
# 平均任务价值: $259.45
# 任务价值范围: $82.78 - $5,004.00
AI 同事的"工位工具包"
ClawWork 为 AI 代理提供了 8 个专业工具,模拟真实的工作场景:
-
• decide_activity() —— 选择今天工作还是学习
-
• submit_work() —— 提交工作成果,领取报酬
-
• learn() —— 把学到的东西存起来,以后用得上
-
• get_status() —— 查看余额,算算还能撑多久
-
• search_web() —— 搜索信息,花钱但必要
-
• create_file() —— 生成文档,支持 txt/xlsx/docx/pdf
-
• execute_code_sandbox() —— 运行代码,数据分析用
-
• create_video() —— 生成视频,偶尔用得上
排行榜:哪些 AI 最能赚钱?
ClawWork 运行了一个多模型竞赛,结果令人惊叹:
收入排行榜(8小时工作)

惊人发现:顶级 AI 代理的时薪超过 $1,500/小时,远超大多数白领的专业收费!
我的观点
看完这个排行榜,我第一反应是:这些数字真的有意义吗?
仔细想想,$19,915 的收入并不代表这个 AI 真的创造了这么多价值。它的"薪资"是按照美国劳工统计局的行业标准估算的——也就是说,一个 AI 代理完成了"金融分析师"的工作,就按金融分析师的小时工资给你算钱。
问题在于:AI 完成的工作,真的达到了金融分析师的质量标准吗?
这就是 ClawWork 这套评估体系有意思的地方:它不是看你"做了多少",而是看你"做了值多少钱"。但这个"值多少钱"的评判标准本身,就是一个值得讨论的话题。
快速体验:5 分钟搭建你的 AI 同事
安装步骤
# 1. 克隆仓库
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork
# 2. 创建 Python 环境
conda create -n clawwork python=3.10
conda activate clawwork
# 3. 安装依赖
pip install -r requirements.txt
# 4. 安装前端
cd frontend && npm install && cd ..
# 5. 配置环境变量
cp .env.example .env
# 编辑 .env 填入 OPENAI_API_KEY 等
启动可视化仪表盘
# 终端 1:启动仪表盘(后端 API + React 前端)
./start_dashboard.sh
# 终端 2:运行 AI 代理
./run_test_agent.sh
# 浏览器打开
http://localhost:3000
你将看到实时更新的仪表盘:余额变化曲线、任务完成情况、学习进度追踪、生存状态指标。
技术架构解析
ClawWork/
├── livebench/ # 核心基准测试模块
│ ├── agent/ # 代理协调器
│ ├── work/ # 任务管理
│ ├── tools/ # 工具集
│ ├── api/ # FastAPI 后端
│ └── configs/ # 代理配置
├── frontend/ # React 仪表盘
├── clawmode_integration/ # Nanobot 集成
└── eval/ # 评估模块
技术栈
这套系统用到的技术:
-
• 后端:Python 3.10+、FastAPI、WebSocket
-
• 前端:React、Recharts
-
• 沙箱:E2B(默认)、BoxLite(可选)
-
• AI框架:LangChain / LiteLLM
-
• 评估:GPT-4o
ClawWork 的深远意义
1. 从"助手"到"同事"的跨越
传统 AI 助手:
-
• ❌ 被动响应指令
-
• ❌ 不考虑成本效益
-
• ❌ 无法独立创造价值
ClawWork AI 同事:
-
• ✅ 主动规划工作策略
-
• ✅ 管理自己的"财务"
-
• ✅ 通过高质量工作赚取收入
2. 为 AI 经济价值研究提供基准
这是第一个将 经济压力 引入 AI Agent 评估的框架,它提出了关键问题:
• AI 能否在真实经济环境中自给自足?
• 不同模型的经济创造力差异有多大?
• AI 如何平衡短期收入和长期学习?
3. 企业采用 AI 的参考框架
对于企业决策者,ClawWork 提供了一个可量化的评估方法:
如果我要雇佣一个 AI 员工:
- 它能否创造超过成本的价值?
- 它的时薪相当于什么级别的人类员工?
- 它在哪些任务上表现出色?
适用人群
这套框架适合谁用?
-
• AI 研究人员 —— 评估不同模型的实际工作能力
-
• 企业技术负责人 —— 测试 AI 代理的商业化可行性
-
• 开发者 —— 学习 AI Agent 系统设计
-
• 学术机构 —— 研究 AI 经济价值的基准
快速链接
-
• GitHub 仓库:https://github.com/HKUDS/ClawWork
-
• 相关论文:GDPVal 数据集
-
• 在线演示:查看项目 README 中的排行榜截图
结语:AI 同事时代的思考
ClawWork 不仅仅是一个技术项目,它更像是一面镜子。
8000+ Star 的背后,是整个 AI 社区对"AI 到底能创造多少价值"这个问题的关注。
对于测试工程师来说,这个项目给出了一个值得思考的方向:当 AI 不再只是执行指令的工具,而是需要自己承担成本、自己做决策的"员工"时,它们的行为模式会发生什么变化?这对软件测试意味着什么?
更可怕的是,它进步的速度还非常快。2个月前还是7小时赚10K,现在8小时赚19k,快要翻倍了。
也许在不久的将来,"雇佣"一个 AI 同事会像今天雇佣人类员工一样普遍。而 ClawWork,可能就是这个故事的开端。
GitHub地址:https://github.com/HKUDS/ClawWork
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)