先说清楚这是什么;

一台 NVIDIA DGX Spark(128GB 统一内存),放在南京,跑 Qwen2.5-32B-AWQ,vLLM 推理,Cloudflare Tunnel 穿透。做了一个 OpenAI 兼容的 API 端点——改一行 base_url 就能接到你的 Agent、你的 LangChain管线、你的自动编码工作流。

不是什么大厂产品。没有 GPU 集群,没有弹性扩容。就是一个开发者自建的推理节点,专给 Agent 用。

为什么要招测试用户?

因为我自己测不出真实世界的 edge case。我自己跑 benchmark 是 2859 条零结构错误,但那是模拟环境。真实场景里 Agent 会怎么用?Tool calling 循环会不会卡?128K 上下文塞满还稳不稳?这些只有真实用户能告诉我。

免费用户能拿到什么:

- 无限 Token,32B + 14B 模型随便调

- 60 req/min,不限并发

- 数据不记录、不做训练、30 天后自动清日志

- API Key 直接给,不需要注册账号

免费期限:首批一个月。一个月后觉得有用再说付费的事。

我对你的期望:

1. 你真的在跑 Agent——不是偶尔用 ChatGPT 聊天那种,是有代码在跑、有 tool calling 在调

2. 遇到问题愿意反馈,一句"不好用"也行

3. 不拿去做压力测试或挖矿

怎么申请:

评论区留个邮箱,或者直接发到17368718899@163.com。5 个名额,先到先得。如果你有 GitHub

项目链接或者简单说一下你在做什么,优先。

另外说一下缺点,不藏着:

- 单机部署,炸了就是炸了,没有故障转移

- ARM64 + 32B,单请求速度不快(~13 tok/s),但 vLLM 连续批处理下系统吞吐还行

- 延迟取决于你物理距离,就这些。想试的留邮箱。

有什么不满意的我改。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐