自建推理 API 开放测试,招5位免费用户
先说清楚这是什么;
一台 NVIDIA DGX Spark(128GB 统一内存),放在南京,跑 Qwen2.5-32B-AWQ,vLLM 推理,Cloudflare Tunnel 穿透。做了一个 OpenAI 兼容的 API 端点——改一行 base_url 就能接到你的 Agent、你的 LangChain管线、你的自动编码工作流。
不是什么大厂产品。没有 GPU 集群,没有弹性扩容。就是一个开发者自建的推理节点,专给 Agent 用。
为什么要招测试用户?
因为我自己测不出真实世界的 edge case。我自己跑 benchmark 是 2859 条零结构错误,但那是模拟环境。真实场景里 Agent 会怎么用?Tool calling 循环会不会卡?128K 上下文塞满还稳不稳?这些只有真实用户能告诉我。
免费用户能拿到什么:
- 无限 Token,32B + 14B 模型随便调
- 60 req/min,不限并发
- 数据不记录、不做训练、30 天后自动清日志
- API Key 直接给,不需要注册账号
免费期限:首批一个月。一个月后觉得有用再说付费的事。
我对你的期望:
1. 你真的在跑 Agent——不是偶尔用 ChatGPT 聊天那种,是有代码在跑、有 tool calling 在调
2. 遇到问题愿意反馈,一句"不好用"也行
3. 不拿去做压力测试或挖矿
怎么申请:
评论区留个邮箱,或者直接发到17368718899@163.com。5 个名额,先到先得。如果你有 GitHub
项目链接或者简单说一下你在做什么,优先。
另外说一下缺点,不藏着:
- 单机部署,炸了就是炸了,没有故障转移
- ARM64 + 32B,单请求速度不快(~13 tok/s),但 vLLM 连续批处理下系统吞吐还行
- 延迟取决于你物理距离,就这些。想试的留邮箱。
有什么不满意的我改。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)