自建推理 API 开放测试，招5位免费用户

2601_95493077

227人浏览 · 2026-06-12 14:26:28

2601_95493077 · 2026-06-12 14:26:28 发布

先说清楚这是什么；

一台 NVIDIA DGX Spark（128GB 统一内存），放在南京，跑 Qwen2.5-32B-AWQ，vLLM 推理，Cloudflare Tunnel 穿透。做了一个 OpenAI 兼容的 API 端点——改一行 base_url 就能接到你的 Agent、你的 LangChain管线、你的自动编码工作流。

不是什么大厂产品。没有 GPU 集群，没有弹性扩容。就是一个开发者自建的推理节点，专给 Agent 用。

为什么要招测试用户？

因为我自己测不出真实世界的 edge case。我自己跑 benchmark 是 2859 条零结构错误，但那是模拟环境。真实场景里 Agent 会怎么用？Tool calling 循环会不会卡？128K 上下文塞满还稳不稳？这些只有真实用户能告诉我。

免费用户能拿到什么：

- 无限 Token，32B + 14B 模型随便调

- 60 req/min，不限并发

- 数据不记录、不做训练、30 天后自动清日志

- API Key 直接给，不需要注册账号

免费期限：首批一个月。一个月后觉得有用再说付费的事。

我对你的期望：

1. 你真的在跑 Agent——不是偶尔用 ChatGPT 聊天那种，是有代码在跑、有 tool calling 在调

2. 遇到问题愿意反馈，一句"不好用"也行