LM Studio中Qwen模型如何部署到服务器
在服务器上通过 LM Studio 部署 Qwen 模型,核心思路是:在服务器上运行 LM Studio 并启动其内置的 OpenAI 兼容 API 服务,然后让其他设备通过网络调用该服务。
以下是具体部署步骤,涵盖从准备到运维的完整流程。
📝 1. 准备工作
-
硬件与系统:确保服务器具备足够的 CPU、内存和 GPU 资源。推荐安装 NVIDIA 官方驱动(版本 ≥ 535.98,如 12 系列及以上显卡)。
-
LM Studio 安装:
-
GUI 版:在服务器上安装带图形界面的 LM Studio,便于操作和监控。
-
CLI 版:对于无图形界面的 Linux 服务器,可通过命令行安装
lms工具进行部署。
-
🤖 2. 下载 Qwen 模型
-
打开 LM Studio,进入 Model Hub / Discover 页面。
-
搜索
qwen3、qwen2.5等关键词,根据服务器配置选择合适的 GGUF 量化版本。-
显存 ≥ 8GB:可选 7B/9B 模型的 Q4_K_M 版本。
-
显存 4-6GB:可选 4B 模型的 Q4_K_M 版本。
-
显存 ≤ 4GB 或纯 CPU:可选 0.5B/1.8B 等小模型的 Q2_K/Q4_0 版本。
-
-
点击 Download 下载。模型将保存在本地模型目录,后续启动服务时需指定此路径。
⚙️ 3. 启动 LM Studio 服务器
方式一:图形化界面 (GUI)
-
在 LM Studio 左侧导航栏点击 Local Server / Developer 图标。
-
在 Select a model 下拉框中,选择已下载的 Qwen 模型。
-
配置服务器参数:
-
Port: 监听端口,默认为
1234。 -
Host: 监听地址,默认为
localhost。如需外部访问,可改为0.0.0.0。 -
GPU Offload Layers: 根据 GPU 显存大小设置卸载到 GPU 的层数,以加速推理。
-
Context Length: 设置上下文长度,如 4096、8192 或更高。
-
-
点击 Start Server。当状态变为 Running 时,表示服务已成功启动。
方式二:命令行 (CLI)
对于无图形界面的服务器,可使用 lms命令行工具。
-
启动服务:
bash
启动默认模型
lms server start
启动指定模型、端口和GPU层数
lms server start \
--model qwen3.5:7b-q4 \
--port 1234 \
--gpu-layers 35 \
--host 0.0.0.0 \
--context-length 4096 \
--threads 8 \
--detach
-
--model: 指定模型,格式通常为作者/模型名或模型名:量化版本。 -
--detach: 使服务在后台运行。
-
-
管理服务:
bash
查看状态
lms server status
停止服务
lms server stop
🔗 4. 配置网络访问
-
本地访问:服务默认地址为
http://localhost:1234/v1。 -
局域网/公网访问:
-
在服务器防火墙或云服务商安全组中,开放您设置的端口(如
1234)。 -
启动服务时,将
--host参数设置为0.0.0.0,以监听所有网络接口。 -
外部设备可通过
http://<服务器IP>:1234/v1访问。
-
⚠️ 安全提醒:开放公网访问时,建议配置反向代理(如 Nginx)并启用 HTTPS 和身份验证,以防未授权访问。
🐍 5. 验证与调用 API
您可以使用任何支持 OpenAI API 的工具进行调用。
-
使用 curl 验证:
bash
curl http://<服务器IP>:1234/v1/models
若返回包含模型 ID 的 JSON 数据,则表示服务正常。
-
使用 Python 调用:
python
from openai import OpenAI
client = OpenAI(
base_url="http://<服务器IP>:1234/v1",
api_key="lm-studio", # 本地调用,任意非空字符串即可
)
completion = client.chat.completions.create(
model="qwen3.5-7b", # 需与LM Studio中显示的模型ID一致
messages=[
{"role": "system", "content": "你是一个乐于助人的中文助手"},
{"role": "user", "content": "介绍一下你自己"},
],
temperature=0.7,
)
print(completion.choices[0].message.content)
🚀 6. 进阶:配置为系统服务 (Linux)
为确保服务在服务器重启后自动运行,可将其配置为 systemd服务。
-
创建服务文件:
bash
sudo nano /etc/systemd/system/lmstudio.service
-
写入配置:
ini
[Unit]
Description=LM Studio Local AI Server
After=network.target
[Service]
Type=simple
User=your_username
ExecStart=/usr/local/bin/lms server start \
--model qwen3.5:7b-q4 \
--port 1234 \
--gpu-layers 35 \
--host 0.0.0.0 \
--context-length 4096
Restart=on-failure
RestartSec=10
LimitNOFILE=65535
[Install]
WantedBy=multi-user.target
-
启用并启动服务:
bash
sudo systemctl daemon-reload
sudo systemctl enable lmstudio
sudo systemctl start lmstudio
sudo systemctl status lmstudio
🛠️ 7. 运维与监控
-
查看进程与端口:
bash
ps aux | grep lms
lsof -i :1234
-
查看 GPU 使用情况 (NVIDIA):
bash
watch -n 1 nvidia-smi
-
日志与自动重启:
systemd服务配置中的Restart=on-failure可实现故障自动重启。您也可以编写脚本定期检查服务健康状态。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)