LM Studio中Qwen模型如何部署到服务器

泉城IT圈子

83人浏览 · 2026-03-30 13:23:32

泉城IT圈子 · 2026-03-30 13:23:32 发布

在服务器上通过 LM Studio 部署 Qwen 模型，核心思路是：在服务器上运行 LM Studio 并启动其内置的 OpenAI 兼容 API 服务，然后让其他设备通过网络调用该服务。

以下是具体部署步骤，涵盖从准备到运维的完整流程。

📝 1. 准备工作

硬件与系统：确保服务器具备足够的 CPU、内存和 GPU 资源。推荐安装 NVIDIA 官方驱动（版本 ≥ 535.98，如 12 系列及以上显卡）。
LM Studio 安装：
- GUI 版：在服务器上安装带图形界面的 LM Studio，便于操作和监控。
- CLI 版：对于无图形界面的 Linux 服务器，可通过命令行安装 lms工具进行部署。

🤖 2. 下载 Qwen 模型

打开 LM Studio，进入 Model Hub / Discover 页面。
搜索 qwen3、qwen2.5等关键词，根据服务器配置选择合适的 GGUF 量化版本。
- 显存 ≥ 8GB：可选 7B/9B 模型的 Q4_K_M 版本。
- 显存 4-6GB：可选 4B 模型的 Q4_K_M 版本。
- 显存 ≤ 4GB 或纯 CPU：可选 0.5B/1.8B 等小模型的 Q2_K/Q4_0 版本。
点击 Download 下载。模型将保存在本地模型目录，后续启动服务时需指定此路径。

⚙️ 3. 启动 LM Studio 服务器

方式一：图形化界面 (GUI)

在 LM Studio 左侧导航栏点击 Local Server / Developer 图标。
在 Select a model 下拉框中，选择已下载的 Qwen 模型。
配置服务器参数：
- Port: 监听端口，默认为 1234。
- Host: 监听地址，默认为 localhost。如需外部访问，可改为 0.0.0.0。
- GPU Offload Layers: 根据 GPU 显存大小设置卸载到 GPU 的层数，以加速推理。
- Context Length: 设置上下文长度，如 4096、8192 或更高。
点击 Start Server。当状态变为 Running 时，表示服务已成功启动。

方式二：命令行 (CLI)

对于无图形界面的服务器，可使用 lms命令行工具。

启动服务：

bash

启动默认模型

lms server start

启动指定模型、端口和GPU层数

lms server start \

--model qwen3.5:7b-q4 \

--port 1234 \

--gpu-layers 35 \

--host 0.0.0.0 \

--context-length 4096 \

--threads 8 \

--detach
- --model: 指定模型，格式通常为 作者/模型名或 模型名:量化版本。
- --detach: 使服务在后台运行。
管理服务：

bash

查看状态

lms server status

停止服务

lms server stop

🔗 4. 配置网络访问

本地访问：服务默认地址为 http://localhost:1234/v1。
局域网/公网访问：
1. 在服务器防火墙或云服务商安全组中，开放您设置的端口（如 1234）。
2. 启动服务时，将 --host参数设置为 0.0.0.0，以监听所有网络接口。
3. 外部设备可通过 http://<服务器IP>:1234/v1访问。

⚠️ 安全提醒：开放公网访问时，建议配置反向代理（如 Nginx）并启用 HTTPS 和身份验证，以防未授权访问。

🐍 5. 验证与调用 API

您可以使用任何支持 OpenAI API 的工具进行调用。

使用 curl 验证：

bash

curl http://<服务器IP>:1234/v1/models

若返回包含模型 ID 的 JSON 数据，则表示服务正常。
使用 Python 调用：

python

from openai import OpenAI

client = OpenAI(

base_url="http://<服务器IP>:1234/v1",

api_key="lm-studio", # 本地调用，任意非空字符串即可

)

completion = client.chat.completions.create(

model="qwen3.5-7b", # 需与LM Studio中显示的模型ID一致

messages=[

{"role": "system", "content": "你是一个乐于助人的中文助手"},

{"role": "user", "content": "介绍一下你自己"},

],

temperature=0.7,

)

print(completion.choices[0].message.content)

🚀 6. 进阶：配置为系统服务 (Linux)

为确保服务在服务器重启后自动运行，可将其配置为 systemd服务。

创建服务文件：

bash

sudo nano /etc/systemd/system/lmstudio.service
写入配置：

ini

[Unit]

Description=LM Studio Local AI Server

After=network.target

[Service]

Type=simple

User=your_username

ExecStart=/usr/local/bin/lms server start \

--model qwen3.5:7b-q4 \

--port 1234 \

--gpu-layers 35 \

--host 0.0.0.0 \

--context-length 4096

Restart=on-failure

RestartSec=10

LimitNOFILE=65535

[Install]

WantedBy=multi-user.target
启用并启动服务：

bash

sudo systemctl daemon-reload

sudo systemctl enable lmstudio

sudo systemctl start lmstudio

sudo systemctl status lmstudio

🛠️ 7. 运维与监控

查看进程与端口：

bash

ps aux | grep lms

lsof -i :1234
查看 GPU 使用情况 (NVIDIA)：

bash

watch -n 1 nvidia-smi
日志与自动重启：systemd服务配置中的 Restart=on-failure可实现故障自动重启。您也可以编写脚本定期检查服务健康状态。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

大模型Function Calling工程实战：并行调用、失败处理与可观测性全解

AtomGit开源社区

AI模型并行训练：成就AI应用架构师的技术基石

2018年，BERT（3.4亿参数）可在单块V100 GPU上训练；2020年，GPT-3（1750亿参数）需要数千块GPU协同；2023年，PaLM 2（未公开具体参数，但推测远超万亿）依赖专用TPU集群。模型性能随参数、数据和计算量的增加而单调提升。模型权重：1750亿参数的GPT-3（FP16精度）需要约350GB内存（1750e9 × 2字节）；激活值：训练时的中间激活值通常是权重的2-4