在服务器上通过 LM Studio 部署 Qwen 模型,核心思路是:在服务器上运行 LM Studio 并启动其内置的 OpenAI 兼容 API 服务,然后让其他设备通过网络调用该服务。

以下是具体部署步骤,涵盖从准备到运维的完整流程。


📝 1. 准备工作

  • 硬件与系统:确保服务器具备足够的 CPU、内存和 GPU 资源。推荐安装 NVIDIA 官方驱动(版本 ≥ 535.98,如 12 系列及以上显卡)。

  • LM Studio 安装

    • GUI 版:在服务器上安装带图形界面的 LM Studio,便于操作和监控。

    • CLI 版:对于无图形界面的 Linux 服务器,可通过命令行安装 lms工具进行部署。


🤖 2. 下载 Qwen 模型

  1. 打开 LM Studio,进入 Model Hub / Discover​ 页面。

  2. 搜索 qwen3qwen2.5等关键词,根据服务器配置选择合适的 GGUF 量化版本。

    • 显存 ≥ 8GB:可选 7B/9B 模型的 Q4_K_M 版本。

    • 显存 4-6GB:可选 4B 模型的 Q4_K_M 版本。

    • 显存 ≤ 4GB 或纯 CPU:可选 0.5B/1.8B 等小模型的 Q2_K/Q4_0 版本。

  3. 点击 Download​ 下载。模型将保存在本地模型目录,后续启动服务时需指定此路径。


⚙️ 3. 启动 LM Studio 服务器

方式一:图形化界面 (GUI)
  1. 在 LM Studio 左侧导航栏点击 Local Server / Developer​ 图标。

  2. Select a model​ 下拉框中,选择已下载的 Qwen 模型。

  3. 配置服务器参数:

    • Port: 监听端口,默认为 1234

    • Host: 监听地址,默认为 localhost。如需外部访问,可改为 0.0.0.0

    • GPU Offload Layers: 根据 GPU 显存大小设置卸载到 GPU 的层数,以加速推理。

    • Context Length: 设置上下文长度,如 4096、8192 或更高。

  4. 点击 Start Server。当状态变为 Running​ 时,表示服务已成功启动。

方式二:命令行 (CLI)

对于无图形界面的服务器,可使用 lms命令行工具。

  1. 启动服务

    bash

    启动默认模型

    lms server start

    启动指定模型、端口和GPU层数

    lms server start \

    --model qwen3.5:7b-q4 \

    --port 1234 \

    --gpu-layers 35 \

    --host 0.0.0.0 \

    --context-length 4096 \

    --threads 8 \

    --detach

    • --model: 指定模型,格式通常为 作者/模型名模型名:量化版本

    • --detach: 使服务在后台运行。

  2. 管理服务

    bash

    查看状态

    lms server status

    停止服务

    lms server stop


🔗 4. 配置网络访问

  • 本地访问:服务默认地址为 http://localhost:1234/v1

  • 局域网/公网访问

    1. 在服务器防火墙或云服务商安全组中,开放您设置的端口(如 1234)。

    2. 启动服务时,将 --host参数设置为 0.0.0.0,以监听所有网络接口。

    3. 外部设备可通过 http://<服务器IP>:1234/v1访问。

⚠️ 安全提醒:开放公网访问时,建议配置反向代理(如 Nginx)并启用 HTTPS 和身份验证,以防未授权访问。


🐍 5. 验证与调用 API

您可以使用任何支持 OpenAI API 的工具进行调用。

  1. 使用 curl 验证

    bash

    curl http://<服务器IP>:1234/v1/models

    若返回包含模型 ID 的 JSON 数据,则表示服务正常。

  2. 使用 Python 调用

    python

    from openai import OpenAI

    client = OpenAI(

    base_url="http://<服务器IP>:1234/v1",

    api_key="lm-studio", # 本地调用,任意非空字符串即可

    )

    completion = client.chat.completions.create(

    model="qwen3.5-7b", # 需与LM Studio中显示的模型ID一致

    messages=[

    {"role": "system", "content": "你是一个乐于助人的中文助手"},

    {"role": "user", "content": "介绍一下你自己"},

    ],

    temperature=0.7,

    )

    print(completion.choices[0].message.content)


🚀 6. 进阶:配置为系统服务 (Linux)

为确保服务在服务器重启后自动运行,可将其配置为 systemd服务。

  1. 创建服务文件

    bash

    sudo nano /etc/systemd/system/lmstudio.service

  2. 写入配置

    ini

    [Unit]

    Description=LM Studio Local AI Server

    After=network.target

    [Service]

    Type=simple

    User=your_username

    ExecStart=/usr/local/bin/lms server start \

    --model qwen3.5:7b-q4 \

    --port 1234 \

    --gpu-layers 35 \

    --host 0.0.0.0 \

    --context-length 4096

    Restart=on-failure

    RestartSec=10

    LimitNOFILE=65535

    [Install]

    WantedBy=multi-user.target

  3. 启用并启动服务

    bash

    sudo systemctl daemon-reload

    sudo systemctl enable lmstudio

    sudo systemctl start lmstudio

    sudo systemctl status lmstudio


🛠️ 7. 运维与监控

  • 查看进程与端口

    bash

    ps aux | grep lms

    lsof -i :1234

  • 查看 GPU 使用情况​ (NVIDIA):

    bash

    watch -n 1 nvidia-smi

  • 日志与自动重启systemd服务配置中的 Restart=on-failure可实现故障自动重启。您也可以编写脚本定期检查服务健康状态。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐