跨平台大语言模型一站式管理平台 — 下载、推理、微调、知识库问答、图像识别、API 服务,一个工具全搞定。

🤖 LLM Studio

跨平台大语言模型一站式管理平台 — 下载、推理、微调、知识库问答、图像识别、API 服务,一个工具全搞定。

Python 3.9+

License: MIT

Platform

NVIDIA CUDA GPU · Apple MPS (M1/M2/M3/M4) · CPU  自动检测,零配置运行


✨ 核心特性

功能 说明
📥 模型下载 HuggingFace 一键下载,内置 7+ 精选模型,支持 Transformers / GGUF 双格式
💬 模型推理 双引擎推理(Transformers + llama-cpp-python),流式输出,自动 4-bit 量化
🔧 LoRA/QLoRA 微调 参数高效微调,Alpaca / ShareGPT 数据集,实时训练进度,断点续训
📚 RAG 知识库 投喂 PDF/Word/Excel/PPT 等 10+ 格式文档,检索增强问答,来源追溯
🖼️ 图像识别 视觉语言模型,图片描述/问答/OCR,支持 PaddleOCR / EasyOCR
🔌 REST API OpenAI 兼容接口(/v1/chat/completions),SSE 流式,可对接任意第三方客户端
🔑 API 密钥管理 内置 Web 管理后台,可视化创建/管理用户和 API Key
🌐 Web 界面 Gradio 8 页签可视化操作,浏览器即用
⌨️ CLI 命令行 Click + Rich 终端工具,完整命令行操作能力
📤 模型导出 LoRA 合并、HuggingFace 上传、GGUF 转换

🚀 快速开始

安装

git clone https://github.com/airen3339/LLM-Studio.git
cd LLM-Studio

# 创建虚拟环境
python -m venv venv
# Windows:
venv\Scripts\activate
# macOS/Linux:
source venv/bin/activate

# 安装依赖
pip install -r requirements.txt
pip install -e .

GPU 加速:NVIDIA 用户请先安装 CUDA Toolkit 和对应版本 PyTorch;Apple M 系列芯片自动启用 MPS。

三种使用方式

# 1. Web 界面
llm-studio ui

# 2. 命令行
llm-studio model download "Qwen2.5-7B-Instruct"
llm-studio chat ./models/Qwen--Qwen2.5-7B-Instruct

# 3. API 服务
llm-studio serve

📥 模型下载

# 查看推荐模型列表
llm-studio model registry

# 一键下载
llm-studio model download "Qwen2.5-7B-Instruct"

# 下载 GGUF 量化版(更小更快)
llm-studio model download "Qwen2.5-1.5B-Instruct-GGUF"

# 从 HuggingFace 下载任意模型
llm-studio model download Qwen/Qwen2.5-7B-Instruct

# 搜索模型
llm-studio model search "chinese llm"

内置推荐模型

模型 大小 格式 说明
Qwen2.5-1.5B-Instruct 3 GB Transformers 通义千问轻量模型
Qwen2.5-7B-Instruct 15 GB Transformers 通义千问中英文模型
Llama-3.1-8B-Instruct 16 GB Transformers Meta Llama 3.1
Mistral-7B-Instruct 15 GB Transformers Mistral AI 高效模型
Phi-3-mini-4k-instruct 7.6 GB Transformers 微软小型高效模型
Qwen2.5-1.5B-Instruct-GGUF 1 GB GGUF Q4_K_M 量化版
Llama-3.1-8B-Instruct-GGUF 4.9 GB GGUF Q4_K_M 量化版

💬 推理对话

# 交互式对话
llm-studio chat ./models/Qwen--Qwen2.5-7B-Instruct
  • 双推理引擎:自动根据模型格式选择 Transformers 或 llama-cpp-python
  • 流式输出:逐 token 实时显示
  • CUDA 4-bit 量化:自动启用 BitsAndBytes NF4,降低显存占用
  • 可调参数:Temperature / Top-P / Top-K / Max Tokens / Repeat Penalty

🔧 LoRA / QLoRA 微调

# LoRA 微调
llm-studio finetune ./models/Qwen--Qwen2.5-1.5B-Instruct ./datasets/my_data.jsonl

# QLoRA(更省显存)
llm-studio finetune ./models/Qwen--Qwen2.5-7B-Instruct ./datasets/data.jsonl --method qlora

# 自定义训练参数
llm-studio finetune ./models/xxx ./data.jsonl --epochs 5 --lr 1e-4 --lora-r 32

支持的数据集格式

# Alpaca 格式
{"instruction": "翻译为英文", "input": "今天天气真好", "output": "The weather is really nice today."}

# ShareGPT 格式
{"conversations": [{"from": "human", "value": "你好"}, {"from": "gpt", "value": "你好!有什么可以帮助你?"}]}

📚 RAG 知识库

让大模型基于你的本地文档进行回答,支持 10+ 文档格式

PDF · Word · Excel · CSV · PowerPoint · HTML · EPUB · TXT · Markdown · JSON

# 投喂文档
llm-studio rag ingest ./docs/技术手册.pdf
llm-studio rag ingest ./knowledge_base/     # 整个目录

# 知识库问答
llm-studio rag query "系统支持的最大并发数是多少?"

# 查看知识库状态
llm-studio rag status

工作原理:文档分块 → sentence-transformers 向量化 → 相似度检索 → 注入 Prompt → 大模型生成回答


🖼️ 图像识别

# API 调用示例
requests.post("http://localhost:8000/v1/vision/analyze", json={
    "model": "./models/Qwen2-VL-2B-Instruct",
    "image_path": "photo.jpg",
    "prompt": "描述这张图片"
}, headers=HEADERS)
  • 图片描述:AI 自动分析图片内容
  • 图片问答:针对图片提出特定问题
  • OCR 文字识别:中英文文字提取(PaddleOCR → EasyOCR → 视觉模型兜底)

🔌 REST API

启动 OpenAI 兼容的 API 服务:

llm-studio serve                 # http://localhost:8000
llm-studio serve --port 9000     # 自定义端口

OpenAI 兼容调用

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="YOUR_KEY",
    default_headers={"X-User-ID": "admin"},
)

response = client.chat.completions.create(
    model="auto",                    # 自动选择模型
    messages=[{"role": "user", "content": "你好"}],
    stream=True,
)
for chunk in response:
    print(chunk.choices[0].delta.content or "", end="")

主要端点

端点 说明
GET /v1/models 列出所有可用模型
POST /v1/chat/completions 聊天补全(支持 SSE 流式)
POST /v1/rag/ingest 投喂文档到知识库
POST /v1/rag/query RAG 检索增强问答
POST /v1/vision/analyze 图片识别分析
GET /health 健康检查

完整 API 文档(Swagger UI):http://localhost:8000/docs


🔑 API 密钥管理后台

启动 API 服务后访问 http://localhost:8000/admin 进入管理后台:

  • 默认密码:admin(首次登录后请修改)
  • 首次启动自动创建管理员用户和随机 API Key
  • 可视化创建用户、查看/重置密钥、启用/禁用用户
  • 用户数据持久化存储,重启不丢失

认证方式:请求头携带 X-User-ID + X-API-Key

curl -H "X-User-ID: admin" -H "X-API-Key: sk-llmstudio-xxx" \
  http://localhost:8000/v1/models

🌐 Web 界面

llm-studio ui

浏览器打开 http://localhost:7860,8 个功能页签:

📥 模型下载 · 💬 模型推理 · 🔧 模型微调 · 📚 知识库(RAG) · 🖼️ 图像识别 · 📤 模型导出 · 🔌 API 服务 · ℹ️ 系统信息


📁 项目结构

LLM-Studio/
├── config.yaml                  # 全局配置
├── requirements.txt             # Python 依赖
├── pyproject.toml               # 项目打包配置
├── llm_studio/
│   ├── cli.py                   # CLI 命令行入口
│   ├── config.py                # 配置管理
│   ├── downloader.py            # 模型下载
│   ├── runner.py                # 推理引擎 (Transformers + GGUF)
│   ├── finetuner.py             # LoRA/QLoRA 微调
│   ├── document_loader.py       # 多格式文档解析
│   ├── rag.py                   # RAG 向量检索管道
│   ├── vision.py                # 视觉模型 + OCR
│   ├── api_server.py            # FastAPI REST API 服务
│   ├── admin.py                 # API 用户/密钥管理
│   ├── admin_ui.html            # 管理后台前端
│   ├── exporter.py              # 模型导出/上传
│   └── web_ui.py                # Gradio Web 界面
├── docs/
│   ├── 功能说明.md
│   ├── 环境安装说明.md
│   ├── 编译说明.md
│   └── API接口说明.md
├── models/                      # 模型存放目录
├── datasets/                    # 数据集目录
└── finetuned_models/            # 微调输出目录

⚙️ 配置

编辑 config.yaml 自定义:

models_dir: "./models"                    # 模型存储路径
inference:
  temperature: 0.7                        # 推理参数
  max_tokens: 2048
rag:
  embedding_model: "BAAI/bge-small-zh-v1.5"  # RAG 嵌入模型
  chunk_size: 500
auth:
  enabled: true                           # API 认证开关
api:
  port: 8000

源码下载地址:https://github.com/airen3339/LLM-Studio

GitHub - airen3339/LLM-Studio: **跨平台大语言模型一站式管理平台** — 下载、推理、微调、知识库问答、图像识别、API 服务,一个工具全搞定。 · GitHub


📋 系统要求

项目 最低要求 推荐配置
Python 3.9+ 3.10+
内存 8 GB 16+ GB
磁盘 10 GB 50+ GB
GPU 可选(CPU 可运行) NVIDIA 8GB+ VRAM

支持的操作系统:Windows 10+ · macOS 12.3+ (MPS) · Ubuntu 20.04+


📄 文档

文档 说明
功能说明 完整功能模块详解
环境安装说明 各平台安装指南、GPU 配置
编译说明 打包发布、Docker 部署
API 接口说明 REST API 完整文档、认证方式、调用示例
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐