【大模型】3.大模型选型、推理框架及算力云服务器介绍

yuhuofei2021

340人浏览 · 2026-05-17 11:33:59

yuhuofei2021 · 2026-05-17 11:33:59 发布

1. 大模型选型

要做大模型的选型，就需要认识各种各样的大模型并了解它们的特点。

大模型种类	特点	常用大模型
通用模型	通用能力强，文本推理，文本生成，深度思考等	DeepSeek、Qwen3、kimi-k2、GPT-4.5、Claude3系列等
多模态模型	多模态支持（文本/图像/音频/视频），跨媒体理解能力强	GPT-4o、Qwen2.5-VL、Qwen2.5-Omni、GLM-4.5V等
文本嵌入模型	将文本转换成计算机能理解的数值向量，对文本进行降维处理	BGE系列（small、base、large），OpenAI Embedding，Qwen3-Embedding等
多模态嵌入模型	将文本、图像、音频、视频等不同模态的数据向量化，同一个向量空间中	GME-Qwen2-VL，openai-CLIP，Chinese-CLIP等
多模态解析模型	负责解析复杂结构的数据	DoIphin，Dots.OCR，MonkeyOCR，Unstructured等等
垂直领域大模型	专注于某一个领域的复杂问题，如蛋白质结构预测	DeepMind-AIphaFold，360安全大模型，讯飞星火4.0（医疗）等

2. 大模型Token购买平台

使用大模型能力，主流的方式用两种，一种是在线调用大模型API，另一种是私有化部署大模型。

若对数据安全的要求没有那么高，可以通过购买Token在线调用大模型API，是最省事的。

若对数据安全要求比较高，不允许数据外出，那只能私有化部署了，不过成本可能会比较高，不仅要部署模型，还得解决GPU算力的问题，相对麻烦。

以下是一些可以购买Token实现在线调用大模型API的平台：

平台	购买地址	特点
百炼平台	https://bailian.console.aliyun.com/	国内的模型较为全面
智普AI	https://open.bigmodel.cn/	图像、OCR、ASR、TTS的大模型都有，但模型种类有点单一
xiaoai中转商	https://xiaoai.plus/	一个大模型接口网关，支持国内外很多厂商的大模型
Kimi	https://platform.moonshot.cn/	月之暗面，有潜力，有搜索工具

3. 大模型推理框架

大模型的应用遵循先训练后推理，训练过程就是大模型学习成长的过程，推理过程就是大模型提供服务的过程。

大模型的私有化部署，一般会部署一个基础版的且已经做过训练的基模，部署起来后再做微调，微调结束才到推理阶段。

大模型的私有化部署离不开大模型推理框架，常见的大模型推理框架有：

推理框架	所属团队	核心特点
vLLM	加州大学伯克利分校	高效管理KV缓存，显存利用率可达95%以上，支持张量并行和流水线并行
SGLang	伯克利团队	利用Radix树高效管理和复用KV缓存前缀，尤其擅长多轮对话；结构化输出，零开销批处理；缓存感知负载均衡
Transformers库	Hugging Face	提供从模型加载、微调到推理的全流程；灵活的API和训练接口，支持模型范围最广
LMDeploy	上海人工智能实验室	量化部署工具链，针对华为昇腾等国产芯片优化、多模态融合支持
TensorRT-LLM	NVIDIA	深度链路优化，预编译优化，支持FP8/INT4等多种量化方案，内核级优化（针对Transformers模块的深度CUDA优化）

4. 算力云服务器

做大模型私有化部署，离不开算力，也就是GPU，可以自己买GPU服务器（比如国外的英伟达A100、V100、H100等，国产的海光K100、华为昇腾910系列、华为昇腾950系列），也可以买公有云算力。

以下是一些可以购买算力的云服务平台：

平台名称	地址	特点
再造云	https://gpu.zaizao.cloud	便宜，远程用，定制化服务
Autodl算力	https://www.autodl.com/home	资源最多，远程用，隧道公交
Suanli算力	https://www.suanlix.cn	有独立IP，远程用，隧道命令
阿里云	https://account.aliyun.com/	最稳定，最贵，什么都有

当下使用大模型最省事的方式就是直接购买大模型Token，不用自己考虑算力的事，买Toekn就已经包含买算力了。

做私有化部署，部署完大模型，还得买算力服务器，并且搭建算力的管控平台管控算力资源，要做的麻烦事不是一般的多。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

CMakeLists.txt 超详细完整详解（零基础到企业级实战）

MyProject：项目名，自动生成变量VERSION：项目版本，自动生成变量：启用 C++ 和 C 语言项目名项目版本项目根目录（源码根路径）编译构建目录CMake 所有自定义配置全部用 set。# 定义单个变量 set(APP_NAME MyApp) # 定义源码文件列表（多文件空格/换行分隔） set(SRCS main.cpp src/test.cpp ) # 定义头文件路径 set(IN

AtomGit开源社区

《2026 年 IT 行业最有前途的 7 个方向，选错了再努力也没用》

过去两年，“IT 裁员潮”“35 岁危机”“技术红利见顶”等声音不绝于耳。但如果把时间轴拉到 2026 年，你会看到一个截然不同的真相：不是 IT 行业不行了，而是“传统 IT”的生存空间被彻底重构了。2025-2026 年的裁员，本质上是企业用 AI 和云原生架构替换重复性、低附加值岗位的“结构性出清”。CRUD 工程师、手工测试员、传统运维、基础 DBA 等岗位被自动化工具和低代码平台快速替代