1. 大模型选型

要做大模型的选型,就需要认识各种各样的大模型并了解它们的特点。

大模型种类 特点 常用大模型
通用模型 通用能力强,文本推理,文本生成,深度思考等 DeepSeek、Qwen3、kimi-k2、GPT-4.5、Claude3系列等
多模态模型 多模态支持(文本/图像/音频/视频),跨媒体理解能力强 GPT-4o、Qwen2.5-VL、Qwen2.5-Omni、GLM-4.5V等
文本嵌入模型 将文本转换成计算机能理解的数值向量,对文本进行降维处理 BGE系列(small、base、large),OpenAI Embedding,Qwen3-Embedding等
多模态嵌入模型 将文本、图像、音频、视频等不同模态的数据向量化,同一个向量空间中 GME-Qwen2-VL,openai-CLIP,Chinese-CLIP等
多模态解析模型 负责解析复杂结构的数据 DoIphin,Dots.OCR,MonkeyOCR,Unstructured等等
垂直领域大模型 专注于某一个领域的复杂问题,如蛋白质结构预测 DeepMind-AIphaFold,360安全大模型,讯飞星火4.0(医疗)等

2. 大模型Token购买平台

使用大模型能力,主流的方式用两种,一种是在线调用大模型API,另一种是私有化部署大模型。

若对数据安全的要求没有那么高,可以通过购买Token在线调用大模型API,是最省事的。

若对数据安全要求比较高,不允许数据外出,那只能私有化部署了,不过成本可能会比较高,不仅要部署模型,还得解决GPU算力的问题,相对麻烦。

以下是一些可以购买Token实现在线调用大模型API的平台:

平台 购买地址 特点
百炼平台 https://bailian.console.aliyun.com/ 国内的模型较为全面
智普AI https://open.bigmodel.cn/ 图像、OCR、ASR、TTS的大模型都有,但模型种类有点单一
xiaoai中转商 https://xiaoai.plus/ 一个大模型接口网关,支持国内外很多厂商的大模型
Kimi https://platform.moonshot.cn/ 月之暗面,有潜力,有搜索工具

3. 大模型推理框架

大模型的应用遵循先训练后推理,训练过程就是大模型学习成长的过程,推理过程就是大模型提供服务的过程。

大模型的私有化部署,一般会部署一个基础版的且已经做过训练的基模,部署起来后再做微调,微调结束才到推理阶段。

大模型的私有化部署离不开大模型推理框架,常见的大模型推理框架有:

推理框架 所属团队 核心特点
vLLM 加州大学伯克利分校 高效管理KV缓存,显存利用率可达95%以上,支持张量并行和流水线并行
SGLang 伯克利团队 利用Radix树高效管理和复用KV缓存前缀,尤其擅长多轮对话;结构化输出,零开销批处理;缓存感知负载均衡
Transformers库 Hugging Face 提供从模型加载、微调到推理的全流程;灵活的API和训练接口,支持模型范围最广
LMDeploy 上海人工智能实验室 量化部署工具链,针对华为昇腾等国产芯片优化、多模态融合支持
TensorRT-LLM NVIDIA 深度链路优化,预编译优化,支持FP8/INT4等多种量化方案,内核级优化(针对Transformers模块的深度CUDA优化)

4. 算力云服务器

做大模型私有化部署,离不开算力,也就是GPU,可以自己买GPU服务器(比如国外的英伟达A100、V100、H100等,国产的海光K100、华为昇腾910系列、华为昇腾950系列),也可以买公有云算力。

以下是一些可以购买算力的云服务平台:

平台名称 地址 特点
再造云 https://gpu.zaizao.cloud 便宜,远程用,定制化服务
Autodl算力 https://www.autodl.com/home 资源最多,远程用,隧道公交
Suanli算力 https://www.suanlix.cn 有独立IP,远程用,隧道命令
阿里云 https://account.aliyun.com/ 最稳定,最贵,什么都有

当下使用大模型最省事的方式就是直接购买大模型Token,不用自己考虑算力的事,买Toekn就已经包含买算力了。

做私有化部署,部署完大模型,还得买算力服务器,并且搭建算力的管控平台管控算力资源,要做的麻烦事不是一般的多。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐