在这里插入图片描述

LLM的接入方式

如果需要自己写一个AI应用来实现相关AI行为,则需要自行接入LLM。
常见的原生LLM(不经过第三方平台或复杂的代理层,直接与大语言模型提供方进行交互的方法)接入方式有三种:【API远程调用】、【开源模型本地部署】和【SDK和官方客户端库】

1. API接入

这是目前最主流、最便捷的接入方式,尤其适用于快速开发、集成到现有应用以及不想管理硬件资源的场景。
通过HTTP请求(通常是RESTful API)直接调用模型提供商部署在云端的模型服务。代表厂商:OpenAI(GPT-4o)、Anthropic(Claude)、Google(Gemini)、百度文心一言、阿里通义千问、智谱AI等。
典型流程就是:

  1. 注册账号并获取API Key:在模型提供商的平台上注册,获得用于身份验证的密钥。
  2. 查阅API文档:了解请求的端点、参数(如模型名称、提示词、温度、最大生成长度等)和返回的数据格式。
  3. 构建HTTP请求:在你的代码中,使用HTTP客户端库(如Python的requests)构建一个包含API Key(通常在Header中)和请求体(JSON格式,包含你的提示和参数)的请求。
  4. 发送请求并处理响应:将请求发送到提供商指定的API地址,然后解析返回的JSON数据,提取生成的文本。

以deepseek为例,官网地址:https://platform.deepseek.com/usage

在这里插入图片描述
点击创建API Key,创建完成后保存API Key。

在这里插入图片描述
调用:

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${DEEPSEEK_API_KEY}" \
  -d '{
        "model": "deepseek-v4-pro",
        "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "Hello!"}
        ],
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
        "stream": false
      }'

使用 Postman 或者Apifox等客户端发起调用

在这里插入图片描述

2. 本地接入

大模型本地部署,这种方式就是将开源的大型语言模型(如Llama、ChatGLM、Qwen等)部署在你自己的硬件环境(本地服务器或私有云)中。核心概念就是,将下载模型的文件(权重和配置文件),使用专门的推理框架在本地服务器或GPU上加载并运行模型,然后通过类似API的方式进行交互。
典型流程是:

  1. 获取模型:从Hugging Face(国外)、魔搭社区(国内)等平台下载开源模型的权重。
  2. 准备环境:配置具有足够显存(如NVIDIA GPU)的服务器,安装必要的驱动和推理框架。
  3. 选择推理框架:使用专为生产环境设计的框架来部署模型,例如:
  • vLLM:特别注重高吞吐量的推理服务,性能极佳。
  • TGI:Hugging Face推出的推理框架,功能全面。
  • Ollama:非常用户友好,可以一键拉取和运行模型,适合快速入门和本地开发。
  • LM Studio:提供图形化界面,让本地运行模型像使用软件一样简单。
  1. 启动服务并调用:框架会启动一个本地API服务器(如http://localhost:8000),你可以像调用云端API一样向这个本地地址发送请求。
> 下载并安装Ollama

Ollama是一款专为本地部署和运行大型语言模型(LLM)设计的开源工具,旨在简化大型语言模型(LLM)的安装、运行和管理。它支持多种开源模型(如qwen、deepseek、LLaMA),并提供简单的API接口,方便开发者调用,适合开发者和企业快速搭建私有化AI服务。

Ollama官网:https://ollama.ai

> 拉取模型

Ollama可以管理和部署模型,我们使用之前,需要先拉取模型。
修改模型存储路径
模型默认安装在C盘个人目录下C:\Users\XXX.ollama,可以修改ollama的模型存储路径,使得每次下载的模型都在指定的目录下。有以下两种方式:

  1. 配置系统环境变量
    变量名:OLLAMA_MODELS
    变量值:${自定义路径}
  2. 通过Ollama界面来进行设置
    设置完成后,重启Ollama。
> 测试

模型拉取之后,可以通过命令行和AI模型对话。

3. SDK接入

这并非一种独立的接入方式,而是对第一种API接入的封装和简化。模型提供商通常会发布官方编程语言SDK,为我们封装好了底层的HTTP请求细节,提供一个更符合编程习惯的、语言特定的函数库。
典型流程(以OpenAI Python SDK为例):
安装库:pip install openai
安装OpenAI SDK后,可以创建一个名为example.py的文件并将示例代码复制到其中。

from openai import OpenAI
client = OpenAI(api_key="your-api-key")

response = client.responses.create(
	model="gpt-5",
	input="介绍⼀下你⾃⼰。"
)
print(response.output_text)

相比直接构造HTTP请求,代码更简洁、更易读、更易维护。

4. 问题与思考

对于以上三种接入方式,我们该如何选择?

  • 看数据敏感性:如果数据极其敏感,必须留在内部,本地部署是唯一选择。
  • 看技术实力和资源:如果团队没有强大的MLops(机器学习运维)能力,也没有预算购买和维护GPU服务器,云端API是更实际的选择。
  • 看成本和规模:如果应用规模很大,长期来看,本地部署的固定成本可能低于持续的API调用费用。反之,小规模应用API更划算。
  • 看定制需求:如果只是使用模型的通用能力,云端API足够。如果需要用自己的数据微调模型,则需要选择支持微调的API或直接本地部署。

实际上,只要是原生LLM,无论怎么接入都有限制。为什么?

  1. 输入长度限制:所有LLM都有固定的输入长度(如4K、8K、128K、400K Token)。我们无法将一本几百页的PDF或整个公司知识库直接塞给模型。
  2. 缺乏私有知识:模型的训练数据有截止日期,且不包含我们的私人数据(如公司内部文档、个人笔记等)。让它基于这些知识回答问题,非常困难。
  3. 复杂任务处理能力弱:原生API本质是一个“一问一答”的接口。对于需要多个步骤的复杂任务(如“分析这份财报,总结要点,并生成一份PPT大纲”),我们需要自己编写复杂的逻辑来拆解任务、多次调用API并管理中间状态。
  4. 输出格式不可控:虽然可以通过提示词要求模型输出JSON或特定格式,但它仍可能产生格式错误或不合规的内容,需要我们自己编写后处理代码来校验和清洗。

像LangChain这样的框架,正是为了系统性地解决这些问题而诞生的。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐