云端大模型之提示词基本思维

鹤熙i

342人浏览 · 2026-04-16 20:53:59

鹤熙i · 2026-04-16 20:53:59 发布

一、云端大模型

1、什么是云端大模型？

“云端大模型”指的是国内外大模型厂商提供的公有云大模型，以api接口的形式提供给用户付费调用大模型。下面我们简单市面上常见的大模型服务商如下：

公司/机构	平台/产品名称	代表模型	平台核心介绍
阿里巴巴	阿里云百炼	通义千问系列	一站式大模型应用开发平台，提供模型选型、微调训练、应用编排（如Agent、工作流）、知识库（RAG）及安全部署等全链路服务，以其开放性和对企业级需求的深度支持著称。
百度	百度智能云千帆	文心一言系列	面向企业开发者的一站式大模型开发及服务运行平台，不仅提供模型服务，还包含全生命周期模型定制与运维工具，尤其在中文处理和多轮对话场景有深厚积累。
OpenAI	OpenAI API	GPT系列（如GPT-4o）	全球领先的大模型API服务，提供强大的自然语言理解和生成能力，生态系统成熟，是许多应用的原型开发首选，但其服务对国内用户存在可访问性挑战。
Google	Vertex AI	Gemini系列（如Gemini 2.5 Pro）	集成在Google Cloud上的统一AI平台，提供包括大模型训练、部署和多模态推理在内的全套工具和服务，深度整合Google的搜索技术与生态系统。
Microsoft	Azure AI Studio / Azure OpenAI服务	集成OpenAI模型及自有模型	将OpenAI的先进模型与Azure云的企业级服务、安全性和全球基础设施相结合，为企业提供稳定、可信赖的大模型集成环境。

在上述的大模型供应商中，国内最常使用的有阿里云百炼和百度千帆，国外则是openai和微软Azure等平台。

2、使用openai库调用大模型

我们使用的工具是阿里云百炼大模型平台。

使用openai库调用大模型，首先我们在百炼平台上注册账号，并创建API Key

在百炼平台注册账号

创建 API Key

使用pip安装openai库

# 如果运行失败，您可以将pip替换成pip3再运行
pip install openai

使用前面创建好的api-key

from openai import OpenAI
import os

client = OpenAI(
    api_key="your api key", 
    # api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)


completion = client.chat.completions.create(
    # 模型列表：https://help.aliyun.com/zh/model-studio/getting-started/models
    model="qwen-plus",  # qwen-plus 属于 qwen3 模型
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': '你是谁？'}
    ]
)

print(completion.choices[0].message.content)

2、使用百炼SDK调用大模型¶

使用pip安装百炼SDK

# 如果运行失败，您可以将pip替换成pip3再运行
pip install dashscope

使用百炼SDK调用大模型

import dashscope

dashscope.api_key = 'api-key'

response = dashscope.Generation.call(
    model='qwen-max',
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant'},
        {'role': 'user', 'content': '你是谁？'}
    ]
)

print(response.output['text'])

3、基于ollama库调用ollama本地部署的大模型

本地部署大模型，就是在你自己的电脑上运行AI，不需要联网，数据也不会上传到云端。Ollama是一个专门用来简化这一过程的工具。

而ollama库（通常指Python的ollama库或通过HTTP请求调用的接口），是用来让你的代码与本地运行的大模型进行对话的“桥梁”。

简单来说三步走：

安装并启动Ollama：先在电脑上装好Ollama软件，然后用命令下载一个模型（比如ollama run llama3）。
用ollama库发起调用：在你的Python代码中导入ollama库，通过几行代码向本地模型发送提示词，并接收回复。

示例代码片段：

python
```
import ollama
response = ollama.chat(model='llama3', messages=[{'role': 'user', 'content': '你好'}])
print(response['message']['content'])
```
处理返回结果：模型给出的回答会以结构化的数据返回，你可以提取、保存或继续用它做下一步处理。

为什么要用ollama库，而不是自己写底层调用？

封装了通信细节：不需要自己处理HTTP请求、JSON解析等繁琐工作。
支持流式输出：可以像ChatGPT那样一个字一个字往外蹦，体验更好。
支持多轮对话：自动维护对话上下文，方便做聊天机器人。

4、大语言模型中的三大角色

这三大角色通常出现在系统提示词或对话管理中，用来区分谁在说话、谁在指令、谁在回答。分别是：系统、用户、助手。

系统（System）
负责设定规则和背景。相当于“给整个对话定调子的人”。
例如：告诉模型“你是一位耐心的数学老师”、“回答要简洁”、“全程使用中文”。系统角色的指令通常优先级最高，用户一般看不到或改不了。
用户（User）
就是提问的人，也就是你。你向模型发送问题、任务或指令。
例如：“请解释什么是区块链？”
助手（Assistant）
就是大模型本身。它根据系统设定的规则和用户的问题，生成回答。
例如：模型回复“区块链是一种分布式账本技术……”

用一个课堂场景来类比：

系统 = 教学大纲和课堂规则（不许讲话、要用英文回答）
用户 = 举手提问的学生
助手 = 按照规则回答问题的老师

二、提示词工程进阶

提示词工程包含多种技术，每种都有独特优势，适合不同场景。从简单的直接提问到复杂的多步推理，这些技术可以更好的来引导模型输出我们需要的信息。结合提示词工程的原则，以及现实世界需要解决的各类文本处理问题类型，我们总结出来6种常用的提示词工程技术：

简单单轮的基础提示词技术：Zero-shot（零样本学习）、Few-shot（少样本学习）
解决复杂场景的进阶提示词技术：Chain-of-Thought (思维链)、Prompt Chaining（链式提示）、ReAct、Self-Consistency（自我一致性）。

1 、基础提示词技术¶

1.1 Zero-Shot¶

Zero-Shot 提示不提供示例，直接靠模型预训练知识完成任务。像问专家问题，他凭经验直接回答。

特点：

高效：无需准备示例，适合快速测试。

灵活：利用模型广博知识。

案例：

将文本分类为中性、负面或正面。

文本：我认为这次假期还可以。

模型输出：

根据文本内容分析，分类结果如下：

分类：中性

分析理由：

关键词"还可以"表达了中等程度的评价

没有强烈的积极词汇（如"很棒"、"非常好"）

也没有消极词汇（如"糟糕"、"失望"）

整体语气平淡，属于中等偏一般的评价

这是一个典型的中性评价，既不是明确的推荐也不是批评。

1.2 Few-Shot¶

Few-Shot提示通过 1-3 个参考示例引导模型理解模式，使模型实现了更好的性能。

特点：

精准：示例减少歧义，提升一致性。

案例：

你是一个翻译专家，请将英文句子翻译成中文。

示例：
英文：I like apples.
中文：我喜欢苹果。

现在请翻译：
英文：The weather is nice today.
中文：

模型输出：

今天天气很好。

2 、复杂推理增强技术¶

2.1 思维链 (CoT)¶

Chain-of-Thought 是一种提示技术，通过展示中间推理步骤来解决复杂问题。这种方法可以帮助模型更好得推理和生成答案。可以将其与少样本提示相结合，以获得更好的结果。

类型：

Zero-shot-CoT (零样本思维链) 是指不给任何示例，只在提示中加一句类似：“Let’s think step by step.”（让我们一步步思考）。模型在看到这句话时，就会自己展开推理链，而不是直接给结果。
Few-shot-CoT (少样本思维链) 是指在提示中给出几个带推理过程的示例。

特点：

准确：分解复杂问题，避免错误。

透明：推理过程可审查。

3、多步任务执行技术

3.1 链式提示

什么是链式提示？

链式提示（Chain-of-Prompting）是一种与大模型交互的策略：将一个复杂任务拆解为多个有依赖关系的子任务，每个子任务单独提示，并以上一步的输出作为输入。

简单说：不要让AI一次做所有事，而是让它一步一步做，你每一步都“牵着它走”。

以前互联网有一段ai笑话，就是我要去加油站，走路5分钟，开车10分钟。如图 belike:

为什么要用链式提示？

直接抛出一个复杂问题，大模型容易产生以下问题：
回答结构混乱
遗漏关键点
各要求之间互相干扰

链式提示相当于给模型建立了“思考路径”，把不确定性降到最低。

代码示例对比

不推荐（单次提示）：
请分析以下代码的bug、时间复杂度和空间复杂度，然后重构它。

推荐（链式提示）：
Step 1: 请解释这段代码的功能
Step 2: 基于Step1，找出潜在的bug
Step 3: 基于Step2，分析时间复杂度和空间复杂度
Step 4: 基于以上分析，给出重构后的代码

适用场景

✅ 代码审查与优化
✅ 多步骤文案生成（大纲→段落→润色）
✅ 技术方案设计（需求→架构→实现）
✅ 学习辅导（概念→例子→练习→解答）

注意事项

每一步的提示要明确依赖上一步，用“基于上面的结果”这样的衔接词
可以在任意步骤人工修正，再让模型继续
不是所有任务都需要链式提示，简单问题直接问更高效

3.2 自我一致性

自我一致性（Self-Consistency）说白了就是：别让AI只回答一次，让它多回答几次，然后投票。

大模型每次回答都有一定随机性。对于有标准答案的问题（比如数学题、逻辑题），一次回答可能对也可能错。但如果你问它5次，其中4次都给出同一个答案，那这个答案正确的概率就非常高。

具体做法：

把同一个问题向AI提问多次
每次让它写出推理过程（思维链）
从每次回答中提取最终答案
统计哪个答案出现次数最多，输出它

这个方法不需要改模型，不需要训练，只需要多调用几次API。代价是时间和费用增加，但换来的准确率提升在很多场景下是值得的。

3.3 ReAct

ReAct（Reason + Act）是一种让大模型不仅能“思考”，还能“动手”的框架。

传统的大模型只能基于训练数据中的知识来回答。对于需要实时信息或与外部环境交互的任务，它无能为力。ReAct 的思路很简单：让模型在思考过程中可以调用工具（比如搜索引擎、计算器、API），拿到结果后再继续思考，直到得出答案。

一个典型的 ReAct 循环是：
Thought（我想做什么）→ Action（我调用什么工具）→ Observation（工具返回了什么）→ 重复 → 最终答案。

举个例子：问“今天北京天气怎么样”，纯模型会瞎猜；ReAct 模型会先思考“需要查天气”，然后调用天气API，拿到结果后回答你。

这个方法特别适合需要实时数据、计算、或与环境交互的任务。缺点是多次调用工具会增加耗时和成本，但换来的是答案的准确性和可执行性。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

企业评估 Agent 成熟度的五级模型

智能Agent：是指能够感知环境、做出决策并采取行动以实现特定目标的计算机系统。它具有自主性、反应性、主动性和社交能力等特征。成熟度模型：是一种框架，用于描述一个实体（如组织、系统或过程）从初始状态到优化状态的演进路径。它通常由多个离散的级别组成，每个级别代表一组特定的能力和特征。Agent成熟度：指的是Agent系统在自主性、适应性、协作性、学习能力和可靠性等关键维度上的发展水平。在深入探讨上下

AtomGit开源社区

【EI复现】基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(Matlab代码实现）

基于元模型的优化算法是一种基于历史数据来驱动样本点的加入从而逼近局部或全局最优解的优化机制，能够改善传统启发式智能算法需要繁复数值模拟的缺陷，目前在飞行器设计等航空航天领域的应用[20]最为广泛，在电力系统方面也有初步的应用。提出基于 Kriging 元模型的博弈均衡算法，在求解过程中建立 Kriging 元模型替代 VPP 内部的能量管理模型，利用粒子群优化算法搜索优异采样点，更新修正 Krig