本阶段的目标是:理解大模型的核心概念、能力边界、常见应用模式,以及成本评估方法。你不需要写代码,但需要建立起对AI应用的整体认知框架。


📌 阶段目标

  • 掌握大模型(LLM)的基本原理(非数学层面)
  • 理解 Token、上下文窗口、温度、top_p 等核心术语
  • 区分生成式AI与判别式AI
  • 了解主流模型及其特点
  • 熟悉AI应用的几种典型模式(补全、对话、RAG、Agent)
  • 学会评估模型选型(速度、质量、成本)

一、大模型(LLM)是什么?

大语言模型(Large Language Model, LLM) 是一种基于海量文本数据训练的神经网络模型,能够理解和生成自然语言。它的本质是一个 “文字接龙” 程序:给定上文,预测下文。

  • 训练:通过阅读互联网、书籍、代码等海量文本,学习语言规律、事实知识、逻辑推理。
  • 推理:根据你的输入(Prompt),逐词生成回答。

通俗理解:你向一位博览群书的专家提问,他根据自己读过的所有内容,组织语言回答你。


二、核心术语

1. Token

Token 是模型处理文本的最小单位。它不是单词,也不是字符,而是“单词的一部分”

  • 英文hello → 1 token;unhappinessun + happiness(2 token)
  • 中文:一个汉字 ≈ 1.5–2 token。例如“你好”约 3 token。
  • 代码:空格、缩进、括号都算 token。

为什么要关心 Token?

  • 模型有 上下文窗口限制(一次能处理的 Token 总数)
  • 按 Token 计费(输入/输出价格不同)
  • 长对话、长文档会快速消耗 Token

2. 上下文窗口(Context Window)

模型一次能接收的 最大 Token 数(包括你的输入 + 模型的输出)。

  • 早期模型:4K–8K Token
  • 主流模型:32K–128K
  • 超长文本模型:1M Token(如 Claude 200K,千问 Long)

影响:窗口越大,模型能“记住”的对话历史、参考的文档就越长。

3. 温度(Temperature)

控制模型回答的 随机性

  • 0:最保守,每次都选概率最高的词,回答确定性强。
  • 1:随机性高,更有创意,但可能跑题。
  • 推荐:一般任务用 0.7,需要稳定输出时用 0.1–0.3。

4. Top_p

另一种控制随机性的方式(核采样)。取概率总和达到 p 的最小词集合,从中随机选。

  • 常用组合:temperature=0.7, top_p=0.9

5. 生成式 AI vs 判别式 AI

类型 功能 举例
生成式 AI 创造新内容(文本、图像、代码) ChatGPT、Midjourney、Stable Diffusion
判别式 AI 分类、判断、识别 垃圾邮件分类、人脸识别

大模型属于生成式 AI,但也能通过提示完成分类任务。


三、主流模型速览

公司 模型系列 特点 适用场景
OpenAI GPT-4o, GPT-5 综合能力强,多模态,全球领先 通用对话、复杂推理
Anthropic Claude 3.5/4 安全性高,编程能力强,长上下文 编程、长文档分析
阿里云 通义千问(Qwen) 中文优化好,性价比高,开源友好 中文场景、企业应用
智谱AI GLM 系列 开源生态好,代码能力突出 编程、科研
DeepSeek DeepSeek-V3 开源,成本极低 高性价比场景
Meta Llama 系列 开源,社区活跃 本地部署、微调

选择建议

  • 通用中文:通义千问
  • 编程:Claude、GLM、DeepSeek
  • 国际业务:GPT、Claude

四、AI 应用的四种典型模式

1. 文本补全 / 对话

最基础的形式。用户输入一段文字,模型续写或回答问题。
示例

用户:用Java写一个单例模式。  
模型:public class Singleton { ... }

2. 函数调用(Function Calling)

模型输出结构化数据,供程序调用外部工具(API、数据库等)。
示例:用户问“北京今天天气”,模型输出 { "tool": "get_weather", "city": "北京" },程序据此调用天气 API。

3. RAG(检索增强生成)

让模型在生成答案时 参考外部知识库
流程:

  • 用户提问 → 检索相关文档片段 → 将片段 + 问题一起送给模型 → 模型基于事实回答。
    好处:避免幻觉,答案可溯源,适合企业内部知识问答。

4. Agent(智能体)

模型自主规划、调用工具、循环执行,完成复杂任务。
示例:让AI订机票,它自己会搜索航班、比价、填写表单,遇到问题会自我修正。


五、成本与评估

1. Token 计价

  • 输入(用户发送的内容)和输出(模型生成的回答)分开计费,通常输出价格是输入的 2–5 倍。
  • 示例(以阿里云 qwen3-30b 为例):
    • 输入:¥0.75 / 百万 Token
    • 输出:¥3 / 百万 Token

一次对话成本估算
假设你输入 1000 Token(约 500 汉字 + 上下文),模型输出 500 Token,则费用约为:
(1000×0.75 + 500×3) / 1,000,000 ≈ ¥0.00225,不到 1 分钱。

2. 模型选型三要素

  • 速度:实时聊天需要低延迟(<2秒),批量任务可容忍慢速。
  • 质量:简单任务用轻量模型,复杂推理、代码生成用旗舰模型。
  • 成本:权衡质量与价格,不一定总用最强模型。

策略:对 80% 的普通对话用性价比模型(如 qwen3-30b),对 20% 的复杂任务切换至高阶模型(如 qwen-max)。

3. 免费额度

几乎所有云厂商都提供新人免费额度(例如阿里云百炼主流模型各 100 万 Token 免费,90 天有效),足够你完成阶段一、二的实践。


六、实践任务(无需写代码)

  1. 注册一个云平台账号(推荐阿里云百炼)
    • 完成实名认证
    • 进入控制台,找到“模型广场”或“在线体验”
    • 尝试与不同模型对话(如 qwen-plus、qwen-max),感受差异
  2. 理解 Token 消耗
    • 在模型体验页面,输入一段文本,查看系统显示的 Token 数量
    • 对比中英文、代码片段的 Token 消耗差异
  3. 体验不同参数
    • 找支持调整温度、top_p 的界面(如百炼的“模型体验”),将温度调至 0 和 1 分别提问,观察回答变化
  4. 了解 RAG 概念
    • 阅读阿里云《RAG 技术解析》或相关科普文章
    • 设想一个你工作中可以用 RAG 解决的场景(如内部文档问答)

七、推荐学习资源

类型 资源
视频 吴恩达《生成式 AI 入门》系列(B站有翻译)
文章 OpenAI 官方《GPT 最佳实践》英文版 中文版
文档 阿里云百炼文档《模型介绍》《计量说明》
在线体验 阿里云百炼 Playground
术语速查 大模型术语表(Google “LLM glossary”)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐