一、大模型介绍

1.大模型的核心定义

(1) 大模型本质上是一个强大的数学函数,通过神经网络构建,旨在解决通用问题。

大模型 = 超大参数神经网络 + 海量数据训练

通过预测下一个词,靠预训练、微调、对齐变强大。

 💫大语言模型(LLM)

本质:超大规模语言模型,核心是根据上文预测下一个词 / Token

流程:文本编码 → Transformer 计算 → 输出词概率 → 生成句子。

                                       

Token:模型处理文字的最小单位,对应词表中的编号。

(2) 技术本质

是一个数学函数f和参数θ的组合,f:描述计算方法, θ:参与计算的参数(模型权重)

给一个输入数据x,得到一个输出结果y,y= f(x,θ)

  • 推理:用训练好的模型算结果。
  • 训练:用数据拟合、调整参数 θ,让模型更准。

💫机器学习:把θ从f中分离出来,可以专注θ的优化或者学习

定义好f之后,随机初始化θ

利用训练数据不断优化θ 

 💫神经网络

输入层、隐藏层、输出层组成。

不用人工假设函数形式,可拟合任意复杂规律,是大模型的基础。

(3)“大”的含义: 指模型参数的总数量巨大,通常在10亿级别以上。

(4) 大模型的f :采用深度学习中的 Transformer 架构,拥有庞大的神经网络结构,该器件具备极强的复杂度和学习能力。

(5) 开发者视角:对程序员而言,大模型核心就是一个功能强大的HTTP API。

2.大模型训练三步曲

a.预训练(通识教育)

用海量无标注文本(百科、新闻、代码等)学习语言、推理、常识、事实知识

模型知识广,但不专业、易 “胡说”

b.微调(专业教育)

用高质量问答数据,让模型擅长特定任务

分全量微调(效果好、成本高)和轻量微调 LoRA(主流、高效)

c.对齐(守规矩)

让模型安全、有用、符合人类价值观

方式:RLHF 人类反馈打分红队测试(找漏洞、教拒答)

3.资源获取

(1)国内:阿里 (Qwen)、字节 (豆包)、腾讯 (混元)、智普 (GLM)、月之暗面 (Kimi)、稀宇科技 (Minimax)、华为 (盘古)、百度 (文心) 等。

(2)国外:GPT(openai)、Gemini(google)、Claude(Anthropic)、Llama(亚马逊) 等。

(3)模型分类:

按模态:文本、多模态、语音、计算机视觉;

按参数规模:小 / 中 / 大 / 超大型模型。

(4)选型思路

性价比 = 任务成功率 × 响应速度 / 成本 + 维护 + 风险,不只看单价

(5)对开发者来说就是使用大模型API服务(针对文本、图像、音频、视频、代码等可以分别调用对应专项处理大模型的API去针对每一类使用)

使用流程:

        在对应的官网云平台登录→开放平台 → 创建 API Key( 用于身份验证 + 计费,严禁泄露)→ 配置 base_urlapi_key,用 Python/Java 调用

阿里云百炼https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/all

火山方舟大模型服务平台(字节)https://www.volcengine.com/docs/82379/1330310?lang=zh

硅基流动https://www.siliconflow.cn/models/

Hugging Facehttps://huggingface.co/model

魔搭社区(ModelScope)(阿里巴巴达摩院)https://modelscope.cn/models

核心API调用类型:

(1)文本输入(基础对话)

messages包含system设定 AI 身份(助手 / 翻译 / 老师)/user/assistant模型回复 三角色

例:阿里千问系列qwen-plus/qwen-max

(2)流式输入(边生成边输出)

关键参数:stream=Truestream_options={"include_usage": True}

遍历 chunk,逐段拼接 / 打印

(3)图像输入(视觉理解)

支持:在线 URL / 本地图片(Base64 编码)

例:qwen-vl-plus、qwen3.5-plus

(4)视频输入(输入格式是视频文件/图像序列)

        通过Base64 编码或文件路径传入,需要依赖DashScope SDK ≥1.24.6

💫SDK(软件开发工具包)

        一个完整的SDK通常包含多种资源的组合,旨在帮助处理从开发到测试的各个层面:

API(应用程序编程接口):是SDK的核心部分,允许你的代码与目标平台(如AWS、iOS、Android)进行“对话”。

代码库(Libraries):预先写好的代码片段,你可以直接调用来实现特定功能(例如加密、网络请求、图像处理等),而不需要自己重新造轮子。

开发文档:这是“说明书”,详细解释了如何使用 SDK 中的各个功能。

示例代码:提供一些简单的模板,让你能够快速上手。

调试和开发工具:包括编译器、调试器、模拟器等,用于辅助测试和优化你的应用。

(5)联网搜索

        需要开启extra_body={"enable_search": True}

例:qwen-plus(支持实时检索)

(6)异步调用(长文本 / 复杂任务,减少等待)

        实现 async/await + asyncio,适配 Windows:设置事件循环策略

(7)文档理解

上传文件→获取 file_id→放入 system prompt→提问总结

例:qwen-long

 💫推荐一个vscode好用的插件continue,装好插件后,win+R输入%userprofile%\.continue,如果没有就新建一个config.json(这里推荐json格式,但.yaml去配置也是ok,不同后缀的文件写配置格式都不同,这里演示.json配置格式

配置完点击Reload刷新或重新进入vscode就可以看到刚刚配置好的模型

        类似这样好用的Agent插件,还推荐GitHub Copilot (相当于付费订阅套餐,能够使用当下流行的大模型),像claude系列Opus4.7、gpt5.4等

4.大模型的应用场景

        大模型已展现出跨行业的应用潜力,能处理多项任务,如问答、翻译、代码编写、图片生成与处理、文献阅读等。

二、智能体

多模态

(1)定义:能同时处理文本、图片、音频、视频等多种信息。

(2)应用:图文理解、音乐生成、视频生成(Sora、Seedance、可灵 AI)。

(3)特点:像人一样 “看、听、说、理解”,但目前在细节(如手指数量)上仍易出错。

Agent& Subagent

趋势:从 “问答 AI” 走向能自主办事的 Agent,是程序员和普通人的超级工具。

(1)定义:LLM + 工具调用(搜索、代码、浏览器、插件),自主完成复杂任务

(2)能力:自动查信息、写代码、做报表、处理订单、修 Bug。

(3)本质:会思考 + 调用工具 + 执行的 AI 助手。

为什么需要 Subagent

1.原有 Agent 工具调用会把支线执行记录混入主线对话,导致上下文混乱、精度下降。

Subagent 思路:任务拆分 + 上下文隔离,像函数调用一样独立执行、执行完销毁上下文。

2.版本演进

v0:基础子代理,任务派发给子 Agent,隔离对话历史

v1:拆分为 ParentAgent + ChildAgent 独立类

v2:按任务类型分发(日常 / 数学 / 文件 / 命令),专用子 Agent 处理专用任务

v3:抽象 BaseAgent 父类,统一结构

v4:接入 MCP 远程工具(天气、快递等)

3.最终架构

主 Agent:理解意图 → 拆解任务 → 分发子 Agent

子 Agent:执行具体工具 → 返回结果

优势:干净、稳定、可扩展、易维护

💫推荐开源项目

learn-claude-code:12 步从零实现 Agent + Subagent,是业界标准学习案例。

智能体设计模式

1.核心思想:Harness Engineering(驾驭工程)

把大模型比作 “烈马”,用架构、规则、反馈控制它,稳定、安全、可复现。

2. 四大设计模式

反思:先生成草稿 → 再评估 / 纠错 → 优化输出(翻译、写作、代码都适用)

工具使用:调用能力外挂:计算、命令、文件、MCP、数据库。

规划:复杂任务自动拆解为有序子任务,生成可执行 Prompt,按步骤执行

多智能体协同:主管 Agent + 多个专业 Agent 分工协作,类似团队作业

3.常用框架

LangGraph、CrewAI、Google ADK

 💫LangChain vs LangGraph

LangChain

帮你快速搭 LLM 应用:

调模型、写 Prompt

做 RAG(文档加载→切片→向量库→检索)

简单工具调用、基础记忆

一句话组合出聊天 / 总结 / 翻译机器人

LangGraph

解决 LangChain Chain 做不了的复杂智能体

循环思考(思考→行动→观察→反思)

分支决策(满足条件才走某步)

多 Agent 分工(主 Agent+SubAgent)

断点恢复、人工审核、持久化记忆

适合做真正能干活的 Agent 系统

SKILL

1.SKILL 是什么

一套标准化能力包

SKILL.md:任务规则、命令格式、示例

scripts/:可执行脚本(py/sh)

统一用 命令行 exec_cmd 调用,扩展无需改代码

2.为什么需要SKILL

原生工具调用不稳定:匹配不准、流程不确定、难以扩展。

SKILL = 把固定任务流程固化,让 Agent 稳定复现。

3.优势

统一入口:所有能力都走命令行,无限扩展

稳定复用:任务流程固化,不会乱调用工具

可分享:像插件一样安装、共享、使用别人的 SKILL

4.运行方式

Agent 加载 SKILL → 解析指令 → 执行命令行脚本 → 返回结果

5.举例

https://github.com/JinGuYuan/jinguyuan-dumpling-skill

三、Prompt:为Agent提供提示词的模板

1.使用Prompt的2种目的

(1)获得questions具体的results

(2)固化一套Prompt到程序中【基于公司知识库问答】

2.如何对Prompt进行调优(投其所好)

举例:openAI Gpt对markdown格式友好,claude对xml友好

高质量的Prompt具备:具体、丰富、少歧义

(1)一般由角色 指示 上下文(背景) 例子(one_shot learning/few_shot learning /context learning) 输入 输出

(2)优化思路

a.明确任务和角色

定义输入输出,输出格式(json、markdown等)、风格、长度限制等

b.给例子(像情感分析类的大模型要给正反两类)

c.分解复杂任务(一步步思考)

d.设定边界 (在接入RAG向量检索生成库后)

e.进行评估优化,构建输入输出(优质测试用例),定义评估指标,A/B测试(对照+实验组)

四、RAG(Retrieval-Augmented Generation)检索增强生成

RAG 要解决什么问题

大模型天生 3 个短板:

  1. 知识过时:训练数据截止到过去,不知道最新政策、校内信息
  2. 没有私有知识:无法回答企业文档、个人笔记、专业资料
  3. 容易幻觉:没见过的内容会一本正经瞎编

RAG = 给大模型装知识外挂,让它先查资料再回答。

RAG 基本概念

1.先从外部知识库检索相关内容,再把资料给大模型生成准确答案

                                                 

2.核心优势

时效性强:随时更新知识库

准确性高:基于原文回答,几乎不幻觉

成本低:不用重新训练模型(对比微调)

 💫RAG vs 微调

微调:闭卷考试,把知识灌进模型,难更新、成本高

RAG:开卷考试,现场翻书查资料,随时更新、更稳定

3.RAG 标准工作流程

a.多源知识汇聚 + 语义切片收集文档 → 清洗 → 按语义切分成小片段

b.向量嵌入 + 入库用 Embedding 模型把文本转成向量 → 存入向量数据库

c.精准语义召回用户提问 → 向量化 → 检索最相似片段

d.上下文重构 + 生成答案把检索片段拼进 Prompt → 大模型按资料回答

4.关键技术细节

a.文档切片

太碎:语义断裂、拼不出完整答案

太厚:噪声大、关键信息淹没

推荐:递归切片(先按章节 / 段落,再细分,带重叠)

b.向量嵌入

把文字变成一串数字,语义相近 → 向量距离近

首选:BGE-M3(中文强、免费开源)

相似度计算:用余弦相似度

c. 向量数据库

学习 / 小项目:Chroma、FAISS(轻量免费)

企业项目:Milvus、PostgreSQL+pgvector

d.检索优化

TopK:召回 3~5 条最相关片段

相似度阈值:低于阈值拒答,避免乱答

混合检索:向量检索 + BM25 关键词检索

Rerank 精排:让结果更准

5.Python 实现 RAG

ingest.py:文档读取 → 切片 → 向量化 → 存入 Chroma

medical_mcp_server.py:提供 MCP 检索工具

client.py:调用 MCP → 检索知识 → 传给大模型生成答案

强规则:没查到就拒答,不瞎编

6.Java 实现 RAG(基于 spring-ai-alibaba)

引入 POM 依赖→加载文档(MD/PDF)→文档切片→文本向量化→存入向量库→检索 + 问答

五、实操

大模型构造聊天系统 (简洁回答 + 历史存档)

1.聊天系统核心特点

多轮交互,角色化对话,话题聚焦,可打断可扩展支持图文表情工具调用等

2.实现时注意

(1)原生 API 是无状态的,不会保存历史,一问一答会丢失上下文,我们可 手动维护 messages 数组,每轮把用户提问与 AI 回答追加进去,一起传给大模型。

💫关键代码逻辑

初始化messages,包含system角色

循环接收用户输入

追加user消息 → 调用 API → 获取回答

追加assistant消息 → 实现多轮记忆

输入exit退出循环 </aside>

(2)修改system prompt→控制回答长度→角色化定制(可外部化配置)

💫角色化定制

system prompt写到独立 .md 文件(如translator.mdnews.md

代码加载 md 文件内容作为系统提示

运行时传入 md 路径,一键切换角色,无需改代码 </aside>

大模型调用工具

大模型为什么需要工具调用

1.天生缺陷:

实时感知能力:不知道当前时间、最新新闻、实时数据

精准计算能力:复杂数学、排序、大数运算易出错

操作执行能力:不能读写文件、执行命令、操作数据库

外部交互能力:不能调用 API、控制设备、访问系统

2.调用的核心思想(大模型做决策 + 代码做执行)

让大模型决定什么时候用、用哪个工具,代码负责真正执行,弥补能力短板。

MCP协议

1.核心概念(Model Context Protocol)

作用:AI 模型与外部工具 / 数据的标准化通信协议

形态:基于 HTTP 的远程工具调用服务

2.为什么用MCP

解决工具重复开发、维护难、无法复用问题

工具集中部署在服务器,客户端只需调用

实现创建与使用分离,像 USB 接口即插即用

3.快速开发MCP

安装:pip install fastmcp

服务端:用@mcp.tool装饰器定义工具

客户端:异步连接、调用远程工具

可部署在 Linux/Windows/ 云服务器

4.MCP 两种传输协议

Streamable HTTP:接口以/mcp结尾

SSE:接口以/sse结尾,适合长连接、流式返回

5.第三方MCP服务使用

魔搭社区 MCP 广场:网页抓取、必应搜索、天气、12306

阿里云百炼 MCP 广场:快递查询、图文生成、地图、文档处理

使用方式:

(1)选择支持 SSE/Streamable HTTP 的服务

(2)获取远程 URL

(3)客户端配置 URL 与鉴权(API Key)

(4)大模型自动发现并调用远程工具

💫多 MCP 聚合

        用Responses API一次性接入多个 MCP 服务,自动级联完成复杂任务(如查天气 + 查高铁 + 订车票)。

                              

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐