🌞欢迎来到人工智能的世界 
🌈博客主页:卿云阁

💌欢迎关注🎉点赞👍收藏⭐️留言📝

📆首发时间:🌹2026年5月16日🌹

✉️希望可以和大家一起完成进阶之路!

🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!


大模型的认知

LLM是什么

大模型全称为大语言模型,英文为 Large Language Model,缩写 LLM。它是一类基于机器学习与

自然语言处理技术构建的深度模型,通过学习海量文本数据,习得人类语言的语义理解、上下文推

理及文本生成能力,能够完成问答、对话、文本创作、指令遵循等任务。

Chat GPT是对话的产品(就是我们在网上看到的内容),里面的模型使用的GPT-3.5。(相当于里

面的发动机)。

国家 对话产品 大模型 链接
美国 OpenAI ChatGPT GPT-3.5、GPT-4 https://chat.openai.com/
美国 Microsoft Copilot GPT-4 和未知 https://copilot.microsoft.com/
美国 Google Bard PaLM 和 Gemini https://bard.google.com/
中国 百度文心一言 文心 https://yiyan.baidu.com/
中国 讯飞星火 星火 https://xinghuo.xfyun.cn/
中国 智谱清言 ChatGLM https://chatglm.cn/
中国 月之暗面 Kimi Chat Moonshot https://kimi.moonshot.cn/
中国 MiniMax 星野 abab https://www.xingyeai.com/
常见大模型的版本区分
标签 / 术语 含义解释
通义千问2.5 这是通义千问第2.5代通用模型
版本编号 (如0314、2025-03-05) 这些数字通常代表模型的发布或修订日期。
72B 指大模型的内部参数量,比如还有DeepSeek满血版DeepSeek-671B,1个B为10亿。
1M (含32k等) 这个标签通常指的是模型处理文本时的最大token数(或“上下文窗口”大小)。32k意味着模型能够在一个实例中处理最多32,000个token。这对于处理长文本特别有用。
Turbo 这可能指的是模型的一个优化版本,旨在提高速度和效率,可能在保持生成质量的同时减少了资源消耗。
Preview 这通常意味着该模型是供早期访问、测试或预览的版本。它可能不是最终的商业版本,但提供了对即将发布功能的早期查看。
带V字 这意味着模型被设计或优化以处理视觉数据,比如图像或视频

ChatGPT的技术原理

大模型的训练整体上分为三个阶段:预训练、SFT(监督微调)、基于人类反馈的强化学习

(RLHF)

预训练 (Pre-training) 

模型像海绵一样阅读互联网上的海量文章,学习语言规律和世界常识。

监督微调 (SFT) 

人类给它示范标准的“一问一答”,手把手教它怎么理解指令、怎么回答问题。

强化学习 (RLHF) 

人类做裁判给它的回答打分,它根据分数不断调整,揣摩人类喜好。

Token是什么?

Token 是大语言模型(LLM)处理和理解人类语言的“最小基本单位”。

英文单词:  常见的短单词通常就是 1 个 Token(比如 apple, run)。

      较长或罕见的单词可能会被切碎成几个 Token(比如 hamburger 可能会被切成 ham、bur、ger

三块)。在英文中,大约 1 个 Token 约等于 0.75 个单词(或者说 100 个 Token 约等于 75 个英文

单词)。

中文字符:在早期的模型中,一个汉字往往对应 1 个甚至多个 Token(因为汉字编码复杂)。

现在的中文大模型经过优化,常用的词组(如“苹果”、“中国”)可能会被打包算作 1 个 Token,但

很多时候一个汉字依然算作 0.5 到 1 个 Token。在中文里,通常 1 个 Token 约等于 0.5 到 1 个汉

字。

标点符号和空格: 它们也算 Token!

大模型为啥叫做大模型?

参数极大(算力底座):参数量十亿起步(如 GPT-3 的1750亿,GPT-4 的1.8万亿),赋予了模

型强大的学习与记忆能力。

数据海量(知识来源):依赖海量的文本、图像、音频等多模态数据进行训练,是模型掌握知识的

基础。

应用高效(赋能生产):AIGC 技术已深入传媒等行业的“采、编、播”全流程,大幅提升了内容生

产的效率、质量与影响力。


简单的大模型应用开发

基本步骤

注册平台用户:前往对应大模型服务平台,完成账号注册与实名认证。

开通大模型调用权限:在个人控制台申请开通大模型 API 调用功能,阅读并同意服务协议。

获取身份凭证 API‑Key:进入密钥管理页面,创建并复制专属 API Key,用于接口身份校验。

代码调用实现功能:基于 Python 等编程语言,编写调用代码,传入 API‑Key、提示词等参数,向

接口发送请求,接收并解析模型返回结果,实现问答、文本生成等业务功能。

大模型服务平台百炼控制台(使用教程)

配置API Key到环境变量

做法 做法比喻 缺点/优点
写死在代码里 (Hardcoding) 把银行卡密码写在银行卡背面 极易泄漏;切换环境需改代码;团队协作麻烦。
配置到环境变量 (Environment Variables) 密码记在脑子里或存入密码管理器 安全(代码中无敏感信息);灵活(一套代码随处运行);专业

在 Linux 或 macOS 系统中配置永久环境变量的经典操作流程。(以阿里云百炼的

DASHSCOPE_API_KEY 为例)

写入配置文件

​
echo "export DASHSCOPE_API_KEY='YOUR_DASHSCOPE_API_KEY'" >> ~/.bashrc

让配置立刻生效

source ~/.bashrc

检查是否成功

echo $DASHSCOPE_API_KEY

代码实现

删除环境变量

大模型赋能行业

大模型赋能各行各业,核心路径是依托垂直行业数据,构建行业专属大模型,通过精细化落地实现

智能化升级。通用大模型具备基础的语言理解与生成能力,但缺乏行业专业知识与场景适配性,因

此需要针对不同领域,利用行业私有数据、业务规则、专业知识库,通过微调、领域预训练等方

式,打造医疗、法律、政务、工业、水务等垂直领域大模型,使其精准匹配行业业务逻辑、专业术

语与实际应用场景。在部署方式上,可采用本地部署或云端部署两种模式。其中通过 Ollama 实现

本地私有化部署,能够将模型与数据完全部署在企业内部环境,避免数据外传;而云端部署虽然便

捷高效,但企业业务数据、隐私信息、敏感行业资料需上传至公有云,存在数据泄露、信息合规、

隐私安全等风险。因此对安全要求较高的行业,更适合采用本地私有化部署模式,在保障数据安全

的前提下,实现大模型技术的行业赋能。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐