本文用通俗易懂的语言解释了AI开发中的核心概念:大语言模型(LLM)、Token和Embedding,强调了前端开发者无需深入理解底层原理,只需掌握它们的基本用法和常见问题即可。文章还介绍了如何通过API调用来实现LLM功能,并通过实际场景展示了这三个概念在前端开发中的应用。最后,文章提供了一些避坑指南,帮助新手开发者避免常见的认知错误。

今天就用大白话,把 LLM、Token、Embedding 讲清楚。保证你看完能直接上手调 API,不扯任何复杂理论。

LLM:大语言模型到底是个啥

先说 LLM(Large Language Model)。

名字听着高大上,说白了就是:一个训练过的文本生成器。

你给它一段文字,它按概率猜下一个字该是什么。猜得准不准,取决于它见过的"学习资料"多不多。

GPT-4、通义千问、文心一言,都是 LLM。区别只在于训练数据和参数量不同。

图片

前端开发者需要理解到什么程度

说实话,你不需要知道 Transformer 架构、不需要懂反向传播。

但你要明白一件事:LLM 不是搜索引擎,它不会"查资料"再回答你。

它是基于概率生成的,所以会出现"一本正经胡说八道"的情况(术语叫"幻觉")。

做 AI前端 开发时,这点特别关键。

如果你的应用对准确性要求高(比如医疗、金融),就不能直接把 LLM 的输出展示给用户。得加一层校验,或者配合知识库使用——这就是后面要讲的 RAG。

说到 LLM 的使用方式,有两种:

在线 API 调用:通义千问、OpenAI 这些平台提供接口,你按文档调就行。这是最常用的方式,前端调用AI接口基本都是走这条路。

本地部署:像 Ollama 这种工具,可以在自己电脑上跑小模型。适合对数据隐私要求高的场景,但性能有限。

对大多数前端开发者来说,先用 API 就够了。跑通了再说别的。

图片

LLM 的核心参数

调 API 时,你会看到几个关键参数。搞懂它们,比看论文管用多了。

temperature(温度):控制输出的随机性。设成 0,回复稳定可预测;设成 1,回复更有创意但也更不可控。做代码生成,建议设 0.3 以下。

max_tokens(最大输出长度):限制 AI 回复的最大字数。设太小会被截断,设太大会浪费钱。一般对话场景设 500-1000 就够了。

top_p(采样阈值):跟 temperature 配合使用,控制用哪些词来生成回复。普通场景用默认值就行,不用调。

Token:AI 计费的"字数单位"

Token 这个词,在 AI 领域有两个含义,别搞混了。

第一种:认证用的 API Key

就是你调 API 时放在请求头里的"通行证"。

headers: {  'Authorization': 'Bearer sk-xxxxxxxxxxxxxxxxxxxx'}

这个 Token 相当于你的 API 密钥,别泄露出去。泄露了别人就能用你的额度,钱就白花了。

AI生成前端代码时,经常需要把 API Key 写在前端代码里——这是个安全隐患,后面避坑篇会讲怎么处理。

第二种:AI 计费的"字数单位"

这个才是重点。

LLM 处理文本不是按"字"算的,是按"Token"算的。

一个 Token 大概是 0.75 个英文单词,或者 1-2 个中文字。不同模型的 Tokenizer(分词器)不一样,切出来的 Token 数量也有差异。

图片

为什么你要关心 Token 数量

因为 AI 是按 Token 收费的。

输入算钱,输出也算钱。你塞给 AI 的内容越多,花的钱越多。

做个简单的 智能前端 聊天功能,如果每次对话都把完整聊天记录传给 AI,Token 量蹭蹭涨,账单也蹭蹭涨。

所以实际开发中,得做上下文管理:

  • 保留最近 N 条对话
  • 超出限制就截断
  • 重要信息做摘要压缩
// 上下文管理示例const MAX_CONTEXT_TOKENS = 4000; // 最大上下文 Token 数function trimContext(messages: ChatMessage[], maxTokens: number) {  let totalTokens = 0;  const trimmed: ChatMessage[] = [];
  // 从后往前遍历,保留最近的对话  for (let i = messages.length - 1; i >= 0; i--) {    const msgTokens = estimateTokens(messages[i].content);    if (totalTokens + msgTokens > maxTokens) break;
    trimmed.unshift(messages[i]);    totalTokens += msgTokens;  }
  return trimmed;}// 粗略估算 Token 数量(中文约 1.5 字/Token)function estimateTokens(text: string): number {  const chineseChars = (text.match(/[/u4e00-/u9fff]/g) || []).length;  const otherChars = text.length - chineseChars;  return Math.ceil(chineseChars / 1.5 + otherChars / 4);}

这段代码是我在做一个 Vue结合AI开发 项目时用的。简单粗暴,但管用。

其实还有个更精确的办法:用官方提供的 Tokenizer 库来算。但那个得装额外依赖,对于前端项目来说有点重。粗略估算够用了。

Embedding:把文字变成向量的魔法

Embedding 这个词,听起来最抽象。

我用个例子来解释,保证你一听就懂。

想象你在整理一个图书馆。书太多了,怎么快速找到相似的?

一种办法是按关键词分类。但关键词有局限性——"汽车"和"轿车"意思差不多,但关键词匹配可能搜不到一起。

Embedding 的做法是:把每本书的内容变成一个"坐标点",意思相近的书,坐标就离得近。

文字 → 向量坐标 → 计算距离 → 找到相似内容

这就是 Embedding 的核心逻辑。

图片

前端开发中 Embedding 用在哪

做 前端AI集成方案 时,Embedding 最常见的应用场景是:相似度搜索。

比如你要做个知识库问答:

  • 用户问:“怎么重置密码?”
  • 你从文档库里找最相关的段落
  • 把相关段落 + 用户问题一起传给 LLM
  • LLM 基于这些资料生成回答

第一步"找相关段落",就用 Embedding 来做。

// Embedding 调用示例(通义千问)async function getEmbedding(text: string): Promise {  const response = await fetch('https://dashscope.aliyuncs.com/api/v1/services/embeddings/text-embedding/text-embedding', {    method: 'POST',    headers: {      'Authorization': 'Bearer YOUR_API_KEY',      'Content-Type': 'application/json'    },    body: JSON.stringify({      model: 'text-embedding-v1',      input: { texts: [text] }    })  });

  const data = await response.json();  return data.output.embeddings[0].embedding; // 返回一个向量数组}
// 计算两个向量的相似度(余弦相似度)function cosineSimilarity(a: number[], b: number[]): number {  const dotProduct = a.reduce((sum, val, i) => sum + val * b[i], 0);  const normA = Math.sqrt(a.reduce((sum, val) => sum + val * val, 0));  const normB = Math.sqrt(b.reduce((sum, val) => sum + val * val, 0));  return dotProduct / (normA * normB);}
// 使用示例const doc1Vec = await getEmbedding('如何重置密码');const doc2Vec = await getEmbedding('密码忘记了怎么办');const similarity = cosineSimilarity(doc1Vec, doc2Vec);console.log('相似度:', similarity); // 越接近1越相似

这段代码跑下来,你会发现"如何重置密码"和"密码忘记了怎么办"的相似度很高(大概 0.8 以上),虽然字面上几乎没有相同的词。

这就是 Embedding 的魔力——它理解的是语义,不是字面匹配。

AIGC前端 应用里,这个能力太有用了。搜索、推荐、问答,都离不开它。

Embedding 的实际限制

Embedding 虽好,但有两个坑。

第一个:维度太高,前端存不下。

一个文本的 Embedding 向量通常是 768 到 1536 维。你不可能把成千上万条文档的向量都存在浏览器里。

所以实际项目中,Embedding 的计算和存储一般放在后端。前端只负责调用搜索接口。

这也是为什么 Phase 3 要学 Python 后端——光靠前端搞不定完整的 RAG 系统。

第二个:多语言支持有限。

国内大模型的 Embedding 对中文支持不错,但如果你要做多语言搜索,效果可能打折。

选模型的时候注意看文档,确认它支持的语言范围。

三者的关系:LLM、Token、Embedding 怎么配合

聊到这儿,你可能有点晕。这三个东西到底啥关系?

我用一个实际场景串起来:

场景:做一个智能客服机器人

LLM 负责"回答问题"——它根据你给的信息,生成自然语言回复。

Token 负责"计费和管理"——你得控制输入输出的 Token 数量,不然费用失控。

Embedding 负责"找资料"——用户提问后,先从知识库里找到最相关的文档片段。

完整流程是这样的:

  • 用户问:“你们的退款政策是什么?”
  • 用 Embedding 把问题转成向量
  • 在知识库向量库里搜索最相似的文档片段
  • 把问题 + 相关文档片段拼成 Prompt
  • 检查 Token 数量,超出就截断
  • 调用 LLM API 生成回答
  • 把回答展示给用户

这就是一个 AI赋能前端开发 的典型工作流。

看起来复杂,拆开来每个环节都很简单。

避坑指南:新手常犯的 3 个认知错误

分享几个我踩过的坑。

第一个坑:把 LLM 当搜索引擎用

一开始我让 AI 直接回答实时性问题(比如"今天天气怎么样"),结果它编了个答案出来。

LLM 的知识是训练时定死的,它不知道"今天"是哪天,更不知道天气。

正确做法:实时信息走 API 查询,LLM 只负责理解和生成。

第二个坑:不计较 Token 消耗

做测试的时候觉得"多传点上下文没关系",上线后一看账单傻眼了。

养成习惯:每次调 API 前,先估算一下 Token 量。设好上限,超出就截断。

第三个坑:Embedding 向量直接比较大小

刚开始我直接拿两个向量的差值来判断相似度,结果完全不对。

向量比较要用余弦相似度(cosine similarity),不是简单相减。上面的代码里有实现,直接拿去用就行。

图片

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐