大模型入门指南(非常详细)零基础入门到精通,从零基础到AI大模型高手
本文介绍了自然语言处理的基础知识,包括基本任务、词表示和语言模型、大模型的基础等。同时,还详细讲解了神经网络的基础组成、训练过程、词向量、常见的神经网络模型如RNN、GRU、LSTM、双向RNN和CNN等。此外,还介绍了注意力机制和Transformer模型。最后,文章提供了丰富的AI大模型学习资料,包括学习思维导图、视频教程、实战学习等,帮助读者全面了解和掌握AI大模型技术。

0x01 自然语言处理基础
1.1 基本任务
Part of speech: 词性标注
Named entity recognition: 命名实体的识别
Co-reference: 共指向性(代指)
Basic dependencies: 依存句法–句法理论
Sentiment Analysis: 情感分类
Opinion Mining:意向挖掘
1.2 词表示和语言模型
Word Representation:词表示是为了计算机理解词,两个目标:词相似度计算,词之间语义的关系。
One-hot representation: 任何一个词和词表的一维特别表示,独一无二表示每个词。
Contextual representation: 一个词和其出现的上下文有关,利用词的上下文表示词。
Distributed representation: 低维的向量表示, 比如Word2Vec。
Word Embedding: embedding就是用一个低维的向量表示一个物体,可以是一个词,或是一个商品,或是一个电影等等。
Language Model: 两个目标:一个语言序列能组成有意义的句子(联合概率,语言模型根据前文预测下一个。
1.3 大模型的基础
大模型的发展: 预训练语言模型,参数越来越来大, 对无标注学习后进行少量样本进行学习.
大模型背后的范式: 预训练好的模型, 通过任务相关的数据进行模型调优,得到最后的模型.(基于迁移学习, 比如人基于已有的知识, 在新的任务进行适配)
DEMO: GPT, CodeX, DALL-E-2, WebGPT
1.4 编程环境和GPU服务器

知识储备
购买或租用GPU服务器.
0x02 神经网络基础
2.1 基本组成
下面是一个神经元, 接收多个输入x, 产生一个输出, w表示权重, b为权重. f为激活函数

下面是3个神经元, 输出有3个值, a1 a2 a3, 注意下面的公式 W 从单个神经元的向量变成矩阵, b 从标量变成向量.

下面是多层神经元, 中间隐层表示为 h , 这个计算为前向计算.

激活函数: (避免多层神经网络坍塌), 提升网络的表达能力.

输出层: 线性一般用于回归统计, Sigmod进行二分类,

线性和sigmod
输出层: 多分类输出:

输出结果若干正值, 和为1
2.2 训练过程
首先设定目标, 输入电脑的一些属性x, 预测电脑价格, 属于回归问题.

最小化交叉熵, 情感分类标签,

具体而言, Cross-entropy计算下交叉熵越小0.74, 预测越准确.

神经网络中我们通常使用梯度下降法, 每次缩小损失函数

对于上面的m个神经元, 我们可以按照梯度下降得到下面这个Jacobin矩阵:

计算图:

反向传播: 通过上游矩阵和当前梯度, 得到下游梯度.

2.3 词向量

向量空间近似平行

两种架构
滑动窗口: 滑动窗口的中心是目标词, 其他是context词.

CBOW

Skip-Gram
Nagative Sampling: 负例采样, 越常见的比例更高.
Sub-Sampling: 平衡罕见词语.
2.4 常见神经网络模型
RNN: 处理序列数据产生顺序记忆,递归的进行建模. 变量的输入, 权重共享
GRU(gated recurrent unit) 门控循环单元, 计算更新门和传递门.
LSTM 长短期间记忆网络
双向RNN:

2.5 CNN卷积神经网络

0x03 注意力机制
- 解决信息瓶颈,关注所有信息;
- 缓解梯度消失;
- 提供可解释性

0x04 Transformer

一个两层的RNN模型
Transformer由encoder-decoder组成, 输入做了BPE(byte pair encoding)对文本切分和每个token做Position Encoding.

4.1 输入层
BPE(byte pair encoding): 一种全新的分词方式, 不再按照空格分词. 解决OOV方式, 将没见过的单词切分更小的单词.
PE(position encoding): 基于三角函数
4.2 Encoding

基于点积的注意力机制,



4.3 Decoder
Masked 多头

假如你从2026年开始学大模型,按这个步骤走准能稳步进阶。
接下来告诉你一条最快的邪修路线,
3个月即可成为模型大师,薪资直接起飞。
阶段1:大模型基础

阶段2:RAG应用开发工程

阶段3:大模型Agent应用架构

阶段4:大模型微调与私有化部署

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇





配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)