原教程适用于基础算法薄弱者(附上教程链接):https://github.com/datawhalechina/base-llm

学习安排如下图所示:

一、什么是自然语言处理?

自然语言处理( NLP) 是计算机科学、人工智能和语言学的交叉领域,研究如何让计算机理解、解释和生成人类语言

核心矛盾在于:人类语言是模糊的、 context-dependent 的,而计算机需要精确的、形式化的输入

举个例子:你说"苹果很好吃",人类知道你在说水果;但如果说"苹果发布了新手机",人类能瞬间切换理解为苹果公司。这种歧义消解上下文理解正是NLP要解决的核心问题。

  • 计算语言学:更偏语言学理论,NLP更偏工程实现

  • 语音识别:把语音转为文字,是NLP的前置步骤

  • 自然语言理解:NLP的子集,侧重理解而非生成

  • 自然语言生成:NLP的子集,侧重生成文本

  • 大语言模型:当前NLP的主流技术范式,基于Transformer架构

二、核心任务分类

NLP任务可分为 理解 和 生成 两大维度

任务 说明 示例
分词 将句子切分为词或子词单元 "我爱北京天安门" → ["我", "爱", "北京", "天安门"]
词性标注 标注每个词的语法类别 "run/VB", "苹果/NN"
命名实体识别 识别专有名词(人名、地名、机构名) "马云创立了阿里巴巴" → [马云/人名, 阿里巴巴/机构名]
词义消歧 确定多义词在上下文中的具体含义 "bank"是银行还是河岸?
任务 说明 应用
句法分析 分析句子结构,生成语法树 确定主谓宾关系
依存句法分析 标注词与词之间的依存关系 主语←谓语→宾语
短语结构分析 识别名词短语、动词短语等 NP, VP chunking
任务 说明 示例
语义角色标注 识别"谁对谁做了什么" "小明吃了苹果" → 施事:小明, 动作:吃, 受事:苹果
语义相似度计算 判断两个句子意思是否相近 "我喜欢你" vs "我对你有好感" → 高相似度
指代消解 确定代词指代的对象 "小明说他饿了" → "他"=小明
关系抽取 从文本中提取实体间关系 "马云是阿里巴巴创始人" → (马云, 创始人, 阿里巴巴)
任务 说明
共指消解 跨句识别同一实体不同表述
篇章分析 理解段落间的逻辑关系(因果、转折等)
对话状态跟踪 多轮对话中维护上下文信息
  • 机器翻译:中英互译、多语言翻译

  • 文本摘要:抽取式 vs 生成式摘要

  • 问答系统:阅读理解、知识图谱问答、开放域问答

  • 对话系统:任务型对话(订机票)vs 开放域聊天

  • 文本生成:创意写作、代码生成、报告撰写

三、技术层次架构

从工程实现角度,NLP技术可分为五层:应用层、任务层、模型层、表示层、基础层

第一代:符号表示

  • One-hot编码:维度灾难,语义鸿沟("国王"和"女王"的向量正交,毫无相似性)

第二代:分布式表示(统计学习时代)

  • N-gram:基于统计的词共现,无法解决长距离依赖

  • Word2Vec(2013):通过上下文预测学习词向量,"king - man + woman ≈ queen"

  • GloVe:结合全局统计和局部上下文

第三代:上下文相关表示(深度学习时代)

  • ELMo(2018):双向LSTM,一词多义问题得到缓解

  • BERT(2018):双向Transformer编码器,"理解"能力极强

  • GPT系列(2018-至今):单向Transformer解码器,生成能力突出

第四代:大模型时代(LLM)

  • GPT-3/4、ChatGPT、Claude、DeepSeek:涌现能力(Emergent Abilities)、上下文学习(In-context Learning)、思维链(Chain-of-Thought)

  • 范式转变:从"预训练+微调"到"提示工程(Prompt Engineering)"再到"智能体(Agent)"

四、当前面临的主要挑战

  1. 歧义性

    • 词法歧义:"行"(xíng/háng)

    • 句法歧义:"咬死了猎人的狗"(是狗咬死了猎人?还是猎人的狗被咬死了?)

    • 语义歧义:"他走了一个小时"(离开?步行?去世?)

  2. 常识推理

    • 问题:"我把玻璃杯扔到水泥地上,会怎样?"

    • LLM能回答,但缺乏真正的物理世界理解,只是统计关联

  3. 隐喻与抽象

    • "时间就是金钱"——如何理解这种跨域映射?

  4. 长文本处理

    • Transformer的O(n2) 注意力复杂度限制上下文长度

    • 解决方案:稀疏注意力、滑动窗口、RAG(检索增强生成)

  5. 低资源语言/领域

    • 小语种、专业领域(如法律、医疗)数据稀缺

    • 解决方案:迁移学习、多语言预训练、领域自适应

  6. 幻觉问题

    • LLM生成看似合理但实际错误的内容

    • 缓解方案:RAG、事实核查、不确定性量化

  • 偏见与公平性:训练数据中的性别、种族偏见被模型放大

  • 隐私泄露:模型可能记忆训练数据中的敏感信息

  • 恶意使用:深度伪造、自动化诈骗、虚假信息生成

  • 对齐问题:如何让模型行为符合人类价值观(感兴趣可以学一下相关哲学)

五、与LLM/Agent的关系(结合我自己的学习方向,同学们可以自行制定学习计划)

之前学习过RAG、Agent范式(ReAct、Plan-and-Solve),这些正是当前NLP的前沿应用:

关键转变

  • 从特征工程到提示工程:不再手工设计特征,而是设计如何与模型交互

  • 从单任务到通用能力:一个模型通过提示适配多种任务

  • 从工具到智能体:LLM作为"大脑",通过工具调用与外部世界交互

六、学习路径建议(根据个人具体情况而定)

  1. 基础巩固:Python、数据结构、概率统计、线性代数(已学习)

  2. 传统NLP:掌握分词、TF-IDF、Word2Vec、TextCNN、BiLSTM+CRF(理解原理即可,不必深入实现,已学习)

  3. Transformer架构:必须手写实现一遍,理解Self-Attention、多头注意力、位置编码

  4. BERT/GPT原理:理解预训练任务(MLM、NSP、CLM)、微调方法

  5. LLM应用:提示工程、RAG(已学习)、Agent设计(ReAct等)

  6. 工程实践:LangChain/LlamaIndex、模型部署(vLLM)、量化推理

七、总结

因为比较熟悉使用Jupyter,所以在后续笔记内容则使用Notebook进行练习

NLP的本质是跨越人类语义空间与计算机数值空间的鸿沟。从规则到统计,从深度学习到大模型,技术范式不断演进,但核心挑战——让机器真正理解语言——依然存在。当前我们正处于"大模型统一范式"的时代,NLP的边界正在模糊化:视觉-语言模型(VLM)、世界模型、具身智能,都在推动AI向更通用的方向演进。对我而言,理解NLP的历史脉络和技术层次,有助于更好地把握LLM的底层逻辑,在考研复试或求职面试中展现出系统性思维

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐