大模型框架——第一节：自然语言处理基础

上善若水，不渡不行

342人浏览 · 2026-03-23 21:24:34

上善若水，不渡不行 · 2026-03-23 21:24:34 发布

基础与应用

基本任务NLP

词性标注 Part of speech

例如：n. / v. / adj.

NNP NNP RB VBD IN NNP NNP

Mrs Clinton previously worked for Mr Obama.

命名实体识别 Named entity recongnition

例如：人名，日期等种类

人名 Date

Mrs Clinton previously worked for Mr Obama.

共指消解 Co-reference

例如：后文用代词指代前文具体事务

Mention M Mention

Mrs Clinton ..................she...............herself.

基本依存关系Basic dependencies

例如：动宾组合等语法，依存句法等句法理论

中文的自动分组Chinese text categorization

应用举例

我们举在搜索引擎和在线广告领域为例
主要两个方面：

匹配用户query（查询）与所有document（文章）之间的相关度
给用户query反馈可能有用的广告

大概用到：text matching（文本匹配） page rank算法 maching reading（机械阅读）

Data Mining and Information Retrieval（数据挖掘与信息检索）opinion mining（意见挖掘）

还有可能用到：sentiment analysis（情绪分类）

词表示与语言基础

词表示word representation

即翻译成机器理解的意思

相似度计算compute word similarity

WR（Motel）=? WR（Hotel）

指代关系infer word relation

WR（China）- WR（Beijing）=？WR（Japan）- WR（Tokyo）

方法一：同义词 / 上义词表示 Synonyms / Hypernyms

BUT!Problems:

Missing nuance 缺乏细微差别，仅在某些语境同义
Missinc new meanings 时代发展(Apple）
subjective 主观性
Dale sparsity 数据稀缺
Requires human labor to create and adape 人工调整与创建

方法二：one-hot representation 一个词一个独立符号，一个足够长的向量，一个词一维。

例如: word ID one-hot vector

start 2 [0,0,1,0,.......,0]

向量的长度 = 词的个数（顺序不重要）

BUT!相似度计算永远为零！

方法三：contextual distribution（上下文分布）

语义与上下文有关，在向量上加上其他词在上下文出现的次数，多维向量实现

BUT!空间占用太大，频度小的词稀疏

方法四：distribution （分布式表示）

从大模型文本语料库中学习每个词的稠密向量（Word 2 Vec）

语言模型 language model

计算一个序列词成为一句话的概率： $P(w) = P(w_1, w_2, \ldots, w_n)$

根据前文，预测下一个词的概率： $P(w_n|w_1, w_2, \ldots, w_{n-1})$

即： $P(\text{Never}, \text{too}, \text{late}, \text{to}, \text{learn}) = P(\text{Never}) \times P(\text{too} \mid \text{Never}) \times \dots \times P(\text{learn} \mid \text{Never}, \dots, \text{to})$

$[ P(\text{learn} \mid \text{Never}, \dots, \text{to}) = \frac{P(\text{Never}, \dots, \text{learn})}{P(\text{Never}, \text{too}, \text{late}, \text{to})} ]$

语言模型的概率预测：

$P(w_1, w_2, \dots, w_n) = \prod_{i=1}^n P(w_i \mid w_1, w_2, \dots, w_{i-1})$

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

TCP协议的全面复习

AtomGit开源社区

AI 生成代码时代实操指南：如何守住你的系统认知主权

AtomGit开源社区

记几个有意思的面向对象题目

总结一下，对我来说在学习的过程中确实会有很多遗漏的知识点没能掌握，也有很多学过的知识点容遗忘，但是多写代码对知识点的记忆是会有很大益处的，现在是计科的学生，以后成为码农后，代码的敲击是要日复一日来提升自己的，虽然说有AI的帮助，但自己会了才是真的会，没办法，学识浅薄，仍需努力！不过实际上我们在计算哈希值的时候，可以直接调方法，如对象.hashcode();//举个例子就如果说如果我们生成的哈希值是