大模型框架——第一节:自然语言处理基础
基础与应用
-
基本任务NLP
词性标注 Part of speech
例如:n. / v. / adj.
NNP NNP RB VBD IN NNP NNP
Mrs Clinton previously worked for Mr Obama.
命名实体识别 Named entity recongnition
例如:人名,日期等种类
人名 Date
Mrs Clinton previously worked for Mr Obama.
共指消解 Co-reference
例如:后文用代词指代前文具体事务
Mention M Mention
Mrs Clinton ..................she...............herself.
基本依存关系Basic dependencies
例如:动宾组合等语法,依存句法等句法理论
中文的自动分组Chinese text categorization
-
应用举例
我们举在搜索引擎和在线广告领域为例
主要两个方面:
- 匹配用户query(查询)与所有document(文章)之间的相关度
- 给用户query反馈可能有用的广告
大概用到:text matching(文本匹配) page rank算法 maching reading(机械阅读)
Data Mining and Information Retrieval(数据挖掘与信息检索)opinion mining(意见挖掘)
还有可能用到:sentiment analysis(情绪分类)
词表示与语言基础
-
词表示word representation
即翻译成机器理解的意思
- 相似度计算compute word similarity
WR(Motel)=? WR(Hotel)
- 指代关系infer word relation
WR(China)- WR(Beijing)=?WR(Japan)- WR(Tokyo)
方法一:同义词 / 上义词表示 Synonyms / Hypernyms
BUT!Problems:
- Missing nuance 缺乏细微差别,仅在某些语境同义
- Missinc new meanings 时代发展(Apple)
- subjective 主观性
- Dale sparsity 数据稀缺
- Requires human labor to create and adape 人工调整与创建
方法二:one-hot representation 一个词一个独立符号,一个足够长的向量,一个词一维。
例如: word ID one-hot vector
start 2 [0,0,1,0,.......,0]
向量的长度 = 词的个数 (顺序不重要)
BUT!相似度计算永远为零!
方法三:contextual distribution(上下文分布)
语义与上下文有关,在向量上加上其他词在上下文出现的次数,多维向量实现
BUT!空间占用太大,频度小的词稀疏
方法四:distribution (分布式表示)
从大模型文本语料库中学习每个词的稠密向量(Word 2 Vec)
语言模型 language model
计算一个序列词成为一句话的概率:
根据前文,预测下一个词的概率:
即:
语言模型的概率预测:
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)