基础与应用

  • 基本任务NLP

词性标注 Part of speech

例如:n. / v. / adj.

NNP       NNP              RB               VBD            IN        NNP        NNP

Mrs       Clinton       previously       worked        for        Mr         Obama.

命名实体识别 Named entity recongnition

例如:人名,日期等种类

        人名                   Date

Mrs       Clinton       previously       worked        for        Mr         Obama.

共指消解 Co-reference

例如:后文用代词指代前文具体事务

Mention                             M                Mention

Mrs    Clinton ..................she...............herself.

基本依存关系Basic dependencies

例如:动宾组合等语法,依存句法等句法理论

中文的自动分组Chinese text categorization
  • 应用举例

我们举在搜索引擎和在线广告领域为例
主要两个方面:

  1. 匹配用户query(查询)与所有document(文章)之间的相关度
  2. 给用户query反馈可能有用的广告

大概用到:text matching(文本匹配)     page rank算法       maching reading(机械阅读)

Data Mining and Information Retrieval(数据挖掘与信息检索)opinion mining(意见挖掘)

还有可能用到:sentiment analysis(情绪分类)

词表示与语言基础

  • 词表示word representation

即翻译成机器理解的意思

  • 相似度计算compute word similarity   

WR(Motel)=? WR(Hotel)

  • 指代关系infer word relation

WR(China)- WR(Beijing)=?WR(Japan)- WR(Tokyo)

方法一:同义词 / 上义词表示 Synonyms / Hypernyms

BUT!Problems:

  1. Missing  nuance 缺乏细微差别,仅在某些语境同义
  2. Missinc new meanings 时代发展(Apple)
  3. subjective 主观性
  4. Dale sparsity 数据稀缺
  5. Requires human labor to create and adape 人工调整与创建
方法二:one-hot representation   一个词一个独立符号,一个足够长的向量,一个词一维。

例如: word            ID                one-hot vector

         start             2                  [0,0,1,0,.......,0]

向量的长度 = 词的个数 (顺序不重要)

BUT!相似度计算永远为零!

方法三:contextual distribution(上下文分布

语义与上下文有关,在向量上加上其他词在上下文出现的次数,多维向量实现

BUT!空间占用太大,频度小的词稀疏

方法四:distribution (分布式表示)

从大模型文本语料库中学习每个词的稠密向量(Word 2 Vec)

语言模型 language model 

计算一个序列词成为一句话的概率:P(w) = P(w_1, w_2, \ldots, w_n)

根据前文,预测下一个词的概率:$P(w_n|w_1, w_2, \ldots, w_{n-1})$

即:P(\text{Never}, \text{too}, \text{late}, \text{to}, \text{learn}) = P(\text{Never}) \times P(\text{too} \mid \text{Never}) \times \dots \times P(\text{learn} \mid \text{Never}, \dots, \text{to})

[ P(\text{learn} \mid \text{Never}, \dots, \text{to}) = \frac{P(\text{Never}, \dots, \text{learn})}{P(\text{Never}, \text{too}, \text{late}, \text{to})} ]

语言模型的概率预测:

P(w_1, w_2, \dots, w_n) = \prod_{i=1}^n P(w_i \mid w_1, w_2, \dots, w_{i-1})

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐