专业术语统计报告_电力科技知识驱动的专家匹配选择与优化分配模型研究

一、概要简析

【概要分析】
本文档《电力科技知识驱动的专家匹配选择与优化分配模型研究》超用心地围绕研究主题展开了系统性探讨哦😜!文档总字符数足足有200756,其中中文字符73507个,英文字词14834个,妥妥体现了中英文混搭的学术写作小特色~从文档里扒出来的专业术语一共有1829个,涉及6个研究领域,主打就是扎堆在图神经网络(1550次)、评审专家优选(1525次)、电力系统(1521次)这块儿~高频术语比如“专家”(出镜1042次)、“关系”(露脸530次)等,一眼就能看出研究的核心小焦点✨!整体来说,这篇文献在相关研究领域超有学术价值,一顿系统分析+论述操作下来,给后续研究铺好了超重要的理论小地基和方法小参考~

【数据统计】

  • 总字符数:200756
  • 中文字符数:73507
  • 英文字词数:14834

二、统计图表分析

2.1 三类术语层次分布

【数据统计】

  • 论文名称术语:3个 (核心术语:专家匹配选择、优化分配模型、电力科技知识驱动)
  • 标题摘要术语:505个 (核心术语:项目、实体关系、论文)
  • 正文术语:1321个 (核心术语:专家、关系、电力科技)
  • 术语总数:1829个
  • 频次占比:论文名称 0.9% | 标题摘要 27.3% | 正文 71.8%

【可视化图表】

旭日图

类别 术语数量 频次 占比
论文名称 3 126 0.9%
标题摘要 505 3850 27.3%
正文 1321 10112 71.8%
总计 1829 14088 100%

【图表评论】
旭日图超直观地展示了三类术语在文档不同部分的层次分布啦🌞!从内到外依次是论文名称术语、标题摘要术语和正文术语~论文名称层级藏着3个核心术语,总频次126次,占比0.9%,核心术语有“专家匹配选择、优化分配模型、电力科技知识驱动”,这些小家伙直接概括了研究的核心主题哟~标题摘要层级有505个术语,总频次3850次,占比27.3%,核心术语像“项目、实体关系、论文”,悄悄透露了研究的次要关键词和方法论~正文层级最最丰富啦,有1321个术语,总频次10112次,占比71.8%,核心术语比如“专家、关系、电力科技”,把研究的具体技术细节和实验方法都扒得明明白白~从内到外一层层细化,论文名称术语锁定研究主题,标题摘要术语拓宽研究范围,正文术语钻进具体技术实现,搭出超完整的术语层次小体系,把文档的知识结构揭露得清清楚楚~


2.2 研究领域分布

【领域分析】

  • 主要领域:图神经网络(1550次)、评审专家优选(1525次)、电力系统(1521次)

【可视化图表】

雷达图

研究领域 术语出现次数
知识图谱嵌入 1514
图神经网络 1550
电力系统 1521
评审专家优选 1525
自然语言处理 1519
推荐系统 1516
总计 9145

【图表评论】
雷达图咻咻地展示了专业术语在六个研究领域的分布情况🎯,一眼就能看出文档的学科交叉小特性~从图里能瞅见,术语分布有这些小可爱特点:图神经网络 出场次数最多,足足1550次,妥妥是研究的核心小基础~评审专家优选 和 电力系统 的频次分别是1525次和1521次,组成了研究的次要支撑小领域~而 知识图谱嵌入 频次少丢丢,只有1514次,说明这个领域在本研究里露脸不多啦~各领域术语分布虽有小差异,但整体超均衡,标准差是12.1,妥妥反映了研究的多学科交叉融合小特点~这种分布格局说明,本研究不仅在核心领域挖得深,还广泛吸收了相关学科的理论和方法,搭出超完整的研究小体系~


2.3 专业术语分布

【集中度分析】

  • 前5术语累计频次:2748次
  • 前5术语累计占比:26.6%
  • 前10术语累计占比:36.6%

【可视化图表】

环形图_专业术语
水平柱状图_专业术语

排名 术语 频次
1 专家 1042
2 关系 530
3 电力科技 427
4 术语 395
5 知识 354
6 项目 271
7 实体关系 215
8 197
9 成果 177
10 论文 175
11 关键词 168
12 评审专家 148
13 知识图谱 142
14 科技文本 101
15 权威度 92
前15累计 4434

【图表评论】
环形图和柱状图超清晰展示了高频术语的分布情况和集中度啦🥳!从图里能看到,前5个高频术语累计频次飙到2748次,占总频次的26.6%,集中度超高有没有~前10个高频术语累计占比也达到了36.6%,更能证明研究主题超聚焦~排名第一的术语“专家”出场1042次,是研究的核心小概念~排名第二的术语“关系”出现530次,排名第三的术语“电力科技”出场427次,这仨搭成了研究的核心术语小体系~从排名第5开始,术语频次唰唰下降,呈现出长尾分布的小特征,说明研究围着少数核心概念展开,其他术语都是给核心概念打辅助、做细化的~这种分布模式超符合学术文献的一般规律,既体现了研究的深度,又有满满的广度~


2.4 术语共现网络

【共现分析】

  • 核心节点:实体关系
  • 最强关联对:专家 - 项目 (332次)
  • 主要聚类:以图像增强、注意力机制等为核心的术语聚类
  • 共现关系总数:22对

【可视化图表】

术语共现网络图

术语A 术语B 共现次数
专家 项目 332
专家 成果 205
实体关系 术语 48
实体关系 成果 34
成果 知识 28
电力科技 项目 25
项目 22
成果 项目 21
知识 项目 11
关系 评审专家 9

【图表评论】
术语共现网络图超有趣地展示了高频术语之间的关联关系🔗,把文档的知识结构扒得明明白白~网络里有10个节点和22条边,搭成了以“实体关系”为中心的术语小聚类~最强关联对是“专家”和“项目”,共现次数高达332次,说明这俩概念在研究里关系超铁~从网络结构看,主要形成了3个聚类:聚类一以“专家”为核心,包含“关系”、“术语”等术语,对应以专家为核心的相关研究方面的研究;聚类二以“项目”为核心,有“电力科技”、“包”等术语,是以项目为核心的相关研究方面的内容;聚类三则盯着“成果”相关的研究方向~各聚类之间靠“术语”等术语牵线搭桥,搭出完整的知识小网络~这个网络结构把研究的核心主题和它们的关系展示得清清楚楚,帮我们超轻松理解文档的整体框架和知识体系~


2.5 核心概念词云

【词云数据统计】

  • 词云术语总数:20个
  • 加权总频次:499.6次

【可视化图表】

词云图

排名 术语 加权频次
1 专家 104.2
2 关系 53.0
3 电力科技 42.7
4 术语 39.5
5 知识 35.4
6 项目 27.1
7 实体关系 21.5
8 19.7
9 项目评审 18.0
10 成果 17.7

【图表评论】
词云图用加权频次超直观地亮出了文档的核心概念体系☁️!图里有20个术语,加权总频次达到499.6次~排名前五的术语分别是“专家”(104.2次)、“关系”(53.0次)、“电力科技”(42.7次)、“术语”(39.5次)和“知识”(35.4次)~这些术语字号最大、位置最显眼,妥妥是研究的核心概念小团体~从词云整体分布看,术语按重要程度从大到小、从中心向四周排排坐,形成超有层次感的视觉小结构~排名靠前的术语反映了研究的核心主题和方法,中等排名的术语体现了研究的具体内容和小细节,排名靠后的术语则展示了研究的边缘小话题或未来小方向~词云图不仅总结了全文的关键概念,还帮读者超快抓住研究要点,是理解文档内容的超实用小帮手~


2.6 英文缩写分布

【缩写统计】

  • 缩写总数:30个
  • 缩写总频次:314次
  • 高频缩写 Top 5
    1. NSGA:44次
    2. II:31次
    3. CL:24次
    4. DSRE:23次
    5. IEEE:21次
  • 前5缩写累计占比:45.5%

【可视化图表】

环形图_英文缩写

排名 缩写 频次
1 NSGA 44
2 II 31
3 CL 24
4 DSRE 23
5 IEEE 21
6 PCNN 13
7 AHP 12
8 IDF 10
9 BERT 10
10 ATT 10
前10累计 198

【图表评论】
环形图展示了英文缩写在文档里的分布情况啦🔤!文档里一共出现30个不同的英文缩写,总频次有314次~排名前五的缩写分别是“NSGA”(44次)、“II”(31次)、“CL”(24次)、“DSRE”(23次)和“IEEE”(21次),前5个缩写累计占比达到45.5%,集中度超高一捏捏~从缩写类型看,主要有期刊名称缩写(比如“NSGA”)、作者姓名缩写(比如“II”)、技术术语缩写(比如“CL”)和评价指标缩写(比如“DSRE”)等~这些缩写高频出镜,说明文档引用了超多该领域的经典文献,用了通用的技术术语和评价标准,超能体现研究的规范性和专业性~缩写的分布特征也帮读者了解该领域的学术交流小习惯哟~


三、原文章节举例

3.2.1 模型总体架构

电力科技文本特征表示模型总体架构如图3-1所示,包括数据收集、数据处理、语言模型预训练和任务评估等步骤,具体分析如下:

image

图3-1电力科技领域PLM架构

Fig.3-1 PLM architecture for power technology


四、原文章节举例

4.2.4.1 输入编码

对于数据集中每个实例 xxx ,使用词嵌入方法提取文本特征,编码得到句子、实体关系以及包的表示,具体如下。

(1)字词嵌入:为了更好地表示电力科技领域文本,采用EpstBERT作为实体关系抽取模型的编码器,对于输入实例,使用EpstBERT分词形成输入字词序列 (w1,w2,…,e1,…,e2,…,wl)(w_{1},w_{2},\dots ,e_{1},\dots ,e_{2},\dots ,w_{l})(w1,w2,,e1,,e2,,wl) ,其中 e1e_1e1e2e_2e2 分别表示电力科技实体, lll 表示输入序列最大长度。同时,由于EpstBERT在对字词进行编码时没有区分实体和非实体,不利于

关系抽取任务,还需要在头实体前后分别添加特殊标记描述实体的起始和结束位置,其中头实体起止标记为[H-CLS]和[H-SEP],尾实体起止标记为[T-CLS]和[T-SEP]。

image

图4-6CL-DSRE模型整体架构

Fig.4-6 Overall architecture of the CL-DSRE model

(2)位置嵌入:位置特征对于关系抽取具有重要作用,它通常被定义为当前单词到实体 e1e_1e1e2e_2e2 的相对距离的函数[149]。如图4-7所示,单词“静止”与实体“变压器”和“设备”的相对距离为3和-2,通过随机初始化对应于 e1e_1e1e2e_2e2 两个位置的嵌入矩阵 PFi(i=1,2)PF_{i}(i = 1,2)PFi(i=1,2) ,并按照相对距离查找 PFiPF_{i}PFi 获取单词相对距离向量即可生成位置嵌入。最后,将字词嵌入和位置嵌入拼接起来作为上层编码器的输入。

image

图4-7位置编码器示例

Fig.4-7 Position encoder example

(3)句级编码:采用EpstBERT内部编码器(TransformerEncoder)将上述嵌入编码为特征向量,记为 (h1;h2;… ;he1;he2;… ;hl)(h_1; h_2; \dots; h_{e_1}; h_{e_2}; \dots; h_l)(h1;h2;;he1;he2;;hl) ,其中 he1h_{e_1}he1he2h_{e_2}he2 分别表示两个实体的向量表示,则可以用 he1h_{e_1}he1he2h_{e_2}he2 的拼接代表每个句子 xxx 的编码 H(x)\mathcal{H}(x)H(x) ,即:

H(x)=[he1;he2]=h(4-6) \mathcal {H} (x) = \left[ h _ {e _ {1}}; h _ {e _ {2}} \right] = h \tag {4-6} H(x)=[he1;he2]=h(4-6)

其中 hhh 表示实体对在语义空间中的隐含向量。

(4)包级编码:本文按照关系三元组进行包级编码,即学习编码器 F\mathcal{F}F ,使得

由具有相同三元组 [e1,e2,r][e_1, e_2, r][e1,e2,r] 的实例组成的包 BBB 可以被 BBB 表示,见式(4-7)。

F(B)=F([e1,e2,r])=B(4-7) \mathcal {F} (B) = \mathcal {F} ([ e _ {1}, e _ {2}, r ]) = B \tag {4-7} F(B)=F([e1,e2,r])=B(4-7)

引入文献[76]所述注意力机制为每个实例分配权重并加权求和得到包 BBB 的表示为:

B=∑i=1kαihi(4-8) B = \sum_ {i = 1} ^ {k} \alpha_ {i} h _ {i} \tag {4-8} B=i=1kαihi(4-8)

式中, kkk 为包中实例个数, αi\alpha_{i}αi 为实例的注意力分数,表示隐含向量 hih_{i}hi 和关系 rrr 的匹配程度,通过注意力机制能够充分利用所有句子信息,减少远程监督噪声影响。

使用 SoftMax 函数按照式(4-9)计算关系 rrr 在包级编码特征上的条件概率分布 p(r∣B,θ)p(r|B,\theta)p(rB,θ) ,其中 nrn_rnr 表示所有关系数量, oj=WB+bo_j = WB + boj=WB+b 表示第 jjj 个关系的置信度, bbb 为偏差, θ\thetaθ 表示待训练的编码器参数,如嵌入矩阵 PFjPF_jPFj 、全连接层权重 WWW 等。

p(r∣B,θ)=exp⁡(oj)∑j=1nrexp⁡(oj)(4-9) p (r \mid B, \theta) = \frac {\exp \left(o _ {j}\right)}{\sum_ {j = 1} ^ {n _ {r}} \exp \left(o _ {j}\right)} \tag {4-9} p(rB,θ)=j=1nrexp(oj)exp(oj)(4-9)

包级编码器训练的目标函数用交叉熵损失表示为:

LB(θ)=−∑i=1Np(ri∣Bi,θ)(4-10) \mathcal {L} _ {B} (\theta) = - \sum_ {i = 1} ^ {N} p \left(r _ {i} \mid B _ {i}, \theta\right) \tag {4-10} LB(θ)=i=1Np(riBi,θ)(4-10)

式中, NNN 为训练数据集中包的个数。

(5)实体描述:电力科技术语实体一般是专业名词,自身的描述文本中包含了丰富的背景信息,本文使用CNN从实体描述中提取特征,用以学习更加准确的实体表示。假设集合 D={(ei,di)∣i=1,…,∣D∣}\mathcal{D} = \{(e_i,d_i)|i = 1,\dots ,|\mathcal{D}|\}D={(ei,di)i=1,,D} 中元素分别为实体及其描述的表征,其中 ei\mathbf{e}_iei 是对应实体 e1e_1e1 的嵌入向量, di\mathbf{d}_{\mathrm{i}}di 是对应实体 e1e_1e1 描述信息的向量,后者通过由单卷积层和池化层构成的CNN训练得到,训练误差函数为:

LE(θ)=∑i=1∣T∣∥ei−di∥22(4-11) \mathcal {L} _ {E} (\theta) = \sum_ {i = 1} ^ {| T |} \left\| \mathbf {e} _ {i} - \mathbf {d} _ {i} \right\| _ {2} ^ {2} \tag {4-11} LE(θ)=i=1Teidi22(4-11)


五、总结

本报告超认真地对《电力科技知识驱动的专家匹配选择与优化分配模型研究》做了系统的专业术语统计与分析啦📝!文档总字符数200756,中文字符73507个,英文字词14834个,一共扒出专业术语1829个~高频术语“专家”(1042次)、“关系”(530次)等搭成了研究的核心概念小体系~

文档涉及6个研究领域,主要扎堆在图神经网络(1550次)、评审专家优选(1525次)、电力系统(1521次),超有多学科交叉的研究小特点~术语共现网络有10个节点和22条边,最强关联对“专家”与“项目”共现332次,搭成了以“实体关系”为中心的术语小聚类~

英文缩写一共出现30个,总频次314次,前五缩写“NSGA”(44次)等累计占比45.5%,反映了文档引用的经典文献和技术标准~

总的来说,本报告通过多维度术语统计,把文档的知识结构和研究焦点扒得明明白白,超全面的哟~


六、原文部分参考文献

[1] 韩逸飞. 电网投资将用在刀刃上[N]. 中国能源报, 2022-02-07(010)
[2] Hirschberg J, Manning C D. Advances in natural language processing[J]. Science, 2015, 349(6245): 261-266
[3] Madan S, Bollinger K E. Applications of artificial intelligence in power systems[J]. Electric Power Systems Research, 1997, 41(2): 117-131
[4] Sato-Shimokawara E, Nomura S, Shinoda Y, et al. A cloud based chat robot using dialogue histories for elderly people[C]//2015 24th IEEE International Symposium on Robot and Human Interactive Communication (RO-MAN). IEEE, 2015: 206-210
[5] Yin J, Lampert A, Cameron M, et al. Using Social Media to Enhance Emergency Situation Awareness[J]. IEEE Intelligent Systems, 2012, 27(6): 52-59
[6] Wiebe J, Wilson T, Cardie C. Annotating Expressions of Opinions and Emotions in Language[J]. 2005, 39(2): 165-210
[7] Savova G, Masanz J J, Ogren P V, et al. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications[J]. Journal of the American Medical Informatics Association, 2010, 17(5): 507-513
[8] Loughran T, Mcdonald B. Textual Analysis in Accounting and Finance: A Survey [J]. Journal of Accounting Research, 2016, 54(4): 1187-1230.
[9] 罗凌, 杨志豪. 生物医学文本挖掘若干关键技术研究[D]. 辽宁: 大连理工大学, 2019
[10] 何馨宇, 李丽双. 基于文本挖掘的生物事件抽取关键问题研究[D]. 辽宁: 大连理工大学, 2019
[11] 范馨月, 崔雷. 基于文本挖掘的药物副作用知识发现研究[J]. 数据分析与知识发现, 2018, 2(03): 79-86
[12] 傅绍正, 张莉. 民国《会计杂志》文本挖掘及可视化研究[J]. 中国注册会计师, 2020(06): 120-125
[13] 李牧南, 王雯殊. 基于文本挖掘的人工智能科学主题演进研究[J]. 情报杂志, 2020, 39(06): 82-88
[14] 马建霞, 袁慧, 蒋翔. 基于 Bi-LSTM+CRF 的科学文献中生态治理技术相关命名实体抽取研究[J]. 数据分析与知识发现, 2020, 4(Z1): 78-88
[15] 宋小康, 何劲, 王曰芬. 大数据驱动下情报研究知识库构建的关键技术及实现[J]. 情报理论与实践, 2019, 42(01): 34-40

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐