专业术语统计报告_深度学习目标检测模型优化研究及在电网中的应用

shallwegzgdj

376人浏览 · 2026-05-09 10:56:37

shallwegzgdj · 2026-05-09 10:56:37 发布

专业术语统计报告_深度学习目标检测模型优化研究及在电网中的应用

一、概要简析

【概要分析】
本文档《深度学习目标检测模型优化研究及在电网中的应用》围绕研究主题展开系统性的探讨。文档总字符数达199503，其中中文字符79671个，英文字词13215个，体现了中英文结合的学术写作特点。从文档中提取的专业术语共计1294个，涉及6个研究领域，主要集中在目标检测(1097次)、人工智能(1090次)、电力系统(1078次)。高频术语如“目标检测”（415次）、“数据集”（260次）等，反映了研究的核心焦点。整体而言，本文献在相关研究领域具有较高的学术价值，通过系统的分析与论述，为后续研究提供了重要的理论基础和方法参考。

【数据统计】

总字符数：199503
中文字符数：79671
英文字词数：13215

二、统计图表分析

2.1 三类术语层次分布

【数据统计】

论文名称术语：3个 (核心术语：目标检测模型、深度学习、电网)
标题摘要术语：398个 (核心术语：目标检测、检测模型、目标检测模型)
正文术语：893个 (核心术语：目标检测、数据集、检测模型)
术语总数：1294个
频次占比：论文名称 2.4% | 标题摘要 40.0% | 正文 57.6%

【可视化图表】

旭日图

类别	术语数量	频次	占比
论文名称	3	291	2.4%
标题摘要	398	4798	40.0%
正文	893	6913	57.6%
总计	1294	12002	100%

【图表评论】
旭日图展示了三类术语在文档不同部分的层次分布。从内向外依次为论文名称术语、标题摘要术语和正文术语。论文名称层级包含3个核心术语，总频次291次，占比2.4%，核心术语包括“目标检测模型、深度学习、电网”，这些术语直接概括了研究的核心主题。标题摘要层级包含398个术语，总频次4798次，占比40.0%，核心术语如“目标检测、检测模型、目标检测模型”，反映了研究的次要关键词和方法论。正文层级最为丰富，包含893个术语，总频次6913次，占比57.6%，核心术语如“目标检测、数据集、检测模型”，体现了研究的具体技术细节和实验方法。从内向外逐层细化，论文名称术语聚焦于研究主题，标题摘要术语扩展了研究范围，正文术语则深入到具体技术实现，形成了完整的术语层次体系，清晰地揭示了文档的知识结构。

2.2 研究领域分布

【领域分析】

主要领域：目标检测(1097次)、人工智能(1090次)、电力系统(1078次)

【可视化图表】

雷达图

研究领域	术语出现次数
计算机视觉	1065
深度学习	1067
目标检测	1097
电力系统	1078
图像处理	1073
人工智能	1090
总计	6470

【图表评论】
雷达图展示了专业术语在六个研究领域的分布情况，直观反映了文档的学科交叉特性。从图中可以看出，术语分布呈现以下特点：目标检测出现频次最高，达1097次，表明该领域是研究的核心基础。人工智能和电力系统的频次分别为1090次和1078次，构成了研究的次要支撑领域。而计算机视觉频次相对较低，为1065次，说明该领域在本研究中涉及较少。各领域术语分布存在一定差异，但整体较为均衡，标准差为11.7，反映了研究的多学科交叉融合特点。这种分布格局表明，本研究不仅深耕于核心领域，同时广泛吸纳了相关学科的理论与方法，形成了较为完整的研究体系。

2.3 专业术语分布

【集中度分析】

前5术语累计频次：1269次
前5术语累计占比：17.8%
前10术语累计占比：27.1%

【可视化图表】

环形图_专业术语
水平柱状图_专业术语

排名	术语	频次
1	目标检测	415
2	数据集	260
3	检测模型	253
4	目标检测模型	172
5	置信度	169
6	检测框	159
7	特征图	145
8	分类任务	131
9	骨干网络	120
10	小目标	111
11	结构	101
12	检测性能	97
13	损失函数	93
14	原始图像	88
15	检测结果	88
前15累计		2402

【图表评论】
环形图和柱状图展示了高频术语的分布情况与集中度。从图中可以看出，前5个高频术语累计频次达1269次，占总频次的17.8%，呈现出较高的术语集中度。前10个高频术语累计占比达27.1%，进一步证实了研究主题的聚焦性。排名第一的术语“目标检测”出现415次，是研究的核心概念。排名第二的术语“数据集”出现260次，排名第三的术语“检测模型”出现253次，三者共同构成了研究的核心术语体系。从排名第5开始，术语频次明显下降，呈现出长尾分布特征，表明研究围绕少数核心概念展开，而其他术语则是对核心概念的补充和细化。这种分布模式符合学术文献的一般规律，体现了研究的深度与广度。

2.4 术语共现网络

【共现分析】

核心节点：检测模型
最强关联对：检测模型 - 目标检测 (248次)
主要聚类：以图像增强、注意力机制等为核心的术语聚类
共现关系总数：13对

【可视化图表】

术语共现网络图

术语A	术语B	共现次数
检测模型	目标检测	248
检测模型	目标检测模型	220
小目标	目标检测	46
特征图	目标检测	29
分类任务	检测模型	19
检测框	骨干网络	4

【图表评论】
术语共现网络图展示了高频术语之间的关联关系，揭示了文档的知识结构。网络中包含10个节点和13条边，形成了以“检测模型”为中心的术语聚类。最强关联对为“检测模型”与“目标检测”，共现次数达248次，表明这两个概念在研究中有紧密的关联性。从网络结构来看，主要形成了3个聚类：聚类一以“目标检测”为核心，包含“特征图”、“小目标”等术语，反映了以目标检测为核心的相关研究方面的研究；聚类二以“检测模型”为核心，包含“置信度”、“分类任务”等术语，对应以检测模型为核心的相关研究方面的内容；聚类三则聚焦于“目标检测模型”相关的研究方向。各聚类之间通过“目标检测”等术语相互连接，形成了完整的知识网络。这种网络结构清晰地展示了研究的核心主题及其相互关系，有助于理解文档的整体框架和知识体系。

2.5 核心概念词云

【词云数据统计】

词云术语总数：20个
加权总频次：320.5次

【可视化图表】

词云图

排名	术语	加权频次
1	目标检测	41.5
2	电网	33.0
3	数据集	26.0
4	检测模型	25.3
5	相似度	21.5
6	目标检测模型	17.2
7	置信度	16.9
8	检测框	15.9
9	特征图	14.5
10	分类任务	13.1

【图表评论】
词云图通过加权频次直观呈现了文档的核心概念体系。图中包含20个术语，加权总频次达320.5次。排名前五的术语分别为“目标检测”（41.5次）、“电网”（33次）、“数据集”（26.0次）、“检测模型”（25.3次）和“相似度”（21.5次）。这些术语的字号最大、位置最显眼，构成了研究的核心概念群。从词云的整体分布来看，术语按照重要程度由大到小、由中心向四周排列，形成了层次分明的视觉结构。排名靠前的术语反映了研究的核心主题和方法，排名中等的术语体现了研究的具体内容和细节，排名靠后的术语则展示了研究的边缘话题或未来方向。词云图不仅总结了全文的关键概念，也为读者快速把握研究要点提供了直观的视觉引导，是理解文档内容的重要辅助工具。

2.6 英文缩写分布

【缩写统计】

缩写总数：30个
缩写总频次：723次
高频缩写 Top 5：
1. AP：118次
2. IEEE：96次
3. SSD：80次
4. FPN：49次
5. RCNN：40次
前5缩写累计占比：53.0%

【可视化图表】

环形图_英文缩写

排名	缩写	频次
1	AP	118
2	IEEE	96
3	SSD	80
4	FPN	49
5	RCNN	40
6	NMS	37
7	MSN	30
8	VGG	29
9	COCO	27
10	CNN	24
前10累计		530

【图表评论】
环形图展示了英文缩写在文档中的分布情况。文档中共出现30个不同的英文缩写，总频次达723次。排名前五的缩写分别为“AP”（118次）、“IEEE”（96次）、“SSD”（80次）、“FPN”（49次）和“RCNN”（40次），前5个缩写累计占比达53.0%，呈现出较高的集中度。从缩写的类型来看，主要包括期刊名称缩写（如“AP”）、作者姓名缩写（如“IEEE”）、技术术语缩写（如“SSD”）和评价指标缩写（如“FPN”）等。这些缩写的高频出现，反映了文档引用了大量该领域的经典文献，采用了通用的技术术语和评价标准，体现了研究的规范性和专业性。缩写的分布特征也为读者理解该领域的学术交流习惯提供了参考。

三、原文章节举例

3.1 研究背景与思路

计算资源性能的提升以及实验数据的积累，推动了深度神经网络的迅速发展，作为深度卷积神经网络的重点应用领域，目标检测任务在近几年也发生了翻天覆地的变化，随着越来越多研究学者投身于该领域，模型的检测精度以及运行效率都得到了大幅改善。但是，目标检测领域仍然存在很多需要继续深入研究的问题，如多尺度目标检测模型的精度仍然较低，与实际应用需求存在较大差距，实际场景经常需要对不同尺度目标进行检测，如遥感检测任务中不同尺度的建筑物、自动驾驶场景中尺度差异较大的行人、车辆、交通标志等，以及鸟类检测任务中不同尺度的鸟[94]等，但是现有目标检测模型却不能很好解决这类任务，尤其是小尺度目标存在严重的误检、漏检问题。因此，为了提升模型实用性，改善多尺度目标检测精度成为现阶段亟需研究的课题。

目前已经有一些学者针对该问题进行了研究，文献[95，96]通过改进RoI池

化方式来应对目标尺度变化问题，Yang等人提出SDP（scale-dependent pooling）池化操作，在不同特征层对不同尺度的目标建议框进行池化，与SSD相同的是，在低层、高分辨率特征图进行小目标池化，在高层、低分辨率特征图进行大目标池化，从而保证不同尺度的目标都可以使用合适的特征进行分类和定位[95]。SINet认为传统RoI池化会破坏小目标的形状结构，因为小目标的RoI区域较小，当RoI区域小于池化后的特征时，RoI池化会通过简单地复制RoI区域以形成池化特征，那么池化特征的表达信息与目标原始结构不再相同，此外，不同尺度目标在单个特征层的特征差距较大，会造成类内距离大的问题，针对以上两个问题，SINet提出CARoI池化（Context-Aware RoI pooling：关注上下文的RoI池化）方法，其中大尺度目标仍然使用RoI池化，而小目标使用双线性插值方法进行池化，以保证池化操作不会改变小目标的原始结构；此外，作者还对不同尺度目标分别设计了独立的检测分支，以最小化目标的类内特征距离，在车辆检测数据集KITTI上验证了模型对多尺度目标检测任务的有效性[96]。此外，还有一些工作[97-99]通过在多个特征层上执行RPN操作提高多尺度目标的检测性能。HyperNet[97]将骨干网络中不同分辨率特征图分别通过池化、卷积或反卷积操作转换为相同分辨率的特征图，这些特征图拼接形成hyper特征图，然后基于hyper特征图执行RPN和检测操作，包含丰富语义信息的hyper特征有效地提高了模型检测精度，特别是改善了小目标的检测效果。MSCNN（Multi-Scale Deep Convolutional Neural Network：多尺度深度卷积神经网络）认为不同尺度目标需要使用具有不同大小感受野的特征进行检测，因此提出基于不同分辨率特征图进行RPN和检测操作，以适应不同尺度目标的检测[98]。Xiang等人提出子类感知的RPN网络，且使用子类信息改善目标检测任务，子类通过聚类对同类目标按照形态或尺度等划分得到，子类信息被用来过滤虚假检测结果，从而改善多尺度目标的检测性能[99]。[95-99]是针对两阶段检测模型Faster RCNN的改进研究，在一定程度上解决了多尺度目标检测的问题，但是两次样本检测过程严重影响了模型的运行效率。在所有多尺度目标检测任务解决方案中，图像金字塔(IP:Image Pyramids)[100]是一种常见且最有效的方法，它将图像缩放至不同尺度进行训练和推理，但是会大大降低模型的运行效率。SNIP(Scale Normalization for Image Pyramids：图像金字塔尺度归一化网络)认为训练样本和测试样本的目标尺度分布不一致会影响分类精度，为了更好地利用预训练的骨干网络，检测数据集的目标尺度应该尽量与分类数据集分布一致，因此，SNIP提出使用图像金字塔作为输入，但是不同分辨率的图像只负责检测相应大小的目标，即只使用特定尺度目标的损失值进行训练，实验结果证明SNIP可以较大地改善检测精度，但是需要计算多个不同分辨率图像的特征，显著增加了模型计算量[101]。在此基础上，B.

Singh 等人提出了改进算法 SNIPER，该算法仍然先将输入图像变换成不同分辨率的图像，然后使用固定尺度的滑动窗口对所有图像进行切片，其中包含固定尺度目标最多的切片定义为正样本切片，则使用少量切片即可包含所有目标，然后选择一些包含特定背景的切片作为负样本切片，模型使用被选择的切片进行训练，与 SNIP 相比，SNIPER 只使用切片进行训练，不仅能够保证模型精度，而且大大减少了模型计算量[102]。尽管图像金字塔是解决多尺度目标检测任务最有效的策略，但是由于计算成本太大，很少有研究工作单独使用该策略，为了减少模型计算量，多尺度目标检测模型经常采用特征金字塔(FP：Feature Pyramid)策略，如 $IoN[103]\mathrm{IoN}^{[103]}$ 和 SSD，使用不同分辨率的特征图进行不同尺度目标的检测，大分辨率特征图用于检测小尺度目标，小分辨率特征图用于检测大尺度目标，但是研究表明，该策略对于小目标检测仍然存在一些局限性，因为大分辨率特征图位于网络浅层，特征感受野比较小，且使用的非线性操作次数也比较少，因此这些特征的语义信息比较简单，高级语义信息缺乏会严重影响分类任务的准确性。为了改善低层特征的语义信息，一些研究学者提出了特征融合的方法。Shrivastava等人设计了自顶向下的 TDM 网络，将深层特征逐层上采样与浅层特征融合来增强低层特征的语义信息，但是仅使用最后一层融合特征进行检测，因此没有很好地解决多尺度目标检测难题[104]。Ren 等人提出了循环滚动卷积 RRC(Recurrent Rolling Convolution)融合相邻特征图，中间层特征图拼接浅层特征图下采样结果和深层特征图上采样结果，不同上下文信息的聚合可以改善分类和定位任务，但是 RRC 只融合相邻层的特征，高层特征的语义信息不能层层上传至浅层，因此浅层的语义信息并没有得到有效改善，小目标的分类精度仍然存在改进空间[105]。DSSD 和 FPN 设计了一个横向连接的自顶向下的网络结构，保证了所有分辨率的特征图都具有高级语义特征，从而有效改善了小目标的检测性能。FSSD 提出了一种新颖的、轻量级的特征融合模块，计算成本少量增加的情况下就可以显著提高 SSD 检测性能，首先将不同层特征图上采样至相同分辨率大小，然后拼接处理后的特征图，再对拼接特征图下采样得到新的不同分辨率的特征图，基于新的不同分辨率的特征图来检测不同尺度的目标，新的特征图包含丰富的高级语义信息，因此能够改善多尺度目标的检测性能[106]。上述研究工作使用不同策略改善多尺度目标检测任务的性能，但是检测效果仍然不尽人意，而且与图像识别模型精度存在较大差距，除了目标检测任务自身的复杂性之外，我们认为检测数据集与分类数据集的目标尺度不一致也是一个主要原因，因为该问题会导致预训练的分类网络不适合作为检测模型的骨干网络。当然，检测模型可以不使用预训练的骨干网络，而是在检测数据集上直接从零训练网络，但是要求必须有足够的目标检测样本，也需要更多的训练时间以及丰富的人工调参经验，才能保证模型能

够取得较好的检测性能[107]。由于数据集标注工作繁重，目标检测标注样本较难获取，而分类数据集ImageNet包含日常生活中1000类别的标注样本，因此使用分类数据集对骨干网络预训练是常用的目标检测模型训练方法，很多模型超参数不再需要重新设置，而且能够减少训练时间。

数据集之间的目标尺度不一致会影响预训练骨干网络的性能，如果检测数据集与识别数据集的目标尺度分布近似，就能更大发挥基于识别数据集的预训练骨干网络的作用。事实上，这个想法已经被SNIP证明是可行的，但是SNIP运行效率太慢，SNIPER生成切片作为输入可以改善模型运行效率，但是SNIPER是一个两阶段检测模型，运行速度仍然只能达到5FPS。基于此，我们使用图像金字塔思想对一阶段检测模型SSD进行改进，提出了一个适合多尺度目标检测任务的一阶段模型，可以在保证模型运行效率的同时，显著提高模型精度。

SNIP 统计了分类数据集和检测数据集的目标尺度分布情况，ImageNet 中 $50%50\%$ 目标在图像中占比小于 $55.6%55.6\%$ ，而 COCO 中将近 $50%50\%$ 目标在图像中占比小于 $1%1\%$ ，其中在图像中占比小于 $1%1\%$ 的目标称为小目标，因此 COCO 中将近一半的目标都是小目标，而 ImageNet 只有不到 $5%5\%$ 的目标是小目标。因此，为了充分发挥基于 ImageNet 预训练的骨干网络的价值，我们需要调整目标检测数据集的目标尺度，使其与 ImageNet 数据集的目标尺度分布更加一致。因此，比较直观的想法是放大检测数据集中小目标的尺度，因为当小目标被放大时，不仅可以减少小目标数量的占比，使得两个数据集的目标尺度分布更加一致，而且被放大后的目标会包含更多语义信息，有助于改善检测任务。

图3-1基于原图的SSD检测结果

Fig.3-1 The detected result of initial image using SSD

在现阶段目标检测模型中，SSD是一个具有代表性的检测模型，因为它使用少量计算量就能够取得较好的检测精度，虽然两阶段检测模型Faster R-CNN精度更高，但是模型运行速度太慢，YOLO虽然运行效率最高，但是模型精度太低，为了平衡mAP和FPS指标，本文选择SSD模型作为基础网络。尽管SSD采用不同分辨率特征层进行目标检测，但是浅层特征语义信息不丰富，造成小目标检

测精度不高。图3-1表示一个野外的输电线路场景，可以看到图像右上部分有一只很小的鸟，当图3-1输入模型时，SSD无法检测到这个目标。图3-2表示从图3-1截取的包含小鸟的部分区域，当剪切区域作为SSD模型输入时，检测结果如图3-2所示，可以看到这只鸟已经能被SSD检测出来，其中“3”表示分类类别，代表鸟类，分类置信度为0.705，并且检测框位置也比较准确。SSD不能从整幅图像中检测出小目标，但可以从图像裁剪区域中检测出该目标，表明放大输入图像的小目标有助于改善小目标的检测效果。

图3-2基于裁剪切片的SSD检测结果

Fig.3-2 The detected result of cropped area from initial image using SSD

在上述研究的基础上，我们提出了基于SSD改进的实时多尺度目标检测模型SSD-MSN，本文中SSD代表SSD300，即模型输入大小为 $300 \times 300$ ，SSD-MSN主要通过改善小目标的检测精度来提升多尺度目标的整体检测性能。SSD-MSN模型首先将包含小目标的区域切片缩放至 $300 \times 300$ 的固定尺度，然后把切片和原始图像一起输入模型进行训练，将原始图像按照一定规则切割成 $\times 3$ 网格得到切片，只有完全包含一个或多个目标的切片才被称为有效切片，只有有效切片的检测结果才会被计入最终结果。SSD的conv10特征图的分辨率为 $\times 3$ ，因此我们在SSD的conv10特征图后接一个网络来预测切片是否为有效切片，该网络被称为区域建议网络（APN：AreaProposedNetwork)，且APN网络只计算原始图像的损失值。此外，由于SSD-MSN使用切片作为输入实现了小目标尺度的增大，而SSD的conv4特征图用来检测最小尺度的目标，因此SSD-MSN不再使用conv4特征图进行目标检测，能够大大减少模型计算时间。需要注意的是，SSD-MSN对切片和原始图像执行不同任务，在切片上只执行目标检测的分类、定位任务，对原始图像来说，不仅执行上述两个任务，还需额外执行预测切片有效性的任务，最后融合有效切片和原始图像的检测结果作为最终输出。

四、原文章节举例

4.1 研究背景与思路

目标检测任务在计算机视觉领域有着举足轻重的作用，被广泛地应用于故障检测、视频监控、疾病检测等多种场景。与只包含分类任务的图像识别相比，目标检测在其基础上额外增加定位子任务，因此目标检测属于多任务学习问题。从Ross Girshick在2013年提出R-CNN[2]开始，深度学习在目标检测任务中的应用已经发展了将近7年的时间，多年来经过众多专家学者的深入研究，目标检测任务已经取得了很多瞩目成就，目前最优秀的目标检测模型在Pascal VOC数据集上可以达到 $80%80\%$ mAP以上的检测精度，在COCO数据集上可以达到近 $50%50\%$ AP的检测精度。为涌现出如此多优秀成果开心的同时，我们需要清楚地认识到目标检测领域仍然存在优化空间，因此应该继续深入探索领域难题，进一步地提升目标检测效果。目前，分类和定位任务不一致是目标检测领域的关键问题之一。图像识别任务是用于判断目标的类别，主要针对图像仅包含一个目标的场景，目标

检测任务需要确定图像中所有目标的类别和位置，一般一张图像会包含多个目标，在构造数据集时，图像分类任务仅仅对每张图像标注一个类别即可，而目标检测需要标注图像中所有目标的类别和位置，因此构造目标检测数据集的成本要远远高于图像识别数据集，所以现有图像识别数据集的规模远远大于目标检测数据集，如图像识别数据集ImageNet包含数百万张训练图像和1000个类别，而目标检测数据集VOC和COCO在图像数量和类别数量上都要少10倍以上。为了丰富目标检测任务的特征，通常先使用ImageNet数据集训练骨干网络，然后采用迁移学习的思想将其迁移至目标检测任务中，大幅减少目标检测模型的训练时间及训练难度。但是预训练骨干网络特征基于图像分类任务得到，会对目标检测的定位子任务产生负面影响，因为分类任务对目标位置不敏感，即无论物体出现在图像中任何位置，这些特征都能正确标识目标，因此其学习到的特征具有平移不变性，而定位子任务对目标位置敏感，一旦目标位置发生改变，其特征就应该表示不同的含义，因此其要求特征具有平移可变性，这就造成目标检测模型出现子任务不一致的问题，即分类置信度较高的预测框的定位水平比较差，与真实目标的IoU较低，而与真实目标的IoU较大的预测框则可能出现分类置信度较低的情况。在推理阶段，一般采用NMS算法进行目标筛选保留，当使用分类置信度引导筛选过程时，分类置信度高但是定位水平低的预测框会以更大的概率被保留下来，而分类置信度低但是定位水平高的预测框则会被过滤掉，因此最终保留的预测框会出现定位较差的问题[112]，但是我们希望检测模型能够得到分类和定位水平都高的检测框。

IoU

图4-1基于COCO数据集的RetinaNet检测结果的分类置信度和IoU的分布图示

Fig.4-1 The distribution of classification confidence and IoU for RetinaNet on COCO

目前针对定位和分类任务不一致问题的研究主要集中在两阶段模型中，一阶段模型的相关研究相对较少，但是，本文发现分类和定位不一致是所有目标检测

模型的通病，也是限制一阶段模型性能的关键因素。RetinaNet[42]是一阶段模型的代表性成果，图4-1展示了它对COCO数据集的预测结果的分类、定位分布情况，图中分别使用分类置信度、IoU代表分类、定位水平。

图4-1中第一行展示的是NMS方法应用之前的预测结果，保留了分类置信度大于0.05的所有检测结果；第二行是NMS过滤后的检测结果，其中NMS阈值设置为0.5；每一列表示COCO中一张图像的检测结果。一般情况下，分类置信度大于0.5的分类结果是可信的。从图4-1可以明显看出，RetinaNet检测结果的分类置信度与IoU存在严重的分布不一致问题。当IoU小于0.7时，分类置信度大多分布在 $0.05∼0.20.05\sim 0.2$ 范围，一小部分是分布在 $0.2∼0.40.2\sim 0.4$ 范围，极少数分类置信度大于0.4或0.5；当IoU大于0.7时，分类置信度出现急剧增长，即使IoU相同的预测框的置信度也会在 $0∼10\sim 1$ 之间大幅变动，并且大多数预测框的分类置信度低于0.5。这种现象表明，无论IoU是大或小，RetinaNet的分类任务和定位任务都没有正相关关系；此外，可以看到预测结果中分类置信度大于0.5的检测框远远少于IoU大于0.5的检测框，大部分IoU大于0.5的检测框的分类置信度低于0.5，因此造成RetinaNet任务不一致的主要原因是分类子任务精度低。而且与真实目标的IoU大于0.5的anchor box会被定义为正样本，正样本的分类置信度标签值为1，然而预测结果中大多数正样本（IoU>0.5）的分类置信度低于0.5，进一步说明RetinaNet的分类子任务性能较差。

表4-1列举了RetinaNet模型对COCO中随机选取的10张图像的预测框的统计结果。“Positive_NUM”行表示图像中正样本的数量，与真实目标的IoU大于0.5的anchor box为正样本，在分类任务中，同时使用正样本和负样本训练网络，其中负样本是指与真实目标的IoU小于0.4的anchor box，定位任务只使用正样本进行训练。“Before NMS”和“After NMS”表示推理过程的不同阶段，没有经过NMS筛选的RetinaNet预测框统计结果展示在“Before NMS”行，经过NMS方法过滤后的预测框统计结果展示在“After NMS”行。“条件”列表示不同的筛选条件，“iou”表示预测框和真实目标的IoU阈值，“cls”表示预测框的分类置信度阈值。

从表4-1中的“Positive_NUM”行可以看出，每张图像都会有数百个正样本，但是每张图像会生成将近10万个anchor box，如图9有76725个anchor box，图10有92070个anchor box，这说明正样本和负样本数量存在非常悬殊的差距，因此，在一阶段检测模型中，正负样本不平衡是影响分类精度的关键原因。‘BeforeNMS’行列举了该阶段在不同分类置信度和IoU阈值下的预测框统计数量，我们可以发现 $cls>0.5\mathrm{cls} > 0.5$ 的预测框数量在大多数图像中都低于其预定义的正样本数量，相反的是，IoU $> 0.5$ 的预测框在所有图像中都比预定义的正样本多，因此可以说明RetinaNet的定位子任务能够优化目标位置，使得定位较差的anchor box能够

更加靠近真实目标，实现更精确的定位，这个结论和Cascade RCNN[113]是一致的，但是分类子任务无法准确识别目标类别，还需进一步改进。

表 4-1 RetinaNet 模型对 COCO 中 10 张图像的检测框数量统计结果

Tab.3-3 The predicted boxes statistics of 10 images from COCO based on RetinaNet

阶段	条件	图1	图2	图3	图4	图5	图6	图7	图8	图9	图10
Positive NUM	iou>0.5	331	320	170	198	84	77	131	210	310	110
	cls>0.05	7213	2543	3105	3539	634	364	1700	13480	5422	1067
	cls>0.5	110	79	140	23	30	83	35	29	363	135
	cls>0.6	71	38	84	14	15	75	28	12	264	107
	cls>0.7	36	18	47	7	0	55	21	8	172	82
	cls>0.8	16	4	13	1	0	38	10	0	63	57
Before NMS	cls>0.9	3	1	6	0	0	26	1	0	10	21
	iou>0.5	1087	1116	856	507	187	249	336	549	2004	487
	iou>0.6	912	963	656	384	136	228	267	340	1629	449
	iou>0.7	650	714	423	271	82	191	185	212	1197	372
	iou>0.8	307	473	238	167	52	152	98	111	816	208
	iou>0.9	105	136	23	49	14	77	17	28	324	68
	cls>0.05	429	113	66	188	35	14	76	836	224	44
	cls>0.5	5	5	4	1	1	2	1	2	13	5
	cls>0.6	5	3	4	1	1	2	1	1	12	5
	cls>0.7	3	2	3	1	0	2	1	1	10	5
	cls>0.8	2	2	3	1	0	2	1	0	6	5
After NMS	cls>0.9	1	1	3	0	0	1	1	0	1	3
	iou>0.5	16	14	6	10	3	4	10	17	20	8
	iou>0.6	13	10	6	6	2	3	4	8	16	8
	iou>0.7	11	10	6	4	0	2	4	4	15	6
	iou>0.8	5	10	5	3	0	2	2	2	14	4
	iou>0.9	4	4	5	1	0	1	0	0	9	2

RetinaNet工作主要贡献是提出了Focal Loss，该损失函数被用在分类子任务中，能够有效地缓解一阶段目标检测模型分类任务正负样本不平衡的问题。Focal Loss确实能够在一定程度上提升一阶段检测器的性能，但从表4-1可以看出分类任务性能仍不尽人意，而分类性能是制约RetinaNet检测性能的主要因素，此外由于目标分类精度较低，造成检测结果不能同时取得最优的分类、定

位水平。从表4-1还可以看到，经过NMS筛选后的iou>0.5检测框的比例下降很快，如“图1”和“图6”分别下降 $31.5%31.5\%$ 和 $39.84%39.84\%$ ，10张图像平均下降了 $19.52%19.52\%$ ，说明NMS阶段抑制了定位水平较高的检测框。同样地，通过统计NMS筛选后“cls>0.5”检测框的比例变化，发现样本“图2、3、8”的比例分别增加了 $1.32%1.32\%$ 、 $1.55%1.55\%$ 和 $0.02%0.02\%$ ，其他样本的比例则有所下降，所有样本平均下降了 $1.09%1.09\%$ ，那么NMS前后的比例是基本持平的，说明分类置信度较高的检测框在NMS阶段可以被保留下来。图4-2展示了10个样本的不同检测框比例的统计结果。

图4-2 不同条件下的检测框比例统计结果

Fig.4-2 The detected boxes proportions under different conditions

图4-2中，“BF_NMS”表示NMS之前的检测结果，用蓝色折线表示，“AF_NMS”表示NMS筛选后的检测结果，用橙色折线表示，虚线表示以IoU为统计条件的检测框数量占比，实现表示以分类置信度为统计条件的检测框数量占比。从图中看到虚线折线的差距远远大于实线折线的差距，说明与分类任务相比，NMS对定位任务有更大的负面影响，究其根本原因，NMS阶段主要依据分类置信度选择保留的检测框，因此分类置信度较高的检测框会有更大的概率被保留下来，但是定位精度与分类精度不是正比关系，那么IoU较高但是分类置信度较低的检测框会更大概率的被过滤掉。因此NMS基于包含位置信息的指标来指导筛选过程，才能增加定位水平较高的检测框被保留的可能性。另外，可以看到应用NMS之前，iou>0.5的检测框比例远远多于cls>0.5的检测框比例，从表4-1看出cls>0.5的检测框少于预定义的正样本数量，因此，与定位任务相比，分类任务还有很大的改进空间，因此本文接下来将改善RetinaNet分类任务性能作为研究重点，从而解决分类任务与定位任务不一致的问题。

目前主流的目标检测模型主要分成两阶段目标检测模型、一阶段目标检测模型以及Anchor-Free目标检测模型，其中两阶段目标检测模型精度最高，但是由于计算代价较大，模型运行效率比较低，一阶段目标检测模型运行效率高，但是

检测性能较差，Anchor-Free 检测模型通过取消设置 anchor box 进一步减少了模型计算量。分类和定位不一致问题在所有目标检测模型都有所体现，但是目前的研究工作重点主要集中在两阶段模型中，如 Borui Jiang 等人[112]等人首次提出了目标检测模型中的子任务不一致问题并展开研究，研究认为 FPN 模型的分类与定位之间没有正相关关系，NMS 过程会抑制定位更准确的检测框，导致最终筛选出的检测框位置不准确。为了解决这个问题，他们提出在 FPN 中加入一个新的 IoU 分支来预测定位置信度，新的网络称之为 IoU-Net，在推理阶段不再使用分类置信度分数引导 NMS 过程，而是根据 IoU 预测结果选择最终的检测框，如果被筛掉的检测框的分类置信度更高，被保留检测框的分类置信度将会被更新为该值，这个方法成功地提高了预测结果的定位水平，但是被保留检测框的分类置信度并不是由网络学习得到，因此该项工作并没有改善网络的表达能力。与此同时，Softer-NMS 也关注了这个问题，不过与 IoU-Net 不同的是，它认为主要是 NMS 方法导致检测结果定位水平较差，提出了一种基于检测框分布的定位评价方法，通过最小化预测框分布方差来提高定位置信度，然后在 NMS 阶段根据方差融合多个检测框，以进一步提升定位精度。Cascade RCNN 也关注了检测框定位水平不高的问题，认为使用单个 IoU 阈值定义正负样本是限制检测模型定位能力的主要因素，因此提出了一种级联检测模型：每一级检测模型都会设置一个单独的 IoU 阈值来定义正负样本，而且 IoU 阈值随着级数的增加而增加，因为每一级检测模型的定位子任务都会提升相应 IoU 范围内检测框的定位性能。Cascade RCNN 从新的角度改进了预测结果的定位水平，也可以认为是一种解决分类和定位任务不一致问题的解决方案。随后越来越多的研究学者开始对该领域进行探索，Yue-Wu 等人[114]认为基于 RCNN 的检测器的分类和定位子任务都使用相同 head 结构提取特征，如全连接 head 或卷积 head，但是他们研究得出全连接 head 更适合分类任务，卷积 head 更适合定位任务，因此他们提出为不同任务提供专门的 head 结构，并且称之为 Double-Head RCNN，随后通过丰富的实验证明了研究成果的有效性。受到 Double-Head RCNN 工作的启发，Guanglu Song 等人[115]深入研究了引起 RCNN 系列检测模型的子任务不一致的根本原因，研究结果表明：分类任务对显著区域的特征更为敏感，而定位任务对边界特征更为敏感。因此，他们提出了一种任务感知空间分离（TSD：task-aware spatial disentanglement）算子，该算子在 Faster RCNN 中 RoI 池化层后使用，它能够基于 RoI 池化特征为不同任务生成特定特征，然后在 TSD 之后又为每个任务添加独立的 head 结构，进一步为特定任务生成特征。这项工作的主要贡献是证明了分类和定位任务关注目标的不同特征，然后提出 TSD 算子为两个任务生成独立的特征，从而能够同时提升分类任务和定位任务的性能，以解决 RCNN 系列检

测器的任务不一致问题。从上述研究可以看出，这些工作主要集中在两阶段目标检测模型中，针对一阶段目标检测模型的研究非常少，目前能查阅到的文献只有Shengkai Wu等人[116]发表的一篇IoU-Aware Net的研究工作，这篇文章的思路和IoU-Net是紧密相关的，他们提出在RetinaNet中添加一个新的IoU预测任务，这个任务用于预测预测框和真实目标的IoU，与定位任务共享特征，然后在NMS阶段，使用IoU预测分数和分类预测分数的乘积来指导NMS筛选过程，使得定位信息可以在NMS阶段发挥作用，从而提高定位水平高的检测框被保留的概率。

从上述讨论和分析可以看出，这些解决方案主要集中在提高定位水平或者预测定位置信度，使用定位置信度影响NMS筛选过程，避免定位水平高的检测框被抑制；抑或是如Double-Head RCNN和TSD为每个任务专门设计head结构，以解决分类和定位任务由于特征共享而出现的不一致问题。但是RetinaNet在提出之时已经为每个子任务设计了独立的四层卷积head结构，即它已经实现了为每个任务生成独立的特征，但是从图4-1中看到RetinaNet仍然存在定位和分类任务不一致的问题，而且通过深入分析发现造成该问题的主要原因是分类任务性能水平低于定位任务性能水平，因此，本章节提出了一种通过定位信息优化分类任务的方法，即在RetinaNet中额外添加了一个目标置信度子任务，其中使用预测框和真实目标的IoU作为该任务的目标值，但是该任务和分类任务共享特征，该任务仅使用正样本作为训练样本，因此共享特征操作会增加正样本在网络训练中的权重，可以在一定程度上缓解分类任务的正负样本不平衡问题，有效地改善分类任务性能，此外使用目标置信度和分类置信度乘积引导NMS筛选过程，发挥定位信息在检测框筛选过程的作用，因此该方法不仅通过改善分类精度解决RetinaNet的任务不一致问题，而且能够提升检测结果的定位水平。

图4-3 RetinaNet-Conf网络结构示意图

Fig.4-3 The network architecture of RetinaNet-Conf

五、总结

本报告对《深度学习目标检测模型优化研究及在电网中的应用》进行了系统的专业术语统计与分析。文档总字符数199503，中文字符79671个，英文字词13215个，共提取专业术语1294个。高频术语“目标检测”（415次）、“数据集”（260次）等构成了研究的核心概念体系。

文档涉及6个研究领域，主要集中在目标检测(1097次)、人工智能(1090次)、电力系统(1078次)，体现了多学科交叉的研究特点。术语共现网络包含10个节点和13条边，最强关联对“检测模型”与“目标检测”共现248次，形成了以“检测模型”为中心的术语聚类。

英文缩写共出现30个，总频次723次，前五缩写“AP”（118次）等累计占比53.0%，反映了文档引用的经典文献和技术标准。

综上，本报告通过多维度术语统计，全面揭示了文档的知识结构和研究焦点。

六、原文部分参考文献

[1] He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 770-778.
[2] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[3] Kaiming H, Georgia G, Piotr D, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42: 386-397.
[4] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848.
[5] Dechter R. Learning While Searching in Constraint-Satisfaction-Problems[C]// Proceedings of the 5th National Conference on Artificial Intelligence. Philadelphia, PA, August 11-15, 1986. Volume 1: Science. DBLP, 1986.
[6] Li Deng. An Overview of Deep-Structured Learning for Information Processing[C].//中国中文信息学会.2011 亚太信号与信息处理协会年度峰会 (APSIPAASC 2011)论文集. 2011: 1-14.
[7] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. nature, 2015, 521(7553):436-44.
[8] Krizhevsky, Alex, Sutskever, et al. ImageNet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2012, 60:84-90.
[9] Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision, 2015, 115(3):211-252.
[10]Girshick R. Fast R-CNN[J]. IEEE International Conference on Computer Vision, 2015:1440-1448.
[11]He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 37(9):1904-16.
[12]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.
[13]Sermanet P., Eigen D., Zhang X., etal. OverFeat: Integrated recognition,
localization and detection using convolutional networks[J]. arXiv preprint arXiv: 1312.6229, 2013, https://arxiv.org/pdf/1312.6229.pdf.
[14]Fidler S, Mottaghi R, Yuille A, et al. Bottom-Up Segmentation for Top-Down Detection[C]// Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013: 3294-3301.