软考中级：第6章数据工程学习笔记

系统集成项目管理工程师考试资料精品

445人浏览 · 2026-03-23 16:28:10

系统集成项目管理工程师考试资料精品 · 2026-03-23 16:28:10 发布

一、章节核心内容摘要

根据最新考纲及占分分析，本章节 “第6章：数据工程” 在2024下半年至2025上半年（新大纲稳定期）的考查占分为 3~5 分。考查形式包含综合知识+案例分析。趋势分析指出，本章是重点章节，数据治理、数据模型等是热门考点。

【核心内容摘要】本章详细阐述了数据工程的全生命周期管理与技术要求。主要内容涵盖：数据采集和预处理（传感器/日志/网络采集，缺失/异常/不一致/重复数据处理）；数据存储及管理（文件/块/对象存储，DAS/LAN/LAN-FREE/SERVER-FREE备份结构，完全/差分/增量备份策略，容灾指标RPO/RTO）；数据治理和建模（元数据体系，数据标准化，数据质量评估，概念/逻辑/物理模型）；数据仓库和数据资产（数据仓库架构，OLAP，数据资源化与资产化，数据资源编目）；数据分析及应用（数据集成机制，Web Services，数据挖掘任务，数据可视化）；以及数据脱敏和分类分级（脱敏原则与分级标准）。

二、核心学习笔记

一、数据采集与预处理

1. 数据采集类型与方法

数据类型	特征	示例
结构化数据	关系型数据库表管理的数据	二维表格
半结构化数据	无关系模型但有基本固定结构	日志、XML、E-mail
非结构化数据	无固定模式	文档、图片、视频、HTML

采集方法：传感器采集、系统日志采集（Logstash、Flume等工具）、网络采集（API、网络爬虫）。

2. 数据预处理常用方法

数据预处理一般采用数据清洗的方法，包括数据分析、数据检测和数据修正。

数据问题	常用预处理方法	重点说明
缺失数据	删除缺失值、均值填补法、热卡填补法	丢弃适用于样本多且缺失比例小；热卡填补法找最相似对象填充
异常数据	分箱法、回归法	分箱法考察“近邻”平滑数据；回归法用函数拟合消除噪声
不一致数据	人工修改、借助函数依赖关系工具、数据变换	多需通过ETL工具等进行数据变换
重复数据	使用Excel、VBA、Python等去除	操作一般最后进行

二、数据存储及容灾备份（高频考点）

1. 数据存储形式

存储形式	特征	适用场景
文件存储	基于文件和文件夹目录层级	适用于分层存储
块存储	数据分成块，每块有唯一标识	适用于快速、高效和可靠传输的计算场景
对象存储	基于对象的存储架构	适用于处理大量非结构化数据（如电邮、视频、照片、网页等）

2. 数据备份策略比较

备份策略	备份内容	恢复速度	资源占用与存储	缺点
完全备份	每次备份所有数据	最快（仅需一份数据）	最高（占用大量空间）	存在大量重复数据，资源消耗大
差分备份	仅备份上一次完全备份后变化的数据	较快（需完全备份+最后一次差分备份）	中等	相比增量备份占用空间稍大
增量备份	仅备份上一次备份后（不论全/增）变化的数据	最慢（需全量+所有后续增量）	最低（无重复数据）	可靠性最低，中间任何一次损坏即无法恢复

3. 数据容灾关键指标

指标	全称	含义
RPO	Recovery Point Objective（恢复点目标）	代表灾难发生时允许丢失的数据量
RTO	Recovery Time Objective（恢复时间目标）	代表系统恢复的时间

三、数据治理与建模（热门考点）

1. 元数据 (Metadata)

元数据是 “关于数据的数据”。元数据体系包括：内容元数据、专门元数据、资源集合元数据、管理元数据、服务元数据、元元数据。作用包括描述、资源发现、组织管理数据资源、互操作性、归档和保存。

2. 数据质量评价

评价过程分为五步：确定范围 ➔ 确定度量方法 ➔ 选择评价方法 ➔ 确定质量结果 ➔ 决定一致性

3. 数据模型三阶段

模型阶段	核心特征	关键要素
概念模型	按用户观点建模，不依赖具体DBMS	实体、属性、域、键、关联
逻辑模型	在概念模型基础上确定数据结构，目前最重要的是关系模型	概念模型中的实体转化为关系，属性转化为关系的属性，关联转化为外键
物理模型	考虑技术实现	表、字段、视图、索引、存储过程、触发器

四、数据仓库与资产管理

数据仓库定义：面向主题的、集成的、随时间变化的、稳定的历史数据集合。
OLAP（联机分析处理）：分为ROLAP（关系型）、MOLAP（多维型）、HOLAP（混合型）。
数据资产管理：
- 数字资源化：原始数据 ➔ 数据资源（核心是数据治理，保质保安全）
- 数据资产化：数据资源 ➔ 数据资产（核心是释放价值、显性化成本效益）

五、数据分析及应用

1. 数据集成与 Web Services

数据访问接口：ODBC（基于SQL）、JDBC（Java接口）、OLE DB（基于COM）、ADO。
Web Services 三要素：

要素	全称	作用
WSDL	Web Services Description Language	基于XML格式的服务描述语言，描述服务接口等
SOAP	Simple Object Access Protocol	简单对象访问协议，规定消息传递格式和远程方法调用
UDDI	Universal Description, Discovery and Integration	统一描述、发现和集成协议，目录服务器，存放WSDL

2. 数据挖掘主要任务

任务	核心含义
数据总结	对数据浓缩，给出总体综合描述
关联分析	找出隐藏的关联网，发现变量间的规律
分类和预测	利用分类器或模型将数据分派到不同组
聚类分析	缺乏描述信息时，按相近程度将数据分成有意义的子集
孤立点分析	从数据库中检测出异常、偏差记录

六、数据脱敏与分类分级

1. 敏感数据分级

通常将数据密级划分为5个等级：

等级	名称
L1	公开
L2	保密
L3	机密
L4	绝密
L5	私密

2. 数据脱敏原则

算法不可逆原则（防止重构）、保持数据特征原则（供开发测试使用）、保留引用完整性原则、规避融合风险原则、脱敏过程自动化原则、脱敏结果可重复原则。

三、本章精选习题及详细解析

题目1：________不属于需要进行数据预处理的促成因素。

A. 数据缺失
B. 数据不一致
C. 数据安全
D. 数据重复

答案：C
详细解析：一般而言，需要进行预处理的数据主要包括数据缺失、数据异常、数据不一致、数据重复、数据格式不符等情况。数据安全属于安全架构或治理范畴，不是引发日常预处理的直接数据特征因素。
教材页码：第236页、第257页（课后习题）

题目2：衡量容灾系统或能力的主要指标是________。

A. 远程镜像技术
B. RTO/RPO
C. 异地容灾
D. 数据备份策略

答案：B
详细解析：从技术上看，衡量容灾系统有两个主要指标，即 RPO（恢复点目标，代表允许丢失的数据量） 和 RTO（恢复时间目标，代表系统恢复的时间）。
教材页码：第240页、第257页

题目3：________不属于常见的数据质量评价过程。

A. 确定使用的数据质量定量元素及数据质量范围
B. 确定数据质量度量方法
C. 确定数据质量评价的第三方组织
D. 选择并使用数据治理评价方法

答案：C
详细解析：数据质量评价过程的五步包括：范围限定的数据集（确定定量元素及范围）、确定度量方法、选择并使用评价方法、确定质量结果、决定一致性。不包含“确定第三方组织”。
教材页码：第243页（图6-4）、第257页

题目4：关于数据集成定义的描述较为准确的是________。

A. 通过应用软件接口，将不同系统的数据进行共享
B. 将不同表单中的结构化数据融合为一个表单
C. 通过网络或数据标准，实现数据的共享与交换
D. 将驻留在不同数据源中的数据进行整合

答案：D
详细解析：教材对数据集成的明确定义是：“数据集成就是将驻留在不同数据源中的数据进行整合，向用户提供统一的数据视图，使得用户能以透明的方式访问数据”。
教材页码：第249页、第258页

题目5：为了更加有效地管理敏感数据，通常会对敏感数据的敏感程度进行划分，以下属于常见程度划分的是________。

A. L1（公开）、L2（保密）、L3（机密）、L4（绝密）、L5（私密）
B. L1（个人）、L2（组织）、L3（商业）、L4（技术）、L5（国家）
C. L1（公共）、L2（保密）、L3（机密）、L3（加密）、L5（绝密）
D. L1（互联网）、L2（局域网）、L3（保密网）、L4（专网）、L5（绝密网）

答案：A
详细解析：为了有效地管理敏感数据，通常把数据密级划分为5个等级，分别是 L1（公开）、L2（保密）、L3（机密）、L4（绝密）和 L5（私密）。
教材页码：第255页、第258页

题目6：在数据存储形式中，针对需要处理大量非结构化数据（如电子邮件、视频、照片、网页等），开发人员一般倾向于使用哪种存储架构？

A. 文件存储
B. 块存储
C. 对象存储
D. 关系型存储

答案：C
详细解析：对象存储通常称为基于对象的存储，是一种用于处理大量非结构化数据的数据存储架构。这些数据无法轻易组织到关系数据库中，如电邮、视频、传感器数据等。
教材页码：第237页

题目7：在数据备份策略中，每次所备份的数据只是相对于“上一次完全备份”之后发生变化的数据，这种备份属于________。

A. 完全备份
B. 差分备份
C. 增量备份
D. 容灾备份

答案：B
详细解析：差分备份的定义是每次所备份的数据只是相对“上一次完全备份”之后发生变化的数据。增量备份则是相对于“上一次备份”（不区分全量或增量）后改变的数据。
教材页码：第240页

题目8：在Web Services的三大要素中，________是一种基于XML格式的关于Web服务的描述语言，主要目的在于将服务的所有相关内容（如传输方式、方法接口等）生成文档发布给使用者。

A. SOAP
B. UDDI
C. HTTP
D. WSDL

答案：D
详细解析：WSDL（Web Services Description Language） 是基于XML的描述语言，用于生成描述服务细节的文档；SOAP是消息传递的协议；UDDI是集中存放和查找WSDL描述文件的注册服务规范。
教材页码：第250页

题目9：在数据建模中，不依赖于具体的计算机系统，把现实世界中的客观对象抽象为某一种信息结构，包含实体、属性、域、键、关联等基本元素的模型是________。

A. 概念模型
B. 逻辑模型
C. 物理模型
D. 关系模型

答案：A
详细解析：概念模型也称为信息模型，按用户观点建模，不依赖于具体DBMS。它的基本元素包括实体、属性、域、键、关联。关系模型属于逻辑模型。
教材页码：第244页

题目10：当要分析的数据缺乏描述信息，或者无法组织成任何分类模型时，可以采用________。它按照相近程度，将数据分成一系列有意义的子集。

A. 数据总结
B. 关联分析
C. 聚类分析
D. 孤立点分析

答案：C
详细解析：聚类分析是在要分析的数据缺乏描述信息时使用的方法，按照相近程度度量，将数据分成性质相近的子集。分类分析则通常预先有一个分类函数或模型。
教材页码：第252页

💡 备考小贴士

第6章是数据工程的核心章节，建议重点关注：

数据存储形式：文件存储、块存储、对象存储的适用场景（特别是对象存储用于非结构化数据）
备份策略：完全备份、差分备份、增量备份的区别（恢复速度、资源占用、可靠性）
容灾指标：RPO（数据丢失量）和RTO（恢复时间）
数据模型三阶段：概念模型（实体、属性、关联）、逻辑模型（关系模型）、物理模型（表、索引）
Web Services三要素：WSDL（描述）、SOAP（消息）、UDDI（注册）
数据挖掘任务：聚类分析（无分类模型时使用）vs 分类分析（有分类模型时使用）
数据密级：L1公开、L2保密、L3机密、L4绝密、L5私密

把这些核心考点记牢，3-5分轻松到手，案例分析也能从容应对！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从翻车到真香：一块DSP模组如何拯救你的语音通话设计

AtomGit开源社区

嵌入式语音通话翻车记：我用一块DSP模组搞定了回音、噪声和远场拾音

AtomGit开源社区

【免费开源】多格式文件转换工具 Pro：图片、PDF、文档、批量重命名一站式转换

摘要：多格式文件转换工具 Pro 是一款免费、本地的 Windows 文件处理工具，支持图片、文档、PDF、音视频等多种格式转换及批量操作。特点包括：完全免费：无会员、登录或付费限制，所有功能永久开放。本地运行：数据通过 SQLite 存储，文件不上传云端，保障隐私安全。多功能支持：图片处理（格式转换、压缩、合并PDF等）；文档互转（Excel/CSV、Markdown/PDF等）；