文章目录

  • 基础概念——CHKDSK 与降级 RAID 阵列
  • 在降级的 RAID 阵列上运行 CHKDSK 时实际发生了什么?
  • 为什么这种损害通常是不可逆的?
  • 针对降级 RAID 阵列的安全行动方案
  • 真实案例:运行 CHKDSK 如何险些毁掉整个 RAID 服务器
  • 结语

你不应该在降级的 RAID 阵列(一个或两个磁盘故障)上运行 CHKDSK 命令,因为它可能将健康的扇区标记为“坏”,从而导致不可逆的数据丢失。如果驱动器故障是由于坏扇区或其他原因(下文讨论)造成的,请使用专业的 RAID 数据恢复工具。在此阶段,CHKDSK 无论如何都无法帮助你恢复数据,因为它不读取 RAID 奇偶校验、条带或成员驱动器的逻辑排列。它仅在单个驱动器/卷上工作。因此,如果遇到哪怕一丁点损坏或不一致,运行它对于整个数据而言都将是致命的。

基础概念——CHKDSK 与降级 RAID 阵列

在理解为什么在降级 RAID 上运行 CHKDSK 是有害的之前,我们先厘清基础概念:究竟什么是降级 RAID 阵列,以及什么是 CHKDSK?

“RAID 阵列降级”状态实际意味着什么?

RAID 阵列由多个物理驱动器共同组成一个逻辑卷。在 RAID 5 或 RAID 6 等配置中(数据奇偶校验——一种为磁盘冗余而计算并存储为“块”的二进制数据——参与其中),当成员驱动器发生故障(在设定限度内)时,RAID 阵列会进入“降级”状态。阵列不会立即失效,但继续运行会变得相当危险。这是因为随后可能发生另一个 RAID 磁盘故障,导致整个 RAID 阵列完全失效。

下表列出了一些常见 RAID 级别的“降级”状态:

RAID 阵列

存储技术类型

降级状态的磁盘故障限制

含义

RAID-1

镜像

1 个

可在剩余磁盘上继续运行

RAID-5

条带化 + 奇偶校验

1 个

可承受单磁盘故障;第二个磁盘故障将导致完全数据丢失

RAID-6

条带化 + 双奇偶校验

2 个

可承受两个磁盘故障;第三个磁盘故障将导致完全数据丢失

RAID-10

每个镜像集中条带化

每个镜像集中 1 个

每个镜像对中可承受 1 个磁盘故障;同一镜像中第二个磁盘故障将导致完全数据丢失

什么是 CHKSDK 实用程序?

检查磁盘(CHKDSK)是 Windows 操作系统内置的磁盘监控实用程序。它是一个重要工具,用于扫描和修复多种存储驱动器相关问题,例如:

  • 损坏的文件系统或元数据
  • 损坏的 MFT(主文件表)
  • 坏/损坏的扇区
  • 时间戳错位
  • 文件大小数据和安全标志错误

CHKDSK 是一个简单的命令,它首先扫描并检查驱动器的文件系统,然后检查数据完整性和文件元数据。在进行这些检查的同时,它还会查找逻辑错误、MFT 中损坏的条目、错位的时间戳等,并立即修复它们,而不会影响驱动器的数据。

CHKDSK 可用于修复 HDD 故障背后的根本原因。CHKDSK 通过重写错误数据来修复软错误,通过将磁盘上损坏的部分标记为“坏”来修复硬错误。

在降级的 RAID 阵列上运行 CHKDSK 时实际发生了什么?

当你通过 CMD 在降级的 RAID 阵列上运行 CHKDSK 时,该命令将成员驱动器视为单个逻辑存储卷。它不理解这些驱动器是逻辑连接的。根据所使用的参数,该实用程序会分别扫描每个成员驱动器的文件系统结构、MFT 等是否存在损坏。当它遇到文件系统或文件级别损坏时,它会将该数据所在驱动器上的所有问题位标记为不可读。

在降级的 RAID 阵列情况下,错误使用 CHKDSK 命令弊大于利。它会寻找一致性,但由于数据条带化/奇偶校验或成员驱动器故障,这种一致性可能缺失。因此,它会将这些位标记为损坏,并更新它们在 MFT 中的状态。这使得数据(或部分数据)变得不可访问,从而永久破坏了本来可以恢复的数据。

CHKDSK 如何工作?(故障链分解)

  1. CHKDSK 运行并查找文件/文件系统中的任何不一致。
  2. 从降级的 RAID 磁盘读取数据,并将其标记为不一致。
  3. 根据用户输入的参数,将这些位标记为“已损坏”且不可访问。
  4. 这些位中的数据丢失。

为什么这种损害通常是不可逆的?

在降级状态的 RAID 上运行 CHKDSK 不是一个好策略,其原因如下:

1. CHKDSK 会覆盖恢复工具所需的精确元数据

RAID 重建软件依赖于超级块、条带头和分区元数据来识别成员顺序、条带大小和奇偶校验轮换。CHKDSK 发现这些信息不一致,并将其用零覆盖。

2. 它会加剧对剩余成员驱动器的 I/O 压力

每次控制器从包含故障成员磁盘的条带中读取数据时,控制器都会对剩余驱动器执行 XOR 运算来计算丢失的数据。除此之外,运行 CHKDSK 还会在降级 RAID 阵列上增加全卷读写通路的额外负载——从而显著增加扫描过程中另一个驱动器发生故障的几率。

3. 它可能将健康的驱动器标记为不可读

由于条带化数据或分布式奇偶校验,CHKDSK 可能会将成员驱动器上的健康扇区标记为有错误。其扇区级修复尝试可能会将这些扇区标记为“坏”。具有大量坏扇区的驱动器不应再使用。

针对降级 RAID 阵列的安全行动方案

当 RAID 管理系统(对于硬件 RAID)或系统(对于软件 RAID)将 RAID 磁盘标记为“降级”时,不要运行 CHKDSK 或任何第三方磁盘修复软件。相反,请按顺序执行以下步骤:

  1. 停止所有写入操作:不要使用降级的 RAID 阵列来保存或检索任何文件。每次写入操作都会缩小成功数据恢复的机会。
  2. 识别故障驱动器:使用 RAID 控制器的专用管理软件(例如 Intel RST、Broadcom WebBIOS 等)或 BIOS 来验证是哪个成员磁盘导致阵列进入“降级”状态。
  3. 检查剩余驱动器的 S.M.A.R.T. 状态:在 RAID 控制器管理软件中,验证其他成员磁盘的健康状况。查找以下指标:高重新分配扇区数、待处理扇区数或 CRC 错误。如果任何驱动器出现故障迹象,请先克隆或更换它,以避免在恢复或重建期间发生第二次故障。
  4. 使用专业的 RAID 数据恢复软件恢复重要数据:如果你仍然可以访问 RAID 阵列上的数据,请使用专业的 RAID 数据恢复软件优先检索重要文件——宝贵的业务/工作文件、财务文档、身份证件等。专业的 RAID 数据恢复软件提供了一个安全的环境来从降级或崩溃的 RAID 设置中恢复数据。使用这类工具,可以从 RAID-0、RAID-5 和 RAID-6 阵列中检索所有类型的文件。恢复后,立即将检索到的数据备份到外部存储设备或云端。
  5. 热插拔或重建降级的 RAID 阵列:最后一步——尝试重建降级的 RAID 阵列。尝试热插拔故障磁盘(如果支持),或者使用新磁盘从头开始重建阵列。

鸿萌推荐的专业 RAID 数据恢复软件的部分亮点:

  • 从 HDD、SSD、闪存驱动器、光盘、4K 驱动器、RAID 阵列和 RAW 卷中恢复数据
  • 使用可启动介质驱动器从崩溃或无法启动的 Windows PC 中恢复数据
  • 从 BitLocker 加密的驱动器中恢复文件
  • 帮助跟踪驱动器的各种 S.M.A.R.T. 属性:包括健康状态、性能和温度
  • 检索所有类型的数据,包括文档、图像、视频、音频文件、邮箱文件(PST、MBOX、OLM 等)
  • 帮助创建具有坏扇区或文件系统损坏的驱动器的磁盘映像或克隆
  • 允许用户在恢复前验证恢复的文件
  • 适用于 Windows 11、10、8.1 和 8 系统
  • 支持 NTFS 和 EXT-2/3/4 格式的驱动器

注意:如果你遇到任何物理或逻辑故障迹象——咔嗒声或摩擦声、响应时间缓慢、S.M.A.R.T. 错误——请立即停止使用该设备并联系专业数据恢复实验室。

真实案例:运行 CHKDSK 如何险些毁掉整个 RAID 服务器

让我们看一个在有问题的 RAID 阵列上运行 CHKDSK 的实例。

情况

一位 Reddit 用户 – u/Carburetors_are_evil 发帖称,他在一台 Dell Poweredge 塔式服务器中配置了一个由 4 块 7200rpm 1TB 硬盘组成的 RAID 5 阵列。突然断电后,服务器运行变得非常缓慢。该用户运行了带有 /r 参数的 CHKDSK 命令,进度到 10% 后卡住了将近 16 个小时。虽然经过漫长等待,扫描在仅 10 分钟内就完成了。

可能出了什么问题?

如果驱动器上有任何坏扇区,CHKDSK 会将其标记为不可访问,从而使数据永久丢失。此外,扫描过程中施加在成员驱动器上的压力可能会引入更多坏扇区——使情况变得更糟。

应该怎么做?

用户不应该运行 CHKDSK 命令,而应该检查 RAID 阵列管理软件是否有任何问题。然后,如果发现任何错误,使用专业的恢复软件检索重要文件,之后才尝试解决问题。

观察结果

该用户没有对 RAID 上的文件进行备份。情况可能很快恶化,导致数据丢失。因此,始终建议将重要文件备份到其他存储介质或云端。如果可能,请遵循 3-2-1 备份策略

结语

CHKDSK 是一个有用的命令行实用程序,用于扫描单个磁盘是否存在文件系统不一致。因此,它无法在 RAID 阵列上工作。当 RAID 磁盘降级时——无论是 RAID-1 还是 RAID-5/6——方法很简单:停止向其写入数据,识别故障成员磁盘,检查 S.M.A.R.T. 状态,并使用专业的 RAID 恢复软件在重建/热插拔磁盘之前恢复重要数据。

想要快速解决问题是完全可以理解的。但是,在底层架构不受支持的卷上运行文件系统修复工具是一个危险的步骤。如果你在屏幕上看到“RAID 阵列降级”状态后不确定下一步该怎么做,请联系专业人士。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐