在很多公司里,RAID 故障的剧情往往是这样的:
“有一块盘坏了,没事,RAID 顶得住。”
“盘已经换上,开始 Rebuild 了。”
“怎么又坏了一块?!”
如果你觉得这是运气不好,那说明你低估了 RAID 重建阶段的风险。
RAID 重建期,是整个生命周期里最危险的阶段
无论是 RAID 5、RAID 6,还是 RAID 10,只要进入Rebuild 状态,都会出现三个明显变化:
- 磁盘 IO 模型彻底改变
- 所有“健康盘”被迫进入满负荷扫描
- 任何潜在的硬件缺陷都会被无限放大
所以有一句在数据中心里流传很广的话:
“RAID 不是死在坏盘那一刻,而是死在重建那几天。”
RAID 重建到底在干什么?
很多人对 RAID Rebuild 的理解停留在一句话:
“把数据重新算一遍。”
这句话不算错,但远远不够具体。
重建意味着什么?
当一块盘