存储系统的容错与RAID技术解析
1. 机箱设计与自我监控
机箱设计应允许在不使数据离线的情况下添加或更换电源。1995年,制定了SCSI访问容错机箱(SAF - TE)标准,其能让机箱将自身状态(如磁盘、电源和风扇故障)传达给管理站或监控应用程序,还可跟踪机箱温度等环境条件。机箱内的警报和状态灯能以视觉或听觉方式指示故障,可通过电子邮件向寻呼机、手机、操作员或技术支持团队发送警报。监控应用程序可利用SAF - TE状态信息,提供故障组件或环境问题的关键细节,这种故障警报能力对系统可用性至关重要。例如,电源或磁盘故障可能使冗余组件成为单点故障(SPOF),增加在线组件负载,使其更易出现故障。
1.1 机箱自我监控流程
graph LR A[机箱状态监测] --> B{是否有故障} B -- 是 --> C[触发警报和状态灯] C --> D[发送警报信息] D --> E[监控应用获取信息并分析] B -- 否 --> A2. 磁盘冗余与RAID
RAID最初是廉价磁盘冗余阵列的缩写,后“廉价”改为“独立”。它能在一组磁盘间实现冗余,避免磁盘故障导致数据可用性中断或数据丢失。磁盘因有移动部件,易出现故障,如磁头损坏、灰尘或盘片碎屑会迅速损坏磁表面。
2.1 RAID配置与热备盘
部分磁盘机箱有RAID控制器,可配置RAID组并将其划分为逻辑单元(LUNs),主机操作系统将每个LUN视为单个物理磁盘。机箱内磁盘可指定为热备盘,正常情况下不写