云应用中的硬件故障与忙信号处理策略
1. 商品硬件与应用逻辑
在云环境中,部分应用程序的性能可能会受到影响,但仍能继续运行。采用与云平台服务相契合的模式,不仅可行,还能因复杂度降低和新的经济效益而颇具吸引力。
1.1 硬件故障的必然性与不频繁性
商品硬件故障的恢复讨论可能会产生误导。虽然商品硬件比高端硬件更容易出现故障,但并不意味着它频繁发生故障。每年,数据中心中只有一小部分商品服务器会受到硬件故障的影响。不过,要做好准备,因为最终可能会轮到你的服务器出现问题。
云平台假定大部分平均修复时间(MTTR)相关的工作通过自动化完成,但也对应用程序提出了要求,在处理故障方面形成了一种合作关系。
1.2 商品硬件对应用逻辑的影响
云原生应用程序预期会出现故障,并能够检测和自动从常见场景中恢复。其中一些故障场景是由于应用程序依赖商品硬件而产生的。
商品硬件偶尔会出现故障,因此要为计算节点可能出现的故障做好规划并制定应对策略。故障可能是由特定物理服务器的问题引起的,例如内存故障、磁盘驱动器崩溃或主板上溅到咖啡。其他场景则源于软件故障。
需要注意的是,应用程序依赖的云服务(如数据库、持久文件存储、消息传递等)也运行在商品硬件上。当这些服务因硬件故障而中断时,应用程序也可能会受到影响。在许多情况下,云平台服务能够在没有明显性能下降的情况下恢复,但有时会暂时降低性能,迫使调用应用程序处理瞬态故障。
1.3 同质硬件
云数据中心也努力使用同质硬件,以更轻松地管理和维护资源。通过价格低廉且易于获取的商品硬件,大规模采购同质硬件成为可能。
<