那天事故发生的时候,最诡异的一点是:
机房里什么都没坏。
核心交换机还在运行,指示灯全亮,链路全绿;服务器没有宕机,虚拟化平台健康;监控系统却在同一时间,把几乎所有业务一起标红。
对业务来说,这就是最可怕的一种故障——
不是“某个系统不可用”,而是整个公司突然像被拔了网线。
从经验出发,所有人第一反应都很一致。
如果是核心链路断了,那至少应该有接口 Down;
如果是路由协议崩了,BGP、OSPF 总该有日志;
如果是服务器问题,也不可能所有系统同时失联。
但事实是:
所有接口 UP,路由表完整,日志干净得像刚出厂。
唯一不正常的地方只有一个——
核心交换机的 CPU,几乎贴着 100% 在跑。
这是一个非常危险的信号。
当核心交换机 CPU 打满,真正“死亡”的是什么
很多人对交换机有一个误解:
觉得它是“纯硬件转发”,只要 ASIC 在,网络就不该死。
但做过生产网络的人都知道,核心交换机并不是一个“只转发数据”的设备。
它同时扮演着另一个角色:整个网络的“秩序维护者”。
那一刻,真正出问题的不是链路,也不是路由,