阿里云宕机事件原因
发布时间:2025-10-28 23:39:12
•
阅读量:19次
•
来源:互联网
这个事故的主要原因,就是因为制冷设备整整10个小时不能恢复工作,机房升温太快,工程师为了保护数据,只能逐步关机。
次要原因是,在关机后还是有某个包间因为温度过高导致喷淋装置启动。手机和电脑不能进水都已经是常识了,服务器上淋了水那还得了?
再次原因,就是阿里云香港Reigon的架构设计,同样没有遵循自己提到的「全链路多可用区的业务架构设计」,新扩容的ECS管控系统启动时依赖的中间件服务部署在可用区C机房,导致可用区C一旦宕机,扩容服务也启动不了。相信后续阿里云一定会全网巡检,整体优化多可用区高可用设计,避免制造单点故障,类似依赖OSS单AZ和中间件单AZ的问题,再次出现就说不过去了。