高可用不是一句“多部署几台机器”就能解决。真正关键的是:单个节点挂掉后,系统能不能自动切换,用户请求能不能继续完成。
第一层:无状态服务
API 节点尽量设计成无状态,不把关键会话和业务状态绑在单机内存里。这样某个节点挂掉后,负载均衡可以把请求切到其他节点。
第二层:负载均衡和故障剔除
通过负载均衡做健康检查。节点异常时自动摘除,恢复后再加入。
第三层:监控和告警
只做自动切换还不够,还要让人知道系统发生过故障。监控、日志和告警要能定位是哪类节点出问题。
小结
高可用先从无状态、健康检查、故障切换和告警开始,再考虑异地多活、容灾和更复杂的一致性设计。
正文完




