监控平台的价值,是把系统运行状态变成可观察、可判断、可追溯的信息。
先看服务是否健康
服务健康可以从这些角度看:
- 实例是否在线。
- 接口是否可用。
- 错误率是否异常。
- 响应时间是否升高。
- 资源是否耗尽。
- 依赖是否正常。
健康检查只是入口,不代表业务一定正常。
再看业务指标
业务指标能发现技术指标看不到的问题。
例如:
- 下单量下降。
- 支付成功率下降。
- 消息积压。
- 任务失败。
- 数据同步延迟。
- 回调异常。
这些指标和用户体验更接近。
故障入口要少而清楚
监控平台不要让排障入口太散。
常用入口可以包括:
- 服务总览。
- 接口明细。
- 日志查询。
- 链路追踪。
- 数据库指标。
- 中间件指标。
- 告警历史。
入口越清楚,值班同学越快进入正确面板。
维护建议
监控平台可以按“服务状态、业务指标、依赖指标、告警历史、排查入口”五类组织。
每次故障复盘后,把缺失指标补进平台,监控才会越来越有用。
正文完




