排查 Kafka 积压,第一步不是急着扩容,而是先判断问题到底出在生产太快、消费太慢,还是分区和资源分布不均。
先看核心指标
最直观的是 Consumer Lag。如果 Lag 持续上升,说明当前消费速度跟不上生产速度;如果只在少数分区升高,往往是分区倾斜或单消费者异常。
再分三段定位
生产端看是否突然放量、批量参数是否异常;Broker 侧看磁盘 IO、网络和分区副本状态;消费端看线程数、批量拉取配置、下游数据库或接口是否拖慢处理。
为什么不能只靠加机器
如果真正瓶颈在慢 SQL、远程调用超时或消息处理逻辑本身,再加消费者也只是把问题放大。先定位慢点,再决定扩容还是调优,效率更高。
一句话理解
Kafka 积压是结果,不是原因;要按生产端、Broker、消费端三段拆开看,才能找到真正堵住的位置。
正文完




