剖析一次漫长的 Dubbo 网关内存泄露排查经历

2023-12-06 22:15:14

在微服务架构中，微服务网关扮演着承上启下的关键角色，它将客户端请求路由到相应的微服务，并提供各种流量管理和安全保障功能。然而，当网关出现内存泄露问题时，却会给系统稳定性带来极大的挑战。

本文将分享一次漫长的 Dubbo 网关内存泄露排查经历，从问题发现、定位、解决到总结复盘，全方位解析这一常见痛点的解决之道。

1. 问题发现：渐进式内存增长

在一次常规的系统巡检中，运维团队发现 Dubbo 网关的内存占用呈现逐渐增长的趋势。经过一段时间观察，内存使用量持续攀升，最终导致系统崩溃。

2. 定位：依赖泄露与线程死锁

为了定位内存泄露的根源，运维团队使用了 Java 虚拟机 (JVM) 内存分析工具，如 JConsole 和 MAT。通过分析堆转储，他们发现内存泄露主要发生在 Dubbo 网关中两个关键对象：

进一步调查发现，ReferenceCountKeeper 对象泄露是由于线程死锁造成的。在某些情况下，请求线程会持有对服务端引用的锁，而服务端线程又持有对请求线程的锁，导致两个线程相互等待，无法释放对对象的引用。

3. 解决：优化对象生命周期与引入 WeakHashMap

为了解决内存泄露问题，运维团队采取了以下措施：

优化ReferenceCountKeeper对象生命周期： 通过重写finalize()方法，在垃圾回收器回收对象时主动释放对服务端引用的计数。
引入WeakHashMap替换ConcurrentHashMap： WeakHashMap中的键为弱引用，当引用对象被垃圾回收时，键值对也会被自动删除，从而避免了内存泄露。

4. 总结复盘：加强监控与自动化

此次内存泄露排查经历也促使运维团队加强了对 Dubbo 网关的监控与自动化。他们引入了以下措施：