618军演压测TPS上不去,排查优化全过程大揭秘!
2023-09-20 17:15:22
前言
618是电商行业的年度盛会,也是对电商系统的一次大考。京东云技术团队在618期间进行了多次军演压测,以确保系统能够稳定运行。在一次医药供应链质量组的军演压测中,我们发现系统TPS上不去,严重影响了业务的正常运行。经过一系列的排查和优化,我们最终解决了这个问题,确保了618期间系统的稳定运行。
问题
在一次医药供应链质量组的军演压测中,我们发现系统TPS上不去,严重影响了业务的正常运行。当时的情况是,当压测流量逐渐增大时,系统的TPS却逐渐下降,最终稳定在一个较低的值。这导致了系统无法满足业务需求,业务出现了严重的延迟和超时。
排查过程
为了解决这个问题,我们首先对系统架构进行了分析。我们发现系统是一个分布式系统,由多个子系统组成。这些子系统之间通过网络进行通信。我们对网络的性能进行了测试,发现网络的延迟和丢包率都在正常范围内。这说明网络不是导致TPS上不去的原因。
接下来,我们对系统性能数据进行了采集和分析。我们发现,在压测过程中,系统的CPU利用率和内存使用率都很低。这说明系统资源充足,没有出现资源瓶颈。
最后,我们对系统代码进行了检查。我们发现,在系统中存在一些代码问题。这些代码问题导致了系统的性能下降。例如,我们在代码中发现了一个死循环。这个死循环导致了系统资源的大量消耗,从而导致了系统的性能下降。
优化措施
在排查出问题之后,我们针对性地进行了优化。我们对代码进行了修改,修复了死循环等问题。我们还对系统的架构进行了调整,将系统拆分成了多个更小的子系统。这样,当某个子系统出现问题时,不会影响到整个系统。
优化结果
经过一系列的优化措施,我们最终解决了系统TPS上不去的问题。在优化之后,系统的TPS大幅提升,达到了预期的目标。这确保了618期间系统的稳定运行,满足了业务的需求。
总结
通过这次军演压测,我们吸取了宝贵的经验。我们认识到,系统性能优化是一项持续的工作。我们需要不断地对系统进行测试和优化,以确保系统能够稳定运行,满足业务的需求。
您可能还喜欢