返回

美团终端主动监控平台助力业务稳定发展

见解分享

美团:以主动监控赋能终端稳定性优化


随着美团业务的飞速发展,外卖、打车、酒旅等业务逐步覆盖全国,终端设备数量激增,终端设备的稳定性成为影响用户体验和业务发展的关键因素。因此,美团于2017年启动了终端主动监控平台的建设,通过主动发现终端设备异常问题,并及时预警和处理,保障终端设备的稳定性,进而优化用户体验和业务发展。


美团的终端主动监控平台经历了以下几个阶段:


一、需求调研和目标制定


需求调研阶段,美团团队深入调研了终端设备的监控需求,发现主要痛点集中在以下几个方面:


  1. 缺乏主动监控机制 :传统监控方式被动依赖用户反馈,无法及时发现终端设备异常问题,导致问题扩大化。
  2. 监控指标不全面 :传统监控方式仅关注设备基本信息和应用运行状态,无法全面反映终端设备的健康状况。
  3. 告警处理效率低 :传统告警方式依靠人工处理,处理效率低,无法及时解决问题。

基于这些痛点,美团团队制定了终端主动监控平台的目标:


  1. 构建主动监控机制 :通过主动探测终端设备,及时发现设备异常问题。
  2. 完善监控指标体系 :采集终端设备全面的健康状态信息,全面反映设备健康状况。
  3. 提升告警处理效率 :建立自动化告警处理机制,提升告警处理效率。

二、平台设计和实现


为了实现上述目标,美团团队设计并实现了终端主动监控平台,平台架构如下图所示:


美团终端主动监控平台架构图


平台主要由以下几个模块组成:


  1. 数据采集模块 :负责采集终端设备的健康状态信息,包括设备基本信息、应用运行状态、网络状态、电池状态等。
  2. 数据分析模块 :负责分析采集到的健康状态信息,发现异常问题,并生成告警信息。
  3. 告警处理模块 :负责处理告警信息,并根据告警级别采取相应的措施,如发送邮件、短信或电话告警。
  4. 运维管理模块 :负责平台的运维管理,包括监控平台运行状态、告警处理情况等。

三、平台应用和效果


终端主动监控平台自上线以来,已经在美团内部得到了广泛应用,主要应用于以下几个方面:


  1. 终端设备异常问题发现 :平台通过主动探测,及时发现终端设备的异常问题,并及时预警和处理,避免问题扩大化。
  2. 终端设备健康状态评估 :平台通过采集终端设备全面的健康状态信息,全面反映设备健康状况,为终端设备的运维和管理提供数据支持。
  3. 告警处理效率提升 :平台建立了自动化告警处理机制,告警处理效率大幅提升,保障了终端设备的稳定性。

终端主动监控平台的应用取得了显著的效果,具体体现在以下几个方面:


  1. 终端设备异常问题发现率提升 :平台上线后,终端设备异常问题发现率提升了50%以上。
  2. 终端设备稳定性提升 :平台上线后,终端设备稳定性提升了20%以上。
  3. 用户体验优化 :平台上线后,用户体验得到了优化,投诉率下降了10%以上。

四、总结与展望


美团终端主动监控平台的建设是一个持续的过程,未来美团团队将继续完善平台功能,提升平台性能,为终端设备的稳定性优化提供更强有力的支持。


展望未来,美团团队计划将终端主动监控平台与其他平台和系统进行整合,实现全方位的终端设备管理,进一步提升终端设备的稳定性和用户体验。