返回
算力赋能,加速算法平台在线服务体系的演进与实践
人工智能
2024-01-01 16:19:26
算法平台在线服务体系是支撑算法能力输出的重要基础设施,它负责将算法模型部署到线上环境,并为调用方提供统一的访问接口。随着算法应用的不断深入,算法平台在线服务体系也面临着越来越多的挑战,如服务规模的快速增长、服务部署和运维的复杂性、服务质量和稳定性的要求不断提高。因此,建设一套稳定可靠、高性能、可扩展的算法平台在线服务体系势在必行。
本文以美团配送技术团队搭建的图灵平台为例,讲述了图灵平台在线服务框架——图灵OS的建设历程,以及在统一服务管理、高可用部署、统一监控告警、自动化运维等方面的演进与实践。
图灵平台在线服务体系的演进
图灵平台在线服务体系经历了三个阶段的演进:
- 第一阶段:单机服务阶段
在这个阶段,算法服务都是部署在单机上,服务之间通过RPC调用进行通信。这种架构简单易于实现,但存在着以下问题:
- 服务规模受限于单机的硬件资源,无法满足大规模服务的部署需求。
- 服务部署和运维复杂,需要手动进行服务启停、故障处理等操作。
- 服务质量和稳定性难以保障,单点故障可能导致整个服务不可用。
- 第二阶段:分布式服务阶段
在这个阶段,算法服务被部署在分布式环境中,服务之间通过消息队列进行通信。这种架构解决了单机服务阶段的问题,但也带来了新的挑战:
- 服务管理复杂,需要协调多个服务节点之间的状态一致性、故障转移等问题。
- 服务部署和运维复杂,需要手动进行服务扩容、缩容、故障处理等操作。
- 服务质量和稳定性依然难以保障,分布式环境下的故障可能导致服务不可用。
- 第三阶段:服务网格阶段
在这个阶段,算法服务被部署在服务网格中,服务之间通过服务网格进行通信。服务网格为算法服务提供了统一的服务发现、负载均衡、故障转移、监控告警等功能,从而简化了服务管理、部署和运维,提高了服务质量和稳定性。
图灵OS在线服务框架的建设
图灵OS在线服务框架是图灵平台在线服务体系的核心组件,它提供了一套完整的算法服务在线部署和计算的解决方案。图灵OS在线服务框架主要包括以下几个模块:
- 服务管理模块 :负责管理算法服务的生命周期,包括服务注册、发现、启停、扩缩容等。
- 负载均衡模块 :负责将调用请求均匀地分配到多个算法服务节点上,以提高服务性能和可靠性。
- 故障转移模块 :负责在算法服务节点故障时将调用请求自动转移到其他健康的服务节点上,以保证服务的可用性。
- 监控告警模块 :负责收集和分析算法服务运行时的各种指标数据,并在发生异常时及时发出告警。
- 自动化运维模块 :负责对算法服务进行自动化的运维,包括服务启停、故障处理、扩容缩容等。
图灵OS在线服务框架的优势
图灵OS在线服务框架具有以下几个优势:
- 统一的服务管理 :图灵OS在线服务框架提供了统一的服务管理界面,方便用户对算法服务进行管理,包括服务注册、发现、启停、扩缩容等。
- 高可用部署 :图灵OS在线服务框架支持算法服务的高可用部署,包括负载均衡、故障转移等功能,确保服务的可用性。
- 统一的监控告警 :图灵OS在线服务框架提供了统一的监控告警机制,方便用户及时发现和处理算法服务的异常情况。
- 自动化的运维 :图灵OS在线服务框架支持对算法服务进行自动化的运维,包括服务启停、故障处理、扩容缩容等,降低了运维人员的工作量。
图灵OS在线服务框架的实践
图灵OS在线服务框架已在美团配送的多个业务场景中落地实践,包括订单配送、骑手调度、智能客服等。图灵OS在线服务框架的实践取得了良好的效果,显著提升了算法服务