返回

用云服务的GPU虚拟机可实现创建时间大幅度优化

闲谈

随着云服务市场的日益成熟,越来越多的人开始使用云服务中的GPU虚拟机,不过GPU虚拟机创建往往耗时颇长。实际上,虚拟机的创建速度虽然属于低频操作,但在生产中却存在不少对GPU实例创建时间有苛刻要求的业务场景。GPU虚拟机的创建速度慢是公有云面临的普遍问题,本文将介绍滴滴云在解决该问题时的思路和方法,并展示最终的优化成果。

低频操作与低频陷阱

GPU虚拟机的创建速度属于低频操作,其在业务中的重要性很容易被忽视。不过实际上,即便是不常发生的操作,也有可能存在影响业务运行的风险。就好比一些应用在更新时,往往会经历较长时间的宕机,此时哪怕只是低频的更新操作,也会对用户造成一定程度的影响。

特别是在一些对虚拟机创建时间有特殊要求的业务场景中,低频操作可能带来的影响甚至更加致命。最为典型的一个场景,便是GPU虚拟机需要在规定时间内创建完成以供科研机构使用。由于科学研究往往都存在时间限制,因此一旦虚拟机创建速度不够快,科研机构很可能就无法满足相关项目的科研目标,而如果因此导致科研项目出现延误,最终会对整个行业的发展造成负面影响。

多管齐下,全方位优化虚拟机创建速度

滴滴云为了满足客户对GPU虚拟机创建速度的要求,在产品、运维、存储、网络等多个方面进行优化,最终将GPU虚拟机的创建速度提升了2倍。

产品侧优化

产品侧主要从业务需求和产品架构两方面出发,对GPU虚拟机的创建速度进行了优化。

  • 业务需求梳理。 为了确保优化能有的放矢,滴滴云先对用户在GPU虚拟机创建速度上的需求进行了梳理。在与大量客户沟通之后,滴滴云产品团队发现,当前用户普遍需求可以归纳为两类:一类用户对创建速度要求并不算严格,而另一类用户则有非常严格的创建时间要求,这两种需求互不重叠。
  • 产品架构调整。 梳理出业务需求后,滴滴云开始调整GPU虚拟机产品的架构。针对对创建时间要求不严格的用户,滴滴云采用异步创建的方式,即允许用户提交创建任务后立即使用虚拟机,而虚拟机的创建任务则在后台进行,这样能大大缩短用户的等待时间。而针对对创建时间要求严格的用户,滴滴云则采用了另一种架构,这种架构能让虚拟机在创建后立即投入使用,但这会导致虚拟机的创建时间变长。

运维侧优化

运维侧优化主要包括两方面内容:基础设施优化和自动化运维。

  • 基础设施优化。 为了让GPU虚拟机能拥有更快的创建速度,滴滴云对基础设施进行了优化。通过对硬件设备进行性能提升,以及对存储架构进行调整,使得创建GPU虚拟机的基础设施运行效率更高。
  • 自动化运维。 自动化运维可以极大提升运维的效率,进而对GPU虚拟机的创建速度产生积极影响。滴滴云在运维方面进行了自动化改造,并实现了机器学习驱动的运维,这使得GPU虚拟机的运维效率显著提升。

存储侧优化

滴滴云在存储侧的优化主要集中在存储介质和存储架构两个方面。

  • 存储介质优化。 存储介质的速度对虚拟机的创建速度有直接影响,因此滴滴云选用了速度更快的存储介质,以减少虚拟机创建所需要的时间。
  • 存储架构优化。 滴滴云对存储架构进行了优化,并采用了分布式存储技术,这使得虚拟机创建过程中涉及的IO操作可以并行处理,从而缩短了虚拟机创建的时间。

网络侧优化

为了降低虚拟机创建过程中的网络延迟,滴滴云对网络架构进行了调整。滴滴云采用VPC网络,并将VPC网络划分为多个子网,并在每个子网中部署了多台交换机。这种网络架构可以降低网络延迟,并为虚拟机创建过程提供更高的带宽,从而缩短了虚拟机的创建速度。

优化成果展示

在滴滴云的一系列优化之后,GPU虚拟机的创建速度得到了显著提升。在实际测试中,GPU虚拟机的平均创建速度从原来的15分钟缩短到了7分钟,这相当于优化后虚拟机的创建速度比优化前提升了2倍,这样的优化成果在整个公有云市场中都处于领先水平。

总结与展望

GPU虚拟机的创建速度对用户而言至关重要,滴滴云通过在产品、运维、存储、网络等多个方面进行优化,将GPU虚拟机的创建速度提升了2倍。未来,滴滴云还将继续优化GPU虚拟机的创建速度,并努力为用户提供更加高效便捷的云服务体验。