返回

《助力存算分离,阿里云EMR Remote Shuffle Service(RSS)在小米的实践》

后端

前言

随着大数据技术的不断发展,数据量和计算任务的复杂性也在不断增长。在处理海量数据时,Spark作业经常会遇到性能和稳定性问题。为了解决这些问题,阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来,帮助了诸多客户解决Spark作业的性能、稳定性问题,并使得存算分离架构得以实施,与此同时RSS也在跟合作方小米合作,一起来探索RSS在更大规模场景的应用。

小米在RSS落地过程中遇到的挑战

在小米的实践中,我们遇到了以下几个挑战:

  • 如何保证RSS服务的稳定性。 RSS服务是Spark作业的必备组件,如果RSS服务不稳定,将会直接影响Spark作业的稳定性。
  • 如何提高RSS服务的性能。 RSS服务是Spark作业的瓶颈之一,如果RSS服务的性能不高,将会拖慢Spark作业的执行速度。
  • 如何实现RSS服务的运维自动化。 RSS服务是一个复杂的系统,需要大量的运维工作。如果不能实现RSS服务的运维自动化,将会增加运维人员的工作量。

RSS在小米的落地价值

RSS在小米的落地,带来了以下几个方面的价值:

  • 提高了Spark作业的性能。 RSS服务可以将Spark作业的shuffle数据存储在远程存储上,从而减少了Spark作业在执行过程中对本地存储的压力。这使得Spark作业的执行速度得到了大幅提升。
  • 提高了Spark作业的稳定性。 RSS服务可以将Spark作业的shuffle数据存储在远程存储上,从而避免了Spark作业在执行过程中因本地存储故障而导致的失败。这使得Spark作业的稳定性得到了大幅提升。
  • 降低了Spark作业的成本。 RSS服务可以将Spark作业的shuffle数据存储在远程存储上,从而减少了Spark作业在执行过程中对本地存储的需求。这使得Spark作业的成本得到了降低。
  • 支持了存算分离架构的实施。 RSS服务可以将Spark作业的shuffle数据存储在远程存储上,从而使得Spark作业可以与计算资源分离。这使得存算分离架构的实施成为可能。

RSS后续的发展

RSS后续的发展方向主要包括以下几个方面:

  • 提高RSS服务的稳定性。 RSS服务是一个复杂的系统,需要大量的运维工作。RSS后续的发展将重点关注如何提高RSS服务的稳定性,减少RSS服务的故障率。
  • 提高RSS服务的性能。 RSS服务是Spark作业的瓶颈之一,RSS后续的发展将重点关注如何提高RSS服务的性能,缩短Spark作业的执行时间。
  • 实现RSS服务的运维自动化。 RSS服务是一个复杂的系统,需要大量的运维工作。RSS后续的发展将重点关注如何实现RSS服务的运维自动化,减少运维人员的工作量。
  • 支持更多的数据源。 RSS服务目前仅支持HDFS数据源,RSS后续的发展将重点关注如何支持更多的