vivo 基础数据计算架构演进及在万亿级海量数据下的优化

2023-11-15 00:00:47

海量数据时代，数据的价值日益凸显，数据计算架构作为大数据平台的核心组成部分，面临着巨大的挑战。vivo 作为一家全球领先的智能终端公司，拥有庞大的用户群体和丰富的业务场景，每天产生的数据量以万亿计。为了满足业务发展的需要，vivo 在基础数据计算架构方面进行了大量的探索和实践。

本文主要介绍了 vivo 在万亿级数据增长驱动下，基础数据架构建设的演进过程，以及在实时和离线计算过程中，基于业务发展、数据质量、计算成本等方面的挑战，如何构建稳定、可靠、低成本、高性能的双活计算架构。

1. 基础数据计算架构演进

vivo 的基础数据计算架构经历了三个主要阶段：

早期，vivo 的数据计算架构以传统的离线计算架构为主，采用 Hadoop+Hive 的解决方案，主要用于离线数据仓库的建设。该架构的特点是简单易用，但是存在数据延迟高、扩展性差、成本高等问题。

随着业务的快速发展，vivo 的数据量呈爆炸式增长，传统离线计算架构已经无法满足实时数据处理的需求。因此，vivo 引入了实时计算架构，采用 Spark Streaming+Kafka 的解决方案，主要用于实时数据处理和分析。该架构的特点是数据延迟低、扩展性好，但是存在稳定性差、成本高等问题。

为了解决实时计算架构的稳定性和成本问题，vivo 构建了双活计算架构，采用 Spark Streaming+Kafka+HDFS 的解决方案，主要用于实时和离线数据处理和分析。该架构的特点是稳定性好、成本低，但是存在数据一致性问题。

在实时计算过程中，vivo 面临着以下几个方面的挑战：

实时计算的目的是为了快速响应业务需求，因此数据延迟是影响实时计算效果的关键因素。vivo 通过以下几个方面来优化数据延迟：

采用高性能的计算引擎：vivo 采用 Spark Streaming 作为实时计算引擎，Spark Streaming 具有高吞吐量、低延迟的特点，可以满足实时计算的需求。
优化数据传输过程：vivo 采用 Kafka 作为数据传输中间件，Kafka 具有高吞吐量、低延迟的特点，可以保证数据传输的稳定性和快速性。
优化数据处理逻辑：vivo 通过对数据处理逻辑进行优化，减少不必要的计算，提高数据处理效率。

在双活计算架构中，存在数据一致性问题，即在两个数据中心之间，数据可能存在不一致的情况。vivo 通过以下几个方面来保证数据一致性：

采用分布式锁：vivo 采用分布式锁来保证数据的一致性，当一个数据中心在更新数据时，会先获取分布式锁，然后再进行更新操作，这样可以保证数据在两个数据中心之间是同步的。
采用数据复制：vivo 采用数据复制的方式来保证数据的一致性，即在一个数据中心更新数据时，会同时将数据复制到另一个数据中心，这样可以保证数据在两个数据中心之间是同步的。