巧用Splitter解决“大集合参数”这个性能杀手

后端

2024-02-23 14:07:39

大数据时代下数据库查询性能优化神器：Splitter

大集合入参对性能的致命影响

随着数据量的不断增长，大集合入参逐渐成为数据库查询和RPC调用的性能杀手。例如，在阿里巴巴，P3C规范明确规定SQL中in语句的集合大小不能超过1000。然而，仅仅制定规范是不够的，缺少合适的工具来辅助实施，难以保证规范的有效执行。

Splitter：大集合拆分神器

为了解决大集合入参的问题，我在公司内部开源了Splitter工具，它能够对数据进行拆分，并将处理后的数据以多个小批次的方式传递给数据库或其他系统，从而大幅提高整体性能。

Splitter的原理

Splitter的原理非常简单，它将大集合按照指定的大小拆分成多个小批次，然后将这些批次依次传递给目标系统。通过这种方式，避免了单次调用中大集合的加载，有效降低了系统压力，从而提高了查询效率。

Splitter的使用方法

Splitter的使用非常方便，只需要将要拆分的数据和批次大小作为参数传入即可。Splitter会自动将数据拆分成多个批次，并返回一个包含这些批次的列表。具体使用方法如下：

Java示例：

import com.google.common.collect.Lists;
import java.util.List;
import java.util.stream.Collectors;

public class Splitter {

    public static <T> List<List<T>> split(List<T> list, int batchSize) {
        int size = list.size();
        int numBatches = (size + batchSize - 1) / batchSize;
        List<List<T>> batches = Lists.newArrayListWithCapacity(numBatches);
        for (int i = 0; i < numBatches; i++) {
            int start = i * batchSize;
            int end = Math.min(start + batchSize, size);
            batches.add(list.subList(start, end));
        }
        return batches;
    }

    public static void main(String[] args) {
        List<Integer> list = Lists.newArrayList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);
        List<List<Integer>> batches = Splitter.split(list, 3);
        System.out.println(batches);
    }
}

Python示例：

from typing import List

def split(list: List, batch_size: int) -> List[List]:
    """
    Split a list into multiple batches.

    Args:
        list: The list to split.
        batch_size: The size of each batch.

    Returns:
        A list of lists, where each sublist is a batch of the original list.
    """
    num_batches = (len(list) + batch_size - 1) // batch_size
    batches = []
    for i in range(num_batches):
        start = i * batch_size
        end = min(start + batch_size, len(list))
        batches.append(list[start:end])
    return batches


if __name__ == "__main__":
    list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    batches = split(list, 3)
    print(batches)