剑指 Offer 41：数据流中的中位数：海量数据的中位数计算方法详解

2023-10-25 11:55:17

数据流中中位数计算：一种高效算法

在计算机科学和统计学领域，中位数是一个广泛使用的统计量，它可以衡量一组数据点的中心趋势。在某些场景下，我们需要实时地计算数据流中的中位数，这对于数据分析和决策制定至关重要。在这篇文章中，我们将介绍一种高效算法，用于计算数据流中的中位数，并通过实例展示其应用。

算法概述

为了计算数据流中的中位数，我们使用一种基于最大堆和小根堆的数据结构和算法。最大堆存储较小的元素，而小根堆存储较大的元素。当一个新的元素被添加到数据流中时，将其插入到适当的堆中，以确保最大堆和最小堆中的元素数量相等或相差一个。这样，数据流中的中位数就是最大堆的堆顶元素，或者最大堆和最小堆的堆顶元素的平均值。这种算法可以在 O(log n) 的时间复杂度内计算中位数，其中 n 是数据流中的元素数量。

算法实现

以下是使用 Java 实现该算法的示例代码：

import java.util.PriorityQueue;

public class MedianFinder {

    private PriorityQueue<Integer> maxHeap; // 小根堆，存储较小元素
    private PriorityQueue<Integer> minHeap; // 大根堆，存储较大元素

    public MedianFinder() {
        maxHeap = new PriorityQueue<>(Collections.reverseOrder());
        minHeap = new PriorityQueue<>();
    }

    public void addNum(int num) {
        if (maxHeap.isEmpty() || num <= maxHeap.peek()) {
            maxHeap.add(num);
        } else {
            minHeap.add(num);
        }

        if (maxHeap.size() > minHeap.size() + 1) {
            minHeap.add(maxHeap.poll());
        } else if (minHeap.size() > maxHeap.size()) {
            maxHeap.add(minHeap.poll());
        }
    }

    public double findMedian() {
        if (maxHeap.size() == minHeap.size()) {
            return (maxHeap.peek() + minHeap.peek()) / 2.0;
        } else if (maxHeap.size() > minHeap.size()) {
            return maxHeap.peek();
        } else {
            return minHeap.peek();
        }
    }
}