向量数据库新时代：大模型浪潮前的技术形态

2023-11-28 05:02:46

大模型浪潮下的向量数据库演变之旅

在深度学习和大型语言模型引领的 AI 浪潮席卷全球之前，向量数据库凭借处理高维数据的非凡能力，在众多领域发挥着不可或缺的作用。回顾这一时期，PASE、ADBV 和 Milvus 这三篇顶会论文无疑代表了向量数据库技术发展的巅峰，为我们揭开了一幅大模型浪潮前夕的技术图景。

PASE：并行化近似最近邻搜索

传统的最近邻搜索算法面对海量数据时，计算效率往往难以令人满意。PASE 横空出世，带来了一剂良方。它采用并行化策略，将数据划分成多个子集，并让多线程同时在每个子集中寻觅最近邻。这种革命性的方法显著提升了搜索速度，却丝毫不妥协搜索精度。

def parallel_knn(data, query, k):
    """并行化 KNN 搜索

    参数：
        data: 数据点集合
        query: 查询向量
        k: 最近邻个数

    返回：
        k 个最近邻的索引
    """

    # 分割数据
    subsets = split_data(data, num_threads)

    # 并行搜索
    results = []
    threads = []
    for subset in subsets:
        thread = Thread(target=find_knn, args=(subset, query, k, results))
        threads.append(thread)
        thread.start()

    # 合并结果
    for thread in threads:
        thread.join()

    return results

ADBV：基于空间划分的向量数据库

海量数据处理是向量数据库的一大痛点，ADBV 另辟蹊径，提出了基于空间划分的解决方案。它将数据按层次组织，并根据数据的分布特点动态调整空间划分策略。如此一来，磁盘 I/O 次数大大减少，查询性能自然而然地获得了提升。

class ADBV:
    def __init__(self):
        self.tree = KDTree()

    def build(self, data):
        """构建空间划分树

        参数：
            data: 数据点集合
        """
        self.tree.build(data)

    def search(self, query, k):
        """搜索最近邻

        参数：
            query: 查询向量
            k: 最近邻个数

        返回：
            k 个最近邻的索引
        """
        return self.tree.search(query, k)

Milvus：分布式大规模向量搜索

随着数据规模的不断膨胀，大规模向量搜索的需求迫在眉睫。Milvus 应运而生，它采用分片和并行处理技术，将海量数据分布到多个节点，并让这些节点协同作战，同时处理来自不同方向的搜索请求。高吞吐量和低延迟，Milvus 完美诠释了大规模向量搜索的精髓。

class Milvus:
    def __init__(self):
        self.shards = {}

    def add_shard(self, shard):
        """添加分片

        参数：
            shard: 分片实例
        """
        self.shards[shard.id] = shard

    def search(self, query, k):
        """搜索最近邻

        参数：
            query: 查询向量
            k: 最近邻个数

        返回：
            k 个最近邻的索引
        """
        results = []
        for shard in self.shards.values():
            results.extend(shard.search(query, k))

        return results