突破数据孤岛，TiFlash 如何实现 Join 与 Aggregation？

闲谈

2023-09-15 07:13:17

背景介绍

在数据仓库和分析型场景中，Join 和 Aggregation 是非常常见的算子。Join 用于将来自不同表的行连接起来，而 Aggregation 用于对一组行进行汇总。这些算子的实现对于数据库系统的性能至关重要。

TiFlash 是一个分布式 MPP 数据库，它采用了与传统数据库不同的架构。TiFlash 将数据存储在分布式存储系统中，并使用计算节点来处理查询。这种架构使得 TiFlash 能够很好地扩展，并且可以处理海量的数据。

TiFlash 中的 Join

Join 是数据库系统中非常常见的算子，它用于将来自不同表的行连接起来。TiFlash 中的 Join 操作分为两类：Hash Join 和 Sort-Merge Join。

Hash Join： Hash Join 是 TiFlash 中最常用的 Join 算法。它的基本思想是，先将两张表的行哈希到同一个哈希表中，然后根据哈希值将两张表的行连接起来。Hash Join 的优点是速度快，但缺点是需要大量的内存。
Sort-Merge Join： Sort-Merge Join 是 TiFlash 中的另一种 Join 算法。它的基本思想是，先将两张表的行排序，然后根据排序后的行将两张表的行连接起来。Sort-Merge Join 的优点是内存消耗少，但缺点是速度慢。

TiFlash 会根据查询计划中的代价模型来选择合适的 Join 算法。一般来说，当两张表的行数都比较少时，TiFlash 会选择 Hash Join；当两张表的行数都比较多时，TiFlash 会选择 Sort-Merge Join。

TiFlash 中的 Aggregation

Aggregation 是数据库系统中非常常见的算子，它用于对一组行进行汇总。TiFlash 中的 Aggregation 操作可以分为两类：Hash Aggregation 和 Sort-Based Aggregation。

Hash Aggregation： Hash Aggregation 是 TiFlash 中最常用的 Aggregation 算法。它的基本思想是，先将行哈希到同一个哈希表中，然后根据哈希值对行进行汇总。Hash Aggregation 的优点是速度快，但缺点是需要大量的内存。
Sort-Based Aggregation： Sort-Based Aggregation 是 TiFlash 中的另一种 Aggregation 算法。它的基本思想是，先将行排序，然后根据排序后的行对行进行汇总。Sort-Based Aggregation 的优点是内存消耗少，但缺点是速度慢。

TiFlash 会根据查询计划中的代价模型来选择合适的 Aggregation 算法。一般来说，当要汇总的行数比较少时，TiFlash 会选择 Hash Aggregation；当要汇总的行数比较多时，TiFlash 会选择 Sort-Based Aggregation。

结论

在本文中，我们介绍了 TiFlash 中 Join 和 Aggregation 这两个常用的算子的实现原理。TiFlash 使用了 Hash Join 和 Sort-Merge Join 两种 Join 算法，以及 Hash Aggregation 和 Sort-Based Aggregation 两种 Aggregation 算法。TiFlash 会根据查询计划中的代价模型来选择合适的算法。

通过这些算法的实现，TiFlash 可以高效地处理海量的数据，并为用户提供高性能的查询服务。