返回

ADBPG&Greenplum成本优化之道:磁盘水位管理指南

后端

背景

目前,企业的核心数据一般都以二维表的方式存储在数据库中。在核心技术、政务、金融等行业,数据库表的规模已增长到几十TB甚至几百TB,甚至更大的规模,这些企业对数据仓库的可用性和成本敏感度都较高,例如数据仓库类的业务必须做到7*24小时对外提供服务。因此,数据库存储成本优化是这些行业企业需要考虑的问题之一。

本案例主要介绍利用ADBPG(AnalyticDB for PostgreSQL)Greenplum磁盘水位管理功能对一个现有数据仓库进行存储空间的优化,以降低数据仓库的总体存储成本,提升存储性价比。

什么是磁盘水位管理

磁盘水位管理是Greenplum提供的对磁盘空间进行管理的功能。主要目的是通过将数据仓库中的冷数据从昂贵的存储介质迁移至相对便宜的存储介质,从而降低整体存储成本。

** 磁盘水位管理特性** :

  • 针对不同的存储介质,根据存储成本划分为多个级别。
  • 不同级别存储介质间数据可动态迁移。
  • 只迁移冷数据,热点数据不迁移。
  • 迁移任务可自动或手动触发。
  • 支持数据自动过期清理。

磁盘水位管理价值

在传统的数据库存储管理中,用户需要采购昂贵的存储介质来存储所有的数据。即使数据已经不怎么使用或者很久不使用,也依然被存储在昂贵的存储介质上。对于冷数据,我们可以通过磁盘水位管理特性,将这些冷数据迁移到相对便宜的存储介质,以降低总体存储成本,提升存储性价比。

优化实践

本案例客户使用ADBPG 6.0 Greenplum搭建了自己的数据仓库,随着业务的发展,数据仓库的数据量不断增长。目前已达到300TB左右。随着数据量的增长,客户的存储成本也不断增加。为了降低存储成本,客户希望将数据仓库中的冷数据迁移到相对便宜的存储介质,以降低总体存储成本。

步骤1:评估冷数据分布

首先,我们通过Greenplum提供的磁盘水位管理工具对客户的数据仓库进行了冷数据分布评估。评估结果显示,客户数据仓库中的冷数据约占总数据的30%,这些冷数据主要分布在一些历史表和临时表中。

步骤2:配置磁盘水位管理策略

根据冷数据分布评估结果,我们为客户配置了磁盘水位管理策略。我们将数据仓库中的存储介质划分为三个级别:

  • 一级存储: 使用SSD固态硬盘,这是最昂贵的存储介质,但也是性能最好的。
  • 二级存储: 使用SATA机械硬盘,这是相对便宜的存储介质,性能比SSD固态硬盘差一些。
  • 三级存储: 使用云存储,这是最便宜的存储介质,但性能也最差。

我们将冷数据从一级存储迁移到二级存储,将更冷的数据从二级存储迁移到三级存储。

步骤3:执行磁盘水位管理任务

配置好磁盘水位管理策略后,我们执行了磁盘水位管理任务。任务执行完成后,客户数据仓库中的冷数据已被迁移到相对便宜的存储介质上。

步骤4:评估优化效果

磁盘水位管理任务执行完成后,我们对优化效果进行了评估。评估结果显示,客户数据仓库的总体存储成本降低了20%左右。

总结

通过本文的案例介绍,我们可以看到,磁盘水位管理功能可以帮助企业降低数据仓库的存储成本,提升存储性价比。对于数据仓库中的冷数据,我们可以通过磁盘水位管理特性,将这些冷数据迁移到相对便宜的存储介质,以降低总体存储成本。