返回

分布式存储系统:开篇云舒卷,只观淡波清!

后端

缘起:从单纯存储,到创造更广阔的空间

存储,伴随信息时代的蓬勃发展,成为一个永恒的课题。早期,硬盘横空出世,将原先占据的庞大空间,收缩成一个紧凑的装置;记忆体的容量亦飞速攀升,从兆级跃至千兆,而后冲上云霄的云端之上。然,当我们恣意徜徉于广袤的数位海洋,信息量有增无减,即便云端云海无限开阔,亦难敌数据肆意的扩展,将初始的存储空间,挤压至逼仄的角落。

分布式存储应声而生,以其独一无二的扩张性,吸引大批企业的目光,诸如谷歌、亚马逊、奈飞等,无不将其旗帜,高高举起。发展迄今,已成为数据管理与存储的壮大支柱,让数据寄放于此,令其生机勃勃,再无界可拘。

述异:各施其责,数据管理与存储

提笔欲论述,却因其概念繁多,难免有所纰漏,索性将其两者并置,细究其间之异同,或有助读者明晰。

数据管理

  • 广义:指透过系统、软件、和网络以电子方式控制、操控及传递数据的过程,并以此概念框架,勾勒出数据处理链条上的各个环节,从创建、存储、处理、传输,到删除,渐进推进,循环往复。
  • 技术:数据管理系统,以关系型或层次式等方式记录数据,将其排列置于表格与树状层级中,轻松便可抽取、管理与更新数据,更为难得的是,它能使数据与其他数据相连,便于横向探索。

数据存储

  • 广义:指将数据于专用介质、设备或机器内,以数位型式予以纪录。
  • 技术:数据存储系统则选择硬盘或内存等硬件设备,以二进制的方式,将数据存储其中,现今,诸如硬盘驱动、光学或磁带磁存储、内存等,皆属于数据存储装置。

直观理解,管理侧重于软件或系统的执行,而存储则指向具体的硬件设施。然则,若是将数据管理与数据存储置于云端之上,云端上之软硬件也随之云化,边界便会随之际逐渐模糊。

论述:分布式存储的挑战与机遇

即便,分布式存储优势众多,但也难免遭遇一些前沿或暗藏的阻碍:

复杂性

部署与处理分布式存储,远较单体储存更为繁杂,况且,其中每台单独的主机皆可能失灵,成为系统中的薄弱环节。

安全性

数据在各个存储设备中分散存放,资料交互时,难免不经由公开网络进行传送,再者,数据必须经过转译,转化成明文后,才可以阅览,过程极其繁琐与耗时。

延迟性

分布式存储以远端设备的方式,进行数据存放,如此一来,不同存储单元的访问速度必然有所落差,若是在分隔两地的异地存取时,更会出现显明的速度差,进而演变成瓶颈。

机遇总是紧随挑战背后,不经风雨,怎见彩虹?

成本优化

分布式存储最直接、最显著的优势,便是成本优化,如果将大笔资金投入于数据中心建设,那么扩容将会难上加难,费用开销亦会攀上高昂的顶点,但若是采用分布式存储系统,便可以降低营建的成本,并顺势扩张至多个设备存储数据,大规模扩容亦在指掌之间。

可靠性保障

可靠性是否达标,往往关乎企业的成败存亡,资料被黑掉,或者数据缺损,顷刻间将公司推进至万劫不复,倘若改以分布式存储策略,便可大幅降低出现故障的机率。此外,当中的部分存储装置发生故障,却无须担心,因为其他储存装置足以存补失据。

便捷性

分布式存储的其中一大利多便是便捷性,原先单体存放,更换设备时,势必得将资料打包,后转运,再到新设备中解压缩,耗费的时间可想而知,现今,更换装置时,只要轻松一键,便能便捷上传资料至分布式存储设备,完成后,再到新设备中下载,接着一键确认即可。

众观:主流分布式存储系统简介

分布式存储系统的浩瀚海洋中,涌现三朵弄潮之巅,各领风骚。

  • 谷歌 BigQuery :该服务常年于2006,初始之际,仅对外开放数据仓库服务,直至2012年,才添加数据分析与机器学习功能,发展至今日,其已实实在成为主流,在分析大批量数据集时,具备得天独厚的优势力。
  • 亚马逊 Amazon S3 :可谓是存储界的巨人,市场占比位居首位,领先群雄,相较于BigQuery,成本与门槛相对较低,更易普及,但适用于运算、机器学习等大规模数据场景时,欠了些火候。
  • 奈飞 Netflix :这家蜚声在外的影音串流平台,同时亦是发行与制作视频的霸主,可对其旗下影视作品进行点播,纵观其生态系统,它所运取的亦是分布式存储,确保用户在点播之时,不致空等。

结语:珠玉难圆,铸就鸿篇终须功

分布式存储自应世之日起,虽历经洗练,获得市场与诸业之认可,但,归根结底,仍旧属萌新领域,有待历经时间与不断的磨练,方能炉火尽功,炼成非凡之铸物。

然,已崛起诸如此境地,便能预示出,接下来,分布式存储系统势必腾飞万里,攀上顶点。