分布式vs.集中式,存儲架構(gòu)如何選?
存儲技術(shù)發(fā)展日新月異。一方面?zhèn)鹘y(tǒng)集中式SAN/NAS還在廣泛使用,另一方面各類分布式存儲產(chǎn)品已紛紛在新興的海量數(shù)據(jù)場景中占據(jù)市場。如何根據(jù)業(yè)務(wù)需求選擇合適的存儲架構(gòu)?分布式存儲能否在所有場景都能取代傳統(tǒng)集中式存儲?請參考本文攻略。
一、傳統(tǒng)集中式存儲
傳統(tǒng)SAN/NAS存儲的硬件架構(gòu)采用“控制器+硬盤柜”的方式。存儲支持多個控制器,以保障高可用并提高性能。多控制器為緊耦合,通過PCIE總線或Infiniband網(wǎng)絡(luò)互連,共享磁盤陣列,共享緩存。
傳統(tǒng)存儲的系統(tǒng)架構(gòu)具有I/O路徑短,訪問延遲小的優(yōu)勢。傳統(tǒng)存儲通過內(nèi)置BBU電池或外置的UPS來實現(xiàn)掉電保護,保障緩存中的數(shù)據(jù)在掉電后不丟失,結(jié)合雙活、容災(zāi)、CDP等技術(shù)保障業(yè)務(wù)系統(tǒng)的連續(xù)性和數(shù)據(jù)安全性。
傳統(tǒng)集中式存儲起步早,技術(shù)成熟,架構(gòu)簡單,表現(xiàn)出足夠的穩(wěn)定性,對高IOPS、低延時、和數(shù)據(jù)強一致性有很好支持。另外,近年來全閃存陣列存儲發(fā)展迅速,IOPS性能提高到機械硬盤存儲的100倍以上,能夠有效解決IOPS性能痛點。
傳統(tǒng)集中式存儲的特性適合作為金融/醫(yī)療等核心業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫存儲。
傳統(tǒng)存儲的系統(tǒng)架構(gòu)決定了其擴展能力有限,無法很好支撐高并發(fā)訪問性能。隨著我們進入大數(shù)據(jù)時代,集中式存儲增長空間越來越有限。
企業(yè)不斷快速增長的海量數(shù)據(jù),需要更有彈性可擴展的存儲架構(gòu)。
分布式存儲是新興的存儲技術(shù),采用“標準的x86服務(wù)器硬件+存儲軟件”的架構(gòu),將標準X86/ARM服務(wù)器通過高速以太網(wǎng)或Infiniband互連,通過分布式存儲軟件將服務(wù)器本地的HDD、SSD等存儲介質(zhì)組織成統(tǒng)一的大規(guī)模存儲資源池。分布式存儲實現(xiàn)了存儲的硬件與軟件解耦,數(shù)據(jù)中心能夠以標準化硬件搭建存儲平臺,提升IT敏捷性,降低運維成本,符合軟件定義數(shù)據(jù)中心的發(fā)展趨勢。
分布式存儲也稱為軟件定義分布式存儲(SDS: Software Defined Storage)。

分布式存儲的存儲單元為x86/ARM服務(wù)器(也稱為節(jié)點),以標準2U 存儲服務(wù)器為例,前面板可插入12塊3.5寸硬盤。
▲ 存儲服務(wù)器:2U高度,12盤位
硬盤的容量,有:
4TB\6TB\8TB\10TB\12TB\16TB等。
如果選擇10TB硬盤,則單個節(jié)點的物理容量為 12 * 10 = 120TB。
分布式存儲有效解決了傳統(tǒng)集中式存儲的可擴展性問題,規(guī)模可擴展至上千個節(jié)點,容量擴展到上百PB甚至EB級,性能隨容量線性提升。按需在線擴容后,自動實現(xiàn)數(shù)據(jù)再均衡。分布式存儲的多個存儲節(jié)點能夠同時提供讀寫服務(wù),因此具有很高的吞吐率,可達到幾十GB/s。
分布式存儲支持3種存儲功能,能夠打造統(tǒng)一的數(shù)據(jù)存儲平臺:
1、SAN塊存儲,SCSI/iSCSI接口協(xié)議
2、NAS文件存儲,CIFS/NFS接口協(xié)議
3、對象存儲,S3接口協(xié)議
分布式存儲使用多副本和糾刪碼技術(shù)實現(xiàn)數(shù)據(jù)保護。多副本方式(業(yè)界常用的多副本方式一般為2副本或3副本),其優(yōu)點是可靠性高,性能高;但缺點是存儲容量有效利用率低(2副本為50%,3副本為33%)。業(yè)界常用的糾刪碼配置方式一般為8+4(8個數(shù)據(jù)塊,4個校驗塊,容量利用率為66%)。糾刪碼的優(yōu)點是可靠性高,容量利用率高,缺點是性能低。
一般選擇原則是:
1、在線存儲設(shè)備用多副本;備份歸檔用糾刪碼;
2、小文件用多副本;大文件用糾刪碼。
目前,國內(nèi)有多種分布式存儲產(chǎn)品可以選擇,包括開源軟件、基于開源軟件優(yōu)化的產(chǎn)品、國產(chǎn)研發(fā)的分布式存儲產(chǎn)品等。
|
開源存儲軟件 |
Ceph:適合于云平臺塊存儲和對象存儲 Hadoop HDFS:適用于大數(shù)據(jù)分析 Glusterfs:適合于視頻媒資等大文件和以讀為主的場景 Beegfs/Luster:適用于高性能計算 |
|
|
Ceph類產(chǎn)品 |
國內(nèi)有比較多的基于開源存儲軟件Ceph優(yōu)化的產(chǎn)品。 |
|
|
自主研發(fā)的分布式存儲 |
霄云碧海分布式存儲,華為Oceanstor Pacific存儲等。 |
|
上海霄云研發(fā)的碧海分布式存儲,性能優(yōu)異,解決了海量小文件存儲的痛點,性能達到傳統(tǒng)集中式存儲和Ceph類產(chǎn)品的3倍,文件數(shù)可達到百億級以上,為醫(yī)療PACS影像、金融電子票據(jù)、自動駕駛、工業(yè)自動化等海量數(shù)據(jù)場景提供了革新的存儲解決方案。
三、總結(jié)
集中式存儲
分布式存儲
系統(tǒng)架構(gòu)
控制器+磁盤柜,
緊耦合
標準X86服務(wù)器+分布式存儲軟件
拓展性
控制器:2~16
存儲節(jié)點:~1024
功能
塊、文件
塊、文件、對象
可管理文件數(shù)
億級
Hadoop HDFS:
10億級
Ceph:10億級
碧海分布式存儲:百億級
數(shù)據(jù)保護
RAID+電池保護
多副本、糾刪碼
IO延遲
低
高
吞吐率
低
高
TCO成本
專用硬件,TCO成本高
標準化硬件,硬件采購和維護成本低。大規(guī)模存儲場景下TCO成本低于傳統(tǒng)集中式存儲。
適用場景
核心數(shù)據(jù)庫
海量非結(jié)構(gòu)化數(shù)據(jù)
云原生/容器/超融合等
發(fā)展趨勢
全閃存
代表存儲技術(shù)發(fā)展方向,在海量數(shù)據(jù)場景取代集中式存儲。
_
綜上所述,分布式存儲是一種未來主流的存儲技術(shù),具備良好的發(fā)展前景,但是分布式存儲并不能適應(yīng)所有的業(yè)務(wù)場景,需要根據(jù)實際的業(yè)務(wù)需求進行合理選擇。