醫療PACS影像存儲解決方案
需求分析
PACS已經成為現代醫學放射學的基本技術和重要基礎設施,在臨床診斷、醫院科研等方面發揮著重要的作用。
現代醫院都配置了數量眾多的X光機、CT、MRI、超聲等設備,醫生越來越依賴于各種醫療影像技術進行診斷。隨著醫療影像設備的廣泛使用,以及設備本身日益先進,醫院的醫療PACS數據量預計每年增長15%,五年翻一番,并呈加速增長的態勢,三甲綜合性醫院或胸科、肺科、骨科等三甲專科醫院,一年的新增拍片量在50TB ~ 60TB。并且,根據國家電子病歷保存相關規定,醫療機構保管保存醫療影像數據時間要求不少于15年。
無論從業務發展還是合規要求,醫療影像數據的存儲都對存儲系統提出了需求。
目前醫院對醫療PACS數據普遍采用傳統陣列存儲FC SAN或NAS,并采用在線、近線、離線的三級存儲架構。

這種PACS存儲架構普遍面臨以下問題:
■ 性能/容量擴展困難
PACS影像的典型特征是大部分文件都是小文件,其中MR文件平均大小為60KB左右;CT文件平均大小為300KB左右,也是小文件。長期以來,小文件存儲都是存儲系統面臨的挑戰:小文件讀寫性能低;當存儲的文件數量增多時性能會不斷下降。
目前在線存儲使用傳統陣列存儲時,PACS圖像調閱的速度僅為每秒80幅左右。典型的MR檢查,平均每次檢查產生約3000~5000張小圖片,調閱圖片需要數十秒以上;
在大型醫院的業務高峰期,數百位門診、臨床醫生同時閱片時,對存儲系統產生高并發訪問,閱片等待時間更長。
■ 系統架構復雜、數據訪問不便
三級存儲架構下,PACS影像數據分散保存在三套不同的存儲系統中。這會導致以下問題:
在患者進行復查時,醫生需要調閱半年前或一年前的檢查影像,這些影像位于近線存儲中,需要將這些影像先遷移到在線存儲中再調閱,不僅操作繁瑣,難以讓醫生立即調閱;
三級架構導致的數據隔離,難以將積累的大量PACS數據用于如AI輔助診療、影像數據分析與影像智能診斷等科研活動,使數據價值難以充分發揮;
不同存儲系統之間的數據難以統一管理,數據遷移工作繁重。
■ 總體擁有成本較高
傳統中高端陣列存儲設備的購置成本較高,尤其是后期擴容成本難以控制。此外,分級存儲帶來的數據遷移工作量大;三套存儲的運維也增加了醫院信息中心的運維成本。
解決方案
碧海分布式存儲相對于傳統陣列存儲,在大規模在線擴展、百億級小文件管理、高性能數據吞吐、敏捷化運維管理、TCO成本優化等方面具有技術優勢,可以有效解決醫療PACS目前在存儲上遇到的性能、數據孤島、運維困難、成本較高等問題。在醫聯體或大型醫療機構PACS系統這樣超大數據量且高并發調取、運維管理要求敏捷化的領域,成為存儲架構的選擇。

方案優勢
■ 性能提升
碧海分布式存儲進一步對PACS影像存儲進行了針對性優化,如采用小文件合并技術和高并發FTP網關,使得其性能要顯著高于傳統存儲和同類分布式存儲。在醫院門診高峰期的高并發環境下(ftp峰值連接數達到10000),PACS系統依然能穩定保持較高的調閱速度。

■ 架構精簡
碧海分布式存儲采用基于NoSQL技術的分布式元數據管理,可管理文件數量達到100億規模,性能隨存儲節點數線性提升,可存儲大型醫療機構6年以上的PACS影像文件。
使用碧海分布式存儲后,原來在線、近線、離線三層架構簡化為一套存儲,所有PACS影像都可在線調閱,并且調閱性能無差異,排除了PACS數據孤島,有效支撐影像大數據分析、AI輔助診療等科研和新興業務需求。

■ 運維簡化
碧海分布式存儲的平滑在線擴容能力,使隨需擴容成為可能。存儲硬件的升級換代,只需要將新節點上線、舊節點下線、數據自動遷移就能實現,再也無需人工數據遷移。
■ 成本節省
由于PACS影像年數據量在快速增長,并且PACS影像按合規要求保存時間更長,PACS影像數據的存儲成本問題逐漸顯現出來。采用性能和擴展性更高,TCO成本更經濟的分布式存儲成為越來越多醫聯體或大型醫療機構的考慮方案。
醫療病理場景解決方案
需求分析
作為現代醫學精準診療的關鍵技術支撐,數字病理技術主要應用于診斷病理學樣本、管理病理學數據和實現遠程及電子類別病理學閱片。借助數字病理技術,可以有效提高診斷的準確性和臨床病例的處理速度。病理科醫生也可以在每一份標本、每一個細胞中找尋疑難雜癥的根因,從而為患者提供更加精準高效的診斷和治療。
然而,一般三甲醫院病理科在實現病理科的數字化轉型過程中存在不少挑戰,例如,數字病理技術在給診斷方式帶來顛覆性變革的同時,也對數據存儲系統提出了更高要求。病理科在實現數字化轉型的過程中,往往會遇到以下挑戰:由于每個切片的數據量可達1-3GB左右,調閱數據過程中很容易出現卡頓現象,嚴重影響醫生閱片體驗和工作效率;而根據醫院規模的不同,每天可產生數百到數萬片病理玻片數據,加之醫療數據需要15-30年長期保存的行業規范,存儲系統的容量、擴展性、穩定性等均面臨嚴峻挑戰。
■ 調閱性能問題
一張病理數字切片大小1-3GB,傳統的調閱方案加載速度慢,調閱數據過程中很容易出現卡頓現象,嚴重影響醫生閱片體驗和臨床診斷效率。
■ 存儲擴展問題
病理數據量是PACS影像的10倍。根據醫院規模的不同,每天可產生數百到數萬片病理玻片數據,大三甲醫院每年可新增1-2PB數據量。考慮到數據量的增長情況,加之醫療數據需要15-30年長期保存的行業規范,并且法規要求保存15-30年,存儲系統需要實現性能無中斷的擴展。
■ 數據共享問題
病理數字切片文件大,網絡傳輸慢,以及病理大模型和AI輔助診斷系統的應用,加劇了病理存儲文件讀寫性能和網絡傳輸吞吐量的負擔,從而進一步影響醫生閱片體驗和工作效率。
解決方案
面對上述挑戰,霄云發布了專門針對數字化病理的碧海分布式存儲解決方案。該方案基于霄云自主研發的BOSS-FutureStor分布式存儲軟件,結合通用的X86服務器或者主流信創服務器構建大容量、高性能、高可靠性以及易擴展的碧海分布式文件對象存儲,該存儲在性能、擴展性、可靠性、數據共享等方面實現了突破,為病理科的數字化轉型提供了堅實的保障。

方案優勢
■ 高性能
數字病理數據處理需要較高的性能支持,包括數據的讀取、寫入和傳輸等方面。碧海分布式存儲系統具備大文件切割成小文件在集群所有存儲節點中并發均衡讀寫,大幅提高大文件的讀寫性能。此外,存儲低延遲及支持25G和100G的網絡帶寬特性,可以滿足數字病理數據處理的要求,消除了調閱慢、卡頓和馬賽克等問題。同時,存儲性能的均衡分配和性能穩定性對于病理大模型和AI輔助診斷系統的應用也得到了堅實的保障。
■ 按需擴展
數字病理數據量龐大且增長速度快,對存儲系統的可擴展性要求極高。碧海分布式存儲系統具備良好的可擴展性,存儲集群支持擴展到4096個存儲節點。新的存儲節點可隨時在線加入現有存儲池,擴展存儲容量和計算能力,以滿足數字病理數據存儲的需求。
■ 支持硬件異構
數字病理數據量不僅龐大,且保存時間長,存儲節點的硬件更新換代較快,這就需要分布式存儲系統具有硬件異構特性。碧海分布式存儲系統軟件完全自主研發,不基于Ceph開源存儲架構,可支持存儲池或存儲集群級別的硬件異構,也就是可以由不同服務器和配件的品牌、型號、規格構建存儲池或存儲集群,不僅存儲性能一致,而且存儲系統也穩定可靠。碧海分布式存儲系統對硬件異構的支持,給予病理系統存儲的擴展帶來極大的兼容與便利,使存儲的擴容成本更低也更可控。
■ 文件與對象協議互通
碧海分布式文件對象存儲系統打通了對文件、對象等不同存儲類型數據的互通訪問,并確保性能無損耗。

文件與對象互通訪問實現數據以文件或對象的方式寫入,可以通過文件或者對象的協議進行讀取,且性能無損耗。該特性有助于遠程診斷平臺、規培教育平臺及其他新業務的開展。
基因測序場景解決方案
需求分析
基因檢測是指通過特定設備對被檢測者細胞中的DNA分子信息作檢測,分析其所含有的基因類型和基因缺陷及其表達功能是否正常的一種方法,從而做出對疾病篩查、診斷、復發監測、靶向用藥指導、療效及預后等的技術。
以二代測序和三代測序為主的高通量測序在過去20年中飛速發展,與之相關的基礎應用、科研探究以及臨床應用隨之大幅增加。同時隨著”精準醫療”的快速發展,臨床應用上對高通量測序的需求越來越大,病原學診斷、 檢測與遺傳病、腫瘤等疾病的精準診斷等應用領域對高通量測序技術的要求也越越高。
基因測序產生的數據量都是TB級別,例如一臺華大智造MGI的DNBSEQ-T7測序儀生產量:4.5Tb/24h,6Tb/30h。 滿負荷下,一年能產生1.7PB左右的數據量,加之生物信息分析過程一般會產生原始數據量5倍左右的中間文件及結果,因此要支撐一臺DNBSEQ-T7一年的數據產出存儲及分析,大約需要8.5PB有效存儲空間。此外,醫療數據需要15-30年長期保存的行業規范,因此,對于基因序列業務的存儲系統的大容量、高性能、擴展性、可靠性等均面臨嚴峻挑戰。
■ 存儲擴展問題
測序儀的通量越來越高,高通量基因測序儀每日數據量在TB級別。以一臺華大智造DNBSEQ-17為例,四載片連載日產數據量高達6TB,一天24小時可完成60例個人全基因組測序,單日可產生6TB數據,一年能產生2PB左右數據量,且生信分析過程中,一般會產生數倍于原始數據量的中間文件和結果,存儲系統需實現低成本的海量基因數據長時間存儲及數據在線分析、歸檔等生命周期管理需求。此外,從測序儀下機的單個原始數據通常為幾GB、數十GB大小的文件,用戶需將原始數據快速導入到存儲系統中,而后開始對原始數據進行分析和解讀。存儲系統需提供超大容量的存儲空間并支持大容量單文件存儲,因此對存儲系統后續的彈性擴展能力要求極高。
■ 存儲性能問題
基因數據分析過程根據不同的應用需求、專業軟件,要求計算和存儲資源可支撐混合負載需求。此外,在基因測序的業務流程中,基因序列比對、結果檢測分析等環節極為耗時,涉及大量的生信領域專業軟件,計算資源的算力性能、存儲資源的IO性能及方案優化對提升生信研發效率起著至關重要的作用。故要求底層存儲系統可支持復雜的高并發讀寫,滿足復雜業務分析計算的要求。
■ 存儲可靠問題
完整的基因測序數據分析過程中,環節復雜,產生的數據量非常巨大,且中間結果特別多,參考數據知識庫繁雜,同時業務系統需支持多用戶同時進行在線作業分析。故運行數據分析Pipeline流程對實時性、穩定性要求非常高,一旦存儲或計算系統出現故障,測序數據分析就會中斷,甚至整個分析的Pipeline要重新進行。因此,基因測序業務要求存儲系統滿足7*24小時連續高壓作業的要求,保證長時間的高穩定運行,才能保障整個業務的連續性。
解決方案
面對上述挑戰,霄云發布了專門針對基因測序的碧海分布式存儲解決方案。該方案基于霄云自主研發的BOSS-FutureStor分布式存儲軟件,結合通用的X86服務器或者主流信創服務器構建大容量、高性能、高可靠性以及易擴展的碧海分布式文件對象存儲。該存儲支持EB級單一命名空間,按需線性擴展存儲容量和性能,具有較高的可靠性、可用性以及高并發性能,可幫助用戶構建統一的基因數據共享資源池,為上層基因測序業務應用平臺提供一體化的存儲底座,確保基因測序業務7*24小時不間斷且穩定可靠的運行。
方案優勢
■ 高性能
基因測序業務處理需要較高的存儲性能支持,包括數據的讀取、寫入和傳輸等方面。碧海分布式存儲系統的多線程并發讀寫、多客戶端性能均衡分配以及海量文件下性能不衰減的技術優勢,完美匹配基因檢測各流程中海量數據分析對計算資源的高性能需求,有力支撐基因業務增長帶來的大容量和高性能需求,?大大提高海量數據快速分發和基因計算分析效率。
■ 按需擴展
基因測序數據量龐大且增長速度快,對存儲系統的可擴展性要求極高。碧海分布式存儲系統的易擴展特性,?避免了一次性成本投入或冗長的采購周期,未來可按需線性擴展容量和性能,?使得存儲的成本每年可以量化又經濟。碧海存儲集群支持擴展到4096個存儲節點,新的存儲節點可隨時在線加入現有存儲池,擴展存儲容量和計算能力,以滿足基因測序數據存儲的需求。
■ 支持硬件異構
基因測序數據量不僅龐大,且保存時間長,存儲節點的硬件更新換代較快,這就需要分布式存儲系統具有硬件異構特性。碧海分布式存儲系統軟件完全自主研發,不基于Ceph開源存儲架構,可支持存儲池或存儲集群級別的硬件異構,也就是可以由不同服務器和配件的品牌、型號、規格構建存儲池或存儲集群,不僅存儲性能一致,而且存儲系統也穩定可靠。碧海分布式存儲系統對硬件異構的支持,給予基因測序的存儲未來擴展帶來極大的兼容與便利,使存儲的擴容成本更低也更可控。
■ 智能數據管理
碧海分布式存儲支持智能數據流轉和冷熱分層,?優化數據存儲成本。?通過智能數據管理,?可以實現數據的智能流轉至低成本的大容量存儲池,?同時滿足基因快速高效計算和海量基因數據成本優化的需求。?這種管理方式有助于更好地控制存儲成本,?提高數據的使用效率。
綜上所述,碧海分布式存儲解決方案通過提供高性能、高可靠性、可擴展性的基因測序數據存儲方案,?有效地解決了基因測序領域在數據存儲和分析方面面臨的挑戰,?為科研和臨床應用提供了強大的支持。