IBM AI存儲:算力稀缺時代的"破局者"

2023-11-22 10:47 來源:美通社 作者:電源網

算力稀缺時代,存力大有可為

作者:周立旸,IBM 大中華區(qū)科技事業(yè)部存儲軟件產品總監(jiān)

北京2023年11月21日  /美通社/ -- 2023年11月,業(yè)界"又雙叒叕"發(fā)布了數款重磅 AI 基礎架構產品。算力方面,英偉達(NVIDIA)發(fā)布了號稱"史上最強"的新一代AI芯片H200,和上一代產品相比,顯存容量幾乎翻了一番,性能提升了60% 到90%。存力方面,IBM同樣發(fā)布了新一代 Storage Scale System 6000(SSS 6000),這是一個旨在滿足數據密集型和 AI 工作負載需求的云規(guī)模全球數據平臺,單個模塊可提供超過 256GB/s 的吞吐量和 5M IOPS 的文件訪問性能,分別超過市場領先競爭對手 2.5 倍和 2 倍,能夠滿足多個并行的 AI 工作負載和數據密集型工作負載對極高的數據訪問速度要求。

周立旸,IBM 大中華區(qū)科技事業(yè)部存儲軟件產品總監(jiān) 
周立旸,IBM 大中華區(qū)科技事業(yè)部存儲軟件產品總監(jiān)

 

IBM AI存儲:算力稀缺時代的“破局者” 
IBM AI存儲:算力稀缺時代的“破局者”

 

IBM Storage Scale System 6000 
IBM Storage Scale System 6000

IBM 在2022年發(fā)布的Storage Scale System 3500(SSS 3500)數據存儲,單個模塊24塊NVMe SSD可以提供超過125GB/s 的數據訪問性能,已經大幅領先于大部分 AI 存儲產品,IBM為何要推出更高性能的 SSS 6000呢?

算力和算法的發(fā)展,需要更快速的數據訪問

人工智能是算法、數據、算力的有效結合,近年來大模型訓練和推理、多模態(tài) AI等領域的突破更是得益于高質量數據的發(fā)展。隨著數據集規(guī)模不斷增加,應用程序載入數據花費的時間越來越長,進而影響了應用程序的性能,因為存力不足導致的低效I/O使得運算速度日益提升的GPU無用武之地。為了滿足不斷提高的算力和各種基礎模型對更大參數規(guī)模的需要,也需要提供更高速的數據訪問能力。

舉例來說,在目前主流的NVIDIA H100/H800 平臺上,運行一個大小為30TB的圖像數據集用于AI訓練,每顆GPU所需的數據存儲訪問性能就超過了4GBps,運行更大規(guī)模的數據集的應用或支持多種負載的智算平臺可能需要數百GBps到數TBps的高速數據存儲才能滿足其對存力的需求。經過充分優(yōu)化的 IBM Storage Scale System 可以充分發(fā)揮并行架構高速網絡的優(yōu)勢,加速各種 AI 工作負載應用。

此外,不僅僅是訓練環(huán)節(jié),對于AI應用來說,從數據攝入到生產推理,每個環(huán)節(jié)都需要利用不同工具實現海量數據處理,并且這是一個不斷重復的流程。用戶需要構建的端到端的高速數據管道,簡化流程并實現數據安全、高效的流動。基于IBM Storage Scale軟件多協(xié)議互通的全局數據平臺能力,用戶可以在不同地點通過不同接口訪問同樣的數據,減少創(chuàng)建不必要的數據副本并通過智能的緩存技術減少數據傳遞的網絡開銷,整合來自核心、邊緣和云端的寶貴數據資源。

AI應用全流程 
AI應用全流程

算力短缺時代,需要提高GPU資源的利用率

隨著通用型人工智能和大模型的發(fā)展,目前包括中國公司在內的全球AI公司都存在算力短缺的情況,英偉達等主要供應商的中高性能 GPU更是"千金難求"。對于擁有一定數量GPU的用戶來說,如果能夠將GPU的利用率提高一倍,就相當于增加了一倍的額外算力,在更短的時間內完成更多的應用。

由于顯存容量受限,多機多卡的GPU集群需要共享的外部存儲來為所有節(jié)點提供高速的應用數據訪問。將數據從存儲載入到GPU,過去都是由CPU負責,而這將會成為硬件性能的瓶頸。即使實現了服務器節(jié)點到存儲的高速訪問,數據到GPU的這"最后一公里"往往會造成GPU等待數據的情況,導致GPU利用率低下。

為此,英偉達開發(fā)了GPUDirect存儲技術,可以通過RDMA高速網絡直接將數據從外部存儲傳輸至 GPU 顯存上,能有效減輕CPU I/O的瓶頸,提升GPU 訪問數據的帶寬并大幅縮短時間延遲。IBM Storage Scale軟件是首批支持該技術的認證存儲產品,經測試,采用GDS 技術的IBM Storage Scale System 可以將GPU 訪問數據的帶寬提高一倍,時間延遲縮短一半。

在實際應用中,通過采用GDUDirect 存儲(GDS)技術可以將GPU的利用率提高90%。例如,德國大陸汽車(Continental Automotive AG)采用 IBM Storage Scale System 作為 NVIDIA DGX 系統(tǒng)的共享數據存儲后,AI 訓練時間縮短了 70%,每個月完成的試驗數量增長了14倍,寶貴GPU資源的利用率得到了極大的提升。

GPUDirect 存儲技術帶來時間延遲和CPU利用率的顯著改善 
GPUDirect 存儲技術帶來時間延遲和CPU利用率的顯著改善

IBM 存儲與英偉達有著多年的合作歷史,早在2018年和2019年就推出了DGX-1 POD和DGX-2 POD 的參考架構,并幫助英偉達利用IBM Storage Scale System構建了2018年全球超級計算機排名第61位的Circe和2019年全球排名第22位的DGX-2H SuperPOD;此后更是成為其 GPU Direct to Storage (GDS) 公開測試版本的合作伙伴,針對NVIDIA DGX A100 和 H100 的BasePOD 和 SuperPOD 都提供了NVIDIA認證的參考存儲架構。

IBM Storage Scale軟件也是首批官方認證支持GDS的產品。今年11月發(fā)布的最新Top500超級計算機榜單中,位于西班牙巴塞羅那超級計算中心的MareNostrum 5 ACC(GPU集群分區(qū)) 排名第八,該系統(tǒng)采用了4500塊NVIDIA H100 GPU,其存儲部分采用了容量為248PB的IBM Storage Scale System和400PB的磁帶系統(tǒng)。

IBM AI存儲的降本增效"黑科技"

除了 IBM Storage Scale 軟件的高性能數據訪問能力,以及跨系統(tǒng)、跨地域的全局數據訪問和調度能力,IBM AI存儲還有不少"黑科技"可以更好地幫助 AI 用戶降本增效:

  • 綠色節(jié)能:IBM 享有專利的計算存儲驅動器FlashCore Module (FCM) 在存儲驅動器內部集成了智能的FPGA芯片,通過硬件加速可實現強大的在線數據壓縮和加密功能?;谠摷夹g Storage Scale System 6000可以在4U空間內 提供高達 3.6PB 全閃存有效容量,將每 TB 的存儲成本降低 70%,將每TB的能耗降低 53%。
  • 安全彈性:IBM Storage Scale 軟件的糾刪碼功能確保了數據可靠性,與傳統(tǒng) RAID 相比,可以在數分鐘(而非數小時或數天) 內重建磁盤,最大程度地減少故障對數據訪問性能的影響;IBM Storage Scale 軟件提供 Safeguarded Copy(不可篡改的數據快照)和日志審計、加密功能,可以有效應對如網絡攻擊和勒索病毒等的安全威脅,提供高達 6 個 9 的可用性。
  • 支持混搭:IBM Storage Scale 提供多種部署和配置選項,可將不同存儲設備、基于 NFS 的其它文件存儲和基于S3的其它對象存儲、甚至是磁帶存儲統(tǒng)一納入到全局命名空間中,消除數據孤島,簡化海量數據的訪問和管理。
IBM AI存儲支持多協(xié)議互通 
IBM AI存儲支持多協(xié)議互通

得益于這些領先優(yōu)勢,在2023年發(fā)布的Gartner 分布式存儲魔力象限報告中,IBM連續(xù)第八年被評為領導者,并在報告中被認為是用于高性能文件、AI 和分析型工作負載的最佳解決方案。

無論是應對當前算力稀缺的挑戰(zhàn),還是發(fā)展以數據為中心的新一代AI應用,提升存力、優(yōu)化數據存儲已經成為必選項。我們期待繼續(xù)攜手中國客戶和合作伙伴突破算力瓶頸、避開成本陷阱,更加高效地將AI轉化為生產力!

關于IBM

IBM 是全球領先的混合云、人工智能及企業(yè)服務提供商,幫助超過 175 個國家和地區(qū)的客戶,從其擁有的數據中獲取商業(yè)洞察,簡化業(yè)務流程,降低成本,并獲得行業(yè)競爭優(yōu)勢。金融服務、電信和醫(yī)療健康等關鍵基礎設施領域的超過 4000 家政府和企業(yè)實體依靠 IBM 混合云平臺和紅帽 OpenShift 快速、高效、安全地實現數字化轉型。IBM 在人工智能、量子計算、行業(yè)云解決方案和企業(yè)服務方面的突破性創(chuàng)新為我們的客戶提供了開放和靈活的選擇。對企業(yè)誠信、透明治理、社會責任、包容文化和服務精神的長期承諾是 IBM 業(yè)務發(fā)展的基石。了解更多信息,請訪問:https://www.ibm.com/cn-zh 

IBM AI存儲 算力

一周熱門