浪潮信息采用3臺AS13000G7服務器搭建分布式存儲集群,搭載ICFS自研分布式文件系統,在3D-UNet和CosmoFlow兩大評測任務中 共獲得五項*佳成績。其中,在圖像分割3D-UNet多客戶端2評測任務中,服務于10個客戶端264個加速器,集群聚合帶寬達到360GB/s,單個存儲節點的帶寬高達120GB/s;在宇宙學分析CosmoFlow單客戶端2和多客戶端2評測任務中,分別提供了18 GB/s和52 GB/s的帶寬*佳成績。
本次測試,浪潮信息采用3臺AS13000G7服務器搭建分布式存儲集群,搭載ICFS自研分布式文件系統,在3D-UNet和CosmoFlow兩大評測任務中 共獲得五項*佳成績。其中,在圖像分割3D-UNet多客戶端2評測任務中,服務于10個客戶端264個加速器,集群聚合帶寬達到360GB/s,單個存儲節點的帶寬高達120GB/s;在宇宙學分析CosmoFlow單客戶端2和多客戶端2評測任務中,分別提供了18 GB/s和52 GB/s的帶寬*佳成績。
近年來,浪潮信息基于存算協同的理念,持續加大存儲研發投入,從整體架構到各技術棧持續創新,優化升級存力,提升了GPU算力整體性能表現,實現了模型訓練數據處理的即時性,消除了GPU資源閑置(即“饑餓GPU”現象),提升大模型訓練效率。
架構層面,采用新數控分離架構。數據面和控制面完全解耦,控制面實現數據管理和訪問,數據面讀寫操作直通到盤,達到120 GB/s的單存儲節點的高性能,單存儲節點支撐5臺8卡計算節點規模,同時計算集群GPU利用率90%以上;
軟件層面,通過多路并發透傳技術,減少I/O操作中頻繁的上下文切換,降低單次I/O時延50%,同時達到高并發下時延穩定性。本次測試中1430個高并發讀線程支撐下,保證每個線程單次I/O的時延均在0.005秒,AI端到端訓練中I/O占比低于10%。此外,通過元數據VRANK技術,達到單個元數據進程多單元并發處理,提供高性能元數據服務;
軟硬協同層面,通過內核親和力調度,I/O請求動態調整,增強文件系統與計算節點親和性,確保負載均衡,將數據移動與多核CPU之間的訪問效率提升400%。