銳信科技有限公司

AI 算力叢集部署與管理

硬體配置：NVIDIA HGX / AMD MI 系列 GPU 叢集
排程優化：Kubernetes + Slurm
高速儲存：Ceph / Lustre 分散式架構

GPU 平台選型

NVIDIA HGX 系列
定位於頂級效能平台，專為大規模 AI 訓練與高效能運算（HPC）場景打造。
透過 NVLink 與 NVSwitch 技術，實現單機 8 顆 GPU 之間的超高頻寬互聯，支援高效能的全堆疊通訊整合，是訓練超大型模型的重要基礎。

AMD MI 系列
提供高效能且具備良好性價比與開放生態的運算方案，支援 MI210、MI250X 及新一代 MI300 加速卡。
其中 MI250X 同樣搭載高速 Infinity Fabric 互聯架構，確保 GPU 之間的高速資料交換。

系統架構重點

CPU 選型：
搭配與 GPU 效能相匹配的伺服器級處理器，確保整體運算效率不受瓶頸限制。

節點內高速互聯：
NVIDIA 平台透過 NVLink 實現 GPU 之間的高速資料通訊，提升模型訓練與推論效率。

高效能儲存系統：
採用全快閃儲存陣列作為中繼資料伺服器（MDS）與物件儲存閘道（OSD）的核心儲存介質，大幅提升小檔案存取與中繼資料處理效能。

基礎設施即程式碼（IaC）：
透過自動化方式完成所有節點的系統設定、驅動安裝與軟體部署，確保環境一致性並降低人為錯誤風險。

服務專區

需要協助嗎? 請和我們聯絡