銳信科技有限公司

AI 伺服器選型與架構設計

異構運算架構（CPU + GPU + FPGA / ASIC 最佳化配置）
大模型訓練叢集（支援千卡級 NVIDIA HGX / AMD MI 部署）
推論加速方案（TensorRT / ONNX 最佳化）

隨著大型語言模型（LLM）與多模態模型快速發展，傳統通用運算架構已難以支撐其龐大的算力需求。打造一個高效、穩定且具擴展性的 AI 計算平台，必須從伺服器選型開始，進行完整的全棧式架構規劃。

AI 伺服器選型：依工作負載量身打造
選擇 AI 伺服器並非單純追求「最強 GPU」，而是需依照實際應用情境（訓練或推論）、模型規模、預算限制與功耗需求進行整體評估。

關鍵考量包含：
顯存頻寬（超過 3TB/s）
NVLink / NVSwitch 互聯頻寬（900GB/s 以上）
INT8 / FP16 運算能力
推論吞吐量（QPS）、延遲（毫秒級）與功耗（瓦數）
儲存系統的高吞吐量與高 IOPS 表現
小檔案（如影像資料）讀取需求仰賴高 IOPS，大型檢查點檔案（checkpoint）則需要極高吞吐效能，因此通常配置本地 NVMe SSD 作為高速儲存。
在單機多 GPU 架構中，NVIDIA 的 NVLink / NVSwitch 是實現 GPU 高速互聯的標準方案，其頻寬遠高於 PCIe，能將多張 GPU 整合為單一邏輯運算單元。

異構運算架構：CPU + GPU + FPGA / ASIC 協同最佳化
單一類型的處理器難以同時滿足 AI 工作流程中所有運算需求。異構運算架構透過將不同任務分配給最合適的硬體單元，達到整體效能最大化。

例如：

即時推論與超低延遲應用（如自駕車感知決策）
非標準精度或稀疏模型運算
專用 ASIC 晶片用於特定演算法加速
ASIC 為專門為特定演算法設計的晶片，沒有通用運算負擔，可在專長領域中提供最高效能與能效比。

大模型訓練叢集：千卡級 HGX / MI 架構部署
千卡級 AI 叢集建置是一項系統工程，並非單純堆疊伺服器。常見以 NVIDIA HGX H100 8-GPU 或 AMD MI300X 8-GPU 節點作為標準運算單元，每個節點內部透過 NVLink 建立全互聯架構。

主要訓練並行方式包括：

資料並行（Data Parallelism）
將整體批次資料分配至各 GPU，每張 GPU 擁有完整模型副本，處理不同資料後同步梯度。

模型並行（Model Parallelism）
當模型無法完整放入單一 GPU 記憶體時，將模型不同層分散至多張 GPU。

張量並行（Tensor Parallelism）
將單一層內的矩陣運算（如 GEMM）拆分到多張 GPU 執行，特別適用於 Transformer 中的 Attention 與 FFN 計算，需搭配高速互聯（NVLink / InfiniBand）。

推論架構：低延遲、高效率為核心，推論場景與訓練需求截然不同，更重視：

低延遲、高吞吐、優異能效比、成本控制（雲端或邊緣環境），透過 TensorRT、ONNX Runtime 等最佳化工具，可顯著提升推論效能並降低功耗。

現代 AI 基礎設施的整體設計原則，打造 AI 計算平台是一個多維度決策過程：精準匹配 CPU、GPU、儲存與網路資源，發揮 CPU、GPU、FPGA、ASIC 的協同效益

兼顧效能、成本、能效與擴展性，最終目標是實現整體運算效率的最優解。

服務專區

需要協助嗎? 請和我們聯絡