當前,大模型發展重心正從“訓練”轉向“推理”,基于超節點形態的云上推理成為趨勢,超節點推理性能成為產業界核心關注點。近期,中國電信研究院聯合廣東公司、華為公司基于昇騰384超節點系統,依托研究院自研“翼芯”智算測試與適配優化平臺,開展了面向不同場景的大模型推理性能測試與調優。經系統優化,各場景推理性能均大幅提升,其中DeepSeek 671B滿血版模型在超節點部署,單卡推理吞吐性能2122 Tokens/s,創下國內新紀錄。
超節點是采用高速互連技術將多臺服務器內的AI芯片緊密耦合形成的大型算力單元,需要對不同業務場景的資源配置和并發策略靈活設置才能最大限度發揮系統性能。
本次優化完成了“翼芯”平臺和昇騰超節點的對接,針對13項基準性能、6類典型場景,以及5類典型資源配置,開展了推理性能自動化測試與系統級調優。“翼芯”平臺按照業務模型,分別配置超節點Prefill池和Decode池的資源數量、推理實例數量和并行策略,通過測試快速反饋性能指標并進行實時策略調整,同時配合算子融合替換、KV Cache優化、集合通信優化、服務調度優化等手段,不斷優化P池和D池吞吐性能使其達到最大平衡。
結果表明,面向DeepSeek 671B滿血版模型的超節點優化方案,多種場景下單卡吞吐性能較優化前有2.5至4.3倍提升,其中272卡配置(128卡P池、144卡D池)是系統性能最大平衡點,在TTFT為1.28s、TPOT為50ms的服務質量保證下,系統單卡吞吐達到2122 Tokens/s,較前期業界最佳優化性能提升9.2%。該技術驗證充分彰顯了中國電信在超節點上的系統優化能力——能根據客戶業務需求靈活配置云上節點資源,提供高性價比推理算力,有效服務于復雜推理、多智能體協同等新場景。
未來,中國電信將開展更廣泛場景、更多類型的超節點形態技術研究和優化驗證,不斷推動國產智算基礎設施技術創新。