智研咨詢 - 產業(yè)信息門戶

通信行業(yè)點評:算力調度:未來算力網(wǎng)絡的重要拼圖

算力資源有限,調度優(yōu)化問題緊迫。OpenAI 此前在技術博客《Scaling Kubernetes to2,500 nodes》中提到,OpenAI k8s 集群從500 nodes 擴展到2500 nodes 時遇到諸多存儲、網(wǎng)絡和資源初始化問題,通過可視化監(jiān)控工具Datadog 發(fā)現(xiàn)ETCD(一種Key-Value 存儲服務)寫數(shù)據(jù)存在幾百毫秒延遲,list API 被頻繁調用、Fluentd 和DataDog 頻繁侵占資源等問題。


什么是算力調度?在云計算中,資源調度是一個非確定性多項式優(yōu)化問題,往往會出現(xiàn)“拆東墻補西墻”這樣的情況,因此云計算的算力調度必須考慮每個算力資源請求的需求邊界,比如OpenAI 團隊使用“balloons”占位策略解決資源排隊問題:


用一個低優(yōu)先級pod 占著整個節(jié)點,要用節(jié)點的時候被自動驅逐掉;使用污點策略手動分配每個訓練請求能使用的節(jié)點。


GPU 超算集群中,暴露出的不只是算力調度問題。在此前對英偉達AI 超算的研究中,我們的結論是:通信網(wǎng)絡是制約數(shù)據(jù)中心算力高低的關鍵因素。在多線程并行計算下,通信成為制約算力的短板,只要有一條交換鏈路出現(xiàn)網(wǎng)絡阻塞或丟包,就會產生I/O 延遲;又如GH200 新增顯存互聯(lián)功能,我們認為,相對于無顯存互聯(lián)的超算,GH200 對API server 的并發(fā)訪問量是指數(shù)級增長,將對硬件資源調度提出更高挑戰(zhàn)。


多點硬件部署監(jiān)控效率更高。我們注意到,OpenAI 在針對網(wǎng)絡監(jiān)控進行優(yōu)化時發(fā)現(xiàn)Prometheus 這類監(jiān)控系統(tǒng)時常會導致OOM(Out of Memory,內存溢出),從而不得不削減查詢頻率;每次初始化pod,Prometheus 都要重寫WAL(Write-aheadlogging,預寫式日志)拉長啟動時間。我們認為,以上問題都可以通過嵌入式的多點硬件層監(jiān)控系統(tǒng)避免上述問題。我們認為,在傳統(tǒng)的計算式和I/O 式云計算中,外部串接監(jiān)控服務器即可滿足監(jiān)控需求,而GPU 集群時代,需要并接部署“聯(lián)邦集群”并進行不同監(jiān)控服務器的功能劃分,最后進行北向匯聚,有望提升監(jiān)控采集效率、降低超算本身的資源侵占。


網(wǎng)絡可視化技術在國內外均處于探索迭代過程中,國內相關廠商的潛在機會巨大。


在北美,目前主流的監(jiān)控工具是Netscout、Prometheus、Datadog 等,都是基于在超算本地化部署;但在多點硬件部署的AI 超算中,軟硬件結合的廠商成長性有望更為充分,經過多年經驗積累的相關國內DPI 廠商,形成了高容量下的數(shù)據(jù)監(jiān)控能力,有望成為全球算力調優(yōu)的上游關鍵角色。


投資建議:


1)重視GPU 超算集群中交換網(wǎng)絡性能的重要性,而光通信是現(xiàn)有技術下幾乎無法替代的交換網(wǎng)絡方案,關注光通信:中際旭創(chuàng)、新易盛、天孚通信、太辰光、騰景科技、德科立、聯(lián)特科技、華工科技、源杰科技、劍橋科技;算力設備:中興通訊、紫光股份、銳捷網(wǎng)絡、菲菱科思、恒為科技、工業(yè)富聯(lián)、寒武紀、震有科技。


2)重視網(wǎng)絡可視化及算力資源調優(yōu)策略的軟硬件廠商,該品種目前存在較大預期差,關注恒為科技、浩瀚深度、中新賽克。


風險提示:AI 發(fā)展不及預期,算力需求不及預期。


知前沿,問智研。智研咨詢是中國一流產業(yè)咨詢機構,十數(shù)年持續(xù)深耕產業(yè)研究領域,提供深度產業(yè)研究報告、商業(yè)計劃書、可行性研究報告及定制服務等一站式產業(yè)咨詢服務。專業(yè)的角度、品質化的服務、敏銳的市場洞察力,專注于提供完善的產業(yè)解決方案,為您的投資決策賦能。


轉自國盛證券有限責任公司 研究員:宋嘉吉/黃瀚/趙丕業(yè)/邵帥

10000 12800
精品報告智研咨詢 - 精品報告
2025-2031年中國算力行業(yè)市場全景調查及戰(zhàn)略咨詢研究報告
2025-2031年中國算力行業(yè)市場全景調查及戰(zhàn)略咨詢研究報告

《2025-2031年中國算力行業(yè)市場全景調查及戰(zhàn)略咨詢研究報告 》共十一章,包含中國算力行業(yè)發(fā)展環(huán)境洞察,中國算力行業(yè)市場前景預測及發(fā)展趨勢預判,中國算力行業(yè)投資戰(zhàn)略規(guī)劃策略及發(fā)展建議等內容。

如您有其他要求,請聯(lián)系:
公眾號
小程序
微信咨詢

版權提示:智研咨詢倡導尊重與保護知識產權,對有明確來源的內容注明出處。如發(fā)現(xiàn)本站文章存在版權、稿酬或其它問題,煩請聯(lián)系我們,我們將及時與您溝通處理。聯(lián)系方式:gaojian@chyxx.com、010-60343812。

在線咨詢
微信客服
微信掃碼咨詢客服
電話客服

咨詢熱線

400-600-8596
010-60343812
返回頂部
在線咨詢
研究報告
可研報告
專精特新
商業(yè)計劃書
定制服務
返回頂部