作為業(yè)內(nèi)領(lǐng)先的社區(qū)平臺,小紅書始終致力于AI技術(shù)創(chuàng)新與應(yīng)用,將AIGC深度融入內(nèi)容推薦與智能創(chuàng)作場景,自2023年起基礎(chǔ)網(wǎng)絡(luò)團(tuán)隊(duì)積極布局高性能網(wǎng)絡(luò)方案,探索創(chuàng)新的智算網(wǎng)絡(luò)架構(gòu),為大模型應(yīng)用提供強(qiáng)有力的基礎(chǔ)設(shè)施支撐。
近日,國內(nèi)領(lǐng)先的社區(qū)平臺小紅書攜手紫光股份旗下新華三集團(tuán),率先完成了國內(nèi)首個(gè)基于DDC架構(gòu)的智算網(wǎng)絡(luò)規(guī)?;?yàn)證。本次驗(yàn)證主要針對網(wǎng)絡(luò)帶寬和響應(yīng)延遲性能、集合通信能力以及系統(tǒng)容災(zāi)水平等維度展開,測試表現(xiàn)效果優(yōu)異,充分展現(xiàn)了DDC架構(gòu)在支持大模型訓(xùn)練和高性能AI算力網(wǎng)絡(luò)方面的技術(shù)優(yōu)勢,能夠?yàn)樾〖t書的AI業(yè)務(wù)創(chuàng)新提供高性能基礎(chǔ)設(shè)施支撐。
隨著大模型快速發(fā)展,智算網(wǎng)絡(luò)正面臨機(jī)間通信占比激增帶來的擁塞風(fēng)險(xiǎn)、低時(shí)延與高吞吐雙重壓力、以及動(dòng)態(tài)流量模式導(dǎo)致傳統(tǒng)調(diào)優(yōu)失效三大主要挑戰(zhàn)。對此,新華三集團(tuán)依托多年技術(shù)積累,重新定義DDC架構(gòu)(Diversified Dynamic-Connectivity,多元?jiǎng)討B(tài)聯(lián)接),推出新一代無損網(wǎng)絡(luò)解決方案并攜手小紅書率先在實(shí)際業(yè)務(wù)場景中完成規(guī)模化驗(yàn)證。
針對此次規(guī)模化驗(yàn)證,小紅書基礎(chǔ)網(wǎng)絡(luò)負(fù)責(zé)人程俊峰表示:“小紅書始終堅(jiān)持網(wǎng)絡(luò)的開放性,將持續(xù)探索基于開放以太網(wǎng)的高性能網(wǎng)絡(luò)方案。此次與新華三聯(lián)合測試基于DDC架構(gòu)的智算網(wǎng)絡(luò)方案,不僅驗(yàn)證了新一代網(wǎng)絡(luò)架構(gòu)的技術(shù)可行性,也為小紅書后續(xù)開展大模型訓(xùn)練網(wǎng)絡(luò)優(yōu)化等創(chuàng)新性研究奠定了堅(jiān)實(shí)基礎(chǔ)。該方案在先進(jìn)性與普適性之間取得了良好平衡,為行業(yè)提供了高性能、低成本且易部署的網(wǎng)絡(luò)新選擇。”
DDC架構(gòu)實(shí)現(xiàn)全局負(fù)載均衡與高速AI通信
DDC架構(gòu)采用分布式設(shè)計(jì),通過信元交換技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)100%負(fù)載均衡,并結(jié)合VOQ+Credit智能流量調(diào)度,實(shí)現(xiàn)訓(xùn)練集群的無阻塞轉(zhuǎn)發(fā)和極速通信。該架構(gòu)首次將信元交換與以太網(wǎng)協(xié)議融合,構(gòu)建以太網(wǎng)原生的全局調(diào)度能力,實(shí)現(xiàn)端側(cè)完全解耦,兼容主流GPU廠商,并順應(yīng)國產(chǎn)GPU趨勢,充分釋放硬件性能。此外,網(wǎng)絡(luò)具備免調(diào)參能力,大幅降低運(yùn)維和部署復(fù)雜度。DDC架構(gòu)還全面適配All-Reduce、All-to-All等主流集合通信,為Dense、MoE等大模型提供穩(wěn)定高效支撐,并保持對未來新興訓(xùn)練范式的前瞻兼容性。
新華三集團(tuán)高級副總裁、網(wǎng)絡(luò)產(chǎn)品線總裁喬剡表示:“我們很高興與小紅書合作完成DDC架構(gòu)的規(guī)?;涞?。新華三一直致力于智算網(wǎng)絡(luò)技術(shù)的創(chuàng)新突破,DDC架構(gòu)是我們面向AI大模型時(shí)代推出的革命性網(wǎng)絡(luò)解決方案。測試結(jié)果充分證明了DDC在性能、免調(diào)優(yōu)和運(yùn)營成本等方面的綜合優(yōu)勢,這為大規(guī)模智算中心建設(shè)提供了新的選擇。我們期待與小紅書繼續(xù)深化合作,共同推動(dòng)AI基礎(chǔ)設(shè)施的創(chuàng)新與發(fā)展,助力中國大模型生態(tài)繁榮。”
規(guī)?;?yàn)證
DDC智算網(wǎng)絡(luò)高效、穩(wěn)定、免調(diào)參
在測試階段,雙方團(tuán)隊(duì)根據(jù)小紅書智算業(yè)務(wù)高并發(fā)、大流量特點(diǎn),開展了帶寬和延遲基準(zhǔn)測試、All-to-All和All-Reduce集合通信測試,以及系統(tǒng)容災(zāi)測試。結(jié)果顯示:DDC架構(gòu)顯著提升網(wǎng)絡(luò)利用率,有效避免擁塞導(dǎo)致的時(shí)延和抖動(dòng)。All to All場景中,GPU單卡吞吐量最高可達(dá)381.83Gbps,All Reduce場景中,GPU單卡吞吐量更可達(dá)到385.98Gbps。同時(shí),架構(gòu)可快速響應(yīng)多種硬件故障,智能調(diào)度帶寬資源,實(shí)現(xiàn)即插即用和“網(wǎng)絡(luò)內(nèi)免調(diào)參”,顯著簡化運(yùn)維工作。
上線測試基于已部署完畢的DDC智算網(wǎng)絡(luò)集群,訓(xùn)練網(wǎng)絡(luò)驗(yàn)證環(huán)境使用了2臺NCF交換機(jī),8臺NCP交換機(jī),4臺GPU服務(wù)器。每臺GPU服務(wù)器配備8張卡,分別連到8臺NCP上,每臺NCP分別與兩臺NCF相連,確保每臺NCP和每臺NCF間連線數(shù)量一致,構(gòu)成DDC集群。
此外,基于DDC架構(gòu)的智算交換機(jī)H3C S12500AI系列也在實(shí)際部署中充分體現(xiàn)了其價(jià)值:它不僅提升了大規(guī)模智算網(wǎng)絡(luò)的負(fù)載能力,縮短了模型訓(xùn)練時(shí)間,還為小紅書的AI應(yīng)用提供了高效、可靠的算力基礎(chǔ),推動(dòng)AI與內(nèi)容生態(tài)的深度融合,將大模型技術(shù)融入用戶的每一篇筆記和每一次搜索中。未來,小紅書技術(shù)團(tuán)隊(duì)將與新華三集團(tuán)持續(xù)深化合作,基于DDC架構(gòu)的AI加速能力,在內(nèi)容推薦算法優(yōu)化、智能創(chuàng)作工具開發(fā)和實(shí)時(shí)數(shù)據(jù)分析等領(lǐng)域共同探索,不斷提升用戶體驗(yàn)和創(chuàng)作效率。
在驗(yàn)收測試階段,雙方團(tuán)隊(duì)通力協(xié)作。鑒于這是國內(nèi)首個(gè)DDC集群落地項(xiàng)目,缺乏可借鑒的驗(yàn)收標(biāo)準(zhǔn)。團(tuán)隊(duì)以傳統(tǒng)RoCE網(wǎng)絡(luò)驗(yàn)收方案為基礎(chǔ),結(jié)合DDC實(shí)現(xiàn)無損網(wǎng)絡(luò)的技術(shù)特性,共同制定了針對性的驗(yàn)收體系。通過系統(tǒng)調(diào)整集合通信庫、QP、ECN、PFC ratio、Headroom、PXN等參數(shù),全面驗(yàn)證了DDC集群的網(wǎng)絡(luò)性能,并基于業(yè)務(wù)場景對系統(tǒng)冗余性進(jìn)行了深度測試,高效完成了DDC集群交付驗(yàn)證及容災(zāi)保障工作,確保集群上線和生產(chǎn)業(yè)務(wù)承載。首批設(shè)備上線當(dāng)天即完成調(diào)試與基礎(chǔ)配置,為后續(xù)部署積累了標(biāo)準(zhǔn)化流程經(jīng)驗(yàn),確保項(xiàng)目高質(zhì)量如期完成。
我們相信,隨著大模型技術(shù)持續(xù)發(fā)展,這類創(chuàng)新網(wǎng)絡(luò)架構(gòu)帶來的高性能、高開放度和免調(diào)優(yōu)特性,將成為用戶AI基礎(chǔ)設(shè)施建設(shè)中的網(wǎng)絡(luò)方案更優(yōu)選擇。
(來源:新華三)