近日,中國(guó)電信宣布,在業(yè)內(nèi)率先完成1024卡千億參數(shù)大模型500公里分布式聯(lián)合訓(xùn)練試商用,為AI基礎(chǔ)設(shè)施的協(xié)同發(fā)展提供了新方案。
此次試商用的核心挑戰(zhàn)在于如何實(shí)現(xiàn)長(zhǎng)距離、大帶寬、低延遲的算力協(xié)同。中國(guó)電信組織旗下研究院、天翼云、北京分公司深度協(xié)作,通過(guò)自主研發(fā)的“廣域智聯(lián)無(wú)損網(wǎng)絡(luò)”技術(shù),在天津武清至北京瀛海之間構(gòu)建了一張長(zhǎng)達(dá)500公里的真實(shí)光路環(huán)回網(wǎng)絡(luò),成功將千億參數(shù)大模型的分布式訓(xùn)練性能提升至單數(shù)據(jù)中心效能的97%以上。
據(jù)北京電信相關(guān)負(fù)責(zé)人王軼介紹,關(guān)鍵技術(shù)亮點(diǎn)為采用800G廣域無(wú)損傳輸技術(shù),帶寬收斂比提升至32∶1,解決了長(zhǎng)距傳輸中因網(wǎng)絡(luò)擁塞導(dǎo)致的丟包問(wèn)題?!翱梢詫?shí)現(xiàn)50毫秒極速倒換?!蓖踺W表示,通過(guò)WSON(光波長(zhǎng)保護(hù))技術(shù)實(shí)現(xiàn)鏈路中斷無(wú)感知切換,保障訓(xùn)練的連續(xù)性與穩(wěn)定性。
在此基礎(chǔ)上,本次聯(lián)合訓(xùn)練試商用還利用“息壤”智算平臺(tái),集成跨地域算網(wǎng)協(xié)同、自動(dòng)并行、斷點(diǎn)續(xù)訓(xùn)等功能,實(shí)現(xiàn)故障秒級(jí)定位與分鐘級(jí)恢復(fù),大幅提升商用模型的部署效率。
當(dāng)前,AI大模型訓(xùn)練對(duì)算力的需求呈指數(shù)級(jí)增長(zhǎng),但傳統(tǒng)單數(shù)據(jù)中心模式受限于物理空間、能源成本與地域限制,難以滿足需求。中國(guó)電信此次突破的核心價(jià)值在于,通過(guò)跨地域算力整合,將分散的數(shù)據(jù)中心轉(zhuǎn)化為“虛擬超級(jí)計(jì)算機(jī)”,極大降低了訓(xùn)練成本,同時(shí)為“東數(shù)西算”等國(guó)家工程提供了可落地的技術(shù)路徑。
此次試商用的成功是中國(guó)電信在智算網(wǎng)絡(luò)領(lǐng)域持續(xù)創(chuàng)新和實(shí)踐的成果,也是積極響應(yīng)國(guó)家戰(zhàn)略推動(dòng)算力網(wǎng)絡(luò)協(xié)同發(fā)展的重要舉措。未來(lái),中國(guó)電信將繼續(xù)加大在智算網(wǎng)絡(luò)領(lǐng)域的投入和研發(fā)力度,為人工智能產(chǎn)業(yè)的發(fā)展提供更加強(qiáng)有力的網(wǎng)絡(luò)支持,助力我國(guó)數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展。(記者 劉剛)
轉(zhuǎn)自:人民郵電報(bào)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。
延伸閱讀

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964