中國(guó)電信研究院發(fā)布大模型分布式推理優(yōu)化試驗(yàn)


中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2025-12-23





  中國(guó)電信研究院依托中國(guó)電信云網(wǎng)融合大科創(chuàng)裝置智算資源,聯(lián)合北京大學(xué)在大模型分布式推理優(yōu)化領(lǐng)域?qū)崿F(xiàn)了重大技術(shù)突破,攻克大模型推理效率與硬件成本的核心矛盾,成功打造出一套高效率、低成本的企業(yè)級(jí)LLM推理優(yōu)化方案,覆蓋了大模型推理的主要應(yīng)用場(chǎng)景。


  在集群場(chǎng)景的優(yōu)化上,為解決多任務(wù)混合場(chǎng)景中短請(qǐng)求受長(zhǎng)請(qǐng)求干擾導(dǎo)致時(shí)延顯著增長(zhǎng)的問(wèn)題,電信研究院聯(lián)合北京大學(xué)研發(fā)面向多任務(wù)場(chǎng)景的編排調(diào)度算法,并將其與云原生推理集群架構(gòu)整合,實(shí)現(xiàn)在1k-32k多長(zhǎng)度請(qǐng)求混合的典型應(yīng)用場(chǎng)景中,所有請(qǐng)求的平均端到端時(shí)延降低40%,短請(qǐng)求首token時(shí)延和解碼時(shí)延下降75%。在邊緣一體機(jī)場(chǎng)景的優(yōu)化上,針對(duì)大語(yǔ)言模型在邊緣場(chǎng)景部署時(shí)資源受限問(wèn)題,電信研究院改進(jìn)了現(xiàn)有的低比特量化算法,篩選了一部分重要權(quán)重作為保留,極大限度壓縮模型權(quán)重的同時(shí)保證了模型精度。該算法應(yīng)用于 DeepSeek V3/R1,將最小部署單元從 6 臺(tái) A800 縮減至單臺(tái),硬件成本節(jié)約超 80%,推理效率提升 50%,助力存量A卡高效利用。在問(wèn)答場(chǎng)景,該方案將投機(jī)采樣與算子融合相結(jié)合,實(shí)現(xiàn)了DeepSeek R1 671B全量版2.8倍推理吞吐效率提升,同時(shí)在多輪對(duì)話、智能體+RAG的長(zhǎng)文本場(chǎng)景中應(yīng)用KV Cache多級(jí)緩存,通過(guò)區(qū)分冷熱數(shù)據(jù)進(jìn)一步提升推理效率。


  該試驗(yàn)成果自年初在中國(guó)電信云網(wǎng)融合大科創(chuàng)裝置上線以來(lái),為中國(guó)電信集團(tuán)公司、研究院、省專公司等30余個(gè)科研項(xiàng)目提供API服務(wù),累計(jì)處理Token超260億個(gè),同時(shí)在集團(tuán)、省公司等多個(gè)項(xiàng)目試點(diǎn)落地,充分證明了技術(shù)方案的可行性以及其在推理效率、吞吐量等方面的性能增益,為大規(guī)模部署提供了解決方案支持及驗(yàn)證數(shù)據(jù)參考。未來(lái),電信研究院將繼續(xù)深耕大模型分布式推理優(yōu)化技術(shù),攜手業(yè)界伙伴,共同推動(dòng)推理優(yōu)化關(guān)鍵技術(shù)創(chuàng)新、標(biāo)準(zhǔn)制定和產(chǎn)業(yè)發(fā)展。


  轉(zhuǎn)自:C114通信網(wǎng)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。

延伸閱讀

?

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964