當前位置首頁 > 中國制造 > 創(chuàng)新 >

破解效率成本矛盾中國電信研究院取得大模型分布式推理技術(shù)突破

中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng) 時間：2026-01-04

　　日前，中國電信研究院依托中國電信云網(wǎng)融合大科創(chuàng)裝置智算資源，聯(lián)合北京大學在大模型分布式推理優(yōu)化領(lǐng)域?qū)崿F(xiàn)了重大技術(shù)突破，攻克大模型推理效率與硬件成本的核心矛盾，成功打造出一套高效率、低成本的企業(yè)級LLM推理優(yōu)化方案，覆蓋了大模型推理的主要應用場景。

　　在集群場景的優(yōu)化上，為解決多任務(wù)混合場景中短請求受長請求干擾導致時延顯著增長的問題，中國電信研究院聯(lián)合北京大學研發(fā)面向多任務(wù)場景的編排調(diào)度算法，并將其與云原生推理集群架構(gòu)整合，實現(xiàn)在1k-32k多長度請求混合的典型應用場景中，所有請求的平均端到端時延降低40％，短請求首Token時延和解碼時延下降75％。在邊緣一體機場景的優(yōu)化上，針對大語言模型在邊緣場景部署時資源受限問題，中國電信研究院改進了現(xiàn)有的低比特量化算法，篩選了一部分重要權(quán)重作為保留，極大限度壓縮模型權(quán)重的同時保證了模型精度。該算法應用于DeepSeek V3/R1，將最小部署單元從6臺A800縮減至單臺，硬件成本節(jié)約超80％，推理效率提升50％，助力存量A卡高效利用。在問答場景，該方案將投機采樣與算子融合相結(jié)合，實現(xiàn)了DeepSeek R1 671B全量版2.8倍推理吞吐效率的提升，同時在多輪對話、智能體+RAG的長文本場景中應用KV Cache多級緩存，通過區(qū)分冷熱數(shù)據(jù)進一步提升推理效率。

　　該試驗成果自今年初在中國電信云網(wǎng)融合大科創(chuàng)裝置上線以來，為中國電信集團公司、研究院、省專公司等30余個科研項目提供API服務(wù)，累計處理Token超260億個，同時在集團、省公司等多個項目試點落地，充分證明了技術(shù)方案的可行性以及其在推理效率、吞吐量等方面的性能增益，為大規(guī)模部署提供了解決方案支持及驗證數(shù)據(jù)參考。未來，中國電信研究院將繼續(xù)深耕大模型分布式推理優(yōu)化技術(shù)，攜手業(yè)界伙伴，共同推動推理優(yōu)化關(guān)鍵技術(shù)創(chuàng)新、標準制定和產(chǎn)業(yè)發(fā)展。（翼研）

　　轉(zhuǎn)自：人民郵電報

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個人觀點，不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系：010-65363056。

延伸閱讀

熱點視頻

科技賦能玫瑰產(chǎn)業(yè)升級校企合作共筑鄉(xiāng)村振興新篇章

熱點新聞

破解效率成本矛盾 中國電信研究院取得大模型分布式推理技術(shù)突破

熱點視頻

熱點新聞

微信公眾號

破解效率成本矛盾中國電信研究院取得大模型分布式推理技術(shù)突破