當(dāng)前位置首頁(yè) > 行業(yè) > 通信 >

中國(guó)電信研究院發(fā)布大模型分布式推理優(yōu)化試驗(yàn)

中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時(shí)間：2025-12-23

　　中國(guó)電信研究院依托中國(guó)電信云網(wǎng)融合大科創(chuàng)裝置智算資源，聯(lián)合北京大學(xué)在大模型分布式推理優(yōu)化領(lǐng)域?qū)崿F(xiàn)了重大技術(shù)突破，攻克大模型推理效率與硬件成本的核心矛盾，成功打造出一套高效率、低成本的企業(yè)級(jí)LLM推理優(yōu)化方案，覆蓋了大模型推理的主要應(yīng)用場(chǎng)景。

　　在集群場(chǎng)景的優(yōu)化上，為解決多任務(wù)混合場(chǎng)景中短請(qǐng)求受長(zhǎng)請(qǐng)求干擾導(dǎo)致時(shí)延顯著增長(zhǎng)的問(wèn)題，電信研究院聯(lián)合北京大學(xué)研發(fā)面向多任務(wù)場(chǎng)景的編排調(diào)度算法，并將其與云原生推理集群架構(gòu)整合，實(shí)現(xiàn)在1k-32k多長(zhǎng)度請(qǐng)求混合的典型應(yīng)用場(chǎng)景中，所有請(qǐng)求的平均端到端時(shí)延降低40%，短請(qǐng)求首token時(shí)延和解碼時(shí)延下降75%。在邊緣一體機(jī)場(chǎng)景的優(yōu)化上，針對(duì)大語(yǔ)言模型在邊緣場(chǎng)景部署時(shí)資源受限問(wèn)題，電信研究院改進(jìn)了現(xiàn)有的低比特量化算法，篩選了一部分重要權(quán)重作為保留，極大限度壓縮模型權(quán)重的同時(shí)保證了模型精度。該算法應(yīng)用于 DeepSeek V3/R1，將最小部署單元從 6 臺(tái) A800 縮減至單臺(tái)，硬件成本節(jié)約超 80%，推理效率提升 50%，助力存量A卡高效利用。在問(wèn)答場(chǎng)景，該方案將投機(jī)采樣與算子融合相結(jié)合，實(shí)現(xiàn)了DeepSeek R1 671B全量版2.8倍推理吞吐效率提升，同時(shí)在多輪對(duì)話、智能體+RAG的長(zhǎng)文本場(chǎng)景中應(yīng)用KV Cache多級(jí)緩存，通過(guò)區(qū)分冷熱數(shù)據(jù)進(jìn)一步提升推理效率。

　　該試驗(yàn)成果自年初在中國(guó)電信云網(wǎng)融合大科創(chuàng)裝置上線以來(lái)，為中國(guó)電信集團(tuán)公司、研究院、省專公司等30余個(gè)科研項(xiàng)目提供API服務(wù)，累計(jì)處理Token超260億個(gè)，同時(shí)在集團(tuán)、省公司等多個(gè)項(xiàng)目試點(diǎn)落地，充分證明了技術(shù)方案的可行性以及其在推理效率、吞吐量等方面的性能增益，為大規(guī)模部署提供了解決方案支持及驗(yàn)證數(shù)據(jù)參考。未來(lái)，電信研究院將繼續(xù)深耕大模型分布式推理優(yōu)化技術(shù)，攜手業(yè)界伙伴，共同推動(dòng)推理優(yōu)化關(guān)鍵技術(shù)創(chuàng)新、標(biāo)準(zhǔn)制定和產(chǎn)業(yè)發(fā)展。

　　轉(zhuǎn)自：C114通信網(wǎng)

返回產(chǎn)經(jīng)網(wǎng)首頁(yè) >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個(gè)人觀點(diǎn)，不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

科技賦能玫瑰產(chǎn)業(yè)升級(jí) 校企合作共筑鄉(xiāng)村振興新篇章

熱點(diǎn)新聞

中國(guó)電信研究院發(fā)布大模型分布式推理優(yōu)化試驗(yàn)

熱點(diǎn)視頻

熱點(diǎn)新聞

微信公眾號(hào)