日前,中國電信研究院依托中國電信云網(wǎng)融合大科創(chuàng)裝置智算資源,聯(lián)合北京大學在大模型分布式推理優(yōu)化領(lǐng)域?qū)崿F(xiàn)了重大技術(shù)突破,攻克大模型推理效率與硬件成本的核心矛盾,成功打造出一套高效率、低成本的企業(yè)級LLM推理優(yōu)化方案,覆蓋了大模型推理的主要應用場景。
在集群場景的優(yōu)化上,為解決多任務(wù)混合場景中短請求受長請求干擾導致時延顯著增長的問題,中國電信研究院聯(lián)合北京大學研發(fā)面向多任務(wù)場景的編排調(diào)度算法,并將其與云原生推理集群架構(gòu)整合,實現(xiàn)在1k-32k多長度請求混合的典型應用場景中,所有請求的平均端到端時延降低40%,短請求首Token時延和解碼時延下降75%。在邊緣一體機場景的優(yōu)化上,針對大語言模型在邊緣場景部署時資源受限問題,中國電信研究院改進了現(xiàn)有的低比特量化算法,篩選了一部分重要權(quán)重作為保留,極大限度壓縮模型權(quán)重的同時保證了模型精度。該算法應用于DeepSeek V3/R1,將最小部署單元從6臺A800縮減至單臺,硬件成本節(jié)約超80%,推理效率提升50%,助力存量A卡高效利用。在問答場景,該方案將投機采樣與算子融合相結(jié)合,實現(xiàn)了DeepSeek R1 671B全量版2.8倍推理吞吐效率的提升,同時在多輪對話、智能體+RAG的長文本場景中應用KV Cache多級緩存,通過區(qū)分冷熱數(shù)據(jù)進一步提升推理效率。
該試驗成果自今年初在中國電信云網(wǎng)融合大科創(chuàng)裝置上線以來,為中國電信集團公司、研究院、省專公司等30余個科研項目提供API服務(wù),累計處理Token超260億個,同時在集團、省公司等多個項目試點落地,充分證明了技術(shù)方案的可行性以及其在推理效率、吞吐量等方面的性能增益,為大規(guī)模部署提供了解決方案支持及驗證數(shù)據(jù)參考。未來,中國電信研究院將繼續(xù)深耕大模型分布式推理優(yōu)化技術(shù),攜手業(yè)界伙伴,共同推動推理優(yōu)化關(guān)鍵技術(shù)創(chuàng)新、標準制定和產(chǎn)業(yè)發(fā)展。(翼研)
轉(zhuǎn)自:人民郵電報
【版權(quán)及免責聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀