華為發(fā)布AI推理創(chuàng)新技術(shù)--UCM推理記憶數(shù)據(jù)管理器


中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2025-08-28





  8月12日,2025金融AI推理應(yīng)用落地與發(fā)展論壇在上海舉行。會(huì)上,華為發(fā)布AI推理創(chuàng)新技術(shù)--UCM推理記憶數(shù)據(jù)管理器。華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰表示,該技術(shù)旨在推動(dòng)AI推理體驗(yàn)升級,提升推理性價(jià)比,加速AI商業(yè)正循環(huán)。同時(shí),華為攜手中國銀聯(lián)率先在金融典型場景開展UCM技術(shù)試點(diǎn)應(yīng)用,并聯(lián)合發(fā)布智慧金融AI推理加速方案應(yīng)用成果。


  據(jù)了解,UCM推理記憶數(shù)據(jù)管理器包括對接不同引擎與算力的推理引擎插件(Connector)、支持多級KV Cache管理及加速算法的功能庫(Accelerator)以及高性能KV Cache存取適配器(Adapter)三大組件,通過推理框架、算力、存儲三層協(xié)同,實(shí)現(xiàn)AI推理“更優(yōu)體驗(yàn)、更低成本”。


  推理體驗(yàn)方面,依托UCM層級化自適應(yīng)的全局前綴緩存技術(shù),系統(tǒng)能直接調(diào)用KV緩存數(shù)據(jù),避免重復(fù)計(jì)算,使首Token時(shí)延最大降低90%。同時(shí),UCM將超長序列Cache分層卸載至外置專業(yè)存儲,通過算法創(chuàng)新突破模型和資源限制,實(shí)現(xiàn)推理上下文窗口10倍級擴(kuò)展,滿足長文本處理需求;推理成本方面,UCM具備智能分級緩存能力,可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質(zhì)中實(shí)現(xiàn)按需流動(dòng);同時(shí)融合多種稀疏注意力算法,實(shí)現(xiàn)存算深度協(xié)同,使長序列場景下TPS(每秒處理token數(shù))提升2~22倍,顯著降低每Token推理成本。


  當(dāng)前,華為已就UCM技術(shù)與中國銀聯(lián)開展聯(lián)合創(chuàng)新技術(shù)試點(diǎn),在中國銀聯(lián)“客戶之聲”業(yè)務(wù)場景下,借助UCM技術(shù)及工程化手段,大模型推理速度提升125倍,僅需10秒即可精準(zhǔn)識別客戶高頻問題,促進(jìn)服務(wù)質(zhì)量提升。


  此外,華為方面表示,UCM將于今年9月正式開源,可通過開放統(tǒng)一的南北向接口,適配多類型推理引擎框架、算力及存儲系統(tǒng)。未來,UCM將逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū),攜手全產(chǎn)業(yè)共同推動(dòng)AI推理生態(tài)繁榮發(fā)展。(記者 張琪瑋)


  轉(zhuǎn)自:中國電子報(bào)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964