當(dāng)前位置首頁 > 中國制造 > 創(chuàng)新 >

華為發(fā)布AI推理創(chuàng)新技術(shù)--UCM推理記憶數(shù)據(jù)管理器

中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時(shí)間：2025-08-28

　　8月12日，2025金融AI推理應(yīng)用落地與發(fā)展論壇在上海舉行。會(huì)上，華為發(fā)布AI推理創(chuàng)新技術(shù)--UCM推理記憶數(shù)據(jù)管理器。華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰表示，該技術(shù)旨在推動(dòng)AI推理體驗(yàn)升級，提升推理性價(jià)比，加速AI商業(yè)正循環(huán)。同時(shí)，華為攜手中國銀聯(lián)率先在金融典型場景開展UCM技術(shù)試點(diǎn)應(yīng)用，并聯(lián)合發(fā)布智慧金融AI推理加速方案應(yīng)用成果。

　　據(jù)了解，UCM推理記憶數(shù)據(jù)管理器包括對接不同引擎與算力的推理引擎插件（Connector）、支持多級KV Cache管理及加速算法的功能庫（Accelerator）以及高性能KV Cache存取適配器（Adapter）三大組件，通過推理框架、算力、存儲三層協(xié)同，實(shí)現(xiàn)AI推理“更優(yōu)體驗(yàn)、更低成本”。

　　推理體驗(yàn)方面，依托UCM層級化自適應(yīng)的全局前綴緩存技術(shù)，系統(tǒng)能直接調(diào)用KV緩存數(shù)據(jù)，避免重復(fù)計(jì)算，使首Token時(shí)延最大降低90%。同時(shí)，UCM將超長序列Cache分層卸載至外置專業(yè)存儲，通過算法創(chuàng)新突破模型和資源限制，實(shí)現(xiàn)推理上下文窗口10倍級擴(kuò)展，滿足長文本處理需求；推理成本方面，UCM具備智能分級緩存能力，可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質(zhì)中實(shí)現(xiàn)按需流動(dòng)；同時(shí)融合多種稀疏注意力算法，實(shí)現(xiàn)存算深度協(xié)同，使長序列場景下TPS（每秒處理token數(shù)）提升2~22倍，顯著降低每Token推理成本。

　　當(dāng)前，華為已就UCM技術(shù)與中國銀聯(lián)開展聯(lián)合創(chuàng)新技術(shù)試點(diǎn)，在中國銀聯(lián)“客戶之聲”業(yè)務(wù)場景下，借助UCM技術(shù)及工程化手段，大模型推理速度提升125倍，僅需10秒即可精準(zhǔn)識別客戶高頻問題，促進(jìn)服務(wù)質(zhì)量提升。

　　此外，華為方面表示，UCM將于今年9月正式開源，可通過開放統(tǒng)一的南北向接口，適配多類型推理引擎框架、算力及存儲系統(tǒng)。未來，UCM將逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū)，攜手全產(chǎn)業(yè)共同推動(dòng)AI推理生態(tài)繁榮發(fā)展。（記者張琪瑋）

　　轉(zhuǎn)自：中國電子報(bào)

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個(gè)人觀點(diǎn)，不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

2024年我國新能源汽車產(chǎn)銷量均超1200萬輛

熱點(diǎn)新聞

華為發(fā)布AI推理創(chuàng)新技術(shù)--UCM推理記憶數(shù)據(jù)管理器

熱點(diǎn)視頻

熱點(diǎn)新聞

微信公眾號