據(jù)悉,商湯科技即將在12月15日開始舉辦產(chǎn)品發(fā)布周。從近期開源的多模態(tài)架構(gòu)NEO到實時數(shù)字人技術(shù)SekoTalk,不難看出商湯正展現(xiàn)出一條清晰的路徑:以底層創(chuàng)新推動產(chǎn)品體驗升級,讓實用主義成為AI落地的核心邏輯。

AI應(yīng)用技術(shù)地基:NEO架構(gòu)重構(gòu)多模態(tài)效能,SekoTalk重塑數(shù)字人交互
商湯開源的NEO架構(gòu)從底層重新設(shè)計了多模態(tài)模型的“骨架”,突破了此前業(yè)內(nèi)拼湊式方案存在的效率低、融合淺瓶頸,實現(xiàn)了視覺與語言的深度統(tǒng)一,該架構(gòu)僅需業(yè)界十分之一的數(shù)據(jù)量即可達到旗艦?zāi)P托阅堋?/p>
這種“降溫增效”的特性,讓高質(zhì)量多模態(tài)從高耗能的大型模型向輕量化部署邁出實質(zhì)性一步,這將催生更多實用、好用的C端產(chǎn)品,讓AI普惠到各個細分生產(chǎn)生活場景。
如果說NEO架構(gòu)體現(xiàn)了商湯在基礎(chǔ)模型層面的深耕,那么SekoTalk技術(shù)則展現(xiàn)了其在應(yīng)用層的精準(zhǔn)洞察。SekoTalk實現(xiàn)了多語言環(huán)境下的精準(zhǔn)唇形同步和長視頻生成的穩(wěn)定表現(xiàn),在8卡服務(wù)器上達到24fps的生成速度,將首幀延遲降至3.5秒,使實時交互數(shù)字人從概念走向?qū)嵱茫鉀Q了行業(yè)長期面臨的“嘴不對音”、延遲漂移等痛點。
這一突破不僅指向視頻制作、虛擬偶像等內(nèi)容市場,更為情感陪伴等交互場景開辟了新空間。
從技術(shù)蓄力到產(chǎn)品價值,實用主義構(gòu)建AI產(chǎn)品邏輯
除此之外,近期商湯還迎來了“1+X”新成員——劍指具身智能場景化商業(yè)落地的“大曉機器人”,近期頻頻的技術(shù)動作可見商湯正在構(gòu)建的產(chǎn)品邏輯:
以底層架構(gòu)創(chuàng)新降低AI使用門檻,以場景化技術(shù)解決實際痛點。這種“實用主義”思路,標(biāo)志著AI企業(yè)從追逐參數(shù)規(guī)模向關(guān)注用戶價值的轉(zhuǎn)變。
技術(shù)研發(fā)的長期主義,最終需要穿透到用戶可感知的產(chǎn)品價值。商湯近期的技術(shù)蓄力,正在具象化為日常使用體驗的提升。從模型推理效能的顯著提升,到數(shù)字人交互的自然流暢,這些技術(shù)細節(jié)的進步,實則是AI技術(shù)真正融入產(chǎn)業(yè)的關(guān)鍵一步。
在產(chǎn)品發(fā)布周即將到來之際,期待商湯將展示更多如何將前沿技術(shù)轉(zhuǎn)化為實用產(chǎn)品的思考,為行業(yè)帶來新的啟發(fā)。
轉(zhuǎn)自:鳳凰網(wǎng)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀