
具身智能領(lǐng)域的VLA模型正在從“單任務(wù)模仿學(xué)習(xí)”走向通用機器人基礎(chǔ)模型。但一個根本問題始終存在:如何讓機器人在理解復(fù)雜語義的同時,還能實現(xiàn)高速、精準(zhǔn)、穩(wěn)定的物理控制?
傳統(tǒng)端到端VLA將視覺語言理解與動作輸出全部塞進一個大模型,導(dǎo)致訓(xùn)練成本高、遷移困難、實時性難以保證。今天,賽索德智能給出了一個新答案——SaiVLA-0,一個受神經(jīng)科學(xué)啟發(fā)的三系統(tǒng)架構(gòu)VLA,并已開源模型權(quán)重與調(diào)用。

在具身智能的頂級基準(zhǔn)LIBERO上,SaiVLA-0以99.0%的平均成功率刷新榜單,推理延遲僅約40ms,接近該基準(zhǔn)的性能上限。
核心亮點:一組數(shù)據(jù)讀懂SaiVLA-0的硬實力
在深入技術(shù)細節(jié)之前,先看幾組關(guān)鍵數(shù)據(jù),直接感受它的行業(yè)突破性:
成功率拉滿:在公開長時序機器人操作基準(zhǔn)LIBERO上,平均成功率達99.0%,登頂全球公開榜單(evomind;VLA-Leaderboard),無限接近該基準(zhǔn)的性能上限;
速度夠快:推理時延低至~40ms,實現(xiàn)高頻閉環(huán)控制,應(yīng)對連續(xù)多步驟操作穩(wěn)如磐石;
落地高效:通過分離訓(xùn)練+特征緩存,訓(xùn)練效率提升67%;升級、遷移無需重構(gòu)系統(tǒng),大幅降低產(chǎn)線停機與研發(fā)成本;
開放模型權(quán)重:模型、論文、項目網(wǎng)站全部公開,開發(fā)者可直接上手調(diào)試,加速具身智能落地進程。

兩條技術(shù)路線:通用大腦 vs 具身操作系統(tǒng)
當(dāng)前具身智能領(lǐng)域正在分化出兩種代表性方向:
一類以Skild AI為代表,致力于構(gòu)建跨本體的通用機器人基礎(chǔ)模型,希望通過一個統(tǒng)一的“機器人通用大腦”實現(xiàn)不同機器人之間的能力共享與遷移。

另一類則更面向真實產(chǎn)業(yè)落地,關(guān)注如何在復(fù)雜多變的工業(yè)環(huán)境中實現(xiàn)高效訓(xùn)練、快速適配與穩(wěn)定交付。賽索德智能的SaiVLA正是這一路徑的典型代表。
在真實工業(yè)場景中,不同工位、物料、夾具甚至機器人本體之間存在大量差異,單一通用策略模型很難直接覆蓋所有任務(wù)。更可行的范式是圍繞具體任務(wù)持續(xù)訓(xùn)練與迭代策略,并通過架構(gòu)解耦實現(xiàn)跨本體遷移與快速部署。
SaiVLA-0的出現(xiàn),正是瞄準(zhǔn)這一痛點:不追求“萬能通用”,而是通過架構(gòu)解耦,讓機器人既能保持高性能,又能快速適配不同場景、不同本體,真正貼合工業(yè)落地需求。

簡單來說,如果Skild AI是在構(gòu)建機器人的“通用大腦”,那么SaiVLA正在構(gòu)建面向真實工業(yè)世界的具身智能操作系統(tǒng)——一種能夠在跨本體機器人平臺上持續(xù)訓(xùn)練、快速適配并實現(xiàn)規(guī)?;虡I(yè)交付的工業(yè)級具身智能范式。
技術(shù)拆解:三系統(tǒng)架構(gòu),重構(gòu)VLA的“分工邏輯”
SaiVLA-0的核心突破,在于將傳統(tǒng)VLA的“單體端到端”架構(gòu),重構(gòu)為類神經(jīng)科學(xué)的Cerebrum–Pons–Cerebellum(大腦-橋腦-小腦)三系統(tǒng),實現(xiàn)“語義理解、表征編譯、實時執(zhí)行”的解耦,讓每個模塊各司其職、協(xié)同發(fā)力。

1.大腦(Cerebrum):
相當(dāng)于機器人的“決策大腦”,采用凍結(jié)的大模型語義中樞,負責(zé)理解人類的語義意圖(比如“拾取這個零件”“裝配這個組件”),提供穩(wěn)定的多模態(tài)先驗。
不輕易改動,避免因語義模塊升級導(dǎo)致整個系統(tǒng)不穩(wěn)定,為后續(xù)的動作執(zhí)行提供可靠的“指令基礎(chǔ)”。
2.橋腦(Pons Adapter):
大腦輸出的是“語義意圖”(比如“拾取”),但機器人執(zhí)行需要“可操作指令”。橋腦的作用,就是把抽象的語義意圖,壓縮、重編碼成機器人能看懂的“可執(zhí)行上下文tokens”,相當(dāng)于打通“想法”與“動作”的橋梁。
核心優(yōu)勢:可單獨訓(xùn)練——當(dāng)升級語義模型(大腦)時,不用重構(gòu)整個系統(tǒng),只需重新訓(xùn)練橋腦,大幅降低升級成本。
3.小腦(Cerebellum/ParaCAT)
相當(dāng)于機器人的“手腳控制器”,負責(zé)實時執(zhí)行動作,采用高頻運行模式,確保操控的低時延與穩(wěn)定性。
這里有兩個關(guān)鍵設(shè)計,直接決定了它的高性能:
并行分類動作頭ParaCAT:通過并行解碼快速生成多步動作決策,還加入了多種穩(wěn)定機制,避免動作抖動,比傳統(tǒng)方式推理速度大幅提升,這也是它能實現(xiàn)~40ms低時延的核心原因;
幾何綁定ROI(腕部視野):聚焦機器人末端執(zhí)行器(相當(dāng)于“手腕”),對細微的姿態(tài)變化、接觸動作更敏感,哪怕出現(xiàn)輕微偏差,也能快速調(diào)整,確保精細操作的穩(wěn)定性。這一設(shè)計在需要精細操作的場景(如插孔、裝配)中表現(xiàn)出顯著優(yōu)勢。
此外,賽索德智能還提出了一套新的評測指標(biāo):計算歸一化成功率(compute-normalized success)。

傳統(tǒng)VLA評測往往只看成功率,忽略實時性和算力成本。SaiVLA將語義模塊(Cerebrum)的一次調(diào)用成本與執(zhí)行模塊(Cerebellum)的每步推理成本分別統(tǒng)計,使系統(tǒng)性能能夠在成功率、時延與計算開銷之間進行統(tǒng)一衡量。
這意味著,“更高成功率”不再以犧牲實時性或算力為代價,而是可以同時追求效率—性能協(xié)同優(yōu)化。
實驗結(jié)果:LIBERO 99.0%成功率,真實環(huán)境驗證
SaiVLA-0在公開長時序機器人操作基準(zhǔn)LIBERO上取得了99.0%的平均成功率,截止目前在全球公開榜單(evomind/VLA-Leaderboard)中與相關(guān)模型相比達到了最高成功率,并接近該基準(zhǔn)的性能上限。
與此同時,在真實機器人環(huán)境中的多項操作任務(wù)上,SaiVLA-0也表現(xiàn)出高度穩(wěn)定的執(zhí)行能力,能夠可靠地完成連續(xù)多步驟操作。這一結(jié)果表明,SaiVLA-0不僅在標(biāo)準(zhǔn)化評測中取得突破,也展現(xiàn)出向真實世界任務(wù)遷移的強泛化能力,為機器人在真實環(huán)境中的長期自主操作奠定了重要基礎(chǔ)。
商業(yè)優(yōu)勢:為真實產(chǎn)業(yè)場景而生
對企業(yè)來說,SaiVLA-0的核心價值,不止是“99%的成功率”,更是“可落地、可復(fù)用、低成本”。它的三系統(tǒng)解耦架構(gòu),能精準(zhǔn)適配三大核心場景,直接解決行業(yè)落地痛點:
1. 制造與物流:降低自動化改造成本
在多工位、多SKU的柔性操作場景(如拾取、放置、裝配、分揀)中,SaiVLA-0通過三系統(tǒng)架構(gòu)解耦視覺理解與動作控制。當(dāng)更換夾具、料盤、相機標(biāo)定或控制接口時,僅需調(diào)整局部模塊即可完成適配,無需重新訓(xùn)練整個系統(tǒng),顯著減少產(chǎn)線停機時間和系統(tǒng)改造成本。
2. 實驗室與高價值操作:提高單任務(wù)價值密度
在樣品處理、工具使用和多步驟操作等高價值場景中,SaiVLA-0的高頻控制閉環(huán)與ROI機制能夠提升手-物交互的穩(wěn)定性,使機器人能夠執(zhí)行更精細、更可重復(fù)的操作,從而提升自動化替代人工的經(jīng)濟價值。
3. 具身智能平臺與研發(fā)市場:降低系統(tǒng)研發(fā)成本
在需要頻繁更換機器人本體或傳感器配置的研發(fā)環(huán)境中(如不同機械臂、移動底盤、雙臂系統(tǒng)或不同相機布局),SaiVLA的三系統(tǒng)解耦架構(gòu)能夠?qū)崿F(xiàn)跨平臺快速遷移,僅需調(diào)整局部模塊即可完成適配,顯著降低研發(fā)、維護與系統(tǒng)集成成本。
開源與獲取
賽索德智能已將SaiVLA-0的代碼、模型權(quán)重、技術(shù)論文開源,可通過官網(wǎng),項目網(wǎng)站,論文等渠道獲取。
無論你是機器人領(lǐng)域的研究者、開發(fā)者,還是產(chǎn)業(yè)應(yīng)用方,都可以基于SaiVLA-0快速構(gòu)建自己的具身智能系統(tǒng),并針對具體場景進行高效微調(diào)。
轉(zhuǎn)自:中華網(wǎng)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀