當(dāng)前位置首頁 > 中國制造 > 企業(yè) >

賽索德SaiVLA-0：全球首個三系統(tǒng)VLA，機器人操控成功率達99%

中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng) 時間：2026-03-18

具身智能領(lǐng)域的VLA模型正在從“單任務(wù)模仿學(xué)習(xí)”走向通用機器人基礎(chǔ)模型。但一個根本問題始終存在：如何讓機器人在理解復(fù)雜語義的同時，還能實現(xiàn)高速、精準(zhǔn)、穩(wěn)定的物理控制？

傳統(tǒng)端到端VLA將視覺語言理解與動作輸出全部塞進一個大模型，導(dǎo)致訓(xùn)練成本高、遷移困難、實時性難以保證。今天，賽索德智能給出了一個新答案——SaiVLA-0，一個受神經(jīng)科學(xué)啟發(fā)的三系統(tǒng)架構(gòu)VLA，并已開源模型權(quán)重與調(diào)用。

在具身智能的頂級基準(zhǔn)LIBERO上，SaiVLA-0以99.0%的平均成功率刷新榜單，推理延遲僅約40ms，接近該基準(zhǔn)的性能上限。

核心亮點：一組數(shù)據(jù)讀懂SaiVLA-0的硬實力

在深入技術(shù)細節(jié)之前，先看幾組關(guān)鍵數(shù)據(jù)，直接感受它的行業(yè)突破性：

成功率拉滿：在公開長時序機器人操作基準(zhǔn)LIBERO上，平均成功率達99.0%，登頂全球公開榜單（evomind；VLA-Leaderboard），無限接近該基準(zhǔn)的性能上限；

速度夠快：推理時延低至~40ms，實現(xiàn)高頻閉環(huán)控制，應(yīng)對連續(xù)多步驟操作穩(wěn)如磐石；

落地高效：通過分離訓(xùn)練+特征緩存，訓(xùn)練效率提升67%；升級、遷移無需重構(gòu)系統(tǒng)，大幅降低產(chǎn)線停機與研發(fā)成本；

開放模型權(quán)重：模型、論文、項目網(wǎng)站全部公開，開發(fā)者可直接上手調(diào)試，加速具身智能落地進程。

兩條技術(shù)路線：通用大腦 vs 具身操作系統(tǒng)

當(dāng)前具身智能領(lǐng)域正在分化出兩種代表性方向：

一類以Skild AI為代表，致力于構(gòu)建跨本體的通用機器人基礎(chǔ)模型，希望通過一個統(tǒng)一的“機器人通用大腦”實現(xiàn)不同機器人之間的能力共享與遷移。

另一類則更面向真實產(chǎn)業(yè)落地，關(guān)注如何在復(fù)雜多變的工業(yè)環(huán)境中實現(xiàn)高效訓(xùn)練、快速適配與穩(wěn)定交付。賽索德智能的SaiVLA正是這一路徑的典型代表。

在真實工業(yè)場景中，不同工位、物料、夾具甚至機器人本體之間存在大量差異，單一通用策略模型很難直接覆蓋所有任務(wù)。更可行的范式是圍繞具體任務(wù)持續(xù)訓(xùn)練與迭代策略，并通過架構(gòu)解耦實現(xiàn)跨本體遷移與快速部署。

SaiVLA-0的出現(xiàn)，正是瞄準(zhǔn)這一痛點：不追求“萬能通用”，而是通過架構(gòu)解耦，讓機器人既能保持高性能，又能快速適配不同場景、不同本體，真正貼合工業(yè)落地需求。

簡單來說，如果Skild AI是在構(gòu)建機器人的“通用大腦”，那么SaiVLA正在構(gòu)建面向真實工業(yè)世界的具身智能操作系統(tǒng)——一種能夠在跨本體機器人平臺上持續(xù)訓(xùn)練、快速適配并實現(xiàn)規(guī)?；虡I(yè)交付的工業(yè)級具身智能范式。

技術(shù)拆解：三系統(tǒng)架構(gòu)，重構(gòu)VLA的“分工邏輯”

SaiVLA-0的核心突破，在于將傳統(tǒng)VLA的“單體端到端”架構(gòu)，重構(gòu)為類神經(jīng)科學(xué)的Cerebrum–Pons–Cerebellum（大腦-橋腦-小腦）三系統(tǒng)，實現(xiàn)“語義理解、表征編譯、實時執(zhí)行”的解耦，讓每個模塊各司其職、協(xié)同發(fā)力。

1.大腦（Cerebrum）：

相當(dāng)于機器人的“決策大腦”，采用凍結(jié)的大模型語義中樞，負責(zé)理解人類的語義意圖（比如“拾取這個零件”“裝配這個組件”），提供穩(wěn)定的多模態(tài)先驗。

不輕易改動，避免因語義模塊升級導(dǎo)致整個系統(tǒng)不穩(wěn)定，為后續(xù)的動作執(zhí)行提供可靠的“指令基礎(chǔ)”。

2.橋腦（Pons Adapter）：

大腦輸出的是“語義意圖”（比如“拾取”），但機器人執(zhí)行需要“可操作指令”。橋腦的作用，就是把抽象的語義意圖，壓縮、重編碼成機器人能看懂的“可執(zhí)行上下文tokens”，相當(dāng)于打通“想法”與“動作”的橋梁。

核心優(yōu)勢：可單獨訓(xùn)練——當(dāng)升級語義模型（大腦）時，不用重構(gòu)整個系統(tǒng)，只需重新訓(xùn)練橋腦，大幅降低升級成本。

3.小腦（Cerebellum/ParaCAT）

相當(dāng)于機器人的“手腳控制器”，負責(zé)實時執(zhí)行動作，采用高頻運行模式，確保操控的低時延與穩(wěn)定性。

這里有兩個關(guān)鍵設(shè)計，直接決定了它的高性能：

并行分類動作頭ParaCAT：通過并行解碼快速生成多步動作決策，還加入了多種穩(wěn)定機制，避免動作抖動，比傳統(tǒng)方式推理速度大幅提升，這也是它能實現(xiàn)~40ms低時延的核心原因；

幾何綁定ROI（腕部視野）：聚焦機器人末端執(zhí)行器（相當(dāng)于“手腕”），對細微的姿態(tài)變化、接觸動作更敏感，哪怕出現(xiàn)輕微偏差，也能快速調(diào)整，確保精細操作的穩(wěn)定性。這一設(shè)計在需要精細操作的場景（如插孔、裝配）中表現(xiàn)出顯著優(yōu)勢。

此外，賽索德智能還提出了一套新的評測指標(biāo)：計算歸一化成功率（compute-normalized success）。

傳統(tǒng)VLA評測往往只看成功率，忽略實時性和算力成本。SaiVLA將語義模塊（Cerebrum）的一次調(diào)用成本與執(zhí)行模塊（Cerebellum）的每步推理成本分別統(tǒng)計，使系統(tǒng)性能能夠在成功率、時延與計算開銷之間進行統(tǒng)一衡量。

這意味著，“更高成功率”不再以犧牲實時性或算力為代價，而是可以同時追求效率—性能協(xié)同優(yōu)化。

實驗結(jié)果：LIBERO 99.0%成功率，真實環(huán)境驗證

SaiVLA-0在公開長時序機器人操作基準(zhǔn)LIBERO上取得了99.0%的平均成功率，截止目前在全球公開榜單（evomind/VLA-Leaderboard）中與相關(guān)模型相比達到了最高成功率，并接近該基準(zhǔn)的性能上限。

與此同時，在真實機器人環(huán)境中的多項操作任務(wù)上，SaiVLA-0也表現(xiàn)出高度穩(wěn)定的執(zhí)行能力，能夠可靠地完成連續(xù)多步驟操作。這一結(jié)果表明，SaiVLA-0不僅在標(biāo)準(zhǔn)化評測中取得突破，也展現(xiàn)出向真實世界任務(wù)遷移的強泛化能力，為機器人在真實環(huán)境中的長期自主操作奠定了重要基礎(chǔ)。

商業(yè)優(yōu)勢：為真實產(chǎn)業(yè)場景而生

對企業(yè)來說，SaiVLA-0的核心價值，不止是“99%的成功率”，更是“可落地、可復(fù)用、低成本”。它的三系統(tǒng)解耦架構(gòu)，能精準(zhǔn)適配三大核心場景，直接解決行業(yè)落地痛點：

1. 制造與物流：降低自動化改造成本

在多工位、多SKU的柔性操作場景（如拾取、放置、裝配、分揀）中，SaiVLA-0通過三系統(tǒng)架構(gòu)解耦視覺理解與動作控制。當(dāng)更換夾具、料盤、相機標(biāo)定或控制接口時，僅需調(diào)整局部模塊即可完成適配，無需重新訓(xùn)練整個系統(tǒng)，顯著減少產(chǎn)線停機時間和系統(tǒng)改造成本。

2. 實驗室與高價值操作：提高單任務(wù)價值密度

在樣品處理、工具使用和多步驟操作等高價值場景中，SaiVLA-0的高頻控制閉環(huán)與ROI機制能夠提升手-物交互的穩(wěn)定性，使機器人能夠執(zhí)行更精細、更可重復(fù)的操作，從而提升自動化替代人工的經(jīng)濟價值。

3. 具身智能平臺與研發(fā)市場：降低系統(tǒng)研發(fā)成本

在需要頻繁更換機器人本體或傳感器配置的研發(fā)環(huán)境中（如不同機械臂、移動底盤、雙臂系統(tǒng)或不同相機布局），SaiVLA的三系統(tǒng)解耦架構(gòu)能夠?qū)崿F(xiàn)跨平臺快速遷移，僅需調(diào)整局部模塊即可完成適配，顯著降低研發(fā)、維護與系統(tǒng)集成成本。

開源與獲取

賽索德智能已將SaiVLA-0的代碼、模型權(quán)重、技術(shù)論文開源，可通過官網(wǎng)，項目網(wǎng)站，論文等渠道獲取。

無論你是機器人領(lǐng)域的研究者、開發(fā)者，還是產(chǎn)業(yè)應(yīng)用方，都可以基于SaiVLA-0快速構(gòu)建自己的具身智能系統(tǒng)，并針對具體場景進行高效微調(diào)。

　　轉(zhuǎn)自：中華網(wǎng)

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個人觀點，不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系：010-65363056。

延伸閱讀

熱點視頻

科技賦能玫瑰產(chǎn)業(yè)升級校企合作共筑鄉(xiāng)村振興新篇章

熱點新聞

賽索德SaiVLA-0：全球首個三系統(tǒng)VLA，機器人操控成功率達99%

熱點視頻

熱點新聞

微信公眾號