智源研究院發(fā)布悟界Emu3.5,開啟多模態(tài)世界大模型新紀元


中國產業(yè)經濟信息網   時間:2025-10-31





  2025年10月30日,智源研究院在北京舉辦“悟界?Emu系列技術交流會”,智源研究院院長王仲遠、多模態(tài)大模型負責人王鑫龍,發(fā)布了Emu3.5多模態(tài)世界大模型。這項工作的發(fā)布開啟了人工智能從語言學習向多模態(tài)世界學習演進的新紀元,率先指明了多模態(tài)Scaling的新范式。而Emu作為“悟界”系列模型的重要組成部分,標志著AI正加速從數(shù)字世界邁向物理世界的關鍵一步。

  2024年10月,智源研究院發(fā)布了全球首個原生多模態(tài)世界模型Emu3,該模型只基于下一個token預測,無需擴散模型或組合方法,實現(xiàn)圖像、文本、視頻的大一統(tǒng)。模型一經上線便在技術社區(qū)引發(fā)了熱議。

  一年后,智源發(fā)布Emu3.5,在“Next-Token Prediction”范式的基礎上,模擬人類自然學習方式,以自回歸架構實現(xiàn)了對多模態(tài)序列的“Next-State Prediction (NSP)”,獲得了可泛化的世界建模能力。

  王仲遠表示:“通過Emu3我們驗證了自回歸架構實現(xiàn)多模態(tài)理解與生成大一統(tǒng)的可行性,Emu3.5則開啟了多模態(tài) Scaling 的新時代。更重要的是,它為通往更通用的、能夠理解并與物理世界交互的通用人工智能,提供了一條堅實的、可度量的實踐路徑?!?/p>

  Emu3.5在超過10萬億token的大規(guī)模多模態(tài)數(shù)據基礎上展開訓練,其視頻數(shù)據訓練量時長實現(xiàn)從15年到790年的躍升,參數(shù)量從8B上升至34B,揭示了原生多模態(tài)Scaling范式。其推理時,創(chuàng)新性地提出“離散擴散自適應”(Discrete Diffusion Adaptation,DiDA)技術,這一高效的混合推理預測方法,可以在不犧牲性能的前提下,將每張圖片的推理速度提升了近20倍,首次使自回歸模型的生成效率媲美頂尖的閉源擴散模型。

  王鑫龍介紹:“EMU3.5突破了原生多模態(tài)的大規(guī)模預訓練、大規(guī)模強化學習和高效推理,指出了多模態(tài)世界模型的一種簡單易擴展的Scaling范式?!?/p>

  EMU3.5模型開始具備學習現(xiàn)實世界物理動態(tài)與因果的能力,為探索通用世界模型奠定了堅實的基礎。它具備三大重要特點。一是從意圖到規(guī)劃,模型能夠理解高層級的人類意圖(如“如何制作一艘宇宙飛船”“如何做咖啡拉花”),并自主生成詳細、連貫的多步驟行動路徑。二是動態(tài)世界模擬,模型在統(tǒng)一框架內無縫融合了對世界的理解、規(guī)劃與模擬,能夠預測物理動態(tài)、時空演化和長時程因果關系。三是可成為泛化交互基礎:其涌現(xiàn)出的因果推理和規(guī)劃能力,為AI與人類及物理環(huán)境進行泛化交互(如具身操控)提供了關鍵的認知基礎。

  這些特點這讓新一代世界模型具備從“理解”到“行動”的全面智能能力,可生成行動指南、進行圖文編輯,并且同時具備物理直覺可開展多場景的探索。

Emu3.5能以精準可控的方式完成文圖生成

展現(xiàn)出基于視覺理解的圖像生成能力

Emu3.5的多模態(tài)指導能力:輸入“如何做芹菜餃子”,模型輸出有步驟的圖文指導

  Emu3.5在多模態(tài)指導中展現(xiàn)出卓越的時序一致性與步驟推理能力,讓復雜任務的執(zhí)行過程一目了然。多模態(tài)敘事能力上,Emu 3.5能圍繞任意主題生成沉浸式的故事體驗,釋放無限想象力。此外模型可實現(xiàn)跨場景的具身操作,具備泛化的動作規(guī)劃與復雜交互能力,并能在世界探索中保持長距離一致性與可控交互,兼顧真實與虛擬的動態(tài)環(huán)境,實現(xiàn)自由探索與精準控制。

Emu 3.5能圍繞任意主題生成沉浸式的體驗,上面是宇航員在探索中遇到皮卡丘的故事

只需一句“疊衣服”的簡單指令,Emu3.5便能自主規(guī)劃、拆解任務,并精確生成機器人完成一整套復雜的折疊動作

Emu3.5能夠完成復雜的圖文編輯任務:進行時空變換后,依舊保持物體與場景的高度一致

  同時,圖文編輯方面,它既能通過自然語言實現(xiàn)任意指令的圖片編輯與時空變換,也能以精準、智能、可控且富有創(chuàng)意的方式完成文圖生成,讓文字與視覺內容的融合更加自然與高保真。在基準測試中,Emu3.5的表現(xiàn)超越了眾多知名的閉源模型。

  王仲遠總結,以第一性原理看大模型未來,我們相信AI的下一次躍遷,將來自模型對現(xiàn)實世界的深層表征與可泛化行動指導的能力。我們期待與更多科研機構與產業(yè)伙伴一起,開創(chuàng)多模態(tài)世界大模型新范式,探索通往AGI的演進之路。


  轉自:中國財富網

  【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業(yè)經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權所有:中國產業(yè)經濟信息網京ICP備11041399號-2京公網安備11010502035964