當前位置首頁 > 中國制造 > 企業(yè) >

智源研究院發(fā)布悟界Emu3.5，開啟多模態(tài)世界大模型新紀元

中國產業(yè)經濟信息網時間：2025-10-31

　　2025年10月30日，智源研究院在北京舉辦“悟界?Emu系列技術交流會”，智源研究院院長王仲遠、多模態(tài)大模型負責人王鑫龍，發(fā)布了Emu3.5多模態(tài)世界大模型。這項工作的發(fā)布開啟了人工智能從語言學習向多模態(tài)世界學習演進的新紀元，率先指明了多模態(tài)Scaling的新范式。而Emu作為“悟界”系列模型的重要組成部分，標志著AI正加速從數(shù)字世界邁向物理世界的關鍵一步。

　　2024年10月，智源研究院發(fā)布了全球首個原生多模態(tài)世界模型Emu3，該模型只基于下一個token預測，無需擴散模型或組合方法，實現(xiàn)圖像、文本、視頻的大一統(tǒng)。模型一經上線便在技術社區(qū)引發(fā)了熱議。

　　一年后，智源發(fā)布Emu3.5，在“Next-Token Prediction”范式的基礎上，模擬人類自然學習方式，以自回歸架構實現(xiàn)了對多模態(tài)序列的“Next-State Prediction (NSP)”，獲得了可泛化的世界建模能力。

　　王仲遠表示：“通過Emu3我們驗證了自回歸架構實現(xiàn)多模態(tài)理解與生成大一統(tǒng)的可行性，Emu3.5則開啟了多模態(tài) Scaling 的新時代。更重要的是，它為通往更通用的、能夠理解并與物理世界交互的通用人工智能，提供了一條堅實的、可度量的實踐路徑?！?/p>

　　Emu3.5在超過10萬億token的大規(guī)模多模態(tài)數(shù)據基礎上展開訓練，其視頻數(shù)據訓練量時長實現(xiàn)從15年到790年的躍升，參數(shù)量從8B上升至34B，揭示了原生多模態(tài)Scaling范式。其推理時，創(chuàng)新性地提出“離散擴散自適應”（Discrete Diffusion Adaptation，DiDA）技術，這一高效的混合推理預測方法，可以在不犧牲性能的前提下，將每張圖片的推理速度提升了近20倍，首次使自回歸模型的生成效率媲美頂尖的閉源擴散模型。

　　王鑫龍介紹：“EMU3.5突破了原生多模態(tài)的大規(guī)模預訓練、大規(guī)模強化學習和高效推理，指出了多模態(tài)世界模型的一種簡單易擴展的Scaling范式?！?/p>

　　EMU3.5模型開始具備學習現(xiàn)實世界物理動態(tài)與因果的能力，為探索通用世界模型奠定了堅實的基礎。它具備三大重要特點。一是從意圖到規(guī)劃，模型能夠理解高層級的人類意圖（如“如何制作一艘宇宙飛船”“如何做咖啡拉花”），并自主生成詳細、連貫的多步驟行動路徑。二是動態(tài)世界模擬，模型在統(tǒng)一框架內無縫融合了對世界的理解、規(guī)劃與模擬，能夠預測物理動態(tài)、時空演化和長時程因果關系。三是可成為泛化交互基礎：其涌現(xiàn)出的因果推理和規(guī)劃能力，為AI與人類及物理環(huán)境進行泛化交互（如具身操控）提供了關鍵的認知基礎。

　　這些特點這讓新一代世界模型具備從“理解”到“行動”的全面智能能力，可生成行動指南、進行圖文編輯，并且同時具備物理直覺可開展多場景的探索。

Emu3.5能以精準可控的方式完成文圖生成

展現(xiàn)出基于視覺理解的圖像生成能力

Emu3.5的多模態(tài)指導能力：輸入“如何做芹菜餃子”，模型輸出有步驟的圖文指導

　　Emu3.5在多模態(tài)指導中展現(xiàn)出卓越的時序一致性與步驟推理能力，讓復雜任務的執(zhí)行過程一目了然。多模態(tài)敘事能力上，Emu 3.5能圍繞任意主題生成沉浸式的故事體驗，釋放無限想象力。此外模型可實現(xiàn)跨場景的具身操作，具備泛化的動作規(guī)劃與復雜交互能力，并能在世界探索中保持長距離一致性與可控交互，兼顧真實與虛擬的動態(tài)環(huán)境，實現(xiàn)自由探索與精準控制。