2024年2月16日凌晨,OpenAI發(fā)布了“文生視頻”(text-to-video)工具Sora,在全世界引發(fā)“科技海嘯”。
不同語言的人們在全球的社交媒體上驚呼:現(xiàn)實(shí),已被顛覆。
多日以來,圍繞Sora的討論不絕于耳,或欣喜激動,多擔(dān)憂緊張。從股市到好萊塢,從國內(nèi)大咖到國際頂尖專家,都做出了不同程度的反應(yīng)。本文將為您詳細(xì)盤點(diǎn)。
01
Sora有何魅力?
Sora一經(jīng)發(fā)布就席卷全球,更在龍年首個(gè)交易日在A股掀起AI熱潮。
同花順App顯示,截至2月19日收盤,人工智能板塊漲6.30%。多支Sora相關(guān)概念股上漲,其中,當(dāng)虹科技、因賽集團(tuán)、萬興科技等股價(jià)漲停。
作為開年AI王炸,Sora到底是什么?
Sora是OpenAI發(fā)布的文生視頻模型。它能夠按照用戶輸入的提示詞、文本指令或靜態(tài)圖像,來創(chuàng)造出長達(dá)一分鐘的逼真且充滿想象力的視頻場景。視頻不僅邏輯性和連貫性極佳,還能實(shí)現(xiàn)多角度鏡頭的自然切換。
在發(fā)布中,OpenAI展示了Sora文本生成的視頻:

△Sora生成視頻截圖
而該視頻的文本僅有幾句話:
一位時(shí)尚的女人走在東京的街道上,街道上到處都是溫暖的發(fā)光霓虹燈和動畫城市標(biāo)志。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個(gè)黑色錢包。她戴著墨鏡,涂著紅色口紅。她自信而隨意地走路。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動。
眾多媒體人表示,Sora的推出對于視頻內(nèi)容的制作方式可能帶來革命性的變化,相比較目前的AI視頻制作,Sora具有顛覆性特點(diǎn):
文本到視頻的轉(zhuǎn)換:用戶只需提供文字、圖片描述,Sora就能將這些描述轉(zhuǎn)化為具體的視頻內(nèi)容,極大地簡化了視頻制作流程。
視頻質(zhì)量和逼真度更高:Sora生成的視頻內(nèi)容分辨率高、畫面流暢,視頻效果不輸業(yè)內(nèi)專業(yè)人士的制作。
長時(shí)間視頻生成:相比其他模型,Sora可以生成長達(dá)一分鐘的視頻。要知道,Sora的競爭對手Runway去年8月推出的第二代模型,每次還只能生成最高18秒的視頻。
時(shí)空一致性:根據(jù)Sora演示來看,即便對視頻進(jìn)行擴(kuò)展,它也能夠賦予模型“前瞻性”,確保視頻主題在畫幅外也能保持不變,達(dá)到更符合邏輯的時(shí)空一致性。
Sora的制作團(tuán)隊(duì)有多年輕?
除了超強(qiáng)的文本視頻生成能力,Sora的年輕化制作團(tuán)隊(duì)也引發(fā)關(guān)注。
據(jù)悉,Sora兩位主要負(fù)責(zé)人Tim Brooks和William (Bill) Peebles都在2023年剛剛博士畢業(yè)。
Tim Brooks,DALL-E 3作者之一,GitHub 5.7k星項(xiàng)目InstructPix2Pix作者,2021-2022年在英偉達(dá)實(shí)習(xí)時(shí),就是視頻生成研究的項(xiàng)目負(fù)責(zé)人。

William (Bill) Peebles,和謝賽寧合作,創(chuàng)作出了Sora的技術(shù)基礎(chǔ)之一DiT(擴(kuò)散Transformer),論文還曾入圍CVPR 2022最佳論文候選。

00后選手和多位華人也讓Sora的隊(duì)伍充滿了多元化。團(tuán)隊(duì)中的“00后”Will DePue,2022年從密西根大學(xué)計(jì)算機(jī)系本科畢業(yè)。他在高中時(shí)候就已經(jīng)參與了很多項(xiàng)目開發(fā),并成立了自己的公司。2023年7月,其加入OpenAI,2024年1月加入Sora項(xiàng)目組。

Sora項(xiàng)目組中的華人Li Jing是DALL-E 3的共同一作,2014年本科畢業(yè)于北京大學(xué)物理系,2019年獲得MIT物理學(xué)博士學(xué)位,2022年加入OpenAI。

華人作者中還有Ricky Wang,今年一月剛剛從Meta/Instagram跳槽到OpenAI。

另外兩位Yufei Guo、Clarence Ng還未公開資料。
正是這樣一支年輕化隊(duì)伍打磨的文生視頻APP,剛上線就引發(fā)好萊塢等影視行業(yè)的震驚。
02
Sora出現(xiàn),將打破視頻制作壁壘
Sora的騰空出世,給影視行業(yè)帶來史詩級變革。
與國內(nèi)大A不同的是,Sora發(fā)布后,幾家美國科技公司的股價(jià)應(yīng)聲跌落。Adobe股價(jià)暴跌超7%;美國圖片庫、圖片素材、Shutterstock跌超5%;Lumiere的谷歌母公司股價(jià)下挫1.58%。
影像創(chuàng)意行業(yè)認(rèn)為Sora生成的視頻質(zhì)量足以縮短電影拍攝周期,電影生產(chǎn)方式本身的高壁壘和獨(dú)斷性將會被打破。
AI產(chǎn)品“奇襲”,引發(fā)影視制作行業(yè)緊張和擔(dān)憂。
實(shí)際上在2023年,好萊塢就曾進(jìn)行了長達(dá)半年的罷工。原因之一是巨頭們有意使用AI取代一部分編劇的工作,此次罷工被認(rèn)為是人類抵抗AI威脅的首次集體行動。
雖然好萊塢罷工已經(jīng)平息,AI產(chǎn)品改變影視制作仍有眾多需要改進(jìn)的環(huán)節(jié),但年初發(fā)布的Sora指數(shù)級飛躍速度再次讓人們陷入擔(dān)憂。
電影導(dǎo)演兼視覺效果專家邁克爾·格雷西表示:“看看我們在圖像生成的一年里取得了什么進(jìn)展。一年后我們會在哪里?”
《綜藝》評論稱“自從上周OpenAI發(fā)布文本生成視頻模型Sora以來,人們對于這種AI功能的預(yù)測越來越‘惶恐’,畢竟與之前的同類工具相比,OpenAI似乎帶來巨大的飛躍”。Sora是迄今為止最令人印象深刻的視頻生成模型之一,其“現(xiàn)實(shí)主義效果”將有望在高端娛樂中發(fā)揮作用。
《人工智能革命:超級智能之路》的作者、著名科技作家蒂姆·厄本據(jù)此預(yù)測:“21世紀(jì)將實(shí)現(xiàn)20世紀(jì)1000倍的進(jìn)步?!?/p>
而正在舉行的柏林電影節(jié)上,Sora也成為電影人熱議的話題。
洛杉磯導(dǎo)演戴夫·克拉克(Dave Clark)認(rèn)為:創(chuàng)作者需要接受人工智能技術(shù)來制作尚未想象或?qū)崿F(xiàn)的內(nèi)容,而不是感到威脅。
德國視覺特效工作室Trixter董事總經(jīng)理克里斯蒂娜·卡斯珀斯-羅默(Christina Caspers-Roemer)則表示,像Sora這樣的人工智能工具被證明在工作流程中更高效、更快。
Sora在視頻生成領(lǐng)域的優(yōu)越能力為塑造影視產(chǎn)業(yè)業(yè)態(tài)開啟了新方式,或許在未來,特效師、高難度動作、科幻題材、大場面制作只要幾行字就能打造出恢宏場景,相關(guān)行業(yè)更是將其稱之為“潘多拉魔盒”。
因此,眾多行業(yè)專家也紛紛下場預(yù)測Sora未來應(yīng)運(yùn)前景。
03
Sora狂飆,未來前景將如何發(fā)展?
在游戲行業(yè),Share Creators創(chuàng)始人兼CEO Ada Liu認(rèn)為,視頻生成帶來的改變將是“跨時(shí)代”的?!霸谟螒蛐袠I(yè), AI可以幫助生成前期的概念圖,UI icon等。計(jì)算機(jī)圖形制作的流程非常長,從3D制作,到渲染、合成,每個(gè)環(huán)節(jié)都需要投入大量專業(yè)的人員。尤其在風(fēng)格探索階段,如果直接生產(chǎn)出視頻,相當(dāng)于直接跳到最后一步,節(jié)省了大量的制作時(shí)間和成本?!?/p>
在影視制作行業(yè),Sora發(fā)布之初,周鴻祎就預(yù)言Sora“可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大的顛覆,但它不一定那么快擊敗TikTok,更可能成為TikTok的創(chuàng)作工具”。
中國社會科學(xué)院法學(xué)研究所副研究員唐林垚表示:“如果Sora的能力真如官方公布一樣強(qiáng)大,且之后可以像ChatGPT一樣便捷訪問,那么Sora將給廣告行業(yè)、影視行業(yè)和特效行業(yè)帶來極大的沖擊?!?/p>
對AI產(chǎn)業(yè),IDC中國研究總監(jiān)盧言霞表示:Sora的發(fā)布,以及后續(xù)科技巨頭的跟進(jìn),有望對AI產(chǎn)業(yè)帶來再一輪爆發(fā)式的增長。
雖然Sora在全球掀起了驚濤駭浪,但是其細(xì)節(jié)和邏輯還有一些瑕疵。根據(jù)Sora 生成的人類考古視頻,椅子在畫面中憑空出現(xiàn),而且不受重力影響飄浮在空中。

△Sora生成視頻截圖
對此,AI圈大佬對于Sora的物理引擎提出了新的問題:Sora到底懂不懂物理世界?
圖靈獎(jiǎng)得主 Yann LeCun表示Sora生成視頻的過程與基于世界模型的因果預(yù)測完全不同,更理想的做法是生成視頻后續(xù)內(nèi)容的抽象表達(dá),并消除與我們可能所采取動作無關(guān)的場景中的細(xì)節(jié)。
Keras 之父 Fran?ois Chollet 則闡述了更細(xì)致的觀點(diǎn)。他認(rèn)為,像 Sora 這樣的視頻生成模型確實(shí)嵌入了「物理模型」,但問題是:這個(gè)物理模型是否準(zhǔn)確?它能否泛化到新的情況,即那些不僅僅是訓(xùn)練數(shù)據(jù)插值的情形?
Chollet 表示以上問題至關(guān)重要,因?yàn)樗鼈儧Q定了生成圖像的應(yīng)用范圍 —— 是僅限于媒體生產(chǎn),還是可以用作現(xiàn)實(shí)世界的可靠模擬。
針對Sora的弱點(diǎn),知名 AI 學(xué)者、Meta AI 研究科學(xué)家田淵棟認(rèn)為Sora 是否有潛力學(xué)到精確的物理(當(dāng)然現(xiàn)在還沒有),其背后的關(guān)鍵問題是:為什么像「預(yù)測下一個(gè) token」或「重建」這樣簡單的思路會產(chǎn)生如此豐富的表示?
其并提出建議:為了更好地理解事物,我們確實(shí)需要揭開 Transformers 的黑匣子,檢查給定反向傳播的訓(xùn)練動態(tài),以及如何學(xué)習(xí)隱藏的特征結(jié)構(gòu),并探索如何進(jìn)一步改進(jìn)學(xué)習(xí)過程。
04
其實(shí)類似的文生視頻模型也早有端倪。例如谷歌的VideoPoet,能夠執(zhí)行包括文本到視頻、圖像到視頻、視頻風(fēng)格化等操作;Meta的Emu Video,能夠基于文本和圖像輸入生成視頻剪輯;Runway的Gen2不僅解決了AI生成視頻中每幀之間連貫性過低的問題,在從圖像生成視頻的過程中也能給出很好的結(jié)果,因此還被稱為“AI視頻界的MidJourney”;以及文生視頻軟件Pika,也在推出之初就引發(fā)了AI視頻的應(yīng)用熱潮。
可以說Sora的出現(xiàn)受傷最大的是友商。Sora發(fā)布后,Runway的CEO克里斯托瓦爾·巴倫蘇埃拉在X平臺上給出了一個(gè)簡短的宣言:“Game On(比賽開始了)。”
Sora的出現(xiàn),點(diǎn)亮了人們對影視行業(yè)未來發(fā)展的展望,用小說生成電視劇,人人做導(dǎo)演或許將在未來變成可能。
但在視頻生成技術(shù)廣泛使用和 AI模型層出不窮的背景下,Sora想要克服物理邏輯,并且實(shí)現(xiàn)AI模型的透明度和可解釋性,可能還要“再飛一會”......
關(guān)于瑞承
瑞承作為專為高凈值人士、企業(yè)家群體提供服務(wù)的品牌,致力于圍繞企業(yè)家客戶群體的“企、傳、投”需求提供綜合咨詢服務(wù)解決方案。
長期深耕企業(yè)家“企、傳、投”服務(wù),通過多年資產(chǎn)配置能力、科技能力、國際化能力和綜合服務(wù)能力的持續(xù)建設(shè),為客戶在資產(chǎn)配置、家族傳承、企業(yè)發(fā)展與提升、品質(zhì)生活、公益金融等方面提供全方位服務(wù),長期陪伴企業(yè)家客戶的企業(yè)、個(gè)人和家庭成長,奔赴更加美好的事業(yè)與生活。
參考信息:
1、全網(wǎng)刷屏的Sora,有多可怕?
2、Sora火爆全網(wǎng) 相關(guān)股掀漲停潮
3、Sora爆火48小時(shí):楊立昆揭秘論文,參數(shù)量或僅30億
4、Sora到底懂不懂物理世界?一場頭腦風(fēng)暴正在AI圈大佬間展開
5、Sora“轟炸”影視圈,普通人的風(fēng)口來了
6、Sora讓好萊塢緊張了!
7、引爆A股的Sora,到底是啥?一文看懂
8、全網(wǎng)刷屏的Sora,有多可怕?
9、爆火的Sora,摩拳擦掌的出海人
10、IDC:Sora正式發(fā)布前、多模態(tài)大模型爆發(fā)前夜的十大思考
轉(zhuǎn)自:中國網(wǎng)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀