游戲評測

推廣

Sora冷靜期后，我們更關(guān)心AI+XR的組合能夠帶來什么

發(fā)布時(shí)間：2024-03-07 15:05 | 標(biāo)簽： AI XR AIGC Sora 智能硬件

微信掃一掃：分享

微信里點(diǎn)“發(fā)現(xiàn)”，掃一下
二維碼便可將本文分享至朋友圈

文/VR陀螺

不可否認(rèn)的是，OpenAI總能創(chuàng)造爆款。

趕在中國農(nóng)歷春節(jié)假期結(jié)束前，OpenAI又一次在社交媒體上投下了一顆重磅炸彈。新的人工智能系統(tǒng)Sora的出現(xiàn)宣告著現(xiàn)代內(nèi)容的創(chuàng)建方式徹底改變。

圖源：Sora

根據(jù)OpenAI的說法，Sora不僅可以文本提示生成時(shí)長達(dá)一分鐘的視頻，還能通過靜止圖像生成視頻，或者通過擴(kuò)展現(xiàn)有視頻或通過生成缺失的幀來填補(bǔ)視頻中的空白。

雖然該模型目前僅在申請內(nèi)測階段，但從國內(nèi)外社交媒體的反應(yīng)以及官方提供的實(shí)例來看，Sora生成的視頻無論是在質(zhì)量還是可靠性上都超越了該領(lǐng)域的“前輩們”，展現(xiàn)出成為下一個(gè)ChatGPT的強(qiáng)勁勢頭。

這固然有部分炒作的成分在，但不可否認(rèn)的是，Sora的爆火現(xiàn)象的背后是人們對于信息革命之后第四次重大技術(shù)變革的全民狂歡，“多模態(tài)真人工智能”進(jìn)化的又一個(gè)里程碑出現(xiàn)在了2024開年。

現(xiàn)實(shí)與虛擬的邊界已被成功混淆

在 Sora 及其技術(shù)報(bào)告推出后，OpenAI幾段長達(dá) 60 秒，高清晰度且畫面可控、能多角度切換的高水平效果視頻就在國內(nèi)外社交媒體上瘋傳。

在Sora的魔法下，人們第一次知道AI生成的視頻原來還可以這么逼真。

即使融入紀(jì)錄片也毫無違和感（圖源：Sora）

要知道，2023年AI的視頻生成效果還是這樣的：

真實(shí)但顯然視頻對象靈活性欠佳（圖源：Pika）

僅僅過去幾個(gè)月時(shí)間，文本生成視頻技術(shù)實(shí)現(xiàn)了從5秒到60秒，從卡通動(dòng)畫到紀(jì)錄片畫質(zhì)的飛躍，這放誰身上不汗流浹背。

逼真的視覺效果以及“未來已來”的社交媒體病毒式營銷使得Sora成為2024年初AI領(lǐng)域最為破圈的存在，風(fēng)頭甚至蓋過了幾乎同一時(shí)間發(fā)布的Gemini 1.5，一時(shí)間無論是娛樂版塊還是科技板塊都充斥著Sora的身影。

一年前，一段由 AI 生成威爾?史密斯吃面的視頻在網(wǎng)絡(luò)上大火，僅在Twitter上該視頻的播放量就突破了 800 萬。

一年后，威爾史密斯于Sora刷屏后在自己的INS上上傳了一則視頻，并附文“越來越失控了”。

可以看到，視頻畫面分為上下兩段：上半段顯示是一年以前的 AI 視頻，下半段則顯示現(xiàn)在的 AI 視頻。

圖源：X

雖然大家很快就發(fā)現(xiàn)這只是威爾?史密斯在玩梗，視頻下半段并不是AI生成，而是他自己錄的，但還是有不少網(wǎng)友大呼受騙：“最令人毛骨悚然的是，你無法判斷這是表演還是人工智能生成的。”

這也從側(cè)面證明Sora的出現(xiàn)使得人們開始相信視頻生成AI能夠以假亂真，AI代替視頻剪輯的時(shí)刻似乎已經(jīng)到來。在Sora發(fā)布的另一則演示視頻中，可以看到，人物在進(jìn)食過程中的咬合動(dòng)作，漢堡上的缺口以及牙印都與現(xiàn)實(shí)規(guī)律無異，完全不是一年前史密斯吃面的恐怖效果可以比擬的。

漢堡有瑕疵，但牙印很還原（圖源：Sora）

不過，視頻生成效果再好，也總有人能在其中找到瑕疵。許多影視行業(yè)人士在分析Sora生成的演示視頻之后表示，雖然Sora在視頻畫質(zhì)、細(xì)節(jié)、光影和色彩等方面表現(xiàn)出色，但目前還不能直接用于影視作品，因?yàn)槠湓谏婕扮R頭運(yùn)動(dòng)角度和更精細(xì)內(nèi)容調(diào)控方面仍存在不足。

一個(gè)明顯的案例出自于這段視頻，視頻中人物在跑步機(jī)上逆向跑步，Sora顯然還不明白運(yùn)動(dòng)的規(guī)律。

圖源：Sora

還有一個(gè)佐證是四條腿的螞蟻，Sora知道什么圖像代表著螞蟻這一單詞，但對完整螞蟻形象的理解還存在不足。

圖源：Sora

然而，即使Sora還不夠完美，但其生成效果也已經(jīng)足夠震撼，業(yè)內(nèi)人士普遍認(rèn)為Sora完全可以用于諸如概念設(shè)計(jì)之類的影視前期開發(fā)。

再加上OpenAI方面對于積極改進(jìn)Sora不成熟之處的承諾以及AI語音克隆初創(chuàng)公司ElevenLabs等對Sora視頻“聲音缺失”的一系列問題的解決方案的推出，在突破現(xiàn)實(shí)與虛擬邊界的小試牛刀后，Sora未來將為影視行業(yè)帶來更多創(chuàng)新和突破。

爆火的背后，Sora踩中了什么流量密碼？

Sora并非第一個(gè)問世的文本生成視頻AI模型，但為什么只有Sora成為了現(xiàn)象級的全球爆款？

根本來看，一是視頻質(zhì)量的跨級別飛躍，二是“意想不到的核心技術(shù)”。

其中，Sora生成視頻的質(zhì)量大家有目共睹，光是60s的連貫視頻生成時(shí)長就不是Runway和Pika能夠比擬的。而視頻質(zhì)量的斷層式領(lǐng)先的原因則被業(yè)內(nèi)人士認(rèn)為是在核心技術(shù)上的力大磚飛。

博主“Daily News”展示的三種模型生成效果（圖源：X）

國內(nèi)深度學(xué)習(xí)專家李沐認(rèn)為，Sora類似于視頻生成界GPT2向GPT3升級的時(shí)刻，模型跟前作DiT比可能變化不大，但使用了幾百倍的算力，屬于是大力出奇跡。該模型基于的ViT、DALL·E、diffusionmethods、VAE也并非新技術(shù)，這種demo效果拉滿的應(yīng)用，相信學(xué)術(shù)界和開源界會很快跟進(jìn)。

與Runway和Pika不同，Sora在擴(kuò)散模型領(lǐng)域使用了此前在GPT上就十分好用的Transformer方案，將文本模型的強(qiáng)前后文理解能力用在擴(kuò)散視頻的“幀生成”上。

圖源：Sora

簡單來說，Sora并不是直接將文本轉(zhuǎn)化成視頻中的每個(gè)幀，而是通過處理每一個(gè)Space timepatches（時(shí)空補(bǔ)?。﹣硌a(bǔ)全整個(gè)視頻。

這類似于3D生成領(lǐng)域的分塊式生成，Sora分析文本后將整個(gè)視頻內(nèi)容代表的時(shí)空中的關(guān)鍵元素切割為包括物體、動(dòng)作、背景等在內(nèi)的對應(yīng)圖像補(bǔ)丁，并通過內(nèi)置的知識圖譜，以物理世界的數(shù)據(jù)信息將這些補(bǔ)丁重新整合成充滿噪點(diǎn)的畫面。最后通過擴(kuò)散模型將噪點(diǎn)圖像細(xì)化，成為逐幀生成的視頻。

圖源：Sora

在時(shí)空信息的約束下，Sora生成的視頻內(nèi)容顯然更加忠于指令，相當(dāng)于Sora提前給視頻打好了腳本，視頻中生成的內(nèi)容就像演員和布景一般嚴(yán)格按照腳本運(yùn)行，這同樣也是此前Runway和Pika等無法做到的。

而這些成果都離不開Sora背后的核心團(tuán)隊(duì)。OpenAI 研究人員 Jason Wei 在自曝一份比996更加緊湊的每日工作時(shí)間安排清單后，收獲了一眾驚嘆，他表示，“OpenAl is nothing without its people.（沒有員工的貢獻(xiàn)，OpenAI什么都不是。）”

圖源：X

根據(jù)此前的社交媒體消息，Sora團(tuán)隊(duì)成員構(gòu)成十分年輕化，團(tuán)隊(duì)中甚至有00后的科研成員。這些參與者中，已知的核心成員包括研發(fā)負(fù)責(zé)人Tim Brooks、William Peebles、系統(tǒng)負(fù)責(zé)人 Connor Holmes 等。

與算力一道，人才被視作AI發(fā)展的基石之一，此前被誤傳為Sora作者之一的CV大神謝賽寧同樣認(rèn)為人才是Sora這樣復(fù)雜的系統(tǒng)誕生的三大核心因素，其余兩個(gè)分別是數(shù)據(jù)和算力。

靠著足夠驚人的演示視頻+全球第三大獨(dú)角獸背后的年輕團(tuán)隊(duì)，Sora賺足了流量，還未發(fā)布就已經(jīng)成為了拳打Runway，腳踢pika的文字生成視頻領(lǐng)域的唯一神，甚至還在中國國內(nèi)創(chuàng)造了新的“AI變現(xiàn)渠道”。

在Sora還沒有公測之時(shí)，以李一舟為代表的“AI講師”們就已經(jīng)大張旗鼓賣起了網(wǎng)課，勢要讓“家人們”都趕上利用Sora賺大錢的第一波風(fēng)口。

圖源：網(wǎng)絡(luò)

只是李一舟早已被扒出并不是 AI 方面的專家，其賣課內(nèi)容也基本都是最基礎(chǔ)的常識，更多的是“強(qiáng)調(diào)AI的強(qiáng)大和重要性”以及“用Sora關(guān)鍵詞引流變現(xiàn)、賣賬號、賣生成視頻、賣使用教程”等互聯(lián)網(wǎng)講師們的老一套變現(xiàn)操作。與此前的“教你如何用ChatGPT”一樣，屬于是吃O(shè)penAI的次生流量割韭菜。

普通人對于“AI取代說”的恐懼無可厚非，但AI技術(shù)發(fā)展太快，今天剛剛學(xué)會用Runway，明天就又冒出了更加強(qiáng)大的Sora，與其將焦點(diǎn)放在如何追趕最新的AI技術(shù)上，不如更多地關(guān)注AI的出現(xiàn)對生產(chǎn)模式的改變，畢竟未來AI都將朝著傻瓜式好用的方向邁進(jìn)，發(fā)掘AI能在何種領(lǐng)域如何更好地增值內(nèi)容生產(chǎn)才是未來打工人們更加應(yīng)該關(guān)心的。

AI“一鍵生成廣告圖圖”工具Amazon Ad（圖源：亞馬遜）

這也是Sora引起熱議的另一個(gè)原因，借助這項(xiàng)文本生成視頻技術(shù)，人們看到了AGI改變內(nèi)容創(chuàng)作流程的實(shí)例。

AI+XR打造智能硬件的“明日設(shè)備”

在這之前，AIGC已經(jīng)突破了文本生成、圖像生成的關(guān)卡，如今，公認(rèn)的創(chuàng)意媒介的最后一道難關(guān)——視頻的一鍵生成也被打通，有了ChatGPT的成功案例在前，市場普遍認(rèn)為Sora同樣也能成為下一個(gè)改變工作流程的AI模型，而不只是停留在理論。

在Sora發(fā)布之后，網(wǎng)上就有很多關(guān)于OpenAI下一步計(jì)劃的猜測。AI內(nèi)容創(chuàng)作者“Kwebbelkop”稱，OpenAI將收集用戶發(fā)布的Sora視頻的數(shù)據(jù)來進(jìn)行模型微調(diào)，從而讓Sora變得更加強(qiáng)大。

此外，OpenAI還將收集這些視頻的觀看數(shù)據(jù)增強(qiáng)Sora的RLHF（強(qiáng)化學(xué)習(xí)自人類反饋算法），這意味著每個(gè)人都能通過Sora一鍵創(chuàng)造出社交媒體熱門視頻?；诖耍琌penAI甚至還將有可能推出一個(gè)全新的、完全由AI生成內(nèi)容構(gòu)成的視頻平臺，并與YouTube、TikTok等展開競爭。

圖源：X

不過，OpenAI的野心可能不止于此。變革內(nèi)容生產(chǎn)一直是人們對于生成式AI的關(guān)注焦點(diǎn)，目前，OpenAI的人工智能藍(lán)圖已經(jīng)包括文生文的ChatGPT、文生圖的DALL·E 3、文生3D的Shap·E以及文生視頻的Sora。

在傳統(tǒng)的智能手機(jī)、PC平臺，我們已經(jīng)見識過ChatGPT在AI生成領(lǐng)域的統(tǒng)治力。但交互模式單一的傳統(tǒng)硬件顯然未能激發(fā)多模態(tài)AI的全部潛能，就和AI顛覆過去一樣，電子硬件產(chǎn)品同樣也需要加速更新?lián)Q代，以適應(yīng)未來潛在的交互需求。

或許正是出于對AI交互生態(tài)的探索，OpenAI在2024年開年最火的終端電子設(shè)備蘋果Vision Pro推出后，緊急將ChatGPT上架visionOS應(yīng)用商店。

ChatGPT在Vision Pro上的推出對于OpenAI是一個(gè)重要的里程碑，直接向外界展示了未來AI（尤其是多模態(tài)AI）可能的更自然、更直觀、更沉浸的交互方式。

Vision Pro的眼動(dòng)、手勢追蹤（圖源：蘋果）

可以說，蘋果Vision Pro與ChatGPT的合作使得XR設(shè)備再次被寄予成為人工智能下一代計(jì)算終端新選擇的厚望，畢竟其在推出短短一個(gè)月內(nèi)對于工作體驗(yàn)的顛覆就已經(jīng)讓很多科技大佬都直呼“amazing”。

在蘋果Vision Pro正式發(fā)售后，有不少社交媒體博主開始佩戴Vision Pro進(jìn)行各項(xiàng)日常生活、工作場景體驗(yàn)，其中有不少開發(fā)者嘗試用Vision Pro進(jìn)行編碼工作，并得到了值得參考的XR工作體驗(yàn)反饋。

圖源：蘋果

IT企業(yè)家Willem專門用博客記錄了他的初次Vision Pro編碼體驗(yàn)，他表示：“它不僅非常便攜，還能為你的眼睛提供一個(gè)完整的虛擬世界！這簡直就像我隨身攜帶了個(gè)龐大的多顯示器設(shè)置一樣。”

Willem及其他對Vision Pro持有好評的體驗(yàn)者將Vision Pro的優(yōu)勢集中在“沉浸”二字上，既能有媲美真實(shí)的編碼界面，又能幾乎完全屏蔽外界干擾：“在 Vision Pro 里你幾乎與環(huán)境融為一體。我喜歡在窗口周圍走來走去，看一些代碼或服務(wù)器輸出，感受它是一臺大型工作機(jī)器。某種程度上來說，我感覺就像站在一個(gè)大機(jī)房里，這與傳統(tǒng)的桌面體驗(yàn)完全不同。”

沉浸式編碼體驗(yàn)（圖源：willem.com）

而當(dāng)蘋果的AI時(shí)代到來之后，沉浸式編碼的體驗(yàn)將更加魔幻。

知名科技記者馬克·古爾曼爆料稱，蘋果公司準(zhǔn)備在iOS平臺編程軟件Xcode的下一次大版本更新中加入AI功能，以對標(biāo)微軟旗下的GitHub Copilot。

雖然消息表明了蘋果該項(xiàng)功能更新意在為iOS 18、iPadOS 18和macOS 15創(chuàng)造盡可能多的人工智能新功能，但作為蘋果蘋果未來生產(chǎn)力閉環(huán)的重要組成部分，AI功能上線visionOS只是時(shí)間問題。

AI對編程效率的提升是顯而易見的，根據(jù)Github官方的一篇博客，自發(fā)布以來，GitHub Copilot已幫助超過100萬人提高了開發(fā)人員的工作效率，幫助開發(fā)人員將編程速度提高了55%。

圖源：Github

而這不僅發(fā)生在程序員圈子中，幾乎所有AI可以參與的辦公場景中，工作效率都得到了大額提升。類似的例子有Adobe此前為Meta Quest Pro開發(fā)的一款3D建模程序“Substance 3D”，在虛擬世界中的3D建模已經(jīng)完全退化掉了鍵盤鼠標(biāo)，只需要簡單的手勢動(dòng)作就能輕松捏出設(shè)計(jì)模型。

繼ChatGPT之后，成熟后的Sora或是其他AI生成圖像、模型、視頻工具都將有可能以應(yīng)用程序的形式加入visionOS生態(tài)。AI、Vision Pro兩大科技熱門的結(jié)合重塑辦公、創(chuàng)作體驗(yàn)的模式已初見雛形。

圖源：X

這一科技變革之路需要許許多多人才、企業(yè)的前赴后繼，幸運(yùn)的是，蘋果并不是AI+XR這一想法的唯一踐行者，就在Sora發(fā)布的同一時(shí)間節(jié)點(diǎn)，還有一件事也攪動(dòng)了國內(nèi)的AI市場。

2024年2月18日，星紀(jì)魅族對外宣布將停止傳統(tǒng)智能手機(jī)新項(xiàng)目的研發(fā)，轉(zhuǎn)而All in AI，全力投入“明日設(shè)備（AI For New Generations）”。雖然這一決定的原因被歸結(jié)為“手機(jī)賣不動(dòng)了”，但從其后續(xù)的AI轉(zhuǎn)型計(jì)劃來看，魅族更在意的或許是AI+硬件的市場新需求。

圖源：星紀(jì)魅族

星紀(jì)魅族公布的AI戰(zhàn)略規(guī)劃的詳細(xì)內(nèi)容中，包括了打造AI Device產(chǎn)品、重構(gòu)Flyme系統(tǒng)和建設(shè)AI生態(tài)。公司CEO沈子瑜在該次視頻發(fā)布會中強(qiáng)調(diào)魅族將打造全新的AI設(shè)備，用AI原生設(shè)計(jì)重組產(chǎn)品形態(tài)，并用更強(qiáng)大的硬件算力支撐AI的全局調(diào)動(dòng)。

對于沈子瑜口中的“明日設(shè)備”，有不少人猜測會是AI手機(jī)，畢竟打著AI終端名頭的魅族21 Pro已經(jīng)上市。但也有部分聲音認(rèn)為，魅族將取代傳統(tǒng)手機(jī)形態(tài)的重任交給了XR眼鏡。

去年，星紀(jì)魅族剛剛發(fā)布了搭載自家智能“FlymeAR”交互系統(tǒng)的MYVU AR眼鏡，而從其剛剛發(fā)布的三年AI愿景來看，XR產(chǎn)品將在星紀(jì)魅族2025年的產(chǎn)品生態(tài)中占據(jù)舉足輕重的地位。

圖源：星紀(jì)魅族

以蘋果Vision Pro及其傳聞中的AR眼鏡形態(tài)產(chǎn)品為開端，包括星紀(jì)魅族、三星、華為、小米、OPPO、 VIVO等傳統(tǒng)手機(jī)廠商紛紛入局XR賽道，如今，星紀(jì)魅族All in AI，OPPO也專門成立了AI中心，將資源向AI集中，就像iPhone開創(chuàng)智能手機(jī)時(shí)代一樣，AI+智能硬件的組合目前看來將是開啟下一個(gè)智能計(jì)算時(shí)代的不二選擇。

這一趨勢同時(shí)也影響了頭部的AI科技廠商們，除了之前的OpenAI籌資7萬億美元豪賭芯片帝國的消息外，行業(yè)頂部的AI生成技術(shù)公司Midjourney也被曝出正在開發(fā)硬件產(chǎn)品。

據(jù)稱，Midjourney已經(jīng)挖角了蘋果Vision Pro的硬件工程經(jīng)理Ahmad Abbas，以協(xié)助開發(fā)一個(gè)收集3D數(shù)據(jù)，管理3D模型的工具，甚至于Midjourney未來可能推出自己的VR頭顯。

領(lǐng)英界面顯示Ahmad已加入Midjourney（圖源：linkedin）

在這些頭部科技企業(yè)看來，AI離不開硬件這一應(yīng)用載體，消費(fèi)硬件產(chǎn)品也需要AI的輔助重現(xiàn)智能手機(jī)時(shí)代的榮光。

如今，AI的蛋糕爭奪戰(zhàn)已經(jīng)開始進(jìn)入正賽，沒有廠商愿意放棄成為下一個(gè)IPhone的的新機(jī)會，無論是蘋果自家的Vision Pro、新形態(tài)的AI Pin還是手機(jī)廠商們設(shè)想的AI手機(jī)，都在探索與ChatGPT、Sora等這樣的前沿模型融合的最佳模式，在AI生成模型踏入爆發(fā)階段的2024，落伍是硬件廠商們難以接受的，對于AI“最佳載體冠名權(quán)”的你追我趕還將繼續(xù)。

投稿/爆料：tougao@youxituoluo.com

稿件/商務(wù)合作：六六（微信 13138755620）

加入行業(yè)交流群：六六（微信 13138755620）

版權(quán)申明：本文為VR陀螺原創(chuàng)，任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信：vrtuoluo233 申請授權(quán)，并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來源、作者以及原文鏈接信息，不得擅自更改內(nèi)容，違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實(shí)出處，如涉及版權(quán)問題，請聯(lián)系本網(wǎng)站協(xié)商處理。