文/VR陀螺
不可否認(rèn)的是,OpenAI總能創(chuàng)造爆款。
趕在中國農(nóng)歷春節(jié)假期結(jié)束前,OpenAI又一次在社交媒體上投下了一顆重磅炸彈。新的人工智能系統(tǒng)Sora的出現(xiàn)宣告著現(xiàn)代內(nèi)容的創(chuàng)建方式徹底改變。
圖源:Sora
根據(jù)OpenAI的說法,Sora不僅可以文本提示生成時(shí)長達(dá)一分鐘的視頻,還能通過靜止圖像生成視頻,或者通過擴(kuò)展現(xiàn)有視頻或通過生成缺失的幀來填補(bǔ)視頻中的空白。
雖然該模型目前僅在申請內(nèi)測階段,但從國內(nèi)外社交媒體的反應(yīng)以及官方提供的實(shí)例來看,Sora生成的視頻無論是在質(zhì)量還是可靠性上都超越了該領(lǐng)域的“前輩們”,展現(xiàn)出成為下一個(gè)ChatGPT的強(qiáng)勁勢頭。
這固然有部分炒作的成分在,但不可否認(rèn)的是,Sora的爆火現(xiàn)象的背后是人們對于信息革命之后第四次重大技術(shù)變革的全民狂歡,“多模態(tài)真人工智能”進(jìn)化的又一個(gè)里程碑出現(xiàn)在了2024開年。
現(xiàn)實(shí)與虛擬的邊界已被成功混淆
在 Sora 及其技術(shù)報(bào)告推出后,OpenAI幾段長達(dá) 60 秒,高清晰度且畫面可控、能多角度切換的高水平效果視頻就在國內(nèi)外社交媒體上瘋傳。
在Sora的魔法下,人們第一次知道AI生成的視頻原來還可以這么逼真。
即使融入紀(jì)錄片也毫無違和感(圖源:Sora)
要知道,2023年AI的視頻生成效果還是這樣的:
真實(shí)但顯然視頻對象靈活性欠佳(圖源:Pika)
僅僅過去幾個(gè)月時(shí)間,文本生成視頻技術(shù)實(shí)現(xiàn)了從5秒到60秒,從卡通動(dòng)畫到紀(jì)錄片畫質(zhì)的飛躍,這放誰身上不汗流浹背。
逼真的視覺效果以及“未來已來”的社交媒體病毒式營銷使得Sora成為2024年初AI領(lǐng)域最為破圈的存在,風(fēng)頭甚至蓋過了幾乎同一時(shí)間發(fā)布的Gemini 1.5,一時(shí)間無論是娛樂版塊還是科技板塊都充斥著Sora的身影。
一年前,一段由 AI 生成威爾?史密斯吃面的視頻在網(wǎng)絡(luò)上大火,僅在Twitter上該視頻的播放量就突破了 800 萬。
一年后,威爾史密斯于Sora刷屏后在自己的INS上上傳了一則視頻,并附文“越來越失控了”。
可以看到,視頻畫面分為上下兩段:上半段顯示是一年以前的 AI 視頻,下半段則顯示現(xiàn)在的 AI 視頻。
圖源:X
雖然大家很快就發(fā)現(xiàn)這只是威爾?史密斯在玩梗,視頻下半段并不是AI生成,而是他自己錄的,但還是有不少網(wǎng)友大呼受騙:“最令人毛骨悚然的是,你無法判斷這是表演還是人工智能生成的。”
這也從側(cè)面證明Sora的出現(xiàn)使得人們開始相信視頻生成AI能夠以假亂真,AI代替視頻剪輯的時(shí)刻似乎已經(jīng)到來。在Sora發(fā)布的另一則演示視頻中,可以看到,人物在進(jìn)食過程中的咬合動(dòng)作,漢堡上的缺口以及牙印都與現(xiàn)實(shí)規(guī)律無異,完全不是一年前史密斯吃面的恐怖效果可以比擬的。
漢堡有瑕疵,但牙印很還原(圖源:Sora)
不過,視頻生成效果再好,也總有人能在其中找到瑕疵。許多影視行業(yè)人士在分析Sora生成的演示視頻之后表示,雖然Sora在視頻畫質(zhì)、細(xì)節(jié)、光影和色彩等方面表現(xiàn)出色,但目前還不能直接用于影視作品,因?yàn)槠湓谏婕扮R頭運(yùn)動(dòng)角度和更精細(xì)內(nèi)容調(diào)控方面仍存在不足。
一個(gè)明顯的案例出自于這段視頻,視頻中人物在跑步機(jī)上逆向跑步,Sora顯然還不明白運(yùn)動(dòng)的規(guī)律。
圖源:Sora
還有一個(gè)佐證是四條腿的螞蟻,Sora知道什么圖像代表著螞蟻這一單詞,但對完整螞蟻形象的理解還存在不足。
圖源:Sora
然而,即使Sora還不夠完美,但其生成效果也已經(jīng)足夠震撼,業(yè)內(nèi)人士普遍認(rèn)為Sora完全可以用于諸如概念設(shè)計(jì)之類的影視前期開發(fā)。
再加上OpenAI方面對于積極改進(jìn)Sora不成熟之處的承諾以及AI語音克隆初創(chuàng)公司ElevenLabs等對Sora視頻“聲音缺失”的一系列問題的解決方案的推出,在突破現(xiàn)實(shí)與虛擬邊界的小試牛刀后,Sora未來將為影視行業(yè)帶來更多創(chuàng)新和突破。
爆火的背后,Sora踩中了什么流量密碼?
Sora并非第一個(gè)問世的文本生成視頻AI模型,但為什么只有Sora成為了現(xiàn)象級的全球爆款?
根本來看,一是視頻質(zhì)量的跨級別飛躍,二是“意想不到的核心技術(shù)”。
其中,Sora生成視頻的質(zhì)量大家有目共睹,光是60s的連貫視頻生成時(shí)長就不是Runway和Pika能夠比擬的。而視頻質(zhì)量的斷層式領(lǐng)先的原因則被業(yè)內(nèi)人士認(rèn)為是在核心技術(shù)上的力大磚飛。
博主“Daily News”展示的三種模型生成效果(圖源:X)
國內(nèi)深度學(xué)習(xí)專家李沐認(rèn)為,Sora類似于視頻生成界GPT2向GPT3升級的時(shí)刻,模型跟前作DiT比可能變化不大,但使用了幾百倍的算力,屬于是大力出奇跡。該模型基于的ViT、DALL·E、diffusionmethods、VAE也并非新技術(shù),這種demo效果拉滿的應(yīng)用,相信學(xué)術(shù)界和開源界會很快跟進(jìn)。
與Runway和Pika不同,Sora在擴(kuò)散模型領(lǐng)域使用了此前在GPT上就十分好用的Transformer方案,將文本模型的強(qiáng)前后文理解能力用在擴(kuò)散視頻的“幀生成”上。
圖源:Sora
簡單來說,Sora并不是直接將文本轉(zhuǎn)化成視頻中的每個(gè)幀,而是通過處理每一個(gè)Space timepatches(時(shí)空補(bǔ)?。﹣硌a(bǔ)全整個(gè)視頻。
這類似于3D生成領(lǐng)域的分塊式生成,Sora分析文本后將整個(gè)視頻內(nèi)容代表的時(shí)空中的關(guān)鍵元素切割為包括物體、動(dòng)作、背景等在內(nèi)的對應(yīng)圖像補(bǔ)丁,并通過內(nèi)置的知識圖譜,以物理世界的數(shù)據(jù)信息將這些補(bǔ)丁重新整合成充滿噪點(diǎn)的畫面。最后通過擴(kuò)散模型將噪點(diǎn)圖像細(xì)化,成為逐幀生成的視頻。
圖源:Sora
在時(shí)空信息的約束下,Sora生成的視頻內(nèi)容顯然更加忠于指令,相當(dāng)于Sora提前給視頻打好了腳本,視頻中生成的內(nèi)容就像演員和布景一般嚴(yán)格按照腳本運(yùn)行,這同樣也是此前Runway和Pika等無法做到的。
而這些成果都離不開Sora背后的核心團(tuán)隊(duì)。OpenAI 研究人員 Jason Wei 在自曝一份比996更加緊湊的每日工作時(shí)間安排清單后,收獲了一眾驚嘆,他表示,“OpenAl is nothing without its people.(沒有員工的貢獻(xiàn),OpenAI什么都不是。)”
圖源:X
根據(jù)此前的社交媒體消息,Sora團(tuán)隊(duì)成員構(gòu)成十分年輕化,團(tuán)隊(duì)中甚至有00后的科研成員。這些參與者中,已知的核心成員包括研發(fā)負(fù)責(zé)人Tim Brooks、William Peebles、系統(tǒng)負(fù)責(zé)人 Connor Holmes 等。
與算力一道,人才被視作AI發(fā)展的基石之一,此前被誤傳為Sora作者之一的CV大神謝賽寧同樣認(rèn)為人才是Sora這樣復(fù)雜的系統(tǒng)誕生的三大核心因素,其余兩個(gè)分別是數(shù)據(jù)和算力。
靠著足夠驚人的演示視頻+全球第三大獨(dú)角獸背后的年輕團(tuán)隊(duì),Sora賺足了流量,還未發(fā)布就已經(jīng)成為了拳打Runway,腳踢pika的文字生成視頻領(lǐng)域的唯一神,甚至還在中國國內(nèi)創(chuàng)造了新的“AI變現(xiàn)渠道”。
在Sora還沒有公測之時(shí),以李一舟為代表的“AI講師”們就已經(jīng)大張旗鼓賣起了網(wǎng)課,勢要讓“家人們”都趕上利用Sora賺大錢的第一波風(fēng)口。
圖源:網(wǎng)絡(luò)
只是李一舟早已被扒出并不是 AI 方面的專家,其賣課內(nèi)容也基本都是最基礎(chǔ)的常識,更多的是“強(qiáng)調(diào)AI的強(qiáng)大和重要性”以及“用Sora關(guān)鍵詞引流變現(xiàn)、賣賬號、賣生成視頻、賣使用教程”等互聯(lián)網(wǎng)講師們的老一套變現(xiàn)操作。與此前的“教你如何用ChatGPT”一樣,屬于是吃O(shè)penAI的次生流量割韭菜。
普通人對于“AI取代說”的恐懼無可厚非,但AI技術(shù)發(fā)展太快,今天剛剛學(xué)會用Runway,明天就又冒出了更加強(qiáng)大的Sora,與其將焦點(diǎn)放在如何追趕最新的AI技術(shù)上,不如更多地關(guān)注AI的出現(xiàn)對生產(chǎn)模式的改變,畢竟未來AI都將朝著傻瓜式好用的方向邁進(jìn),發(fā)掘AI能在何種領(lǐng)域如何更好地增值內(nèi)容生產(chǎn)才是未來打工人們更加應(yīng)該關(guān)心的。
AI“一鍵生成廣告圖圖”工具Amazon Ad(圖源:亞馬遜)
這也是Sora引起熱議的另一個(gè)原因,借助這項(xiàng)文本生成視頻技術(shù),人們看到了AGI改變內(nèi)容創(chuàng)作流程的實(shí)例。
AI+XR打造智能硬件的“明日設(shè)備”
在這之前,AIGC已經(jīng)突破了文本生成、圖像生成的關(guān)卡,如今,公認(rèn)的創(chuàng)意媒介的最后一道難關(guān)——視頻的一鍵生成也被打通,有了ChatGPT的成功案例在前,市場普遍認(rèn)為Sora同樣也能成為下一個(gè)改變工作流程的AI模型,而不只是停留在理論。
在Sora發(fā)布之后,網(wǎng)上就有很多關(guān)于OpenAI下一步計(jì)劃的猜測。AI內(nèi)容創(chuàng)作者“Kwebbelkop”稱,OpenAI將收集用戶發(fā)布的Sora視頻的數(shù)據(jù)來進(jìn)行模型微調(diào),從而讓Sora變得更加強(qiáng)大。
此外,OpenAI還將收集這些視頻的觀看數(shù)據(jù)增強(qiáng)Sora的RLHF(強(qiáng)化學(xué)習(xí)自人類反饋算法),這意味著每個(gè)人都能通過Sora一鍵創(chuàng)造出社交媒體熱門視頻?;诖耍琌penAI甚至還將有可能推出一個(gè)全新的、完全由AI生成內(nèi)容構(gòu)成的視頻平臺,并與YouTube、TikTok等展開競爭。
圖源:X
不過,OpenAI的野心可能不止于此。變革內(nèi)容生產(chǎn)一直是人們對于生成式AI的關(guān)注焦點(diǎn),目前,OpenAI的人工智能藍(lán)圖已經(jīng)包括文生文的ChatGPT、文生圖的DALL·E 3、文生3D的Shap·E以及文生視頻的Sora。
在傳統(tǒng)的智能手機(jī)、PC平臺,我們已經(jīng)見識過ChatGPT在AI生成領(lǐng)域的統(tǒng)治力。但交互模式單一的傳統(tǒng)硬件顯然未能激發(fā)多模態(tài)AI的全部潛能,就和AI顛覆過去一樣,電子硬件產(chǎn)品同樣也需要加速更新?lián)Q代,以適應(yīng)未來潛在的交互需求。
或許正是出于對AI交互生態(tài)的探索,OpenAI在2024年開年最火的終端電子設(shè)備蘋果Vision Pro推出后,緊急將ChatGPT上架visionOS應(yīng)用商店。
ChatGPT在Vision Pro上的推出對于OpenAI是一個(gè)重要的里程碑,直接向外界展示了未來AI(尤其是多模態(tài)AI)可能的更自然、更直觀、更沉浸的交互方式。
Vision Pro的眼動(dòng)、手勢追蹤(圖源:蘋果)
可以說,蘋果Vision Pro與ChatGPT的合作使得XR設(shè)備再次被寄予成為人工智能下一代計(jì)算終端新選擇的厚望,畢竟其在推出短短一個(gè)月內(nèi)對于工作體驗(yàn)的顛覆就已經(jīng)讓很多科技大佬都直呼“amazing”。
在蘋果Vision Pro正式發(fā)售后,有不少社交媒體博主開始佩戴Vision Pro進(jìn)行各項(xiàng)日常生活、工作場景體驗(yàn),其中有不少開發(fā)者嘗試用Vision Pro進(jìn)行編碼工作,并得到了值得參考的XR工作體驗(yàn)反饋。
圖源:蘋果
IT企業(yè)家Willem專門用博客記錄了他的初次Vision Pro編碼體驗(yàn),他表示:“它不僅非常便攜,還能為你的眼睛提供一個(gè)完整的虛擬世界!這簡直就像我隨身攜帶了個(gè)龐大的多顯示器設(shè)置一樣。”
Willem及其他對Vision Pro持有好評的體驗(yàn)者將Vision Pro的優(yōu)勢集中在“沉浸”二字上,既能有媲美真實(shí)的編碼界面,又能幾乎完全屏蔽外界干擾:“在 Vision Pro 里你幾乎與環(huán)境融為一體。我喜歡在窗口周圍走來走去,看一些代碼或服務(wù)器輸出,感受它是一臺大型工作機(jī)器。某種程度上來說,我感覺就像站在一個(gè)大機(jī)房里,這與傳統(tǒng)的桌面體驗(yàn)完全不同。”
沉浸式編碼體驗(yàn)(圖源:willem.com)
而當(dāng)蘋果的AI時(shí)代到來之后,沉浸式編碼的體驗(yàn)將更加魔幻。
知名科技記者馬克·古爾曼爆料稱,蘋果公司準(zhǔn)備在iOS平臺編程軟件Xcode的下一次大版本更新中加入AI功能,以對標(biāo)微軟旗下的GitHub Copilot。
雖然消息表明了蘋果該項(xiàng)功能更新意在為iOS 18、iPadOS 18和macOS 15創(chuàng)造盡可能多的人工智能新功能,但作為蘋果蘋果未來生產(chǎn)力閉環(huán)的重要組成部分,AI功能上線visionOS只是時(shí)間問題。
AI對編程效率的提升是顯而易見的,根據(jù)Github官方的一篇博客,自發(fā)布以來,GitHub Copilot已幫助超過100萬人提高了開發(fā)人員的工作效率,幫助開發(fā)人員將編程速度提高了55%。
圖源:Github
而這不僅發(fā)生在程序員圈子中,幾乎所有AI可以參與的辦公場景中,工作效率都得到了大額提升。類似的例子有Adobe此前為Meta Quest Pro開發(fā)的一款3D建模程序“Substance 3D”,在虛擬世界中的3D建模已經(jīng)完全退化掉了鍵盤鼠標(biāo),只需要簡單的手勢動(dòng)作就能輕松捏出設(shè)計(jì)模型。
繼ChatGPT之后,成熟后的Sora或是其他AI生成圖像、模型、視頻工具都將有可能以應(yīng)用程序的形式加入visionOS生態(tài)。AI、Vision Pro兩大科技熱門的結(jié)合重塑辦公、創(chuàng)作體驗(yàn)的模式已初見雛形。
圖源:X
這一科技變革之路需要許許多多人才、企業(yè)的前赴后繼,幸運(yùn)的是,蘋果并不是AI+XR這一想法的唯一踐行者,就在Sora發(fā)布的同一時(shí)間節(jié)點(diǎn),還有一件事也攪動(dòng)了國內(nèi)的AI市場。
2024年2月18日,星紀(jì)魅族對外宣布將停止傳統(tǒng)智能手機(jī)新項(xiàng)目的研發(fā),轉(zhuǎn)而All in AI,全力投入“明日設(shè)備(AI For New Generations)”。雖然這一決定的原因被歸結(jié)為“手機(jī)賣不動(dòng)了”,但從其后續(xù)的AI轉(zhuǎn)型計(jì)劃來看,魅族更在意的或許是AI+硬件的市場新需求。
圖源:星紀(jì)魅族
星紀(jì)魅族公布的AI戰(zhàn)略規(guī)劃的詳細(xì)內(nèi)容中,包括了打造AI Device產(chǎn)品、重構(gòu)Flyme系統(tǒng)和建設(shè)AI生態(tài)。公司CEO沈子瑜在該次視頻發(fā)布會中強(qiáng)調(diào)魅族將打造全新的AI設(shè)備,用AI原生設(shè)計(jì)重組產(chǎn)品形態(tài),并用更強(qiáng)大的硬件算力支撐AI的全局調(diào)動(dòng)。
對于沈子瑜口中的“明日設(shè)備”,有不少人猜測會是AI手機(jī),畢竟打著AI終端名頭的魅族21 Pro已經(jīng)上市。但也有部分聲音認(rèn)為,魅族將取代傳統(tǒng)手機(jī)形態(tài)的重任交給了XR眼鏡。
去年,星紀(jì)魅族剛剛發(fā)布了搭載自家智能“FlymeAR”交互系統(tǒng)的MYVU AR眼鏡 ,而從其剛剛發(fā)布的三年AI愿景來看,XR產(chǎn)品將在星紀(jì)魅族2025年的產(chǎn)品生態(tài)中占據(jù)舉足輕重的地位。
圖源:星紀(jì)魅族
以蘋果Vision Pro及其傳聞中的AR眼鏡形態(tài)產(chǎn)品為開端,包括星紀(jì)魅族、三星、華為、小米、OPPO、 VIVO等傳統(tǒng)手機(jī)廠商紛紛入局XR賽道,如今,星紀(jì)魅族All in AI,OPPO也專門成立了AI中心,將資源向AI集中,就像iPhone開創(chuàng)智能手機(jī)時(shí)代一樣,AI+智能硬件的組合目前看來將是開啟下一個(gè)智能計(jì)算時(shí)代的不二選擇。
這一趨勢同時(shí)也影響了頭部的AI科技廠商們,除了之前的OpenAI籌資7萬億美元豪賭芯片帝國的消息外,行業(yè)頂部的AI生成技術(shù)公司Midjourney也被曝出正在開發(fā)硬件產(chǎn)品。
據(jù)稱,Midjourney已經(jīng)挖角了蘋果Vision Pro的硬件工程經(jīng)理Ahmad Abbas,以協(xié)助開發(fā)一個(gè)收集3D數(shù)據(jù),管理3D模型的工具,甚至于Midjourney未來可能推出自己的VR頭顯。
領(lǐng)英界面顯示Ahmad已加入Midjourney(圖源:linkedin)
在這些頭部科技企業(yè)看來,AI離不開硬件這一應(yīng)用載體,消費(fèi)硬件產(chǎn)品也需要AI的輔助重現(xiàn)智能手機(jī)時(shí)代的榮光。
如今,AI的蛋糕爭奪戰(zhàn)已經(jīng)開始進(jìn)入正賽,沒有廠商愿意放棄成為下一個(gè)IPhone的的新機(jī)會,無論是蘋果自家的Vision Pro、新形態(tài)的AI Pin還是手機(jī)廠商們設(shè)想的AI手機(jī),都在探索與ChatGPT、Sora等這樣的前沿模型融合的最佳模式,在AI生成模型踏入爆發(fā)階段的2024,落伍是硬件廠商們難以接受的,對于AI“最佳載體冠名權(quán)”的你追我趕還將繼續(xù)。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信:vrtuoluo233 申請授權(quán),并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實(shí)出處,如涉及版權(quán)問題,請聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息