文/VR陀螺 WiZ
在元宇宙投入看不到回報(bào)的局面下,Meta 將目光重新轉(zhuǎn)向了 AI。
1月19日,Meta CEO 扎克伯格在 Instagram 上分享了一則短視頻,主角悄然從此前時(shí)常在其社交媒體中刷臉的 Quest 系列變成了 AI。
在視頻中,扎克伯格強(qiáng)調(diào),“這項(xiàng)技術(shù)(AI)非常重要”、“ 下一代服務(wù)需要構(gòu)建全面的通用智能、構(gòu)建最佳的 AI Agent、面向創(chuàng)作者的人工智能、面向企業(yè)的人工智能”。
扎克伯格:AI 大升級(jí)!(圖源:Instagram)
這看起來(lái)是 Meta 想要將 AI 作為實(shí)現(xiàn)元宇宙愿景抓手的一次強(qiáng)調(diào)。畢竟 Meta 元宇宙業(yè)務(wù)不溫不火,而其在 AI 市場(chǎng)卻表現(xiàn)出色。僅從市場(chǎng)來(lái)看,在 AI 領(lǐng)域的投入幫助 Meta 在今年三季度實(shí)現(xiàn)凈利潤(rùn)增 164%。扎克伯格本人更是直接表示 AI 將成為 Meta 2024 年最大投資領(lǐng)域。
如今,隨著扎克伯格計(jì)劃將 Meta AI 基礎(chǔ)設(shè)施上升至 60 萬(wàn)臺(tái) H100 數(shù)量級(jí),AI 在 2024 年已經(jīng)被 Meta 寄予了拯救元宇宙帝國(guó)的厚望。
圖源:網(wǎng)絡(luò)
生成式AI工具是搭建元宇宙的剛需
對(duì)于 AI,Meta 更關(guān)注也更得心應(yīng)手的還是與元宇宙高度適配的 AIGC 模型,在扎克伯格的元宇宙設(shè)想中,AI 不僅能完成從文字到圖像、文字到三維模型的跨越,同樣也要能做到文生視頻。
去年 9 月,Emu(Expressive Media Universe)在 Meta Connect 大會(huì)上首次亮相。彼時(shí),扎克伯格還將 Emu 定位為 Meta AI 的 Imagine 功能的動(dòng)力來(lái)源,并計(jì)劃與 Meta 旗下 Facebook、Instagram 等社交平臺(tái)深度綁定。
但不久前,這一項(xiàng)目終于有了新進(jìn)展。Meta 在其官方網(wǎng)站展示了兩個(gè)基于 Emu 的 AI 新工具:Emu Edit 和 Emu Video,不僅在圖像生成上實(shí)現(xiàn)了扎克伯格當(dāng)初夸下的??冢踔吝€出人意料地造出了當(dāng)下熱門的“AI 生成視頻”功能。
其中,Emu Edit 旨在為用戶提供對(duì)圖像編輯的精細(xì)控制。其類似于 Adobe Photoshop 此前推出的“生成填充”功能,開(kāi)創(chuàng)了一種獨(dú)特的圖像處理方法,用戶可以輸入基于文本的指令來(lái)更改圖像。
Emu Video 則區(qū)別于圖像編輯,它是一種專門的增強(qiáng)視頻生成技術(shù),能夠響應(yīng)包括純文本、純圖像在內(nèi)的各種輸入,提供了一種簡(jiǎn)單的文本到視頻生成方法。
圖源:Emu Video
對(duì)于將元宇宙作為企業(yè)代名詞的 Meta 來(lái)說(shuō),元宇宙的風(fēng)已經(jīng)開(kāi)始轉(zhuǎn)向 AI+虛擬現(xiàn)實(shí),AI 工具 Emu Video 和 Emu Edit 的出現(xiàn)自然也被視作 Meta 推進(jìn)人工智能驅(qū)動(dòng)內(nèi)容生成的一項(xiàng)戰(zhàn)略舉措。
特別是 Emu Video,在 Meta 的描述中,其將成為 Runway 和 Pika Labs 等熱門品牌的主要競(jìng)爭(zhēng)對(duì)手,有助于將創(chuàng)作權(quán)利下放給“有想法的人”而不只是專業(yè)內(nèi)容創(chuàng)作者。
在一篇博客文章中,Meta 的 AI 研究人員解釋說(shuō),AI 圖像生成通常是一個(gè)循序漸進(jìn)的過(guò)程,用戶嘗試提示,生成的圖片并不能百分百完全符合他們的想法,用戶將需要不斷調(diào)整提示,直到創(chuàng)建的圖像更接近他們想象的圖像。
AI 視頻生成同樣如此,為了減少生成過(guò)程復(fù)雜性,Emu Video 選擇了一種更為聰明的辦法,通過(guò)細(xì)致拆分操作過(guò)程并采用文本+圖像兼容輸入的方式優(yōu)化生成結(jié)果準(zhǔn)確性。
具體來(lái)看,Emu Video 在 Emu 模型基礎(chǔ)上,利用了一種基于擴(kuò)散模型的文本到視頻生成的簡(jiǎn)單方法,通過(guò)明確的圖像條件來(lái)分解文本到視頻生成的過(guò)程。
圖源:Emu Video
在 Emu Video 的應(yīng)用場(chǎng)景下,文本到視頻生成分解為兩個(gè)子問(wèn)題:首先生成圖像,然后使用生成的圖像和文本生成視頻。通過(guò)將文本到圖像模型與視頻生成模型解耦,Emu Video 能夠在生成高質(zhì)量視頻的同時(shí)保留文本到圖像模型的視覺(jué)多樣性、風(fēng)格和質(zhì)量。與先前的方法相比,Emu Video 在 MSVD 和 MSR-VTT 數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。
圖源:Emu Video
相關(guān)論文中,Emu Video 項(xiàng)目的研究人員表示這種視頻生成的“因式分解”方法使得有效地訓(xùn)練視頻生成模型成為可能,因式分解的視頻生成可以通過(guò)單一擴(kuò)散模型實(shí)現(xiàn)。研究人員只需要提出關(guān)鍵的設(shè)計(jì)決策,例如調(diào)整視頻擴(kuò)散的噪聲時(shí)間表,就能直接生成更高分辨率視頻的多階段訓(xùn)練。
Emu Video 簡(jiǎn)化了視頻生成過(guò)程,無(wú)需像 Make-A-Video 那樣需要更復(fù)雜的多模型方法,僅使用兩個(gè)擴(kuò)散模型就能以每秒 16 幀的速度生成 512x512 像素大小的 4 秒視頻。
同時(shí),由于輸入文本的連貫性,Emu Video 能夠準(zhǔn)確地將文本轉(zhuǎn)換為連續(xù)的視覺(jué)敘事,這一點(diǎn)有別于大多數(shù)現(xiàn)有模型和商業(yè)解決方案。
圖源:Emu Video
與現(xiàn)有的文本到視頻生成方法相比,由于訓(xùn)練模型時(shí)使用了包含 3400 萬(wàn)個(gè)經(jīng)過(guò)許可的視頻-文本對(duì)的完整數(shù)據(jù)集,Emu Video 在視頻質(zhì)量和準(zhǔn)確度方面都表現(xiàn)更好,同時(shí)模型也更簡(jiǎn)單,只有兩個(gè)模型級(jí)聯(lián),參數(shù)量更小,總共只有 60 億個(gè)參數(shù)。
并且在人類評(píng)估中,Emu Video 也獲得更多好評(píng),相比 Make-A-Video,96%的受訪者認(rèn)為 Emu Video 生成的視頻質(zhì)量更好,85%的受訪者認(rèn)為 Emu Video 對(duì)于文本理解的準(zhǔn)確度要更勝一籌。
在人類評(píng)估中,Emu Video 生成的視頻在質(zhì)量上相比于 Google 的 Imagen Video,提高了 81%;相比于 Nvidia 的 PYOCO,提高了 90%;相比于 Meta 的 Make-A-Video,提高了 96%;與商業(yè)解決方案 RunwayML 的 Gen2 和 Pika Labs 相比同樣更具優(yōu)勢(shì)。
研究人員對(duì) Emu Video 的評(píng)估結(jié)果(圖源:Emu Video)
Meta AI 改變?cè)钪嫔缃惑w驗(yàn)
目前,Emu Video 和 Emu Edit 仍在開(kāi)發(fā)中,沒(méi)有確定公開(kāi)發(fā)布的時(shí)間表。但 Meta 積極的生成式 AI 研究預(yù)示著更多變革性的元宇宙社交體驗(yàn)即將到來(lái)。
作為一家社交媒體起家的科技企業(yè),Meta 如果只靠單純的硬件系統(tǒng)是無(wú)法搭建起能用的元宇宙的,一個(gè)完整的元宇宙空間剛需海量的內(nèi)容生產(chǎn)。
但依靠專業(yè)從業(yè)人員的 PGC 內(nèi)容生產(chǎn)方式成本過(guò)高,依靠用戶生成的 UGC 方式又難以確保內(nèi)容質(zhì)量,因此,節(jié)約人力、提升效率、同時(shí)又有生成內(nèi)容質(zhì)量下限保證的 AIGC 內(nèi)容方式成為一種更佳的選擇,將有助于元宇宙快速構(gòu)建包括文字、語(yǔ)音、3D 圖像、視頻等多媒體內(nèi)容基礎(chǔ)設(shè)施。
AI 生成 3D 建模(圖源:Stability AI)
Emu Video 和 Emu Edit 的推出正是建立在 Meta 的元宇宙戰(zhàn)略之上,通過(guò)平臺(tái)內(nèi)的編輯和創(chuàng)建,Meta 能夠推動(dòng)內(nèi)容創(chuàng)作者在整個(gè)元宇宙系統(tǒng)中的參與度,也將用戶更牢固地鎖定在 Meta 的社交生態(tài)中。
同時(shí),這也是 Meta AI 開(kāi)發(fā)過(guò)程中至關(guān)重要的一環(huán)。對(duì)于 Meta 來(lái)說(shuō),在其社交媒體平臺(tái)上引入基于 AI 的原生圖像編輯功能似乎是一件輕而易舉的事。有很多類似的工具可用,例如 Google Photos Magic Editor 和 Adobe 的 Photoshop 生成填充,但對(duì)于 Instagram 和 Facebook 用戶來(lái)說(shuō),不必跳轉(zhuǎn)到第三方服務(wù)顯然對(duì)于營(yíng)造獨(dú)立的元宇宙社區(qū)更為方便。
此前,Meta 已展示了 AI 在 3D 圖像建模方面的強(qiáng)大生產(chǎn)力。
在 2023 年 9 月份,扎克伯格與麻省理工學(xué)院科學(xué)家 Lex Fridman 的一番隔空對(duì)話成功破圈,相關(guān)視頻播放量快速突破千萬(wàn),在社交網(wǎng)絡(luò)上掀起了一陣 VR 熱潮。
在這次對(duì)話中,扎克伯格展示了 Meta 的新型 Codec 虛擬現(xiàn)實(shí)化身。與 Meta 最初略顯簡(jiǎn)陋的 Horizon Worlds 虛擬卡通化身不同,Codec 會(huì)通過(guò)頭顯掃描技術(shù)檢測(cè)并構(gòu)建用戶面部的 3D 模型,再由機(jī)器學(xué)習(xí)實(shí)現(xiàn)驅(qū)動(dòng),實(shí)時(shí)映射到 3D 化身上形成動(dòng)作。
從公開(kāi)的視頻來(lái)看,大至全身動(dòng)作,小至表情細(xì)節(jié),新形象已經(jīng)做到和真人幾乎一致的自然天成。在扎克伯格的視角看,“這觸及了增強(qiáng)現(xiàn)實(shí)愿景的核心,即無(wú)論你身在世界何處,它都能提供一種臨場(chǎng)感。”
圖源:YouTube/Lex Fridman Podcast
這是一次成功的營(yíng)銷,Meta 不僅探索了 AI+VR 的另一種選擇,還展示了元宇宙社交的新變革。
元宇宙中的社交不用再以簡(jiǎn)潔的虛擬卡通形象作為臉面,每個(gè)人都能在 AI 技術(shù)加持下創(chuàng)造出自己的真實(shí)掃描建模,而除了普通的日常通信、會(huì)議交流之外,生成的逼真建模形象也將可以直接用于視頻直播、聊天機(jī)器人、企業(yè)營(yíng)銷等場(chǎng)景,數(shù)字人建模成本直接打骨折。
再加上 Emu Video 的視頻生成技術(shù),甚至連數(shù)字人動(dòng)畫制作這一步也可以精簡(jiǎn),配合 GPT 真正做到“給我一段描述,還你一個(gè)有血有肉的復(fù)制人”。
當(dāng)然,要實(shí)現(xiàn)這些設(shè)想還需要給 AI 們幾年時(shí)間,畢竟目前看來(lái),無(wú)論是 Emu Video 還是 pika,他們的視頻成品看起來(lái)更像是幾張“動(dòng)起來(lái)”的卡通圖片的組合,人物動(dòng)作幅度處處受限,場(chǎng)景切換前后也難以形成邏輯。
圖源:Pika 1.0
同時(shí),在模型的訓(xùn)練和推斷階段,Emu Video 也還存在一些不足。但這些問(wèn)題隨著人工智能合成的成熟都將逐一得到解決。
動(dòng)作方面,不久前,阿里研究團(tuán)隊(duì)構(gòu)建了一種名為 Animate Anyone 的方法,只需要一張人物照片,再配合骨骼動(dòng)畫引導(dǎo),就能生成自然的動(dòng)畫視頻。
圖源:Animate Anyone
細(xì)微表情方面,慕尼黑工業(yè)大學(xué)等機(jī)構(gòu)研究人員也提出了 GaussianAvatars 方法,基于三維高斯 splats 可以創(chuàng)建表情,姿態(tài)和視角完全可控的逼真頭部虛擬。
圖源:GaussianAvatars
未來(lái)隨著多項(xiàng)技術(shù)的融合,AI 視頻的動(dòng)作表情將越來(lái)越靈動(dòng),文生視頻技術(shù)落地應(yīng)用正在成為可能。
元宇宙式微,Meta 不得不抓住 AI+內(nèi)容生態(tài)的救命稻草
生成式 AI 熱度空前,發(fā)展路徑已日趨明朗。日前,紅杉資本的兩位合伙人 Sonya Huang 和 Pat Grady 發(fā)表了一篇名為《Generative AI: A Creative New World》的文章,認(rèn)為 AI 應(yīng)用發(fā)展將遵循從文本、代碼、圖像、語(yǔ)音領(lǐng)域向視頻、3D 領(lǐng)域升級(jí)的主要路徑。
而從商業(yè)市場(chǎng)上看,IDC 在其最近的一份報(bào)告中預(yù)計(jì)全球企業(yè)在生成式 AI 上的投資將從 2023 年的超 194 億美元倍增至 2024 年的 401 億美元,2027 年將進(jìn)一步增長(zhǎng)至 1511 億美元。雖然生成式 AI 在 2023 年僅占人工智能總支出的 9%,但該公司預(yù)計(jì)這一比例將在五年內(nèi)上升到 28%。
如今,AI 已經(jīng)深入各行各業(yè),其中就包括已許久未能掀起波瀾的元宇宙產(chǎn)業(yè)。對(duì)于元宇宙來(lái)說(shuō),AI 目前已經(jīng)與“內(nèi)容”深度綁定。
整個(gè)互聯(lián)網(wǎng)時(shí)代,內(nèi)容生產(chǎn)方式幾經(jīng)變化。在 Web1.0 時(shí)代,電視、媒體行業(yè)主導(dǎo)的 PGC 專業(yè)生產(chǎn)內(nèi)容一家獨(dú)大;Web2.0 時(shí)代,提倡用戶自由創(chuàng)作的 UGC 內(nèi)容模式成為主流。
如今到了 Web3.0 時(shí)代,生成式 AI 相關(guān)技術(shù)的飛速發(fā)展使得 AI 寫作、AI 編程、AI 繪畫等新型內(nèi)容創(chuàng)作方式開(kāi)始顛覆內(nèi)容生產(chǎn)形式。圖文、視頻、數(shù)據(jù)等各類信息將融合形成虛實(shí)融合的內(nèi)容生產(chǎn)、傳輸與呈現(xiàn)體系,為內(nèi)容行業(yè)帶來(lái)了革命性的變化。
微軟旗下免費(fèi)的生成式 AI 助手 Copilot(圖源:微軟)
元宇宙場(chǎng)景的搭建需要 AI,元宇宙的交互需要 AI,將元宇宙作為企業(yè)標(biāo)志的 Meta 也需要 AI。
從扎克伯格“All in 元宇宙”開(kāi)始,Meta 已經(jīng)在元宇宙項(xiàng)目里虧損了上百億美元,股價(jià)直接性損失了約三分之二。
根據(jù) Meta 第三季度財(cái)報(bào)顯示,該公司第三季度營(yíng)收為 341.5 億美元,同比增長(zhǎng) 23.2%,比預(yù)期高出 7 億美元,其 GAAP 每股收益為 4.39 美元,也高于預(yù)期 0.76 美元,凈利潤(rùn)同比飆升 164% 至 115.8 億美元。
盈利背后,Meta 負(fù)責(zé)元宇宙業(yè)務(wù)的 Reality Labs(現(xiàn)實(shí)實(shí)驗(yàn)室)部門收入僅為 2.10 億美元,較去年同期的 2.85 億美元下降 26%,營(yíng)業(yè)虧損擴(kuò)大至 37.42 億美元,較去年同期的 36.72 億美元虧損增加了 2%,同時(shí),Reality Labs 的營(yíng)業(yè)虧損預(yù)計(jì)將在 2023 年還將繼續(xù)擴(kuò)大。
Meta 近年元宇宙部門虧損情況(圖源:Meta)
從財(cái)報(bào)上看,Meta 的元宇宙部門已經(jīng)連續(xù)兩年虧損百億美元以上,2022 年共計(jì)虧損 137.17 億美元,2021 年虧損 101.93 億美元,再加上今年肉眼可見(jiàn)的頹勢(shì),扎克伯格不得不承認(rèn)失敗,并開(kāi)啟成本控制計(jì)劃,雷厲風(fēng)行地對(duì)元宇宙業(yè)務(wù)下刀。
裁員之外,Meta 還叫停了部分 VR 設(shè)備的生產(chǎn),表示不會(huì)再為 Quest Pro 訂購(gòu)新的零部件,負(fù)責(zé)組裝的歌爾則只會(huì)在當(dāng)前零部件數(shù)量允許的情況下生產(chǎn) Quest Pro。
現(xiàn)在,Meta 還將重心轉(zhuǎn)向了元宇宙之后最為熱門的生成式 AI 領(lǐng)域,并在今年 3 月正式發(fā)布了大型語(yǔ)言模型 Llama,將 AI 視作公司下一個(gè)有可能帶動(dòng)元宇宙的新選擇。
在今年 6 月份,Meta 首席執(zhí)行官扎克伯格向員工宣布了一項(xiàng)計(jì)劃,將在其旗艦產(chǎn)品(如 Facebook 和 Instagram)中加入生成式 AI 文本、圖像和視頻生成器,不過(guò)扎克伯格將其描述為對(duì)元宇宙工作的擴(kuò)展而非替代 Meta 在那里的重心。
圖源:網(wǎng)絡(luò)
事實(shí)上,Meta 一直處于生成式人工智能研究的前沿,但其在將這些技術(shù)應(yīng)用到其產(chǎn)品上方面有些緩慢。扎克伯克表示,過(guò)去一年在生成式 AI 方面,我們看到了一些真正令人難以置信、質(zhì)量上有所突破的進(jìn)步,這給我們提供了機(jī)會(huì),現(xiàn)在可以把這項(xiàng)技術(shù)推向前進(jìn),并將其構(gòu)建到我們的每一個(gè)產(chǎn)品當(dāng)中。
或許對(duì)于 Meta 來(lái)說(shuō),元宇宙的步子跨得還是太大,公眾似乎還沒(méi)有完全接受 VR 頭顯和虛擬世界。因此在沒(méi)有成熟生態(tài)落地之前,讓元宇宙成為 AI 的載體或許是推廣元宇宙的更加穩(wěn)妥的選擇。
扎克伯格認(rèn)為,“人工智能驅(qū)動(dòng)的真實(shí)性和現(xiàn)實(shí)主義將在適當(dāng)?shù)臅r(shí)候贏得懷疑論者的青睞”。Meta 未來(lái)在數(shù)字/物理混合世界中生活、工作和娛樂(lè)的宏偉愿景將取決于 AI 的持續(xù)發(fā)展,Meta 將更專注于建立技術(shù)基礎(chǔ),并一步一步地將這一科幻愿景變?yōu)楝F(xiàn)實(shí)。
圖源:雷朋
現(xiàn)在,Meta 和 IBM 聯(lián)手 40 多家公司組織創(chuàng)建一個(gè)致力于開(kāi)源 AI 工作的行業(yè)組織,又聯(lián)合雷朋籌劃搭載 Meta AI 的第二代智能眼鏡“Ray-Ban Meta”。
在扎克伯格看來(lái),“眼鏡是 AI 的最佳硬件載體”,一手抓 AI,一手抓 XR,放不下“All in 元宇宙”的扎克伯格, 正在全速推進(jìn)智能 AI 和身臨其境的 XR 硬件,等待著 AI 帶動(dòng)元宇宙爆發(fā)的那一刻。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請(qǐng)聯(lián)系微信:vrtuoluo233 申請(qǐng)授權(quán),并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來(lái)源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來(lái)自互聯(lián)網(wǎng)或無(wú)法核實(shí)出處,如涉及版權(quán)問(wèn)題,請(qǐng)聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺(tái)
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息