游戲評(píng)測(cè)

推廣

最新資訊

從Emu Video到Meta AI，扎克伯格開(kāi)始搶救式微的元宇宙

發(fā)布時(shí)間：2024-01-22 10:32 | 標(biāo)簽： AI Meta 元宇宙 AIGC

微信掃一掃：分享

微信里點(diǎn)“發(fā)現(xiàn)”，掃一下
二維碼便可將本文分享至朋友圈

文/VR陀螺 WiZ

在元宇宙投入看不到回報(bào)的局面下，Meta 將目光重新轉(zhuǎn)向了 AI。

1月19日，Meta CEO 扎克伯格在 Instagram 上分享了一則短視頻，主角悄然從此前時(shí)常在其社交媒體中刷臉的 Quest 系列變成了 AI。

在視頻中，扎克伯格強(qiáng)調(diào)，“這項(xiàng)技術(shù)（AI）非常重要”、“ 下一代服務(wù)需要構(gòu)建全面的通用智能、構(gòu)建最佳的 AI Agent、面向創(chuàng)作者的人工智能、面向企業(yè)的人工智能”。

扎克伯格：AI 大升級(jí)！（圖源：Instagram）

這看起來(lái)是 Meta 想要將 AI 作為實(shí)現(xiàn)元宇宙愿景抓手的一次強(qiáng)調(diào)。畢竟 Meta 元宇宙業(yè)務(wù)不溫不火，而其在 AI 市場(chǎng)卻表現(xiàn)出色。僅從市場(chǎng)來(lái)看，在 AI 領(lǐng)域的投入幫助 Meta 在今年三季度實(shí)現(xiàn)凈利潤(rùn)增 164%。扎克伯格本人更是直接表示 AI 將成為 Meta 2024 年最大投資領(lǐng)域。

如今，隨著扎克伯格計(jì)劃將 Meta AI 基礎(chǔ)設(shè)施上升至 60 萬(wàn)臺(tái) H100 數(shù)量級(jí)，AI 在 2024 年已經(jīng)被 Meta 寄予了拯救元宇宙帝國(guó)的厚望。

圖源：網(wǎng)絡(luò)

生成式AI工具是搭建元宇宙的剛需

對(duì)于 AI，Meta 更關(guān)注也更得心應(yīng)手的還是與元宇宙高度適配的 AIGC 模型，在扎克伯格的元宇宙設(shè)想中，AI 不僅能完成從文字到圖像、文字到三維模型的跨越，同樣也要能做到文生視頻。

去年 9 月，Emu（Expressive Media Universe）在 Meta Connect 大會(huì)上首次亮相。彼時(shí)，扎克伯格還將 Emu 定位為 Meta AI 的 Imagine 功能的動(dòng)力來(lái)源，并計(jì)劃與 Meta 旗下 Facebook、Instagram 等社交平臺(tái)深度綁定。

但不久前，這一項(xiàng)目終于有了新進(jìn)展。Meta 在其官方網(wǎng)站展示了兩個(gè)基于 Emu 的 AI 新工具：Emu Edit 和 Emu Video，不僅在圖像生成上實(shí)現(xiàn)了扎克伯格當(dāng)初夸下的?？冢踔吝€出人意料地造出了當(dāng)下熱門的“AI 生成視頻”功能。

其中，Emu Edit 旨在為用戶提供對(duì)圖像編輯的精細(xì)控制。其類似于 Adobe Photoshop 此前推出的“生成填充”功能，開(kāi)創(chuàng)了一種獨(dú)特的圖像處理方法，用戶可以輸入基于文本的指令來(lái)更改圖像。

Emu Video 則區(qū)別于圖像編輯，它是一種專門的增強(qiáng)視頻生成技術(shù)，能夠響應(yīng)包括純文本、純圖像在內(nèi)的各種輸入，提供了一種簡(jiǎn)單的文本到視頻生成方法。

圖源：Emu Video

對(duì)于將元宇宙作為企業(yè)代名詞的 Meta 來(lái)說(shuō)，元宇宙的風(fēng)已經(jīng)開(kāi)始轉(zhuǎn)向 AI+虛擬現(xiàn)實(shí)，AI 工具 Emu Video 和 Emu Edit 的出現(xiàn)自然也被視作 Meta 推進(jìn)人工智能驅(qū)動(dòng)內(nèi)容生成的一項(xiàng)戰(zhàn)略舉措。

特別是 Emu Video，在 Meta 的描述中，其將成為 Runway 和 Pika Labs 等熱門品牌的主要競(jìng)爭(zhēng)對(duì)手，有助于將創(chuàng)作權(quán)利下放給“有想法的人”而不只是專業(yè)內(nèi)容創(chuàng)作者。

在一篇博客文章中，Meta 的 AI 研究人員解釋說(shuō)，AI 圖像生成通常是一個(gè)循序漸進(jìn)的過(guò)程，用戶嘗試提示，生成的圖片并不能百分百完全符合他們的想法，用戶將需要不斷調(diào)整提示，直到創(chuàng)建的圖像更接近他們想象的圖像。

AI 視頻生成同樣如此，為了減少生成過(guò)程復(fù)雜性，Emu Video 選擇了一種更為聰明的辦法，通過(guò)細(xì)致拆分操作過(guò)程并采用文本+圖像兼容輸入的方式優(yōu)化生成結(jié)果準(zhǔn)確性。

具體來(lái)看，Emu Video 在 Emu 模型基礎(chǔ)上，利用了一種基于擴(kuò)散模型的文本到視頻生成的簡(jiǎn)單方法，通過(guò)明確的圖像條件來(lái)分解文本到視頻生成的過(guò)程。

圖源：Emu Video

在 Emu Video 的應(yīng)用場(chǎng)景下，文本到視頻生成分解為兩個(gè)子問(wèn)題：首先生成圖像，然后使用生成的圖像和文本生成視頻。通過(guò)將文本到圖像模型與視頻生成模型解耦，Emu Video 能夠在生成高質(zhì)量視頻的同時(shí)保留文本到圖像模型的視覺(jué)多樣性、風(fēng)格和質(zhì)量。與先前的方法相比，Emu Video 在 MSVD 和 MSR-VTT 數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。

圖源：Emu Video

相關(guān)論文中，Emu Video 項(xiàng)目的研究人員表示這種視頻生成的“因式分解”方法使得有效地訓(xùn)練視頻生成模型成為可能，因式分解的視頻生成可以通過(guò)單一擴(kuò)散模型實(shí)現(xiàn)。研究人員只需要提出關(guān)鍵的設(shè)計(jì)決策，例如調(diào)整視頻擴(kuò)散的噪聲時(shí)間表，就能直接生成更高分辨率視頻的多階段訓(xùn)練。

Emu Video 簡(jiǎn)化了視頻生成過(guò)程，無(wú)需像 Make-A-Video 那樣需要更復(fù)雜的多模型方法，僅使用兩個(gè)擴(kuò)散模型就能以每秒 16 幀的速度生成 512x512 像素大小的 4 秒視頻。

同時(shí)，由于輸入文本的連貫性，Emu Video 能夠準(zhǔn)確地將文本轉(zhuǎn)換為連續(xù)的視覺(jué)敘事，這一點(diǎn)有別于大多數(shù)現(xiàn)有模型和商業(yè)解決方案。

圖源：Emu Video

與現(xiàn)有的文本到視頻生成方法相比，由于訓(xùn)練模型時(shí)使用了包含 3400 萬(wàn)個(gè)經(jīng)過(guò)許可的視頻-文本對(duì)的完整數(shù)據(jù)集，Emu Video 在視頻質(zhì)量和準(zhǔn)確度方面都表現(xiàn)更好，同時(shí)模型也更簡(jiǎn)單，只有兩個(gè)模型級(jí)聯(lián)，參數(shù)量更小，總共只有 60 億個(gè)參數(shù)。

并且在人類評(píng)估中，Emu Video 也獲得更多好評(píng)，相比 Make-A-Video，96%的受訪者認(rèn)為 Emu Video 生成的視頻質(zhì)量更好，85%的受訪者認(rèn)為 Emu Video 對(duì)于文本理解的準(zhǔn)確度要更勝一籌。

在人類評(píng)估中，Emu Video 生成的視頻在質(zhì)量上相比于 Google 的 Imagen Video，提高了 81%；相比于 Nvidia 的 PYOCO，提高了 90%；相比于 Meta 的 Make-A-Video，提高了 96%；與商業(yè)解決方案 RunwayML 的 Gen2 和 Pika Labs 相比同樣更具優(yōu)勢(shì)。

研究人員對(duì) Emu Video 的評(píng)估結(jié)果（圖源：Emu Video）

Meta AI 改變?cè)钪嫔缃惑w驗(yàn)

目前，Emu Video 和 Emu Edit 仍在開(kāi)發(fā)中，沒(méi)有確定公開(kāi)發(fā)布的時(shí)間表。但 Meta 積極的生成式 AI 研究預(yù)示著更多變革性的元宇宙社交體驗(yàn)即將到來(lái)。

作為一家社交媒體起家的科技企業(yè)，Meta 如果只靠單純的硬件系統(tǒng)是無(wú)法搭建起能用的元宇宙的，一個(gè)完整的元宇宙空間剛需海量的內(nèi)容生產(chǎn)。

但依靠專業(yè)從業(yè)人員的 PGC 內(nèi)容生產(chǎn)方式成本過(guò)高，依靠用戶生成的 UGC 方式又難以確保內(nèi)容質(zhì)量，因此，節(jié)約人力、提升效率、同時(shí)又有生成內(nèi)容質(zhì)量下限保證的 AIGC 內(nèi)容方式成為一種更佳的選擇，將有助于元宇宙快速構(gòu)建包括文字、語(yǔ)音、3D 圖像、視頻等多媒體內(nèi)容基礎(chǔ)設(shè)施。

AI 生成 3D 建模（圖源：Stability AI）

Emu Video 和 Emu Edit 的推出正是建立在 Meta 的元宇宙戰(zhàn)略之上，通過(guò)平臺(tái)內(nèi)的編輯和創(chuàng)建，Meta 能夠推動(dòng)內(nèi)容創(chuàng)作者在整個(gè)元宇宙系統(tǒng)中的參與度，也將用戶更牢固地鎖定在 Meta 的社交生態(tài)中。

同時(shí)，這也是 Meta AI 開(kāi)發(fā)過(guò)程中至關(guān)重要的一環(huán)。對(duì)于 Meta 來(lái)說(shuō)，在其社交媒體平臺(tái)上引入基于 AI 的原生圖像編輯功能似乎是一件輕而易舉的事。有很多類似的工具可用，例如 Google Photos Magic Editor 和 Adobe 的 Photoshop 生成填充，但對(duì)于 Instagram 和 Facebook 用戶來(lái)說(shuō)，不必跳轉(zhuǎn)到第三方服務(wù)顯然對(duì)于營(yíng)造獨(dú)立的元宇宙社區(qū)更為方便。

此前，Meta 已展示了 AI 在 3D 圖像建模方面的強(qiáng)大生產(chǎn)力。

在 2023 年 9 月份，扎克伯格與麻省理工學(xué)院科學(xué)家 Lex Fridman 的一番隔空對(duì)話成功破圈，相關(guān)視頻播放量快速突破千萬(wàn)，在社交網(wǎng)絡(luò)上掀起了一陣 VR 熱潮。

在這次對(duì)話中，扎克伯格展示了 Meta 的新型 Codec 虛擬現(xiàn)實(shí)化身。與 Meta 最初略顯簡(jiǎn)陋的 Horizon Worlds 虛擬卡通化身不同，Codec 會(huì)通過(guò)頭顯掃描技術(shù)檢測(cè)并構(gòu)建用戶面部的 3D 模型，再由機(jī)器學(xué)習(xí)實(shí)現(xiàn)驅(qū)動(dòng)，實(shí)時(shí)映射到 3D 化身上形成動(dòng)作。

從公開(kāi)的視頻來(lái)看，大至全身動(dòng)作，小至表情細(xì)節(jié)，新形象已經(jīng)做到和真人幾乎一致的自然天成。在扎克伯格的視角看，“這觸及了增強(qiáng)現(xiàn)實(shí)愿景的核心，即無(wú)論你身在世界何處，它都能提供一種臨場(chǎng)感。”

圖源：YouTube/Lex Fridman Podcast

這是一次成功的營(yíng)銷，Meta 不僅探索了 AI+VR 的另一種選擇，還展示了元宇宙社交的新變革。

元宇宙中的社交不用再以簡(jiǎn)潔的虛擬卡通形象作為臉面，每個(gè)人都能在 AI 技術(shù)加持下創(chuàng)造出自己的真實(shí)掃描建模，而除了普通的日常通信、會(huì)議交流之外，生成的逼真建模形象也將可以直接用于視頻直播、聊天機(jī)器人、企業(yè)營(yíng)銷等場(chǎng)景，數(shù)字人建模成本直接打骨折。

再加上 Emu Video 的視頻生成技術(shù)，甚至連數(shù)字人動(dòng)畫制作這一步也可以精簡(jiǎn)，配合 GPT 真正做到“給我一段描述，還你一個(gè)有血有肉的復(fù)制人”。

當(dāng)然，要實(shí)現(xiàn)這些設(shè)想還需要給 AI 們幾年時(shí)間，畢竟目前看來(lái)，無(wú)論是 Emu Video 還是 pika，他們的視頻成品看起來(lái)更像是幾張“動(dòng)起來(lái)”的卡通圖片的組合，人物動(dòng)作幅度處處受限，場(chǎng)景切換前后也難以形成邏輯。

圖源：Pika 1.0

同時(shí)，在模型的訓(xùn)練和推斷階段，Emu Video 也還存在一些不足。但這些問(wèn)題隨著人工智能合成的成熟都將逐一得到解決。

動(dòng)作方面，不久前，阿里研究團(tuán)隊(duì)構(gòu)建了一種名為 Animate Anyone 的方法，只需要一張人物照片，再配合骨骼動(dòng)畫引導(dǎo)，就能生成自然的動(dòng)畫視頻。

圖源：Animate Anyone

細(xì)微表情方面，慕尼黑工業(yè)大學(xué)等機(jī)構(gòu)研究人員也提出了 GaussianAvatars 方法，基于三維高斯 splats 可以創(chuàng)建表情，姿態(tài)和視角完全可控的逼真頭部虛擬。

圖源：GaussianAvatars

未來(lái)隨著多項(xiàng)技術(shù)的融合，AI 視頻的動(dòng)作表情將越來(lái)越靈動(dòng)，文生視頻技術(shù)落地應(yīng)用正在成為可能。

元宇宙式微，Meta 不得不抓住 AI+內(nèi)容生態(tài)的救命稻草

生成式 AI 熱度空前，發(fā)展路徑已日趨明朗。日前，紅杉資本的兩位合伙人 Sonya Huang 和 Pat Grady 發(fā)表了一篇名為《Generative AI: A Creative New World》的文章，認(rèn)為 AI 應(yīng)用發(fā)展將遵循從文本、代碼、圖像、語(yǔ)音領(lǐng)域向視頻、3D 領(lǐng)域升級(jí)的主要路徑。

而從商業(yè)市場(chǎng)上看，IDC 在其最近的一份報(bào)告中預(yù)計(jì)全球企業(yè)在生成式 AI 上的投資將從 2023 年的超 194 億美元倍增至 2024 年的 401 億美元，2027 年將進(jìn)一步增長(zhǎng)至 1511 億美元。雖然生成式 AI 在 2023 年僅占人工智能總支出的 9%，但該公司預(yù)計(jì)這一比例將在五年內(nèi)上升到 28%。

如今，AI 已經(jīng)深入各行各業(yè)，其中就包括已許久未能掀起波瀾的元宇宙產(chǎn)業(yè)。對(duì)于元宇宙來(lái)說(shuō)，AI 目前已經(jīng)與“內(nèi)容”深度綁定。

整個(gè)互聯(lián)網(wǎng)時(shí)代，內(nèi)容生產(chǎn)方式幾經(jīng)變化。在 Web1.0 時(shí)代，電視、媒體行業(yè)主導(dǎo)的 PGC 專業(yè)生產(chǎn)內(nèi)容一家獨(dú)大；Web2.0 時(shí)代，提倡用戶自由創(chuàng)作的 UGC 內(nèi)容模式成為主流。

如今到了 Web3.0 時(shí)代，生成式 AI 相關(guān)技術(shù)的飛速發(fā)展使得 AI 寫作、AI 編程、AI 繪畫等新型內(nèi)容創(chuàng)作方式開(kāi)始顛覆內(nèi)容生產(chǎn)形式。圖文、視頻、數(shù)據(jù)等各類信息將融合形成虛實(shí)融合的內(nèi)容生產(chǎn)、傳輸與呈現(xiàn)體系，為內(nèi)容行業(yè)帶來(lái)了革命性的變化。

微軟旗下免費(fèi)的生成式 AI 助手 Copilot（圖源：微軟）

元宇宙場(chǎng)景的搭建需要 AI，元宇宙的交互需要 AI，將元宇宙作為企業(yè)標(biāo)志的 Meta 也需要 AI。

從扎克伯格“All in 元宇宙”開(kāi)始，Meta 已經(jīng)在元宇宙項(xiàng)目里虧損了上百億美元，股價(jià)直接性損失了約三分之二。

根據(jù) Meta 第三季度財(cái)報(bào)顯示，該公司第三季度營(yíng)收為 341.5 億美元，同比增長(zhǎng) 23.2%，比預(yù)期高出 7 億美元，其 GAAP 每股收益為 4.39 美元，也高于預(yù)期 0.76 美元，凈利潤(rùn)同比飆升 164% 至 115.8 億美元。

盈利背后，Meta 負(fù)責(zé)元宇宙業(yè)務(wù)的 Reality Labs（現(xiàn)實(shí)實(shí)驗(yàn)室）部門收入僅為 2.10 億美元，較去年同期的 2.85 億美元下降 26%，營(yíng)業(yè)虧損擴(kuò)大至 37.42 億美元，較去年同期的 36.72 億美元虧損增加了 2%，同時(shí)，Reality Labs 的營(yíng)業(yè)虧損預(yù)計(jì)將在 2023 年還將繼續(xù)擴(kuò)大。

Meta 近年元宇宙部門虧損情況（圖源：Meta）

從財(cái)報(bào)上看，Meta 的元宇宙部門已經(jīng)連續(xù)兩年虧損百億美元以上，2022 年共計(jì)虧損 137.17 億美元，2021 年虧損 101.93 億美元，再加上今年肉眼可見(jiàn)的頹勢(shì)，扎克伯格不得不承認(rèn)失敗，并開(kāi)啟成本控制計(jì)劃，雷厲風(fēng)行地對(duì)元宇宙業(yè)務(wù)下刀。

裁員之外，Meta 還叫停了部分 VR 設(shè)備的生產(chǎn)，表示不會(huì)再為 Quest Pro 訂購(gòu)新的零部件，負(fù)責(zé)組裝的歌爾則只會(huì)在當(dāng)前零部件數(shù)量允許的情況下生產(chǎn) Quest Pro。

現(xiàn)在，Meta 還將重心轉(zhuǎn)向了元宇宙之后最為熱門的生成式 AI 領(lǐng)域，并在今年 3 月正式發(fā)布了大型語(yǔ)言模型 Llama，將 AI 視作公司下一個(gè)有可能帶動(dòng)元宇宙的新選擇。

在今年 6 月份，Meta 首席執(zhí)行官扎克伯格向員工宣布了一項(xiàng)計(jì)劃，將在其旗艦產(chǎn)品（如 Facebook 和 Instagram）中加入生成式 AI 文本、圖像和視頻生成器，不過(guò)扎克伯格將其描述為對(duì)元宇宙工作的擴(kuò)展而非替代 Meta 在那里的重心。

圖源：網(wǎng)絡(luò)

事實(shí)上，Meta 一直處于生成式人工智能研究的前沿，但其在將這些技術(shù)應(yīng)用到其產(chǎn)品上方面有些緩慢。扎克伯克表示，過(guò)去一年在生成式 AI 方面，我們看到了一些真正令人難以置信、質(zhì)量上有所突破的進(jìn)步，這給我們提供了機(jī)會(huì)，現(xiàn)在可以把這項(xiàng)技術(shù)推向前進(jìn)，并將其構(gòu)建到我們的每一個(gè)產(chǎn)品當(dāng)中。

或許對(duì)于 Meta 來(lái)說(shuō)，元宇宙的步子跨得還是太大，公眾似乎還沒(méi)有完全接受 VR 頭顯和虛擬世界。因此在沒(méi)有成熟生態(tài)落地之前，讓元宇宙成為 AI 的載體或許是推廣元宇宙的更加穩(wěn)妥的選擇。

扎克伯格認(rèn)為，“人工智能驅(qū)動(dòng)的真實(shí)性和現(xiàn)實(shí)主義將在適當(dāng)?shù)臅r(shí)候贏得懷疑論者的青睞”。Meta 未來(lái)在數(shù)字/物理混合世界中生活、工作和娛樂(lè)的宏偉愿景將取決于 AI 的持續(xù)發(fā)展，Meta 將更專注于建立技術(shù)基礎(chǔ)，并一步一步地將這一科幻愿景變?yōu)楝F(xiàn)實(shí)。

圖源：雷朋

現(xiàn)在，Meta 和 IBM 聯(lián)手 40 多家公司組織創(chuàng)建一個(gè)致力于開(kāi)源 AI 工作的行業(yè)組織，又聯(lián)合雷朋籌劃搭載 Meta AI 的第二代智能眼鏡“Ray-Ban Meta”。

在扎克伯格看來(lái)，“眼鏡是 AI 的最佳硬件載體”，一手抓 AI，一手抓 XR，放不下“All in 元宇宙”的扎克伯格，正在全速推進(jìn)智能 AI 和身臨其境的 XR 硬件，等待著 AI 帶動(dòng)元宇宙爆發(fā)的那一刻。

投稿/爆料：tougao@youxituoluo.com

稿件/商務(wù)合作：六六（微信 13138755620）

加入行業(yè)交流群：六六（微信 13138755620）

版權(quán)申明：本文為VR陀螺原創(chuàng)，任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請(qǐng)聯(lián)系微信：vrtuoluo233 申請(qǐng)授權(quán)，并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來(lái)源、作者以及原文鏈接信息，不得擅自更改內(nèi)容，違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來(lái)自互聯(lián)網(wǎng)或無(wú)法核實(shí)出處，如涉及版權(quán)問(wèn)題，請(qǐng)聯(lián)系本網(wǎng)站協(xié)商處理。