游戲評測

推廣

行業(yè)應(yīng)用

【年度專題】3D AIGC 的 2023：離改變XR 內(nèi)容的生產(chǎn)關(guān)系或許還要一年

發(fā)布時間：2024-02-07 17:04 | 標(biāo)簽： XR AIGC

微信掃一掃：分享

微信里點“發(fā)現(xiàn)”，掃一下
二維碼便可將本文分享至朋友圈

文/VR陀螺 WiZ

2023 年，AIGC 的風(fēng)終于還是吹到了 3D 領(lǐng)域。一句話生成虛擬世界的口號從年初喊到了年尾，更別提剛剛結(jié)束的 CES 2024，直接將 AI 視作編織行業(yè)未來的變革技術(shù)。

AIGC 熱潮下，單視角生成多視角方案成為技術(shù)熱門；形態(tài)穩(wěn)定、紋理優(yōu)化成為新品焦點，重建大模型 LRM 的出現(xiàn)為市場結(jié)構(gòu)帶來全新變化……這一年，AIGC為虛擬內(nèi)容行業(yè)帶來了什么又改變了什么，VR陀螺對此專門與通義實驗室XR算法科學(xué)家董子龍進行對話，以下關(guān)于3D AIGC模型的盤點及趨勢總結(jié)或許可以給出一些答案。

2023 年，2D 擴散生成 3D 模型更受青睞

2023 年以 ChatGPT 的火爆全球作為開局，以支持圖像輸入的多模態(tài)大模型 GPT-4 的推出作為契機，大模型的多模態(tài)計算潛力開始在內(nèi)容生成領(lǐng)域發(fā)揮技術(shù)優(yōu)勢，全球頂尖的科技公司和想要抓住 AIGC 風(fēng)口的初創(chuàng)企業(yè)開始爭先恐后地推出 AI 驅(qū)動的 3D 模型生成器。

梳理過去一年全球 AI 企業(yè)以及其他科研機構(gòu)推出的模型后，董子龍認(rèn)為目前的 3D AIGC 方案主要還是包括兩種常見的技術(shù)路徑。

一是從 3D 數(shù)據(jù)直接回歸三維模型的方案。代表模型有 OpenAI 于 2023 年 5 月推出的的 Shap-E。

圖源：OpenAI

Shap-E 是一種在 3D 隱式函數(shù)空間上的潛擴散模型，能夠直接生成隱式函數(shù)的參數(shù)提取紋理網(wǎng)格模型。

訓(xùn)練 Shap-E 分為兩個階段：首先訓(xùn)練編碼器，該編碼器將 3D 資產(chǎn)確定性地映射到隱式函數(shù)的參數(shù)中；其次在編碼器的輸出上訓(xùn)練條件擴散模型。

該類模型的優(yōu)勢在于生成速度快，且生成效果較為穩(wěn)定。當(dāng)在配對的3D 和文本數(shù)據(jù)大型數(shù)據(jù)集上進行訓(xùn)練后，Shap-E 能夠在幾秒鐘內(nèi)生成復(fù)雜而多樣的 3D 資產(chǎn)。

Shap-E的生成效果展示（圖源：Shap-E）

但其缺點同樣明顯。該技術(shù)路徑的可行性建立在大量的 3D 數(shù)據(jù)訓(xùn)練之下，而目前 AIGC 領(lǐng)域的 3D 數(shù)據(jù)集合仍較為匱乏，僅有幾百萬量級。同時，該技術(shù)在通常情況下無法生成高質(zhì)量紋理，如果要給三維模型進行紋理貼圖，仍舊需要 2D 生成模型的助力。

因此，目前行業(yè)內(nèi)應(yīng)用更廣泛的另一種技術(shù)路徑，即借助 2D 擴散模型生成 3D 模型。該方法實現(xiàn)從文本到 3D 模型跨越的關(guān)鍵在于兩個技術(shù)點。

首先是 Loss 的計算，利用預(yù)訓(xùn)練的 2D 文生圖模型，計算出三維表征渲染出的 2D 圖像和文本之間的 Loss，間接判斷渲染出的圖像是否符合 2D 擴散模型的先驗知識。

其次是通過 NeRF、DMTet 等可微分、可渲染的三維表征渲染 2D 圖像，然后用2D文生圖模型監(jiān)督蒸餾，將Loss得到的梯度回傳到這些表征當(dāng)中，從而實現(xiàn)幾何形狀和顏色的優(yōu)化，得到可用的 3D 模型。

結(jié)合這兩個技術(shù)點，就可以在空間隨機采樣視點、渲染圖像、計算 loss、回傳梯度，并最終得到 3D 模型，該技術(shù)框架最早由谷歌 DreamFusion 提出。

目前大多數(shù) 3D 生成方法都借助2D擴散模型的技術(shù)框架形成了各自優(yōu)化的特點。代表模型有“RichDreamer”、“Make-It-3D”、以及“One-2-3-45++”等。

DreamFusion的生成效果展示（圖源：DreamFusion）

2023 年 8 月，來自上海交通大學(xué)、HKUST、微軟研究院的研究者們提出了 Make-It-3D 方法，通過使用 2D 擴散模型作為 3D-aware 先驗，從單個圖像中創(chuàng)建高保真度的 3D 物體。該框架不需要多視角圖像進行訓(xùn)練，并可應(yīng)用于任何輸入圖像。

圖源：Make-It-3D

2023 年 12 月，加州大學(xué)、清華大學(xué)、斯坦福大學(xué)共同開發(fā)了全新模型“One-2-3-45++”并將其開源，該模型僅通過圖片，就能在 1 分鐘內(nèi)將一張 RGB 圖像轉(zhuǎn)換為高精準(zhǔn) 3D 模型。

One-2-3-45++的核心技術(shù)原理主要包括三大塊：一致的多視角圖像生成、基于多視角的 3D 重建以及紋理優(yōu)化。以單張圖像作為輸入，One-2-3-45++通過微調(diào) 2D 擴散模型生成一致的多視角圖像，再將多視角圖像通過一對 3D 原生擴散網(wǎng)絡(luò)提升為 3D 模型，能夠在 20 秒內(nèi)生成初始紋理網(wǎng)格，并在大約一分鐘內(nèi)提供精細(xì)網(wǎng)格。

圖源：One-2-3-45++

RichDreamer 則出自通義實驗室XR，使用 G-buffer Objaverse 來訓(xùn)練多視角法向深度擴散模型（ND-MV）和深度條件控制的多視角反照率擴散模型（Albedo-MV），通過分?jǐn)?shù)蒸餾采樣（SDS）生成 3D 對象。

圖源：RichDreamer

在 2D 擴散生成 3D 的方案中，2D RGB擴散模型缺乏幾何先驗，僅依靠 2D RGB 擴散模型來優(yōu)化表面法線會導(dǎo)致優(yōu)化不穩(wěn)定，并且自然圖像中材質(zhì)和照明的解耦是另外一個具有挑戰(zhàn)性的問題。

而 RichDreamer 通過在大規(guī)模2D數(shù)據(jù)集LAION-2B 和 3D G-buffer Objaverse 數(shù)據(jù)集上訓(xùn)練法向深度擴散模型，同時引入反照率擴散模型以減輕生成材料中的混合照明效應(yīng)，顯著增強了細(xì)節(jié)的豐富性以及建模的穩(wěn)定性。

圖源：RichDreamer

除了以上代表模型外，2023 年值得關(guān)注 3D AIGC 模型還有很多，包括 LDM3D-VR、DMV3D、Zero-1-to-3、Neuralangelo、Magic3D、Fantasia 3D、Prolific-Dreamer，以及踩著 2023 的尾巴，成為 2024 年第一個矚目模型的 Genie 1.0 等。這些 AI 模型側(cè)重點各不相同，但都為剛剛起步的 3D AIGC 行業(yè)提供了不同的思路。

來自英偉達(dá)和約翰霍普金斯大學(xué)的研究人員提出的“Neuralangelo”可以利用神經(jīng)網(wǎng)絡(luò)重建 3D 物體，被 TIME 雜志評為“2023 年 200 個最佳發(fā)明”之一。

Meta 生成式AI 團隊發(fā)布了名為 ControlRoom3D 的 3D 室內(nèi)設(shè)計生成系統(tǒng)，只需要給出房間布局和風(fēng)格描述，AI 算法就能自動渲染出精細(xì)的3D 幾何結(jié)構(gòu)和材質(zhì)紋理。

蘋果公司正在研究的生成式 AI 技術(shù)“HUGS”經(jīng)過訓(xùn)練后，可以在約 30 分鐘內(nèi)生成數(shù)字人類分身，拓寬了 3D AIGC 技術(shù)的使用場景。

3D AIGC 的難點——“精準(zhǔn)高效”

“一句話生成 3D 模型”、“秒建虛擬世界”的口號已經(jīng)喊了一年，但 2023 年人們眼中真正做到能夠商用的“又快又好”的 3D AIGC 模型似乎仍未出現(xiàn)。

3D AIGC 模型的難點之一是如何在有限的 prompt 條件下盡可能準(zhǔn)確還原。在嘗試使用多個 3D AIGC 模型后我們可以發(fā)現(xiàn)，2023 年市面上大多數(shù)模型對于基礎(chǔ)的指令理解能力其實已經(jīng)十分優(yōu)秀，但對于日常生活中不太常見的關(guān)鍵詞很難做到準(zhǔn)確識別建模，而當(dāng)描述語句中出現(xiàn)多個角色時，甚至還會出現(xiàn)元素雜糅現(xiàn)象。

可能出現(xiàn)的多視角不一致問題（圖源：Repaint123）

在董子龍看來，3D 生成中的多對象雜糅問題主要有兩個原因：

首先是文生圖模型的底層邏輯。由于文生圖模型本質(zhì)是對圖像信息的學(xué)習(xí)整合，在融合數(shù)據(jù)庫中數(shù)十億級別圖像的過程中，不可避免會出現(xiàn)元素雜糅現(xiàn)象。這就要求圖像數(shù)據(jù)集要更加干凈，更有物體針對性。

其次是訓(xùn)練數(shù)據(jù)的文本問題。前文提到，目前主流的文本生成 3D 方法大多使用預(yù)訓(xùn)練的 2D 擴散模型，通過 SDS 優(yōu)化神經(jīng)輻射場（NeRF）生成 3D 模型。但這種預(yù)訓(xùn)練擴散模型提供的監(jiān)督僅限于輸入的文本本身，并未約束多視角間的一致性，導(dǎo)致生成模型幾何結(jié)構(gòu)差。

當(dāng)我們用中文 prompt 去命令一個由英文數(shù)據(jù)訓(xùn)練的模型時，模型需要通過將中文 prompt 翻譯成英文后再進行處理，這會帶來更多的未知的命令偏差。這一問題要求模型廠商對用戶輸入的 prompt 進行優(yōu)化微調(diào)，還需要對用戶進行 prompt 提示，給予沒有經(jīng)驗的使用者一些幫助。

針對多視角不一致的雅努斯問題（Janus Problem），業(yè)內(nèi)公認(rèn)的關(guān)鍵解決方案在于“文本/圖像+相機視角”的組合約束，比如說“Zero-1-to-3”方案，其出發(fā)點就在于利用大規(guī)模 3D 物體數(shù)據(jù)集以及固定相機視角的渲染圖像，以保證生成 3D 物體的幾何結(jié)構(gòu)一致性。

相機視角采樣（圖源：Repaint123）

該技術(shù)路線目前已經(jīng)廣泛應(yīng)用在3D生成的框架中，例如字節(jié)的MVDream 、港大的Wonder3D、騰訊的 SweetDreamer和SyncDreamer。

其中，MVDream 主要是從視頻擴散模型中得到靈感，能同時生成多個視角（4 個）的圖像，并在在 4 個視角間建立交叉注意力，以保持較好效果的一致性。

此外，RichDreamer 也在訓(xùn)練深度法向擴散模型之外部分延續(xù)了 MVDream 的思路，通過多視角深度法向擴散模型解決雅努斯問題。

國內(nèi)類似的工作還有很多。

2023 年 12 月，清華大學(xué)劉永進教授課題組提出了一種基于擴散模型的文生 3D 新模型“TICD”（Text-Image Conditioned Diffusion），在 T3Bench 數(shù)據(jù)集上達(dá)到了 SOTA 水平，無論是不同視角間的一致性，還是與提示詞的匹配度，都比此前大幅提升。

圖源：TICD

根據(jù)論文信息，TICD 首先采樣若干組正交的參考相機視角，使用 NeRF 渲染出對應(yīng)的參考視圖，然后對這些參考視圖運用基于文本的條件擴散模型，約束內(nèi)容與文本的整體一致性。

在此基礎(chǔ)上選取若干組參考相機視角，并對于每個視角渲染一個額外新視角下的視圖。接著以這兩個視圖與視角間的位姿關(guān)系作為新條件，使用基于圖像的條件擴散模型約束不同視角間的細(xì)節(jié)一致性。

結(jié)合兩種擴散模型的監(jiān)督信號，TICD 可對 NeRF 網(wǎng)絡(luò)的參數(shù)進行更新并循環(huán)迭代優(yōu)化，直到獲得最終的 NeRF 模型，并渲染出高質(zhì)量、幾何清晰且與文本一致的 3D 內(nèi)容。

TICD 方法將以文本為條件的和圖像為條件的多視角圖像納入 NeRF 優(yōu)化的監(jiān)督信號中，分別保證了 3D 信息與提示詞的對齊和 3D 物體不同視角間的強一致性，有效提升了生成 3D 模型的質(zhì)量。

圖源：TICD

在能夠準(zhǔn)確還原文本信息之后，3D AIGC 模型的另一難點則是如何盡可能快速生成模型。畢竟越能根據(jù)輸入 prompt 快速生成結(jié)果，就越能更快地對模型的錯誤理解做出更正，提高建模效率。

以 RichDreamer 為例。在董子龍的介紹中，該模型采用了優(yōu)化的框架，生成過程中需要進行數(shù)千次的迭代，其中的耗時主要出現(xiàn)在兩個階段。一是 NeRF 的圖像渲染，二是 SDS Loss 的計算。

其一的優(yōu)化方向在于采用更高效的 NeRF 方案，例如 3D 高斯?jié)姙R算法，可以將生成時間降低為分鐘級。

另一個優(yōu)化方向則是放棄對 SDS Loss 的優(yōu)化，重新回到網(wǎng)絡(luò)前向推理的框架，該方法可以從圖片或文本直接推理出 NeRF 場，3D 生成時間可以直接降到秒級。但這兩種方法在生成效果上都會出現(xiàn)損失，且生成的結(jié)果也較為單一。

在商用模型上，則出現(xiàn)了 Tripo 以及 Genie 1.0 等為代表的主流兩階段生成方式。

圖源：Luma AI

其中，Genie 1.0 號稱只需要輸入一句文字提示就能在 10 秒內(nèi)生成四個高保真的 3D 模型，用戶還可以從中選擇，并在三維網(wǎng)格界面內(nèi)對模型的紋理進行編輯。

但實際使用下來可以發(fā)現(xiàn)，Genie 1.0 的 10 秒生成僅限第一階段的草圖模型階段，在二階段將“半成品”生成高分辨精細(xì)模型的過程仍需要花費數(shù)十分鐘時間。

使用 Genie 1.0 生成的模型

雖然并沒能真正做到秒生模型，但從生成結(jié)果上方看，Genie 1.0 生成的最終結(jié)果在立體度和真實感方面表現(xiàn)不俗。同時，Genie 1.0 不僅內(nèi)置編輯功能，生成的模型還能導(dǎo)出到 Blender、Unity 等軟件中進一步完善，無縫銜接游戲、VR 等 3D 內(nèi)容項目。因此，這種兩階段生成方式目前看來還是更加實用也更加成熟，很大概率將在 2024 年繼續(xù)出彩。

2023年值得關(guān)注的 3D-AIGC 開源模型

AIGC 賦能 XR 內(nèi)容產(chǎn)業(yè)，但前提是成為合格的生產(chǎn)力工具

3D AIGC 的火熱之下，最先被抬上“崛起隊列”的是游戲、動畫影視，以及以 XR 為代表的的虛擬內(nèi)容領(lǐng)域，其核心都在于提高創(chuàng)建3D資產(chǎn)的效率。

3D AIGC 在游戲領(lǐng)域的一大應(yīng)用是復(fù)雜場景生成。相對于人物、動物等游戲可活動角色，3D 場景對建模質(zhì)量要求不高，且可以容忍一定程度的模型重復(fù)，但由于涉及大空間布局，3D 場景并不適合單物體建模流程。

3D AIGC 模型生成場景（圖源：3D-GPT）

從結(jié)構(gòu)上看，可交互的 3D 場景基本都是由空間和物體構(gòu)成的，如果直接將文生 3D 的框架直接應(yīng)用于場景生成的話，模型漸進式貼片方式生成的場景質(zhì)量并不可控，且最終生成的場景實際上只是一個大型的一體式模型，并沒有分開表達(dá)，這在商業(yè)應(yīng)用場景中的價值并不高。

因此，對于文生 3D 場景的較好思路在于先用輸入文本生成空間，再在空間中生成物體布局。每個布局都使用包圍盒表示，再在每個包圍盒中解析對應(yīng)的文本信息，并用文生 3D 模型生成該位置的 3D 對象，最終集合成一個強結(jié)構(gòu)性的 3D 場景。此類對輸入文本的結(jié)構(gòu)化理解也是現(xiàn)在大語言模型更擅長的。

2023 年 2 月，Blockade Labs 上線 AI 工具“Skybox AI”，使用者無需代碼基礎(chǔ)和高性能硬件即可快速構(gòu)建一個超高清 6K 分辨率的 360 度全景圖像。Skybox AI 能夠?qū)⑸傻?2D 圖像自動升維為 3D 自由探索版，用戶可以根據(jù)鼠標(biāo)所指的視點在圖片中自由漫游，實現(xiàn)動態(tài)光線變化。

圖源：Skybox AI

這些 3D 場景的 AI 化生產(chǎn)流程一定程度上是也對游戲引擎極佳的技術(shù)補充。像 Unity 這樣的 3D 游戲引擎目前更多的是充當(dāng)資產(chǎn)管理工具和應(yīng)用平臺的角色，本身并不負(fù)責(zé)生成 3D 資產(chǎn)，3D AIGC 技術(shù)的出現(xiàn)將使更多的游戲開發(fā)者將能夠在 AI 加持下以更低的成本去開發(fā) 3D、VR 內(nèi)容。此前，Unity 也一直在支持集成第三方的 AI 生成能力，并在人物、物體的是 AI 生成方向已有部分動作。而諸如樹、河流等環(huán)境矢量場景元素的 AI 生成應(yīng)用更為廣泛。

只是由于多維參數(shù)化生成，物體多樣性方面受限較多，因此，董子龍認(rèn)為 3D AIGC 技術(shù)會成為游戲生產(chǎn)環(huán)節(jié)的一個比較重要的工具，但其在游戲領(lǐng)域更多起到的還是輔助作用，難以在目前階段帶來突破性的變化。

圖源：Unity

主要原因在于目前整個游戲的生產(chǎn)鏈路已經(jīng)非常成熟，并不會馬上因為 AI 的介入而顛覆整個生產(chǎn)過程，這一點哪怕是文本生成、圖像生成模型也還沒到完全可替代人工的程度。

不過可以肯定的是，隨著 3D AIGC 技術(shù)成熟到在生產(chǎn)效率、成品質(zhì)量都足以媲美傳統(tǒng)游戲 3D 內(nèi)容生產(chǎn)模式的時候，AI 在游戲領(lǐng)域勢必發(fā)揮更大的作用。

畢竟，智能時代下，無論是在個人場景下的各類消費電子產(chǎn)品 APP，還是公共場景下的各類教育、醫(yī)療、文旅產(chǎn)品的視覺展示，對于 3D 技術(shù)的使用率都有增無減。建立在虛擬世界基礎(chǔ)上的 XR 行業(yè)更是如此，3D AIGC 技術(shù)的出現(xiàn)大概率會對尚在發(fā)展初期的 XR 內(nèi)容行業(yè)帶來顛覆性的變革。

圖源：索尼

設(shè)想一下，在之前我們戴上 XR 設(shè)備之后往往會變得無所適從，應(yīng)用場景的缺失導(dǎo)致我們最多只是在體驗游戲、影音之后就草草結(jié)束。而當(dāng) AI 生成技術(shù)足夠成熟之后，我們一戴上眼鏡便可以通過語言手勢創(chuàng)造出一個屬于自己的完整三維世界，所有的角色物體場景都可以“一句話生成”，動態(tài)且可交互。

此外，大語言模型還可以將 3D 空間中的每一個元素“智能化”，電影《黑鏡》中的一些科幻場景將變?yōu)楝F(xiàn)實。如果這些設(shè)想成真的話，XR 的吸引力將很難抵擋得住。

而這一切的前提是 3D AIGC 技術(shù)能成熟到足以作為合格的生產(chǎn)力工具。

目前 Tripo AI、Meshy AI、LUMA AI 等都推出自己的平臺，也逐漸的走向應(yīng)用場景。董子龍樂觀估計，3D 生成模型真正成為生產(chǎn)力工具的時刻將出現(xiàn)在 2024 年，但如果要實現(xiàn)《黑鏡》中秒生物體的程度或許還需要兩三年。畢竟此前文生圖模型從原型到真正投入應(yīng)用也用了近兩年時間，而文生 3D 相比文生圖難度更高、挑戰(zhàn)更多，因此其最終成熟落地所需的準(zhǔn)備時間并不會比文生圖模型更短。

圖源：Tripo AI

這一過程目前還在加速。從技術(shù)上看，3D AIGC 技術(shù)目前已經(jīng)出現(xiàn)了一些技術(shù)突破的路徑。

其中既包括3D高斯?jié)姙R等三維表征上的技術(shù)突破，也包括針對物體圖像三維數(shù)據(jù)的數(shù)據(jù)集的突破，比如MVImgNet數(shù)據(jù)集。

MVImgNet 是由港中大（深圳）韓曉光團隊推出的圖像數(shù)據(jù)集，包含了超過 21 萬個視頻的 650 萬幀圖像，涵蓋了 238 個類別的真實世界物體。MVImgNet 包含了 238 個日常生活中常見的物體類別（以人為中心），其中有 65 個類別與 ImageNet （以植物、動物等自然物體為中心）重疊。得益于數(shù)據(jù)的多視角特性，MVImgNet 在圖像分類、自監(jiān)督對比學(xué)習(xí)以及顯著性物體檢測等任務(wù)上表現(xiàn)優(yōu)秀，生成模型獲得了很好的視角一致性。

圖源：MVImgNet

在以上技術(shù)難題實現(xiàn)突破后，3D AIGC 才有可能作為一項生產(chǎn)力工具，以適配 XR 內(nèi)容的生產(chǎn)模式。

小結(jié)

總的來看，以 2022 年末的 DreamFusion 為開端，3D AIGC 技術(shù)基本已經(jīng)實現(xiàn)了從無到有的跨越。從 0 到 1 是最難的，3D AIGC 技術(shù)已經(jīng)跨過了這一個坎，剩下的就是從 1 開始的不斷細(xì)化。

從技術(shù)上來看，2023 年 3D AIGC 領(lǐng)域出現(xiàn)了熱門的單視角生成多視角的技術(shù)方案，圖生 3D 成為比文生 3D 更為貼近應(yīng)用場景的生成模式。

而從應(yīng)用場景上看，所有與 3D 資產(chǎn)密不可分的行業(yè)未來都會成為 3D AIGC 技術(shù)的潛在客戶，在這方面游戲市場搶先入局，但以 XR 為代表的虛擬產(chǎn)業(yè)將成為更大贏家。

如果將視野拉得更長點，3D視頻生成正在路上；國家廣播電視總局批復(fù)同意在華為技術(shù)有限公司設(shè)立“超高清技術(shù)創(chuàng)新與應(yīng)用國家廣播電視總局重點實驗室”，鼓勵 4K/8K 電視機、虛擬現(xiàn)實終端、裸眼 3D 顯示終端等產(chǎn)品入戶，AIGC+XR 迎來新應(yīng)用場景?？梢灶A(yù)見，在世界嘗試和了解 AIGC 的 2023 年之后，AI 大爆發(fā)的 2024 年將帶給我們更多新變化，AI 驅(qū)動內(nèi)容生產(chǎn)的時代已經(jīng)到來。

投稿/爆料：tougao@youxituoluo.com

稿件/商務(wù)合作：六六（微信 13138755620）

加入行業(yè)交流群：六六（微信 13138755620）