編譯/VR陀螺
近日,蘋果公司展示了其新的人工智能系統(tǒng)GAUDI,該系統(tǒng)可以根據(jù)文本提示創(chuàng)建3D場景,是一款基于新一代NeRFs的生成式人工智能系統(tǒng)。
所謂的神經(jīng)渲染能夠?qū)⑷斯ぶ悄芤胗嬎銠C(jī)圖形。例如,Nvidia的人工智能研究人員正在展示如何從照片中創(chuàng)建3D物體,谷歌正在依靠神經(jīng)輻射場(NeRFs)進(jìn)行沉浸式視圖或開發(fā)用于渲染人物的NeRFs。
到目前為止,NeRFs主要是作為3D模型和3D場景的一種神經(jīng)存儲介質(zhì),然后可以從不同的攝像機(jī)視角進(jìn)行渲染,這種視角就是經(jīng)常顯示的攝像機(jī)在房間里或物體周圍的移動方式。用于VR體驗的 NeRFs 的初步實驗也在進(jìn)行中。
但是,如果NeRFs從不同角度逼真地呈現(xiàn)圖像的能力可以用于生成式人工智能呢?像OpenAI的DALL-E 2或谷歌的Imagen和Parti這樣的人工智能系統(tǒng)顯示了可控生成式人工智能的潛力,但只適用于2D圖像和圖形。
谷歌在2021年底通過Dream Fields展示了3D人工智能的生成,這個人工智能系統(tǒng)結(jié)合了NeRFs生成3D視圖的能力和OpenAI的CLIP評估圖像內(nèi)容的能力。其結(jié)果是,Dream Fields生成的NeRFs與文本描述相匹配。
現(xiàn)在,蘋果的人工智能團(tuán)隊正在推出GAUDI,這是一個用于生成沉浸式3D場景的神經(jīng)架構(gòu),該人工智能系統(tǒng)可以根據(jù)文本提示創(chuàng)建3D場景。
圖源:蘋果
例如,雖然谷歌致力于用Dream Fields生成單個對象,但將生成式人工智能擴(kuò)展到完全無約束的3D場景仍然是一個尚未解決的問題。
其中一個原因是可能的攝像機(jī)位置的限制。雖然對于單個對象來說,每一個可能的合理攝像機(jī)位置都可以被映射到一個圓頂上,但在3D場景中,這些攝像機(jī)位置會受到物體和墻壁等障礙物的限制。如果在場景生成過程中不考慮這些因素,生成的3D場景就無法使用。
蘋果公司的GAUDI模型通過三個專門的網(wǎng)絡(luò)來解決這個問題:一個攝像機(jī)姿勢解碼器對可能的攝像機(jī)位置進(jìn)行預(yù)測,并確保輸出是3D場景架構(gòu)的有效位置。
圖源:蘋果
場景解碼器可以通過一種3D畫布的形式對場景進(jìn)行預(yù)測,輻射場解碼器在上面使用體積渲染方程繪制后續(xù)圖像。
在四個不同的數(shù)據(jù)集的實驗中(包括室內(nèi)掃描數(shù)據(jù)集 ARKitScences),研究人員表明GAUDI可以重建學(xué)習(xí)的視圖,并與現(xiàn)有方法的質(zhì)量相匹配。
蘋果公司還展示了GAUDI可以通過3D室內(nèi)場景生成新的攝像機(jī)運(yùn)動。生成可以是隨機(jī)的,可以從圖像開始,或由文本編碼器的文本輸入控制,例如,輸入"穿過走廊 "或 "上樓梯"。
GAUDI生成的視頻質(zhì)量仍然很低,充滿了偽影。但通過其人工智能系統(tǒng),蘋果正在為生成式人工智能系統(tǒng)奠定另一個基礎(chǔ),該系統(tǒng)可以渲染3D物體和場景。一個可能的應(yīng)用是,為蘋果的XR頭顯生成數(shù)字位置。
來源:mixed
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息