音頻程序化,創(chuàng)作開放化。
在 12 月 3 日舉辦的虛幻引擎技術(shù)開放日中,Epic Games 首席音頻程序員 Aaron McLern 帶來了《MetaSounds:虛幻引擎5次時代音效系統(tǒng)》主題分享,將全開放性的音頻制作系統(tǒng)接入到了虛幻引擎5中。
MetaSounds可以讓用戶全面控制音源的音頻 DSP 圖表生成,管理音頻渲染的各個方面,賦能深度創(chuàng)作。它好比一條完全可程控的材質(zhì)和渲染管線,將材質(zhì)編輯器為著色器實(shí)現(xiàn)的所有程序化內(nèi)容創(chuàng)建的優(yōu)點(diǎn)都帶到了音頻領(lǐng)域:動態(tài)的數(shù)據(jù)驅(qū)動資源,將游戲參數(shù)映射到聲音播放的功能......
作為虛幻引擎5最重磅的一個功能增加,MetaSounds 在給予創(chuàng)作者音頻高度自由化支持的同時,也讓整個虛幻引擎朝著更加高度集成的開放式創(chuàng)作平臺邁進(jìn)了一步。會后,Aaron McLern也與 VR 陀螺圍繞“音頻系統(tǒng)流程、功能特性、未來發(fā)展”等問題進(jìn)行了簡短的線上交流。
圖源:VR陀螺
一、在“mini guns to music”的視頻中展示了虛幻引擎5的 Metasounds 音頻系統(tǒng),通過可視化路徑來設(shè)置音效的實(shí)現(xiàn),請問使用 Metasounds 相比之前的音頻工具,游戲中的音效設(shè)計,對于工作流程和效率以及最終實(shí)現(xiàn)的效果具體帶來了哪些提升呢?
首先,MetaSounds 會直接渲染它們的音頻,而不是發(fā)送高級參數(shù)來控制聲音文件的播放效果,MetaSounds 允許你直接對原生的程序化音頻數(shù)據(jù)進(jìn)行塑造和調(diào)整 。
實(shí)現(xiàn)任意以及精準(zhǔn)的計時(我們稱之為 ”采樣級精準(zhǔn)“),這意味著你可以通過節(jié)點(diǎn)圖表的方式來定義邏輯并直接控制 DSP。換句話說,它將音頻生成的方式從固定音頻渲染管線變成了一種完全可編程的管線。從這個角度來說,它有點(diǎn)類似于虛幻引擎中的材質(zhì)圖表——一種圖形化的著色器,允許你直接控制數(shù)學(xué)運(yùn)算以生成程序化材質(zhì)。在材質(zhì)著色器出現(xiàn)前,圖形渲染主要利用固定渲染管線,其靈活性有限,導(dǎo)致開發(fā)創(chuàng)意往往受到硬件及時間成本的限制。
如果你把聲音文件比作一張紋理,你可以把傳統(tǒng)的音頻渲染方法類比成繪制一些隨機(jī)選中的紋理(有時這些紋理會混合在一起),然后你有一些功能有限的高級參數(shù),用來對紋理進(jìn)行操作(比如調(diào)整亮度、顏色等)。顯然,你在圖形渲染中能做的應(yīng)該遠(yuǎn)遠(yuǎn)不止這些。對于音頻來說,在傳統(tǒng)管線中,就像是隨機(jī)選擇一些聲音文件,然后設(shè)置一些寫死的高級參數(shù),例如響度、音高、濾波器等。
MetaSounds 目前支持合成(即在 MetaSounds 中嵌套 MetaSounds)以及預(yù)設(shè),所以,和虛幻引擎中的材質(zhì)一樣,你也能夠復(fù)用其拓?fù)浣Y(jié)構(gòu),開發(fā)者可以分享其音效圖表邏輯。我預(yù)測在大型項(xiàng)目中,團(tuán)隊(duì)一般都需要建立一些 MetaSounds 資產(chǎn)庫。就《堡壘之夜》而言,我們預(yù)計最終需要二十幾個 MetaSounds 來配合目前使用的上千個音頻資產(chǎn)。
我們還希望在 MetaSounds 的“域”上進(jìn)行擴(kuò)展,允許渲染 DSP 處理效果,這樣它們就能被用來作為混響器、空間器,而不僅僅是生成音效。 此外,MetaSounds 在底層設(shè)計上允許其向第三方內(nèi)容擴(kuò)展。換句話說,我們期待看到更多創(chuàng)新性的第三方庫,能在 MetaSounds 的基礎(chǔ)上進(jìn)行功能擴(kuò)展。
最后,或許也是最重要的一點(diǎn)——MetaSounds 在設(shè)計之初就極具前瞻性,特別是在新媒體體驗(yàn)方面。我們希望看到,今后由某款應(yīng)用或游戲創(chuàng)建的 MetaSounds 可以輕松地在另一款應(yīng)用/游戲中渲染;我們希望 MetaSounds 擁有完善的接口來指明其需要的輸入?yún)?shù),并且包含所有需要的信息,以便在任何游戲玩法系統(tǒng)中渲染。未來的趨勢就是互操作性和數(shù)據(jù)共享,而正如其名中的蘊(yùn)意,我們希望 MetaSounds 能成為這種趨勢的引領(lǐng)者。
Aaron McLern
二、由于我們專注于 XR 產(chǎn)業(yè),所以想跟您請教一些關(guān)于 VR、AR 中的聲音實(shí)現(xiàn)問題。首先,現(xiàn)在 Metasounds 已經(jīng)實(shí)現(xiàn)了對 PC 端和移動端的 VR、AR 終端的支持嗎?在這個方向上,大概的規(guī)劃是怎樣的?
MetaSounds 能在虛幻引擎中開箱即用,它用到了聲源之前能用到的所有舊功能,包括所有現(xiàn)有的空間化插件、DSP 效果處理、距離衰減、聲音并發(fā)組等。MetaSounds 只是在源音頻輸出的方式上進(jìn)行了創(chuàng)新,但它們?nèi)阅芎臀覀兊乃幸延邢到y(tǒng)一起工作,這意味著它能在所有 XR 平臺上開箱即用。
唯一的瓶頸是(這種瓶頸在其他系統(tǒng)中也很常見),你需要注意 CPU 的使用情況。MetaSounds 盡管很強(qiáng)大,但目前仍無法很好地反映 CPU 的占用情況(我們正在開發(fā)一些功能,讓用戶更好地了解 CPU 的利用率和開銷預(yù)算),所以 CPU 的開銷很容易過頭。好消息是,MetaSounds 兼容我們現(xiàn)有的所有性能分析工具(如 Unreal Insights),所以你仍能查看 MetaSounds 給 CPU 帶來的影響,只不過對音效設(shè)計師來說,操作上仍有些不直觀。
三、VR中的音效實(shí)現(xiàn),現(xiàn)在比較常用的是“3D 全景聲”,也有諸多在這個領(lǐng)域上探索的公司,比如瑞典的Dirac,現(xiàn)對于傳統(tǒng)的5.1或7.1聲場效果,全景聲必須實(shí)現(xiàn)720度各角度、各個點(diǎn)位的精準(zhǔn)聲音模擬,就像真實(shí)環(huán)境中的物理音效一般,您認(rèn)為現(xiàn)如今的技術(shù)要實(shí)現(xiàn)完全逼真的全景聲是可行的嗎?技術(shù)難點(diǎn)主要是什么呢?
我不是很清楚什么是 “3D 全景聲(3D Panoramic Sound)” 。我猜可能是“聲場(sound field)”渲染技術(shù)的另一種說法。我們打算通過 MetaSounds 來實(shí)現(xiàn)多聲道音頻的完全支持,并對聲道無關(guān)的音頻渲染技術(shù)(即聲場渲染、基于對象的渲染等)實(shí)現(xiàn)一些更強(qiáng)大的支持。
話說回來,我們在虛幻引擎中已經(jīng)支持了這個技術(shù)(指聲場),并在虛幻引擎 5 的發(fā)布演示(即 Lumen in the land of Nanite)中用到了它。最初,該演示打算在 GDC (游戲開發(fā)者大會)的環(huán)繞聲影院中現(xiàn)場播放,以便充分展示聲場渲染的效果。但由于疫情爆發(fā),GDC 取消, 我們不得不做成演示視頻,這肯定無法充分展現(xiàn)聲場渲染的真正效果。
圖源:網(wǎng)絡(luò)
四、據(jù)了解目前主流的音頻技術(shù)是靜態(tài)HRTFs技術(shù),但是HRTFs隨聲源的相對位置、頻率和聽覺對象不同而變化,并與其自變量之間存在非常復(fù)雜的非線性關(guān)系,所以3D全景聲的實(shí)現(xiàn)需要處理龐大的HRTFs數(shù)據(jù),因此有公司提出了動態(tài)HRTFs,您如何看待這項(xiàng)技術(shù),從引擎端是否有更好的解決方案?
我們目前沒有 HRTF 渲染相關(guān)的研發(fā)計劃,未來可能會有,但眼下我們主要是完善針對第三方的空間化接口,允許第三方嘗試空間渲染技術(shù)。我們正與該領(lǐng)域的所有主要參與者和一些初創(chuàng)公司合作。我們也歡迎開發(fā)者修改我們的 API 以實(shí)現(xiàn)新技術(shù)。在這個 領(lǐng)域(HRTF)有一大堆投資和創(chuàng)業(yè)公司,考慮到我們有大量核心音頻渲染技術(shù)(比如MetaSounds)亟需研發(fā),再去投資該領(lǐng)域(HRTF)意義不大。
五、聲音包含輸入和輸出兩端:
①輸入的采集方式包含基于真實(shí)場景的收音和使用引擎制作的模擬聲場,這兩種方式您更推薦哪種,哪種能實(shí)現(xiàn)更好的效果?
②在輸出端根據(jù)硬件設(shè)備不同,所能夠體驗(yàn)到的效果也會差距甚遠(yuǎn),如適用于影院的杜比全景聲最多有64個獨(dú)立揚(yáng)聲器呈現(xiàn)內(nèi)容,且多達(dá) 128 個音軌。如果是在普通的電子消費(fèi)終端(如VR設(shè)備上),怎樣才能用最低的價格實(shí)現(xiàn)高質(zhì)量的聲音體驗(yàn)?這個矛盾是否能通過軟件技術(shù)解決?
交互式音頻(也就是游戲音頻)很難用一種包羅萬象、適用于任何人和任何情況的方式來概括描述。我認(rèn)為最好是先確定音頻引擎可以支持的所有功能、音頻在游戲中如何實(shí)現(xiàn)(即數(shù)據(jù)如何掛接到程序化系統(tǒng)),以及有哪些技術(shù)可以用于收集原始素材。確定好這些問題后,再考慮使用哪種方法來生成資產(chǎn)和輸入。
總體上說,我習(xí)慣把音頻領(lǐng)域和美術(shù)中的圖形領(lǐng)域進(jìn)行類比,這種思考方式能讓我們以更加實(shí)際的方式考慮內(nèi)容生產(chǎn),避免過度簡單化。圖形領(lǐng)域顯然更加復(fù)雜,需要許多配套技術(shù)、領(lǐng)域和專業(yè)人員同時協(xié)作,共同實(shí)現(xiàn)整體的視覺效果。音頻也應(yīng)當(dāng)需要這樣的資源投入,但一般來說不必這么復(fù)雜。舉例來說,音效師通常應(yīng)該這樣規(guī)劃職業(yè):專職為環(huán)境設(shè)計音頻(環(huán)境音頻設(shè)計師)、或?yàn)榱W犹匦гO(shè)計音頻(粒子特效音頻設(shè)計師)、或?yàn)榻巧O(shè)計聲音和系統(tǒng)(角色音頻設(shè)計師)等等。不過,相比視覺藝術(shù)領(lǐng)域中大多數(shù)的各司其職,音頻有一個特有的復(fù)雜領(lǐng)域:音樂。
音頻渲染器輸出應(yīng)該盡可能和軟件解耦,我個人對于完全使用硬件和基于平臺的解決方案持觀望態(tài)度。相較于圖形領(lǐng)域而言,音頻的好處是對硬件依賴較低。圖形基本依賴于顯卡工作,因此和相關(guān)硬件制造商密不可分。幸運(yùn)的是,目前音頻可以完全在常用 CPU 上運(yùn)算。目前,某些運(yùn)算在硬件加速方面(比如加速卷積)方面也取得了很大進(jìn)展,我非常支持這一點(diǎn),只要這種運(yùn)算是普遍的,并且能夠在保證相同輸出的情況下使用軟件和 CPU 解決方案。至于輸出渲染的空間格式,它們關(guān)系到揚(yáng)聲器聲道數(shù)目、排列、收聽環(huán)境等等。
現(xiàn)在,硬件制造商(杜比、DTS、THX 等)在這個方面已經(jīng)取得了非常棒的成果。這也是“基于對象的”音頻渲染的發(fā)展方向,而在此處,游戲會提供音頻流和空間位置元數(shù)據(jù),硬件制造商將該數(shù)據(jù)在本地映射至給定的設(shè)置。想在音頻引擎中處理這種量級的復(fù)雜度是不可能的:它不可持續(xù),也不可擴(kuò)展。
理論上說,音頻引擎會在基于對象的音頻流或者無關(guān)聲道的、可以解碼至任意輸出配置的聲場中進(jìn)行所有音頻的渲染。這兩種方式允許音頻渲染無關(guān)輸出,并且硬件制造商可以在本地計算機(jī)上進(jìn)行解碼和映射,以便找到最適配給定硬件的設(shè)置。
圖源:網(wǎng)絡(luò)
這一過程可能是通過分析使用麥克風(fēng)陣列的空間進(jìn)行的。如果電影(或者交互式電影/游戲)云渲染可以盡可能包含在無關(guān)聲道格式中能夠包含的所有音頻信息,當(dāng)指定聽眾在網(wǎng)上進(jìn)行流播時,可以智能映射至本地硬件設(shè)置(耳機(jī)、條形音響、環(huán)繞音響等等),這對于沉浸式體驗(yàn)來說將是一種最為理想的方式。
同時,這種方式也能為玩家流播游戲提供強(qiáng)力的支持,也就是說,玩家可以從游戲中提取無關(guān)聲道格式的音頻,然后播送至直播流,并以最佳的音質(zhì)解碼到聽眾的本地環(huán)境中。
在這個理想化的場景中,唯一的難點(diǎn)是混合 DSP 效果——也就是在混合聲源的緩沖區(qū)上進(jìn)行的音頻處理。游戲和影視中使用的許多強(qiáng)大音頻工具——例如動態(tài)處理(壓縮等),均衡(平衡游戲的聲譜),以及混響處理(模擬空間)——都離不開混合 DSP 效果。
目前,所有這些效果都是通過基于通道的音頻格式完成的。沒有一種很好的方法來借助聲道無關(guān)的聲場來實(shí)現(xiàn)這種效果處理——也就是不需要解碼到虛擬揚(yáng)聲器/聲道,執(zhí)行基于聲道的處理,然后再重新編碼到聲場表示。雖說這種方法可行,但你肯定會丟失一些原始聲場的空間真實(shí)性。這絕對是一個值得研究的領(lǐng)域,我也相信未來 10 年內(nèi)一定會有所突破。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文經(jīng)原作者授權(quán)發(fā)布,不代表VR陀螺立場,如需轉(zhuǎn)載請直接聯(lián)系原作者
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息