發(fā)布時(shí)間:2019-08-22 14:01 | 標(biāo)簽:
音頻定位 聲音定位 全景音效
微信掃一掃:分享
微信里點(diǎn)“發(fā)現(xiàn)”,掃一下
二維碼便可將本文分享至朋友圈
要想在VR中獲得更好的沉浸感,五感的還原極其重要,視覺還原是其中最為成熟的一部分,而音頻——全景聲,隨著技術(shù)的發(fā)展,也慢慢在VR內(nèi)容中應(yīng)用起來。
縱觀全球聲音定位技術(shù),主要可以分 3 種:聲道為本 (Channel Based)、面向?qū)ο舐曇?(Object Based) 及場景聲音 (Scene Based) 。值得留意的是,各種技術(shù)都可以分為錄音、播放系統(tǒng)和輸出格式三個(gè)部分。以下的內(nèi)容主要基于輸出格式,但也會略提各種錄音、播放系統(tǒng)的利弊。
三大定位方式
1. 聲道為本 (Channel Based)
傳統(tǒng)聲音定位技術(shù)都是以聲道為本 (Channel Based) 的技術(shù),意思是指所有輸出是根據(jù)系統(tǒng)的聲道數(shù)目來制作。例如立體聲的音樂就有 2 個(gè)聲道,5.1 環(huán)繞聲的電影就有 6 個(gè)聲道。但這種技術(shù)其實(shí)即使在環(huán)繞聲中都不理想。原因是不同的系統(tǒng)設(shè)計(jì)或擺放將會影響到定位效果,而且難以在不同系統(tǒng)中轉(zhuǎn)換,例如 5.1 環(huán)繞聲的電影就不能夠準(zhǔn)確地在 7.1 系統(tǒng)中播放。因此極少在 3D 聲效上應(yīng)用。當(dāng)然,嚴(yán)格來說,所有播放系統(tǒng)在輸出最終都是聲道為本,只不過輸出前的文件格式和制作方法會有分別。
雖然聲道為本的技術(shù)在 3D 聲效不常見,但基于聲道為本的錄音技術(shù)的悠久歷史,發(fā)展完善,因此即使使用其他技術(shù),很多時(shí)都會借用聲道為本的錄音技術(shù)制作,例如在接下來介紹的面向?qū)ο舐曇?(Object Based) 技術(shù)就常常會用上傳統(tǒng)單聲道及雙聲道錄音技術(shù)。 2. 面向?qū)ο舐曇?(Object Based)
近年為了改善不同播放系統(tǒng)的問題,研究人員開始思考如何用一個(gè)輸出格式去適應(yīng)所有系統(tǒng)。其中較流行的方法是用面向?qū)ο舐曇?(Object Based),相信很多人都在部份戲院或電影的片尾中見到杜比全景聲 (Dolby Atmos) 的標(biāo)志,這是其中一種較常用的面向?qū)ο蟾袷健C嫦驅(qū)ο笫侵嘎曇舳ㄎ灰月曉?(所謂對象) 為本,輸出并不基于聲道數(shù)目,而是基于聲源數(shù)目。
簡單而言,每一個(gè)「對象」會輸出兩樣信息,它的聲音,和它在 3D 空間中的位置。在播放時(shí),播放器會根據(jù)對象信息,以及影音系統(tǒng)的設(shè)定去分配各聲道的輸出,從而準(zhǔn)確定位。因此這技術(shù)除了可以用同一輸出檔案做到跨系統(tǒng)播放,亦可以做出超越水平面的 3D 定位。常見的對應(yīng)輸出系統(tǒng)為 VBAP (Vector Base Amplitude Panning),基本上是傳統(tǒng) 5.1 或 7.1 環(huán)繞聲加上不同高度的喇叭(有關(guān)各種輸出系統(tǒng)之后會再介紹),但亦可以在傳統(tǒng) 5.1 或 7.1 環(huán)繞聲系統(tǒng),甚至雙聲道系統(tǒng)播放。
優(yōu)點(diǎn): 聲音定位一般較凖確,而聲音質(zhì)素亦通常比較好
缺點(diǎn): 輸出檔案的體積大。聲音來源集中,欠缺現(xiàn)場感
3. 場景聲音 (Scene Based)
除了以聲源為本,另一種常見的方法是以場景為本。場景為本的意思是指,我們嘗試記錄在空間中一個(gè)點(diǎn)上接收到的所有聲音。你可以想象成是記錄一個(gè)人在某場景中所聽到的所有聲音。唯一的分別是,人類的聽覺有方向性,例如來之前的聲音會比來自后面的聲音清晰,當(dāng)聲音來自左邊左耳會感受到的音量會比較大等。但場景為本的錄音通常不會紀(jì)錄方向性的分別,無論聲音從那方面以來,都會清晰地記錄在錄音中。
其中最常見的錄音方法為Ambisonics (該名詞未有通用的翻譯)。它用幾組收音來全方位地記錄場景聲音。之所以要用幾組收音,是為了把場景中的聲音分為幾個(gè)軸,最常見是分為左右 (X)、前后 (Y) 和上下 (Z) 方便在后期制作中定位和加添指向性 (只用 3 個(gè)軸的Ambisonics 稱為 1st Order Ambisonics,可根據(jù)球諧函數(shù) (Spherical Harmonics) 去加添更多軸,提高到更高 Order,從而提升聲音定位解像度,一般制作用最高可以到 5th order,但 X Y Z 三軸是較常見也比較容易理解,有機(jī)會再另立文章講解 Ambisonics Orders)。大家可以想象,在播放該錄音時(shí),如果沒有分左右前后上下的話,聲音根本不可能定位。
該技術(shù)最大的優(yōu)勢,是在于檔案體積,它最少只需要四條聲軌,X、Y 、 Z 和 W ( W 是一條無指向性全方位錄音— Omni Directional Recording),就可以重現(xiàn) 3D 聲效,比 5.1 環(huán)繞聲還少,因此此制式在360 影片及 VR 中很常見。而且因?yàn)樗匿浺羰侨轿坏?,他可以清楚記錄所有在空間中漫射的聲音(Diffuse sound) ,也就是說,它可以記錄來自四方八面的回響 (Reverb),例如在教堂中說話,有時(shí)候會聽到回音,那些回音有時(shí)會從四方八面?zhèn)鱽恚?Ambisonics 就能夠準(zhǔn)確地記錄那些回音。
Ambisonics 有自己對應(yīng)的播放系統(tǒng),其特色是所有喇叭的間距必須一致,平均地分布在一個(gè)虛擬球面。之所以要這樣安排,是因?yàn)樵诓シ艜r(shí),即使聲音內(nèi)原只有一方,理論上所有喇叭都會播放相對應(yīng)的場景聲音。概念上一般讀者可能較難理解,但概括而言,在播放任何聲音時(shí)所有喇叭都會運(yùn)作,來重現(xiàn)錄音場景的音場。當(dāng)然這播放系統(tǒng)在民用上是很不現(xiàn)實(shí)的,因?yàn)槔硐氲牟シ畔到y(tǒng)需要很多喇叭,而且擺放位置要求極為精準(zhǔn),有時(shí)甚至要鉆穿地下來放置喇叭。因此,通常都會用耳筒來重現(xiàn)虛擬的 Ambisonics 播放系統(tǒng) (稱為 Binaural Audio技術(shù)),亦有不少軟件可以將 Ambisonics 轉(zhuǎn)換成其他系統(tǒng)格式包括環(huán)繞聲和立體聲。
優(yōu)點(diǎn): 音質(zhì)代入感強(qiáng),仿似在場景中。輸出檔案一般較細(xì),4條聲道起。缺點(diǎn): 錄音質(zhì)素通常比較差,因?yàn)殇浺羝骱吐曉粗g通常有一定距離。錄音過程較復(fù)雜,和通常要利用特別器材,如 Ambisonics 。
位于英國的 Ambisonics 播放系統(tǒng)
Sennheiser 出品 Ambisonics( 1st OrderAmbisonics )
Eigenmike? Ambisonics ( 4th OrderAmbisonics )
比較各種聲音定位技術(shù)之優(yōu)劣
各種技術(shù)的應(yīng)用情況
如前文所言,傳統(tǒng)聲道為本的格式在 3D 聲效中的應(yīng)用比較少見。主要是因?yàn)樗y以兼容不同的播放系統(tǒng)。當(dāng)然目前有很多沒有配備3D聲效的電影,都繼續(xù)沿用聲道為本的技術(shù)。大部份的音樂所使用的雙聲道,亦可歸類為此技術(shù)。
目前大部份的電影 3D 聲效多使用面向?qū)ο舐曇?。原因是后期制作比較方便,而且得到很多專業(yè)公司的支持,例如 Dolby、Auro、ProTools 等,表表者是杜比全景聲 (Dolby Atmos) 系統(tǒng)。
在這里要先講解一下通常電影聲效制作的流程。一般電影的聲效是混合現(xiàn)場錄音和后期制作。一般而言,現(xiàn)場錄音只會記錄演員的對白,其他所有聲音都是后期制作。相信讀者可以猜到,為何面向?qū)ο舐曇舯容^適合電影制作,是因?yàn)樗泻笃谥谱鞯穆曇羯踔裂輪T的對白都可以視為一個(gè)對象,并在后期制作中定位。很多電影并無涉及任何場景錄音的需要。更何況現(xiàn)在很多電影都用上大量場景特效 (綠幕),并非現(xiàn)場拍攝,根本沒有真正的場景聲音可以錄制。
另一方面,主流 VR 游戲甚至一些新的非 VR 電子游戲都使用面向?qū)ο舐曇糁谱鳎ǔ敵龀蓤鼍奥曇?,主要是因?yàn)槊嫦驅(qū)ο舐曇艏夹g(shù)比較能對應(yīng)六自由度 (6 Degrees of Freedom (6 DoF) )的移動,意思是指玩家可以前后左右移動,聲音會根據(jù)玩家的位置作出對應(yīng)的調(diào)整。
其實(shí)目前場景聲音的制作并不常見,但相信 360 影片的流行,這技術(shù)很快會變得普及。這技術(shù)其中一個(gè)好處是,一般人只要利用 Ambisonics 咪錄音,不需要太多后期制作,都可以有理想的 3D 聲效,而且該聲效可以根據(jù)觀眾觀看影片的角度作出對應(yīng)的調(diào)整, (注:只限角度,暫時(shí)不包括前后左右移動)。例如你在看影片時(shí)可以聽到聲音從后方來,而當(dāng)你 180 度轉(zhuǎn)向后方后,你會聽到該聲音跟隨轉(zhuǎn)向移到你的前方。讀取場景聲音亦不需要很復(fù)雜的系統(tǒng)。這技術(shù)對系統(tǒng)的要求低,檔案容量細(xì),都是在未來普及的潛在優(yōu)勢,特別在 Youtube 和 Facebook 之類的網(wǎng)上串流平臺都以這技術(shù)為基礎(chǔ)。
目前比較平民的器材有Ricoh theta V 的外置收音器。當(dāng)然目前用此技術(shù)最大的問題是,因?yàn)槭找舻木嚯x和欠缺指向性,收音的質(zhì)素比較差,暫時(shí)改善的方法主要會配合面向?qū)ο舐曇羰褂?,所謂的混合方法。
Ricoh theta V 連外置收音
在錄音質(zhì)素的要求比較高的情況下,例如音樂會現(xiàn)場錄音,或其他音樂相關(guān)的制作等,單靠面向?qū)ο舐曇艋驁鼍奥曇簦茧y以滿足音質(zhì)要求。面向?qū)ο舐曇羟啡爆F(xiàn)場感,而場景聲音的錄音又不夠清晰。人類一般對錄音的要求,通常比現(xiàn)場的聲音高,研究員戲稱超真實(shí)感聲音 (Hyper-Realistic Sound) 。要達(dá)到這個(gè)要求,目前最先進(jìn)的做法是用場景聲音作為背景 (或稱為畫紙(Canvas) ),在該錄音為基礎(chǔ)再在上面加上面向?qū)ο舐曇簟_@樣就可以確保聲音清晰同時(shí)保有現(xiàn)場感。目前 Dolby Atmos 已經(jīng)支持場景聲音,去改善后制的聲音效果,可見未來可以用在音樂會或戲劇的現(xiàn)場錄音中。
而在360影片,一般實(shí)時(shí)使用混合方法,輸出時(shí)都會用場景聲音 Ambisonics 的文件格式來輸出來維持檔案的輕巧和容易解讀。當(dāng)然 Dolby Atmos 用較復(fù)雜的混合檔案,配合該系統(tǒng),理論上可提供較好的音質(zhì)。但在 360 影片或 VR 中,因?yàn)檩敵鲈诓煌嵌认碌谋憩F(xiàn)比較平均 (所有喇叭的間距一致,平均地分布在虛擬球面),場景聲音輸出一般是首選。
MPEG-H 是MPEG系列 (如 .mp4) 的新一代高壓縮的影音格式,加入了 3D 聲效支撐,他同時(shí)支持面向?qū)ο舐暫蛨鼍奥曇?。這個(gè)格式已經(jīng)發(fā)展了一段時(shí)間 (2013) ,雖然目前并未流行,但相信未來會成為的主流格式。
小結(jié)
目前最常見的 3D 聲效應(yīng)技術(shù)為面向?qū)ο舐曇?(Object Based) 及場景聲音 (Scene Based) 且有時(shí)會混合使用。其實(shí)這些技術(shù)的應(yīng)用已經(jīng)日漸普及,很多新出的第一身游戲或多或少都會用到 3D 聲效去增加現(xiàn)場感。特別在射擊游戲,能夠用耳朵去感覺四面八方能大大改善游戲體驗(yàn)。而在 360 影片或 VR 甚至其他 XR (統(tǒng)稱 VR、AR、MR 等虛擬現(xiàn)實(shí)的體驗(yàn)為 XR) 的潮流下,很多公司包括 Abbey Road Studio 和 BBC 都投放很多資源去改善 3D 聲效制作及播放技術(shù)。文章來源:medium論壇博主:In-phase Audio
第一時(shí)間了解XR資訊
關(guān)注VR陀螺官網(wǎng)(vrtuoluo.cn)
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)