文/VR陀螺
歷經(jīng)七年沉淀,蘋果終于在2023 WWDC大會上正式推出其第一代空間計算平臺終端——Vision Pro,敲響了進(jìn)軍XR消費(fèi)端的戰(zhàn)鼓,而后蘋果在各地開設(shè)的開發(fā)者實(shí)驗(yàn)室也讓開發(fā)者們得以從產(chǎn)品窺探蘋果對空間計算的理解。
從蘋果Vision Pro展示所有場景中,不得不說3D拍攝是其中最讓人印象深刻的一個功能。演示視頻中,一位用戶佩戴著Vision Pro頭顯來觀看一條空間視頻,可以看到視頻的“空間感”,畫面運(yùn)鏡從右到左更是可以看到視頻中人物的不同角度。
而在另一個片段中,用戶按下頭顯上方的按鍵后,便開始錄制Vision Pro前方的畫面,同時Vision Pro的正面還會有光效變化來表示用戶正在錄制空間視頻或照片。
如今拍照、拍視頻已經(jīng)成為普通消費(fèi)用戶最為高頻及常用的功能,更誕生了龐大的視頻內(nèi)容市場。如今蘋果著重推出的3D拍攝功能,是否會變成“下一個計算平臺”的主流拍攝形式,謎底將在本文揭曉。
傳感器更迭帶來的時代機(jī)遇,正悄然來臨
傳感器是消費(fèi)電子產(chǎn)品中的核心零部件,而基于傳感器不同的屬性和功能,帶來了眾多不同的應(yīng)用場景和商業(yè)模式的延伸。
如基于GPS,讓滴滴、美團(tuán)、餓了么實(shí)現(xiàn)精準(zhǔn)定位;基于激光雷達(dá)等傳感器,讓掃地機(jī)器人、服務(wù)機(jī)器人擁有“眼睛“;基于結(jié)構(gòu)光傳感器,讓面部解鎖、面容支付成為可能;基于手機(jī)的高清攝像頭,讓人人都可成為時代的記錄者;基于毫米波雷達(dá)、超聲波、毫米波以及GPS、IMU等,讓汽車自動駕駛成為可能……
甚至可以說,每一代計算平臺的變革,都離不開傳感器的更迭。
被譽(yù)為“空間計算”開拓者的蘋果Vision Pro,其機(jī)身上設(shè)有12個攝像頭,5個傳感器(其中1*LiDAR、2*結(jié)構(gòu)光深度傳感、2*IR紅外傳感),這些傳感器分別用來處理空間環(huán)境感知、手勢識別、三維建模和眼動追蹤等功能,其攝像頭和傳感器的數(shù)量也比市面上的其他VR頭顯多得多,為的就是更好地實(shí)現(xiàn)3D空間感知和3D掃描功能,以及3D照片和視頻的拍攝。
所有人都在暢想,蘋果的Vision Pro將帶來哪些新的場景,這些場景會帶來哪些新的生態(tài)和商業(yè)模式。
拋開游戲、社交、3D影視等常見的場景之外,Vision Pro與之前的所有VR或者M(jìn)R終端,其獨(dú)有的場景創(chuàng)新莫過于“3D拍攝”,視頻中所呈現(xiàn)出來的空間感,讓人仿佛置身其中,這種方式區(qū)別于之前的全景照片/視頻,其強(qiáng)調(diào)的并不是拍攝范圍的擴(kuò)大,而是空間深度信息的復(fù)現(xiàn)。
但視頻中僅展示了使用頭顯拍攝,如果要將一種新的視頻形式、格式推向廣泛大眾,用UGC來形成一個品類的內(nèi)容生態(tài),誕生諸如3D視頻的Bilibili、抖音,顯然僅靠頭顯是不夠的。
畢竟售價3499美元(約人民幣25515元)的蘋果Vision Pro,在初期也注定會成為一部分人的“新鮮玩意兒”,以及一部分創(chuàng)作者的“生產(chǎn)力工具”,難以在短時間內(nèi)讓所有消費(fèi)者欣然買單。
除了蘋果Vision Pro,現(xiàn)有的終端設(shè)備如智能手機(jī)等能否實(shí)現(xiàn)3D拍攝,來填補(bǔ)內(nèi)容生產(chǎn)力不足的空白?
帶著以上疑問,VR陀螺與一位3D內(nèi)容生產(chǎn)專家,KIRI Innovations的創(chuàng)始人Jack進(jìn)行一次深度交流,探索3D拍攝的技術(shù)原理以及手機(jī)作為載體的可行性。
蓄謀已久的LiDAR傳感器,究竟用來做什么?
很多人或許已經(jīng)注意到,早在2020年發(fā)布的iPad Pro以及iPhone 12 Pro上,蘋果悄悄增加了一個新的傳感器——LiDAR。根據(jù)釋義,這是一種通過激光的發(fā)射和接收返回信號的時間差進(jìn)行距離測算的傳感器,用于獲得點(diǎn)云數(shù)據(jù)并生成數(shù)字化三維模型。
LiDAR這項(xiàng)技術(shù)主要利用脈沖激光來測量目標(biāo)的距離,常應(yīng)用于測繪學(xué)、考古學(xué)、地理學(xué)等領(lǐng)域,而蘋果2020年推出iPad Pro、iPhone 12 Pro等產(chǎn)品之時,將這項(xiàng)技術(shù)落地到了消費(fèi)電子領(lǐng)域。而且它既不像攝像頭像素提升帶來的清晰度提升,也不像廣角帶來了角度擴(kuò)大那般顯性,如果不是專業(yè)用戶,根本感知不到LiDAR的功能和價值。
為什么蘋果要將LiDAR應(yīng)用到移動設(shè)備上?Jack進(jìn)行了詳細(xì)的解讀。
首先,LiDAR對蘋果來說最直接的益處就是改善拍照的對焦方式及其效果,因?yàn)槠淇梢詫?shí)現(xiàn)5米以內(nèi)的距離檢測。自動對焦或許看上去是平平無奇的功能,實(shí)際上在夜間或暗處是難以做到準(zhǔn)確對焦的,而通過LiDAR能比光學(xué)對焦更快、更準(zhǔn)確,無需手動對焦,從而進(jìn)一步提升拍攝能力。
Polycam
其次,LiDAR的測距能力也能應(yīng)用到空間掃描和定位上,例如ARKit SDK中所調(diào)用的深度信息也包括LiDAR所獲取的信息,相對于其他平面攝像頭傳感器,LiDAR可獲得更為精準(zhǔn)的定位信息,精確到毫米級。
如2020年發(fā)布的ARKit 3.5,新的Scene Geometry API就是使用激光雷達(dá)掃描創(chuàng)建空間的3D地圖,以區(qū)分地板、墻壁、天花板、窗戶、門和座椅。該掃描儀能夠在長達(dá)五米的距離內(nèi)快速測量物體的長度、寬度、深度,從而使用戶能夠快速創(chuàng)建可用于物體遮擋的數(shù)字傳真機(jī)-使數(shù)字物體看起來像在部分場景中融入了場景真實(shí)的對象。得益于“即時AR”支持,這些數(shù)字對象可以自動放置在空間中,而無需在平板電腦上晃來晃去并使相機(jī)具有空間感。
除了空間定位之外,LiDAR還可以輔助3D建模。但是由于LiDAR精度約5mm,當(dāng)用于空間定位時可以實(shí)現(xiàn)精準(zhǔn)的效果,但用于3D重建,特別是小的靜態(tài)物體的重建時,其精度是不夠的,并且僅用LiDAR無法實(shí)現(xiàn)色彩信息獲取。所以也就衍生出一種搭配——使用LiDAR獲取深度信息,結(jié)合RGB攝像頭獲取高精圖片并貼合,而這就是蘋果推出的Object Capture API的模式,3D建模應(yīng)用《KIRI Engine》、《Polycam》和《Scanniverse》等應(yīng)用都調(diào)用了該API。
關(guān)于該傳感器在AR領(lǐng)域的應(yīng)用,可參見當(dāng)時VR陀螺的實(shí)測:《LiDAR效果實(shí)測!對蘋果AR生態(tài)與AR眼鏡有何意義?》
但由于其精度不夠,所以Jack的3D平臺應(yīng)用《Kiri Engine》雖然也調(diào)用了LiDAR,不過其不但僅僅是用LiDAR來獲取景深信息,還用其來獲取相機(jī)的位姿(位置和姿態(tài))定位,轉(zhuǎn)而使用普通相機(jī)拍攝多角度照片,融合NERF和MVS混合算法來實(shí)現(xiàn)3D建模,該技術(shù)相比LumaAI所生成的mesh質(zhì)量精度更高,且能夠直接用AI實(shí)現(xiàn)模型三角面轉(zhuǎn)四角面用于開發(fā)。
最后一項(xiàng)功能,也是本文將要討論的最核心的功能,蘋果的3D拍攝,實(shí)際學(xué)術(shù)名稱為體三維視頻(Volumetric 3D Video)。
Jack表示,蘋果Vision Pro演示出來的這種帶景深的3D視頻實(shí)際上不需要3D重建技術(shù),它也不是3D模型,因?yàn)檫@類內(nèi)容是體三維視頻,反過來這類內(nèi)容無法直接應(yīng)用到UE和Unity。而體三維(Volumetric 3D)是一種立體顯示技術(shù),通過這項(xiàng)技術(shù)可以直接看到具有物理景深的三維圖像。
普通的視頻主要有X軸和Y軸兩個維度構(gòu)成,而體三維在X軸和Y軸的基礎(chǔ)上多了個Z軸,相當(dāng)于景深軸。一般我們用像素(Pixel)來作為2D圖片或視頻的單位,而在體三維中會用到體素(Voxel)這個單位。
Jack進(jìn)一步說明道:“要拍攝有景深效果的3D視頻,就需要用到之前說的LiDAR+RGB攝像頭的方法,但還有幾個前提條件,一是需要視差,即需要至少兩個有相同焦段的RGB攝像頭,二是攝像頭之間要保持一定的距離,就像蘋果Vision Pro那樣。”
如果是iPhone手機(jī)中的2個攝像頭,結(jié)合LiDAR能否實(shí)現(xiàn)體三維視頻拍攝?Jack表示,很早之前學(xué)術(shù)界一直在嘗試,但并未獲得很好的效果。其認(rèn)為這也是蘋果技術(shù)最為厲害之處,能實(shí)現(xiàn)別人做不到的事情。
此外,Jack還表示,體三維視頻不同于2D圖片或視頻,3D形式文件的大小還要計算XYZ軸以外的通道,比如阿爾法通道(是指一張圖片的透明和半透明度),例如蘋果就有RGBA這種用于計算RGB和Alpha色彩空間的文件格式,體三維視頻的文件一定會是4通道以上的,文件大小也將是倍數(shù)級的增長。所以蘋果Vision Pro的內(nèi)存以1T起步,而據(jù)了解從iPhone 15起,手機(jī)內(nèi)存將從256GB起步。
LiDAR空間檢測的內(nèi)容量增加也會對體三維視頻的內(nèi)容體積和算力帶來挑戰(zhàn)。在對話中,Jack推測蘋果的3D體三維視頻在錄制時可能會出現(xiàn)算力不足的問題,從而影響畫質(zhì)和幀率。其舉例說明,如果平面畫面的像素是4K,景深像素是1000pixel,相當(dāng)于要渲染1000層4K畫面,這對于算力的要求是指數(shù)級提升。因?yàn)樵隗w三維視頻中,每一層的深度信息都要渲染一次,LiDAR深度距離的渲染對算力有著非常大的需求,所以推測蘋果可能會將體三維視頻的像素進(jìn)行壓縮。
如果去掉LiDAR功能,單純用RGB攝像頭能否實(shí)現(xiàn)景深效果?
Jack認(rèn)為理論上可以做到這個效果,但攝像頭的距離限制取決于LiDAR。LiDAR可以測得5-15m距離,有了LiDAR,呈現(xiàn)出的景深效果質(zhì)感表現(xiàn)上會更好。
由此可知,蘋果在MR中實(shí)現(xiàn)的3D視頻形式主要是體三維視頻,而LiDAR在體三維視頻拍攝中的空間感知方面發(fā)揮著重要作用。它作為在體三維視頻中實(shí)現(xiàn)深度測量的工具,還能在未來的3D內(nèi)容生產(chǎn)中帶來革新,推測蘋果將針對3D拍攝方面帶來進(jìn)一步的優(yōu)化和突破。
結(jié)語
9月13日,蘋果即將召開秋季新品發(fā)布會,此次蘋果將帶來全新的iPhone 15,也有業(yè)內(nèi)人士稱,蘋果或?qū)⒃谑謾C(jī)端支持3D拍攝,也就是上文提到的體三維視頻拍攝的功能。
VR陀螺很早之前也提到了同樣的觀點(diǎn),而Jack也側(cè)面證明了基于手機(jī)傳感器的可行性,不過,將手機(jī)作為輸入端可以大幅拓展內(nèi)容生產(chǎn)效率,畢竟無論是短視頻興起還是滴滴打車普及,都離不開搭載了傳感器的終端設(shè)備的普世化。
蘋果的體三維視頻將照片以一種新的呈現(xiàn)方式展現(xiàn)出來,刷新了人們對平面2D照片和視頻的固有認(rèn)知,3D視頻未來有望成為新的主流圖像顯示形式。
現(xiàn)階段人們在日常生活中接觸到的信息已經(jīng)在從2D轉(zhuǎn)向3D,無論是藝術(shù)作品的3D化,游戲中對電影級3D資產(chǎn)的追求,還是影視作品在沉浸式音效和3D視效的提升等等,人們對有深度的、有沉浸感、有空間感的交互需求正在提升。
不管結(jié)論如何,發(fā)布會即將來臨。蘋果作為給3D視頻“下定義”的角色,是否真的有新的驚喜,VR陀螺也將持續(xù)關(guān)注。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信:vrtuoluo233 申請授權(quán),并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實(shí)出處,如涉及版權(quán)問題,請聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息