游戲評測

推廣

熱點(diǎn)資訊

資深技術(shù)專家解讀蘋果Vision Pro的3D拍攝可否在手機(jī)端實(shí)現(xiàn)

發(fā)布時間：2023-09-13 16:25 | 標(biāo)簽：蘋果 3D拍攝 Vision Pro 空間視頻技術(shù)解讀

微信掃一掃：分享

微信里點(diǎn)“發(fā)現(xiàn)”，掃一下
二維碼便可將本文分享至朋友圈

文/VR陀螺

歷經(jīng)七年沉淀，蘋果終于在2023 WWDC大會上正式推出其第一代空間計算平臺終端——Vision Pro，敲響了進(jìn)軍XR消費(fèi)端的戰(zhàn)鼓，而后蘋果在各地開設(shè)的開發(fā)者實(shí)驗(yàn)室也讓開發(fā)者們得以從產(chǎn)品窺探蘋果對空間計算的理解。

從蘋果Vision Pro展示所有場景中，不得不說3D拍攝是其中最讓人印象深刻的一個功能。演示視頻中，一位用戶佩戴著Vision Pro頭顯來觀看一條空間視頻，可以看到視頻的“空間感”，畫面運(yùn)鏡從右到左更是可以看到視頻中人物的不同角度。

而在另一個片段中，用戶按下頭顯上方的按鍵后，便開始錄制Vision Pro前方的畫面，同時Vision Pro的正面還會有光效變化來表示用戶正在錄制空間視頻或照片。

如今拍照、拍視頻已經(jīng)成為普通消費(fèi)用戶最為高頻及常用的功能，更誕生了龐大的視頻內(nèi)容市場。如今蘋果著重推出的3D拍攝功能，是否會變成“下一個計算平臺”的主流拍攝形式，謎底將在本文揭曉。

傳感器更迭帶來的時代機(jī)遇，正悄然來臨

傳感器是消費(fèi)電子產(chǎn)品中的核心零部件，而基于傳感器不同的屬性和功能，帶來了眾多不同的應(yīng)用場景和商業(yè)模式的延伸。

如基于GPS，讓滴滴、美團(tuán)、餓了么實(shí)現(xiàn)精準(zhǔn)定位；基于激光雷達(dá)等傳感器，讓掃地機(jī)器人、服務(wù)機(jī)器人擁有“眼睛“；基于結(jié)構(gòu)光傳感器，讓面部解鎖、面容支付成為可能；基于手機(jī)的高清攝像頭，讓人人都可成為時代的記錄者；基于毫米波雷達(dá)、超聲波、毫米波以及GPS、IMU等，讓汽車自動駕駛成為可能……

甚至可以說，每一代計算平臺的變革，都離不開傳感器的更迭。

被譽(yù)為“空間計算”開拓者的蘋果Vision Pro，其機(jī)身上設(shè)有12個攝像頭，5個傳感器（其中1*LiDAR、2*結(jié)構(gòu)光深度傳感、2*IR紅外傳感），這些傳感器分別用來處理空間環(huán)境感知、手勢識別、三維建模和眼動追蹤等功能，其攝像頭和傳感器的數(shù)量也比市面上的其他VR頭顯多得多，為的就是更好地實(shí)現(xiàn)3D空間感知和3D掃描功能，以及3D照片和視頻的拍攝。

所有人都在暢想，蘋果的Vision Pro將帶來哪些新的場景，這些場景會帶來哪些新的生態(tài)和商業(yè)模式。

拋開游戲、社交、3D影視等常見的場景之外，Vision Pro與之前的所有VR或者M(jìn)R終端，其獨(dú)有的場景創(chuàng)新莫過于“3D拍攝”，視頻中所呈現(xiàn)出來的空間感，讓人仿佛置身其中，這種方式區(qū)別于之前的全景照片/視頻，其強(qiáng)調(diào)的并不是拍攝范圍的擴(kuò)大，而是空間深度信息的復(fù)現(xiàn)。

但視頻中僅展示了使用頭顯拍攝，如果要將一種新的視頻形式、格式推向廣泛大眾，用UGC來形成一個品類的內(nèi)容生態(tài)，誕生諸如3D視頻的Bilibili、抖音，顯然僅靠頭顯是不夠的。

畢竟售價3499美元（約人民幣25515元）的蘋果Vision Pro，在初期也注定會成為一部分人的“新鮮玩意兒”，以及一部分創(chuàng)作者的“生產(chǎn)力工具”，難以在短時間內(nèi)讓所有消費(fèi)者欣然買單。

除了蘋果Vision Pro，現(xiàn)有的終端設(shè)備如智能手機(jī)等能否實(shí)現(xiàn)3D拍攝，來填補(bǔ)內(nèi)容生產(chǎn)力不足的空白？

帶著以上疑問，VR陀螺與一位3D內(nèi)容生產(chǎn)專家，KIRI Innovations的創(chuàng)始人Jack進(jìn)行一次深度交流，探索3D拍攝的技術(shù)原理以及手機(jī)作為載體的可行性。

蓄謀已久的LiDAR傳感器，究竟用來做什么？

很多人或許已經(jīng)注意到，早在2020年發(fā)布的iPad Pro以及iPhone 12 Pro上，蘋果悄悄增加了一個新的傳感器——LiDAR。根據(jù)釋義，這是一種通過激光的發(fā)射和接收返回信號的時間差進(jìn)行距離測算的傳感器，用于獲得點(diǎn)云數(shù)據(jù)并生成數(shù)字化三維模型。

LiDAR這項(xiàng)技術(shù)主要利用脈沖激光來測量目標(biāo)的距離，常應(yīng)用于測繪學(xué)、考古學(xué)、地理學(xué)等領(lǐng)域，而蘋果2020年推出iPad Pro、iPhone 12 Pro等產(chǎn)品之時，將這項(xiàng)技術(shù)落地到了消費(fèi)電子領(lǐng)域。而且它既不像攝像頭像素提升帶來的清晰度提升，也不像廣角帶來了角度擴(kuò)大那般顯性，如果不是專業(yè)用戶，根本感知不到LiDAR的功能和價值。

為什么蘋果要將LiDAR應(yīng)用到移動設(shè)備上？Jack進(jìn)行了詳細(xì)的解讀。

首先，LiDAR對蘋果來說最直接的益處就是改善拍照的對焦方式及其效果，因?yàn)槠淇梢詫?shí)現(xiàn)5米以內(nèi)的距離檢測。自動對焦或許看上去是平平無奇的功能，實(shí)際上在夜間或暗處是難以做到準(zhǔn)確對焦的，而通過LiDAR能比光學(xué)對焦更快、更準(zhǔn)確，無需手動對焦，從而進(jìn)一步提升拍攝能力。

Polycam

其次，LiDAR的測距能力也能應(yīng)用到空間掃描和定位上，例如ARKit SDK中所調(diào)用的深度信息也包括LiDAR所獲取的信息，相對于其他平面攝像頭傳感器，LiDAR可獲得更為精準(zhǔn)的定位信息，精確到毫米級。

如2020年發(fā)布的ARKit 3.5，新的Scene Geometry API就是使用激光雷達(dá)掃描創(chuàng)建空間的3D地圖，以區(qū)分地板、墻壁、天花板、窗戶、門和座椅。該掃描儀能夠在長達(dá)五米的距離內(nèi)快速測量物體的長度、寬度、深度，從而使用戶能夠快速創(chuàng)建可用于物體遮擋的數(shù)字傳真機(jī)-使數(shù)字物體看起來像在部分場景中融入了場景真實(shí)的對象。得益于“即時AR”支持，這些數(shù)字對象可以自動放置在空間中，而無需在平板電腦上晃來晃去并使相機(jī)具有空間感。

除了空間定位之外，LiDAR還可以輔助3D建模。但是由于LiDAR精度約5mm，當(dāng)用于空間定位時可以實(shí)現(xiàn)精準(zhǔn)的效果，但用于3D重建，特別是小的靜態(tài)物體的重建時，其精度是不夠的，并且僅用LiDAR無法實(shí)現(xiàn)色彩信息獲取。所以也就衍生出一種搭配——使用LiDAR獲取深度信息，結(jié)合RGB攝像頭獲取高精圖片并貼合，而這就是蘋果推出的Object Capture API的模式，3D建模應(yīng)用《KIRI Engine》、《Polycam》和《Scanniverse》等應(yīng)用都調(diào)用了該API。

關(guān)于該傳感器在AR領(lǐng)域的應(yīng)用，可參見當(dāng)時VR陀螺的實(shí)測：《LiDAR效果實(shí)測！對蘋果AR生態(tài)與AR眼鏡有何意義？》

但由于其精度不夠，所以Jack的3D平臺應(yīng)用《Kiri Engine》雖然也調(diào)用了LiDAR，不過其不但僅僅是用LiDAR來獲取景深信息，還用其來獲取相機(jī)的位姿（位置和姿態(tài)）定位，轉(zhuǎn)而使用普通相機(jī)拍攝多角度照片，融合NERF和MVS混合算法來實(shí)現(xiàn)3D建模，該技術(shù)相比LumaAI所生成的mesh質(zhì)量精度更高，且能夠直接用AI實(shí)現(xiàn)模型三角面轉(zhuǎn)四角面用于開發(fā)。

最后一項(xiàng)功能，也是本文將要討論的最核心的功能，蘋果的3D拍攝，實(shí)際學(xué)術(shù)名稱為體三維視頻（Volumetric 3D Video）。

Jack表示，蘋果Vision Pro演示出來的這種帶景深的3D視頻實(shí)際上不需要3D重建技術(shù)，它也不是3D模型，因?yàn)檫@類內(nèi)容是體三維視頻，反過來這類內(nèi)容無法直接應(yīng)用到UE和Unity。而體三維（Volumetric 3D）是一種立體顯示技術(shù)，通過這項(xiàng)技術(shù)可以直接看到具有物理景深的三維圖像。

普通的視頻主要有X軸和Y軸兩個維度構(gòu)成，而體三維在X軸和Y軸的基礎(chǔ)上多了個Z軸，相當(dāng)于景深軸。一般我們用像素（Pixel）來作為2D圖片或視頻的單位，而在體三維中會用到體素（Voxel）這個單位。

Jack進(jìn)一步說明道：“要拍攝有景深效果的3D視頻，就需要用到之前說的LiDAR+RGB攝像頭的方法，但還有幾個前提條件，一是需要視差，即需要至少兩個有相同焦段的RGB攝像頭，二是攝像頭之間要保持一定的距離，就像蘋果Vision Pro那樣。”

如果是iPhone手機(jī)中的2個攝像頭，結(jié)合LiDAR能否實(shí)現(xiàn)體三維視頻拍攝？Jack表示，很早之前學(xué)術(shù)界一直在嘗試，但并未獲得很好的效果。其認(rèn)為這也是蘋果技術(shù)最為厲害之處，能實(shí)現(xiàn)別人做不到的事情。

此外，Jack還表示，體三維視頻不同于2D圖片或視頻，3D形式文件的大小還要計算XYZ軸以外的通道，比如阿爾法通道（是指一張圖片的透明和半透明度），例如蘋果就有RGBA這種用于計算RGB和Alpha色彩空間的文件格式，體三維視頻的文件一定會是4通道以上的，文件大小也將是倍數(shù)級的增長。所以蘋果Vision Pro的內(nèi)存以1T起步，而據(jù)了解從iPhone 15起，手機(jī)內(nèi)存將從256GB起步。

LiDAR空間檢測的內(nèi)容量增加也會對體三維視頻的內(nèi)容體積和算力帶來挑戰(zhàn)。在對話中，Jack推測蘋果的3D體三維視頻在錄制時可能會出現(xiàn)算力不足的問題，從而影響畫質(zhì)和幀率。其舉例說明，如果平面畫面的像素是4K，景深像素是1000pixel，相當(dāng)于要渲染1000層4K畫面，這對于算力的要求是指數(shù)級提升。因?yàn)樵隗w三維視頻中，每一層的深度信息都要渲染一次，LiDAR深度距離的渲染對算力有著非常大的需求，所以推測蘋果可能會將體三維視頻的像素進(jìn)行壓縮。

如果去掉LiDAR功能，單純用RGB攝像頭能否實(shí)現(xiàn)景深效果？

Jack認(rèn)為理論上可以做到這個效果，但攝像頭的距離限制取決于LiDAR。LiDAR可以測得5-15m距離，有了LiDAR，呈現(xiàn)出的景深效果質(zhì)感表現(xiàn)上會更好。

由此可知，蘋果在MR中實(shí)現(xiàn)的3D視頻形式主要是體三維視頻，而LiDAR在體三維視頻拍攝中的空間感知方面發(fā)揮著重要作用。它作為在體三維視頻中實(shí)現(xiàn)深度測量的工具，還能在未來的3D內(nèi)容生產(chǎn)中帶來革新，推測蘋果將針對3D拍攝方面帶來進(jìn)一步的優(yōu)化和突破。

結(jié)語

9月13日，蘋果即將召開秋季新品發(fā)布會，此次蘋果將帶來全新的iPhone 15，也有業(yè)內(nèi)人士稱，蘋果或?qū)⒃谑謾C(jī)端支持3D拍攝，也就是上文提到的體三維視頻拍攝的功能。

VR陀螺很早之前也提到了同樣的觀點(diǎn)，而Jack也側(cè)面證明了基于手機(jī)傳感器的可行性，不過，將手機(jī)作為輸入端可以大幅拓展內(nèi)容生產(chǎn)效率，畢竟無論是短視頻興起還是滴滴打車普及，都離不開搭載了傳感器的終端設(shè)備的普世化。

蘋果的體三維視頻將照片以一種新的呈現(xiàn)方式展現(xiàn)出來，刷新了人們對平面2D照片和視頻的固有認(rèn)知，3D視頻未來有望成為新的主流圖像顯示形式。

現(xiàn)階段人們在日常生活中接觸到的信息已經(jīng)在從2D轉(zhuǎn)向3D，無論是藝術(shù)作品的3D化，游戲中對電影級3D資產(chǎn)的追求，還是影視作品在沉浸式音效和3D視效的提升等等，人們對有深度的、有沉浸感、有空間感的交互需求正在提升。

不管結(jié)論如何，發(fā)布會即將來臨。蘋果作為給3D視頻“下定義”的角色，是否真的有新的驚喜，VR陀螺也將持續(xù)關(guān)注。

投稿/爆料：tougao@youxituoluo.com

稿件/商務(wù)合作：六六（微信 13138755620）

加入行業(yè)交流群：六六（微信 13138755620）

版權(quán)申明：本文為VR陀螺原創(chuàng)，任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信：vrtuoluo233 申請授權(quán)，并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息，不得擅自更改內(nèi)容，違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實(shí)出處，如涉及版權(quán)問題，請聯(lián)系本網(wǎng)站協(xié)商處理。