發(fā)布時間:2017-08-31 15:34 | 標簽:
蘋果 ARkit
微信掃一掃:分享
微信里點“發(fā)現(xiàn)”,掃一下
二維碼便可將本文分享至朋友圈
本文作者系 Super Ventures 合伙人 Matt Miesnieks。
Q1:我同意您“追蹤系統(tǒng)已經(jīng)進入商品化階段”的論斷?,F(xiàn)在整個業(yè)界應該將注意力轉(zhuǎn)向有關交互的復雜問題了,它才是讓 AR 開發(fā)者頭疼的攔路石,我也是被交互問題搞得焦頭爛額的開發(fā)者之一。
A1:謝謝 Philip 的提問。交互確實是一個令人著迷但又非常難啃的硬骨頭。整個業(yè)界還沒有現(xiàn)成的技術標準可用,開發(fā)者只能自己騎驢找馬。AR 交互依然需要解決三大問題,它們分別是輸入(硬件、模式和多模 AI)、圖形界面和操作系統(tǒng)、應用和使用案例。
在我看來,現(xiàn)在談論圖形界面和應用這兩大塊還有些早,但絕對是個開始學習的好時機。以我的經(jīng)驗來看(我老婆就是個 AR 交互設計師,目前正在 Adobe 負責 Design Lab 的工作,他們在思考沉浸式設計的的未來)解決了輸入后我們面對的第二大問題是如何將內(nèi)容布局進一個 3D 場景中,畢竟開發(fā)者對這樣的場景沒有掌控力,而且這是前人沒做過的大課題。同時,我們還要讓內(nèi)容有較強的易讀性,文字是黑體還是背的?是否開啟夜間模式?如何避免你錯過重要信息?設置多大的字體?字體是 2D 還是 3D?等等……
我現(xiàn)在就將精力集中在解決這些問題上,平臺公司(如Hololens、蘋果和 Magic Leap 等)和在這些平臺上搭建應用的開發(fā)者可能有機會趕上這個風口。
Q2: 2015 年 5 月,蘋果收購了新創(chuàng)公司 Metaio,該公司手握相當強悍的追蹤技術,Metaio 的技術是否也為 ARKit 的誕生立下了汗馬功勞?
WWDC 上蘋果還一并推出了 Metal 2,其圖形效能相比Metal提升高達10倍,這絕對不是巧合。ARKit 的橫空出世是否與 Metal 2 有關呢?
如果兩者有聯(lián)系,安卓陣營的 GPU API Vulkan 是否也該盡快提供視覺和推理計算加速呢?
在我看來,蘋果確實有一定的技術優(yōu)勢,但與當年 Mac 大戰(zhàn) Windows 一樣,現(xiàn)在的安卓全球市場份額達到因 85%。因此如果整個安卓生態(tài)也能用上新的 API,就能進行快速追趕。同時,網(wǎng)頁端也能通過相同的方式進行 AR 大普及。
A2:關于蘋果和 Metaio 的問題,我沒有什么內(nèi)幕消息,不過我認為 Metaio 的代碼庫在平面檢測上對蘋果幫助不小。同時,它們在視覺追蹤器的定位上也幫了不少忙。眼下,F(xiàn)layBy 是業(yè)內(nèi)慣性追蹤器做的最好的廠商,而該技術是 ARKit 能實現(xiàn)驚人效果的基石之一。我認為,未來蘋果會基于現(xiàn)有的視覺慣性測量系統(tǒng)(VIO)打造更為完善的 SLAM 系統(tǒng),到時 Metaio 的價值自然會提現(xiàn)出來。
關于 Metal 的問題,我們曾將 Dekko 的代碼移植進蘋果早期系統(tǒng)的通用圖形處理器中,隨后花了大量時間對其性能進行了測試。下面是我們得出的結(jié)論:
1. 借助強大的慣性系統(tǒng)和良好的校準,視覺系統(tǒng)在運算上省了很多力。在 GPU 幫助下它們還能做一些特征檢測和光束調(diào)整的工作。不過,真正起作用的還是硬件加速的 3D 矩陣運算,因此追蹤系統(tǒng)在這里作用不大。
2. 解決了三維重構(在設備上進行密集的重構還很困難)問題后真正的好處才會大量出現(xiàn)。當然,我們還要在追蹤地圖上解決重新定位的問題(特別是在較大區(qū)域進行追蹤時)。
在你看來,安卓能憑借 85% 的市場占有率贏得這場 AR 之戰(zhàn)的最終勝利。不過我認為真正要緊的是:
時鐘同步的傳感器中心必須融入所有設備(現(xiàn)在已經(jīng)在許多新設備上實現(xiàn)了);
慣性測量單元(IMU)校準和建模需要成為 OEM 商的默認設置,而這會對設備的制造成本和時間造成影響,是業(yè)界面臨的一大挑戰(zhàn);
硬件加速隨后會占據(jù)主導地位,驅(qū)動 AR 用戶體驗。值得注意的是,我們必須首先解決密集的實時單一三維重構和廣域本地化技術。搞定了它們,3D 場景語義自然就明了啦。
對頭戴設備來說,能耗問題相當重要,要提升設備的佩戴體驗必然會影響電池的大小。不過,現(xiàn)在預測此類設備搭載的芯片會向何種方向進化還為時過早(是采用 Movidius 的 CVGPU 還是 HoloLens 的 HPU ASICs,或是高通驍龍 835?)。
順便說一句,關于 Vulkan 和 WebVR/WebAR 未來的市場前景,我還有很多思考。為了這些問題我也和 OEM 商和風投們進行了大量交流。顯然,它們更偏向 Chromebook 風格的頭戴設備,因為這樣就不用開發(fā)新的操作系統(tǒng)了。不過,這樣的產(chǎn)品在追蹤和三維重構能力上有一定的缺陷。
Q3:確實,AR 不會像智能機一樣顯示個 4x6 的桌面圖標陣。我想我們需要可以一次看多個 APP 的方法。因此我們需要全新的 UI 架構。不過,在 web 端我更看好新型的“用戶代理”。
A3:這個問題問得好,在 AR 面臨的所有挑戰(zhàn)中,UI 最令我著迷,同時它也是最難解答的。在我看來,最終的 UI 基調(diào)會由輸入系統(tǒng)來決定。
其次,整體 UI 風格會保持高度的擬物化(至少在初期),這樣用戶才能更加直觀的理解這種虛擬的感覺。最后我想說的是,AR 的 UI 風格不會特別華麗,它與我們熟悉的設計會有較多相似之處。
Q4:在文章中你沒有明確解釋有關 MR 和 LiDAR 融合的問題。 我迫切想知道關于高分辨率內(nèi)容和注釋系統(tǒng)的信息。
A4:由于功耗較高,LiDAR 恐怕難以融合進移動 AR 設備。把硬件問題放在一邊,我覺得你真正在乎的是系統(tǒng)是否能給應用開發(fā)者或內(nèi)容創(chuàng)造者以真實世界的 3D 感知(這里會提到密集 3D 重建 Dense 3D resconstruction,而不是我們使用的 Voxels 三維像素。通常,密集意思是各個立方英寸的三維像素,或者說 2D 攝像頭傳感器上每個像素的三維像素。)更高的像素是可能的,但對于室外或室內(nèi)場景,即便是每個面一英寸的三維像素,對 UX 來說都需要足夠高的分辨率。
想營造這種 3D 感知,系統(tǒng)需要提供“幾何學”和“語義學”意義,舉例來說系統(tǒng)需要提供沙發(fā)的外形,也得提供一些證明它是沙發(fā)的標簽。
只要有兩個攝像頭(一個傳統(tǒng)的 RGB,一個景深攝像頭),就能完成密集的 3D 重建,Tango 和 HoloLens 都在使用這樣的解決方案。不過,兩套系統(tǒng)提供的都是簡化的幾何學意義,而只利用一顆 RGB 攝像頭就完成密集重構的技術現(xiàn)在還不成熟(至少還要等一年)。此外,這種解決方案對處理能力的要求市場上現(xiàn)有設備都無法滿足。
對 3D 場景的語義學理解也是個相當活躍的研究領域,但想出產(chǎn)品至少也得等一年。
Q5:蘋果可能會借 ARKit 完成對智能手機 AR 行業(yè)的早期統(tǒng)治,但非 iOS 用戶卻享受不到,這部分用戶甚至很長時間都用不上這項功能。那么 ARKit 的誕生對安卓生態(tài)有什么意義呢?谷歌需要快速轉(zhuǎn)變打法,推出廉價版的 Tango 嗎(本文發(fā)布時,谷歌推出了 ARCore)?
A5:在我看來,ARKit 的真正價值和意義在于它告訴 OEM 商(也就是 Android 和 HMD 商),當硬件性能過關后,只需給開發(fā)者提供一定的支持,他們就能進入深層的內(nèi)容開發(fā)學習。
實話說,即使是一款能將 ARKit 性能發(fā)揮到極限的應用也并不完美,因為現(xiàn)在的應用依然要靠手持,沒有三維重構,輸入體驗也不怎么樣。不過,有了 ARKit 開發(fā)者終于可以認識到除了一個好點的追蹤系統(tǒng),AR 到底還需要什么。
無論谷歌是否會推出輕量級的 Tango(本文發(fā)布時,谷歌推出了 ARCore),安卓 OEM 商們都有自己的小算盤,它們也想扼住命運的咽喉,推出自家的 ARKit,未來一場混戰(zhàn)不可避免。
Q6:我關注移動 AR 和 SLAM 已經(jīng)一年左右了,但讀了你的文章我依然感覺醍醐灌頂。
我有兩個問題,第一個是 ARKit 會在 iPhone 7s 上調(diào)用第二個攝像頭嗎?第二個則是 ARKit 和 Tango 到底用了什么算法來避免物體移動帶來的 VIO 漂移?
A6:我覺得 7s 不會調(diào)用第二顆攝像頭(內(nèi)部消息,至少在這一版本不會使用),不過在繪制初始 3D 地圖時,第二顆攝像頭可能會負責提高精度。當年 FlyBy 的初始系統(tǒng)就沒用到第二顆攝像頭。由于 ARKit 可以兼容傳統(tǒng) mono RGB 攝像頭手機,因此它必須提供對立體聲硬件的特別支持。因此未來調(diào)用第二攝像頭也不是不可能。
對于問題中說到的“物體移動帶來的漂移”我不太理解。我想你說的可能是系統(tǒng)如何保持虛擬物體的位置,畢竟在 AR 場景中會有各種移動的物體“入侵”。廠商們實現(xiàn)這一效果靠的是以下這兩種方式:
1. 當場景動起來時,無論設備動不動,光學系統(tǒng)都會犯懵(當你站在一輛靜止的火車上,與另一列火車并排而立,一輛車動起來后你無法立即找出到底是哪輛車動了)。這個問題可以由慣性測量單元來解決,如果它探測不到加速,那么你就是靜止不動的,移動的是場景。
2. 一般情況下,場景內(nèi)都只有一部分在移動(如人走動、地面和建筑靜止)。系統(tǒng)會盯著場景中的某些點,它會設定一些“可靠性得分”來測算某些點是否能確定設備的姿態(tài)。那些足夠可靠的點最后才會入選,而場景中移動的物體會被忽視。
Q7:一旦到了室外,景深攝像頭就不太靈光了,因為背景光中紅外光譜的變化會擾亂它的工作。不過,也有人不這樣認為,因為雖然我們發(fā)送的光子數(shù)量不多,但都是在極短的時間內(nèi)完成的,因此某一點上產(chǎn)生的能量其實比太陽還高。以下為該理論的參考鏈接:
A7:這話說得有道理,但不是 100% 正確。如果發(fā)射器能散射出足夠的能量,那么即使戶外光線較強設備也能正常工作。此外,我們也能使用立體紅外接收器(像 Intel 的 Realsense),這樣在戶外也能實現(xiàn)較好的 AR 效果(限定在一定的范圍內(nèi))。真正困擾研究人員的其實是功耗、成本和到底能應對多少戶外情況。因此現(xiàn)有技術下,研究人員還不愿將景深相機加入消費級設備中去。
Q8:首先,我要贊一下那兩篇文章,因為終于有人指出計算視覺終將替代景深傳感器了。鑒于模擬數(shù)據(jù)正在快速崛起,我相信這一天離我們不遠了。
A8:動態(tài)紅外傳感器到底能不能勝任景深探測我也不敢 100% 確定。它們確實能解決一些 RGB 相機無法搞定的事情,比如光線較暗的房間、單色的表面和靜態(tài)物體的景深信息。在某些情況下,紅外線傳感器還能解決生物追蹤的問題。雖然這些都是些邊邊角角的個案,但未來在降低成本和空間利用率上可能都會起到作用,不過想省電是沒戲了。
雖然未來不好預測,但可以肯定的是,景深相機的活未來 mono RGB 攝像頭都能替代。
Q9:我們準備為建筑業(yè)開發(fā)一款 AR 應用并融入 Revit 模型,你覺得我們該選擇 ARKit 還是 Tango 平臺呢?
A9:我認為你們做選擇應該基于下列考慮:
首先,你們希望用戶下載應用(選 ARKit)還是直接從你們手里購買解決方案(選 Tango,順便售賣應用、手機、訓練教程和售后)呢?
其次,你的內(nèi)容是否與三維世界有互動?如果有,只能選 Tango 了。當然,一年以后 ARKit 可能也會支持該功能。
當然,由于不太了解你的公司,因此我只能簡單推薦你們選擇 Tango 平臺。這樣就能直接售賣解決方案并盡快找出產(chǎn)品在市場上的定位。如果你們的產(chǎn)品不能賣個高價,就說明它競爭力不夠。一旦 ARKit 開始支持你們所需的技術了,就能轉(zhuǎn)換平臺了,到時可以通過低成本的“自助”應用來拓展市場。
Q10:你認為未來不同的頭戴或移動設備該怎么同步坐標系?現(xiàn)有的應用需要多位用戶能同時看到并與相同的虛擬物體進行互動,這就需要整體坐標來保駕護航。未來,用光學傳感器加復雜的數(shù)據(jù)處理能解決這一問題嗎?或者說我們還能拿出其他解決方案?
另外,你認為未來會有其他傳感器平臺融合進頭戴設備嗎?比如 LiDAR 或雷達?或者說未來我們會純靠攝像頭?在我看來,如果只靠光學解決方案,必然會遇到一些過不去的坎。
A10:關于你提到的多人聯(lián)機問題,我們在 Dekko 和三星都做過相關的解決方案,因此對這個問題我門清。這套系統(tǒng)肯定要用到絕對坐標,相對坐標就沒有那么重要了。隨后,系統(tǒng)會在不同的設備間分享坐標(多玩家在線游戲早就解決這一問題了)。
困難之處在于如何通過定位獲取絕對坐標。眼下,這一問題外還沒有單一的解決方案,只有能拿到更精確 GPS 數(shù)據(jù)和慣性測量單元的軍方才能做到。一般來說,系統(tǒng)開機后會定位在 0,0,0 坐標并獲取 GPS 讀數(shù)(精度為 10-20 米),隨后開始覆蓋 VIO 和 GPS 系統(tǒng)。
除此之外,系統(tǒng)還會抓取相機坐標系并利用天際線或地標對比 GIS 地理信息系統(tǒng)進行定位。這樣一來,用戶的絕對坐標值就會更加精確。不過,未來我們需要像素級的超精確定位,現(xiàn)在的技術雖然已經(jīng)可以實現(xiàn),但想迅速推廣還是有些不現(xiàn)實。
實話說我并不看好 LiDAR 或雷達的前途,因為它們會大幅提升設備的功耗和重量。大多數(shù)設備還是會選擇 VIO,當然有些設備會輕度使用景深攝像頭。GPU 的職責這是支持這些傳感器完成地位和三維重構。此外,我們也不能忘了云端 3D 地圖和訓練數(shù)據(jù)的巨大作用。
Q11:如果說校準是重中之重,那么蘋果為什么要費那么大力將 ARKit 下放給 iPhone 6s 和 SE?最近蘋果還推出了機器學習框架 CoreML,它與 ARKit 是否有很多交集?
A11:蘋果為支持多款設備而付出了多少努力我不得而知,不過即使一并拉上了較老的 6s 和 SE,也不意味著蘋果每換一個機型就要重頭做起。
在打造 VIO 時,蘋果并未用上 Metal 或者 CoreML。由于慣性系統(tǒng)準確度很高,因此對 CPU 處理能力的要求并不高。此外,蘋果還要留著 GPU 渲染游戲和應用呢。
Q12:文章寫的真不錯。為了更深的理解我還專門做了功課,結(jié)果發(fā)現(xiàn) ARKit 用到的一些技術與蘋果在 iPhone 6 上引入的 Focus Pixels 技術有關。
A12:我也聽過這樣的論斷,至于蘋果是否用過我也不清楚。這項技術確實能提高景深估算的準確性,不過到底能提升多少我也說不清。同時,其穩(wěn)定性也存疑,如果需要相機時刻保持穩(wěn)定,其實用性就大打折扣了。對于蘋果這種軟硬件整合能力如此強悍的公司來說,將 Focus Pixels 技術用在追蹤器上確實有一定作用。
Q13:對于你文章中提到的價值主張我非常認同。在這里我還想添加幾點自己的意見:
1. AR 將人們的精力從設備上轉(zhuǎn)移開,使他們能重新抬起頭與人面對面交流。AR 有潛力扭轉(zhuǎn)移動設備對傳統(tǒng)社交互動的破壞。我們手上的設備和社交應用引來了一場數(shù)字鴉片危機。我雖然像其他人一樣熱愛科技熱愛移動設備,但我也能毫不猶豫的遠離它們。
2. 一段時間以后,AR 就能讓我們看到并與一些現(xiàn)實世界無法見到的奇景進行交互,對此我非常感興趣。不過,人們擅長逃避,而空想主義有多種形態(tài),我們有機會借 AR 打造一個比迪士尼更加天馬行空的世界。就這一點而言,我認為我們正站在一場大革新的門前。這場革新將顛覆我們的想象力,是留給子孫后代最好的遺產(chǎn)。
從個人層面來說,我非常希望開發(fā)者能真正成熟并拿出一些讓人眼前一亮的原型產(chǎn)品和體驗,這個行業(yè)里每個人的工作都是在添磚加瓦。
A13:上面提到的兩點確實很棒。關于讓人多抬頭,我覺得意義不大,因為人們還是會分心。我們確實可以面對面交流,但如果一方在做白日夢,這話也難說下去。AR 確實給了交互設計是一個好機會,我非常希望能參加到這場重大的實驗項目中去。
你提到的第二點我非常喜歡且贊同。實話說 AR 行業(yè)的野心比這個還大,它也確實能給我們的生活增光添彩,Dekko 也一直在朝這個方向努力,但技術環(huán)境卻一直不成熟。如果 AR 能最終成熟,兔子羅杰的故事拍成電影肯定比終結(jié)者或鋼鐵俠更加令人震撼?,F(xiàn)在這項技術正處在關鍵的臨門一腳,我實在是等不急了。
Q14:蘋果現(xiàn)在在 Apple Watch 上用的“compute tethering”策略你怎么看?iPhone 上 CPU/GPU 和 6D 傳感器數(shù)據(jù)混合讓蘋果眼鏡成了渲染對象和屏幕。
無線數(shù)據(jù)的吞吐能力是個大問題,因此蘋果眼鏡自己也得有個 GPU,這樣才能完成壓縮數(shù)據(jù)流的渲染。
A14:我認為你提到的幾點從技術角度來看都非?,F(xiàn)實。在我看來,iPhone 會長期扮演“外置處理器”的角色。從設計角度來看,蘋果不會一上來就把大量傳感器和技術融合進頭戴設備中。它們還是會繼續(xù)擠牙膏的風格,讓用戶逐步適應并最終過渡到真正的 AR 世界。即使底層系統(tǒng)已經(jīng)能提供追蹤等技術,AR 面對的一系列設計挑戰(zhàn)現(xiàn)在依然很難解決。
從技術角度來看,用戶的姿態(tài)估算可能會由頭戴設備上的專用集成電路完成,但渲染工作還是得靠智能手機。不過,以現(xiàn)有的無線網(wǎng)絡來看,帶寬問題會成為一頭攔路虎。雖然一根電纜就能解決問題,但這樣的方案背離了我們的初衷。
Q15:數(shù)字與物理相結(jié)合確實很棒,但更為簡單的桌面 3D 也有三大優(yōu)勢:1. 其社交和多人游戲?qū)傩愿鼜?,同一物理空間的利用率更高;2. 縮放和旋轉(zhuǎn)等動作更易改變語境且更容易實現(xiàn)相應的 VR/AR 效果;3. 桌面世界讓人更有參與感,而大多數(shù)軟件都沒有這些優(yōu)勢。
A15:你提出的這些點都很有料。在桌面游戲中,我們已經(jīng)體驗到了社交 AR 帶來的益處。不過,我們的大量測試也證明,僅僅是縮放和控制攝像頭對桌面 AR 來說還遠遠不夠。此外,你還要時常改變設備的角度,而玩家通常比較懶。對于桌面 AR,我持觀望態(tài)度。要想更好地開發(fā)這種解決方案,手機就不能僅僅成為鏡頭或窗口,它還要親身參與成為游戲手柄。在我看來,所有這些技術都必須遵循與現(xiàn)實世界互動的規(guī)律。在下一篇我將詳述這一問題。
Q16:1994 年,Paul Milgram 和 Fumio Kishino 將 MR 定義為“虛擬連續(xù)統(tǒng)一體極值間的任何地方”。2004 年,Doug A. Bowman (VR/AR 專家,2016 年加入蘋果) 又將 MR 稱為“包含了虛擬環(huán)境和 AR 的連續(xù)統(tǒng)一體。連續(xù)統(tǒng)一體中環(huán)境的位置則體現(xiàn)了虛擬性的級別?!盉owman 去年年初還被蘋果招致麾下。
如今,微軟將 MR 做成了一個更具營銷意義的名詞,雖然它只是個術語而且重要性并不高,但其意義非常值得深度解讀。
A16:給 AR 等術語下定義我一直以來都是拒絕的,因為這實在是太學究了。在我看來,當用戶有了相關體驗,他們自然就能將相關術語概念化。能有越來越多的人意識到所謂的連續(xù)統(tǒng)一體我很欣慰。在我看來,上面兩個定義都沒問題,人們對產(chǎn)品的分類也越來越明晰。Doug Bowman 和 Mark Bilinghurst 都是我多年的老朋友,他們研究的領域也很類似,所以我知道 Doug 大體在研究什么,但他在蘋果到底做了什么我還真不了解。
來源:雷鋒網(wǎng)。
關注微信公眾號:VR陀螺(vrtuoluo),定時推送,VR/AR行業(yè)干貨分享、爆料揭秘、互動精彩多。
投稿/爆料:tougao@youxituoluo.com
稿件/商務合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)