文/VR陀螺 案山子
戴上眼鏡,張開手掌,菜單立馬浮現(xiàn)在手掌上,并跟隨手掌移動;
手指捏合,便可進入應用;拖住一個3D模型,就可以把它拽到現(xiàn)實環(huán)境中,360度轉(zhuǎn)一圈看一下,還能捏住模型對角進行拉伸和縮小……
《黑客帝國》電影中的酷炫操作,如今離普通用戶越來越近了。
要說體驗最為接近《黑客帝國》的產(chǎn)品,縱觀全產(chǎn)業(yè),微軟的HoloLens如果排在第二必定無人敢說第一。但由于HoloLens中融合了眾多傳感器來實現(xiàn)高精度的SLAM定位與手勢識別算法,也導致了其“類頭盔”型的龐大體積,以及動輒3000美金的高昂價格,這個前提下面向消費市場幾乎無望。
如果在不影響核心體驗的基礎上,保持一定精度,并將產(chǎn)品和價格都調(diào)整至更接近消費端的形態(tài)呢?
或許Rokid近日公布的全新一代自研AR空間操作系統(tǒng)——YodaOS-Master,首創(chuàng)基于單攝像頭即可實現(xiàn)SLAM及3D裸手交互等能力,提供了新的參考思路。
雙目、四目到單目
背后的技術難點與突破
至今為止,大部分VR或者AR設備上所使用的SLAM定位,大多采用了2個或2個以上的攝像頭來實現(xiàn),部分甚至會結(jié)合更多的深度傳感器。
如HoloLens針對SLAM空間定位和手勢識別,采用了4 個可見光攝像頭、2個紅外攝像頭、1個ToF深度傳感器,同時還結(jié)合了加速度計、陀螺儀、磁強計等輔助定位。因此它能夠?qū)崿F(xiàn)非常高精度的定位效果。
而目前主流的VR終端,也從早期的雙目升級到了4目及以上,如Quest 2、Quest Pro、PICO 4、PS VR2等。
回到AR,關于定位追蹤或手勢識別的實現(xiàn),并無大家“默認”的標準,畢竟每家的產(chǎn)品定位和定義以及主打的場景都不盡相同。只是對于消費市場,大家會一致將“輕便”作為產(chǎn)品的第一要素。
空間定位和手勢識別的技術方案經(jīng)過多年迭代發(fā)展,在成本、易用性、便攜性、精準度和延遲各方面都迎來了較大的突破。
如空間定位的方式,從以可見光、激光、紅外為主的Outside-In(由外向內(nèi))方式,進化到以CV視覺為主的Inside-Out(由內(nèi)向外)方式,去除了冗雜繁瑣的安裝調(diào)試步驟,并且讓VR、AR終端隨時隨地可實現(xiàn)6DoF空間定位。
手勢識別同樣如此,為了平衡功耗、重量以及對處理器的負擔,摒棄紅外、ToF等深度傳感器,直接共用SLAM空間定位的硬件基礎,通過算法優(yōu)化來實現(xiàn)手勢識別的技術方案越來越成為主流,Quest 2就是一個非常典型的案例。
只是,在追求極致輕便的消費級AR產(chǎn)品上,且不論四目,就連雙目都稍顯多余。因此,基于單目攝像頭的SLAM和手勢識別技術方案,逐漸變成了眾多企業(yè)重點攻堅的技術難點。
原本雙目或者多目的目的,一方面是便于獲取深度信息,正如人的雙眼,由于產(chǎn)生了視差所以能夠判斷物體的距離;另一方面則是為了擴大捕捉范圍,所有攝像頭都有FOV限制,而視覺定位的局限性在于,其不可被遮擋,同時被捕捉物體必須在攝像頭的FOV范圍內(nèi),所以通過增加攝像頭,就能夠讓捕捉范圍更廣。
Rokid Max Pro(圖源:Rokid)
而單目由于只有一個平面攝像頭,無法用視差獲取深度信息,如何實現(xiàn)SLAM定位?
VR陀螺與Rokid首席科學家周軍博士、Rokid副總裁&XR中心負責人王俊杰,以及負責BSP和SLAM算法的馬超,三位技術專家展開了對話。
據(jù)了解,使用純視覺的單目攝像頭,無法獲取深度信息,也就是尺度信息,因此會分不清物體的遠近距離。而恢復深度有兩種方法,第一種是用雙目或者四目,通過視差來獲取,另一種方法則是通過不同的角度來觀測同一個物體,利用前后幀補償計算來獲取與雙目一樣的視差信息,從而反推出尺度信息。其原理與雙目類似,只是這個視差計算不在同一個時間內(nèi)進行,而是前后關系。
而恢復尺度的時候,核心的問題則在于怎么確定前后幀兩個不同視角之間物體的位置,因為這個位置需要標準的尺度信息來恢復,通過位置來反推物體的深度信息,所以要實現(xiàn)單目SLAM,慣性傳感器(IMU)是必不可少的,也就是加速度計和陀螺儀,通過它們能夠計算出真實的物理位移,然后反推物體的距離。
但是在處理的過程中會出現(xiàn)一個問題,在于加速度計本身的精度是不準的,會造成如果只是單純用這種簡單的方法來反推的話誤差較大,所以需要一套初始化算法來精準地將尺度信息估算出來,這也是為什么大部分單目SLAM算法,需要一開始精確初始化。初始化時一般需要用戶在空間內(nèi)來回走動,但這將影響用戶體驗,因此在Rokid AR初始化的設定中,只需要用戶稍微運動就能將深度信息計算出來。
從最開始數(shù)據(jù)的輸入的準確性,到整個生產(chǎn)環(huán)節(jié)的標定,再到算法的運行,以及算法使用過程中的實時自我校準,都會影響到里面的誤差。所以,AI跟深度學習在SLAM里面也占了一個比較重要的比重。特別是做一些快速的跟蹤定位的時候,AI部分尤為重要。
現(xiàn)在Rokid定制了大視場角的攝像頭,單目SLAM可以實現(xiàn)厘米級精度,整體上與雙目SLAM相當。
圖源:Rokid
除了SLAM空間定位,手勢識別也是一大難題,這是因為手勢具備高靈活性、高自由度的特點。并且相比于傳統(tǒng)的2D手勢識別,Rokid所關注的動態(tài)3D手勢識別更具有挑戰(zhàn)性。據(jù)了解,在3D手勢識別的算法實現(xiàn)上,首先要從復雜的環(huán)境背景中精確地檢測出人手所在的區(qū)域并標記出人手各個關節(jié)點的位置,然后利用人手本身的一些范式以及形狀特性,通過不停地追蹤人手各個關節(jié)點來估算反推出其深度距離,從而實現(xiàn)全自由度3D手勢識別。從視頻來看,目前Rokid的手勢識別在3D空間中可實現(xiàn)多種操作,包括拖、拉、拽、點擊等等,完全可以滿足AR交互應用需求。
使用單目實現(xiàn)SLAM空間定位和手勢識別,除了目前算法和精度還有待提升之外,其他的益處也很明顯,首先減輕重量,使結(jié)構(gòu)布局更簡單,避免雙攝基線變化帶來的算法效果劣化,減少支架配重,相比雙攝重量可減輕3-4g左右;同時還能降低功耗,一個攝像頭的功耗約100~200毫瓦,相對一些AR三攝方案功耗可降低1瓦以上,而降低功耗的同時也可同步緩解發(fā)熱、續(xù)航等問題;第三是降低成本,芯片選擇性更大,集成度更高,大幅減少設計復雜度,整體成本降低15%以上,所以據(jù)了解Max Pro的售價與上一代差異并不大。
場景決定產(chǎn)品形態(tài)
“真AR”必備SLAM與手勢
關于AR產(chǎn)品形態(tài)和交互的探討從未停止,但并沒有明確的定論。
如今市場上大家各自為戰(zhàn),產(chǎn)品形態(tài)或單目、雙目,或分體式、一體式,光學方案或Birdbath,或陣列/衍射光波導……不同產(chǎn)品形態(tài)下,對應的場景也各不相同,工業(yè)、教育、文旅、觀影、信息提示、翻譯、騎行、游泳……
Rokid在B端和C端均有布局,在其看來,AR難以有統(tǒng)一的標準,最后需要根據(jù)場景來定義產(chǎn)品形態(tài)。
只是針對消費端,正如前文提到,輕便仍是首要考慮因素,而要在此基礎上實現(xiàn)“真AR”,在其看來,SLAM空間定位與手勢交互技術是必備的。
實際上最近市場上的諸多動態(tài)也反映出這一趨勢,如高通去年年底推出的AR2芯片,主打功能就是無線和SLAM空間定位;此外,影目、雷鳥近期推出的新品也都帶有SLAM功能。
“AR相比手機、電腦,更多是三維空間化的升級。手機電腦是平面上的二維交互,AR更多是三維的交互,對于我們來說,三維化的交互一定是我們核心的發(fā)力點。空間化的交互、空間化的感知,還有空間化的展現(xiàn)。”周軍博士提到。
在操作交互方面,AR也紛繁多樣,手柄/手機、語音、手勢、按鍵、指環(huán)、手環(huán)……究竟哪一種是終極方案,現(xiàn)階段仍然難以一概而論。
“我認為會有多種交互方式共存,根據(jù)不同的場景選擇合適的交互。比如游戲它可能更適合一些確定性的交互,如指環(huán)、手柄等;對于交互不需要那么精確的應用,可能通過眼動追蹤、手勢識別就可以操作了;而對于需要精確輸入,可能還是需要鍵盤鼠標,因為它的效率更高。所以也會根據(jù)不同的場景來搭配,到底是用什么樣的交互方式做輸入和輸出。”對于未來交互的發(fā)展趨勢,王俊杰繼續(xù)補充道。
圖源:Rokid
相對于VR主打娛樂屬性,目前AR更適合從工具屬性切入,直到未來走向全場景、全天候、隨身攜帶的那天,或許就真正成為下一代個人計算平臺。作為工具,它的易用便攜性,則是Rokid如此執(zhí)著于手勢交互的關鍵因素之一。“3D手勢是最為自然的交互方式,不需要借助外設,方便簡單,最能體現(xiàn)人的本能意圖。”王俊杰說道。
而且,Rokid認為,圍繞產(chǎn)品和交互,AR企業(yè)才能在巨頭林立的賽道中構(gòu)建自己的護城河。
“交互部分,我們可以釋放標準,一起合作建設,或者通過OpenXR這種方式一起來制定標準。因為交互不完全是純算法部分,它還有很多硬件部分,所以很多交互的部分需要算法和底層技術一起去實現(xiàn),這部分內(nèi)容大廠是不會去釋放出來的,這是AR廠商自己的核心部分。”馬超說道。
探索“真AR時代”
讓所有人都能參與到生態(tài)共建中
3月21日,Rokid召開Open Day發(fā)布會,不僅向我們展示了其對于AR產(chǎn)品、交互的理解和最新的技術動態(tài),同時還呈現(xiàn)了他們對于未來AR這個大生態(tài)共建的決心。如今,Rokid已經(jīng)從AR終端、系統(tǒng)、交互、創(chuàng)作工具、平臺全面布局,并有序地推進。
1、消費級大屏入口,積累用戶
自2021年年底Rokid第一代消費級AR產(chǎn)品Rokid Air發(fā)售,到近日公司CEO祝銘明公布該產(chǎn)品6萬臺已全部售出,短短一年多時間,Rokid踏出了消費端AR市場成功的第一步。
“‘把AR行業(yè)帶入消費者時代’,Rokid Air已經(jīng)完成了它的使命,剩余的交付任務就交給繼任者。”祝銘明在公布Rokid Air銷量時還留了個小懸念。
Rokid Max(圖源:Rokid)
昨天的發(fā)布會上,“繼任者”的神秘面紗也被揭開。除了上文中提到的Rokid Max Pro外,Rokid還發(fā)布了Air的升級版Rokid Max,在上一代的基礎上提升了大屏體驗。
Rokid Air與Rokid Max參數(shù)對比:
圖源:網(wǎng)絡
Rokid升級版的AR主機Station Pro,采用高通全新擴展現(xiàn)實平臺第一代驍龍XR2+,該平臺相較于驍龍XR2平臺,可以帶來30%的散熱性能提升和50%的持續(xù)性能提升。主機還內(nèi)置了12G RAM + 128G ROM,支持WIFI6/6E和BT5.1,基于Station Pro主機運行分體式眼鏡,續(xù)航能力將是手機方案的2倍以上,同時具有更佳的散熱和更高性能,可以達到厘米級6DoF跟蹤精度和極低 MTP(Motion to Photon)渲染延遲。
正如手機以大哥大形態(tài)最早面向消費市場一樣,AR在底層技術受限的當下,也不得不先從細分市場切入,而對于消費市場來說,既有的“大屏”觀影需求,顯然比游戲等重交互的場景更容易切入,所以大多消費級AR產(chǎn)品都瞄準了這條細分賽道。
對于Rokid來說,大屏只是切入消費市場的第一步,先積累種子用戶,接下來,逐步擴充應用場景,融入交互,則是其要使用Rokid Max Pro以及基于單攝的自研AR空間化操作系統(tǒng)來下的第二步棋。
圖源:Rokid
2、全空間化AR操作系統(tǒng),場景交互提升至新維度
正如上文中提到,SLAM空間定位、手勢識別將是AR產(chǎn)品中不可或缺的兩項技術,而這兩項技術融入后,現(xiàn)有的AR產(chǎn)品也將在交互層面全面提升一個維度。
為了更好地呈現(xiàn)單目SLAM效果,Rokid從系統(tǒng)底層著手,本次也帶來了最新的全空間化AR操作系統(tǒng)——YodaOS-Master。該系統(tǒng)基于單攝像頭即可實現(xiàn)SLAM、3D裸手交互、第一視角分享、視覺定位VPS等能力,可以支持多任務運行、空間創(chuàng)作等AR體驗,給更輕量化、普惠的AR眼鏡帶來無限可能。同時,圍繞感知、理解、協(xié)同、展現(xiàn)和數(shù)字資產(chǎn)五個方面,YodaOS-Master從芯片優(yōu)化、硬件設計、軟件架構(gòu)、AR算法還有創(chuàng)作工具等諸多方面都做了全面升級。
YodaOS-Master(圖源:Rokid)
基于YodaOS-Master的底層系統(tǒng)能力,場景拓展得到了極大提升。Rokid實際上去年下半年就使用單攝SLAM產(chǎn)品在部分場景上有過探索,如北京民生美術館的“敦煌AR智能導覽”,在該案例中,參觀者戴上AR眼鏡,進入莫高窟第285窟1:1復制的洞窟中,就可以看到以九色鹿為原型的數(shù)字講解員“敦敦”浮現(xiàn)在面前,引導講解1400多年前的西魏時期,第285窟壁畫中的《五百強盜成佛》故事。
游客體驗北京“敦煌AR智能導覽” (圖源:Rokid)
目前針對博物館場景、街區(qū)導覽或者辦公室的導覽等場景,Rokid已經(jīng)形成了相對比較完善的整體解決方案,并且還在拓展其他更多輕交互的場景。
3、AR空間創(chuàng)作工具靈境,讓所有用戶參與到生態(tài)建設中
除了以上諸多軟硬件更新迭代之外,Rokid本次還帶來了一款讓所有人能夠快速實現(xiàn)AR空間創(chuàng)建的產(chǎn)品——靈境。
其包含空間采集&重構(gòu)功能和3D場景編輯功能。使用靈境,通過普通的iOS和安卓手機的攝像頭視頻采集,在AI引導下,無需標定板,通過手機SLAM即可完成尺度恢復。并能針對不同環(huán)境調(diào)整參數(shù),保證數(shù)據(jù)采集質(zhì)量,“上傳至云端”完成空間重構(gòu)。據(jù)了解,其建圖速度也相比市場主流方案更為快速,10平米空間用靈境平均只需要10分鐘就能完成。
Rokid的目標是把創(chuàng)造AR空間體驗這件事,變得可用易用,幫大家提升生產(chǎn)與合作的效率,支持各行業(yè)的業(yè)務標準化,并提供基于硬件的交互和系統(tǒng)能力,從而幫助大家一起重構(gòu)未來混合現(xiàn)實空間下的人、物、場。
投稿/爆料:tougao@youxituoluo.com
稿件/商務合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信:vrtuoluo233 申請授權,并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實出處,如涉及版權問題,請聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息