游戲評測

推廣

單攝實現(xiàn)SLAM定位與3D手勢背后的難點與突破

發(fā)布時間：2023-03-23 10:01 | 標簽： AR眼鏡 SLAM Rokid Rokid Max Pro 3D手勢

微信掃一掃：分享

微信里點“發(fā)現(xiàn)”，掃一下
二維碼便可將本文分享至朋友圈

文/VR陀螺案山子

戴上眼鏡，張開手掌，菜單立馬浮現(xiàn)在手掌上，并跟隨手掌移動；

手指捏合，便可進入應用；拖住一個3D模型，就可以把它拽到現(xiàn)實環(huán)境中，360度轉(zhuǎn)一圈看一下，還能捏住模型對角進行拉伸和縮小……

《黑客帝國》電影中的酷炫操作，如今離普通用戶越來越近了。

要說體驗最為接近《黑客帝國》的產(chǎn)品，縱觀全產(chǎn)業(yè)，微軟的HoloLens如果排在第二必定無人敢說第一。但由于HoloLens中融合了眾多傳感器來實現(xiàn)高精度的SLAM定位與手勢識別算法，也導致了其“類頭盔”型的龐大體積，以及動輒3000美金的高昂價格，這個前提下面向消費市場幾乎無望。

如果在不影響核心體驗的基礎上，保持一定精度，并將產(chǎn)品和價格都調(diào)整至更接近消費端的形態(tài)呢？

或許Rokid近日公布的全新一代自研AR空間操作系統(tǒng)——YodaOS-Master，首創(chuàng)基于單攝像頭即可實現(xiàn)SLAM及3D裸手交互等能力，提供了新的參考思路。

雙目、四目到單目

背后的技術難點與突破

至今為止，大部分VR或者AR設備上所使用的SLAM定位，大多采用了2個或2個以上的攝像頭來實現(xiàn)，部分甚至會結(jié)合更多的深度傳感器。

如HoloLens針對SLAM空間定位和手勢識別，采用了4 個可見光攝像頭、2個紅外攝像頭、1個ToF深度傳感器，同時還結(jié)合了加速度計、陀螺儀、磁強計等輔助定位。因此它能夠?qū)崿F(xiàn)非常高精度的定位效果。

而目前主流的VR終端，也從早期的雙目升級到了4目及以上，如Quest 2、Quest Pro、PICO 4、PS VR2等。

回到AR，關于定位追蹤或手勢識別的實現(xiàn)，并無大家“默認”的標準，畢竟每家的產(chǎn)品定位和定義以及主打的場景都不盡相同。只是對于消費市場，大家會一致將“輕便”作為產(chǎn)品的第一要素。

空間定位和手勢識別的技術方案經(jīng)過多年迭代發(fā)展，在成本、易用性、便攜性、精準度和延遲各方面都迎來了較大的突破。

如空間定位的方式，從以可見光、激光、紅外為主的Outside-In（由外向內(nèi)）方式，進化到以CV視覺為主的Inside-Out（由內(nèi)向外）方式，去除了冗雜繁瑣的安裝調(diào)試步驟，并且讓VR、AR終端隨時隨地可實現(xiàn)6DoF空間定位。

手勢識別同樣如此，為了平衡功耗、重量以及對處理器的負擔，摒棄紅外、ToF等深度傳感器，直接共用SLAM空間定位的硬件基礎，通過算法優(yōu)化來實現(xiàn)手勢識別的技術方案越來越成為主流，Quest 2就是一個非常典型的案例。

只是，在追求極致輕便的消費級AR產(chǎn)品上，且不論四目，就連雙目都稍顯多余。因此，基于單目攝像頭的SLAM和手勢識別技術方案，逐漸變成了眾多企業(yè)重點攻堅的技術難點。

原本雙目或者多目的目的，一方面是便于獲取深度信息，正如人的雙眼，由于產(chǎn)生了視差所以能夠判斷物體的距離；另一方面則是為了擴大捕捉范圍，所有攝像頭都有FOV限制，而視覺定位的局限性在于，其不可被遮擋，同時被捕捉物體必須在攝像頭的FOV范圍內(nèi)，所以通過增加攝像頭，就能夠讓捕捉范圍更廣。

Rokid Max Pro（圖源：Rokid）

而單目由于只有一個平面攝像頭，無法用視差獲取深度信息，如何實現(xiàn)SLAM定位？

VR陀螺與Rokid首席科學家周軍博士、Rokid副總裁&XR中心負責人王俊杰，以及負責BSP和SLAM算法的馬超，三位技術專家展開了對話。

據(jù)了解，使用純視覺的單目攝像頭，無法獲取深度信息，也就是尺度信息，因此會分不清物體的遠近距離。而恢復深度有兩種方法，第一種是用雙目或者四目，通過視差來獲取，另一種方法則是通過不同的角度來觀測同一個物體，利用前后幀補償計算來獲取與雙目一樣的視差信息，從而反推出尺度信息。其原理與雙目類似，只是這個視差計算不在同一個時間內(nèi)進行，而是前后關系。

而恢復尺度的時候，核心的問題則在于怎么確定前后幀兩個不同視角之間物體的位置，因為這個位置需要標準的尺度信息來恢復，通過位置來反推物體的深度信息，所以要實現(xiàn)單目SLAM，慣性傳感器（IMU）是必不可少的，也就是加速度計和陀螺儀，通過它們能夠計算出真實的物理位移，然后反推物體的距離。

但是在處理的過程中會出現(xiàn)一個問題，在于加速度計本身的精度是不準的，會造成如果只是單純用這種簡單的方法來反推的話誤差較大，所以需要一套初始化算法來精準地將尺度信息估算出來，這也是為什么大部分單目SLAM算法，需要一開始精確初始化。初始化時一般需要用戶在空間內(nèi)來回走動，但這將影響用戶體驗，因此在Rokid AR初始化的設定中，只需要用戶稍微運動就能將深度信息計算出來。

從最開始數(shù)據(jù)的輸入的準確性，到整個生產(chǎn)環(huán)節(jié)的標定，再到算法的運行，以及算法使用過程中的實時自我校準，都會影響到里面的誤差。所以，AI跟深度學習在SLAM里面也占了一個比較重要的比重。特別是做一些快速的跟蹤定位的時候，AI部分尤為重要。

現(xiàn)在Rokid定制了大視場角的攝像頭，單目SLAM可以實現(xiàn)厘米級精度，整體上與雙目SLAM相當。

圖源：Rokid

除了SLAM空間定位，手勢識別也是一大難題，這是因為手勢具備高靈活性、高自由度的特點。并且相比于傳統(tǒng)的2D手勢識別，Rokid所關注的動態(tài)3D手勢識別更具有挑戰(zhàn)性。據(jù)了解，在3D手勢識別的算法實現(xiàn)上，首先要從復雜的環(huán)境背景中精確地檢測出人手所在的區(qū)域并標記出人手各個關節(jié)點的位置，然后利用人手本身的一些范式以及形狀特性，通過不停地追蹤人手各個關節(jié)點來估算反推出其深度距離，從而實現(xiàn)全自由度3D手勢識別。從視頻來看，目前Rokid的手勢識別在3D空間中可實現(xiàn)多種操作，包括拖、拉、拽、點擊等等，完全可以滿足AR交互應用需求。

使用單目實現(xiàn)SLAM空間定位和手勢識別，除了目前算法和精度還有待提升之外，其他的益處也很明顯，首先減輕重量，使結(jié)構(gòu)布局更簡單，避免雙攝基線變化帶來的算法效果劣化，減少支架配重，相比雙攝重量可減輕3-4g左右；同時還能降低功耗，一個攝像頭的功耗約100～200毫瓦，相對一些AR三攝方案功耗可降低1瓦以上，而降低功耗的同時也可同步緩解發(fā)熱、續(xù)航等問題；第三是降低成本，芯片選擇性更大，集成度更高，大幅減少設計復雜度，整體成本降低15%以上，所以據(jù)了解Max Pro的售價與上一代差異并不大。

場景決定產(chǎn)品形態(tài)

“真AR”必備SLAM與手勢

關于AR產(chǎn)品形態(tài)和交互的探討從未停止，但并沒有明確的定論。

如今市場上大家各自為戰(zhàn)，產(chǎn)品形態(tài)或單目、雙目，或分體式、一體式，光學方案或Birdbath，或陣列/衍射光波導……不同產(chǎn)品形態(tài)下，對應的場景也各不相同，工業(yè)、教育、文旅、觀影、信息提示、翻譯、騎行、游泳……

Rokid在B端和C端均有布局，在其看來，AR難以有統(tǒng)一的標準，最后需要根據(jù)場景來定義產(chǎn)品形態(tài)。

只是針對消費端，正如前文提到，輕便仍是首要考慮因素，而要在此基礎上實現(xiàn)“真AR”，在其看來，SLAM空間定位與手勢交互技術是必備的。

實際上最近市場上的諸多動態(tài)也反映出這一趨勢，如高通去年年底推出的AR2芯片，主打功能就是無線和SLAM空間定位；此外，影目、雷鳥近期推出的新品也都帶有SLAM功能。

“AR相比手機、電腦，更多是三維空間化的升級。手機電腦是平面上的二維交互，AR更多是三維的交互，對于我們來說，三維化的交互一定是我們核心的發(fā)力點。空間化的交互、空間化的感知，還有空間化的展現(xiàn)。”周軍博士提到。

在操作交互方面，AR也紛繁多樣，手柄/手機、語音、手勢、按鍵、指環(huán)、手環(huán)……究竟哪一種是終極方案，現(xiàn)階段仍然難以一概而論。

“我認為會有多種交互方式共存，根據(jù)不同的場景選擇合適的交互。比如游戲它可能更適合一些確定性的交互，如指環(huán)、手柄等；對于交互不需要那么精確的應用，可能通過眼動追蹤、手勢識別就可以操作了；而對于需要精確輸入，可能還是需要鍵盤鼠標，因為它的效率更高。所以也會根據(jù)不同的場景來搭配，到底是用什么樣的交互方式做輸入和輸出。”對于未來交互的發(fā)展趨勢，王俊杰繼續(xù)補充道。

圖源：Rokid

相對于VR主打娛樂屬性，目前AR更適合從工具屬性切入，直到未來走向全場景、全天候、隨身攜帶的那天，或許就真正成為下一代個人計算平臺。作為工具，它的易用便攜性，則是Rokid如此執(zhí)著于手勢交互的關鍵因素之一。“3D手勢是最為自然的交互方式，不需要借助外設，方便簡單，最能體現(xiàn)人的本能意圖。”王俊杰說道。

而且，Rokid認為，圍繞產(chǎn)品和交互，AR企業(yè)才能在巨頭林立的賽道中構(gòu)建自己的護城河。

“交互部分，我們可以釋放標準，一起合作建設，或者通過OpenXR這種方式一起來制定標準。因為交互不完全是純算法部分，它還有很多硬件部分，所以很多交互的部分需要算法和底層技術一起去實現(xiàn)，這部分內(nèi)容大廠是不會去釋放出來的，這是AR廠商自己的核心部分。”馬超說道。

探索“真AR時代”

讓所有人都能參與到生態(tài)共建中

3月21日，Rokid召開Open Day發(fā)布會，不僅向我們展示了其對于AR產(chǎn)品、交互的理解和最新的技術動態(tài)，同時還呈現(xiàn)了他們對于未來AR這個大生態(tài)共建的決心。如今，Rokid已經(jīng)從AR終端、系統(tǒng)、交互、創(chuàng)作工具、平臺全面布局，并有序地推進。

1、消費級大屏入口，積累用戶

自2021年年底Rokid第一代消費級AR產(chǎn)品Rokid Air發(fā)售，到近日公司CEO祝銘明公布該產(chǎn)品6萬臺已全部售出，短短一年多時間，Rokid踏出了消費端AR市場成功的第一步。

“‘把AR行業(yè)帶入消費者時代’，Rokid Air已經(jīng)完成了它的使命，剩余的交付任務就交給繼任者。”祝銘明在公布Rokid Air銷量時還留了個小懸念。

Rokid Max（圖源：Rokid）

昨天的發(fā)布會上，“繼任者”的神秘面紗也被揭開。除了上文中提到的Rokid Max Pro外，Rokid還發(fā)布了Air的升級版Rokid Max，在上一代的基礎上提升了大屏體驗。

Rokid Air與Rokid Max參數(shù)對比：

圖源：網(wǎng)絡

Rokid升級版的AR主機Station Pro，采用高通全新擴展現(xiàn)實平臺第一代驍龍XR2+，該平臺相較于驍龍XR2平臺，可以帶來30%的散熱性能提升和50%的持續(xù)性能提升。主機還內(nèi)置了12G RAM + 128G ROM，支持WIFI6/6E和BT5.1，基于Station Pro主機運行分體式眼鏡，續(xù)航能力將是手機方案的2倍以上，同時具有更佳的散熱和更高性能，可以達到厘米級6DoF跟蹤精度和極低 MTP（Motion to Photon）渲染延遲。

正如手機以大哥大形態(tài)最早面向消費市場一樣，AR在底層技術受限的當下，也不得不先從細分市場切入，而對于消費市場來說，既有的“大屏”觀影需求，顯然比游戲等重交互的場景更容易切入，所以大多消費級AR產(chǎn)品都瞄準了這條細分賽道。

對于Rokid來說，大屏只是切入消費市場的第一步，先積累種子用戶，接下來，逐步擴充應用場景，融入交互，則是其要使用Rokid Max Pro以及基于單攝的自研AR空間化操作系統(tǒng)來下的第二步棋。

圖源：Rokid

2、全空間化AR操作系統(tǒng)，場景交互提升至新維度

正如上文中提到，SLAM空間定位、手勢識別將是AR產(chǎn)品中不可或缺的兩項技術，而這兩項技術融入后，現(xiàn)有的AR產(chǎn)品也將在交互層面全面提升一個維度。

為了更好地呈現(xiàn)單目SLAM效果，Rokid從系統(tǒng)底層著手，本次也帶來了最新的全空間化AR操作系統(tǒng)——YodaOS-Master。該系統(tǒng)基于單攝像頭即可實現(xiàn)SLAM、3D裸手交互、第一視角分享、視覺定位VPS等能力，可以支持多任務運行、空間創(chuàng)作等AR體驗，給更輕量化、普惠的AR眼鏡帶來無限可能。同時，圍繞感知、理解、協(xié)同、展現(xiàn)和數(shù)字資產(chǎn)五個方面，YodaOS-Master從芯片優(yōu)化、硬件設計、軟件架構(gòu)、AR算法還有創(chuàng)作工具等諸多方面都做了全面升級。

YodaOS-Master（圖源：Rokid）

基于YodaOS-Master的底層系統(tǒng)能力，場景拓展得到了極大提升。Rokid實際上去年下半年就使用單攝SLAM產(chǎn)品在部分場景上有過探索，如北京民生美術館的“敦煌AR智能導覽”，在該案例中，參觀者戴上AR眼鏡，進入莫高窟第285窟1:1復制的洞窟中，就可以看到以九色鹿為原型的數(shù)字講解員“敦敦”浮現(xiàn)在面前，引導講解1400多年前的西魏時期，第285窟壁畫中的《五百強盜成佛》故事。

游客體驗北京“敦煌AR智能導覽” （圖源：Rokid）

目前針對博物館場景、街區(qū)導覽或者辦公室的導覽等場景，Rokid已經(jīng)形成了相對比較完善的整體解決方案，并且還在拓展其他更多輕交互的場景。

3、AR空間創(chuàng)作工具靈境，讓所有用戶參與到生態(tài)建設中

除了以上諸多軟硬件更新迭代之外，Rokid本次還帶來了一款讓所有人能夠快速實現(xiàn)AR空間創(chuàng)建的產(chǎn)品——靈境。

其包含空間采集&重構(gòu)功能和3D場景編輯功能。使用靈境，通過普通的iOS和安卓手機的攝像頭視頻采集，在AI引導下，無需標定板，通過手機SLAM即可完成尺度恢復。并能針對不同環(huán)境調(diào)整參數(shù)，保證數(shù)據(jù)采集質(zhì)量，“上傳至云端”完成空間重構(gòu)。據(jù)了解，其建圖速度也相比市場主流方案更為快速，10平米空間用靈境平均只需要10分鐘就能完成。

Rokid的目標是把創(chuàng)造AR空間體驗這件事，變得可用易用，幫大家提升生產(chǎn)與合作的效率，支持各行業(yè)的業(yè)務標準化，并提供基于硬件的交互和系統(tǒng)能力，從而幫助大家一起重構(gòu)未來混合現(xiàn)實空間下的人、物、場。

投稿/爆料：tougao@youxituoluo.com

稿件/商務合作：六六（微信 13138755620）

加入行業(yè)交流群：六六（微信 13138755620）

版權申明：本文為VR陀螺原創(chuàng)，任何第三方未經(jīng)授權不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信：vrtuoluo233 申請授權，并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息，不得擅自更改內(nèi)容，違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實出處，如涉及版權問題，請聯(lián)系本網(wǎng)站協(xié)商處理。