文/VR陀螺 林德
手勢識別在VR交互中是一個十分重要的技術(shù),被視為計算機理解人體語言的一種必然方式。自從Ouclus在2019年12月正式推出手勢追蹤功能之后,手勢識別的功能在開發(fā)者和用戶中受到了很大的歡迎。但這也是Oculus在收購了手勢識別相關(guān)的技術(shù)公司時隔4年后,才正式推出的手勢追蹤功能。
可見,手勢交互技術(shù)還存在技術(shù)難度。
雖然手勢識別目前仍受到很多的限制,但在虛擬空間模擬現(xiàn)實中與物體的交互行為上,比起技術(shù)難度更大、風(fēng)險更大的“腦機接口”,手勢識別顯得更加直接自然,因此很多的團隊都在持續(xù)不斷地研究手勢識別的計算。
圖源:Techspot
近日,由Facebook虛擬實驗室、愛丁堡大學(xué)以及香港大學(xué)組成的團隊發(fā)表了他們在手物交互這方面的最新論文成果《ManipNet: Neural Manipulation Synthesis with a Hand-Object Spatial Representation》。雖然目前這項研究成果還處于初步階段,但從該團隊發(fā)表的論文的實驗數(shù)據(jù)來看,這一研究的應(yīng)用將極大提高手物交互的擬真度和靈巧度,使手勢識別技術(shù)向著全自由交互邁進的一大步。
ManipNet:
基于手-物體的空間表征算法
根據(jù)研究,人們每天平均與140個物體互動,并且這些進行交互的日常物品形態(tài)是多種多樣的。人們通過復(fù)雜的手指動作與物體進行交互,但在VR或AR體驗中,由于控制器無法產(chǎn)生自然且真實的手部動作,會導(dǎo)致體驗沉浸感遭到破壞。想要達到完全的自然沉浸感,關(guān)鍵在于如何基于計算機算法,模擬出人手部自然交互操作上的細微變化。
目前,手勢識別的技術(shù)主要是通過訓(xùn)練機器學(xué)習(xí)來實現(xiàn)的,人們自然情況下的手部操作是依靠復(fù)雜的手指動作呈現(xiàn)的,如果依靠單純的數(shù)據(jù)學(xué)習(xí)方式學(xué)習(xí)手的靈巧操作將需要大量的數(shù)據(jù)。因此鑒于行業(yè)內(nèi)深度學(xué)習(xí)研究的成功,該團隊提出一個名為ManipNet的深度神經(jīng)網(wǎng)絡(luò)算法。所謂的深度神經(jīng)網(wǎng)絡(luò)是機器學(xué)習(xí)的一個分支,是通過人工神經(jīng)網(wǎng)絡(luò)為架構(gòu),對輸入資料進行表征學(xué)習(xí)的算法。
圖源:網(wǎng)絡(luò)
ManipNet是該團隊研究人員利用手-物體的空間關(guān)系特征,直接從數(shù)據(jù)中學(xué)習(xí)手部的自然操作行為的深度學(xué)習(xí)算法。團隊計劃通過對有限的物體數(shù)據(jù)樣本的學(xué)習(xí)擴展到幾何變化上。也就是說,通過對小量物體形狀的深度學(xué)習(xí)類推到不同幾何變化的物體上。
該團隊表示,他們研究的空間表征算法結(jié)合了作為體素占比(三維空間分割上的最小單位)的整體物體形狀和作為最近距離樣本的物體局部的幾何細節(jié)。這種算法使得深度神經(jīng)網(wǎng)絡(luò)可以通過從手腕和物體的輸入軌跡中模擬手指運動。
具體來說就是該團隊為ManipNet提供了幾個時間節(jié)點的手指運動軌跡,過去、現(xiàn)在、未來,以及這些軌跡中提取的空間表征,然后深度神經(jīng)網(wǎng)絡(luò)會根據(jù)這些已有的數(shù)據(jù)生成一個自回歸模型,預(yù)測從過去、現(xiàn)在到未來這幾個節(jié)點之間缺少的其他手指姿態(tài)。
如圖1所示,ManipNet是從控制信號和物體幾何特征中預(yù)測對象操縱的手指姿態(tài),其中控制信號是手腕和物體的6D軌跡,并且該深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)公式需要一個最小的和明確的輸入表示,以便實現(xiàn)更好的泛化。
圖源:Facebook Research
此外,該團隊表示在設(shè)計ManipNet時,該算法只處理一個手-物體的“輸入”。團隊研究人員通過鏡像,運行兩次該網(wǎng)絡(luò),為雙手生成預(yù)測圖像。“這種設(shè)計允許我們轉(zhuǎn)換手的空間中的輸入特征,使我們能夠處理交互作用的手的不同組合。”
該團隊還展示了其系統(tǒng)的運行框架概述,如下圖所示。其中手腕和物體的運動軌跡、手部的皮膚網(wǎng)格和物體的三維幾何圖形作為“輸入”對象,深度神經(jīng)網(wǎng)絡(luò)ManipNet作為自回歸模型,會逐幀輸出生成手指的詳細姿勢。
系統(tǒng)框架(圖源:Facebook Research)
為了避免ManipNet對訓(xùn)練出現(xiàn)過度擬合的情況導(dǎo)致預(yù)測結(jié)果偏差較大,同時提高該系統(tǒng)的通用性,該團隊利用了三種類型的虛擬傳感器來編碼物體的幾何形以及與手的空間關(guān)系。這三個虛擬傳感器以粗體素網(wǎng)格捕捉整體物體形狀,以點樣式捕捉局部幾何細節(jié)為樣本。
圖源:Facebook Research
團隊對此解釋,雖然整體物體特征有助于系統(tǒng)規(guī)劃整體姿態(tài)和預(yù)測未來運動軌跡,但物體的局部特征發(fā)揮著更加重要的作用——能夠使算法拓展到任何幾何形狀。
該團隊還表示,目前通過從少量的物體形和廚具物品種學(xué)習(xí),ManipNet已經(jīng)能夠合成各種手指姿態(tài),以抓取更復(fù)雜的幾何物體。
“我們在本文中開發(fā)的具有高通用性的表示法有可能應(yīng)用于基于DRL的基于物理的對象操作技術(shù)。我們提出了一個神經(jīng)網(wǎng)絡(luò)公式來合成使用雙手操作物體的手指運動,我們的關(guān)鍵貢獻是在操縱中代表手和物體之間的空間關(guān)系的特征。”
總體看來,該團隊在手物交互這一方面做出了以下貢獻:
一個基于深度學(xué)習(xí)的運動合成系統(tǒng),可以為單/雙手的物體操作產(chǎn)生靈巧詳細的手指動作;
一種手-物體空間表征的算法,能提高神經(jīng)網(wǎng)絡(luò)的通用性;
提供一個手物交互的運動數(shù)據(jù)集,包括詳細的手指運動和16個手-物體的操作運動。
ManipNet或?qū)⒃赩R/AR應(yīng)用上潛力十足
由于手部活動的靈活度以及因人而異的大小、體積等問題,動畫師通常不得不手動設(shè)計與捕捉到的全身運動相匹配的手指運動,或者使用單獨的設(shè)備來產(chǎn)生手指運動。此外,還有數(shù)據(jù)的可變化性、運動捕捉相機分辨率的提高和追蹤手指關(guān)節(jié)等技術(shù)的發(fā)展原因,導(dǎo)致當前手物交互方面的研究仍然充滿局限性。
該團隊在論文中也表示,對物體的靈巧操作是一個相當困難的問題,需要考慮手和物體之間的動態(tài)交互,即使通過基于物理基礎(chǔ)的模擬,已經(jīng)開發(fā)了操作對象的方法,但這種手-物體操作的開發(fā)還有待探索。
圖源:網(wǎng)絡(luò)
即便如此,團隊研究人員認為手物交互在游戲和AR/VR實時交互應(yīng)用中有很大的潛力。
“隨著AR/VR硬件在消費者市場的崛起,將我們的系統(tǒng)與其內(nèi)置對象跟蹤相結(jié)合為新的互動內(nèi)容打開了許多創(chuàng)造性的機會。”
參考鏈接:https://research.fb.com/publications/manipnet-neural-manipulation-synthesis-with-a-hand-object-spatial-representation/
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信:vrtuoluo233 申請授權(quán),并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實出處,如涉及版權(quán)問題,請聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息