2024年9月11日,由VR陀螺聯(lián)合CIOE中國光博會(huì)主辦的「光聚未來•第五屆中國AI+AR技術(shù)應(yīng)用高峰論壇」在深圳國際會(huì)展中心順利舉辦。
本次活動(dòng)以“光聚未來”為主題,聚焦AI與AR技術(shù)融合發(fā)展,從底層核心技術(shù)、生產(chǎn)工藝、產(chǎn)品應(yīng)用多維度展開深度探討。來自京東方、JBD、芯明、谷東科技、鯤游光電、Eulitha、VR陀螺以及陀螺研究院的行業(yè)嘉賓為到場(chǎng)觀眾帶來了精彩的分享,演講內(nèi)容干貨滿滿。
其中,谷東科技 未來研究院院長(zhǎng) 魏晟為與會(huì)來賓奉上了“從光學(xué)到AI:AR+AI技術(shù)如何重塑未來體驗(yàn)”的主題演講。
以下為演講實(shí)錄(內(nèi)容略有刪減調(diào)整):
很榮幸今天可以有機(jī)會(huì)與大家分享谷東科技在AR+AI應(yīng)用領(lǐng)域的探索與心得,我是谷東科技未來研究院負(fù)責(zé)人魏晟。
未來研究院是谷東科技旗下重要分支,專注于面向未來的UI/UX設(shè)計(jì)、AI/空間感知算法以及光學(xué)材料/光波導(dǎo)的設(shè)計(jì)加工制備。我們?cè)诤贾萦幸粋€(gè)光波導(dǎo)片生產(chǎn)基地,到明年產(chǎn)能預(yù)計(jì)將達(dá)到年產(chǎn)20萬片。
在今年的AI市場(chǎng)中,AI眼鏡備受矚目,Meta Ray-Ban眼鏡出貨量已超百萬。
從外觀形態(tài)上看,目前市面上主流的AI眼鏡交互功能由配方鏡片、鏡腿上內(nèi)置的廣角相機(jī)、麥克風(fēng)提供,用戶通過觸控、語音、相機(jī)拍攝等實(shí)現(xiàn)與AI眼鏡的交流。在我們看來,Meta Ray-Ban眼鏡如此暢銷的原因正是在于其集成了AI特別是AI大模型的能力。
從功能上看,AI眼鏡主要提供兩個(gè)功能,一是通過拍攝影像識(shí)別環(huán)境內(nèi)容;二是通過語音文字轉(zhuǎn)換記錄環(huán)境聲音信息,傳輸?shù)皆贫舜竽P秃笸ㄟ^語音播報(bào)形式將處理結(jié)果反饋到眼鏡中,實(shí)現(xiàn)環(huán)境與大模型間的信息交互。
但當(dāng)前的AI眼鏡由于缺少顯示模塊,呈現(xiàn)出兩大痛點(diǎn):
一是視覺反饋不足問題。通過AI眼鏡進(jìn)行拍攝時(shí)由于缺少圖像視覺反饋,很難直接確定拍攝圖像的質(zhì)量。我們認(rèn)為顯示模塊應(yīng)該成為眼鏡標(biāo)配,以幫助用戶獲取視覺反饋。
二是信息展示量不足問題。一圖勝千言,當(dāng)我們想用AI眼鏡為用戶展示一條復(fù)雜的數(shù)學(xué)公式時(shí),如果是通過語音播報(bào)形式,對(duì)于眼鏡和用戶來說都過于麻煩,倒不如直接通過顯示模塊呈現(xiàn)出一張圖片來得直接便捷。
在這些痛點(diǎn)的掣肘下,我們認(rèn)為目前的AI眼鏡形態(tài)只是最終形態(tài)前的一個(gè)過渡階段。
而因?yàn)锳R+AI的重要性,近年來谷東科技也在大模型領(lǐng)域B端、C端領(lǐng)域做了許多探索,其中就包括AI眼鏡端側(cè)模型的研究。如果我們可以把大模型直接集成到端側(cè),那么將大大降低AI眼鏡的使用成本,當(dāng)擁有足夠的算力支撐時(shí),眼鏡可以在空間計(jì)算和AI上發(fā)揮強(qiáng)大的作用。
在我們嘗試將大模型部署到眼鏡端后發(fā)現(xiàn),眼鏡的算力一般無法很好支持預(yù)訓(xùn)練模型,常出現(xiàn)推理響應(yīng)時(shí)間過長(zhǎng)的情況。為此,我們自研了大模型壓縮加速算法,通過對(duì)大模型進(jìn)行裁剪量化,并在芯片上對(duì)NPU、APU做定向部署,最終驗(yàn)證了大模型在眼鏡終端運(yùn)行的可能性,大模型在一般應(yīng)用場(chǎng)景下的問答效果進(jìn)步明顯。
通過實(shí)踐,谷東科技近年來逐步積累出一些AI領(lǐng)域的經(jīng)驗(yàn)。一是標(biāo)準(zhǔn)算法的構(gòu)建,通過標(biāo)準(zhǔn)算法庫,我們可以將圖片、word、Excel、PPT等知識(shí)傳達(dá)常見文件格式整合成文字向量,并存儲(chǔ)在文本向量化里;
二是模型微調(diào)以及檢索算法庫的構(gòu)建;
三是針對(duì)用戶業(yè)務(wù)流程的智能體搭建工具鏈,不同的用戶有不同的需求,這也帶來了高昂的定制開發(fā)成本,這時(shí)一套標(biāo)準(zhǔn)化的工具就有助于客戶在本地訓(xùn)練大模型,降低成本。
需要特別說明的是,根據(jù)客戶的使用需求,標(biāo)準(zhǔn)化工具也有兩種使用方法:
一是私有化部署,眼鏡可以通過本地部署的私有化服務(wù)器調(diào)用智能體工具鏈管理工廠業(yè)務(wù)流程,例如ERP系統(tǒng)就可以直接接入大模型工具鏈。
二是邊緣計(jì)算,這主要針對(duì)一些算力要求不高的使用場(chǎng)景,現(xiàn)在實(shí)驗(yàn)室完成對(duì)大模型的微調(diào)后,再將其發(fā)送到眼鏡端,這里的眼鏡類似于服務(wù)器,可以實(shí)現(xiàn)與工廠的對(duì)接管理。
同時(shí),依托時(shí)序神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、機(jī)器視覺算法、大數(shù)據(jù)分析、視覺AI、語言AI等技術(shù),谷東科技也提供了智能體構(gòu)建API,方便用戶調(diào)用模型及其他智能算法。
而在解決大模型問題的過程中,谷東科技也沒有停止在AR光學(xué)領(lǐng)域的布局。未來AR眼鏡的核心一定是光學(xué)。
目前,谷東科技已經(jīng)可以提供了多種自研且量產(chǎn)的陣列光波導(dǎo)產(chǎn)品,同時(shí)公司還在探索全息光波導(dǎo)制造方向,這種方法通過激光產(chǎn)生干涉光柵,并直接與光刻膠反應(yīng),相較于陣列光波導(dǎo)的優(yōu)勢(shì)在于生產(chǎn)速度更快。
此外,谷東科技也提供自研的B端、C端整機(jī)產(chǎn)品,結(jié)合大模型后可應(yīng)用于多種工藝領(lǐng)域。
例如在飛機(jī)維護(hù)檢修場(chǎng)景,通過眼鏡采集現(xiàn)場(chǎng)圖片并上傳至大模型服務(wù)器后,大模型可以分析需找設(shè)備缺陷,結(jié)合維修知識(shí)生成航空工卡,最終反饋到眼鏡端,便于維修人員明確維修的具體步驟和方法。
而在C端場(chǎng)景,谷東科技眼鏡產(chǎn)品已應(yīng)用于教育領(lǐng)域,方便學(xué)生在日常佩戴過程中輔助學(xué)習(xí),眼鏡不僅可以理解教學(xué)的內(nèi)容,還可以定制化知識(shí)總結(jié),提高學(xué)習(xí)效率。
在AR+AI的浪潮下,預(yù)計(jì)未來1-3年,將有50%的眼鏡會(huì)成為AI眼鏡,其中60-70%的AI眼鏡中會(huì)配備AR顯示能力。AR眼鏡還是AI的最佳載體。因此,我們也希望能通過行業(yè)的合作,繼續(xù)推進(jìn)AI、AR、MR眼鏡在應(yīng)用端的發(fā)展,讓更多的眼鏡產(chǎn)品得以走進(jìn)普羅大眾。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請(qǐng)聯(lián)系微信:vrtuoluo233 申請(qǐng)授權(quán),并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實(shí)出處,如涉及版權(quán)問題,請(qǐng)聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺(tái)
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息