游戲評(píng)測(cè)

推廣

行業(yè)活動(dòng)

谷東科技魏晟：從光學(xué)到AI：AR+AI技術(shù)如何重塑未來體驗(yàn)

發(fā)布時(shí)間：2024-09-13 11:08 | 標(biāo)簽：光波導(dǎo) 光博會(huì) 谷東科技 AI眼鏡 CIOE 2024

微信掃一掃：分享

微信里點(diǎn)“發(fā)現(xiàn)”，掃一下
二維碼便可將本文分享至朋友圈

2024年9月11日，由VR陀螺聯(lián)合CIOE中國光博會(huì)主辦的「光聚未來•第五屆中國AI+AR技術(shù)應(yīng)用高峰論壇」在深圳國際會(huì)展中心順利舉辦。

本次活動(dòng)以“光聚未來”為主題，聚焦AI與AR技術(shù)融合發(fā)展，從底層核心技術(shù)、生產(chǎn)工藝、產(chǎn)品應(yīng)用多維度展開深度探討。來自京東方、JBD、芯明、谷東科技、鯤游光電、Eulitha、VR陀螺以及陀螺研究院的行業(yè)嘉賓為到場(chǎng)觀眾帶來了精彩的分享，演講內(nèi)容干貨滿滿。

其中，谷東科技未來研究院院長(zhǎng) 魏晟為與會(huì)來賓奉上了“從光學(xué)到AI：AR+AI技術(shù)如何重塑未來體驗(yàn)”的主題演講。

以下為演講實(shí)錄（內(nèi)容略有刪減調(diào)整）：

很榮幸今天可以有機(jī)會(huì)與大家分享谷東科技在AR+AI應(yīng)用領(lǐng)域的探索與心得，我是谷東科技未來研究院負(fù)責(zé)人魏晟。

未來研究院是谷東科技旗下重要分支，專注于面向未來的UI/UX設(shè)計(jì)、AI/空間感知算法以及光學(xué)材料/光波導(dǎo)的設(shè)計(jì)加工制備。我們?cè)诤贾萦幸粋€(gè)光波導(dǎo)片生產(chǎn)基地，到明年產(chǎn)能預(yù)計(jì)將達(dá)到年產(chǎn)20萬片。

在今年的AI市場(chǎng)中，AI眼鏡備受矚目，Meta Ray-Ban眼鏡出貨量已超百萬。

從外觀形態(tài)上看，目前市面上主流的AI眼鏡交互功能由配方鏡片、鏡腿上內(nèi)置的廣角相機(jī)、麥克風(fēng)提供，用戶通過觸控、語音、相機(jī)拍攝等實(shí)現(xiàn)與AI眼鏡的交流。在我們看來，Meta Ray-Ban眼鏡如此暢銷的原因正是在于其集成了AI特別是AI大模型的能力。

從功能上看，AI眼鏡主要提供兩個(gè)功能，一是通過拍攝影像識(shí)別環(huán)境內(nèi)容；二是通過語音文字轉(zhuǎn)換記錄環(huán)境聲音信息，傳輸?shù)皆贫舜竽Ｐ秃笸ㄟ^語音播報(bào)形式將處理結(jié)果反饋到眼鏡中，實(shí)現(xiàn)環(huán)境與大模型間的信息交互。

但當(dāng)前的AI眼鏡由于缺少顯示模塊，呈現(xiàn)出兩大痛點(diǎn)：

一是視覺反饋不足問題。通過AI眼鏡進(jìn)行拍攝時(shí)由于缺少圖像視覺反饋，很難直接確定拍攝圖像的質(zhì)量。我們認(rèn)為顯示模塊應(yīng)該成為眼鏡標(biāo)配，以幫助用戶獲取視覺反饋。

二是信息展示量不足問題。一圖勝千言，當(dāng)我們想用AI眼鏡為用戶展示一條復(fù)雜的數(shù)學(xué)公式時(shí)，如果是通過語音播報(bào)形式，對(duì)于眼鏡和用戶來說都過于麻煩，倒不如直接通過顯示模塊呈現(xiàn)出一張圖片來得直接便捷。

在這些痛點(diǎn)的掣肘下，我們認(rèn)為目前的AI眼鏡形態(tài)只是最終形態(tài)前的一個(gè)過渡階段。

而因?yàn)锳R+AI的重要性，近年來谷東科技也在大模型領(lǐng)域B端、C端領(lǐng)域做了許多探索，其中就包括AI眼鏡端側(cè)模型的研究。如果我們可以把大模型直接集成到端側(cè)，那么將大大降低AI眼鏡的使用成本，當(dāng)擁有足夠的算力支撐時(shí)，眼鏡可以在空間計(jì)算和AI上發(fā)揮強(qiáng)大的作用。

在我們嘗試將大模型部署到眼鏡端后發(fā)現(xiàn)，眼鏡的算力一般無法很好支持預(yù)訓(xùn)練模型，常出現(xiàn)推理響應(yīng)時(shí)間過長(zhǎng)的情況。為此，我們自研了大模型壓縮加速算法，通過對(duì)大模型進(jìn)行裁剪量化，并在芯片上對(duì)NPU、APU做定向部署，最終驗(yàn)證了大模型在眼鏡終端運(yùn)行的可能性，大模型在一般應(yīng)用場(chǎng)景下的問答效果進(jìn)步明顯。

通過實(shí)踐，谷東科技近年來逐步積累出一些AI領(lǐng)域的經(jīng)驗(yàn)。一是標(biāo)準(zhǔn)算法的構(gòu)建，通過標(biāo)準(zhǔn)算法庫，我們可以將圖片、word、Excel、PPT等知識(shí)傳達(dá)常見文件格式整合成文字向量，并存儲(chǔ)在文本向量化里；

二是模型微調(diào)以及檢索算法庫的構(gòu)建；

三是針對(duì)用戶業(yè)務(wù)流程的智能體搭建工具鏈，不同的用戶有不同的需求，這也帶來了高昂的定制開發(fā)成本，這時(shí)一套標(biāo)準(zhǔn)化的工具就有助于客戶在本地訓(xùn)練大模型，降低成本。

需要特別說明的是，根據(jù)客戶的使用需求，標(biāo)準(zhǔn)化工具也有兩種使用方法：

一是私有化部署，眼鏡可以通過本地部署的私有化服務(wù)器調(diào)用智能體工具鏈管理工廠業(yè)務(wù)流程，例如ERP系統(tǒng)就可以直接接入大模型工具鏈。

二是邊緣計(jì)算，這主要針對(duì)一些算力要求不高的使用場(chǎng)景，現(xiàn)在實(shí)驗(yàn)室完成對(duì)大模型的微調(diào)后，再將其發(fā)送到眼鏡端，這里的眼鏡類似于服務(wù)器，可以實(shí)現(xiàn)與工廠的對(duì)接管理。

同時(shí)，依托時(shí)序神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、機(jī)器視覺算法、大數(shù)據(jù)分析、視覺AI、語言AI等技術(shù)，谷東科技也提供了智能體構(gòu)建API，方便用戶調(diào)用模型及其他智能算法。

而在解決大模型問題的過程中，谷東科技也沒有停止在AR光學(xué)領(lǐng)域的布局。未來AR眼鏡的核心一定是光學(xué)。

目前，谷東科技已經(jīng)可以提供了多種自研且量產(chǎn)的陣列光波導(dǎo)產(chǎn)品，同時(shí)公司還在探索全息光波導(dǎo)制造方向，這種方法通過激光產(chǎn)生干涉光柵，并直接與光刻膠反應(yīng)，相較于陣列光波導(dǎo)的優(yōu)勢(shì)在于生產(chǎn)速度更快。

此外，谷東科技也提供自研的B端、C端整機(jī)產(chǎn)品，結(jié)合大模型后可應(yīng)用于多種工藝領(lǐng)域。

例如在飛機(jī)維護(hù)檢修場(chǎng)景，通過眼鏡采集現(xiàn)場(chǎng)圖片并上傳至大模型服務(wù)器后，大模型可以分析需找設(shè)備缺陷，結(jié)合維修知識(shí)生成航空工卡，最終反饋到眼鏡端，便于維修人員明確維修的具體步驟和方法。

而在C端場(chǎng)景，谷東科技眼鏡產(chǎn)品已應(yīng)用于教育領(lǐng)域，方便學(xué)生在日常佩戴過程中輔助學(xué)習(xí)，眼鏡不僅可以理解教學(xué)的內(nèi)容，還可以定制化知識(shí)總結(jié)，提高學(xué)習(xí)效率。

在AR+AI的浪潮下，預(yù)計(jì)未來1-3年，將有50%的眼鏡會(huì)成為AI眼鏡，其中60-70%的AI眼鏡中會(huì)配備AR顯示能力。AR眼鏡還是AI的最佳載體。因此，我們也希望能通過行業(yè)的合作，繼續(xù)推進(jìn)AI、AR、MR眼鏡在應(yīng)用端的發(fā)展，讓更多的眼鏡產(chǎn)品得以走進(jìn)普羅大眾。

投稿/爆料：tougao@youxituoluo.com

稿件/商務(wù)合作：六六（微信 13138755620）

加入行業(yè)交流群：六六（微信 13138755620）

版權(quán)申明：本文為VR陀螺原創(chuàng)，任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請(qǐng)聯(lián)系微信：vrtuoluo233 申請(qǐng)授權(quán)，并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來源、作者以及原文鏈接信息，不得擅自更改內(nèi)容，違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實(shí)出處，如涉及版權(quán)問題，請(qǐng)聯(lián)系本網(wǎng)站協(xié)商處理。