文/VR陀螺
可能是新奇,也可能是接地氣,在現(xiàn)如今市面上卷生卷死的無(wú)數(shù)聊天機(jī)器人中,人們天然對(duì)那些表現(xiàn)出類(lèi)人情緒的 AI 有著更多好感。
無(wú)論是去年 12 月新浪微博推出的“陰陽(yáng)怪氣、已讀亂回”評(píng)論機(jī)器人“評(píng)論羅伯特”,還是 Inflection AI 旗下“聰明又善良”的聊天機(jī)器人“Pi”,都憑借著或賤或暖的人設(shè),在社交媒體頻頻出圈。
但要說(shuō)到情感的抓取與表達(dá),沒(méi)有什么比得過(guò)語(yǔ)音,一個(gè)輕微的音調(diào)變化、簡(jiǎn)短的語(yǔ)氣詞,就能讓人腦補(bǔ)出思緒萬(wàn)千。
不久前,Hume AI 推出了能夠識(shí)別情緒的同理心語(yǔ)音界面(EVI),就像 Suno 徹底改變音樂(lè)制作模式,Sora 重塑視頻制作流程一樣,EVI 將大語(yǔ)言模型(LLMs)與表達(dá)測(cè)量完全集成為移情大語(yǔ)言模型(eLLM),重新定義了我們對(duì)于此前冰冷的生成式 AI 的認(rèn)知。
圖源:Hume AI
AI正在試著理解用戶(hù)的感受,開(kāi)始變得察言觀色起來(lái)。
經(jīng)過(guò)不斷的訓(xùn)練,AI 已經(jīng)能夠做到對(duì)人們輸入的指令做出反饋,當(dāng)給出提示時(shí),經(jīng)過(guò)訓(xùn)練的模型會(huì)預(yù)測(cè)最可能的下一個(gè)單詞或字符來(lái)生成文本,通過(guò)持續(xù)迭代這一過(guò)程直至生成所需長(zhǎng)度的文本。
這很難說(shuō)是 AI 知道自己在說(shuō)什么,在很多人看來(lái),AI 似乎只是在玩詞語(yǔ)接龍游戲,不知道自己生成的長(zhǎng)篇大論的最終含義,這也意味著 AI 對(duì)于輸入的上下文的理解也存在著局限性,對(duì)于 AI 系統(tǒng)來(lái)說(shuō),理解人類(lèi)交流的微妙語(yǔ)言、諷刺、歧義和其他復(fù)雜性仍然具有挑戰(zhàn)性。
那如果我們?yōu)?AI 模型加上一個(gè)情緒輸入接口,AI 是否就能理解人類(lèi)的情緒和感受了呢?
圖源:Hume AI
在 AI 領(lǐng)域,就有一家名為 Hume AI 的紐約初創(chuàng)公司正在進(jìn)行這種突破性的研究。該公司由 Google DeepMind 前研究員 Alan Cowen 領(lǐng)導(dǎo),其使命是通過(guò)引入稱(chēng)為移情語(yǔ)音接口 (EVI) 的先進(jìn)語(yǔ)音人工智能,徹底改變?nèi)藱C(jī)交互。
EVI 被譽(yù)為世界上第一個(gè)具有“情商”的人工智能。當(dāng)我們實(shí)際體驗(yàn)下來(lái),的確能感受和其他語(yǔ)音 AI 不一樣的人文關(guān)懷。
EVI 的入門(mén)很容易,只需要允許站點(diǎn)訪問(wèn)設(shè)備麥克風(fēng),就可以與聊天機(jī)器人暢所欲言,無(wú)論你正在經(jīng)歷什么情緒,都會(huì)在 EVI 面前得到即時(shí)反饋。
當(dāng)你興奮地向 EVI 打招呼時(shí),它同樣也會(huì)情緒激動(dòng)地對(duì)你進(jìn)行回應(yīng)。
而當(dāng)你向 EVI 提問(wèn)時(shí),它會(huì)體會(huì)你的情緒,并給出深思熟慮的回答(由于上下文原因,EVI 只給出了簡(jiǎn)短的回復(fù))。
體驗(yàn)下來(lái),EVI 有很多亮點(diǎn)。一是語(yǔ)音識(shí)別準(zhǔn)確清晰,即使是在存在輕微噪音的環(huán)境下,EVI 還是能準(zhǔn)確識(shí)別出連貫的語(yǔ)句,并轉(zhuǎn)化為文字和提現(xiàn)語(yǔ)音情緒的條狀圖。
二是聊天過(guò)程輕松愉快。除了感受語(yǔ)音輸入方的微妙語(yǔ)氣之外,EVI 還能主動(dòng)接下話茬,不會(huì)把天聊死。
但還處在持續(xù)開(kāi)發(fā)階段的 EVI 也還能挑出一些不足?;蛟S是因?yàn)?EVI“情商”過(guò)高了,用戶(hù)語(yǔ)句銜接速度不能過(guò)快,需要留出一些反應(yīng)時(shí)間給 EVI“思考”,否則 EVI 很容易表現(xiàn)得畏畏縮縮、前言不搭后語(yǔ),出現(xiàn)像遠(yuǎn)程新聞連線延遲那樣的尷尬情況。
其次是情緒識(shí)別,從聊天界面可以看到,除了十分明顯的情緒(興奮、悲傷、憤怒等)外,EVI 對(duì)其他的情緒識(shí)別分類(lèi)過(guò)于精細(xì),這是普通人難以察覺(jué)的,我們無(wú)法正確判斷 EVI 情緒識(shí)別的準(zhǔn)確性。
從 Hume AI 官網(wǎng)展示的信息,EVI 能夠識(shí)別和響應(yīng) 53 種不同情緒。這一從聲音中辨別情緒的能力來(lái)源于包括全球數(shù)十萬(wàn)人的受控實(shí)驗(yàn)數(shù)據(jù)在內(nèi)的全面研究,EVI 正是基于對(duì)不同文化來(lái)源聲音和面部表情的復(fù)雜分析,才構(gòu)成了 AI 情緒識(shí)別能力的基礎(chǔ)。
圖源:Hume AI
根據(jù) Hume AI 的說(shuō)法,EVI 的情緒感知能力都要?dú)w功于移情大語(yǔ)言模型(eLLM),這使得 EVI 能夠根據(jù)上下文和用戶(hù)的情緒表達(dá)來(lái)調(diào)整所使用的詞語(yǔ)和語(yǔ)氣。
通過(guò)在豐富的情感表達(dá)數(shù)據(jù)集上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),Hume AI 打造了一個(gè)在理解和傳達(dá)情感細(xì)微差別方面表現(xiàn)出色的 AI 模型,遠(yuǎn)遠(yuǎn)超出了當(dāng)前 AI 技術(shù)所能達(dá)到的上限。
除此之外,Hume AI 還在 EVI 的研究中融入了一種被廣泛應(yīng)用在心理語(yǔ)言統(tǒng)計(jì)、分析領(lǐng)域的技術(shù)——語(yǔ)義空間理論(SST)。通過(guò)廣泛的數(shù)據(jù)收集和先進(jìn)的統(tǒng)計(jì)模型,SST可以精準(zhǔn)繪制人類(lèi)情感的全譜圖,揭示人類(lèi)情感狀態(tài)之間的連續(xù)性,使得EVI具備很多擬人化的特色功能。
具有“情商”的 EVI 影響是巨大的,理解和響應(yīng)人類(lèi)情感的能力代表著 AI 技術(shù)的重大飛躍。
EVI 代表了人工智能技術(shù)的重大飛躍,因?yàn)樗哂欣斫夂晚憫?yīng)人類(lèi)情感的能力。與僅依賴(lài)口頭命令、冰冷輸出正確回答的傳統(tǒng)語(yǔ)音助手不同,EVI 能夠辨別人類(lèi)語(yǔ)音的細(xì)微差別并相應(yīng)地調(diào)整其響應(yīng),這一點(diǎn)在醫(yī)療保健、教育等客戶(hù)服務(wù)領(lǐng)域差別更深。
圖源:網(wǎng)絡(luò)
想象一下,在學(xué)習(xí)壓力過(guò)大,學(xué)生心理問(wèn)題日漸增多的情況下,EVI 能夠化身虛擬導(dǎo)師,感知學(xué)生情緒并為其提供個(gè)性化幫助,提供同理心支持;在零售行業(yè),EVI 同樣也能充當(dāng)一把虛擬客服,能夠根據(jù)客戶(hù)語(yǔ)音變化及時(shí)調(diào)整語(yǔ)氣,而不是只會(huì)回復(fù)“在呢親~”。
在這些更需要人文關(guān)懷的領(lǐng)域,EV??I的應(yīng)用潛力幾乎是無(wú)限的。
正因?yàn)榇耍琀ume AI 不久前就就從 EQT Ventures、Union Square Ventures 和 LG Technology Ventures 等知名投資者那里籌集了 5000 萬(wàn)美元的 B 輪融資。這家初創(chuàng)公司的吸金能力表明了業(yè)界對(duì)這種 AI 情感解決方案的信心。
此外,Hume AI 還能夠與 GPT 和 Claude 等大型語(yǔ)言模型無(wú)縫集成,公司準(zhǔn)備為其平臺(tái) API 推出 beta 模式,允許開(kāi)發(fā)人員將這一技術(shù)集成到各種應(yīng)用程序中,這無(wú)疑將為跨時(shí)代的語(yǔ)音助手問(wèn)世鋪平道路。
從 Siri 到 EVI,語(yǔ)音助手的智商水平終于快要回歸正常。
Hume AI 目前只在其官網(wǎng)開(kāi)放訪問(wèn),但可以預(yù)見(jiàn)的是,以語(yǔ)音情緒識(shí)別為特色的聊天機(jī)器人最終的歸宿還是要融入智能硬件,成為貼身又貼心的智能助理。
搭載硬件設(shè)備后,語(yǔ)音助手已成為智能化時(shí)代中的重要工具,徹底改變了我們與設(shè)備交互的方式。從毀譽(yù)參半的 Siri 到 AI 驅(qū)動(dòng)的個(gè)人助理,語(yǔ)音助手的發(fā)展簡(jiǎn)直令人驚嘆。
圖源:蘋(píng)果
語(yǔ)音助手的發(fā)展可以追溯到 20 世紀(jì) 50 年代,當(dāng)時(shí)開(kāi)發(fā)的語(yǔ)音識(shí)別系統(tǒng)如 IBM 的 Shoebox 和貝爾實(shí)驗(yàn)室的 Audrey,只能識(shí)別少量單詞或短語(yǔ)。
而后的 90 年代,計(jì)算能力的提高和互聯(lián)網(wǎng)的出現(xiàn)帶來(lái)了更先進(jìn)的語(yǔ)音識(shí)別系統(tǒng),包括 Dragon NaturallySpeaking 和早期的語(yǔ)音激活虛擬助手憑借強(qiáng)大的語(yǔ)音識(shí)別和轉(zhuǎn)錄功能處于領(lǐng)先地位。
隨后,以 Siri 為代表的的對(duì)話式語(yǔ)音助手在與智能手機(jī)的碰撞中走入現(xiàn)代,蘋(píng)果 Siri、谷歌 Now、微軟 Cortana 以及亞馬遜 Alexa 等都是里程碑式的應(yīng)用。
如今,以 OpenAI 和 Hume AI 為代表的科技公司通過(guò)提高語(yǔ)音 AI 系統(tǒng)的理解相應(yīng)能力,為語(yǔ)音助理創(chuàng)建更加個(gè)性化和自然的交互,“真正的語(yǔ)音助手”誕生于 AI 之下。
圖源:Amazon
這些聰明的助理已成為我們?nèi)粘I畹闹匾M成部分,以前所未有的方式簡(jiǎn)化流程并增加便利性。
幾年前,語(yǔ)音助手還只能做簡(jiǎn)單的問(wèn)答、生硬的信息推薦、以及講冷笑話,現(xiàn)在,理解口語(yǔ)、分析上下文并使用自然語(yǔ)言處理 (NLP) 和機(jī)器學(xué)習(xí)技術(shù)提供相關(guān)信息并執(zhí)行請(qǐng)求已經(jīng)成為語(yǔ)音助手的基本功能。
這種復(fù)雜程度意味著語(yǔ)音助手不再只是被動(dòng)的工具,而是主動(dòng)的幫助者,能夠提供建議、記住偏好并適應(yīng)個(gè)人用戶(hù)模式,人們可以通過(guò)語(yǔ)音命令實(shí)現(xiàn)對(duì)硬件產(chǎn)品應(yīng)用的召之即來(lái)。
在 AR 眼鏡上,類(lèi)似的應(yīng)用已經(jīng)有很多,語(yǔ)音助手已成為產(chǎn)品的標(biāo)配功能。
星紀(jì)魅族全新 XR 品牌“MYVU”就搭載了“FlymeAR”交互系統(tǒng),并采用全新的 Aicy 語(yǔ)音助手。
雷鳥(niǎo) X2 Lite AR 眼鏡加入大模型語(yǔ)音助手 Rayneo AI,主打?qū)Χ嗄B(tài)信息交互能力和場(chǎng)景的探索。
OPPO 則在巴塞羅那 MWC 大會(huì)期間展示了其最新的智能眼鏡產(chǎn)品原型 OPPO Air Glass 3,搭載了基于 OPPO AndesGPT 大語(yǔ)言模型的語(yǔ)音助手,可以執(zhí)行語(yǔ)音提問(wèn)、搜索等基本工作。
圖源:OPPO
而從這幾款產(chǎn)品已經(jīng)推出的功能來(lái)看,AR 眼鏡語(yǔ)音助手的發(fā)力領(lǐng)域基本集中在信息檢索、任務(wù)管理、媒體娛樂(lè)、路線導(dǎo)航以及語(yǔ)言翻譯上。
特別是任務(wù)管理功能,用戶(hù)可以使用語(yǔ)音助手來(lái)幫助他們管理任務(wù)和日程安排,使用語(yǔ)音助手發(fā)送通知、發(fā)出提醒、安排約會(huì)、建立待辦事項(xiàng)列表和設(shè)置提醒,可以幫助用戶(hù)梳理必要事項(xiàng)。
這基本也是 AI 模型在 AR 眼鏡上的應(yīng)用方向,語(yǔ)音助手的智能化體現(xiàn)在與眼鏡的交互以及應(yīng)用程序的調(diào)用上,就像影視劇中的配角,不是最重要卻處處需要,還要靠它帶出主角。
再加上類(lèi)似于前面提到的 EVI 移情大語(yǔ)言模型,語(yǔ)音助手對(duì)于情緒的理解加深,對(duì)于語(yǔ)言理解的能力加倍。隨著不斷的研究和開(kāi)發(fā),這些助手將變得更加直觀、具有情境感知能力并融入我們的生活。
根據(jù) Salesforce Research 的一項(xiàng)數(shù)據(jù),27%的消費(fèi)者每天都會(huì)在電子產(chǎn)品中使用 AI 語(yǔ)音助手,隨著 AI 能力的增強(qiáng),這一數(shù)字預(yù)計(jì)還會(huì)增長(zhǎng)。
更加人性化的 AI 有助于 AR 眼鏡打造更加智能的語(yǔ)音助手,這使得類(lèi)似于 EVI 的情感聊天模型在 AR 領(lǐng)域能夠發(fā)揮更大的作用。
Hume AI 首席執(zhí)行官兼首席科學(xué)家艾倫·考恩 (Alan Cowen) 就表示,如果我們想以更加自然的方式使用 AI,那么 AI 同理心的展示就至關(guān)重要。
“當(dāng)前 AI 系統(tǒng)的主要局限性在于,它們受到膚淺的人類(lèi)評(píng)級(jí)和指令的指導(dǎo),這很容易出錯(cuò),并且無(wú)法挖掘其巨大潛力,無(wú)法找到讓人們快樂(lè)的新方法。”
而 Hume AI 也并不是唯一一家嘗試將情感融入 AI 技術(shù)的公司。
英國(guó)公司制造的人形機(jī)器人 Ameca 就能夠觀察周?chē)h(huán)境并與人交流,其面部表情逼真,能夠展示出表現(xiàn)不同情感的面部表情。
圖源:網(wǎng)絡(luò)
不久前,韓國(guó)蔚山國(guó)立科學(xué)技術(shù)研究院 (UNIST) 的科學(xué)家們還研制出了一種類(lèi)似于“面膜”的可穿戴設(shè)備,能夠通過(guò)傳感器捕捉捕捉微小的動(dòng)作和發(fā)聲,并利用個(gè)性化皮膚集成面部接口(PSiFI)系統(tǒng)執(zhí)行無(wú)線數(shù)據(jù)傳輸,實(shí)現(xiàn)實(shí)時(shí)情緒識(shí)別。
其開(kāi)發(fā)者 Jiyun Kim 認(rèn)為,這款可穿戴設(shè)備可用于 VR 數(shù)字人服務(wù)等應(yīng)用,根據(jù)用戶(hù)的情感提供定制服務(wù)。
圖源:UNIST
但 AI 對(duì)人類(lèi)情感的窺探帶來(lái)的除了人性化之外還有隱私擔(dān)憂。
此前,一些面部情緒識(shí)別 AI 技術(shù)就因?yàn)殡y以解決的數(shù)據(jù)安全技術(shù)而被科技公司們無(wú)奈關(guān)停。
2022 年,微軟宣布停止銷(xiāo)售根據(jù)面部圖像猜測(cè)人類(lèi)情緒的技術(shù),并將不再提供不受限制的面部識(shí)別技術(shù)。
而在更早之前也有消息傳出谷歌從其用于解讀情緒的工具中屏蔽了 13 種計(jì)劃中的情緒,并對(duì)四種現(xiàn)有的情緒進(jìn)行了審查。在隱私泄露的可能性之下,谷歌正在權(quán)衡一種可以直接描述表情動(dòng)作的新系統(tǒng),而不試圖將表情動(dòng)作與情緒聯(lián)系起來(lái)。
人類(lèi)的語(yǔ)音中也包含了許多的隱私信息,很難說(shuō)在注重?cái)?shù)據(jù)安全的時(shí)代,未來(lái)的 AI 語(yǔ)音情緒識(shí)別技術(shù)不會(huì)受到同樣的限制。
但可以確定的是,對(duì)于隱私的擔(dān)憂并不會(huì)影響未來(lái) AI 改變語(yǔ)音助手形態(tài)的趨勢(shì)。
隨著蘋(píng)果全球開(kāi)發(fā)者大會(huì)(WWDC)的召開(kāi)在即,科技界對(duì) Siri 的重大演變充滿期待。許多人認(rèn)為 Siri 2.0 的新階段有望將生成式 AI 的進(jìn)步帶到語(yǔ)音助手領(lǐng)域的最前沿。
圖源:蘋(píng)果
傳聞中 Siri 2.0 的升級(jí)自然也包括了更多個(gè)性化和自然對(duì)話功能,大家都希望能看到更加親切的 Siri。
而除此之外,有更多消息表明,Siri 在接入大模型后,將不再只是單純的語(yǔ)音助理,而將升級(jí)為多模態(tài)智能助手,承擔(dān)更多的生成式 AI 功能。
不久前,蘋(píng)果推出了 ReALM 模型,其類(lèi)似于谷歌 Gemini,能同時(shí)處理文本和視覺(jué)效果。
與 GPT-3.5 不同的是,ReALM 注重于破譯對(duì)話和視覺(jué)上下文,可以將屏幕的視覺(jué)內(nèi)容轉(zhuǎn)換為文本、注釋及空間細(xì)節(jié),這使得 ReALM 能夠以文本方式解釋屏幕內(nèi)容,從而有助于更精確地識(shí)別和理解屏幕上的信息。
ReALM 將被用于專(zhuān)門(mén)破譯對(duì)話中模棱兩可的引用和指代,將大大提高 Siri 理解上下文相關(guān)查詢(xún)的能力。這直接帶來(lái)的是 Siri 個(gè)性化定制能力的提高。
通過(guò) ReALM 學(xué)習(xí)用戶(hù)的交互行為,Siri 可能更準(zhǔn)確地預(yù)測(cè)用戶(hù)的需求和偏好,根據(jù)過(guò)去的行為和對(duì)上下文的理解來(lái)建議或啟動(dòng)操作。Siri 有望成為最懂你的“人”。
借助機(jī)器學(xué)習(xí)技術(shù),語(yǔ)音助手可以不斷提高其性能。AI 從用戶(hù)交互中一邊學(xué)習(xí),一邊調(diào)整反應(yīng)和理解,語(yǔ)音助手可以在識(shí)別語(yǔ)音模式的過(guò)程中提高語(yǔ)言理解能力,甚至可以使用機(jī)器學(xué)習(xí)根據(jù)先前的數(shù)據(jù)定制其響應(yīng)。
這意味著未來(lái)語(yǔ)音助手不僅僅只是信息獲取和應(yīng)用操作的入口,而是將作為學(xué)習(xí)與模仿者,在一次次的對(duì)話中記錄用戶(hù)的喜好,更深入理解用戶(hù)需求,提供更加個(gè)性化和預(yù)測(cè)性的支持。
圖源:網(wǎng)絡(luò)
可以看到,在與人類(lèi)的友好互動(dòng)中逐步理解人類(lèi)、適應(yīng)人類(lèi)已經(jīng)成為語(yǔ)音助手未來(lái)的主要主題之一。
語(yǔ)音助手越來(lái)越有能力解釋人類(lèi)語(yǔ)言中的情感、語(yǔ)境,甚至語(yǔ)音的細(xì)微差別。這種接近人類(lèi)的情商水平可以為更加個(gè)性化和富有同情心的互動(dòng)開(kāi)辟道路,將虛擬助手轉(zhuǎn)變?yōu)檎嬲暮献骰锇椤?/p>
同時(shí),語(yǔ)音助手與其他技術(shù)的結(jié)合有望釋放它們的潛能。通過(guò)與 AR/VR 相結(jié)合,語(yǔ)音助手可以提供身臨其境的交互式體驗(yàn)。不僅帶來(lái)了技術(shù)進(jìn)步,還為 AI 注入新的可能性:理解并尊重人類(lèi)情感的復(fù)雜性。這將改變我們與機(jī)器互動(dòng)的方式,進(jìn)而改變我們與彼此互動(dòng)的方式。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請(qǐng)聯(lián)系微信:vrtuoluo233 申請(qǐng)授權(quán),并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來(lái)源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來(lái)自互聯(lián)網(wǎng)或無(wú)法核實(shí)出處,如涉及版權(quán)問(wèn)題,請(qǐng)聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺(tái)
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息