游戲評(píng)測(cè)

推廣

最新資訊

有“情商”能表達(dá)情緒的AI！從Hume AI看語(yǔ)音助手的變革

發(fā)布時(shí)間：2024-05-16 09:46 | 標(biāo)簽： AI Hume AI EV??I

轉(zhuǎn)載來(lái)源：VR陀螺

微信掃一掃：分享

微信里點(diǎn)“發(fā)現(xiàn)”，掃一下
二維碼便可將本文分享至朋友圈

文/VR陀螺

可能是新奇，也可能是接地氣，在現(xiàn)如今市面上卷生卷死的無(wú)數(shù)聊天機(jī)器人中，人們天然對(duì)那些表現(xiàn)出類(lèi)人情緒的 AI 有著更多好感。

無(wú)論是去年 12 月新浪微博推出的“陰陽(yáng)怪氣、已讀亂回”評(píng)論機(jī)器人“評(píng)論羅伯特”，還是 Inflection AI 旗下“聰明又善良”的聊天機(jī)器人“Pi”，都憑借著或賤或暖的人設(shè)，在社交媒體頻頻出圈。

但要說(shuō)到情感的抓取與表達(dá)，沒(méi)有什么比得過(guò)語(yǔ)音，一個(gè)輕微的音調(diào)變化、簡(jiǎn)短的語(yǔ)氣詞，就能讓人腦補(bǔ)出思緒萬(wàn)千。

不久前，Hume AI 推出了能夠識(shí)別情緒的同理心語(yǔ)音界面（EVI），就像 Suno 徹底改變音樂(lè)制作模式，Sora 重塑視頻制作流程一樣，EVI 將大語(yǔ)言模型（LLMs）與表達(dá)測(cè)量完全集成為移情大語(yǔ)言模型（eLLM），重新定義了我們對(duì)于此前冰冷的生成式 AI 的認(rèn)知。

圖源：Hume AI

AI正在試著理解用戶(hù)的感受，開(kāi)始變得察言觀色起來(lái)。

AI 不僅知道你在說(shuō)什么，也知道你在想什么

經(jīng)過(guò)不斷的訓(xùn)練，AI 已經(jīng)能夠做到對(duì)人們輸入的指令做出反饋，當(dāng)給出提示時(shí)，經(jīng)過(guò)訓(xùn)練的模型會(huì)預(yù)測(cè)最可能的下一個(gè)單詞或字符來(lái)生成文本，通過(guò)持續(xù)迭代這一過(guò)程直至生成所需長(zhǎng)度的文本。

這很難說(shuō)是 AI 知道自己在說(shuō)什么，在很多人看來(lái)，AI 似乎只是在玩詞語(yǔ)接龍游戲，不知道自己生成的長(zhǎng)篇大論的最終含義，這也意味著 AI 對(duì)于輸入的上下文的理解也存在著局限性，對(duì)于 AI 系統(tǒng)來(lái)說(shuō)，理解人類(lèi)交流的微妙語(yǔ)言、諷刺、歧義和其他復(fù)雜性仍然具有挑戰(zhàn)性。

那如果我們?yōu)?AI 模型加上一個(gè)情緒輸入接口，AI 是否就能理解人類(lèi)的情緒和感受了呢？

圖源：Hume AI

在 AI 領(lǐng)域，就有一家名為 Hume AI 的紐約初創(chuàng)公司正在進(jìn)行這種突破性的研究。該公司由 Google DeepMind 前研究員 Alan Cowen 領(lǐng)導(dǎo)，其使命是通過(guò)引入稱(chēng)為移情語(yǔ)音接口 (EVI) 的先進(jìn)語(yǔ)音人工智能，徹底改變?nèi)藱C(jī)交互。

EVI 被譽(yù)為世界上第一個(gè)具有“情商”的人工智能。當(dāng)我們實(shí)際體驗(yàn)下來(lái)，的確能感受和其他語(yǔ)音 AI 不一樣的人文關(guān)懷。

EVI 的入門(mén)很容易，只需要允許站點(diǎn)訪問(wèn)設(shè)備麥克風(fēng)，就可以與聊天機(jī)器人暢所欲言，無(wú)論你正在經(jīng)歷什么情緒，都會(huì)在 EVI 面前得到即時(shí)反饋。

當(dāng)你興奮地向 EVI 打招呼時(shí)，它同樣也會(huì)情緒激動(dòng)地對(duì)你進(jìn)行回應(yīng)。

而當(dāng)你向 EVI 提問(wèn)時(shí)，它會(huì)體會(huì)你的情緒，并給出深思熟慮的回答（由于上下文原因，EVI 只給出了簡(jiǎn)短的回復(fù)）。

體驗(yàn)下來(lái)，EVI 有很多亮點(diǎn)。一是語(yǔ)音識(shí)別準(zhǔn)確清晰，即使是在存在輕微噪音的環(huán)境下，EVI 還是能準(zhǔn)確識(shí)別出連貫的語(yǔ)句，并轉(zhuǎn)化為文字和提現(xiàn)語(yǔ)音情緒的條狀圖。

二是聊天過(guò)程輕松愉快。除了感受語(yǔ)音輸入方的微妙語(yǔ)氣之外，EVI 還能主動(dòng)接下話茬，不會(huì)把天聊死。

但還處在持續(xù)開(kāi)發(fā)階段的 EVI 也還能挑出一些不足?；蛟S是因?yàn)?EVI“情商”過(guò)高了，用戶(hù)語(yǔ)句銜接速度不能過(guò)快，需要留出一些反應(yīng)時(shí)間給 EVI“思考”，否則 EVI 很容易表現(xiàn)得畏畏縮縮、前言不搭后語(yǔ)，出現(xiàn)像遠(yuǎn)程新聞連線延遲那樣的尷尬情況。

其次是情緒識(shí)別，從聊天界面可以看到，除了十分明顯的情緒（興奮、悲傷、憤怒等）外，EVI 對(duì)其他的情緒識(shí)別分類(lèi)過(guò)于精細(xì)，這是普通人難以察覺(jué)的，我們無(wú)法正確判斷 EVI 情緒識(shí)別的準(zhǔn)確性。

從 Hume AI 官網(wǎng)展示的信息，EVI 能夠識(shí)別和響應(yīng) 53 種不同情緒。這一從聲音中辨別情緒的能力來(lái)源于包括全球數(shù)十萬(wàn)人的受控實(shí)驗(yàn)數(shù)據(jù)在內(nèi)的全面研究，EVI 正是基于對(duì)不同文化來(lái)源聲音和面部表情的復(fù)雜分析，才構(gòu)成了 AI 情緒識(shí)別能力的基礎(chǔ)。

圖源：Hume AI

根據(jù) Hume AI 的說(shuō)法，EVI 的情緒感知能力都要?dú)w功于移情大語(yǔ)言模型（eLLM），這使得 EVI 能夠根據(jù)上下文和用戶(hù)的情緒表達(dá)來(lái)調(diào)整所使用的詞語(yǔ)和語(yǔ)氣。

通過(guò)在豐富的情感表達(dá)數(shù)據(jù)集上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)，Hume AI 打造了一個(gè)在理解和傳達(dá)情感細(xì)微差別方面表現(xiàn)出色的 AI 模型，遠(yuǎn)遠(yuǎn)超出了當(dāng)前 AI 技術(shù)所能達(dá)到的上限。

除此之外，Hume AI 還在 EVI 的研究中融入了一種被廣泛應(yīng)用在心理語(yǔ)言統(tǒng)計(jì)、分析領(lǐng)域的技術(shù)——語(yǔ)義空間理論（SST）。通過(guò)廣泛的數(shù)據(jù)收集和先進(jìn)的統(tǒng)計(jì)模型，SST可以精準(zhǔn)繪制人類(lèi)情感的全譜圖，揭示人類(lèi)情感狀態(tài)之間的連續(xù)性，使得EVI具備很多擬人化的特色功能。

具有“情商”的 EVI 影響是巨大的，理解和響應(yīng)人類(lèi)情感的能力代表著 AI 技術(shù)的重大飛躍。

EVI 代表了人工智能技術(shù)的重大飛躍，因?yàn)樗哂欣斫夂晚憫?yīng)人類(lèi)情感的能力。與僅依賴(lài)口頭命令、冰冷輸出正確回答的傳統(tǒng)語(yǔ)音助手不同，EVI 能夠辨別人類(lèi)語(yǔ)音的細(xì)微差別并相應(yīng)地調(diào)整其響應(yīng)，這一點(diǎn)在醫(yī)療保健、教育等客戶(hù)服務(wù)領(lǐng)域差別更深。

圖源：網(wǎng)絡(luò)

想象一下，在學(xué)習(xí)壓力過(guò)大，學(xué)生心理問(wèn)題日漸增多的情況下，EVI 能夠化身虛擬導(dǎo)師，感知學(xué)生情緒并為其提供個(gè)性化幫助，提供同理心支持；在零售行業(yè)，EVI 同樣也能充當(dāng)一把虛擬客服，能夠根據(jù)客戶(hù)語(yǔ)音變化及時(shí)調(diào)整語(yǔ)氣，而不是只會(huì)回復(fù)“在呢親~”。

在這些更需要人文關(guān)懷的領(lǐng)域，EV??I的應(yīng)用潛力幾乎是無(wú)限的。

正因?yàn)榇耍琀ume AI 不久前就就從 EQT Ventures、Union Square Ventures 和 LG Technology Ventures 等知名投資者那里籌集了 5000 萬(wàn)美元的 B 輪融資。這家初創(chuàng)公司的吸金能力表明了業(yè)界對(duì)這種 AI 情感解決方案的信心。

此外，Hume AI 還能夠與 GPT 和 Claude 等大型語(yǔ)言模型無(wú)縫集成，公司準(zhǔn)備為其平臺(tái) API 推出 beta 模式，允許開(kāi)發(fā)人員將這一技術(shù)集成到各種應(yīng)用程序中，這無(wú)疑將為跨時(shí)代的語(yǔ)音助手問(wèn)世鋪平道路。

從 Siri 到 EVI，語(yǔ)音助手的智商水平終于快要回歸正常。

語(yǔ)音助手的演變

Hume AI 目前只在其官網(wǎng)開(kāi)放訪問(wèn)，但可以預(yù)見(jiàn)的是，以語(yǔ)音情緒識(shí)別為特色的聊天機(jī)器人最終的歸宿還是要融入智能硬件，成為貼身又貼心的智能助理。

搭載硬件設(shè)備后，語(yǔ)音助手已成為智能化時(shí)代中的重要工具，徹底改變了我們與設(shè)備交互的方式。從毀譽(yù)參半的 Siri 到 AI 驅(qū)動(dòng)的個(gè)人助理，語(yǔ)音助手的發(fā)展簡(jiǎn)直令人驚嘆。

圖源：蘋(píng)果

語(yǔ)音助手的發(fā)展可以追溯到 20 世紀(jì) 50 年代，當(dāng)時(shí)開(kāi)發(fā)的語(yǔ)音識(shí)別系統(tǒng)如 IBM 的 Shoebox 和貝爾實(shí)驗(yàn)室的 Audrey，只能識(shí)別少量單詞或短語(yǔ)。

而后的 90 年代，計(jì)算能力的提高和互聯(lián)網(wǎng)的出現(xiàn)帶來(lái)了更先進(jìn)的語(yǔ)音識(shí)別系統(tǒng)，包括 Dragon NaturallySpeaking 和早期的語(yǔ)音激活虛擬助手憑借強(qiáng)大的語(yǔ)音識(shí)別和轉(zhuǎn)錄功能處于領(lǐng)先地位。

隨后，以 Siri 為代表的的對(duì)話式語(yǔ)音助手在與智能手機(jī)的碰撞中走入現(xiàn)代，蘋(píng)果 Siri、谷歌 Now、微軟 Cortana 以及亞馬遜 Alexa 等都是里程碑式的應(yīng)用。

如今，以 OpenAI 和 Hume AI 為代表的科技公司通過(guò)提高語(yǔ)音 AI 系統(tǒng)的理解相應(yīng)能力，為語(yǔ)音助理創(chuàng)建更加個(gè)性化和自然的交互，“真正的語(yǔ)音助手”誕生于 AI 之下。

圖源：Amazon

這些聰明的助理已成為我們?nèi)粘Ｉ畹闹匾M成部分，以前所未有的方式簡(jiǎn)化流程并增加便利性。

幾年前，語(yǔ)音助手還只能做簡(jiǎn)單的問(wèn)答、生硬的信息推薦、以及講冷笑話，現(xiàn)在，理解口語(yǔ)、分析上下文并使用自然語(yǔ)言處理 (NLP) 和機(jī)器學(xué)習(xí)技術(shù)提供相關(guān)信息并執(zhí)行請(qǐng)求已經(jīng)成為語(yǔ)音助手的基本功能。

這種復(fù)雜程度意味著語(yǔ)音助手不再只是被動(dòng)的工具，而是主動(dòng)的幫助者，能夠提供建議、記住偏好并適應(yīng)個(gè)人用戶(hù)模式，人們可以通過(guò)語(yǔ)音命令實(shí)現(xiàn)對(duì)硬件產(chǎn)品應(yīng)用的召之即來(lái)。

在 AR 眼鏡上，類(lèi)似的應(yīng)用已經(jīng)有很多，語(yǔ)音助手已成為產(chǎn)品的標(biāo)配功能。

星紀(jì)魅族全新 XR 品牌“MYVU”就搭載了“FlymeAR”交互系統(tǒng)，并采用全新的 Aicy 語(yǔ)音助手。

雷鳥(niǎo) X2 Lite AR 眼鏡加入大模型語(yǔ)音助手 Rayneo AI，主打?qū)Χ嗄B(tài)信息交互能力和場(chǎng)景的探索。

OPPO 則在巴塞羅那 MWC 大會(huì)期間展示了其最新的智能眼鏡產(chǎn)品原型 OPPO Air Glass 3，搭載了基于 OPPO AndesGPT 大語(yǔ)言模型的語(yǔ)音助手，可以執(zhí)行語(yǔ)音提問(wèn)、搜索等基本工作。

圖源：OPPO

而從這幾款產(chǎn)品已經(jīng)推出的功能來(lái)看，AR 眼鏡語(yǔ)音助手的發(fā)力領(lǐng)域基本集中在信息檢索、任務(wù)管理、媒體娛樂(lè)、路線導(dǎo)航以及語(yǔ)言翻譯上。

特別是任務(wù)管理功能，用戶(hù)可以使用語(yǔ)音助手來(lái)幫助他們管理任務(wù)和日程安排，使用語(yǔ)音助手發(fā)送通知、發(fā)出提醒、安排約會(huì)、建立待辦事項(xiàng)列表和設(shè)置提醒，可以幫助用戶(hù)梳理必要事項(xiàng)。

這基本也是 AI 模型在 AR 眼鏡上的應(yīng)用方向，語(yǔ)音助手的智能化體現(xiàn)在與眼鏡的交互以及應(yīng)用程序的調(diào)用上，就像影視劇中的配角，不是最重要卻處處需要，還要靠它帶出主角。

再加上類(lèi)似于前面提到的 EVI 移情大語(yǔ)言模型，語(yǔ)音助手對(duì)于情緒的理解加深，對(duì)于語(yǔ)言理解的能力加倍。隨著不斷的研究和開(kāi)發(fā)，這些助手將變得更加直觀、具有情境感知能力并融入我們的生活。

根據(jù) Salesforce Research 的一項(xiàng)數(shù)據(jù)，27%的消費(fèi)者每天都會(huì)在電子產(chǎn)品中使用 AI 語(yǔ)音助手，隨著 AI 能力的增強(qiáng)，這一數(shù)字預(yù)計(jì)還會(huì)增長(zhǎng)。

未來(lái)的 AI 語(yǔ)音助手

更加人性化的 AI 有助于 AR 眼鏡打造更加智能的語(yǔ)音助手，這使得類(lèi)似于 EVI 的情感聊天模型在 AR 領(lǐng)域能夠發(fā)揮更大的作用。

Hume AI 首席執(zhí)行官兼首席科學(xué)家艾倫·考恩 (Alan Cowen) 就表示，如果我們想以更加自然的方式使用 AI，那么 AI 同理心的展示就至關(guān)重要。

“當(dāng)前 AI 系統(tǒng)的主要局限性在于，它們受到膚淺的人類(lèi)評(píng)級(jí)和指令的指導(dǎo)，這很容易出錯(cuò)，并且無(wú)法挖掘其巨大潛力，無(wú)法找到讓人們快樂(lè)的新方法。”

而 Hume AI 也并不是唯一一家嘗試將情感融入 AI 技術(shù)的公司。

英國(guó)公司制造的人形機(jī)器人 Ameca 就能夠觀察周?chē)h(huán)境并與人交流，其面部表情逼真，能夠展示出表現(xiàn)不同情感的面部表情。

圖源：網(wǎng)絡(luò)

不久前，韓國(guó)蔚山國(guó)立科學(xué)技術(shù)研究院 (UNIST) 的科學(xué)家們還研制出了一種類(lèi)似于“面膜”的可穿戴設(shè)備，能夠通過(guò)傳感器捕捉捕捉微小的動(dòng)作和發(fā)聲，并利用個(gè)性化皮膚集成面部接口（PSiFI）系統(tǒng)執(zhí)行無(wú)線數(shù)據(jù)傳輸，實(shí)現(xiàn)實(shí)時(shí)情緒識(shí)別。

其開(kāi)發(fā)者 Jiyun Kim 認(rèn)為，這款可穿戴設(shè)備可用于 VR 數(shù)字人服務(wù)等應(yīng)用，根據(jù)用戶(hù)的情感提供定制服務(wù)。

圖源：UNIST

但 AI 對(duì)人類(lèi)情感的窺探帶來(lái)的除了人性化之外還有隱私擔(dān)憂。

此前，一些面部情緒識(shí)別 AI 技術(shù)就因?yàn)殡y以解決的數(shù)據(jù)安全技術(shù)而被科技公司們無(wú)奈關(guān)停。

2022 年，微軟宣布停止銷(xiāo)售根據(jù)面部圖像猜測(cè)人類(lèi)情緒的技術(shù)，并將不再提供不受限制的面部識(shí)別技術(shù)。

而在更早之前也有消息傳出谷歌從其用于解讀情緒的工具中屏蔽了 13 種計(jì)劃中的情緒，并對(duì)四種現(xiàn)有的情緒進(jìn)行了審查。在隱私泄露的可能性之下，谷歌正在權(quán)衡一種可以直接描述表情動(dòng)作的新系統(tǒng)，而不試圖將表情動(dòng)作與情緒聯(lián)系起來(lái)。

人類(lèi)的語(yǔ)音中也包含了許多的隱私信息，很難說(shuō)在注重?cái)?shù)據(jù)安全的時(shí)代，未來(lái)的 AI 語(yǔ)音情緒識(shí)別技術(shù)不會(huì)受到同樣的限制。

但可以確定的是，對(duì)于隱私的擔(dān)憂并不會(huì)影響未來(lái) AI 改變語(yǔ)音助手形態(tài)的趨勢(shì)。

隨著蘋(píng)果全球開(kāi)發(fā)者大會(huì)（WWDC）的召開(kāi)在即，科技界對(duì) Siri 的重大演變充滿期待。許多人認(rèn)為 Siri 2.0 的新階段有望將生成式 AI 的進(jìn)步帶到語(yǔ)音助手領(lǐng)域的最前沿。

圖源：蘋(píng)果

傳聞中 Siri 2.0 的升級(jí)自然也包括了更多個(gè)性化和自然對(duì)話功能，大家都希望能看到更加親切的 Siri。

而除此之外，有更多消息表明，Siri 在接入大模型后，將不再只是單純的語(yǔ)音助理，而將升級(jí)為多模態(tài)智能助手，承擔(dān)更多的生成式 AI 功能。

不久前，蘋(píng)果推出了 ReALM 模型，其類(lèi)似于谷歌 Gemini，能同時(shí)處理文本和視覺(jué)效果。

與 GPT-3.5 不同的是，ReALM 注重于破譯對(duì)話和視覺(jué)上下文，可以將屏幕的視覺(jué)內(nèi)容轉(zhuǎn)換為文本、注釋及空間細(xì)節(jié)，這使得 ReALM 能夠以文本方式解釋屏幕內(nèi)容，從而有助于更精確地識(shí)別和理解屏幕上的信息。

ReALM 將被用于專(zhuān)門(mén)破譯對(duì)話中模棱兩可的引用和指代，將大大提高 Siri 理解上下文相關(guān)查詢(xún)的能力。這直接帶來(lái)的是 Siri 個(gè)性化定制能力的提高。

通過(guò) ReALM 學(xué)習(xí)用戶(hù)的交互行為，Siri 可能更準(zhǔn)確地預(yù)測(cè)用戶(hù)的需求和偏好，根據(jù)過(guò)去的行為和對(duì)上下文的理解來(lái)建議或啟動(dòng)操作。Siri 有望成為最懂你的“人”。

借助機(jī)器學(xué)習(xí)技術(shù)，語(yǔ)音助手可以不斷提高其性能。AI 從用戶(hù)交互中一邊學(xué)習(xí)，一邊調(diào)整反應(yīng)和理解，語(yǔ)音助手可以在識(shí)別語(yǔ)音模式的過(guò)程中提高語(yǔ)言理解能力，甚至可以使用機(jī)器學(xué)習(xí)根據(jù)先前的數(shù)據(jù)定制其響應(yīng)。

這意味著未來(lái)語(yǔ)音助手不僅僅只是信息獲取和應(yīng)用操作的入口，而是將作為學(xué)習(xí)與模仿者，在一次次的對(duì)話中記錄用戶(hù)的喜好，更深入理解用戶(hù)需求，提供更加個(gè)性化和預(yù)測(cè)性的支持。

圖源：網(wǎng)絡(luò)

可以看到，在與人類(lèi)的友好互動(dòng)中逐步理解人類(lèi)、適應(yīng)人類(lèi)已經(jīng)成為語(yǔ)音助手未來(lái)的主要主題之一。

語(yǔ)音助手越來(lái)越有能力解釋人類(lèi)語(yǔ)言中的情感、語(yǔ)境，甚至語(yǔ)音的細(xì)微差別。這種接近人類(lèi)的情商水平可以為更加個(gè)性化和富有同情心的互動(dòng)開(kāi)辟道路，將虛擬助手轉(zhuǎn)變?yōu)檎嬲暮献骰锇椤?/p>

同時(shí)，語(yǔ)音助手與其他技術(shù)的結(jié)合有望釋放它們的潛能。通過(guò)與 AR/VR 相結(jié)合，語(yǔ)音助手可以提供身臨其境的交互式體驗(yàn)。不僅帶來(lái)了技術(shù)進(jìn)步，還為 AI 注入新的可能性：理解并尊重人類(lèi)情感的復(fù)雜性。這將改變我們與機(jī)器互動(dòng)的方式，進(jìn)而改變我們與彼此互動(dòng)的方式。

投稿/爆料：tougao@youxituoluo.com

稿件/商務(wù)合作：六六（微信 13138755620）

加入行業(yè)交流群：六六（微信 13138755620）

版權(quán)申明：本文為VR陀螺原創(chuàng)，任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請(qǐng)聯(lián)系微信：vrtuoluo233 申請(qǐng)授權(quán)，并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來(lái)源、作者以及原文鏈接信息，不得擅自更改內(nèi)容，違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來(lái)自互聯(lián)網(wǎng)或無(wú)法核實(shí)出處，如涉及版權(quán)問(wèn)題，請(qǐng)聯(lián)系本網(wǎng)站協(xié)商處理。