FBEC2023未來(lái)商業(yè)生態(tài)鏈接大會(huì)暨第八屆金陀螺獎(jiǎng)于2023年12月8日在深圳福田大中華喜來(lái)登酒店6樓盛大召開(kāi),本次大會(huì)由廣東省游戲產(chǎn)業(yè)協(xié)會(huì)、深圳市互聯(lián)網(wǎng)文化市場(chǎng)協(xié)會(huì)指導(dǎo),陀螺科技主辦,中國(guó)光谷、游戲陀螺、VR陀螺、陀螺財(cái)經(jīng)、陀螺電競(jìng)聯(lián)合主辦。
大會(huì)以“合力共生·韌者行遠(yuǎn)”為大會(huì)主題,以具有行業(yè)前瞻洞察的“航行者”為視角,破冰之旅為主線(xiàn),關(guān)注AI、元宇宙、XR、游戲、電競(jìng)、數(shù)字經(jīng)濟(jì)等科技與互聯(lián)網(wǎng)前沿領(lǐng)域,全方位呈現(xiàn)科技前沿成果,聚焦時(shí)代與商業(yè)熱點(diǎn)議題,探討新科技、新商業(yè)、新模式的未來(lái)價(jià)值,與真正的勇者共赴劇變革新下的凜冬破冰之旅!
大會(huì)現(xiàn)場(chǎng)設(shè)有Talking Box嘉賓對(duì)話(huà)間,元象 聯(lián)合創(chuàng)始人 肖志立圍繞“元象從元宇宙到發(fā)力AI大模型,2023年AI大模型現(xiàn)狀”等話(huà)題,與陀螺主持人和現(xiàn)場(chǎng)的媒體朋友進(jìn)行了對(duì)話(huà)交流。
以下為現(xiàn)場(chǎng)對(duì)話(huà)實(shí)錄:
主持人:關(guān)于元象,之前了解更多是在虛擬元宇宙上的業(yè)務(wù),但是今年發(fā)生一個(gè)明顯變化,元象會(huì)更關(guān)注AI大模型,特別想請(qǐng)教一下為什么從元宇宙開(kāi)始轉(zhuǎn)向做AI這一塊?
肖志立:這個(gè)問(wèn)題蠻多外部的朋友也都問(wèn)過(guò)我們,其實(shí)這里講一下我們的邏輯。我覺(jué)得元象從2021年創(chuàng)立開(kāi)始,我們就是奔著通用人工智能這樣的目標(biāo)去的,這個(gè)更偏向腦力,我們認(rèn)為如果未來(lái)是一個(gè)虛擬世界,它具備跟人類(lèi)同樣的智能,這樣的一種環(huán)境或者這樣一種產(chǎn)品形態(tài),它可能是我們所希望的。
其實(shí)這個(gè)想法是在所謂的全真互聯(lián)網(wǎng)提出來(lái)之前我們就有了,人工智能形態(tài)的產(chǎn)品就是元宇宙。元宇宙我們理解為分為兩種基礎(chǔ)能力,一種是感知能力,可以理解仿真世界,這個(gè)世界給你呈現(xiàn)出來(lái)的視覺(jué)效果,聽(tīng)覺(jué)效果,是不是跟真實(shí)世界符合,第二是認(rèn)知能力,偏大模型,就是虛擬世界里面你遇到的這種智能體,可能不是真人,可能是AI驅(qū)動(dòng)的智能體,是不是能夠通過(guò)圖靈測(cè)試,跟它交流、互動(dòng)起來(lái)跟人一樣。所以在元象創(chuàng)立之初,不僅有3D技術(shù)團(tuán)隊(duì),也有AI團(tuán)隊(duì),做強(qiáng)化學(xué)習(xí)、語(yǔ)音和NLP等。
在大模型出來(lái)以前,AGI的常見(jiàn)路徑是強(qiáng)化學(xué)習(xí),到2022年底大模型這一系列技術(shù)出現(xiàn)之后,我們覺(jué)得這個(gè)技術(shù)可能要比原來(lái)強(qiáng)化學(xué)習(xí)的技術(shù)更有利于使得我們這個(gè)產(chǎn)品形態(tài)逼近我們理想的狀態(tài)。所以,其實(shí)從我們最開(kāi)始的認(rèn)知,我們就并不覺(jué)得元宇宙只是一個(gè)虛擬仿真的產(chǎn)品形態(tài),而是AI+3D。
主持人:2023擁抱AI是大部分企業(yè)的共同愿景,通常大家會(huì)有兩種實(shí)現(xiàn)路徑,一種接入API接口,另一種自己做,那元象為什么選擇自己做這么艱難的路徑?
肖志立:這個(gè)我們內(nèi)部在做之前也有非常激烈的去討論過(guò),最后的結(jié)論就是我們必須做,而且我們也有能力去做。因?yàn)檫@里面其實(shí)所謂的通用人工智能也有它不同階段的發(fā)展,比如我們現(xiàn)在也能看到某一些大廠(chǎng)的大模型,雖然都是通識(shí)大模型,但有些能力好,有些能力沒(méi)有那么強(qiáng)。包括未來(lái),如果要結(jié)合我們本身的虛擬場(chǎng)景,要呈現(xiàn)視覺(jué)或者聽(tīng)覺(jué)的認(rèn)知能力的話(huà),其實(shí)如果僅依賴(lài)API,非常受制約。而且這里面其實(shí)從環(huán)節(jié)落地,我們考慮所謂的投入產(chǎn)出,如果只是用API,在某些我們的內(nèi)部應(yīng)用場(chǎng)景里面,其實(shí)有點(diǎn)不劃算,有些場(chǎng)景用較小規(guī)模的模型就可以落地,有些則需要更復(fù)雜的通識(shí)大模型,這里面真正階段性的落地,而不只是說(shuō)打比賽,這里面有很多需要權(quán)衡和選擇的點(diǎn)。若在這個(gè)時(shí)候我們?nèi)狈Ρ匾馁Y源和能力,便會(huì)變得非常被動(dòng)。
主持人:相對(duì)海外的OpenAI還有國(guó)內(nèi)百度的文心一言、星火大模型等,元象這邊有什么差異點(diǎn),核心的競(jìng)爭(zhēng)優(yōu)勢(shì)是什么?
肖志立:這個(gè)分兩方面看,一個(gè)跟國(guó)外的GPT比較,毫無(wú)疑問(wèn)GPT現(xiàn)在一定在全球處于領(lǐng)先的位置,可能只有能夠跟它與之匹敵的Google稍微追得上,其實(shí)在國(guó)內(nèi)我們看到的大模型,自從 Llama開(kāi)源之后,國(guó)內(nèi)大模型都是基于這個(gè)架構(gòu)做一個(gè)復(fù)現(xiàn),只是這個(gè)復(fù)現(xiàn)的比例不一樣,或者方法不一樣,因?yàn)長(zhǎng)lama只開(kāi)源它的網(wǎng)絡(luò)結(jié)構(gòu),沒(méi)有開(kāi)源訓(xùn)練語(yǔ)料和過(guò)程,所以現(xiàn)在國(guó)內(nèi)大部分情況下,現(xiàn)在都還是在一個(gè)復(fù)現(xiàn)追趕的狀態(tài)。
通過(guò)一些評(píng)測(cè)可能我們也聽(tīng)到一些聲音說(shuō),我們?cè)谀承┓矫婺軌虺交蛘哝敲繥PT,但是其實(shí)正常使用角度來(lái)看,肯定不是這樣的。而且我覺(jué)得我們國(guó)內(nèi)這種聲音其實(shí)會(huì)影響到我們對(duì)自己的一些認(rèn)知。至于說(shuō)元象本身,其實(shí)從底座訓(xùn)練的角度來(lái)看,通過(guò)更大的參數(shù)規(guī)模,更多的語(yǔ)料使得模型有更好的通識(shí)能力,涌現(xiàn)出更強(qiáng)大的人類(lèi)語(yǔ)言的能力,這個(gè)角度上并沒(méi)有太多的區(qū)別。它更大的區(qū)別在于說(shuō)我基于我的底座,針對(duì)某些應(yīng)用場(chǎng)景做一些微調(diào),或者持續(xù)訓(xùn)練這一塊。比如我們最近在測(cè)試我們的自研的泛娛樂(lè)方向的一些模型,就會(huì)看出來(lái)它跟GPT的一些表達(dá)會(huì)明顯的不一樣,因?yàn)镚PT大家能感受到,更像一個(gè)“理科生”,它非常有邏輯,非常有條理,但是表述出來(lái)的東西其實(shí)很平淡無(wú)奇。但是在泛娛樂(lè)很多場(chǎng)景里面,比如說(shuō)直播的歡迎彈幕,可能某一個(gè)“大哥”進(jìn)來(lái),我們要?dú)g迎他,這個(gè)時(shí)候用GPT寫(xiě)彈幕一定索然無(wú)味,所以我們針對(duì)泛娛樂(lè)做了精調(diào),雖然我們的參數(shù)規(guī)模遠(yuǎn)不如GPT,但是我們?cè)谶@個(gè)領(lǐng)域的效果比它好不少。所以這個(gè)是未來(lái)元象會(huì)主打泛娛樂(lè)的部分,我們有經(jīng)驗(yàn),曾經(jīng)做過(guò)并且有優(yōu)勢(shì)的領(lǐng)域,我們會(huì)在這個(gè)方向發(fā)力。
主持人:現(xiàn)在的AI大模型,大概有兩種功能,一種是文生文,另一種是文生圖,基于元象過(guò)往的經(jīng)驗(yàn),你們會(huì)做文生3D這樣的內(nèi)容能力嗎?
肖志立:大模型生成什么不重要,反正大家都是在往多模態(tài)的方向去發(fā)展,包括GPT,我覺(jué)得GPT它更加讓我驚艷的不是文生圖,而是文生語(yǔ)音,文本生成的內(nèi)容結(jié)合自然語(yǔ)言,再通過(guò)TTS(文本轉(zhuǎn)語(yǔ)音)技術(shù)轉(zhuǎn)化為口語(yǔ),從而模擬真實(shí)對(duì)話(huà),這里面的一些各種模態(tài)我覺(jué)得都是必然會(huì)存在的。回到剛才說(shuō)的3D話(huà)題,其實(shí)我們也有在持續(xù)關(guān)注,就是3D類(lèi)的生成技術(shù),比如其實(shí)我們有看到像OpenAI的一些技術(shù)發(fā)布,我自己的判斷是,可能3D模型的生成,它目前其實(shí)主要還是在研究階段為主。進(jìn)入到工業(yè)界的難度比較大,而且因?yàn)樗?D信息相對(duì)文本、圖片和視頻是更高緯度的信息,而且它沒(méi)有特別強(qiáng)的時(shí)序特性,因?yàn)?D可以從隨機(jī)角度看,所以其實(shí)沒(méi)有很強(qiáng)的時(shí)序特性,我估計(jì)它的技術(shù)的成熟期會(huì)比前面三種類(lèi)型的內(nèi)容都要晚一點(diǎn)。現(xiàn)在我們也在持續(xù)關(guān)注,也不是完全沒(méi)有應(yīng)用的機(jī)會(huì),一會(huì)分享我會(huì)講到,雖然我們現(xiàn)在不用這種生成技術(shù)做一個(gè)模型,但是我們會(huì)用這種生成技術(shù)構(gòu)建一個(gè)場(chǎng)景,這其實(shí)是可以通過(guò)已有的一些大模型加一些工程化的技術(shù),也能取得不錯(cuò)的效果,能夠?yàn)槲覀兊拿佬g(shù)團(tuán)隊(duì)提升很好的效率。
主持人:2023年各家都在做大模型,各種通用大模型,垂類(lèi)大模型,您如何看待各種大模型崛起的趨勢(shì)?
肖志立:我覺(jué)得這是一種很好的趨勢(shì),通過(guò)這種充分市場(chǎng)化競(jìng)爭(zhēng),至少我認(rèn)為我國(guó)能夠擁有自主可控的屬于操作系統(tǒng)級(jí)別的一些技術(shù),這是非常重要的,而且它一定能夠拉動(dòng)我們國(guó)產(chǎn)的自研芯片的發(fā)展。所以我覺(jué)得從整個(gè)生態(tài)來(lái)看,這個(gè)并沒(méi)有問(wèn)題。下面可能需要關(guān)注的就是一些大模型安全方面的一些問(wèn)題,雖然現(xiàn)在國(guó)家也有一些規(guī)范,比如生成式人工智能技術(shù)的備案等等的手段,但其實(shí)從我個(gè)人看來(lái)可能是不太夠的,這里面可能需要有一些更完備的機(jī)制去持續(xù)監(jiān)控或者保證安全性。比如說(shuō)我們對(duì)于傳統(tǒng)的互聯(lián)網(wǎng)服務(wù)已經(jīng)有像紅軍、藍(lán)軍對(duì)抗這種機(jī)制保證系統(tǒng)的安全,不容易被滲透,不容易被投毒,但是大模型這個(gè)領(lǐng)域挺空白的。相對(duì)來(lái)講,我覺(jué)得這也是大模型創(chuàng)業(yè)其中一個(gè)領(lǐng)域的機(jī)會(huì)。
主持人:元象目前在C端與B端的客戶(hù)配比如何,市場(chǎng)規(guī)劃是怎樣的?
肖志立:我們現(xiàn)在還是主要以B端客戶(hù)為主,因?yàn)镃端客戶(hù)目前還是在逐步放開(kāi)的階段,在B端里面做驗(yàn)證,在C端里面發(fā)力這個(gè)是我們做大模型的一個(gè)路線(xiàn)。我們希望能夠有一種超級(jí)APP是以大模型的能力作為驅(qū)動(dòng)的。但是我覺(jué)得在到這個(gè)階段之前,我們?nèi)匀恍枰谀承┬袠I(yè),比如我剛才提到的一些泛互聯(lián)網(wǎng)行業(yè)里面積累一些經(jīng)驗(yàn)。因?yàn)榇竽P瓦@個(gè)技術(shù)跟傳統(tǒng)的互聯(lián)網(wǎng)技術(shù)有很大的不一樣在于它是實(shí)驗(yàn)型技術(shù),你沒(méi)用過(guò)它,不知道它行還是不行,所以一定要落地之后才知道絕對(duì)有把握做好這個(gè)事情。所以,我覺(jué)得需要有一些時(shí)間的積累,才能去催生出剛才所描述的這種超級(jí)APP的概念,到這個(gè)時(shí)候,去TO C的話(huà)我覺(jué)得這樣一個(gè)節(jié)奏才會(huì)比較穩(wěn)妥。
主持人:元象今年發(fā)布了三個(gè)AI大模型,XVERSE-13B,XVERSE-7B,XVERSE-65B,為什么一年內(nèi)連發(fā)三個(gè)大模型,這三個(gè)大模型具體有什么區(qū)別呢?
肖志立:正如我剛才所說(shuō),其實(shí)不應(yīng)該用一種規(guī)格的大模型去應(yīng)對(duì)所有的場(chǎng)景。比如7B、13B,它們的優(yōu)勢(shì)就是部署簡(jiǎn)單,推理成本低,7B一張家用顯卡就能運(yùn)轉(zhuǎn)起來(lái),所以個(gè)人用戶(hù)去使用它,完成他的任務(wù)或者做一些實(shí)驗(yàn)都是挺方便的。包括13B其實(shí)我們開(kāi)源之后的用戶(hù)池里面,非常多的用戶(hù)用來(lái)做內(nèi)部的知識(shí)問(wèn)答,就是很簡(jiǎn)單的,只要把我們模型部署好,對(duì)接上他內(nèi)部整理好的知識(shí)庫(kù),通過(guò)我們自帶的搜索增強(qiáng)技術(shù),就可以在內(nèi)部很輕松地用起來(lái),也不需要購(gòu)買(mǎi)很高價(jià)格的硬件。65B其實(shí)它的能力更好,比如在推理方面的數(shù)理邏輯能力會(huì)更強(qiáng)。但是你要使用它成本會(huì)更高,所以它目前看到更多是一些科研機(jī)構(gòu),他們需要做實(shí)驗(yàn)。這種場(chǎng)景下,就會(huì)要求我們要開(kāi)放模型的參數(shù),開(kāi)放訓(xùn)練的參數(shù),以便他在上面做增量訓(xùn)練或者做精調(diào),每一種類(lèi)型的模型,每一種規(guī)格的模型,它的受眾群體不太一樣。
主持人:再回到應(yīng)用場(chǎng)景,元象之前也是做元宇宙內(nèi)容的,您認(rèn)為元象的大模型在元宇宙上面的應(yīng)用場(chǎng)景和行業(yè)解決方案有哪些?
肖志立:我們本身做元宇宙的初衷就是我們不同的內(nèi)容其實(shí)都是用AI技術(shù)輔助生成或者直接生成,所以這個(gè)大模型只是其中的一種生產(chǎn)方法。大模型目前來(lái)說(shuō)主要還是聚焦在文案或者劇本類(lèi)的生產(chǎn),比如說(shuō),我們有一個(gè)景區(qū)導(dǎo)覽的應(yīng)用,我們會(huì)用大模型把和景區(qū)的知識(shí)庫(kù)做關(guān)聯(lián),為游客提供服務(wù),游客可以通過(guò)這種會(huì)話(huà)方式了解這個(gè)景區(qū)的需求,無(wú)論是景區(qū)的歷史、典故、餐飲、游玩的推薦,都可以通過(guò)大模型去生成。
還有另外一種我們內(nèi)部也使用的場(chǎng)景,比如我們要去制作一個(gè)分鏡視頻,它其實(shí)是有一個(gè)從你要表達(dá)的觀(guān)點(diǎn),到你要去用什么故事去表達(dá)這個(gè)觀(guān)點(diǎn),再變成一個(gè)拍攝工具可理解的腳本的過(guò)程。其實(shí)這種文案轉(zhuǎn)化的過(guò)程,我們現(xiàn)在在內(nèi)部也是用大模型實(shí)現(xiàn)的,比以前用人去寫(xiě),這個(gè)效率就高非常多了。當(dāng)然,我們其他的一些比如說(shuō)3D類(lèi)的場(chǎng)景生成,數(shù)字人相關(guān)的一些動(dòng)作生成,包括他的一些臉部表情生成,背后都是各種各樣的一系列AI技術(shù),那個(gè)不完全是大模型能夠覆蓋的。