FBEC2023未來商業(yè)生態(tài)鏈接大會暨第八屆金陀螺獎于2023年12月8日在深圳福田大中華喜來登酒店6樓盛大召開,本次大會由廣東省游戲產(chǎn)業(yè)協(xié)會、深圳市互聯(lián)網(wǎng)文化市場協(xié)會指導,陀螺科技主辦,中國光谷、游戲陀螺、VR陀螺、陀螺財經(jīng)、陀螺電競聯(lián)合主辦。
大會以“合力共生·韌者行遠”為大會主題,以具有行業(yè)前瞻洞察的“航行者”為視角,破冰之旅為主線,關(guān)注AI、元宇宙、XR、游戲、電競、數(shù)字經(jīng)濟等科技與互聯(lián)網(wǎng)前沿領(lǐng)域,全方位呈現(xiàn)科技前沿成果,聚焦時代與商業(yè)熱點議題,探討新科技、新商業(yè)、新模式的未來價值,與真正的勇者共赴劇變革新下的凜冬破冰之旅!
大會現(xiàn)場設有Talking Box嘉賓對話間,元象 聯(lián)合創(chuàng)始人 肖志立圍繞“元象從元宇宙到發(fā)力AI大模型,2023年AI大模型現(xiàn)狀”等話題,與陀螺主持人和現(xiàn)場的媒體朋友進行了對話交流。
以下為現(xiàn)場對話實錄:
主持人:關(guān)于元象,之前了解更多是在虛擬元宇宙上的業(yè)務,但是今年發(fā)生一個明顯變化,元象會更關(guān)注AI大模型,特別想請教一下為什么從元宇宙開始轉(zhuǎn)向做AI這一塊?
肖志立:這個問題蠻多外部的朋友也都問過我們,其實這里講一下我們的邏輯。我覺得元象從2021年創(chuàng)立開始,我們就是奔著通用人工智能這樣的目標去的,這個更偏向腦力,我們認為如果未來是一個虛擬世界,它具備跟人類同樣的智能,這樣的一種環(huán)境或者這樣一種產(chǎn)品形態(tài),它可能是我們所希望的。
其實這個想法是在所謂的全真互聯(lián)網(wǎng)提出來之前我們就有了,人工智能形態(tài)的產(chǎn)品就是元宇宙。元宇宙我們理解為分為兩種基礎(chǔ)能力,一種是感知能力,可以理解仿真世界,這個世界給你呈現(xiàn)出來的視覺效果,聽覺效果,是不是跟真實世界符合,第二是認知能力,偏大模型,就是虛擬世界里面你遇到的這種智能體,可能不是真人,可能是AI驅(qū)動的智能體,是不是能夠通過圖靈測試,跟它交流、互動起來跟人一樣。所以在元象創(chuàng)立之初,不僅有3D技術(shù)團隊,也有AI團隊,做強化學習、語音和NLP等。
在大模型出來以前,AGI的常見路徑是強化學習,到2022年底大模型這一系列技術(shù)出現(xiàn)之后,我們覺得這個技術(shù)可能要比原來強化學習的技術(shù)更有利于使得我們這個產(chǎn)品形態(tài)逼近我們理想的狀態(tài)。所以,其實從我們最開始的認知,我們就并不覺得元宇宙只是一個虛擬仿真的產(chǎn)品形態(tài),而是AI+3D。
主持人:2023擁抱AI是大部分企業(yè)的共同愿景,通常大家會有兩種實現(xiàn)路徑,一種接入API接口,另一種自己做,那元象為什么選擇自己做這么艱難的路徑?
肖志立:這個我們內(nèi)部在做之前也有非常激烈的去討論過,最后的結(jié)論就是我們必須做,而且我們也有能力去做。因為這里面其實所謂的通用人工智能也有它不同階段的發(fā)展,比如我們現(xiàn)在也能看到某一些大廠的大模型,雖然都是通識大模型,但有些能力好,有些能力沒有那么強。包括未來,如果要結(jié)合我們本身的虛擬場景,要呈現(xiàn)視覺或者聽覺的認知能力的話,其實如果僅依賴API,非常受制約。而且這里面其實從環(huán)節(jié)落地,我們考慮所謂的投入產(chǎn)出,如果只是用API,在某些我們的內(nèi)部應用場景里面,其實有點不劃算,有些場景用較小規(guī)模的模型就可以落地,有些則需要更復雜的通識大模型,這里面真正階段性的落地,而不只是說打比賽,這里面有很多需要權(quán)衡和選擇的點。若在這個時候我們?nèi)狈Ρ匾馁Y源和能力,便會變得非常被動。
主持人:相對海外的OpenAI還有國內(nèi)百度的文心一言、星火大模型等,元象這邊有什么差異點,核心的競爭優(yōu)勢是什么?
肖志立:這個分兩方面看,一個跟國外的GPT比較,毫無疑問GPT現(xiàn)在一定在全球處于領(lǐng)先的位置,可能只有能夠跟它與之匹敵的Google稍微追得上,其實在國內(nèi)我們看到的大模型,自從 Llama開源之后,國內(nèi)大模型都是基于這個架構(gòu)做一個復現(xiàn),只是這個復現(xiàn)的比例不一樣,或者方法不一樣,因為Llama只開源它的網(wǎng)絡結(jié)構(gòu),沒有開源訓練語料和過程,所以現(xiàn)在國內(nèi)大部分情況下,現(xiàn)在都還是在一個復現(xiàn)追趕的狀態(tài)。
通過一些評測可能我們也聽到一些聲音說,我們在某些方面能夠超越或者媲美GPT,但是其實正常使用角度來看,肯定不是這樣的。而且我覺得我們國內(nèi)這種聲音其實會影響到我們對自己的一些認知。至于說元象本身,其實從底座訓練的角度來看,通過更大的參數(shù)規(guī)模,更多的語料使得模型有更好的通識能力,涌現(xiàn)出更強大的人類語言的能力,這個角度上并沒有太多的區(qū)別。它更大的區(qū)別在于說我基于我的底座,針對某些應用場景做一些微調(diào),或者持續(xù)訓練這一塊。比如我們最近在測試我們的自研的泛娛樂方向的一些模型,就會看出來它跟GPT的一些表達會明顯的不一樣,因為GPT大家能感受到,更像一個“理科生”,它非常有邏輯,非常有條理,但是表述出來的東西其實很平淡無奇。但是在泛娛樂很多場景里面,比如說直播的歡迎彈幕,可能某一個“大哥”進來,我們要歡迎他,這個時候用GPT寫彈幕一定索然無味,所以我們針對泛娛樂做了精調(diào),雖然我們的參數(shù)規(guī)模遠不如GPT,但是我們在這個領(lǐng)域的效果比它好不少。所以這個是未來元象會主打泛娛樂的部分,我們有經(jīng)驗,曾經(jīng)做過并且有優(yōu)勢的領(lǐng)域,我們會在這個方向發(fā)力。
主持人:現(xiàn)在的AI大模型,大概有兩種功能,一種是文生文,另一種是文生圖,基于元象過往的經(jīng)驗,你們會做文生3D這樣的內(nèi)容能力嗎?
肖志立:大模型生成什么不重要,反正大家都是在往多模態(tài)的方向去發(fā)展,包括GPT,我覺得GPT它更加讓我驚艷的不是文生圖,而是文生語音,文本生成的內(nèi)容結(jié)合自然語言,再通過TTS(文本轉(zhuǎn)語音)技術(shù)轉(zhuǎn)化為口語,從而模擬真實對話,這里面的一些各種模態(tài)我覺得都是必然會存在的?;氐絼偛耪f的3D話題,其實我們也有在持續(xù)關(guān)注,就是3D類的生成技術(shù),比如其實我們有看到像OpenAI的一些技術(shù)發(fā)布,我自己的判斷是,可能3D模型的生成,它目前其實主要還是在研究階段為主。進入到工業(yè)界的難度比較大,而且因為它3D信息相對文本、圖片和視頻是更高緯度的信息,而且它沒有特別強的時序特性,因為3D可以從隨機角度看,所以其實沒有很強的時序特性,我估計它的技術(shù)的成熟期會比前面三種類型的內(nèi)容都要晚一點?,F(xiàn)在我們也在持續(xù)關(guān)注,也不是完全沒有應用的機會,一會分享我會講到,雖然我們現(xiàn)在不用這種生成技術(shù)做一個模型,但是我們會用這種生成技術(shù)構(gòu)建一個場景,這其實是可以通過已有的一些大模型加一些工程化的技術(shù),也能取得不錯的效果,能夠為我們的美術(shù)團隊提升很好的效率。
主持人:2023年各家都在做大模型,各種通用大模型,垂類大模型,您如何看待各種大模型崛起的趨勢?
肖志立:我覺得這是一種很好的趨勢,通過這種充分市場化競爭,至少我認為我國能夠擁有自主可控的屬于操作系統(tǒng)級別的一些技術(shù),這是非常重要的,而且它一定能夠拉動我們國產(chǎn)的自研芯片的發(fā)展。所以我覺得從整個生態(tài)來看,這個并沒有問題。下面可能需要關(guān)注的就是一些大模型安全方面的一些問題,雖然現(xiàn)在國家也有一些規(guī)范,比如生成式人工智能技術(shù)的備案等等的手段,但其實從我個人看來可能是不太夠的,這里面可能需要有一些更完備的機制去持續(xù)監(jiān)控或者保證安全性。比如說我們對于傳統(tǒng)的互聯(lián)網(wǎng)服務已經(jīng)有像紅軍、藍軍對抗這種機制保證系統(tǒng)的安全,不容易被滲透,不容易被投毒,但是大模型這個領(lǐng)域挺空白的。相對來講,我覺得這也是大模型創(chuàng)業(yè)其中一個領(lǐng)域的機會。
主持人:元象目前在C端與B端的客戶配比如何,市場規(guī)劃是怎樣的?
肖志立:我們現(xiàn)在還是主要以B端客戶為主,因為C端客戶目前還是在逐步放開的階段,在B端里面做驗證,在C端里面發(fā)力這個是我們做大模型的一個路線。我們希望能夠有一種超級APP是以大模型的能力作為驅(qū)動的。但是我覺得在到這個階段之前,我們?nèi)匀恍枰谀承┬袠I(yè),比如我剛才提到的一些泛互聯(lián)網(wǎng)行業(yè)里面積累一些經(jīng)驗。因為大模型這個技術(shù)跟傳統(tǒng)的互聯(lián)網(wǎng)技術(shù)有很大的不一樣在于它是實驗型技術(shù),你沒用過它,不知道它行還是不行,所以一定要落地之后才知道絕對有把握做好這個事情。所以,我覺得需要有一些時間的積累,才能去催生出剛才所描述的這種超級APP的概念,到這個時候,去TO C的話我覺得這樣一個節(jié)奏才會比較穩(wěn)妥。
主持人:元象今年發(fā)布了三個AI大模型,XVERSE-13B,XVERSE-7B,XVERSE-65B,為什么一年內(nèi)連發(fā)三個大模型,這三個大模型具體有什么區(qū)別呢?
肖志立:正如我剛才所說,其實不應該用一種規(guī)格的大模型去應對所有的場景。比如7B、13B,它們的優(yōu)勢就是部署簡單,推理成本低,7B一張家用顯卡就能運轉(zhuǎn)起來,所以個人用戶去使用它,完成他的任務或者做一些實驗都是挺方便的。包括13B其實我們開源之后的用戶池里面,非常多的用戶用來做內(nèi)部的知識問答,就是很簡單的,只要把我們模型部署好,對接上他內(nèi)部整理好的知識庫,通過我們自帶的搜索增強技術(shù),就可以在內(nèi)部很輕松地用起來,也不需要購買很高價格的硬件。65B其實它的能力更好,比如在推理方面的數(shù)理邏輯能力會更強。但是你要使用它成本會更高,所以它目前看到更多是一些科研機構(gòu),他們需要做實驗。這種場景下,就會要求我們要開放模型的參數(shù),開放訓練的參數(shù),以便他在上面做增量訓練或者做精調(diào),每一種類型的模型,每一種規(guī)格的模型,它的受眾群體不太一樣。
主持人:再回到應用場景,元象之前也是做元宇宙內(nèi)容的,您認為元象的大模型在元宇宙上面的應用場景和行業(yè)解決方案有哪些?
肖志立:我們本身做元宇宙的初衷就是我們不同的內(nèi)容其實都是用AI技術(shù)輔助生成或者直接生成,所以這個大模型只是其中的一種生產(chǎn)方法。大模型目前來說主要還是聚焦在文案或者劇本類的生產(chǎn),比如說,我們有一個景區(qū)導覽的應用,我們會用大模型把和景區(qū)的知識庫做關(guān)聯(lián),為游客提供服務,游客可以通過這種會話方式了解這個景區(qū)的需求,無論是景區(qū)的歷史、典故、餐飲、游玩的推薦,都可以通過大模型去生成。
還有另外一種我們內(nèi)部也使用的場景,比如我們要去制作一個分鏡視頻,它其實是有一個從你要表達的觀點,到你要去用什么故事去表達這個觀點,再變成一個拍攝工具可理解的腳本的過程。其實這種文案轉(zhuǎn)化的過程,我們現(xiàn)在在內(nèi)部也是用大模型實現(xiàn)的,比以前用人去寫,這個效率就高非常多了。當然,我們其他的一些比如說3D類的場景生成,數(shù)字人相關(guān)的一些動作生成,包括他的一些臉部表情生成,背后都是各種各樣的一系列AI技術(shù),那個不完全是大模型能夠覆蓋的。
投稿/爆料:tougao@youxituoluo.com
稿件/商務合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息