出品|虎嗅Pro
作者|劉國輝
頭圖|電影《銀翼殺手2049》截圖
別緊張,并不是一個(gè)恐怖故事,只是為你“暢享”一下未來,沒錯(cuò),單身的朋友們注意了,如果現(xiàn)實(shí)讓你挫敗萬分,那么好消息是人類距離跟虛擬數(shù)字人談戀愛的未來又近了一步。
今年的CES上,三星旗下STAR Labs展示了其設(shè)計(jì)的虛擬數(shù)字人NEON,受到了全場幾乎最高的關(guān)注度。這些虛擬數(shù)字人動(dòng)作流暢,眼神自然,甚至氣質(zhì)都與真人相差無幾。并且,這樣與真人無異的外在表現(xiàn),居然都是AI學(xué)習(xí)出的結(jié)果。
“NEON 不是人工智能助手,更像我們?nèi)祟?,是一個(gè)獨(dú)立的生物,可以表達(dá)情感,并從中學(xué)習(xí)。與 AI 助手不同,NEON 沒有從互聯(lián)網(wǎng)搜索天氣的接口,也不能播放你喜歡的音樂?!惫俜饺绱私忉屧O(shè)計(jì)NEON的初衷。
三星Neon的虛擬數(shù)字人
根據(jù)STAR Labs介紹,NEON具備共情能力,能夠真正理解人類的想法。通過機(jī)器學(xué)習(xí)累計(jì)的數(shù)據(jù)和能力,他們會(huì)進(jìn)化得更像現(xiàn)實(shí)生活中的角色,比如演員、發(fā)言人、電視主播等。
不過,目前來看,NEON學(xué)得最好的還是人類的表情動(dòng)作,至于說智能化水平,就一言難盡了。NEON 首席執(zhí)行官兼 STAR Labs 負(fù)責(zé)人 Pranav Mistry 第一次在CES進(jìn)行現(xiàn)場展示NEON的時(shí)候,NEON甚至出現(xiàn)了數(shù)次宕機(jī),以至于演示無法繼續(xù)。
在國內(nèi),已經(jīng)有不少公司在NEON推出之前就在做虛擬數(shù)字人了。甚至在全國的頭等大事—疫情防控方面,也有了虛擬數(shù)字人的身影。創(chuàng)業(yè)公司聲智科技推出了AI虛擬數(shù)字人測溫系統(tǒng),在一些辦公樓里,由虛擬數(shù)字人代替前臺(tái)或者保安,來執(zhí)行測溫任務(wù),防止交叉感染。
這引出了一個(gè)問題——為什么我們需要研發(fā)看起來跟真人沒啥區(qū)別的虛擬數(shù)字人呢?
兩個(gè)月前,《》發(fā)布文章《》,全方位展現(xiàn)中國虛擬數(shù)字人當(dāng)下的發(fā)展圖景、應(yīng)用現(xiàn)狀、優(yōu)勢與瓶頸。本文為該文的節(jié)選縮減版。
#魔鬼藏在細(xì)節(jié)中,即刻掃描下方二維碼訂閱虎嗅Pro會(huì)員,免費(fèi)暢讀《前沿技術(shù)情報(bào)所》。
從虛擬主播表演到測溫防疫,虛擬數(shù)字人應(yīng)用五花八門
國內(nèi)已經(jīng)有一些領(lǐng)域開始使用虛擬數(shù)字人:
有銀行在網(wǎng)點(diǎn)設(shè)置大屏,屏里的數(shù)字人做導(dǎo)向、咨詢的工作,有點(diǎn)像數(shù)字化的大堂經(jīng)理;銀行APP也打算用數(shù)字人來承擔(dān)理財(cái)顧問的角色;北京互聯(lián)網(wǎng)法院推出了全國首位AI虛擬法官,引導(dǎo)用戶了解互聯(lián)網(wǎng)法院訴訟流程;線上泛娛樂是一塊重要市場,想必大家已經(jīng)上見過一些虛擬主持人,百度、科大訊飛、搜狗、創(chuàng)業(yè)公司如魔琺科技等都推出過類似產(chǎn)品。
虛擬數(shù)字人目前在功能上略顯稚嫩,NEON看上去很炫酷,但目前也就是一個(gè)帶有形象的虛擬助手而已。微軟小冰很火,但現(xiàn)在還沒有形成很高的商業(yè)價(jià)值。虛擬數(shù)字人又能怎么樣?
但不能以現(xiàn)在的能力來評判未來,數(shù)字人不僅帶來一種新的界面,更是帶來一種新的交互方式。魔琺科技創(chuàng)始人柴金祥對虎嗅Pro表示,將來的APP會(huì)升級(jí),今天APP里面有各種功能,將來可以轉(zhuǎn)由虛擬數(shù)字人跟用戶交互。
虛擬數(shù)字人看上去就是用三維視覺感知、3D建模等技術(shù)塑造出比較逼真的形象,用語音識(shí)別、語音合成、自然語言處理等技術(shù)讓數(shù)字人初步具備一些交互能力。
在應(yīng)用上,虛擬數(shù)字人有線上線下之分。
在線下,虛擬數(shù)字人可以在政府部門、醫(yī)院、銀行、消費(fèi)場所等場景里提供簡單的客服功能。
如回到辦公場所防疫這個(gè)場景,據(jù)聲智科技相關(guān)負(fù)責(zé)人介紹,當(dāng)紅外攝像儀檢測到往來人員體溫時(shí),數(shù)字人會(huì)語音播報(bào)溫度數(shù)據(jù),同時(shí)提醒未檢測到的個(gè)人調(diào)整距離,重新接受檢測。當(dāng)AI數(shù)字人檢測到疑似發(fā)熱癥狀時(shí),會(huì)語音報(bào)警,提示安檢人員追蹤體溫較高的人員。
此外,數(shù)字人的主要應(yīng)用場景是在銀行、政府辦事部門、醫(yī)院等,與來辦事的民眾做一些簡單互動(dòng)與引導(dǎo),做虛擬助手。在政府部門以及醫(yī)院這樣的單位,民眾若不知道辦事流程或者歸屬部門,以往需要專門安排一個(gè)人做這事,對這個(gè)員工來講,挺考驗(yàn)?zāi)托暮拓?zé)任心的,在職業(yè)上也缺乏成就感。對此,虛擬數(shù)字人便有了用武之地。
在線上,虛擬數(shù)字人還有個(gè)典型的場景是泛娛樂,如虛擬主持人、主播、模特等。一家經(jīng)紀(jì)公司非常依賴旗下的簽約藝人,直播平臺(tái)非常依賴頭部的主播。如果有虛擬數(shù)字人能夠受到觀眾的歡迎,可以降低泛娛樂平臺(tái)對明星或者主播的依賴程度,因?yàn)檫@個(gè)虛擬數(shù)字人是完全受到、平臺(tái)的控制的,不必?fù)?dān)心被高價(jià)挖走,也不會(huì)因?yàn)橐恍┦录霈F(xiàn)人設(shè)崩塌。
在防控疫情的當(dāng)下,也有一些公司向宣傳部門開放虛擬主播的使用權(quán)限,在制作疫情播報(bào)的視頻中加入虛擬主播,增強(qiáng)視頻的效果。
柴金祥認(rèn)為,虛擬數(shù)字人第一個(gè)市場一定是泛娛樂,以數(shù)字人為依托生產(chǎn)內(nèi)容,比如進(jìn)行虛擬直播、短視頻、綜藝秀等,所有的內(nèi)容是導(dǎo)演策劃好的,不需要全智能。
此外,數(shù)字人在線上還可以提供一種新的交互方式,以前是人與網(wǎng)站、APP界面交互,此后,用戶可以直接跟數(shù)字人交互?;蚴窃诜簥蕵坊蛘呓逃葓鼍皝硖峁┮粋€(gè)擬人的形象,代替真人來表演或者教學(xué)。
北京互聯(lián)網(wǎng)法院界面
當(dāng)然,現(xiàn)在即使有數(shù)字人,網(wǎng)站的交互也還很機(jī)械。以北京互聯(lián)網(wǎng)法院為例,依然是用戶查找各種版面尋找需要的信息,雖然有數(shù)字人,也只是按照預(yù)設(shè)程序來播放。比如想要了解著作權(quán)信息,點(diǎn)擊之后由數(shù)字人在視頻中講解。
柴金祥認(rèn)為,今天APP里面有各種功能,將來用虛擬數(shù)字人跟用戶交互就可以了,屆時(shí)如果在搜索引擎里搜某個(gè)銀行,出來的不是網(wǎng)頁,而是這個(gè)銀行的虛擬數(shù)字人來回答用戶提出的各種問題。
哪些領(lǐng)域更適合虛擬數(shù)字人落地?
聲智科技創(chuàng)始人陳孝良對虎嗅Pro表示,虛擬數(shù)字人是一個(gè)新興的技術(shù),商業(yè)模式還在探索之中。
比較明確的是虛擬數(shù)字人可在手機(jī)、智能家居等場景下成為每個(gè)人專屬虛擬助手以及情感陪伴,也可以在企業(yè)成為虛擬數(shù)字員工,幫助企業(yè)升級(jí)智能化無人辦公,還可以成為新聞、游戲解說、網(wǎng)紅等虛擬主播。
柴金祥則認(rèn)為,虛擬數(shù)字人在泛娛樂領(lǐng)域需求會(huì)比較明確。利用虛擬數(shù)字人可以解決影視和游戲、短視頻等內(nèi)容制作中效率低、產(chǎn)能低、質(zhì)量低的痛點(diǎn),至今這些領(lǐng)域在國內(nèi)基本仍屬于勞動(dòng)密集型的手工作坊制作。其次,增量市場比如虛擬直播和虛擬偶像,可以連續(xù)直播、連續(xù)表演,這個(gè)事情,泛娛樂領(lǐng)域的大公司都想做。
在其他領(lǐng)域,柴金祥認(rèn)為,虛擬數(shù)字人主要解決降本增效的問題。全智能虛擬數(shù)字人不是要去替代人,也不一定要做得比人好,它更多是解決有限人力,以及人不能24*7工作的問題。另外,全智能虛擬數(shù)字人可以把以前的語音客服進(jìn)行升級(jí),從語音交互升級(jí)成多模態(tài)交互。
數(shù)字人在不同領(lǐng)域創(chuàng)造的價(jià)值不同,潛力也不一樣。
柴金祥對虎嗅Pro表示,判斷哪些領(lǐng)域會(huì)適合虛擬數(shù)字人的應(yīng)用,可以從三個(gè)角度去考量:對交互的需求、對形象的需求、對體驗(yàn)的需求。某些行業(yè)特別適合圖文并茂跟用戶交互信息的,而且需要的信息量沒有那么大,不是10輪、20輪那種的對話,都可以用虛擬數(shù)字人來提供服務(wù)。
他表示, 重內(nèi)容輕交互的領(lǐng)域是最先應(yīng)用的一類,像虛擬老師,大部分時(shí)間在講課;泛娛樂領(lǐng)域的虛擬數(shù)字人,大部分時(shí)間在表演,交互很少,應(yīng)用起來會(huì)更早期。另一類是不需要很強(qiáng)的知識(shí)庫,比如一家公司,以前介紹自己更多是通過官網(wǎng)的形式,現(xiàn)在可以有這樣的虛擬數(shù)字人,用戶可以問問題,數(shù)字人可以圖文并茂解釋。
對于專業(yè)性比較強(qiáng)的領(lǐng)域,或者通用的領(lǐng)域,虛擬數(shù)字人的應(yīng)用可能不會(huì)那么樂觀。越是專業(yè)、通用、強(qiáng)交互的場景,在當(dāng)下的技術(shù)條件下,越不適合做虛擬數(shù)字人。有些事情在現(xiàn)實(shí)生活當(dāng)中本來就比較難,比如陪一個(gè)人聊天這種通用的場景,或者理財(cái)顧問這一個(gè)很專業(yè)的領(lǐng)域,對數(shù)字人的對話能力、智能性、專業(yè)能力的要求都很高,應(yīng)用落地都會(huì)很往后放。
虛擬數(shù)字人要面臨的幾大拷問
現(xiàn)在虛擬數(shù)字人應(yīng)用正在起步,三星、百度、騰訊等大廠都有產(chǎn)品問世,魔琺科技等創(chuàng)業(yè)公司也獲得融資,應(yīng)用也在一點(diǎn)點(diǎn)落地,像聲智科技這樣的語音領(lǐng)域的公司也推出了數(shù)字人的產(chǎn)品,顯示這個(gè)新興領(lǐng)域正在受到越來越多的關(guān)注。
但虛擬數(shù)字人想要大行其道,還有經(jīng)過幾番試煉。
落地場景一定需要形象嗎?
首先,虛擬數(shù)字人背后是AI,或者是一套IT系統(tǒng),真的需要做出一個(gè)真人的形象嗎?以虛擬老師為例,有一個(gè)數(shù)字形象來播放課程,跟沒有數(shù)字形象的視頻相比,對教學(xué)效果有什么效率提升嗎?
這涉及到項(xiàng)目落地的必要性問題。從客戶的角度看,你的產(chǎn)品可能對我有一定價(jià)值,但我對你的產(chǎn)品沒有達(dá)到非用不可的程度,這時(shí)候落地就比較難,即使能落地,產(chǎn)品也賣不上價(jià)。
陳孝良認(rèn)為,做一個(gè)虛擬形象是有必要的。人與機(jī)器的溝通過程,擬人化一直非常關(guān)鍵,因?yàn)樵谥R(shí)交流的過程中,人類總會(huì)帶有很強(qiáng)的審美情感。虛擬數(shù)字人可以拉近機(jī)器與人之間的距離,可以成為人類的情感陪伴。
柴金祥則表示,這里面更重要在于交互體驗(yàn)提升。最簡單的交互是電話交互,更上一級(jí)的交互是圖文并茂,再往上會(huì)有視頻交互。
沒有一個(gè)交互的提升是必須的,一種新應(yīng)用要替代原有方式,必須能做到一旦有了這個(gè)交互后,用戶不愿意回到原來的方式。那么,數(shù)字人怎么跟所有的圖文信息、數(shù)字答疑、視頻結(jié)合起來,讓用戶感到這種提供信息的方式是最方便的,這是業(yè)界需要解決的問題。
綜合來看,虛擬數(shù)字人的交互相比原有的APP交互是否更舒服更順暢,還有待于市場檢驗(yàn)。畢竟,人們對現(xiàn)有的交互方式黏性很高,想要替換是比較難的。就像人們已經(jīng)熟悉了二維碼支付,現(xiàn)在讓人去體驗(yàn)刷臉支付,即使是微信支付寶這樣的重量級(jí)玩家去推,也顯得很難。
想要替換原有的交互方式,虛擬數(shù)字人就要顯示出更明顯的價(jià)值來,吸引客戶來付費(fèi)。這當(dāng)然要技術(shù)的進(jìn)步,更重要的是產(chǎn)品能夠更貼近客戶的場景。
寫實(shí)是數(shù)字人的趨勢嗎?
其次,就算在一些場景需要一個(gè)虛擬形象,但是這個(gè)虛擬形象一定是要跟真人一樣寫實(shí)嗎,有無必要?
虛擬數(shù)字人往往主打真實(shí)形象的概念,數(shù)字人的形象確實(shí)也比一般的動(dòng)畫作品更真實(shí),但跟真人的形象相比還是有差別,真人的眼睛是非常靈動(dòng)的,而虛擬數(shù)字人看起來速率比較慢,面部表情也沒有真人那么豐富。其他的肢體動(dòng)作跟真人比也比較遲緩。
柴金祥對此表示,這個(gè)事情往前走的話分兩個(gè)點(diǎn):一是角色效果會(huì)越來越好,它是一個(gè)技術(shù)加藝術(shù)的過程,不是技術(shù)做的特別好了,藝術(shù)馬上就做好了;第二,超寫實(shí)是不是要跟真人一樣,也不一定,取決于應(yīng)用場景。
陳孝良認(rèn)為,目前一些國漫的崛起,說明寫實(shí)逼真的高度擬人化虛擬人并不一定是市場的需求,年輕人對標(biāo)新立異的虛擬形象更感興趣,高度擬人的形象只能在新聞主播等有限場景下應(yīng)用比較合適。
需要高度智能化嗎?
另外,有了這樣一個(gè)數(shù)字人的形象,但現(xiàn)在能做的事都還比較簡單。未來數(shù)字人的產(chǎn)品趨勢是什么,是繼續(xù)做一個(gè)簡單的客服,還是通過持續(xù)的學(xué)習(xí)去有更強(qiáng)的智能性?
三星表示,NEON 由兩項(xiàng)技術(shù)提供支持:
Core R3,代表“真實(shí)(Reality)、實(shí)時(shí)(Realtime)和響應(yīng)(Responsive),使得 NEON 可用于電影、增強(qiáng)現(xiàn)實(shí)體驗(yàn)及網(wǎng)絡(luò)和移動(dòng)應(yīng)用,且等待或響應(yīng)的時(shí)間少于幾毫秒,使之反應(yīng)更迅速更及時(shí);
Spectra,負(fù)責(zé)智力、學(xué)習(xí)、情感和記憶。目前仍在開發(fā)中。
陳孝良認(rèn)為,AI虛擬數(shù)字人的智能化,需要具備多輪對話的能力,以及各個(gè)行業(yè)的知識(shí)圖譜,形成一個(gè)龐大的智能知識(shí)庫,并具備學(xué)習(xí)能力,這樣才能解決各種專業(yè)的行業(yè)問題。
AI虛擬數(shù)字人在應(yīng)用落地過程中,需要一個(gè)強(qiáng)大的AI后臺(tái)大腦,以及觸摸、語音、傳感器等多模態(tài)交互融合,以達(dá)到適用于各種場景下的擬人化交互,幫助人類解決各種問題。然而,虛擬數(shù)字人想做到如此,還有很長的路要走。
虛擬的形象可以用現(xiàn)在的技術(shù)解決,但背后的專業(yè)能力卻不容易形成。目前,解決方案都是讓那個(gè)數(shù)字人解答一些簡單問題后,再把客戶的復(fù)雜需求提交給專業(yè)人員,不過想提供好的用戶體驗(yàn)還需要在產(chǎn)品上做好引導(dǎo),形成一個(gè)合理的流程。
虛擬數(shù)字人適合所有場景嗎?
目前看來,并非所有的網(wǎng)站、APP都適合用數(shù)字人來做交互,數(shù)字人還是更適用于用戶有明確需求的場景。
比如用戶想了解虎嗅,可以讓一個(gè)虛擬數(shù)字人掌握了虎嗅的全部公開資料后,形成知識(shí)庫,再根據(jù)用戶的提問去做回答。但對于一個(gè)沒有明確閱讀需求的用戶來講,面對虎嗅的虛擬數(shù)字人,可能沒有問題去提。但這個(gè)人是可以在漫無目的地在虎嗅上看一些文章的。
另外,不是每個(gè)用戶都喜歡用語音來控制,也不是每個(gè)場景都適合用語音,像辦公室、會(huì)議室等場景,用語音驅(qū)動(dòng)虛擬數(shù)字人,可能不太合適。
總結(jié)一下,未來我們會(huì)在越來越多的場景里看到虛擬數(shù)字人,虛擬數(shù)字人會(huì)與AI一起,成為技術(shù)落地的一環(huán)。
起初數(shù)字人會(huì)比較簡單,承載已經(jīng)預(yù)設(shè)好的內(nèi)容,比如在很多場合做客服的工作,或者在娛樂領(lǐng)域代替真人表演;如果AI能力進(jìn)步,在自然語言處理、知識(shí)圖譜等方面越來越強(qiáng),虛擬數(shù)字人會(huì)有更好的交互體驗(yàn),以及在專業(yè)領(lǐng)域形成比較強(qiáng)的替代能力。虛擬數(shù)字人未來做到怎樣,其實(shí)還是要看AI能做成什么樣。
#虛擬數(shù)字人會(huì)火起來成為下一個(gè)風(fēng)口嗎?本文為虎嗅Pro會(huì)員專享文章《》刪減版,加入解鎖全文。此外,您還將獲得的權(quán)益有:
· 總價(jià)值2093元的(除《前沿技術(shù)情報(bào)所》外,還包括虎嗅研究總監(jiān)李彤的《財(cái)報(bào)透露的真相》、梁建章的《人口保衛(wèi)戰(zhàn)》、天圖資本合伙人李康林的《消費(fèi)品玩家》等等),共計(jì)600+精品文章與案例;
·加入虎嗅會(huì)員社群,每周一次線上分享,與行業(yè)大咖、投資人直接對話;
聯(lián)系客服