圖靈TOPIA
作者:Mingke
編輯:劉靜 千鳥(niǎo) 李爾客
圖靈聯(lián)邦編輯部出品
【編者按】曾因《為什么現(xiàn)在的人工智能都像人工智障》一文引發(fā)廣泛關(guān)注的作者M(jìn)ingke又出神作。他對(duì)目前市場(chǎng)上主要的智能助理產(chǎn)品做了測(cè)試和分析,結(jié)果發(fā)現(xiàn),這些產(chǎn)品智商依舊令人捉急,智障仍然還是那個(gè)智障。
原因在于,基于深度學(xué)習(xí)的自然語(yǔ)言理解,僅能提取概念實(shí)體,并不能進(jìn)行邏輯推理,無(wú)法理解用戶(hù)意圖。
在Mingke看來(lái),深度學(xué)習(xí)僅能處理明文信息,不能處理場(chǎng)景、聲音、視覺(jué)等世界模型信息。在這種情況下,智能助理產(chǎn)品的出路是什么?
以下是圖靈君對(duì)Mingke精彩觀點(diǎn)和建議的介紹。
別的人工智能那么厲害,為什么你的Siri還是那么蠢?
▲ Sophia in AI for Good Global Summit 2017.
Source: ITU
2017 年 10 月,上圖這個(gè)叫 Sophia 的機(jī)器人,被沙特阿拉伯授予正式公民身份。
Sophia 經(jīng)常參加各種會(huì)、「發(fā)表演講」、「接受采訪(fǎng)」,比如去聯(lián)合國(guó)對(duì)話(huà),表現(xiàn)出來(lái)非常類(lèi)似人類(lèi)的言談;去和 Will Smith 拍 MV;接受 Good morning Britain 之類(lèi)的主流媒體的采訪(fǎng);甚至公司創(chuàng)始人參加 Jim Fallon 的訪(fǎng)談時(shí)一本正經(jīng)的說(shuō) Sophia 是「basically alive」。
要知道,西方的吃瓜群眾都是看著《終結(jié)者》長(zhǎng)大的,前段時(shí)間還看了《西部世界》。在他們的世界模型里,「機(jī)器智能會(huì)覺(jué)醒」這個(gè)設(shè)定是遲早都會(huì)發(fā)生的。
普通大眾開(kāi)始嚇得瑟瑟發(fā)抖。不僅開(kāi)始擔(dān)心自己的工作是不是會(huì)被替代,還有很多人開(kāi)始擔(dān)心 AI 會(huì)不會(huì)統(tǒng)治人類(lèi)?!肝磥?lái)已來(lái)」,很多人都以為真正的人工智能已經(jīng)近在咫尺了。
只是,好像總感覺(jué)有哪里不對(duì):「等等,人工智能都要威脅人類(lèi)了,為啥我的 Siri 還那么蠢?」
「 不要日本菜 」測(cè)試
早在 2016 年底,Mingke就做過(guò)一個(gè)測(cè)試,對(duì)幾個(gè)智能助理提一個(gè)看似簡(jiǎn)單的需求:「推薦餐廳,不要日本菜」。
各家的智能助理都給出了一堆餐廳推薦,結(jié)果,全是日本菜。
2 年過(guò)去了,智能助理在這個(gè)問(wèn)題的處理上有進(jìn)展么?再做一次測(cè)試。
結(jié)果是依然沒(méi)有解決。「不要」兩個(gè)字被所有智能助理一致忽略了,推薦的仍然全是日本菜。
▲ Source: Dumb And Dumber: Comparing Alexa, Siri, Cortana And The Google Assistant, Forbes, May 2018
皇帝的新衣
回過(guò)頭來(lái),我們?cè)賮?lái)看看那位沙特阿拉伯的公民,Sophia。你發(fā)現(xiàn)問(wèn)題了嗎:蘋(píng)果、谷歌和亞馬遜投入了無(wú)數(shù)金錢(qián)和科學(xué)家打造的智能助理蠢成這樣,憑什么這個(gè) Sophia 能一鳴驚人?
答案是, Sophia 的「智能」是個(gè)騙局。
可以直接引用 Facebook人工智能團(tuán)隊(duì)首席AI科學(xué)家Yann LeCun 對(duì)此的評(píng)價(jià),「這完全是鬼扯」。
簡(jiǎn)單說(shuō),Sophia就是一個(gè)帶喇叭的木偶——在各種大會(huì)上的發(fā)言和接受采訪(fǎng)的內(nèi)容其實(shí)都是人工撰寫(xiě)的,然后用語(yǔ)音合成做輸出。然而,這些卻被宣傳成是Sophia「人工智能」的自主意識(shí)言論。
考慮到大部分吃瓜群眾是通過(guò)媒體渠道來(lái)了解當(dāng)前技術(shù)發(fā)展的,跟著炒作的媒體都是這場(chǎng)騙局的共犯,比如被點(diǎn)名的 Tech Insider。這些不知道是無(wú)知還是無(wú)良的文科生,真的沒(méi)有做好新聞工作者份內(nèi)的調(diào)查工作。
當(dāng)前對(duì)話(huà)系統(tǒng)的本質(zhì):填表
對(duì)話(huà)智能的交互(CUI, Conversational UI)是個(gè)黑箱:終端用戶(hù)能感知到自己說(shuō)出的話(huà)(輸入)和機(jī)器人的回答(輸出)——但是感覺(jué)不到處理的過(guò)程。就好像跟人說(shuō)話(huà),你并不知道他是怎么想的。
雖說(shuō)每家的黑箱里面都不同,但是最底層的思路,都萬(wàn)變不離其宗,核心就是兩點(diǎn):聽(tīng)人話(huà)(識(shí)別)+ 講人話(huà)(對(duì)話(huà)管理)。
「 AI如何聽(tīng)懂人話(huà) ?」
我們來(lái)看一個(gè)例子。
在生活中,如果想要訂機(jī)票,人們會(huì)有很多種自然的表達(dá):
「訂機(jī)票」;
「有去上海的航班么?」;
「看看航班,下周二出發(fā)去紐約的」;
「要出差,幫我查下機(jī)票」;
等等等等
可以說(shuō),「自然的表達(dá)」有無(wú)窮多的組合(自然語(yǔ)言)都在代表「訂機(jī)票」這個(gè)意圖。而聽(tīng)到這些表達(dá)的人,可以準(zhǔn)確理解這些表達(dá)指的是「訂機(jī)票」這件事。
在過(guò)去,要理解這么多種不同的表達(dá),對(duì)機(jī)器是個(gè)很大的挑戰(zhàn)。
自然語(yǔ)言理解這個(gè)技能出現(xiàn)后,可以讓機(jī)器從各種自然語(yǔ)言的表達(dá)中區(qū)分出來(lái),哪些話(huà)歸屬于這個(gè)意圖。比如經(jīng)過(guò)訓(xùn)練后,機(jī)器能夠識(shí)別「幫我推薦一家附近的餐廳」,就不屬于「訂機(jī)票」這個(gè)意圖的表達(dá)。
并且,通過(guò)訓(xùn)練,機(jī)器還能夠在句子當(dāng)中自動(dòng)提取出來(lái)「上?!?,這兩個(gè)字指的是目的地這個(gè)概念(即實(shí)體);「下周二」指的是出發(fā)時(shí)間。
這樣一來(lái),看上去「機(jī)器就能聽(tīng)懂人話(huà)啦!」。
但是任務(wù)類(lèi)的對(duì)話(huà)智能,往往不止是語(yǔ)音控制這樣一輪交互。如果一個(gè)用戶(hù)說(shuō),「看看明天的機(jī)票」——這表達(dá)正常,但無(wú)法直接去執(zhí)行。因?yàn)槿鄙賵?zhí)行的必要信息:1)從哪里出發(fā)?和 2)去哪里?
這就涉及到了對(duì)話(huà)語(yǔ)言的生成。
「 AI 如何講人話(huà)?」
決定「該說(shuō)什么話(huà)」,才是對(duì)話(huà)系統(tǒng)的核心——無(wú)論是硅基的還是碳基的智能。但是深度學(xué)習(xí)在這個(gè)版塊并沒(méi)有起到什么作用。
在當(dāng)前,處理「該說(shuō)什么」這個(gè)問(wèn)題,主流的做法是由所謂「對(duì)話(huà)管理」系統(tǒng)決定的。
目前所有任務(wù)類(lèi)對(duì)話(huà)系統(tǒng),無(wú)論是前段時(shí)間的 Google duplex,還是智能客服或者智能助理,最核心的對(duì)話(huà)管理方法,有且僅有一個(gè):「填槽」,即 Slot filling。
那么這個(gè)「填槽」究竟是個(gè)什么鬼?嗯,不搞開(kāi)發(fā)的大家可以簡(jiǎn)單的把它理解為「填表」:好比你要去銀行辦個(gè)業(yè)務(wù),先要填一張表。
如果這張表上的空沒(méi)有填完,柜臺(tái)小姐姐就不給你辦。她會(huì)紅筆給你圈出來(lái):「必須要填的空是這些,別的你都可以不管?!鼓闳刻詈昧耍龠f給小姐姐,她就去給你辦理業(yè)務(wù)了。
還記得剛剛那個(gè)機(jī)票的例子么?用戶(hù)說(shuō)「看看明天的機(jī)票」,要想執(zhí)行「查機(jī)票」,就得做以下的步奏,還要按順序來(lái):
2018年5月,Google I/O 發(fā)布了 Duplex 的錄音 Demo,場(chǎng)景是 Google Assistant 代替用戶(hù)打電話(huà)去訂餐廳,和店員溝通,幫助用戶(hù)預(yù)定位子。
那 Google 的智能助理(后稱(chēng) IPA)又怎么知道用戶(hù)的具體需求呢?跑不掉的是,用戶(hù)還得給 Google Assistant 填一張表,用對(duì)話(huà)來(lái)交代自己的具體需求,比如下面這樣:
▲圖中左邊是一個(gè)使用 Google Assistant 訂餐廳的真實(shí)案例,來(lái)自 The Verge。
「 當(dāng)前對(duì)話(huà)系統(tǒng)的局限 」
還記得之前提到的「不要日本菜」測(cè)試么?
當(dāng)前基于深度學(xué)習(xí)的 NLU 在「實(shí)體提取」這個(gè)技術(shù)上,就只能提取「實(shí)體」。
而人能夠理解,用戶(hù)這個(gè)表述指的是「排除掉日本菜以外的其他選擇」。這是因?yàn)槿顺俗觥笇?shí)體提取」以外,還根據(jù)所處語(yǔ)境做了一個(gè)對(duì)邏輯的識(shí)別:「xx 以外」。然后,自動(dòng)執(zhí)行了這個(gè)邏輯的處理,即經(jīng)過(guò)推理去進(jìn)一步理解,對(duì)方真正指的是什么(即指代)。
人類(lèi)這個(gè)邏輯推理的過(guò)程,并不依賴(lài)于某個(gè)之前設(shè)計(jì)好的步驟(從 1 到 5)。
更麻煩的是,邏輯的出現(xiàn),不僅僅影響「實(shí)體」,還影響「意圖」:
「hi Siri,別推薦餐廳」——它還是會(huì)給你推薦餐廳;
「hi Siri,除了推薦餐廳,你還能推薦什么?」——它還是會(huì)給你推薦餐廳。
中文英文都是一樣的;Google assistant 也是一樣的。
想要處理這個(gè)問(wèn)題,不僅要識(shí)別出「邏輯」,還要正確判斷出這個(gè)邏輯是套用在哪個(gè)實(shí)體,或者是不是直接套用在某一個(gè)意圖上。這個(gè)判斷如何做?用什么做?都不在當(dāng)前 SLU 能處理的范圍內(nèi)。
理解人類(lèi)對(duì)話(huà)的本質(zhì):思維
我們首先要了解需要解決的問(wèn)題,才可能開(kāi)展解決問(wèn)題的工作。在對(duì)話(huà)領(lǐng)域,我們需要知道人們對(duì)話(huà)的本質(zhì)是什么。
舉個(gè)例子:你是一位 30 歲出頭的職場(chǎng)人士,每天上午 9 點(diǎn)半都要經(jīng)過(guò)辦公樓的旋轉(zhuǎn)門(mén),進(jìn)到大堂然后刷工牌進(jìn)電梯,去到 28 樓你的辦公室。今天是 1 月 6 日,平淡無(wú)奇的一天。你剛進(jìn)電梯,電梯里只有你一個(gè)人,正要關(guān)門(mén)的時(shí)候,有一個(gè)人匆忙擠進(jìn)來(lái)。
如果匆忙進(jìn)電梯來(lái)的是你的項(xiàng)目老板,而且假設(shè)他和你(多半都是他啦)都很關(guān)注最近的新項(xiàng)目進(jìn)展,那么你們要開(kāi)展的對(duì)話(huà)就很多了。
在電梯里,你跟他打招呼:「張總,早!」, 他會(huì)回你「早啊,對(duì)了昨天那個(gè)…」
不待他問(wèn)完,優(yōu)秀如你就能猜到大概后面要聊的內(nèi)容是關(guān)于新項(xiàng)目。甚至,你可以通過(guò)昨天他不在辦公室,大概漏掉了這個(gè)項(xiàng)目的哪些部分,來(lái)推理你這個(gè)時(shí)候應(yīng)該回復(fù)他關(guān)于這個(gè)項(xiàng)目的具體哪方面的問(wèn)題。
「昨天你不在,別擔(dān)心,客戶(hù)那邊都處理好了。打款的事情也溝通好了,30 天之內(nèi)搞定。」你看,不待張總問(wèn)完,你就能很棒地回答上。這多虧了你對(duì)他的模型的判斷是正確的。
一旦你對(duì)對(duì)方的情景模型判斷失誤,那么可能完全「沒(méi)打中點(diǎn)上」。
「我知道,昨天晚上我回了趟公司,小李跟我說(shuō)過(guò)了。我是要說(shuō)昨天晚上我回到辦公室的時(shí)候,你怎么沒(méi)在加班呀?小王,你這樣下去可不行啊……」
所以,人們?cè)谶M(jìn)行對(duì)話(huà)的過(guò)程中,并不是僅靠對(duì)方上一句話(huà)說(shuō)了什么(對(duì)話(huà)中明文所包含的信息)就來(lái)決定回復(fù)什么。這和當(dāng)前的對(duì)話(huà)系統(tǒng)的回復(fù)機(jī)制非常不同。
基于世界模型的推理
對(duì)世界的感知,包括聲音、視覺(jué)、嗅覺(jué)、觸覺(jué)等感官反饋,有助于人們對(duì)世界建立起一個(gè)物理上的認(rèn)識(shí)。對(duì)常識(shí)的理解,包括各種現(xiàn)象和規(guī)律的感知,在幫助人們生成一個(gè)更完整的模型:世界模型。
每個(gè)人的世界模型都不完全一樣,有可能是觀察到的信息不同,也有可能是推理能力不一樣。世界模型影響的是人的思維本身,繼而影響思維在低維的投影:對(duì)話(huà)。
讓我們從一個(gè)例子開(kāi)始:假設(shè)現(xiàn)在咱們一起來(lái)做一個(gè)不那么智障的助理。我們希望這個(gè)助理能夠推薦餐廳酒吧什么的,來(lái)應(yīng)付下面這樣的需求:
當(dāng)用戶(hù)說(shuō):「我想喝點(diǎn)東西」的時(shí)候,系統(tǒng)該怎么回答這句話(huà)?我相信大家都了解,我們可以把它訓(xùn)練成為一個(gè)意圖「找喝東西的店」,然后把周?chē)牡隀z索出來(lái),然后回復(fù)這句話(huà)給他:「在你附近找到這些選擇」。
恭喜,咱們已經(jīng)達(dá)到 Siri 的水平啦!
但我們要做的是不那么智障的智能助理。這個(gè)「喝東西的店」是奶茶點(diǎn)還是咖啡店?還是全部都給他?
嗯,這就涉及到了推理。我們來(lái)手動(dòng)模擬一個(gè)。假設(shè)我們有用戶(hù)的 Profile 數(shù)據(jù),
假設(shè)我們有用戶(hù)的 Profile 數(shù)據(jù)可用:如果他的偏好中最?lèi)?ài)的飲品是咖啡,就給他推薦咖啡店。
這樣一來(lái),我們就可以更「?jìng)€(gè)性化」的給他回復(fù)了:「在你附近找到這些咖啡店」。
這個(gè)時(shí)候,咱們的 AI 已經(jīng)達(dá)到了不少「智能系統(tǒng)」最喜歡鼓吹的個(gè)性化概念——「千人千面」啦!
然后我們來(lái)看這個(gè)概念有多蠢。
一個(gè)人喜歡喝咖啡,那么他一輩子的任意時(shí)候就都要喝咖啡么?
人是怎么處理這個(gè)問(wèn)題的呢?如果用戶(hù)是在下午 1 點(diǎn)這么問(wèn),推薦咖啡店就還好;如果是在晚上 11 點(diǎn)呢?我們還要給他推薦咖啡店么?是不是應(yīng)該給他推薦一家酒吧?又或者,如果今天是他的生日,那么我們是不是該給他點(diǎn)不同的東西?或者今天是圣誕節(jié),該不該給他推薦熱巧克力?
你看,時(shí)間是一個(gè)維度,在這個(gè)維度上的不同值都在影響給用戶(hù)回復(fù)什么不同的話(huà)。
時(shí)間和用戶(hù)的 Profile 不同的是:
1. 時(shí)間這個(gè)維度上的值有無(wú)限多;
2. 每個(gè)刻度還都不一樣。比如雖然生日是同一個(gè)日期,但是過(guò)的是幾歲的生日卻不同。
除了時(shí)間維度以外,還有空間維度。
于是我們把空間這個(gè)維度疊加到時(shí)間上去。你會(huì)發(fā)現(xiàn),如果用戶(hù)在周末的家里問(wèn)這個(gè)問(wèn)題(可能想叫奶茶外賣(mài)到家?),和他在上班時(shí)間的辦公室里問(wèn)這個(gè)問(wèn)題(可能想出去走走換換思路),咱們給他的回復(fù)也應(yīng)該不同。
光是時(shí)空這兩個(gè)維度,就有無(wú)窮多的組合,何況時(shí)間和空間,只是世界模型當(dāng)中最顯而易見(jiàn)的兩個(gè)維度。還有更多的,更抽象的維度存在,并且直接影響與用戶(hù)的對(duì)話(huà)。比如,人物之間的關(guān)系;人物的經(jīng)歷;天氣的變化;人和地理位置的關(guān)系(是經(jīng)常來(lái)出差、是當(dāng)?shù)赝林?、是第一次?lái)旅游)等等等等。
深度學(xué)習(xí)無(wú)能為力
至此,影響人們對(duì)話(huà)的,光是信息(還不含推理)至少就有這三部分:明文(含上下文)+ 場(chǎng)景模型(Context)+ 世界模型。
普通人可以毫不費(fèi)力地完成這項(xiàng)工作,但深度學(xué)習(xí)只能處理基于明文的信息。對(duì)于場(chǎng)景模型和世界模型的感知、生成以及基于模型的推理,深度學(xué)習(xí)統(tǒng)統(tǒng)無(wú)能為力。
這就是為什么現(xiàn)在炙手可熱的深度學(xué)習(xí)無(wú)法實(shí)現(xiàn)真正的智能(AGI)的本質(zhì)原因:不能進(jìn)行因果推理。
「 單靠深度學(xué)習(xí)搞不定語(yǔ)言,現(xiàn)在不行,將來(lái)也不行 」
在人工智能行業(yè)里,你經(jīng)常會(huì)聽(tīng)到有人這么說(shuō),「盡管當(dāng)前技術(shù)還實(shí)現(xiàn)不了理想中的人工智能,但技術(shù)是會(huì)不斷演進(jìn)的,隨著數(shù)據(jù)積累的越來(lái)越多,終將會(huì)實(shí)現(xiàn)讓人滿(mǎn)意的人工智能?!?/span>
如果這個(gè)說(shuō)法是指寄希望于僅靠深度學(xué)習(xí)不斷積累數(shù)據(jù)量,就能翻盤(pán)——那就大錯(cuò)特錯(cuò)了。
無(wú)論你怎么優(yōu)化「馬車(chē)」的核心技術(shù),比如使用更壯、更多的馬,都無(wú)法以此造出汽車(chē)(下圖右)。
解釋人工智障產(chǎn)品
以上,我們了解到人們對(duì)話(huà)的本質(zhì)是思維的交換,而遠(yuǎn)不只是明文上的識(shí)別和基于識(shí)別的回復(fù)。當(dāng)前的人工智能產(chǎn)品完全無(wú)法實(shí)現(xiàn)這個(gè)效果。當(dāng)用戶(hù)帶著人類(lèi)的世界模型和推理能力來(lái)跟機(jī)器用自然語(yǔ)言交互時(shí),就很容易發(fā)現(xiàn)破綻。
Sophia 是一個(gè)技術(shù)上的騙局(凡是鼓吹 Sophia 是真 AI 的,要么是不懂,要么是忽悠);
現(xiàn)在的 AI,都沒(méi)有真正的智能(不存在推理能力,包括 Alpha go 在內(nèi));
只要深度學(xué)習(xí)還是主流,就不用擔(dān)心 AI 統(tǒng)治人類(lèi);
對(duì)話(huà)產(chǎn)品用起來(lái)感覺(jué)智障,都是因?yàn)橄胩^(guò)思維,直接模擬對(duì)話(huà)(而現(xiàn)在也只能這樣);
「用的越多,數(shù)據(jù)越多,智能會(huì)越強(qiáng),產(chǎn)品就會(huì)越好,使用就會(huì)越多」——對(duì)于任務(wù)類(lèi)對(duì)話(huà)產(chǎn)品,這是一個(gè)看上去很酷實(shí)際上不靠譜的觀點(diǎn);
一個(gè) 智能助理,能對(duì)話(huà)多少輪,毫無(wú)意義;
先有智能,后有語(yǔ)言:要實(shí)現(xiàn)真正意義上的自然語(yǔ)言對(duì)話(huà),至少要實(shí)現(xiàn)基于常識(shí)和世界模型的推理能力。而這一點(diǎn)如果能夠?qū)崿F(xiàn),人類(lèi)可能真的需要開(kāi)始擔(dān)心人工智能了。
不要用NLP評(píng)價(jià)一個(gè)對(duì)話(huà)智能產(chǎn)品:年底了,有些媒體開(kāi)始出各種 AI 公司榜單,其中有不少把做對(duì)話(huà)的公司歸在 NLP 下面。這就好比用觸摸屏來(lái)衡量一款智能手機(jī)。在這兒我不是說(shuō)觸摸屏或者 NLP 不重要 (Essential),反而因?yàn)樘匾?,這個(gè)環(huán)節(jié)成為了每一家的標(biāo)配,以至于在這方面基本已經(jīng)做到頭了,差異不過(guò) 1%。
對(duì)于一個(gè)對(duì)話(huà)類(lèi)產(chǎn)品而言,NLU 盡管重要,但只應(yīng)占個(gè)整體配件的 5-10% 左右。更進(jìn)一步來(lái)說(shuō),甚至意圖識(shí)別和實(shí)體提取的部分,產(chǎn)品間的差異也遠(yuǎn)小于對(duì)話(huà)管理部分的差距。真正決定產(chǎn)品的是剩下的90%的系統(tǒng)。
至此,是不是有一種絕望的感覺(jué)?這些問(wèn)題學(xué)界和行業(yè)大牛都沒(méi)有解決方案,或者說(shuō)連有把握的解決思路都沒(méi)有。
那么,是不是做對(duì)話(huà)智能這類(lèi)產(chǎn)品的上限就是這樣了?
不是。對(duì)于一項(xiàng)技術(shù)而言,可能確實(shí)觸及上限了;但是對(duì)于應(yīng)用和產(chǎn)品設(shè)計(jì)而言,并不是由一個(gè)技術(shù)決定的,而是很多技術(shù)的結(jié)合,這里還有很大的空間。
作為產(chǎn)品經(jīng)理,我們應(yīng)該怎么做呢?
必須承認(rèn)的事實(shí)是,人工智能創(chuàng)業(yè)團(tuán)隊(duì)最基礎(chǔ)的認(rèn)知計(jì)算能力區(qū)別不會(huì)太大,畢竟大家都是基于大牛們發(fā)表的最新論文。這意味著對(duì)話(huà)式人工智能公司單純比拼深度學(xué)習(xí)技術(shù)沒(méi)有太多意義。
市面上以深度學(xué)習(xí)為基礎(chǔ)的對(duì)話(huà)類(lèi)產(chǎn)品,語(yǔ)義理解應(yīng)該只占整個(gè)產(chǎn)品的5%—10%。如果混合使用其它技術(shù)工具,比如DL+GOFAI(Deep learning+Good old fashion AI),勢(shì)必會(huì)增加開(kāi)發(fā)團(tuán)隊(duì)和設(shè)計(jì)的發(fā)揮空間。
GOFAI是John Haugeland 首先提出的,是在深度學(xué)習(xí)火起來(lái)之前的symbolic AI,也就是專(zhuān)家系統(tǒng)。目前AI領(lǐng)域從業(yè)者看不上的“if then”講的就是這個(gè)。
確定產(chǎn)品邊界很重要
具體到產(chǎn)品設(shè)計(jì),對(duì)話(huà)式人工智能產(chǎn)品的設(shè)計(jì)原則可以歸納為存在即被感知。換句話(huà)說(shuō),產(chǎn)品設(shè)計(jì)應(yīng)該圍繞如何讓用戶(hù)感覺(jué)和自己對(duì)話(huà)的AI是有價(jià)值的。
對(duì)于眼下的弱人工智能產(chǎn)品來(lái)說(shuō),產(chǎn)品設(shè)計(jì)首先要設(shè)定好產(chǎn)品的邊界,以及定好“越界時(shí)給用戶(hù)的反饋”。而后產(chǎn)品經(jīng)理就可以在設(shè)定的范圍內(nèi)發(fā)揮想象力,組裝出產(chǎn)品。
比如制作一個(gè)樹(shù)洞機(jī)器人,可以把產(chǎn)品定義為一個(gè)好的聽(tīng)眾,讓用戶(hù)把心中的壓力煩惱傾訴出來(lái)。
可以看出這個(gè)產(chǎn)品的邊界非常明確,主要是系統(tǒng)通過(guò)一些語(yǔ)言的反饋,鼓勵(lì)用戶(hù)繼續(xù)說(shuō),而不是鼓勵(lì)用戶(hù)期望對(duì)話(huà)系統(tǒng)輸出很多正確且有價(jià)值的話(huà)。例如下文中的對(duì)話(huà):
“我從來(lái)沒(méi)有這么考慮過(guò)這個(gè)問(wèn)題,你為什么會(huì)這么想呢?”
“關(guān)于這個(gè)人,你還有哪些了解?”
“你覺(jué)得他為什么會(huì)這樣?”
這樣產(chǎn)品就大幅減輕了對(duì)自然語(yǔ)言生成的依賴(lài),同時(shí)降低了對(duì)話(huà)背后的“場(chǎng)景模型”、“世界模型”,以及“常識(shí)推理”這些高緯度的模塊需求。鑒于目前的技術(shù)水平,對(duì)話(huà)式人工智能產(chǎn)品的邊界,應(yīng)該遠(yuǎn)離嚴(yán)重依賴(lài)世界模型和常識(shí)推理才能進(jìn)行對(duì)話(huà)的場(chǎng)景。
智能交互的核心是內(nèi)容,并非交互
對(duì)用戶(hù)來(lái)說(shuō),使用對(duì)話(huà)式人工智能產(chǎn)品的核心訴求是獲取所需信息,解決相關(guān)問(wèn)題。
而眼下很多人工智能公司號(hào)稱(chēng)產(chǎn)品能進(jìn)行多輪對(duì)話(huà),以彰顯智能程度。實(shí)際上,在達(dá)到目的且不影響體驗(yàn)的前提下,對(duì)話(huà)輪數(shù)越少越好。本質(zhì)上,對(duì)話(huà)只是用戶(hù)獲取產(chǎn)品背后內(nèi)容的交互方式而已。
那對(duì)話(huà)智能產(chǎn)品如何體現(xiàn)獲取“內(nèi)容”或者“解決問(wèn)題的能力”呢?
回顧工業(yè)革命帶來(lái)的革命性變化,其特征之一就是取代了重復(fù)體力、重復(fù)腦力的工作,比如農(nóng)民、文員類(lèi)工作大量消失。
從這個(gè)角度來(lái)說(shuō),智能對(duì)話(huà)類(lèi)產(chǎn)品首先替代的就是典型意義的智能客服團(tuán)隊(duì)。假設(shè)智能客服跟前臺(tái)小姐姐的職能差不多。一般而言,前臺(tái)小姐姐的主要工作和專(zhuān)業(yè)技能并沒(méi)有關(guān)系。她們最重要的技能就是對(duì)話(huà),準(zhǔn)確點(diǎn)說(shuō)是用對(duì)話(huà)來(lái)了解用戶(hù)需求,把不合適的需求過(guò)濾掉,再把需求轉(zhuǎn)給專(zhuān)家去解決。
想象一下大量被外包的企業(yè)呼叫中心就知道客服的存在有多薄弱了。
不過(guò)對(duì)話(huà)式人工智能產(chǎn)品并非止步于取代智能客服,它需要更進(jìn)一步,代替或者輔助某個(gè)領(lǐng)域?qū)<摇?/span>
從這個(gè)角度出發(fā),對(duì)話(huà)智能類(lèi)產(chǎn)品最核心的價(jià)值,是進(jìn)一步代替用戶(hù)的重復(fù)思考。Work on the mind not the mouth。
事實(shí)上,一位合格的人工智能產(chǎn)品經(jīng)理應(yīng)該明確AI技術(shù)歸AI技術(shù),產(chǎn)品歸產(chǎn)品,應(yīng)該帶著做產(chǎn)品的目的來(lái)使用AI,而不是AIPM來(lái)實(shí)現(xiàn)AI。
為此AIPM應(yīng)該具備以下特質(zhì):1、懂商業(yè),理解價(jià)值;2、懂技術(shù),理解手中的工具(深度學(xué)習(xí)+GOFAI);3、懂人,心理和語(yǔ)言。
總的來(lái)說(shuō),目前對(duì)話(huà) AI 的技術(shù)還在第一階段(藍(lán)色旗幟位置),處于探索的早期,稱(chēng)不上高速發(fā)展。黑箱的情況,會(huì)使得這個(gè)周期(第一階段)可能比移動(dòng)時(shí)代更長(zhǎng)。就目前學(xué)術(shù)界、工業(yè)界的進(jìn)展來(lái)看,第二種技術(shù)還沒(méi)有看到影子。
由于深度學(xué)習(xí)在對(duì)話(huà)智能中只扮演了一部分角色,因此大家可探索和成長(zhǎng)的空間還非常大。但正因?yàn)槿绱?,在可預(yù)見(jiàn)的將來(lái),技術(shù)并非對(duì)話(huà)類(lèi)智能產(chǎn)品的壁壘,數(shù)據(jù)和設(shè)計(jì)才是。
值得一提的是,上述提及的數(shù)據(jù)不是指用來(lái)訓(xùn)練的數(shù)據(jù),而是供給端能完成服務(wù)的數(shù)據(jù);能夠照顧用戶(hù)整個(gè)生命周期的數(shù)據(jù);除用戶(hù)明文以外的數(shù)據(jù);影響用戶(hù)腦中的環(huán)境模型、影響對(duì)任務(wù)執(zhí)行相關(guān)的常識(shí)推理數(shù)據(jù)等。
隨著IOT的發(fā)展,終端設(shè)備廠商與用戶(hù)直接打交道,最有可能掌握這些數(shù)據(jù)。聯(lián)想到近期BAT以及小米、思必馳、曠視科技等企業(yè)不斷拋出的AIOT戰(zhàn)略,可以瞥見(jiàn)互聯(lián)網(wǎng)公司、創(chuàng)業(yè)公司嗅覺(jué)之靈敏。
過(guò)去幾年間,大大小小的公司紛紛押注智能音箱,以期搶占IOT時(shí)代的入口??涩F(xiàn)狀不如人意,用戶(hù)使用智能音箱最常見(jiàn)的功能還是天氣,也沒(méi)有對(duì)智能音箱產(chǎn)生依賴(lài)。
隨著5G、云計(jì)算等技術(shù)的發(fā)展,任意一個(gè)聯(lián)網(wǎng)設(shè)備都可能具備語(yǔ)音交互和傳遞服務(wù)的能力,削弱了超級(jí)終端存在的可能性。
倘若真如此,隨著更豐富入口終端設(shè)備的涌現(xiàn),可能移動(dòng)時(shí)代以流量為中心的商業(yè)模式將不復(fù)存在,新的商業(yè)模式將誕生。
聯(lián)系客服