很多時候,落后與先知的差距,不是購買一些機器或者引進(jìn)一些技術(shù)就能彌補的,落后的最可怕之處在于思維方式的落后。
AI(Artificial Intelligence,人工智能),從某種意義上來說,代表著一種因數(shù)據(jù)驅(qū)動的新思維方式——用不確定性看待世界,再用信息消除不確定性,將智能型的問題轉(zhuǎn)化為信息處理的問題。思維方式的改變意味著,現(xiàn)有的產(chǎn)業(yè)采用了新技術(shù)后,將會全面升級,成為全新產(chǎn)業(yè),帶來無限機會。這正是AI創(chuàng)業(yè)公司的先行者——第四范式所堅定的未來,AI是思維方式、是生產(chǎn)工具、是方法論,AI終將For Everyone。
他們選擇了AI 或是AI選擇了他們
“在最好的時光做最重要的事情?!痹诖蠖鄶?shù)人還在面對努力和選擇的兩難時,對自己有著肯定把握的人早就在變與不變之中,規(guī)劃好了一切。
左:第四范式CEO 戴文淵
右:第四范式首席科學(xué)家 楊強
第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強就是這樣的少數(shù)派,他在上海交通大學(xué)讀本科的時候就選擇了跟隨大神——當(dāng)時的師兄、ACM國際大學(xué)生程序設(shè)計競賽世界冠軍戴文淵鉆研理論,在香港科技大學(xué)求學(xué)期間,師從被授予國際人工智能學(xué)會FELLOW的楊強教授,深入當(dāng)時堪稱冷門的“遷移學(xué)習(xí)”;也因為對“最重要的事情”的堅持,在畢業(yè)之后,他沒有去Facebook,而是選擇了百度,在百度他才能以剛畢業(yè)的學(xué)生身份參與到核心的技術(shù)工作中,在核心領(lǐng)域接觸最尖端的研究;更因為對技術(shù)的初心,“人工智能這種技術(shù)能產(chǎn)生的價值不只是在互聯(lián)網(wǎng)、不只是少數(shù)的公司”,他選擇了AI領(lǐng)域的創(chuàng)業(yè),與師兄也是第四范式的CEO戴文淵等共同為人工智能在工業(yè)界的應(yīng)用和普及“播種”。
選擇正確的背后并非是一切都順利,這其中發(fā)生過很多故事。陳雨強2012年進(jìn)入百度的搜索廣告部門,團隊的技術(shù)負(fù)責(zé)人正是戴文淵,百度也是戴文淵、陳雨強畢業(yè)后的第一份工作,他們團隊負(fù)責(zé)的產(chǎn)品正是后來鼎鼎有名的鳳巢系統(tǒng)。
第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強
百度搜索廣告系統(tǒng)“鳳巢”一直承擔(dān)著給百度商業(yè)變現(xiàn)的重要角色,通過使用機器學(xué)習(xí)技術(shù),從2009年上線起就開始不斷快速提升。然而,到了2012年,傳統(tǒng)技術(shù)紅利慢慢消退,鳳巢的機器學(xué)習(xí)方向一度面對增長乏力的問題。在這個時候,戴文淵單獨安排了幾個先鋒隊員開始新的技術(shù)方向的探索,陳雨強就是其中之一,開始深度學(xué)習(xí)在搜索廣告這個問題上應(yīng)用的研究。
“這個階段面對的是解決一個公司的一個問題,即‘如何提升搜索廣告的點擊率’這個問題。當(dāng)時我做的事情比較偏純技術(shù),就是怎么讓深度學(xué)習(xí)應(yīng)用到大規(guī)模的機器學(xué)習(xí)中。有上千億個特征,怎樣設(shè)計一個模型應(yīng)用深度學(xué)習(xí)。我們當(dāng)時上線了世界上第一個使用深度學(xué)習(xí)的商用系統(tǒng)。”
在全球工業(yè)界,尚沒有深度學(xué)習(xí)在大規(guī)模商業(yè)基礎(chǔ)上的應(yīng)用,百度提前做到了,在取得了突破性進(jìn)展后,整個鳳巢系統(tǒng)的團隊都開始了向深度學(xué)習(xí)的轉(zhuǎn)向,最終使得百度變現(xiàn)能力提升8倍,而這件事情還發(fā)生在深度學(xué)習(xí)在方方面面上改變整個世界之前,早于谷歌一年在搜索管應(yīng)用了這個技術(shù),不僅有效的提高了廣告的相關(guān)性與點擊率,更是在商業(yè)中取得了成功。
當(dāng)戴文淵離開百度到華為,任華為諾亞方舟實驗室主任科學(xué)家,而陳雨強仍在繼續(xù)努力提升廣告點擊率,帶領(lǐng)著自己的團隊,改善用戶體驗,直到有一天,今日頭條進(jìn)入了他的視野。
“從百度離職之后我去了今日頭條。在頭條時面對的產(chǎn)品線更多了,除了主信息流推薦以外,小頻道推薦、視頻推薦,包括信息流廣告、評論排序等等,有非常非常多的應(yīng)用方向。所以在今日頭條,我面對的是一個公司內(nèi)很多很多的業(yè)務(wù)與問題?!睆囊粋€問題——廣告的點擊率到多個問題,陳雨強發(fā)現(xiàn)人工智能在工業(yè)應(yīng)用上的優(yōu)化與研究更加深入了。
“對當(dāng)時的頭條來說,時效性是非常重要的。除了在技術(shù)上設(shè)計一個追求極致的時效性以及極致的性能與規(guī)模的機器學(xué)習(xí)系統(tǒng)之外,我還做了一件很重要的事情,是設(shè)計了很多機制,讓這些人工智能技術(shù)能用在頭條的各個產(chǎn)品線之中。”陳雨強舉了個例子,人工智能或者機器學(xué)習(xí)的算法其實是一個發(fā)動機引擎,機制是傳動的齒輪,怎樣把引擎的動力以最有效的方式傳動到各個部件,這是機制所做的事情。所以除了需要關(guān)心技術(shù)之外,還要關(guān)心產(chǎn)品與機制創(chuàng)新。
“第四范式”是什么呢?
從今日頭條離開后進(jìn)入創(chuàng)業(yè)模式,陳雨強面對的不再是一個領(lǐng)域的多個問題,而是更多的業(yè)務(wù)、更多的行業(yè)、更多的問題——金融、電信、互聯(lián)網(wǎng)等各行各業(yè)、包含營銷、獲客、風(fēng)控、推薦、排序等各種各樣的問題。
至此,AI的工業(yè)化之路越來越酷了。從大公司到創(chuàng)業(yè),最大的決定因素在于戴文淵、陳雨強他們都堅信認(rèn)為自己的專業(yè)——機器學(xué)習(xí),是人工智能領(lǐng)域中一個需要更加長期、持續(xù)投入的細(xì)分領(lǐng)域?!拔耶?dāng)時出來創(chuàng)業(yè)最大的一點決心,是找到了一個不能不去做的事情?!标愑陱娬f。
在人工智能、機器學(xué)習(xí)領(lǐng)域成為風(fēng)口之前,在風(fēng)未起時就進(jìn)入,現(xiàn)在看來是一個非常對的選擇。2014年,這對于人工智能領(lǐng)域來說,是變化來臨之年,谷歌宣布收購了DeepMind,曾有意收購DeepmMind的Facebook也緊隨谷歌、百度,搭建起人工智能實驗室。
戴文淵迅速組織起團隊,由一群技術(shù)理想主義者著手打造“第四范式”。對于陳雨強來說,工作雖曾有變化,但挖掘深度學(xué)習(xí)在工業(yè)界中的應(yīng)用潛力,做深做大“做最重要的事”,這樣的方向從來沒有改變過。
不少人,在聽說“第四范式”時都難免好奇,為什么是第四范式,而不是第三或者第五呢?一家公司的名字,就像一個家庭的孩子一樣,起名往往都能透露出愿景和期待。
“第四范式”,得名于圖靈獎得主、關(guān)系數(shù)據(jù)庫的鼻祖Jim Gray生前的最后一次演講。他將人類科學(xué)的發(fā)展定義成為四個范式:第一范式,以記錄和描述自然現(xiàn)象為主的實驗科學(xué),比如鉆木取火;第二范式,利用模型歸納總結(jié)過去記錄的現(xiàn)象,比如牛頓三定律和麥克斯韋方程等為代表的理論科學(xué);第三范式,科學(xué)計算機的出現(xiàn),誕生了模擬復(fù)雜現(xiàn)象的計算科學(xué);第四范式則是,通過收集大量的數(shù)據(jù),讓計算機去總結(jié)規(guī)律的數(shù)據(jù)密集型科學(xué)。
創(chuàng)業(yè)初期,其實除了少數(shù)大的互聯(lián)網(wǎng)企業(yè)和學(xué)院派人士,很少有人了解機器學(xué)習(xí)或者人工智能為企業(yè)服務(wù)之類,但是大家都對“大數(shù)據(jù)”略知一二。“人工智能=大數(shù)據(jù) 機器學(xué)習(xí),如果說大數(shù)據(jù)是原材料、是米;機器學(xué)習(xí)是工具、是電飯煲;那么人工智能就是白米飯?!标愑陱娚钪獢?shù)據(jù)和人工智能的關(guān)系,大數(shù)據(jù)挖掘的需求加速了機器智能的技術(shù)成熟,第四范式最初都是和客戶介紹如何進(jìn)行數(shù)據(jù)挖掘、如何通過技術(shù)精準(zhǔn)匹配。
2015年初,第四范式獲得了來自某全國性股份制商業(yè)銀行的第一筆訂單,一個信用卡交易分期項目。利用數(shù)千萬的信用卡交易分期營銷數(shù)據(jù),他們用AI更精準(zhǔn)確定哪些客戶有更大幾率去做分期付款,最終幫助客戶提升了60%。現(xiàn)在,客戶已經(jīng)把多個業(yè)務(wù)都通過AI技術(shù)來升級。
可以說,大數(shù)據(jù)與機器智能相伴而生,這是一個計算無處不在,軟件定義一切、數(shù)據(jù)驅(qū)動發(fā)展的新時代。但是,直到AlphaGo打敗李世石這個科技界的“黑天鵝”事件出現(xiàn)以后,人工智能成為了街頭巷尾議論的話題,第四范式才真正被“理解”。這時,在人工智能領(lǐng)域有近十年研究經(jīng)驗的陳雨強對AI的成功也有了更深的理解。
如果一個AI 要成功的話總結(jié)起來三點,要關(guān)注技術(shù)、要關(guān)注業(yè)務(wù)、要關(guān)注人。一方面是技術(shù),計算資源和大數(shù)據(jù)方面的支持;一方面是業(yè)務(wù),邊界要清晰,業(yè)務(wù)有反饋;另一方面是人,包括科學(xué)家,包括應(yīng)用到場景需要和人打交道。
機器學(xué)習(xí)、強化學(xué)習(xí)與遷移學(xué)習(xí)
與其他人工智能相關(guān)的創(chuàng)業(yè)公司相比,第四范式似乎光環(huán)更多,有楊強教授為之指導(dǎo),有紅杉資本的沈南鵬和創(chuàng)新工場的李開復(fù)為其投資,還有一群來自百度、華為、今日頭條等巨頭公司的頂尖技術(shù)人才。
第四范式首席科學(xué)家楊強教授曾說,深度學(xué)習(xí)是過去,強化學(xué)習(xí)是現(xiàn)在,而遷移學(xué)習(xí)是未來。楊強教授本人也致力于RTL(Reinforcement Transfer Learning)的研究,這是一個將深度學(xué)習(xí)、強化學(xué)習(xí)和遷移學(xué)習(xí)有機結(jié)合的機器學(xué)習(xí)體系。從某種意義上來說,楊強教授是第四范式的精神領(lǐng)袖,2000年著手研究機器學(xué)習(xí),5年后就開始深入遷移學(xué)習(xí)領(lǐng)域的他,在這一領(lǐng)域的貢獻(xiàn)已成為華人榜樣——在遷移學(xué)習(xí)領(lǐng)域,單篇論文引用數(shù)排名世界第一。而戴文淵,憑借9年前師從楊強教授,發(fā)表的論文Boosting for Transfer Learning單篇論文引用排名世界第三。
談到深度學(xué)習(xí),大多數(shù)人并不算陌生。要解釋深度學(xué)習(xí)之前,我們需要了解什么是機器學(xué)習(xí)。機器學(xué)習(xí)是人工智能的一個分支,而在很多時候,幾乎成為人工智能的代名詞。簡單來說,機器學(xué)習(xí)就是通過算法,使得機器能從大量歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而對新的樣本做智能識別或?qū)ξ磥碜鲱A(yù)測。
2006年,加拿大多倫多大學(xué)教授、機器學(xué)習(xí)領(lǐng)域泰斗——Geoffrey Hinton和他的學(xué)生Ruslan Salakhutdinov在頂尖學(xué)術(shù)刊物《科學(xué)》上發(fā)表了一篇文章,開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮。這篇文章有兩個主要的信息:
1. 很多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;
2. 深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層初始化”(Layer-wisePre-training)來有效克服,在這篇文章中,逐層初始化是通過無監(jiān)督學(xué)習(xí)實現(xiàn)的。
為此,谷歌、百度、微軟等知名的擁有大數(shù)據(jù)的高科技公司爭相投入資源,占領(lǐng)深度學(xué)習(xí)的技術(shù)制高點,正是因為它們都看到了在大數(shù)據(jù)時代,更加復(fù)雜且更加強大的深度模型能深刻揭示海量數(shù)據(jù)里所承載的復(fù)雜而豐富的信息,并對未來或未知事件做更精準(zhǔn)的預(yù)測。
但是深度學(xué)習(xí)并不是完美模型,深度學(xué)習(xí)的局限來自于幾個方面:
1.表達(dá)能力的限制。因為一個模型畢竟是一種現(xiàn)實的反映,等于是現(xiàn)實的鏡像,它能夠描述現(xiàn)實的能力越強就越準(zhǔn)確,而機器學(xué)習(xí)都是用變量來描述世界的,它的變量數(shù)是有限的,深度學(xué)習(xí)的深度也是有限的。另外它對數(shù)據(jù)的需求量隨著模型的增大而增大,但現(xiàn)實中有那么多高質(zhì)量數(shù)據(jù)的情況還不多。所以一方面是數(shù)據(jù)量,一方面是數(shù)據(jù)里面的變量、數(shù)據(jù)的復(fù)雜度,深度學(xué)習(xí)來描述數(shù)據(jù)的復(fù)雜度還不夠復(fù)雜。
2. 缺乏反饋機制。目前深度學(xué)習(xí)對圖像識別、語音識別等問題來說是最好的,但是對其他的問題并不是最好的,特別是有延遲反饋的問題,例如機器人的行動,AlphaGo下圍棋也不是深度學(xué)習(xí)包下所有的,它還有強化學(xué)習(xí)的一部分,反饋是直到最后那一步才知道你的輸贏。還有很多其他的學(xué)習(xí)任務(wù)都不一定是深度學(xué)習(xí)才能來完成的。
強化學(xué)習(xí)為什么是現(xiàn)在,AlphaGo下圍棋背后的DeepMind 方法其實就是深度學(xué)習(xí)和強化學(xué)習(xí)混合體,被稱為“深度強化學(xué)習(xí)(deep reinforcement learning)”。簡單來說,在這之中,深度學(xué)習(xí)是主體,強化學(xué)習(xí)解決了延時反饋的問題。
強化學(xué)習(xí)的應(yīng)用其實很廣,下棋就是一個重要的場景,另外,在機器人的路徑規(guī)劃和任務(wù)完成上也應(yīng)用了強化學(xué)習(xí)。除了這些之外,強化學(xué)習(xí)的應(yīng)用面特別廣,可以用在很多反饋上,但這個反饋并不一定是馬上可以得到的,比如醫(yī)療領(lǐng)域,對藥品和醫(yī)療方案的反饋,就是一個很好的例子。
遷移學(xué)習(xí)為什么是未來?遷移學(xué)習(xí)主要是解決模型在適應(yīng)其他領(lǐng)域或需求時的“冷啟動”(新領(lǐng)域的經(jīng)驗或數(shù)據(jù)不足)問題,即“舉一反三”。
舉個例子來看:陳雨強表示,遷移學(xué)習(xí)的意義就像是人類語言學(xué)習(xí)中,如果讓一個零基礎(chǔ)的人學(xué)習(xí)法語自然很難,但如果讓一個學(xué)過英語的人再去學(xué)法語就會相對容易很多。它可以利用一個環(huán)境中學(xué)到的知識,來幫助新環(huán)境中的學(xué)習(xí)任務(wù)。簡單來說,遷移學(xué)習(xí)主要解決了目前機器學(xué)習(xí)中存在的兩個問題:小數(shù)據(jù)的問題和個性化的問題。
科學(xué)技術(shù)的先知降臨
猶太教的先知是摩西,基督教的先知是耶穌,伊斯蘭教的先知是穆罕默德。對于技術(shù)信仰者第四范式來說,先知是AI終將For Everyone,先知更是他們的產(chǎn)品——人工智能應(yīng)用者開發(fā)平臺。陳雨強看來,“先知提供的是更通用的平臺和技術(shù),是人工智能領(lǐng)域的iOS。”
2016年7月,第四范式發(fā)布了這款“先知”平臺,也是AI領(lǐng)域首個面向應(yīng)用者的開發(fā)平臺。用陳雨強的話說,就是一個完全不懂技術(shù)的小白,大概經(jīng)歷2周的時間,就可以成為一個AI專家。為此,第四范式利用“先知”平臺在公司內(nèi)部做了一個叫做“一顆賽艇”的非專業(yè)選手人工智能建模大賽。這場比賽拒絕公司內(nèi)人工智能方向科班人士參加,讓普通人利用“先知”能做出什么可靠模型呢?
結(jié)果大出所料,在沒有經(jīng)過任何專業(yè)培訓(xùn)的情況下,在由銷售、市場、公關(guān)、等非人工智能專業(yè)人士組成的隊伍中,有超過70%的參賽隊伍AUC成績(AUC是衡量模型效果的專業(yè)指標(biāo),取值在0到1之間)跨過0.8大關(guān)。在實際業(yè)務(wù)中,一般AUC高于0.8的模型就已經(jīng)達(dá)到工業(yè)水準(zhǔn);而過去,在整個行業(yè)中,只有極少數(shù)深耕機器學(xué)習(xí)多年、擁有豐富大規(guī)模數(shù)據(jù)處理經(jīng)驗的專家們才能搭建出AUC0.8以上的模型?!暗戎@個平臺,在我們心中還不完美,還有很長的路要走?!边€有30%的人經(jīng)過培訓(xùn)沒有做到專業(yè)水平,這對技術(shù)牛們來說還難以接受。
“先知已經(jīng)供不應(yīng)求了,”陳雨強說,過去一段時間,第四范式把較多精力都放在了人工智能的算法研究上,“先知”出場后,雖然需要優(yōu)化,但更重要的是將數(shù)據(jù)如何與平臺實現(xiàn)無縫對接。
從行業(yè)應(yīng)用來說,互聯(lián)網(wǎng)的接受程度比較高其次則是金融等行業(yè),第四范式的愿景是努力通過降門檻、降成本,讓每個人都能用的起AI,讓每個公司都可以實現(xiàn)自己的AI策略。“AI過去是只能服務(wù)一家,現(xiàn)在可以服務(wù)幾百家,以后可以服務(wù)每一家”。這是戴文淵、陳雨強以及楊強教授一致的信仰——讓每個人用上人工智能,AI是真的可以for everyone的。
來源:機器人圈