在一個(gè)看起來“很像那種思維導(dǎo)讀圖”的軟件框里,將數(shù)據(jù)源、拆分、邏輯回歸以及驗(yàn)證幾個(gè)模塊拖拽并連成線——就是這樣簡(jiǎn)單的操作,一個(gè)人工智能的模型就搭建好了。第四范式的產(chǎn)品經(jīng)理周開拓一進(jìn)門就向我簡(jiǎn)單介紹了這個(gè)產(chǎn)品的便利性。
這些操作大體上能代表所有使用先知平臺(tái)人工智能的客戶的基礎(chǔ)操作流程。周開拓告訴我,稍微有一些定制復(fù)雜的客戶無非是多了一些模塊驗(yàn)證的環(huán)節(jié),在數(shù)據(jù)拆分里多做了一些基礎(chǔ)代碼的工作。
先知平臺(tái) 圖片來自:infoQ
數(shù)據(jù)拆分工作是根據(jù)你所拿到的數(shù)據(jù)、以及期望的目標(biāo)結(jié)果將數(shù)據(jù)源標(biāo)簽化,而通過流程中通用模塊背后的人工智能算法,就構(gòu)成了機(jī)器學(xué)習(xí)框架整個(gè)流程——針對(duì)不同數(shù)據(jù)源,你只需要編寫在數(shù)據(jù)拆分模塊中的基礎(chǔ)代碼。
先知平臺(tái)是基于人工智能的生產(chǎn)力工具?!?比如炒菜這個(gè)事來看,數(shù)據(jù)源(信息特征)是西紅柿、雞蛋以及鹽醋等,通過告訴它正確結(jié)果番茄炒蛋,它就可以在我們已經(jīng)制定好的多步驟通用算法(包括加油、炒、煎、放鹽)中理解出一套邏輯,從而我們的平臺(tái)就能簡(jiǎn)單的代替廚師做出這道菜。 ”第四范式 CEO 戴文淵把這個(gè)問題講得更通俗易懂——第四范式先知平臺(tái)其實(shí)就是一個(gè)工具。
這就是在提供人工智能機(jī)器學(xué)習(xí)的多種通用工具組件——第四范式給客戶提供各種機(jī)器學(xué)習(xí)的模塊,這些模塊可以打造出實(shí)現(xiàn)用戶需求的“鍋”,也可以通過簡(jiǎn)單的培訓(xùn)用戶可以根據(jù)自己的業(yè)務(wù)知識(shí)搭建出新的機(jī)器學(xué)習(xí)模型。
他向我強(qiáng)調(diào)——即使是基礎(chǔ)的業(yè)務(wù)人員,在沒有任何計(jì)算機(jī)代碼基礎(chǔ)的情況下,他們也能在一個(gè)月左右的培訓(xùn)時(shí)間將人工智能先知平臺(tái)部署在其業(yè)務(wù)流程上。
而在面向客戶的簡(jiǎn)單邏輯下正是第四范式所提供的復(fù)雜邏輯平臺(tái)——先知。第四范式提供了一個(gè)基于機(jī)器學(xué)習(xí)的 AI 模型平臺(tái),第四范式 CEO 戴文淵介紹公司在模型中提供了一系列的基礎(chǔ)算法,形成了大規(guī)模分布式機(jī)器學(xué)習(xí)框架(GeneralDistributed Brain Technology,GDBT)。根據(jù)官方說法,GDBT 是一個(gè)由 C 編寫的,完全分布式的適合于機(jī)器學(xué)習(xí)計(jì)算場(chǎng)景的計(jì)算框架,可以運(yùn)行在單機(jī)、MPI、Yarn、Mesos 等多個(gè)分布式環(huán)境。
比如直播事件樣本特征分為用戶、內(nèi)容以及上下文特征
信息流推薦服務(wù)又是一個(gè)很典型的例子。周開拓認(rèn)為,推薦系統(tǒng)不論用什么方法 , 其本質(zhì)都是基于用戶的時(shí)間、空間、設(shè)備的狀態(tài)給其推薦,他更可能會(huì)有點(diǎn)擊、收聽、互動(dòng)、購(gòu)買 …. 任何業(yè)務(wù)關(guān)注的行為,而信息流推薦服務(wù)的目標(biāo)簡(jiǎn)單來說就是點(diǎn)擊率。
所以訓(xùn)練一個(gè)信息推薦模型 ,需 要收集用戶的特征信息、內(nèi)容特征信息、上下文特征;通過收集樣本結(jié)果(是否點(diǎn)擊)讓機(jī)器學(xué)習(xí)產(chǎn)生一定的聯(lián)系,這就制作出了一個(gè)推薦模型—— 比如用戶在使用什么品牌手機(jī)、每天哪個(gè)時(shí)間段、關(guān)注哪些關(guān)鍵字、有哪些購(gòu)買行為等特征的情況下點(diǎn)擊了哪條擁有哪些特征信息的新聞 。當(dāng)給定了新的信息特征,模型計(jì)算出所有候選信息的點(diǎn)擊率,把預(yù)測(cè)點(diǎn)擊率最高的信息推薦上去,這就是信息流推薦服務(wù)的機(jī)器學(xué)習(xí)模式。
提升點(diǎn)擊率就是優(yōu)化用戶停留時(shí)間
而具體到行業(yè)應(yīng)用里我們可以這樣理解——每個(gè)行業(yè)需要端對(duì)端的解決問題,而所有的業(yè)務(wù)邏輯都會(huì)是將業(yè)務(wù)領(lǐng)域?qū)I(yè)知識(shí)結(jié)合數(shù)據(jù)算法專業(yè)知識(shí)轉(zhuǎn)化為結(jié)果。映射到人工智能服務(wù)上,就是將人類的業(yè)務(wù)知識(shí)水平結(jié)合到算法科學(xué)家的模型中,而通常情況是算法科學(xué)家去學(xué)習(xí)業(yè)務(wù)知識(shí)然后開發(fā)模型,而不是制造一個(gè)通用人工智能平臺(tái)幫助業(yè)務(wù)人員實(shí)現(xiàn)智能化。
戴文淵提到,這種端到端的模型能力可以理解為就是各行各業(yè)的數(shù)據(jù)輸入,而最后得到就是我們想要的服務(wù)——無論行業(yè)是否具備差異化,這是通用邏輯。而大公司提供的人工智能開放平臺(tái)都是為了做大做強(qiáng),不具備小型的應(yīng)用環(huán)境。
談到大公司提供的通用人工智能平臺(tái),像 TensorFlow 這種人工智能平臺(tái),更多的目的都是為了優(yōu)化公司自己產(chǎn)品所遇到的各種問題,而一些小公司學(xué)習(xí)使用一個(gè)深度學(xué)習(xí)框架需要很大的成本,而單獨(dú)開發(fā)一套模型又耗費(fèi)人力、財(cái)力、精力。“在 BAT 難做是因?yàn)殄佉彩亲约鹤龅?,煤氣爐也是自己做的,管道也是自己做的,甚至連雞都是自己養(yǎng)的,我們今天做的事情就是連鍋?zhàn)龊茫B煤氣管道給大家接好,用戶只知道自己怎么炒菜就好了?!贝魑臏Y作了這樣的比喻。
“比如說大家都知道 iPhone 相機(jī)很好用,一按就好,但專業(yè)的研究在于其背后圖形算法的調(diào)校,普通人員并不知道如何去調(diào)教,他只知道如何使用 iPhone 拍出好照片就好了?!贝魑臏Y將先知平臺(tái)的工作定義成背后的調(diào)校,是工具屬性。
目前先知平臺(tái)提供了兩種服務(wù)模式——一種是對(duì)客戶開放其先知平臺(tái),對(duì)業(yè)務(wù)客戶進(jìn)行一兩個(gè)月時(shí)間的基礎(chǔ)培訓(xùn),客戶可以制作出適合自己業(yè)務(wù)流程的算法模型;另外一種是針對(duì)大客戶進(jìn)行定制,在第一種模式的基礎(chǔ)上對(duì)算法進(jìn)行更專業(yè)的調(diào)校。
從一家講“大數(shù)據(jù)價(jià)值挖掘”的公司到一家“人工智能”公司,這經(jīng)歷了兩年的發(fā)展。“先知平臺(tái)基本上是一步一步迭代而來,之前我們和客戶講大數(shù)據(jù)還要解釋什么是大數(shù)據(jù)價(jià)值,現(xiàn)在人工智能來了大家反而更理解我們公司?!?/p>
在這兩年多時(shí)間,第四范式已經(jīng)公開披露公司相繼拿到紅杉資本和創(chuàng)新工場(chǎng)數(shù)千萬元人民幣的天使輪和 A 輪融資。創(chuàng)新工場(chǎng)李開復(fù)堅(jiān)信人工智能的時(shí)代已經(jīng)到來,密密麻麻布局了包括第四范式的幾十家人工智能公司,而紅杉資本沈南鵬則將“AI 信息”比作今日頭條,而第四范式是“AI 風(fēng)控”。
第四范式可能并不愿意將自己局限在金融范圍內(nèi),但金融業(yè)的客戶非常具有代表性,先知平臺(tái)可以為銀行等金融機(jī)構(gòu)提供反欺詐、風(fēng)險(xiǎn)定價(jià)以及精準(zhǔn)營(yíng)銷服務(wù)。除去招商銀行外,戴文淵透露已經(jīng)有越來越多的知名銀行客戶在使用/接觸先知平臺(tái)?!八麄冇梦覀兊钠脚_(tái)對(duì)客戶理財(cái)項(xiàng)目進(jìn)行更精準(zhǔn)的推薦,也會(huì)預(yù)測(cè)客戶在貸款方面能否及時(shí)還貸?!?/p>
戴文淵告訴我, 得到以及羅輯思維等金牌內(nèi)容產(chǎn)品也都是第四范式的客戶 ,第四范式幫助他們對(duì)其客戶進(jìn)行更精準(zhǔn)的個(gè)性化推薦。這大體上代表了第四范式先知平臺(tái)的項(xiàng)目畫像——那些在媒體推薦、用戶營(yíng)銷以及電商推薦等場(chǎng)景的項(xiàng)目,都可以使用先知平臺(tái)。
不過,對(duì)于需要數(shù)據(jù)驅(qū)動(dòng)的人工智能平臺(tái)而言,第四范式也會(huì)遇到很多問題。比如說一些敏感行業(yè)客戶不可能將一些機(jī)密數(shù)據(jù)放到這個(gè)模型中;一些客戶本身的數(shù)據(jù)可能存在問題并不愿意將其公布給第三方等等——這些都是第四范式在實(shí)際應(yīng)用中遇到的阻力。
很多人知道第四范式或許是因?yàn)槠鋭?chuàng)始人戴文淵。 戴文淵是前百度鳳巢的架構(gòu)師 ,百度鳳巢是一個(gè)基于人工智能的廣告銷售系統(tǒng),簡(jiǎn)單來說百度鳳巢系統(tǒng)大幅提升了廣告點(diǎn)擊率并使之形成變現(xiàn)能力。此外,戴文淵進(jìn)入百度內(nèi)部就是 T10 級(jí)別的科學(xué)家,然后他從百度離開后進(jìn)入了華為,從華為出來后便創(chuàng)立這家第四范式公司。
而這家公司的聯(lián)合創(chuàng)始人是陳雨強(qiáng)。根據(jù)公開資料,陳雨強(qiáng)是深度學(xué)習(xí)、遷移學(xué)習(xí)方面的專家。“除去百度鳳巢系統(tǒng),陳雨強(qiáng)也架構(gòu)了今日頭條的人工智能推薦系統(tǒng)?!笔袌?chǎng)部的一位員工告訴我。
這家公司的首席科學(xué)家楊強(qiáng)才是光環(huán)的集大成者——楊強(qiáng)教授在人工智能研究領(lǐng)域深耕三十年,是國(guó)際公認(rèn)的人工智能全球頂級(jí)學(xué)者,ACM 杰出科學(xué)家,兩屆 KDD Cup 冠軍。根據(jù)機(jī)器之心的資料,楊強(qiáng)教授在數(shù)據(jù)挖掘、人工智能、終身機(jī)器學(xué)習(xí)和智能規(guī)劃等研究領(lǐng)域都有卓越的貢獻(xiàn),是遷移學(xué)習(xí)領(lǐng)域的奠基人和開拓者。
遷移學(xué)習(xí)也是近期人工智能的一個(gè)熱點(diǎn),如何將小樣本的數(shù)據(jù)結(jié)合到機(jī)器學(xué)習(xí)中去正變成一個(gè)新課題。
比如在工業(yè)以及醫(yī)學(xué)領(lǐng)域是不會(huì)出現(xiàn)大數(shù)據(jù)的,樣本珍貴卻數(shù)量越少?!拔遗e個(gè)例子,比如說一種癌癥的圖像分析能不能用到另外的癌癥圖像分析上去?既然你不能獲得用于深度學(xué)習(xí)的大數(shù)據(jù),遷移學(xué)習(xí)也是一個(gè)方向?!贝魑臏Y提到。
第四范式的目標(biāo)是讓所有人都能控制 AI,先知平臺(tái)就是在這樣愿景下的一個(gè)產(chǎn)品。不過雖然大公司目前都在推 AI 的通用平臺(tái),戴文淵認(rèn)為,“我不覺得我們應(yīng)該強(qiáng)調(diào)大公司在 AI 方面是轉(zhuǎn)型,更多的可能是恐慌。就像幾年以前,絕大部分公司都在轉(zhuǎn)型移動(dòng)互聯(lián)網(wǎng),但其實(shí)最后都沒有想清楚移動(dòng)互聯(lián)網(wǎng)時(shí)代應(yīng)該怎么玩,現(xiàn)在的 AI 情況可能也是這樣。”
聯(lián)系客服