導(dǎo)讀:人工智能(Artificial Intelligence,AI)、大數(shù)據(jù)(Big Data)和云計(jì)算(Cloud Computing)是當(dāng)前最受關(guān)注的技術(shù),業(yè)內(nèi)常常取這三個(gè)技術(shù)英文名的首字母將其合稱為ABC。 最近10年,資本和媒體對這三種技術(shù)的熱度按時(shí)間排序依次為:云計(jì)算、大數(shù)據(jù)和人工智能。事實(shí)上,若按照技術(shù)出現(xiàn)的時(shí)間排序,結(jié)果正好相反,人工智能出現(xiàn)最早,大數(shù)據(jù)其次,云計(jì)算則出現(xiàn)得最晚。 由于每種技術(shù)都能應(yīng)用于各個(gè)領(lǐng)域,因此人們可以從不同的角度分別解讀每種技術(shù)。作為同時(shí)在研發(fā)和使用這三種技術(shù)的機(jī)構(gòu)負(fù)責(zé)人,作者將嘗試從大數(shù)據(jù)的角度解釋ABC的關(guān)系,并且闡述這三種技術(shù)對于企業(yè)、機(jī)構(gòu)和人類社會的重要性。 作者:馮雷 姚延棟 高小明 楊瑜 如需轉(zhuǎn)載請聯(lián)系大數(shù)據(jù)(ID:hzdashuju) 人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它的主要研究目標(biāo)是用計(jì)算機(jī)程序來表示人類智能。這個(gè)詞最早是在1956年的達(dá)特茅斯會議上正式提出的。在達(dá)特茅斯會議正式提出“人工智能”這個(gè)概念之前,圖靈和早期的計(jì)算機(jī)科學(xué)家一般用“機(jī)器智能”這個(gè)詞。 需要強(qiáng)調(diào)的是,人工智能是建立在計(jì)算機(jī)之上。不管人工智能應(yīng)用多么美妙和復(fù)雜,在圖靈眼里都是圖靈機(jī)上的一個(gè)程序(或者叫作可計(jì)算數(shù),具體參考《從圖靈機(jī)、圖靈測試到人工智能:什么決定了AI能否取代人類?》)。 人工智能課程的主要目的是學(xué)習(xí)建立在模型之上的算法。這些算法和其他計(jì)算機(jī)領(lǐng)域的算法并無太大區(qū)別,只是這類算法專注在如圖1-3所示的智能主體(Intelligent Agent)里面的模型。在人工智能領(lǐng)域,計(jì)算機(jī)科學(xué)家們試圖建立模型使得智能主體能夠觀察周圍環(huán)境并做出行動,就像人類的行為那樣。
▲圖1-3 智能主體作為AI的主要研究對象
最近5年,由于智能主體模型在無人駕駛、聊天機(jī)器人和計(jì)算機(jī)視覺識別等應(yīng)用的準(zhǔn)確率的提升,人工智能的應(yīng)用熱度也隨之提升。AlphaGo等棋類對弈讓人工智能被公眾津津樂道,因?yàn)橛?jì)算資源和計(jì)算能力的提升,在限定時(shí)間內(nèi),對弈模型比人類棋手更具優(yōu)勢,這也引發(fā)了很多關(guān)于人工智能的討論。
01 AI的發(fā)展史
自遠(yuǎn)古時(shí)代,人類一直希望能夠創(chuàng)造一種類似于人類智能的機(jī)器,將人類從乏味的重復(fù)勞動中解放出來。
直到1936年,計(jì)算機(jī)科學(xué)的鼻祖圖靈發(fā)表了名為《論可計(jì)算數(shù)》的論文,機(jī)器模擬人類智能的哲學(xué)話題才轉(zhuǎn)變成一個(gè)可以像數(shù)學(xué)學(xué)科那樣被論證的課題。在論文中,圖靈構(gòu)造了假想的機(jī)器來模仿人類。電影《模仿游戲》講述的就是圖靈如何構(gòu)造假想的機(jī)器(計(jì)算機(jī))來模仿人類的故事。
在那個(gè)時(shí)代,人工智能的概念還沒有提出,人們更多地使用“機(jī)器智能”這個(gè)詞來討論計(jì)算機(jī)帶來的智能。簡單地說,圖靈的論文證明了機(jī)器可以模仿人類智能,所以今天的無人駕駛、聊天機(jī)器人、棋類對弈和計(jì)算機(jī)視覺識別等應(yīng)用都是圖靈預(yù)見的,雖然他那時(shí)并沒有足夠的硬件條件測試這些應(yīng)用。
在圖靈提出圖靈機(jī)后,多個(gè)機(jī)構(gòu)便開始設(shè)計(jì)真正意義上的遵循通用圖靈機(jī)模型架構(gòu)的存儲程序計(jì)算機(jī)(Stored-program Computer)。雖然第一臺存儲程序計(jì)算機(jī)(后文稱作現(xiàn)代計(jì)算機(jī))是誰先發(fā)明的至今仍有爭議,但是影響較大的是馮·諾依曼提出的EDVAC(Electronic Discrete Variable Automatic Computer)。馮·諾依曼在后來也確認(rèn)現(xiàn)代計(jì)算機(jī)的核心設(shè)計(jì)思想是受到通用圖靈機(jī)的啟發(fā)。
現(xiàn)代計(jì)算機(jī)發(fā)明以后,各種應(yīng)用如雨后春筍一樣蓬勃發(fā)展,但是真正把人工智能作為一個(gè)應(yīng)用方向提出來還是在1956年的達(dá)特茅斯會議。
在20世紀(jì)40年代末現(xiàn)代計(jì)算機(jī)被發(fā)明后,從20世紀(jì)50年代開始,各個(gè)領(lǐng)域都開始關(guān)于“思考機(jī)器”(Thinking Machines)的討論。各個(gè)領(lǐng)域的用詞和方法的不同帶來了很多混淆。于是,達(dá)特茅斯學(xué)院(Dartmouth College)年輕的助理教授麥卡錫(John McCarthy)決定召集一個(gè)會議澄清思考機(jī)器這個(gè)話題。
召集這樣的會議需要贊助,聰明的麥卡錫找到了他在IBM公司的朋友羅切斯特(Nathaniel Rochester)和在普林斯頓大學(xué)的朋友閔斯基(Marvin Minsky)以及大師香農(nóng)一起在1955年寫了一份項(xiàng)目倡議。在倡議中,他使用了人工智能(Artificial Intelligence)這個(gè)詞,避免和已經(jīng)有的“思考機(jī)器”一詞混淆。
這里值得一提的是閔斯基,麥卡錫和閔斯基后來在麻省理工學(xué)院領(lǐng)導(dǎo)了AI實(shí)驗(yàn)室,成就了麻省理工學(xué)院在人工智能領(lǐng)域首屈一指的地位。
會議在1956年舉行,這里必須提到另外兩位短期的參會者,來自卡內(nèi)基·梅隆大學(xué)的紐厄爾(Alan Newell)和司馬賀(Hubert Simon)。他們雖然只呆了一個(gè)禮拜,但是他們的報(bào)告中公布的一款程序“邏輯理論家”(Logic Theorist)代表了人工智能的另外一條路線。因?yàn)榧~厄爾和司馬賀的奠基工作,卡內(nèi)基·梅隆大學(xué)成為人工智能的另一個(gè)重鎮(zhèn)。
02 對AI應(yīng)用的正確預(yù)期
達(dá)特茅斯會議的意義在于確立了“人工智能”(AI)作為計(jì)算機(jī)科學(xué)的一個(gè)研究領(lǐng)域,自那以后,AI在機(jī)器視覺、自然語言處理、無人駕駛等領(lǐng)域取得了長足發(fā)展。但是,“人工智能”這個(gè)概念常常被過度消費(fèi)。過去,美國的學(xué)者用這個(gè)概念來申請政府研究經(jīng)費(fèi),今天有不少公司用這個(gè)概念來從資本市場募資。
但實(shí)際上,AI的進(jìn)展并不像很多人預(yù)言的那樣樂觀。
就棋類對弈而言,司馬賀在20世紀(jì)50年代末就預(yù)言計(jì)算機(jī)能打敗人類,但沒有實(shí)現(xiàn);20世紀(jì)60年代末,麥卡錫打賭說計(jì)算機(jī)將在10年內(nèi)打敗人類,結(jié)果他輸了;國際象棋程序深藍(lán)在“限定時(shí)間內(nèi)”勝出人類直到20世紀(jì)90年代末才實(shí)現(xiàn)。圍棋程序AlphaGo在“限定時(shí)間內(nèi)”勝出人類則是在2017年實(shí)現(xiàn)的。
閔斯基在20世紀(jì)80年代末預(yù)言,二十年內(nèi)可以解決自然語言處理問題,時(shí)至今日,各種AI應(yīng)用在自然語言處理方面尚有極大差距。
如今的“無人駕駛”在商用中實(shí)際上更多起到“輔助駕駛”的作用,因?yàn)樵趯?shí)際的使用中仍出現(xiàn)過意外情況,從保證行車安全的角度,尚不能實(shí)現(xiàn)真正的“無人駕駛”。
人工智能最近一次的持續(xù)升溫是被包括大數(shù)據(jù)和云計(jì)算在內(nèi)的軟硬件技術(shù)持續(xù)發(fā)展使得很多應(yīng)用得以落地而驅(qū)動的(我們將在下一節(jié)中討論ABC的關(guān)系)。從歷史經(jīng)驗(yàn)來看,也許是由于大眾媒體和科幻電影的影響,AI界有種過于樂觀的傾向。
但實(shí)際上,我們對于AI模型的精度應(yīng)該抱有十分謹(jǐn)慎的態(tài)度,因?yàn)槲覀儤?gòu)建的神經(jīng)網(wǎng)絡(luò)在內(nèi)的很多AI模型本質(zhì)上還是經(jīng)驗(yàn)?zāi)P停⒉皇且粋€(gè)嚴(yán)格的邏輯證明。這些模型的精度比起古典力學(xué)模型精度還差了很多。即使是古典力學(xué)模型,在微觀量子世界也是失效的,所以對于這些模型的使用范圍也要持謹(jǐn)慎態(tài)度。
當(dāng)然,我們也不能對建立在經(jīng)驗(yàn)?zāi)P蜕系腁I應(yīng)用持過度懷疑的態(tài)度,因?yàn)槲覀兊拇蟛糠种R來自經(jīng)驗(yàn),事實(shí)證明,這些知識也是實(shí)用的。所以,AI是一個(gè)在不斷前進(jìn)的領(lǐng)域。
人工智能另外一個(gè)層面的討論是機(jī)器能否超越人類?這個(gè)問題是令我們對于人工智能感到不安的原因。從計(jì)算機(jī)發(fā)明的第一天,圖靈和其他偉大的數(shù)學(xué)家們就已經(jīng)對這個(gè)話題進(jìn)行過深入的討論。
與大眾傳媒不同,數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家們對這個(gè)問題的討論是深層次的數(shù)學(xué)和邏輯層面的討論?!?a target="_blank">從圖靈機(jī)、圖靈測試到人工智能:什么決定了AI能否取代人類?》著重討論AI和人的關(guān)系,有決心探究這一問題的讀者可以參考這篇文章。
03 ABC之間的關(guān)系
前面已經(jīng)解釋了ABC的概念,這里我們來討論一下ABC之間的重要內(nèi)在關(guān)系以及這些內(nèi)在關(guān)系帶來的可以賦能于商業(yè)的巨大技術(shù)產(chǎn)能。從技術(shù)角度上看,ABC之間有以下兩層重要關(guān)系:
大量數(shù)據(jù)輸入到大數(shù)據(jù)系統(tǒng),從而改善大數(shù)據(jù)系統(tǒng)里建立的機(jī)器學(xué)習(xí)模型。
云計(jì)算提供的算力使得普通機(jī)構(gòu)也可以在今天用大數(shù)據(jù)系統(tǒng)計(jì)算大量數(shù)據(jù)從而獲得AI能力。
先看第一層關(guān)系。谷歌研究院的F. Pereira、P. Norvig和A. Halevy發(fā)表了一篇文章《數(shù)據(jù)的奇效》,解釋了如何通過大量數(shù)據(jù)提高機(jī)器學(xué)習(xí)模型的準(zhǔn)確率。早在谷歌之前,微軟研究院的Michele Banko和Eric Brill在他們的論文《擴(kuò)展到非常非常大文本來去除自然語言歧義》中,展示了使用海量數(shù)據(jù)后各個(gè)機(jī)器模型的準(zhǔn)確率都有大幅度提高,如圖1-6所示。
這一結(jié)論為機(jī)器學(xué)習(xí)和人工智能的問題求解指出了一個(gè)新方向:用大量數(shù)據(jù)和大數(shù)據(jù)計(jì)算來提高人工智能。對比一下自然語言翻譯在最近10年因?yàn)槔么髷?shù)據(jù)和計(jì)算所帶來的進(jìn)展,讀者就能感覺到這種力量。
▲圖1-6 用海量數(shù)據(jù)后各個(gè)機(jī)器模型的準(zhǔn)確率都有大幅度提高
再看第二層關(guān)系。云計(jì)算帶來的巨大好處就是提供商品化的計(jì)算資源,以前只有政府機(jī)構(gòu)和大型企業(yè)才能擁有的巨大計(jì)算資源,現(xiàn)在可以被一個(gè)創(chuàng)業(yè)公司所擁有。這個(gè)從量變到質(zhì)變的過程使得我們可以重新審視一些計(jì)算機(jī)行業(yè)的難題。
計(jì)算資源的豐富使得大數(shù)據(jù)技術(shù)能夠以更低的門檻被使用。云計(jì)算平民化了大數(shù)據(jù)技術(shù),使得大數(shù)據(jù)技術(shù)被企業(yè)廣泛采用,企業(yè)也利用大數(shù)據(jù)養(yǎng)成了保管數(shù)據(jù)的習(xí)慣,把數(shù)據(jù)當(dāng)作未被開采的資源。大數(shù)據(jù)的普及給人工智能的分支——機(jī)器學(xué)習(xí)帶來了意想不到的驚喜。
綜合前面討論的ABC的內(nèi)在含義,當(dāng)前的機(jī)器學(xué)習(xí)、人工智能可以朝著以下兩個(gè)方向前進(jìn):
設(shè)計(jì)新的機(jī)器學(xué)習(xí)模型,在前人的模型上有所創(chuàng)新,改進(jìn)模型效果。
使用已有的機(jī)器學(xué)習(xí)模型,但是利用前人所沒有的數(shù)據(jù)量和云計(jì)算帶來的計(jì)算能力來改進(jìn)模型效果。
谷歌公司的Norvig曾經(jīng)說過“我們沒有更好的算法,但是有更多的數(shù)據(jù)”。顯然,Norvig鼓勵(lì)按第二種方法進(jìn)行創(chuàng)新,當(dāng)然,這不意味著用第一種方法創(chuàng)新不重要。但需要指出的是,第一種方法的創(chuàng)新門檻要遠(yuǎn)高于第二種,除了世界頂級的機(jī)構(gòu),普通機(jī)構(gòu)很難擁有相應(yīng)的資金、人才及配套的管理和文化來支撐第一種創(chuàng)新方法。
第二種方法對于傳統(tǒng)的機(jī)構(gòu)也是可以重復(fù)和實(shí)踐的,按照已經(jīng)有的方法論、成功案例和人才培訓(xùn)可以實(shí)現(xiàn)基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的高階數(shù)字化轉(zhuǎn)型。
前面討論的ABC的關(guān)系可以總結(jié)成圖1-7。云計(jì)算從量變到質(zhì)變帶來前所未有和平民化的計(jì)算資源。企業(yè)和互聯(lián)網(wǎng)在數(shù)字化應(yīng)用方面產(chǎn)生了大量的數(shù)據(jù)。這些數(shù)據(jù)和計(jì)算能力使得大數(shù)據(jù)技術(shù)普及到普通機(jī)構(gòu),而這些機(jī)構(gòu)利用大數(shù)據(jù)來創(chuàng)建和改善現(xiàn)有的機(jī)器學(xué)習(xí)模型,帶來更好的人工智能成效。
▲圖1-7 ABC之間的關(guān)系
AI帶來的社會影響可能超過前三次技術(shù)革命。隨著科技和商業(yè)不斷推動AI技術(shù)前進(jìn),AI和人之間的關(guān)系是技術(shù)領(lǐng)袖、商業(yè)領(lǐng)袖和政策制定者們不得不思考的問題。
前面關(guān)于AI和人的關(guān)系的大部分討論都沒有系統(tǒng)化和邏輯化,因而不是一個(gè)學(xué)術(shù)討論,《從圖靈機(jī)、圖靈測試到人工智能:什么決定了AI能否取代人類?》則會在邱奇和圖靈的學(xué)術(shù)討論上回顧并延伸到AI和人的討論。這部分討論非常硬科學(xué)但是對于那些有興趣深入思考AI技術(shù)和人類關(guān)系的讀者或者希望跳出AI框架內(nèi)應(yīng)用創(chuàng)新而成為系統(tǒng)創(chuàng)新者的讀者,啃啃這根硬骨頭定有“會當(dāng)凌絕頂,一覽眾山小”的感覺。