當(dāng)?shù)貢r(shí)間 6 月 23 日,今年的 ACM 圖靈獎(jiǎng)得主、“深度學(xué)習(xí)三巨頭”中的 Geoffrey Hinton、Yann LeCun 在 ACM FCRC 2019上發(fā)表演講,分享了他們對(duì)于深度學(xué)習(xí)的最新觀點(diǎn)。
Geoffrey Hinton 演講題目為《深度學(xué)習(xí)革命》。他表示,截至目前,人工智能有兩種典型例證。第一種是 1950 年代基于邏輯啟發(fā)的智能,在那時(shí),智能的本質(zhì)是使用符號(hào)規(guī)則來(lái)做出符號(hào)表達(dá)。這種方法注重的是推理,主要側(cè)重于解決如何讓計(jì)算機(jī)像人類一樣能根據(jù)推理做出反應(yīng)。第二種是基于生物啟發(fā)的人工智能。它所代表的智能的本質(zhì)是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中的聯(lián)系優(yōu)勢(shì)。這種方法注重的是學(xué)習(xí)和感知。
(來(lái)源:Geoffrey Hinton)
由此看來(lái),人工智能的這兩個(gè)范例有很大的不同,而且,它們?cè)趦?nèi)部表征(internal representations)方面的觀點(diǎn)也不相同。
(來(lái)源:Geoffrey Hinton)
基于邏輯的人工智能,其內(nèi)部表征是符號(hào)表達(dá)。程序員可以用明確的語(yǔ)言把這些符號(hào)輸入計(jì)算機(jī);計(jì)算機(jī)通過(guò)應(yīng)用規(guī)則使現(xiàn)有的符號(hào)產(chǎn)生新的表示。而基于生物的人工智能,它的內(nèi)部表征與語(yǔ)言沒(méi)有任何關(guān)系。它們就像是神經(jīng)活動(dòng)一樣,充滿了大量向量,這些向量是直接從數(shù)據(jù)中學(xué)習(xí)得到的,而且對(duì)神經(jīng)活動(dòng)有著直接的因果影響。
這就分別產(chǎn)生了兩種計(jì)算機(jī)執(zhí)行任務(wù)的方式。
第一種是編程(programming),Hinton 也將它稱為智能設(shè)計(jì)(intelligent design)。編程時(shí),程序員已經(jīng)想清楚了處理任務(wù)的方法步驟,他需要做的是精確計(jì)算,并將所有細(xì)節(jié)輸入計(jì)算機(jī),然后讓計(jì)算機(jī)去執(zhí)行。
第二種是學(xué)習(xí),這時(shí)只需要向計(jì)算機(jī)提供大量輸入輸出的例子,讓計(jì)算機(jī)學(xué)習(xí)如何將輸入與輸出聯(lián)系起來(lái),根據(jù)輸入映射出輸出。當(dāng)然這也需要編程,但是所用的程序是簡(jiǎn)化的通用學(xué)習(xí)程序。
五十多年來(lái),人類一直在努力讓符號(hào)型人工智能(symbolic AI)實(shí)現(xiàn)“看圖說(shuō)話”的功能。針對(duì)這項(xiàng)任務(wù),人類用兩種方式都嘗試了很長(zhǎng)時(shí)間,最后神經(jīng)網(wǎng)絡(luò)成功完成了這一任務(wù),神經(jīng)網(wǎng)絡(luò)正是基于純學(xué)習(xí)的方法。
(來(lái)源:Geoffrey Hinton)
這就引出了神經(jīng)網(wǎng)絡(luò)的核心問(wèn)題:包含數(shù)百萬(wàn)權(quán)重參數(shù)和多層非線性神經(jīng)元的大型神經(jīng)網(wǎng)絡(luò)是非常強(qiáng)大的計(jì)算設(shè)備,那么神經(jīng)網(wǎng)絡(luò)能否從隨機(jī)權(quán)重參數(shù)開(kāi)始,并從訓(xùn)練數(shù)據(jù)中獲取所有知識(shí),從而學(xué)會(huì)執(zhí)行一項(xiàng)困難的任務(wù) (比如物體識(shí)別或機(jī)器翻譯) 呢?
接下來(lái),Hinton 回顧了前人的種種努力成果。
(來(lái)源:Geoffrey Hinton)
神經(jīng)網(wǎng)絡(luò)是如何工作的呢?Hinton 做了簡(jiǎn)短的介紹。
(來(lái)源:Geoffrey Hinton)
研究人員首先對(duì)一個(gè)真實(shí)的神經(jīng)元做了一個(gè)粗略的理想化,這樣就可以研究神經(jīng)元是如何協(xié)作完成那些難度很高的計(jì)算。
神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點(diǎn)(或稱神經(jīng)元)之間相互聯(lián)接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)(activation function)。每?jī)蓚€(gè)節(jié)點(diǎn)間的連接都代表一個(gè)對(duì)于通過(guò)該連接信號(hào)的加權(quán)值,稱之為權(quán)重,這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式、權(quán)重值和激勵(lì)函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對(duì)自然界某種算法或者函數(shù)的逼近,也可能是對(duì)一種邏輯策略的表達(dá)。
(來(lái)源:Geoffrey Hinton)
那么,如何訓(xùn)練神經(jīng)網(wǎng)絡(luò)呢?Hinton 認(rèn)為分為兩大方法,分別是監(jiān)督訓(xùn)練和無(wú)監(jiān)督訓(xùn)練。
監(jiān)督訓(xùn)練:向網(wǎng)絡(luò)展示一個(gè)輸入向量,并告訴它正確的輸出,通過(guò)調(diào)整權(quán)重,減少正確輸出與實(shí)際輸出之間的差異。
無(wú)監(jiān)督訓(xùn)練:僅向網(wǎng)絡(luò)顯示輸入,通過(guò)調(diào)整權(quán)重,更好地從隱含神經(jīng)元的活動(dòng)中重建輸入(或部分輸入),最后產(chǎn)生輸出。
其中,監(jiān)督學(xué)習(xí)是很好理解的訓(xùn)練方式,但是它使用的“突變”方法的效率很低。
(來(lái)源:Geoffrey Hinton)
相較而言,反向傳播(backpropagation algorithm)只是計(jì)算權(quán)重變化如何影響輸出錯(cuò)誤的一種有效方法。它不是一次一個(gè)地?cái)_動(dòng)權(quán)重并測(cè)量效果,而是使用微積分同時(shí)計(jì)算所有權(quán)重的誤差梯度。當(dāng)有一百萬(wàn)個(gè)權(quán)重時(shí),反向傳播方法要比變異方法效率高出一百萬(wàn)倍。
(來(lái)源:Geoffrey Hinton)
然而,反向傳播算法的發(fā)展卻又不盡如人意。
在 20 世紀(jì) 90 年代,雖然反向傳播算法的效果還算不錯(cuò),但并沒(méi)有達(dá)到人們所期待的那樣,訓(xùn)練深度網(wǎng)絡(luò)仍然非常困難;在中等規(guī)模的數(shù)據(jù)集上,一些其他機(jī)器學(xué)習(xí)方法甚至比反向傳播更有效。
(來(lái)源:Yann LeCun)
符號(hào)型人工智能的研究人員稱,想要在大型深層神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)困難的任務(wù)是愚蠢的,因?yàn)檫@些網(wǎng)絡(luò)從隨機(jī)連接開(kāi)始,且沒(méi)有先驗(yàn)知識(shí)。
于是深度學(xué)習(xí)經(jīng)歷了一段時(shí)間的“寒冬”,到 2012 年之后,人們才意識(shí)到深度學(xué)習(xí)是有用的,深度學(xué)習(xí)才有了大量應(yīng)用。例如圖像識(shí)別和機(jī)器翻譯等。
最后,Hinton 談到了神經(jīng)網(wǎng)絡(luò)視覺(jué)的未來(lái)。Hinton 認(rèn)為,幾乎所有人工神經(jīng)網(wǎng)絡(luò)只使用兩個(gè)時(shí)間尺度:對(duì)權(quán)重的緩慢適應(yīng)和神經(jīng)活動(dòng)的快速變化。突觸在多個(gè)不同的時(shí)間尺度上都可以適應(yīng),針對(duì)短時(shí)記憶(short-term memory)的快速權(quán)重適應(yīng)(fast weight)將使神經(jīng)網(wǎng)絡(luò)變得更好。
Yann LeCun 則在演講中表示,監(jiān)督學(xué)習(xí)在數(shù)據(jù)量很大時(shí)效果很好,可以做語(yǔ)音識(shí)別、圖像識(shí)別、面部識(shí)別、從圖片生成屬性、機(jī)器翻譯等。
如果神經(jīng)網(wǎng)絡(luò)具有某些特殊架構(gòu),比如上世紀(jì)八九十年代提出的那些架構(gòu),就能識(shí)別手寫(xiě)文字,而且效果很好,到上世紀(jì) 90 年代末時(shí),Yann LeCun 在貝爾實(shí)驗(yàn)室研發(fā)的這類系統(tǒng)承擔(dān)了全美 10%-20% 手寫(xiě)文字的識(shí)別工作,這不僅在技術(shù)上,而且在商業(yè)上都取得了成功。
(來(lái)源:Yann LeCun)
到后來(lái),整個(gè)學(xué)界一度幾乎拋棄了神經(jīng)網(wǎng)絡(luò)。這一方面是因?yàn)槿狈Υ笮蛿?shù)據(jù)庫(kù),還有些原因是當(dāng)時(shí)編寫(xiě)的軟件過(guò)于復(fù)雜,需要很大投資,另一方面,當(dāng)時(shí)的計(jì)算機(jī)速度也不夠快,不足以運(yùn)行其他應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)其實(shí)是受到了生物學(xué)的很多啟發(fā),但它并不是照搬生物學(xué)。Yann LeCun 從生物學(xué)的觀點(diǎn)和研究成果中受到啟發(fā),他發(fā)現(xiàn)可以利用反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)這些現(xiàn)象。卷積網(wǎng)絡(luò)的理念是,世界上的物體是由各個(gè)部分構(gòu)成的,其各個(gè)部分由圖案構(gòu)成,而圖案是材質(zhì)和邊緣的基本組合,邊緣是由分布的像素組成。如果一個(gè)系統(tǒng)能夠檢測(cè)到有用的像素組合,再依次到邊緣、圖案、最后到物體的各個(gè)部分,這就是一個(gè)目標(biāo)識(shí)別系統(tǒng)。這不僅適用于視覺(jué)識(shí)別,也適用于語(yǔ)音、文本等自然信號(hào)。我們可以使用卷積網(wǎng)絡(luò)識(shí)別面部、識(shí)別路上的行人。
在上世紀(jì) 90 年代到 2010 年左右,出現(xiàn)了一段所謂的“AI寒冬”,但像 Yann LeCun 這樣的人依然繼續(xù)著自己的研究。他們繼續(xù)著人臉識(shí)別、行人識(shí)別等研究。他們還將機(jī)器學(xué)習(xí)用在機(jī)器人技術(shù)上,使用卷積網(wǎng)絡(luò)自動(dòng)標(biāo)記整個(gè)圖像,每個(gè)像素都會(huì)標(biāo)記為“能”或“不能”穿越,指引機(jī)器人的前進(jìn)。
(來(lái)源:Yann LeCun)
幾年之后,他們使用類似的系統(tǒng)完成目標(biāo)分割任務(wù),整個(gè)系統(tǒng)可以實(shí)現(xiàn) VGA 實(shí)時(shí)部署,對(duì)圖像上的每個(gè)像素進(jìn)行分割。這個(gè)系統(tǒng)可以檢測(cè)行人、道路、樹(shù)木,但當(dāng)時(shí)這個(gè)結(jié)果并未馬上得到計(jì)算機(jī)視覺(jué)學(xué)會(huì)的認(rèn)可。
卷積神經(jīng)網(wǎng)絡(luò)在近幾年有很多應(yīng)用,例如醫(yī)療成像、自動(dòng)駕駛、機(jī)器翻譯,以及游戲等領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練。但這種海量重復(fù)試驗(yàn)的方式在現(xiàn)實(shí)中是不可行的。例如你想教一臺(tái)自動(dòng)駕駛車學(xué)會(huì)駕駛,在真實(shí)世界如此重復(fù)訓(xùn)練是不行的。純粹的強(qiáng)化學(xué)習(xí)只能適用于虛擬世界。
那么,為什么人和動(dòng)物的學(xué)習(xí)速度可以如此之快?
和自動(dòng)駕駛系統(tǒng)不同的是,人類能夠建立直覺(jué)上真實(shí)的模型,所以不會(huì)把車開(kāi)下懸崖。這是人類掌握的內(nèi)部模型,那么人類是怎么學(xué)習(xí)這個(gè)模型的?又如何讓機(jī)器學(xué)會(huì)這個(gè)模型呢?
動(dòng)物身上也存在類似的機(jī)制。預(yù)測(cè)是智能的不可或缺的組成部分,當(dāng)實(shí)際情況和預(yù)測(cè)出現(xiàn)差異時(shí),實(shí)際上就是學(xué)習(xí)的過(guò)程。
以視頻內(nèi)容預(yù)測(cè)為例,給定一段視頻數(shù)據(jù),需要從其中一段視頻內(nèi)容預(yù)測(cè)另外一段空白處的內(nèi)容。自監(jiān)督學(xué)習(xí)的典型場(chǎng)景是,事先不公布要空出哪一段內(nèi)容,實(shí)際上根本不用真地留出空白,只是讓系統(tǒng)根據(jù)一些限制條件來(lái)對(duì)輸入進(jìn)行重建。系統(tǒng)只通過(guò)觀察來(lái)完成任務(wù),無(wú)需外部交互,學(xué)習(xí)效率更高。
機(jī)器學(xué)習(xí)的未來(lái)在于自監(jiān)督和半監(jiān)督學(xué)習(xí),而非監(jiān)督學(xué)習(xí)和純強(qiáng)化學(xué)習(xí)。自監(jiān)督學(xué)習(xí)就像填空,在 NLP 任務(wù)上表現(xiàn)很好,但在圖像識(shí)別和理解任務(wù)上就表現(xiàn)一般。這是因?yàn)槭澜绮⒉蝗强深A(yù)測(cè)的。對(duì)于視頻預(yù)測(cè)任務(wù),結(jié)果可能有多重可能,訓(xùn)練系統(tǒng)做出的預(yù)測(cè)結(jié)果往往會(huì)得到唯一的“模糊”結(jié)果,即對(duì)未來(lái)所有結(jié)果的“平均值”。這并不是理想的預(yù)測(cè)。
最后,Yann LeCun 表示,幾百年以來(lái),理論的提出往往伴隨著之后的偉大發(fā)明和創(chuàng)造。深度學(xué)習(xí)和智能理論在未來(lái)會(huì)帶來(lái)什么?值得我們拭目以待。
(來(lái)源:Yann LeCun)
聯(lián)系客服