1新智元原創(chuàng)
像素循環(huán)神經(jīng)網(wǎng)絡(luò)(Pixel Recurrent Neural Networks)
卷積神經(jīng)網(wǎng)絡(luò)中循環(huán)對(duì)稱性的利用(Exploiting Cyclic Symmetry in Convolutional Neural Networks)
深度強(qiáng)化學(xué)習(xí)的異步算法(Asynchronous Methods for Deep Reinforcement Learning)
基于模型加速的連續(xù)深度Q學(xué)習(xí)(Continuous Deep Q-Learning with Model-based Acceleration)
關(guān)注新智元(AI_era)回復(fù)“0614”下載論文(請(qǐng)直接在公眾號(hào)回復(fù),不是在文章下評(píng)論或留言)
1. 像素循環(huán)神經(jīng)網(wǎng)絡(luò)
摘要
自然圖像分布建模是無(wú)監(jiān)督學(xué)習(xí)中的重大問(wèn)題。該模型必須同時(shí)具有表達(dá)性、可解性(tractable)和可擴(kuò)展性。我們提出了一個(gè)深度神經(jīng)網(wǎng)絡(luò),能循序預(yù)測(cè)圖像中兩個(gè)維度上的像素。方法是對(duì)原始像素值離散概率建模,對(duì)圖像中依賴關(guān)系的完整集合編碼。構(gòu)架上的創(chuàng)新包括多個(gè)快速二維循環(huán)層和有效利用深度循環(huán)網(wǎng)絡(luò)中的殘差連接。我們從自然圖像中獲得的對(duì)數(shù)似然分?jǐn)?shù)顯著高于先前的最高水平。我們的主要研究結(jié)果也為 ImageNet 各個(gè)數(shù)據(jù)集提供了測(cè)試基準(zhǔn)。模型產(chǎn)生的樣本干凈、多樣且具有全局一致性。
1. 引言
本文中,我們提出了二維循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),并將其用于自然圖像大規(guī)模建模。所產(chǎn)生的 PixelRNN 含有 12 層快速二維長(zhǎng)短時(shí)記憶(LSTM)。這些層在狀態(tài)中使用 LSTM 單元,用卷積方法從數(shù)據(jù)的一個(gè)空間維度中一次性計(jì)算出所有狀態(tài)。我們?cè)O(shè)計(jì)了兩種類型的層:第一種是 Row LSTM,每一行都做卷積;第二種是對(duì)角線雙長(zhǎng)短時(shí)記憶(BiLSTM)層,其中以嶄新的方式沿圖像對(duì)角線做卷積。該網(wǎng)絡(luò)也包含了圍繞 LSTM 層的殘差連接;我們發(fā)現(xiàn)這有助于把 PixelRNN 的深度訓(xùn)練到 12 層。
我們也考慮了另一種簡(jiǎn)化構(gòu)架,核心組成部分與 PixelRNN 相同。我們發(fā)現(xiàn)通過(guò)使用 Masked 卷積,卷積神經(jīng)網(wǎng)絡(luò)(CNN)可被用于依賴度范圍固定的序列模型。由此,PixelCNN 的構(gòu)架是一個(gè)由 15 個(gè)層構(gòu)成的完全卷積網(wǎng)絡(luò),所有層中保留了輸入的空間分辨率,并在每個(gè)位置輸出一個(gè)條件分布。
使用 PixelRNN 處理后的圖片效果
PixelRNN 和 PixelCNN 都沒(méi)有引入其他獨(dú)立假設(shè),就得到了像素相互依賴關(guān)系的全部 generality,也保持了每個(gè)單獨(dú)像素內(nèi)部 RGB 顏色值之間的依賴關(guān)系。而且,與之前那些將像素作為連續(xù)變量建模的方法相比,我們用一個(gè)簡(jiǎn)單 softmax 層實(shí)現(xiàn)了多項(xiàng)式分布,從而以離散值對(duì)像素建模。這一方法讓我們的模型在表征和訓(xùn)練上具有優(yōu)勢(shì)。
本文的貢獻(xiàn)如下。第 3 部分,我們?cè)O(shè)計(jì)了兩種 PixelRNN,分別對(duì)應(yīng)兩種類型 LSTM 層;我們描述了一個(gè)純粹使用卷積的 PixelCNN,這也是我們最快的構(gòu)架;我們還設(shè)計(jì)了一個(gè)可擴(kuò)展的 PixelRNN。第 5 部分,我們證明了使用離散 softmax 分布和采用 LSTM 層的殘差連接的相對(duì)優(yōu)勢(shì)。接下來(lái),我們?cè)?MNIST 和 CIFAR-10 檢測(cè)模型,取得的對(duì)數(shù)似然分?jǐn)?shù)顯著高于先前結(jié)果。我們還提供了大規(guī)模 ImageNet 數(shù)據(jù)集大小變換為 32*32 和 64*64 像素的結(jié)果;據(jù)我們所知(論文發(fā)表時(shí))尚未有人提交該數(shù)據(jù)集生成模型的似然分?jǐn)?shù)。最后,我們對(duì) PixelRNN 產(chǎn)生的樣本做了定性評(píng)價(jià)。
2. 建模
圖2. 左:為了生成像素 xi, 我們以所有在 xi 左側(cè)和上側(cè)所生成的像素為條件。中:核為 3 的 Row LSTM。行 LSTM 的依賴域不會(huì)延續(xù)到圖像的兩側(cè)邊緣。右:對(duì)角線 BiLSTM 的兩個(gè)方向。對(duì)角線 BiLSTM 依賴域覆蓋了圖像的整個(gè)背景。
圖3. 對(duì)角線 BiLSTM 中,為了沿對(duì)角線并行處理,對(duì)輸入的圖進(jìn)行了偏轉(zhuǎn),其中每一行都相對(duì)前一行偏移了一個(gè)位置。當(dāng)空間層被從左到右逐列計(jì)算時(shí),輸出圖被轉(zhuǎn)換為原始大小。卷積核為 2。
3. 像素循環(huán)神經(jīng)網(wǎng)絡(luò)
本部分我們描述了 PixelRNN 的構(gòu)成要素。3.1 和 3.2 部分,我們描述了兩種類型的 LSTM 層,都使用卷積一次性計(jì)算一個(gè)空間維度的所有狀態(tài)。3.3 部分,我們描述了如何整合殘差連接,從而增強(qiáng)對(duì)擁有多個(gè) LSTM 層的 PixelRNN 的訓(xùn)練。3.4 部分,我們描述了計(jì)算顏色離散聯(lián)合分布的 softmax 層以及 masking 技術(shù)。3.5 部分,我們描述了 PixelCNN 構(gòu)架。最后 3.6 部分,我們描述了可擴(kuò)展架構(gòu)。
6. 結(jié)論
我們顯著增強(qiáng)了作為自然圖像生成模型的深度 RNN。我們描述了新的二維 LSTM 層,包括可擴(kuò)展到更龐大數(shù)據(jù)集的行 LSTM 層和對(duì)角線 BiLSTM 層。我們訓(xùn)練了 PixelRNN 對(duì)圖像的原始 RGB 像素值建模。我們使用條件分布下的 softmax 層,將像素值作為離散隨機(jī)變量。我們使用 masked 卷積,令 PixelRNN 對(duì)顏色信道之間的全部依賴關(guān)系建模。我們提出并評(píng)估了這些模型的在構(gòu)架上進(jìn)展,這些進(jìn)展使模型具有多達(dá) 12 層 LSTM。
我們表明 PixelRNN 顯著提高了處理 Binary MINIST 和 CIFAR-10 數(shù)據(jù)集的最高水平,也為 ImageNet 數(shù)據(jù)集的生成圖像建模提供了新的測(cè)試基準(zhǔn)。我們認(rèn)為 PixelRNN 既能對(duì)空間局部相關(guān)性建模,也能對(duì)遠(yuǎn)程相關(guān)性建模,并能生成輪廓清晰一致的圖像。隨著模型變得更大更好,再加上有無(wú)窮的數(shù)據(jù)可供訓(xùn)練,進(jìn)一步的計(jì)算和更大的模型可能還會(huì)進(jìn)一步提升結(jié)果。
【點(diǎn)評(píng)】這篇文章主要提出了一種使用LSTM對(duì)圖像進(jìn)行建模的架構(gòu)。與普通的對(duì)圖像像素建模的算法相比,該算法有很多的獨(dú)特的地方。首先,本文將每個(gè)像素預(yù)測(cè)建模成了256類的分類問(wèn)題。其次,本文提出了Masked Convolution的概念來(lái)處理圖像預(yù)測(cè)中多通道預(yù)測(cè)的問(wèn)題。雖然對(duì)于單純對(duì)圖像建模的性能,本文的方法不如最新的基于adversarial的方法。但是,LSTM最近已經(jīng)被證明是對(duì)于圖像中空間dependency的有效模型,例如圖像分割中就可以使用LSTM進(jìn)行建模。PixelRNN在這種模型中可能會(huì)有用武之地。
2. 卷積神經(jīng)網(wǎng)絡(luò)中循環(huán)對(duì)稱性的利用
摘要
循環(huán)對(duì)稱性指的是旋轉(zhuǎn)角度為 90° 整數(shù)倍時(shí)的對(duì)稱性。許多圖形都有旋轉(zhuǎn)對(duì)稱性。為了訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),有時(shí)會(huì)通過(guò)數(shù)據(jù)增強(qiáng)來(lái)利用這個(gè)性質(zhì),但仍然需要通過(guò)數(shù)據(jù)學(xué)習(xí)旋轉(zhuǎn)等價(jià)性質(zhì)。平移對(duì)稱性可以通過(guò)卷積層編碼,若能把旋轉(zhuǎn)對(duì)稱性編碼進(jìn)網(wǎng)絡(luò)的架構(gòu),會(huì)提高參數(shù)空間的利用率,因?yàn)椴辉傩枰獙W(xué)習(xí)那部分(描述旋轉(zhuǎn)對(duì)稱性的)參數(shù)。我們引入4種操作,它們可被作為層插入神經(jīng)網(wǎng)絡(luò),并且可以被組合起來(lái)讓模型部分地在旋轉(zhuǎn)操作下等價(jià)。這4種操作還能讓不同朝向下共享參數(shù)。我們用3個(gè)具有旋轉(zhuǎn)對(duì)稱性的數(shù)據(jù)集評(píng)估了這些結(jié)構(gòu)變動(dòng)的效果,發(fā)現(xiàn)模型更小,而性能得到了提升。
4. 神經(jīng)網(wǎng)絡(luò)里的編碼等效性
本節(jié)只講了循環(huán)對(duì)稱性的情況,也就是旋轉(zhuǎn)的角度是 90° 整數(shù)倍,但我們提出的框架可以被推廣到別的情景。
(a) 浮游生物的圖片 (b) 星系的圖片
波士頓地區(qū)建筑 (a) 衛(wèi)星圖像 (b) 建筑標(biāo)簽
左中右分別為浮游生物、星系圖像和波士頓建筑的基礎(chǔ)架構(gòu)。紅色代表卷基層,藍(lán)色代表 pooling 層,黃色代表 dense 層
7. 總結(jié)
我們介紹了構(gòu)建旋轉(zhuǎn)對(duì)稱神經(jīng)網(wǎng)絡(luò)的框架,只需要使用4個(gè)新的層,它們可以很容易地插入現(xiàn)有的網(wǎng)絡(luò)架構(gòu)。除了需要調(diào)整訓(xùn)練所需的 minibatch 大小,不需要?jiǎng)e的改動(dòng)。擁有完全對(duì)稱性的數(shù)據(jù)集上新的模型,性能提高而參數(shù)更少。使用 Theano 對(duì)滾動(dòng)操作的快速 GPU 實(shí)現(xiàn)(見(jiàn)此:https://github.com/ benanne/kaggle-ndsb)。
未來(lái)我們希望把文中所講的方法用于別的具有旋轉(zhuǎn)對(duì)稱性的數(shù)據(jù),特別是那些缺少數(shù)據(jù)的領(lǐng)域,比如醫(yī)學(xué)圖像,以及參數(shù)共享有助于減少過(guò)度擬合的領(lǐng)域。我們還想把該方法擴(kuò)展到別的變換群,比如旋轉(zhuǎn)角度不是 90° 整數(shù)倍的情況,以及探索內(nèi)插和對(duì)齊帶來(lái)的復(fù)雜性的掌控策略。最后,我們希望把工作延伸到體積數(shù)據(jù),在這里參數(shù)數(shù)量的減少更加重要,并且很多對(duì)稱性都可以被利用起來(lái)而無(wú)需繁重的內(nèi)插。
3. 深度強(qiáng)化學(xué)習(xí)的異步算法
摘要
我們提出了一種在概念上非常簡(jiǎn)單并且輕量的深度強(qiáng)化學(xué)習(xí)框架,使用異步梯度下降優(yōu)化深度神經(jīng)網(wǎng)絡(luò)控制器。我們展示了 4 種標(biāo)準(zhǔn) RL 算法的異步模型變體,表明并行 actor-learner 在訓(xùn)練中能帶來(lái)穩(wěn)定化的影響,使所有 4 種方法都能順利訓(xùn)練出神經(jīng)網(wǎng)絡(luò)控制器。相比目前最領(lǐng)先的方法,論文中表現(xiàn)最好的方法——actor-critic(AC)的異步變體——ATARI游戲表現(xiàn)更好,訓(xùn)練用時(shí)僅為一半,并且使用的是一個(gè)多核CPU而非GPU。不僅如此,我們展示了異步 AC 方法在各式連續(xù)運(yùn)動(dòng)控制問(wèn)題,以及一個(gè)新任務(wù)(包含使用視覺(jué)輸入在一個(gè)隨機(jī) 3D 迷宮中尋找到獎(jiǎng)勵(lì))同樣表現(xiàn)出色。
1. 引言
深度神經(jīng)網(wǎng)絡(luò)提供了豐富的、能讓強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)算法高效運(yùn)行的表征。但之前人們認(rèn)為,將簡(jiǎn)單的在線RL算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合從根本上來(lái)說(shuō)是不穩(wěn)定的。為了讓算法能夠穩(wěn)定化,研究者提出了許多解決方案。這些方法的核心是相似的:一個(gè)在線RL代理(agent)取得的觀測(cè)數(shù)據(jù)的順序是非平穩(wěn)的(non-stationary),在線RL的更新相互之間會(huì)有很高的相關(guān)性。通過(guò)將數(shù)據(jù)儲(chǔ)存在經(jīng)驗(yàn)回放記憶體(experience replay memory)之中,數(shù)據(jù)將可以根據(jù)不同的時(shí)間步長(zhǎng)分批處理或是隨機(jī)采樣。用這種方法整合記憶體中的數(shù)據(jù)會(huì)降低非平穩(wěn)性,降低更新互相之間的相關(guān)性,但同時(shí)也令這些方法的適用范圍僅限于離策略(off-policy)RL算法。
ATARI 2600之類的充滿挑戰(zhàn)的領(lǐng)域中,基于經(jīng)驗(yàn)回放的深度RL算法一鳴驚人。但是,經(jīng)驗(yàn)回放有一些缺陷:每一次真實(shí)交互(real interaction),它都需要耗用更多的內(nèi)存和計(jì)算力,并且它要求離策略學(xué)習(xí)算法能基于舊策略生成的數(shù)據(jù)進(jìn)行更新。
這篇論文中,我們?yōu)樯疃萊L提供了一種迥異的范式。與經(jīng)驗(yàn)回放不同,對(duì)于環(huán)境中的多個(gè)實(shí)例,我們并行、異步地執(zhí)行多個(gè) agent。在任意時(shí)間步長(zhǎng),并行 agent 都將會(huì)歷經(jīng)許多不同的狀態(tài),這種并行性也能令 agent 的數(shù)據(jù)去相關(guān),更接近平穩(wěn)過(guò)程(stationary process)。這個(gè)簡(jiǎn)單的想法使得深度神經(jīng)網(wǎng)絡(luò)能被穩(wěn)健且高效地應(yīng)用于數(shù)量更為龐大的在策略(on-policy)RL算法——比如 Sarsa、n步方法——以及AC方法和Q學(xué)習(xí)之類的離策略(off-policy)RL算法。
異步RL范式也在實(shí)際操作上也有優(yōu)點(diǎn)。原先的深度RL非常依賴硬件,比如GPU或是HPC,而我們的實(shí)驗(yàn)用機(jī)只是擁有一個(gè)標(biāo)準(zhǔn)多核CPU。學(xué)習(xí)各類ATARI 2600時(shí),異步RL在許多游戲中都獲得了更好的表現(xiàn),訓(xùn)練耗時(shí)比原先基于GPU的算法短得多,消耗資源也比HPC少得多。不僅如此,我們提出的方法中表現(xiàn)最好的A3C方法(asynchronous advantage actor-critic),還能夠良好適用于各類連續(xù)運(yùn)動(dòng)控制任務(wù)、也能僅僅從視覺(jué)輸入中學(xué)會(huì)探索3D迷宮的通用策略。我們相信,A3C能在2D和3D游戲、離散和連續(xù)動(dòng)作空間上同時(shí)獲得成功,A3C能訓(xùn)練前饋和遞歸 agent,使它成為目前最通用、最成功的RL agent。
4. 異步無(wú)鎖(lock-free)強(qiáng)化學(xué)習(xí)
我們現(xiàn)在展示的是一步Sarsa、一步Q學(xué)習(xí)、n步Q學(xué)習(xí)、優(yōu)勢(shì)AC(advantage actor-critic)的多線程異步變體。設(shè)計(jì)這些方法的目的,是尋找出能可靠訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)策略、無(wú)需大量資源的RL算法。雖然這 4 個(gè)基礎(chǔ)的RL方法相當(dāng)不同,其中AC是一種在策略搜索方法、而Q學(xué)習(xí)是一種離策略基于價(jià)值(value-based)的方法,我們通過(guò)兩個(gè)操作令這 4 種算法能夠得以實(shí)現(xiàn)并進(jìn)行比較。
首先,我們運(yùn)用 Gorila 框架中提出的異步 actor-learner,不過(guò)是在一臺(tái)機(jī)器上使用多線程,而非使用不同的機(jī)器和一個(gè)參數(shù)服務(wù)器。我們讓學(xué)習(xí)器位于同一臺(tái)機(jī)器,免除了在不同機(jī)器間傳輸梯度和參數(shù)的消耗,也使我們能使用 Hogwild! 式更新訓(xùn)練控制器。
其次,我們將觀測(cè)做成了多個(gè)并行 actor-learner 有可能對(duì)環(huán)境的不同部分進(jìn)行探索的形式。不僅如此,你可以在每個(gè) actor-learner 中人為使用不同的探索策略實(shí)現(xiàn)最大化多樣性的目的。通過(guò)在不同線程中運(yùn)行不同的探索策略,多個(gè)并行在線更新的 actor-learner 對(duì)參數(shù)改變的總和,最終將有可能比一個(gè)單獨(dú)進(jìn)行在線更新的 agent 做的更新,互相之間相關(guān)性更低。因此,我們不使用回放記憶體,而是依賴于采用不同探索策略的并行行動(dòng)者,替代DQN訓(xùn)練算法中經(jīng)驗(yàn)回放提供的穩(wěn)定化效果。
除了令學(xué)習(xí)得以穩(wěn)定化,使用多個(gè)并行 actor-learner 也有一些實(shí)際的好處。第一,減少訓(xùn)練時(shí)間,減少幅度大致上與并行 actor-learner 的數(shù)量呈線性相關(guān)。第二,由于不再依賴經(jīng)驗(yàn)回放讓學(xué)習(xí)穩(wěn)定化,我們能使用在策略強(qiáng)化學(xué)習(xí)方法——比如Sarsa和AC——以穩(wěn)定的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
6. 結(jié)論和討論
我們展示了 4 種標(biāo)準(zhǔn)RL算法的異步版本,并表明了它們能夠以穩(wěn)定的方式訓(xùn)練許多領(lǐng)域中的神經(jīng)網(wǎng)絡(luò)控制器。在我們提出的框架中,基于價(jià)值的算法和基于策略的算法、離策略和在策略算法,離散性任務(wù)和連續(xù)性任務(wù),都有可能在RL中穩(wěn)定訓(xùn)練神經(jīng)網(wǎng)絡(luò)。當(dāng)我們用 16 核CPU訓(xùn)練ATARI任務(wù)時(shí),我們提出的異步算法訓(xùn)練速度比Nvidia K40 GPU訓(xùn)練DQN的速度快,其中A3C算法的訓(xùn)練用時(shí)比目前最領(lǐng)先的方法少一半。
我們的一個(gè)主要發(fā)現(xiàn)是,使用并行 actor-learner 更新一個(gè)共享模型,對(duì)于我們研究的 3 種基于價(jià)值的算法的學(xué)習(xí)過(guò)程都具有穩(wěn)定化影響。雖然這表明穩(wěn)定的在線Q學(xué)習(xí)可能脫離經(jīng)驗(yàn)回放,但是這不意味著經(jīng)驗(yàn)回放是無(wú)用的。將經(jīng)驗(yàn)回放整合入異步RL框架,有可能通過(guò)重復(fù)利用舊數(shù)據(jù)大幅提高這些方法的數(shù)據(jù)效率。這可能會(huì)進(jìn)而在與環(huán)境交互的消耗比更新模型的消耗更大的領(lǐng)域(比如TORCS)帶來(lái)更快的訓(xùn)練速度。
將其他現(xiàn)有的RL模型或是深度RL近期進(jìn)展與我們的異步框架相結(jié)合,展現(xiàn)出了許多迅速優(yōu)化我們?cè)谖闹姓故镜乃惴ǖ目赡苄浴N覀冋故镜膎步模型是向前的(forward view),直接使用修正后的n步回報(bào)作為目標(biāo),但是使用向后的方法在資格跡(eligibility trace)中結(jié)合不同的回報(bào)已經(jīng)變得更為常見(jiàn)。通過(guò)使用其他估計(jì)優(yōu)勢(shì)函數(shù)的方法——比如Schulman等人(2015b)的泛化優(yōu)勢(shì)估計(jì)——可能會(huì)切實(shí)改善A3C算法。所有我們研究的基于價(jià)值的方法,都有可能受益于用各種方式降低Q值的高估誤差(over-estimation bias)。而另一個(gè)更值得揣摩的方向是,嘗試結(jié)合近期真正的在線時(shí)間差分方法的研究與非線性函數(shù)逼近。
4. 基于模型加速的連續(xù)深度Q學(xué)習(xí)
摘要
模型無(wú)關(guān)的強(qiáng)化學(xué)習(xí)被成功應(yīng)用于許多難題,最近還被用于處理大型神經(jīng)網(wǎng)絡(luò)策略和價(jià)值函數(shù)。然而,模型無(wú)關(guān)的算法的樣本復(fù)雜度往往限制了它們?cè)谟布到y(tǒng)中的應(yīng)用,尤其是使用高維函數(shù)逼近器時(shí)。本文中,我們對(duì)算法和表示進(jìn)行了探索,降低對(duì)連續(xù)控制任務(wù)的深度強(qiáng)化學(xué)習(xí)的樣本復(fù)雜度。我們還提出了兩個(gè)補(bǔ)充技術(shù),用于提高這些算法的效率。
1. 引言
本文中,我們提出了兩種補(bǔ)充技術(shù),用于提高在連續(xù)控制領(lǐng)域中深度強(qiáng)化學(xué)習(xí)的效率:我們?nèi)〉昧艘粋€(gè)Q學(xué)習(xí)變量,它可被用于連續(xù)領(lǐng)域;我們也提出了一種方法來(lái)把這種連續(xù)Q學(xué)習(xí)算法與已學(xué)到的模型聯(lián)合起來(lái)以對(duì)學(xué)習(xí)進(jìn)行加速,并保留模型無(wú)關(guān)的強(qiáng)化學(xué)習(xí)的好處。在連續(xù)行動(dòng)領(lǐng)域中的模型無(wú)關(guān)的強(qiáng)化學(xué)習(xí),通常使用策略搜索方法來(lái)處理。將價(jià)值函數(shù)估計(jì)整合到這些技術(shù)中,就會(huì)產(chǎn)生 actor-critic 算法,這種算法兼具策略搜索和價(jià)值函數(shù)估計(jì)的有點(diǎn),但缺點(diǎn)是需要訓(xùn)練兩個(gè)彼此分離的函數(shù)逼近器。我們提出的連續(xù)領(lǐng)域Q學(xué)習(xí)算法稱為歸一化優(yōu)勢(shì)函數(shù)(NAF),它避免了對(duì)第二個(gè)行動(dòng)者或策略函數(shù)的需求,從而帶來(lái)了更簡(jiǎn)潔的算法。更簡(jiǎn)潔的優(yōu)化目標(biāo)和對(duì)價(jià)值函數(shù)參數(shù)化的選擇,讓算法應(yīng)用于一些連續(xù)控制領(lǐng)域的大型神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器時(shí),樣本使用效率明顯更高。
除了完善一種模型無(wú)關(guān)的深度強(qiáng)化學(xué)習(xí)算法,我們也試圖讓算法包含基于模型的強(qiáng)化學(xué)習(xí)要素,從而加速學(xué)習(xí),同時(shí)不喪失模型無(wú)關(guān)方法的那些優(yōu)點(diǎn)。一種方法是,讓Q學(xué)習(xí)算法等離策略算法包含由基于模型的規(guī)劃器所產(chǎn)生的離策略經(jīng)驗(yàn)。然而,盡管這種方案看起來(lái)很自然,但經(jīng)驗(yàn)評(píng)估表明它對(duì)學(xué)習(xí)進(jìn)行加速時(shí)缺乏效率。這部分是因?yàn)閮r(jià)值函數(shù)估計(jì)算法的本性:這種算法為了對(duì)價(jià)值函數(shù)局面精確建模,好的和壞的狀態(tài)轉(zhuǎn)變都必須經(jīng)歷。我們提出了一種替代方法,把學(xué)習(xí)到的模型整合到我們的連續(xù)行動(dòng)Q學(xué)習(xí)算法中。該方法基于 imagination rollout:類似于 Dyna-Q 方法,從學(xué)習(xí)到的模型中產(chǎn)生出在策略樣本。我們表明,當(dāng)學(xué)到的動(dòng)態(tài)模型與真實(shí)模型完美匹配時(shí),這種方法極其有效,但在學(xué)習(xí)到的不完美的模型情況下則會(huì)戲劇性地下跌。不過(guò),反復(fù)讓局部線性模型去適應(yīng)最新的在策略或離策略 rollout 批次,這種方法能提供充分的局部精確性,從而讓我們能在真實(shí)世界樣本的臨近區(qū)域使用 short imagination rollout 實(shí)現(xiàn)實(shí)質(zhì)性的進(jìn)步。
我們的論文有三個(gè)主要貢獻(xiàn):第一,我們?nèi)〉貌⒃u(píng)價(jià)了一個(gè)Q函數(shù)表示,能夠在連續(xù)領(lǐng)域中進(jìn)行有效的Q學(xué)習(xí);第二,我們?cè)u(píng)估了幾個(gè)能夠把學(xué)習(xí)到的模型包含進(jìn)模型無(wú)關(guān)的Q學(xué)習(xí)的選項(xiàng),并表明在我們的連續(xù)控制任務(wù)中,它們都缺乏效率。第三,我們提出,聯(lián)合局部線性模型和局部在策略 imagination rollout,加速對(duì)模型無(wú)關(guān)的連續(xù)Q學(xué)習(xí),并證明了這能帶來(lái)樣本復(fù)雜度方面的顯著進(jìn)步。
7. 討論
我們?cè)谖闹刑剿髁藥追N方法,提高模型無(wú)關(guān)的深度強(qiáng)化學(xué)習(xí)的樣本使用效率。我們首先提出了一種方法,把標(biāo)準(zhǔn)Q學(xué)習(xí)方法應(yīng)用于高維、連續(xù)領(lǐng)域,并使用了 NAF 表示。這讓我們能夠簡(jiǎn)化更常見(jiàn)的 actor-critic 式算法,同時(shí)保留非線性價(jià)值函數(shù)逼近器的好處。
與近年提出的深度 actor-critic 算法相比,我們的方法常常學(xué)得更快,能獲得更準(zhǔn)確的策略。我們進(jìn)一步探索了模型無(wú)關(guān)的強(qiáng)化學(xué)習(xí)如何能通過(guò)整合已學(xué)到的模型而獲得加速,并不需要在面臨不完美模型學(xué)習(xí)時(shí)犧牲策略優(yōu)化方面的代價(jià)。盡管Q學(xué)習(xí)能包含離策略經(jīng)驗(yàn),(通過(guò)基于模型的規(guī)劃)從離策略探索中學(xué)習(xí)只在極少情況下提高了算法的總體樣本使用率。我們假定原因是為了獲取對(duì)Q函數(shù)的準(zhǔn)確估計(jì),需要同時(shí)觀察成功和不成功的行動(dòng)。另一種基于綜合在策略 rollout 的替代方法能顯著改善樣本復(fù)雜度。我們表明,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型并不能在我們的這一領(lǐng)域中取得實(shí)質(zhì)性改善,而就讓隨時(shí)間變化的線性模型反復(fù)再適應(yīng),卻能在它們所應(yīng)用的領(lǐng)域中帶來(lái)顯著的提高。
【點(diǎn)評(píng)】本文提出了使用模型對(duì)Q-learning進(jìn)行加速的算法。本文由兩個(gè)創(chuàng)新點(diǎn)。首先,本文提出了normalized advantage function作為Q-learning的目標(biāo)。更重要的是,本文提出了使用一個(gè)線性的模型為Q-learning產(chǎn)生訓(xùn)練數(shù)據(jù)。在本文的實(shí)驗(yàn)中,線性模型產(chǎn)生的數(shù)據(jù)產(chǎn)生了很好的作用。但是,對(duì)于更加復(fù)雜的Q-learning問(wèn)題,比如以圖像作為輸入的問(wèn)題。線性模型是否是一個(gè)很好的模型還存在疑問(wèn)。
下輯將于明天發(fā)布,敬請(qǐng)期待
專家介紹
王江,在復(fù)旦大學(xué)獲得學(xué)士和碩士學(xué)位,在美國(guó)西北大學(xué)獲得博士學(xué)位。曾在微軟亞洲研究院、微軟Redmond研究院、Google研究院、Google圖像搜索組實(shí)習(xí),現(xiàn)在百度硅谷的深度學(xué)習(xí)實(shí)驗(yàn)室任資深研究科學(xué)家。他的研究成果在頂級(jí)學(xué)術(shù)會(huì)議和期刊PAMI、CVPR、ICCV、ECCV、 ICLR、CIKM中發(fā)表論文20余篇,并被廣泛引用總共近1000次。他的工作在Google和百度的圖像檢索系統(tǒng)、人臉識(shí)別系統(tǒng)和大規(guī)模深度學(xué)習(xí)中均得到了廣泛的應(yīng)用。
「招聘」
全職記者、編譯和活動(dòng)運(yùn)營(yíng)
歡迎實(shí)習(xí)生
以及人工智能翻譯社志愿者
詳細(xì)信息請(qǐng)進(jìn)入公眾號(hào)點(diǎn)擊「招聘」
或發(fā)郵件至 jobs@aiera.com.cn
新智元招聘信息請(qǐng)點(diǎn)擊“閱讀原文”
聯(lián)系客服